威海网络公司:爬行、抓取、索引、收录,指的-网站优化-威海志成网络公司-提供威海网站_微信小程序_网络推广等网络营销解决方案!
当前位置:首页>>新闻资讯>>网站优化

威海网络公司:爬行、抓取、索引、收录,指的

发表日期:2017-09-11 07:03:12文章编辑:admin浏览次数:667 标签:

  【威海网络公司讯】9月11日,爬行、抓取、索引、收录这些概念到底指的是什么,区别在哪,noindex、nofollow、robots文件的功能又是什么。?

  爬行是什么?

  爬行指的是搜索引擎蜘蛛从已知页面上解析出链接指向的URL,然后沿着链接发现新页面(也就是链接指向的URL)的过程。当然,蜘蛛并不是发现新URL马上就爬过去抓取新页面,而是把发现的URL存放到待抓地址库中,蜘蛛按照一定顺序从地址库中提取要抓取的URL。

  抓取是什么?

  抓取是搜索引擎蜘蛛从待抓地址库中提取要抓的URL,访问这个URL,把读取的HTML代码存入数据库。蜘蛛的抓取就是像浏览器一样打开这个页面,和用户浏览器访问一样,也会在服务器原始日志中留下记录。

  索引是什么?

  索引指的是将一个URL的信息进行整理,存入数据库,也就是索引库,用户搜索时,搜索引擎从索引库中提取URL信息并排序展现出来。索引的英文是index。索引库是用于搜索的,所以被索引的URL是可以被用户搜索到的,没有被索引的URL用户在搜索结果中是看不到的。

  要注意的是,所谓“一个URL的信息“,并不限于蜘蛛从URL上抓取来的内容,还有来自其它来源的信息,如外部链接、链接的锚文字等。有的时候,索引库中关于这个URL的的信息,根本没有从这个URL抓取来的内容,但搜索引擎知道这个URL的存在,并且有一些其它信息。

  抓取和索引不是一回事。

  收录是什么?

  我个人觉得收录和索引没有区别。只不过收录是从搜索用户角度看的,搜索时能找到这个URL,就是这个URL被收录了。从搜索引擎角度看,URL被收录了,也就是这个URL的信息在索引库中存在。英文并没有收录这个词,和索引用的是同一个词index。

  noindex的作用是什么?

  页面头信息中放上meta noindex标签是告诉搜索引擎不要索引这个URL,也就是用户搜索时找不到这个URL的信息,这个URL不会返回在搜索结果列表中。

  noindex不是告诉搜索引擎不要抓取这个URL,实际上,noindex要起作用,这个URL是必须先被抓取的,不然搜索引擎怎么看到页面HTML代码中有noindex标签呢?

  robots文件的作用是什么?

  robots文件是告诉搜索引擎,某些URL不要抓取。注意,这里说的是不要抓取,没说不要索引。和noindex是正相反的。

  nofollow的作用是什么?

  给链接加上nofollow属性是告诉搜索引擎,不要沿着这个链接爬行,就当这个链接不存在。注意,nofollow只是告诉蜘蛛不要爬这个链接,没有说不要抓取链接指向的URL,也没有说不要索引链接指向的URL,nofollow既没禁止抓取,也没禁止索引。

  概念说过后,指出几个SEO们经常弄不明白的情况:

  没有被抓取的页面是可以被索引的

  也就是说,蜘蛛没有访问和抓取这个页面(比如被robots文件禁止抓取),这个页面却有信息存在索引库中,用户搜索时还能看到。

  比如,淘宝整个网站用robots文件禁止百度蜘蛛抓取,但没有用noindex禁止索引(如上面说的,禁止抓取后,就没办法禁止索引了,不抓取,就看不到noindex标签了),所以即使百度没有访问和抓取淘宝页面,但淘宝很多页面是被百度索引的,用户可以搜到的:

  百度从网上那么多链接知道淘宝首页的存在,通过链接的锚文字也知道这个页面标题大概是淘宝之类的,当然更知道百度口碑里的评价数。所以即使百度蜘蛛没有抓取淘宝首页,用户还是能搜到,并且显示一些百度知道的信息。

  要想百度不能返回淘宝首页该怎么办呢?取消robots文件的禁止抓取,页面上用noindex禁止索引。

  被抓取的页面是可以不被索引的

  最常见的就是上面说过的,页面头信息使用noindex禁止索引,页面被抓取,读到noindex后,不被索引,不会在搜索结果中返回。

  还有可能是因为页面内容是抄袭、转载、低质量的,搜索引擎虽然抓取了页面,索引过程中检测出这些内容问题,被丢弃,没有被索引。所以页面没有被收录,通常要先检查原始日志,看看是否被抓取过,如果被抓取过,可能是内容质量问题,如果根本没被抓取,建议先看看网站结构是否有问题。

  加了nofollow的链接目标页面可以被抓取和索引

  nofollow既不禁止抓取,也不禁止索引。nofollow的作用是告诉蜘蛛不要跟着这个链接爬,就当这个链接不存在,但nofollow只对这个链接起作用,对别的链接没作用,这个链接加了nofollow,不意味着别的地方就没有正常的指向这个URL的链接,只要别的地方出现了没加nofollow的链接,目标URL还是会被发现、抓取(假设没被robotx文件禁止)、索引(假设没加noindex )。

  文章整理:威海网络公司 http://www.zccn.cc

相关新闻

志汇云商城 | 用户隐私设置

配置位置 记住一定要配置15个才能全功能自己填写appid方式既非授权方式小程序配置位置如果是使用授权三方小程序配置位置:总共15个内容用户信息(微信昵称、头像):帮助用户设置个人信息位置信息帮助用户完善收货地址信息及进行个性化内容展示地址帮助用户完善收货地址信息发票信息帮助用户获取发票信息微信运动数据...

日期:2024-04-08 浏览次数:226

AI智能翻译|页面、产品、新闻,一键翻译完成

文章整理:威海网络公司 https://www.zccn.cc...

日期:2024-03-11 浏览次数:297

小程序备案和腾讯手机号验证收费新规,必看!

各位商家朋友注意了!微信近期有一些重大调整,与我们商家息息相关,请大家仔细阅读并转发互相提醒!1、小程序备案通知为贯彻落实《中华人民共和国反电信网络诈骗法》、《互联网信息服务管理办法》及《非经营性互联网信息服务备案管理办法》等法律法规要求,配合相关部门做好移动互联网信息服务管理,根据2023年8月4日工信部...

日期:2024-02-26 浏览次数:341

微信小程序备案指引

一、小程序备案法律法规参考1、《中华人民共和国反电信网络诈骗法》 第二十三条 设立移动互联网应用程序应当按照国家有关规定向电信主管部门办理许可或者备案手续。2、《互联网信息服务管理办法》 第四条 国家对经营性互联网信息服务实行许可制度;对非经营性互联网信息服务实行备案制度。未取得许可或者未履行备案手续的,...

日期:2024-02-26 浏览次数:326

双十一提前准备,微信小程序获客爆单指南

每年的双十一,各个电商平台都使出了浑身解数,只有你想不到的,没有商家爸爸想不到的方法。今年的双十一活动已经默默敲响,但与过去不同的是,今年受到大环境的影响,商家纷纷做起了私域流量带货,利用微信小程序获客营销,希望能够在双十一期间绝地反击,为年初的影响好好「回血」。电商零售裂变拉新分销裂变...

日期:2023-10-19 浏览次数:364

小程序常见的4个引流方法

一、威海小程序通过关键词引流。当用户需要一个小程序时,他们会习惯性地在微信上搜索,与用户搜索词相关的小程序会优先显示给用户。因此,企业在确定小程序名称时,可以选择用户经常搜索的关键词,这样用户就可以搜索到企业的小程序。而且小程序越早开通,排名就越高,所以企业注册开发小程序要趁早。二、使用...

日期:2023-10-19 浏览次数:358