您现在的位置是:首页 > 新闻中心 > 蜘蛛程序是如何追踪爬寻找到你的网站?

蜘蛛程序是如何追踪爬寻找到你的网站?

管理员 2020-12-03 17:34 91

摘要:   搜索引擎在有能力告诉你文件或文档存储在何处之前,必须先找到它们。为了在现有的数亿网页中找到信息,搜索引擎使用了一种特殊的软件...

 蜘蛛程序是如何追踪爬寻找到你的网站?

  搜索引擎在有能力告诉你文件或文档存储在何处之前,必须先找到它们。为了在现有的数亿网页中找到信息,搜索引擎使用了一种特殊的软件机器人,称之为蜘蛛程序,以此生成在网站上查询到的词语列表。蜘蛛程序建立词语列表的过程被称为爬网。为了建立并维护一份有用的词语列表,搜索引擎的蜘蛛程序需要游历大量网页。

  蜘蛛程序如何爬寻

  通常起点是那些访问量很大的服务器和热门网页。蜘蛛程序从一个很受欢迎的网站开始,检索网页上的词语并追踪在该网站上找到的每个链接。这样,蜘蛛程序迅速开始了旅行,爬遍网上绝大多数经常访问的网站。

  谷歌实例

  Google的前身是一个学术搜索引擎。在介绍该系统开发过程的论文中,举例说明了他们的蜘蛛程序工作得有多快。他们最初开发的系统使用多个蜘蛛程序——通常是三个。每个蜘蛛程序可以同时打开300个链接。最多可以同时使用四个蜘蛛程序,此时该系统每秒可以游历100多个网页,生成大约600KB的数据。

蜘蛛程序是如何追踪爬寻找到你的网站?

  运行原理

  要保证一切都快速运行,意味着必须开发一套系统来为蜘蛛程序提供必要信息。早期Google系统有一个专门为蜘蛛程序提供链接信息的服务器。为了尽可能减少延时,Google没有依靠互联网服务提供商提供的域名服务器(DNS)来将服务器名翻译为网址,而是准备了自己的域名服务器。

  访问记录

  当Google的蜘蛛程序访问一个HTML网页时,它会记录以下两种信息:网页中的词语词语所在位置出现在标题、副标题、元标记以及其他相对重要的位置的词语,会被记录下来,这些词语往往是日后用户搜索时经常使用的。Google蜘蛛程序的设计旨在检索网页中的每一个重要单词,其他蜘蛛程序采用不同的方法。这些方法通常是为了尽量加快蜘蛛程序的速度,或使用户可以更有效地进行搜索,有些蜘蛛程序会追踪标题、副标题和链接中的词语,以及网页中最常用的100个词和文章前20行中的每一个词。

 

相关推荐

表情

共 0 条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~
关闭

用微信“扫一扫”