得知互动

标题: 什么是爬虫以及爬虫的发展史 [打印本页]

作者: swmozowtfl 时间: 2015-5-20 12:43
标题: 什么是爬虫以及爬虫的发展史
难得的星期天，在家窝了一天。看了看搜索引擎原理这本书。主要讲的是搜索引擎的原理和发展，如果还没有看到这本书的朋友，那么今天就给大家分享下之中的一个知识点—什么是爬虫以及爬虫的发展史。之所以选择看这本书也是受到了朋友的启发。做SEO这一行，要想做好SEO技术，就必须了解搜索引擎。正所谓知己知彼，才能百战不殆啊。扯远了，如正题。
(, 下载次数: 7)
什么是爬虫？搜索引擎原理中是这样说的：爬虫也称为“Wanderers”(漫步者)或者“Robots”(机器人)，我们常说的百度爬虫经常用后者代替。它首先是一组运行在计算机的程序，在搜索引擎中负责抓取时新的且公共可访问的web网页、图片和文档等资源。这种抓取的过程为通过下载一个网页，分析其中的链接，继而漫游到其他链接指向的网页，循环往返。
爬虫的发展史要从第一个爬虫开始讲起。那么下面给大家介绍下世界上第一个爬虫，爬虫简称是一种自动抓取网页信息的机器人。世界上第一个爬虫是由麻省理工学院的学生马休·格雷在1993年写的，并给他起了一个名字“万维网漫步者”。尽管其编写目的不是为了做搜索引擎，但正是这我们这一生我们这一生我们这一生革命的创新，为以后的搜索引擎发展和今天的广泛应用提供了坚实的基础。
现代搜索引擎的思路源于Wanderes，不少人改进了马休·格雷的蜘蛛程序。1994年7月，Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中，创建了当时著名的搜索引擎Lycos。这应该也算是第一个搜索引擎了。其后无数的搜索引擎促使了爬虫越写越复杂，并逐渐向多策略、负载均衡及大规模增量抓取等方向发展。爬虫的工作成果是的搜索引擎能够渐叟几乎全部的万维网页，甚至被删除的网页也可以通过”网页快照“的功能访问。
以上就是互联网那些事今天给大家介绍的关于什么是爬虫以及爬虫的发展史问题，我们只有了解了爬虫以及他的发展史，才能更好地做好SEO技术。同时欢迎广大朋友继续关注互联网那些事，平台就继续为大家提供SEO技术分享等一些资讯。

原文出处链接http://www.itnaxieshi.com/pachong.html
搜外论坛原创作者：哈哈王子3136
日期：2014.12.22



(, 下载次数: 2) 这只是早期的，现在的复杂多了。                                              难得的星期天，在家窝了一天。看了看搜索引擎原理这本书。主要讲的是搜索引擎的原理和发展，如果还没有看到这本书的朋友，那么今天就给大家分享下之中的一个知识点—什么是爬虫以及爬虫的发展史。之所以选择看这本书也是受到了朋友的启发。做SEO这一行，要想做好SEO技术，就必须了解搜索引擎。正所谓知己知彼，才能百战不殆啊。扯远了，如正题。
<img id="aimg_C52Aw"  class="zoom" width="300" height="129" pold="http://www.itnaxieshi.com/wp-content/uploads/2014/12/2141150%E5%89%AF%E6%9C%AC-300x129.jpg" border="0" alt="" />
什么是爬虫？搜索引擎原理中是这样说的：爬虫也称为“Wanderers”(漫步者)或者“Robots”(机器人)，我们常说的百度爬虫经常用后者代替。它首先是一组运行在计算机的程序，在搜索引擎中负责抓取时新的且公共可访问的web网页、图片和文档等资源。这种抓取的过程为通过下载一个网页，分析其中的链接，继而漫游到其他链接指向的网页，循环往返。
爬虫的发展史要从第一个爬虫开始讲起。那么下面给大家介绍下世界上第一个爬虫，爬虫简称是一种自动抓取网页信息的机器人。世界上第一个爬虫是由麻省理工学院的学生马休·格雷在1993年写的，并给他起了一个名字“万维网漫步者”。尽管其编写目的不是为了做搜索引擎，但正是这我们这一生我们这一生我们这一生革命的创新，为以后的搜索引擎发展和今天的广泛应用提供了坚实的基础。
现代搜索引擎的思路源于Wanderes，不少人改进了马休·格雷的蜘蛛程序。1994年7月，Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中，创建了当时著名的搜索引擎Lycos。这应该也算是第一个搜索引擎了。其后无数的搜索引擎促使了爬虫越写越复杂，并逐渐向多策略、负载均衡及大规模增量抓取等方向发展。爬虫的工作成果是的搜索引擎能够渐叟几乎全部的万维网页，甚至被删除的网页也可以通过”网页快照“的功能访问。
以上就是互联网那些事今天给大家介绍的关于什么是爬虫以及爬虫的发展史问题，我们只有了解了爬虫以及他的发展史，才能更好地做好SEO技术。同时欢迎广大朋友继续关注互联网那些事，平台就继续为大家提供SEO技术分享等一些资讯。

原文出处链接http://www.itnaxieshi.com/pachong.html
搜外论坛原创作者：哈哈王子3136
日期：2014.12.22



spider是目前搜索引擎工作原理的核心部分吧。知道其发展历史还是有点好处的，赞一个！

作者: gevaemaidovef 时间: 2016-3-14 20:09
到你的~~贴吧收藏~~~我的发言~`找

作者: seazvyt 时间: 2016-3-14 20:10
呵呵我可不敢~~~~

作者: tohme 时间: 2016-3-14 20:11
对自己好点~别难为自己

作者: seazvyt 时间: 2016-3-23 20:08
下次有人骂我了...我给他还回去..

作者: Acropozelan 时间: 2016-3-23 20:09
这是怎么了啊??

作者: tohme 时间: 2016-3-23 20:09
我率天兵天将将你打回原形~~~

作者: tohme 时间: 2016-3-23 20:09
好吧...那你说...

作者: mwxny 时间: 2016-3-23 20:09
系统居然怀疑我灌水，我身边又没有水龙头。哦…明白了，身上有一个……

作者: bqtklouu 时间: 2017-4-11 15:20
貌似我没看懂那~~~

作者: effoggikeftor 时间: 2017-4-11 15:22
去干吗啊~~~伤心啊~~~

作者: buingeEvineus 时间: 2017-4-11 15:25
这个站一周前刚刚有了点起色

欢迎光临得知互动 (https://bbs.dezhifl.com/)