如题。
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2015-12-21 15:27

沙发
Fuller 管理员 发表于 2015-12-18 19:23:26 | 只看该作者
很久很久以前,我整理过一篇文章:Dark Web ---- 万维网正在变暗? 。熟悉网络爬虫的朋友可能知道,Google,百度等通用网络爬虫都要遵守一个robots规则,网站让你爬的你才能爬,虽然这是一个非强制要求,但是通常大家都友好坚守原则。除了为了保护一些信息以外,其实主要是为了防止网络爬虫迷路。所以,整个web的绝大多数都是暗的。

也是很久以前,百度推出了阿拉丁计划,其中一个口号是发掘暗网。也说明掩盖在黑暗中的有价值信息很多很多。

因为很多信息的价值太高,为了防止爬虫过度地访问网站造成处理压力,光靠robots不够,需要对频繁访问做屏蔽。通常会根据蜘蛛所用的IP地址作为一个判断依据。GooSeeker采用分布式方式,可以大大降低被封锁的可能,即便被封锁,可以很容易换IP或者换地方
举报 使用道具
板凳
xandy 论坛元老 发表于 2015-12-21 14:17:43 | 只看该作者
Fuller 发表于 2015-12-18 19:23
很久很久以前,我整理过一篇文章:Dark Web ---- 万维网正在变暗? 。熟悉网络爬虫的朋友可能知道,Google ...

防止爬虫迷路该如何理解呢。
举报 使用道具
地板
Fuller 管理员 发表于 2015-12-21 15:27:35 | 只看该作者
xandy 发表于 2015-12-21 14:17
防止爬虫迷路该如何理解呢。

目前除了做一个公司门面网站要定制开发以外,通常都会用一个CMS系统管理网页内容,比如,Discuz,Drupal,WordPress等。这样的CMS本身是一套复杂软件系统,用户输入的URL地址中会有很长的参数,可能代表从哪里跳转过来的、当时的上下文场景等等,相同一个网页内容会有多个网址指向它,可能只是参数有些细微差别。
在这样的环境下,超链接串在一起很容易形成一个死循环,就把网络爬虫陷里面了。就需要在robots.txt中规定哪些参数的网址不要访问。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 08:44