线索
爬虫路线一节形象地把爬虫路线比喻成一张蜘蛛网,那么线索就是其中一段丝线,这样就可以简单定义为通往目标页面的路径。 因为目标页面用网址表示,所以,一条线索对应一个目标页面的网址。用户使用DS打数机加载目标页面并抓取目标页面的内容以及新的线索。这个过程可以形象理解成顺着一条线索达到了一个页面,而在这个页面抓取到的新线索就为爬虫拓展了更大的爬行范围。 图6:规划爬虫路线 |
oubinke: 那是不是有一种并行操作的意思呢?那同时抓取同一个主题的话,所得到的结果会不会重复呢
bowieD: 每一个规则都可以用一个集搜窗口来运行采集,“与原来的管理窗口同时抓取网页数据”的意思是 是集搜窗口与管理窗口同时抓取同一个主题的网页数据。 ...
oubinke: “点击主题的“集搜”按钮后,弹出“抓取网页”会话窗口,设置抓取线索数量并确定后,将会自动弹出新的简化版DS打数机窗口(集搜窗口),与原来的管理窗口同时抓 ...
a12345617: 什么工具,一点都不会。完全不知道要干什么
waq0902: 单搜和集搜的设置线索数是什么意思?什么情况下线索不是1?