爬虫路线
互联网的页面由超链接相互连接起来就像一张蜘蛛网,DS打数机称为网络爬虫,就像一只蜘蛛从一个给定的页面开始,顺着这张网无限延伸,抓取页面上的链接以获取新的页面网址,然后对新的页面信息进行抓取。 在使用MS谋数台定义抓取规则的时候,用户在爬虫路线工作台上进行规划,主要是定义怎样向深层次延伸。 GooSeeker集搜客大数据平台对爬行深度和广度不设限,您想让爬虫爬多远都行,想爬多广都行,集搜客完全开放爬虫能力,不收取额外费用,也拒绝用不同软件版本区别对待用户。还可以启用集搜功能和会员互助功能,集众人之力,号召成百上千会员短时间内实现海量数据抓取。 |
oubinke: 那是不是有一种并行操作的意思呢?那同时抓取同一个主题的话,所得到的结果会不会重复呢
bowieD: 每一个规则都可以用一个集搜窗口来运行采集,“与原来的管理窗口同时抓取网页数据”的意思是 是集搜窗口与管理窗口同时抓取同一个主题的网页数据。 ...
oubinke: “点击主题的“集搜”按钮后,弹出“抓取网页”会话窗口,设置抓取线索数量并确定后,将会自动弹出新的简化版DS打数机窗口(集搜窗口),与原来的管理窗口同时抓 ...
a12345617: 什么工具,一点都不会。完全不知道要干什么
waq0902: 单搜和集搜的设置线索数是什么意思?什么情况下线索不是1?