配套软件版本:V9及更低 集搜客网络爬虫软件 新版本对应教程:V10及更高 数据管家——增强版网络爬虫 的对应教程是《集搜客网络爬虫的核心名词》 注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。 集搜客网络爬虫的操作方法很直观,想要什么,就把他们标记出来,网络爬虫就会自动把他们存下来。标记过程很自由,不讲究顺序。 一、直观标注 在网页上,看到想采集的内容,点击两次,就弹出一个标签,给标签起个名字。把所有要采集的内容逐个这样标注。不分先后顺序。 二、整理箱 采集到的内容要存到一个表格里面,这个表格就叫整理箱,表示:“把网页上的内容整理好,存在一个箱子中”。这个整理箱显示在右边的一个浮动工作台上。 三、映射 “映射”这个词经常出现,表示:“把网页上的内容与整理箱中的标签建立联系”。标注过程就是建立映射关系,有了这个关系,网络爬虫就知道从哪里采集数据并存储到哪里。 开始阅读《从入门到精通》 |
wyw_up: 怎么循环点击抓取啊,谁能帮我下
18021015980: 新手上路???根本看不懂,上啥路?客户一个劲的让定制
machuhui: 没意思