本帖最后由 ym 于 2015-8-21 10:18 编辑
资源库的使用方法如下: 1、 下载规则 去资源库下载规则后,就会提示可以现在运行;如果想以后再运行的话,可以到个人主页“我的资源”->“我的下载”中查看下载的资源,点击运行就可以启动该规则的抓取任务(前提是有等待抓取的线索)。
2、 运行抓数据
现在运行的话,抓取的数据就是样本网址所在页面的数据,这个一般是给用户测试用的,如果运行正常就说明规则是有效的; 如果不想要这些数据,可以在数据抓取完后,把抓到的数据文件清空(点击“文件”菜单->“存储路径”,查看存储数据的文件夹,也可以修改存储路径);
或者是右击主题名,选择“管理线索”->“撤销所有线索”就可以把所有线索的状态改为成功抓取的状态,这样除非重新“添加”线索或“激活所有线索”,否则撤销的线索就不会再使用了; 右击主题名,选择“管理线索”->“添加”,输入目标网址并保存,每行一个网址,如果网址很多的话,也可以通过excel批量粘贴网址;
4、输入网址数量后直接抓数据
点击主题名右侧的“单搜”按钮或者“集搜”按钮,输入要抓取的网址数量就可以启动抓取任务。(可以右击主题名,选择“统计线索”统计一下有多少网址数量); 注意:如果抓取数据的时候突然关闭DS打数机,那么正在抓取的网址线索就会被当作是抓取失败的线索,可以通过“管理线索”->”激活失败线索”来激活,然后重新抓取。
|
共 7 个关于本帖的回复 最后回复于 2015-8-21 15:37