集搜客想让你最便捷地获取数据,让你有“要什么就抓什么”的感觉,要记住核心要领: 第一步:先建立一个箱子,这里要存储你想抓的内容(术语叫整理箱) 第二步:接着告诉集搜客程序,网页上哪个内容需要丢到箱子中(术语叫:映射) 集搜客能自动生成抓取规则。不用从技术角度去规划怎样循环,集搜客能自动处理这些技术过程。掌握了这两个要领,我们看看细节吧。 对集搜客功能按钮有一定了解后,下面将讲解集搜客的实操应用,下面以采集论坛的标题、回复数为例,讲解整个使用流程,也可以先了解一下爬虫的工作原理。 第一步:用MS谋数台建立整理箱1.1确定目标网页和抓取内容 确定样本页面和要抓取的网页信息(即抓取内容),根据网页信息的结构,建立一个整理箱,用于存储采集的网页信息。
1.2命名主题 输入目标网址并加载出样本页面,为这个采集规则起个名字,以后需要查看和修改规则时,就要在“搜规则”窗口里输入该主题名或*进行查找,如图1。
图1 命名主题
1.3创建整理箱 根据要抓取的网页信息,建立整理箱来存储这些信息,整理箱结构基本上是对应目标信息的网页结构建立的。
图2:创建整理箱
第二步:把网页信息映射到整理箱2.1单点采集:内容映射 要想从网页上抓数据,就得告诉软件要采集哪些信息,这个过程叫做“映射”。如图3,把网页上第一条帖子的标题和评论数量信息映射给整理箱的“标题”、“评论数量”,这样就能把网页上的单条信息采集下来。
图3:建立映射关系
2.2批量采集:样例复制 如果网页上有多条结构相同的信息,我们把这样的一条结构信息称之为样例,多条结构化信息就是多样例。如图3,整理箱里只对第一条信息做映射,就只得到一条样例信息。但只要再做上样例复制映射,如图4,就能把该网页所有相同结构的信息都采集下来。 图4:样例复制
Tips:如需翻页采集,就要在规则的爬虫路线里设置翻页,具体操作请看翻页采集教程 2.3测试规则有效性 定义好规则后,可以测试一下规则是否能采集到完整的目标信息,如图5。 图5:测试
2.4保存规则 测试没问题后,点击“存规则”按钮,把规则保存到服务器中,如需修改规则请看文章如何查看、修改、另存、删除规则,如图6。
图6:存规则
第三步:用DS打数机抓取网页数据3.1运行DS打数机采集数据 DS打数机就是一个网络爬虫,会根据采集规则,执行网页数据提取操作,如图7。 图7:启动DS打数机抓取网页数据
3.2添加或激活线索 做好一个采集规则,可以批量采集相同结构的网页。例如,做了百度搜索结果的采集规则,可以把不同关键词的搜索网址导入到规则里进行采集,不用针对每个网址都做一个规则。参考教程如何添加或激活线索 扩展阅读: |
myselfbing: 感觉“谋数台、打数机”这种软件命名怪怪的,不像其他抓取软件这么好理解。看半天教程还没摸到头脑。
tthaizhiguang: 启动了启动DS打数机,也搜到了主题, 但是: - 点击爬数据,出现错误,错误提示: Failed: Crawl cannot be initiated from the state of FAILED - 点击 “ ...
tthaizhiguang: 可以抓数据了, 不过这个例子好像只是实现了单页数据的抓取,即只抓了列表第一页的内容,怎么实现多页的数据抓取啊 ?? ...
For数据: 暂时还没发布,你可以查看社区<a href="http://www.gooseeker.com/doc/thread-184-1-1.html" target="_blank">http://www.gooseeker.com/doc/thread-184-1-1.html</a>如何将html文件转换成excel实现
zhouzhou1: 文章“如何用Excel打开和查看XML文件” 在哪?好像没看到。。。。。