【第16期】表格型数据采集

2016-5-30 16:24| 发布者: ym| 查看: 8702| 评论: 4

摘要: 采集网页上的表格数据,跟采集其他网页数据的基本操作是一样的。具体来说就是,把第一行作为样例,对每个格子建立抓取内容并做映射,然后对第一行和第二行做样例复制映射,就能把整个表格抓下来,如果还要翻页的话, ...

采集网页上的表格数据,跟采集其他网页数据的基本操作是一样的。具体来说就是,把第一行作为样例,对每个格子建立抓取内容并做映射,然后对第一行和第二行做样例复制映射,就能把整个表格抓下来,如果还要翻页的话,那就在爬虫路线里设置翻页就行了。注意:同一列表格也可能会有不同的结构,从而造成漏抓或抓错,这也是表格数据的难点,但可以调整整理箱定位偏好自定义xpath来解决。

点击观看培训视频




若有疑问可以集搜客网络爬虫
1

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (1 人)

相关阅读

发表评论

最新评论

评论 Fuller 2018-6-15 18:00
zjq12maomao: 能不能带上表头那行抓取整个表格?
要根据实际情况来判断。你能不能把这个问题发到论坛上,带上截图和网址,帮你具体分析一下
评论 zjq12maomao 2018-6-15 08:55
能不能带上表头那行抓取整个表格?
评论 ym 2016-6-29 10:45
fendoudeqinger: 那如果一个网页中有好几个表格的行内容相同怎么定向抓取啊
方法一:如果是一个网页上不用点击就显示出几个表格的情况,可以在一个规则中建多个整理箱,一个整理箱抓一个表格,并且要分别限定表格的采集范围(用到定位标志),否则容易抓错。
方法二:如果网页上有多个表格但需要点击页签才能显示出来的话,就要用到模拟点击,逐个点击,再逐个表格采集。
也可以
评论 fendoudeqinger 2016-6-29 10:32
那如果一个网页中有好几个表格的行内容相同怎么定向抓取啊

查看全部评论(4)

GMT+8, 2024-4-20 18:12