2016-5-30 16:24| 发布者: ym| 查看: 9241| 评论: 4
采集网页上的表格数据,跟采集其他网页数据的基本操作是一样的。具体来说就是,把第一行作为样例,对每个格子建立抓取内容并做映射,然后对第一行和第二行做样例复制映射,就能把整个表格抓下来,如果还要翻页的话,那就在爬虫路线里设置翻页就行了。注意:同一列表格也可能会有不同的结构,从而造成漏抓或抓错,这也是表格数据的难点,但可以调整整理箱定位偏好或自定义xpath来解决。
点击观看培训视频
北极光
zjq12maomao: 能不能带上表头那行抓取整个表格?
fendoudeqinger: 那如果一个网页中有好几个表格的行内容相同怎么定向抓取啊
查看全部评论(4)
评论
GMT+8, 2024-11-21 18:40