采集财富杂志的列表页，样例复制总是有漏的

Thematic

任务名：forune-coronavirus
列表页每页有15篇文章，只能抓到13个，漏掉2个。帮看看是怎么回事

Fuller · 发表于 2020-2-6 15:40:49

点击测试按钮，切换到“数据规则”tab，可以看到生成的采集规则，每个抓取内容一般会自动选择一个定位标志，html节点的class或者id。

看截图中的红框，前两条的title自动选择的定位标志是不一样的，那么只能采集下来一种。要避免掉这个问题。我建议继续使用定位标志，可以提高规则适应性，编辑一下，用自定义xpath。

双击每个抓取内容，弹出来高级设置窗口，比如，title这个抓取内容
1，勾上“自定义xpath”、
2，勾上内容类型“文本内容”
3，输入抓取内容表达式。这个表达式从原先的规则中拷贝过来，是

.//*[@class='termArchiveContentListItem__title--14jcP']/a/div

复制代码

使用contains函数，而且不要完整的class值，变成

.//*[contains(@class,'termArchiveContentListItem__title')]/a/div

复制代码

4，再勾上兼做定位。

自定义xpath就设定好了，把每个抓取内容根据需要设置一下

采集财富杂志的列表页，样例复制总是有漏的

共 1 个关于本帖的回复最后回复于 2020-2-6 15:40

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

采集财富杂志的列表页，样例复制总是有漏的

共 1 个关于本帖的回复 最后回复于 2020-2-6 15:40

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 1 个关于本帖的回复最后回复于 2020-2-6 15:40