采集网站的详情页面的某个DIV结构不同，导致这个div里数据采集不到

z417566919

提示: 作者被禁止或删除内容自动屏蔽

gz51837844 · 发表于 2021-11-6 18:07:20

这2个页面的摘要部分，都在@class='panel-body line-height text-justify' 的div下面，可以据此做定位和内容映射。不过抓下来的文字不是非常精确，需要在excel里再做一下处理。
也可以同一个任务名下，针对每种结构单独做一个规则，参看这篇旧版本软件的文档，原理是一样的：《怎么在同一个主题名下建立多个规则》

z417566919 · 发表于 2021-11-11 09:27:06

提示: 作者被禁止或删除内容自动屏蔽

wangyong · 发表于 2021-11-11 10:01:37

z417566919 发表于 2021-11-11 09:27
同一个任务名下2个规则也不好使，详情页里不仅采集“摘要”数据，还有文章标题、作者等结构一致的信息，运 ...

concat(//*[@class='panel-body line-height text-justify']/p[1],//*[@class='panel-body line-height text-justify']/*[2])

复制代码

只做一个规则就行，按照图中的方式设置自定义xpath

采集网站的详情页面的某个DIV结构不同，导致这个div里数据采集不到

共 3 个关于本帖的回复最后回复于 2021-11-11 10:01

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

z417566919 积分253 精华0 威望110 金钱2 最后登录 1970-1-1 加为好友发送消息访问家园个人资料主题列表发消息	板凳 z417566919 禁止发言发表于 2021-11-11 09:27:06 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽

	举报使用道具回复支持反对

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

采集网站的详情页面的某个DIV结构不同，导致这个div里数据采集不到

共 3 个关于本帖的回复 最后回复于 2021-11-11 10:01

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 3 个关于本帖的回复最后回复于 2021-11-11 10:01