同一类型网站，内部稍有不同，是否能实现精确抓取

viperliu

专家大神好，
目前需要抓取黑猫投诉相关投诉信息，其中包括投诉详情。
但是不同的投诉，其处理进度不同，导致其位置有些许不同（如下图两例）
如果以某个页面为例，直接抓取对应位置，会导致部分网页的投诉详情无法抓取
目前采用的是抓取整个区域，再在excel上进行删除，但感觉很耗费时间（数据总量3000+）
不知道是否有更加简便高效的方法，即仅精确抓取投诉详情部分？
不胜感激！

Fuller · 发表于 2019-11-8 08:16:32

每一条的样式不一样，通过选择不同的定位偏好，或者用绝对定位，可以避免样式的影响

viperliu · 发表于 2019-11-8 15:10:59

Fuller 发表于 2019-11-8 08:16
每一条的样式不一样，通过选择不同的定位偏好，或者用绝对定位，可以避免样式的影响
...

规则名称：
实证_黑猫投诉单条信息抓取_绝对定位尝试设置class优先或id优先，选择有class名称的行进行爬取，但同样会出现错位（同一class名称在同一网页内多次出现）。另外，网页无id信息
麻烦问下这种情况后面应该怎么处理，一定要自定义xpath吗？
感谢！

viperliu · 发表于 2019-11-8 15:50:54

Fuller 发表于 2019-11-8 08:16
每一条的样式不一样，通过选择不同的定位偏好，或者用绝对定位，可以避免样式的影响
...

或者说我目前的需求就是抓取每条投诉详情中最下面的一条信息，这个逻辑应该如何构建。麻烦专家了！

Fuller · 发表于 2019-11-8 19:19:33

只想要“发起投诉”的那一块？不要“商家处理”这些？
这样就要根据“发起投诉”这个词做自定义xpath。
每一条的结构都一样，我觉得不如做个规则把所有条都采集下来，在excel中把含有“发起投诉”的过滤出来就行了，这样最简单

viperliu · 发表于 2019-11-8 23:30:18

Fuller 发表于 2019-11-8 19:19
只想要“发起投诉”的那一块？不要“商家处理”这些？
这样就要根据“发起投诉”这个词做自定义xpath。
每 ...

好的，非常感谢，我觉得您最后提的这个方法很好，我再尝试一下

同一类型网站，内部稍有不同，是否能实现精确抓取

本帖子中包含更多资源

共 5 个关于本帖的回复最后回复于 2019-11-8 23:30

本帖子中包含更多资源

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

同一类型网站，内部稍有不同，是否能实现精确抓取

本帖子中包含更多资源

共 5 个关于本帖的回复 最后回复于 2019-11-8 23:30

本帖子中包含更多资源

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 5 个关于本帖的回复最后回复于 2019-11-8 23:30