专家大神好,
目前需要抓取黑猫投诉相关投诉信息,其中包括投诉详情。
但是不同的投诉,其处理进度不同,导致其位置有些许不同(如下图两例)
如果以某个页面为例,直接抓取对应位置,会导致部分网页的投诉详情无法抓取
目前采用的是抓取整个区域,再在excel上进行删除,但感觉很耗费时间(数据总量3000+)
不知道是否有更加简便高效的方法,即仅精确抓取投诉详情部分?
不胜感激!


案例1.png (107.13 KB, 下载次数: 481)

案例1.png

案例2.png (21.34 KB, 下载次数: 509)

案例2.png
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2019-11-8 23:30

沙发
Fuller 管理员 发表于 2019-11-8 08:16:32 | 只看该作者
每一条的样式不一样,通过选择不同的定位偏好,或者用绝对定位,可以避免样式的影响
举报 使用道具
板凳
viperliu 初级会员 发表于 2019-11-8 15:10:59 | 只看该作者
Fuller 发表于 2019-11-8 08:16
每一条的样式不一样,通过选择不同的定位偏好,或者用绝对定位,可以避免样式的影响
...

规则名称:
实证_黑猫投诉单条信息抓取_绝对定位尝试设置class优先或id优先,选择有class名称的行进行爬取,但同样会出现错位(同一class名称在同一网页内多次出现)。另外,网页无id信息
麻烦问下这种情况后面应该怎么处理,一定要自定义xpath吗?
感谢!


举报 使用道具
地板
viperliu 初级会员 发表于 2019-11-8 15:50:54 | 只看该作者
Fuller 发表于 2019-11-8 08:16
每一条的样式不一样,通过选择不同的定位偏好,或者用绝对定位,可以避免样式的影响
...

或者说我目前的需求就是抓取每条投诉详情中最下面的一条信息,这个逻辑应该如何构建。麻烦专家了!
举报 使用道具
5#
Fuller 管理员 发表于 2019-11-8 19:19:33 | 只看该作者

只想要“发起投诉”的那一块?不要“商家处理”这些?
这样就要根据“发起投诉”这个词做自定义xpath。
每一条的结构都一样,我觉得不如做个规则把所有条都采集下来,在excel中把含有“发起投诉”的过滤出来就行了,这样最简单
举报 使用道具
6#
viperliu 初级会员 发表于 2019-11-8 23:30:18 | 只看该作者
Fuller 发表于 2019-11-8 19:19
只想要“发起投诉”的那一块?不要“商家处理”这些?
这样就要根据“发起投诉”这个词做自定义xpath。
每 ...

好的,非常感谢,我觉得您最后提的这个方法很好,我再尝试一下
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 02:02