快捷导航

可以抓取全部评论,但是不知道怎么抓取每条评论下面的回复,如果设置翻页区只能抓第一条评论的回复(因为不同评论下面的回复数量不一样“共**条评论”),如果设置定位映射无法提取有效网址(因为 href JavaScript:void(0)) 求教,谢谢

层级采集
林jj和林jj二级

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2020-10-15 15:25

wangyong 版主 发表于 2020-10-15 15:25:25 | 显示全部楼层
使用集搜客的微博快捷采集输入链接和关键词就能采集到数据,不需要这么麻烦的再定义规则了。 QQ截图20201015152225.png
微博转发采集入口:https://www.gooseeker.com/res/softdetail_6.html
微博评论和回复采集入口:https://www.gooseeker.com/res/da ... D%E9%87%87%E9%9B%86
数据示例
QQ截图20201015152507.png
举报 使用道具
Fuller 管理员 发表于 2019-3-23 12:21:55 | 显示全部楼层
在连续动作工作台上需要定义一个点击动作,这个点击动作的xpath要自己写
生成20190323120859.png

点击一个 共x条回复,可以看到DOM定位到A节点,选择“显示XPath:偏好class”,可以看到生成的xpath,这个xpath太通用了,容易定位到别的节点,所以要改写,利用上“共x条回复”作为筛选条件,修改成
  1. //*[@class='WB_text']/a[contains(text(), '共') and contains(text(), '条回复')]
复制代码
搜索20190323121411.png 把xpath输入到箭头指向的地方,点击“搜索”按钮,看看搜索到几个,然后点击下一个,挨个看看是不是全覆盖了

用这个xpath拷贝到连续动作那里,连续动作要使用点击类型,具体参看教程《自动点击京东价格条件

做这个规则有两个缺陷,目前不太好解决:
1,假设“共x条回复”点击一次就显示完了,那么刚才构造的那个xpath就定位不到这个回复区域了,这样就少了一个点击位置,会影响后续点击的排序。因为点击动作假定点了以后那个xpath能定位到的节点数量不变
2,有些回复太多了,点一次不行,这个规则实现不了一直点击下去
举报 使用道具
starry123 新手上路 发表于 2019-3-23 20:12:56 | 显示全部楼层
Fuller 发表于 2019-3-23 12:21
在连续动作工作台上需要定义一个点击动作,这个点击动作的xpath要自己写

嗯嗯 按照您说的写啦,而且我自己改了一下您的语句(//*[@class='WB_text']/a[contains(text(), '更多') and contains(text(), '条回复')]),二级那里也用了您说的方法加了Xpath,用连续动作实现了可以抓取全部的回复!!但现在还有一个问题是,一级连续动作指向的是林jj二级,二级里展开更多回复的时候连续动作也指向林jj二级,不知道是不是因为这个原因,只抓去了第一条评论下面的全部回复,后面评论的回复随都实现了点击,然鹅其回复均未抓取。这个问题该如何解决呢,谢谢啦~

举报 使用道具
Fuller 管理员 发表于 2019-3-23 22:33:57 | 显示全部楼层
starry123 发表于 2019-3-23 20:12
嗯嗯 按照您说的写啦,而且我自己改了一下您的语句(//*[@class='WB_text']/a[contains(text(), '更多')  ...

偏好20190323223106.png

点击定位按钮,选择偏好class,在点击测试,切换到数据规则窗口,可以看到生成的采集规则中的xpath定位变化了,把
  1. //*[@class='list_ul']
复制代码
拷贝到输入框中,点击搜索按钮,然后点击下一个,看看基本上覆盖了所有的回复,用这个设置就可以抓取全了。
连续动作以后,会抓取大量重复内容,每点击一次,抓取一次,大部分内容是重复的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 数据管家和集搜客网络爬虫超出配额是怎么回
  • 用GooSeeker数据管家能采集微博内容吗?
  • 怎样使用GooSeeker数据管家启动采集任务?
  • GooSeeker数据管家软件使用指导
  • 如何使用集搜客分词平台做社会网络图分析?

热门用户

GMT+8, 2020-10-23 14:01