本帖最后由 mileyweng 于 2018-3-9 00:50 编辑




如图,我在爬AIRBNB上的评论。
翻页的记号不是下一页,而是一个小符号,试了用class等等都不行,全部显示【记号不允许为空/必须将记号中的特殊字符用XML转义符代替】
这个应该怎么解决呢?
急急的,希望有好心人可以来解答。谢谢!
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2018-3-9 14:59

沙发
maomao 论坛元老 发表于 2018-3-9 08:13:39 | 只看该作者
根据你的截图,你在DOM上选中的是BUTTON节点,用它做记号映射,这个不合适。你要把BUTTON点开,用里面的text(如果不空的话),@class, @id等属性做记号映射
举报 使用道具
板凳
mileyweng 新手上路 发表于 2018-3-9 11:41:59 | 只看该作者
本帖最后由 mileyweng 于 2018-3-9 11:43 编辑
maomao 发表于 2018-3-9 08:13
根据你的截图,你在DOM上选中的是BUTTON节点,用它做记号映射,这个不合适。你要把BUTTON点开,用里面的tex ...

谢谢你!可是我还是没有成功T T,爬虫的结果只是一面的评论。能再帮忙看看是哪里出了问题吗?万分感谢 !!!!




屏幕快照 2018-03-09 11.39.58.png (107.28 KB, 下载次数: 785)

记号

记号
举报 使用道具
地板
Fuller 管理员 发表于 2018-3-9 14:47:59 | 只看该作者
mileyweng 发表于 2018-3-9 11:41
谢谢你!可是我还是没有成功T T,爬虫的结果只是一面的评论。能再帮忙看看是哪里出了问题吗?万分感谢 !!! ...



点击测试查看规则按钮,选中生成的规则,拷贝到图中显示xPath框中,点击搜索,发现没有搜到节点。因为这个定位标志位于svg内,不容易定位,我尝试一下其他定位标志
举报 使用道具
5#
Fuller 管理员 发表于 2018-3-9 14:59:17 | 只看该作者

用BUTTON下面的@class做线索记号映射,是可以翻页的


但是到第二页,你的规则就不适合了。我发现这个网站的网页做的太复杂了,不如采用一个技巧:同一个主题名下可以定义两个采集规则。在第一页的时候定义一个,在第二页上定义一个,他们的主题名一样,规则编号不一样,这样每页都找到一个适合自己的

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-7 01:57