本帖最后由 ohyoo1 于 2019-2-20 18:25 编辑

快捷采集下来文本全都没有显示完整,好像只能自己写规则,但是试了很多次都没有办法样例复制(出现了红蓝的闪框,也选择了绝对定位),请问是我节点选择错了吗?规则名是qingchengshan9

1.png (429.84 KB, 下载次数: 484)

1.png

2.jpg (239.74 KB, 下载次数: 475)

2.jpg
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2019-2-21 11:04

沙发
Fuller 管理员 发表于 2019-2-21 08:32:46 | 只看该作者
你用的样本页面是什么?我加载出来的内容是中文的,我看到你是英文的。

为了让规则具有更强的适应性,尽量用上定位标志映射,抓取内容用定位标志映射提高精度采集多实例可以用定位标志映射代替样例复制映射。前提是有合适的class或者id,另外要避免引起问题的定位标志,比如,id是唯一的,如果选择不合适只能采集一个。class是相同的,如果选择不合适会多个字段采集成相同内容。
举报 使用道具
板凳
Fuller 管理员 发表于 2019-2-21 08:34:12 | 只看该作者
做样例复制映射的时候,选择的第一个样例和第二个样例要分别属于第一条评论和第二条评论,我看你的截图,似乎两个样例很近,都属于同一条评论
举报 使用道具
地板
maomao 论坛元老 发表于 2019-2-21 11:04:26 | 只看该作者
本帖最后由 maomao 于 2019-2-21 11:27 编辑

这个规则的主要问题是“等级”这个字段,把这个字段取消掉关键内容,就可以了。如果要把所有的等级都抓到,要写Xpath。
但是,你的规则最主要问题的是,你想要抓取评论的展开内容。这需要制作两个规则,第一规则,用连续动作把所有需要点击展开的评论,都点击展开,得到一个新的页面,然后在这个页面上做第二个规则,也就是就你现在这个规则,抓取评论,还有翻页,翻页后的目标主题名填写第一级规则的名字,这样一二级规则交替执行
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 19:13