我今天在抓取和讯网财经新闻的时候,由于新闻显示不全,要点击“看全文”才能显示全部新闻内容,所以要设置连续动作。
但是出现一个问题:在火狐插件版集搜客的MS里面点击不了“看全文”,也就是加载不出包含全部信息的网页。导致在二级线索里
抓取的信息还是不完全。
求大神赐解决办法!!!
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2017-2-22 15:25

沙发
xandy 论坛元老 发表于 2017-2-22 12:00:55 | 只看该作者
你要在连续动作中设置点击,点击的定位是“看全文”,然后下级主题名是具体做采集的规则,定位没做好或者规则没做好都会导致采集不准确。
你可以把你的规则名贴出来,技术人员好监测下是什么原因。
举报 使用道具
板凳
weier_2016 中级会员 发表于 2017-2-22 14:32:06 | 只看该作者
xandy 发表于 2017-2-22 12:00
你要在连续动作中设置点击,点击的定位是“看全文”,然后下级主题名是具体做采集的规则,定位没做好或者规 ...

我现在的问题就是在定义二级规则时,MS谋数台里加载不了全文的信息
举报 使用道具
地板
xandy 论坛元老 发表于 2017-2-22 14:33:04 | 只看该作者
weier_2016 发表于 2017-2-22 14:32
我现在的问题就是在定义二级规则时,MS谋数台里加载不了全文的信息

规则名
举报 使用道具
5#
Fuller 管理员 发表于 2017-2-22 14:56:31 | 只看该作者
weier_2016 发表于 2017-2-22 14:32
我现在的问题就是在定义二级规则时,MS谋数台里加载不了全文的信息

加载二级规则的时候,等看到提示说要执行后续分析时,先不要后续分析,按照顺序执行以下各步
1,工具条中部“内容定位”不要勾选
2,点击显示全文
3,等待全文内容显示全了,选择菜单 规则-》后续分析
这样才能加载完这个规则
举报 使用道具
6#
scraper 论坛元老 发表于 2017-2-22 15:09:15 | 只看该作者
定义连续动作的第二级规则时,需要手动去掉内容定位,点击页面后再勾上内容定位,然后刷新页面结构,才开始定义规则。
教程参考《连续动作》3.1的说明

注意:有些页面虽然要点击才能查看全文,但是实际上在代码能找到完整的内容,这种页面不需要用连续动作,直接做映射即可。
举报 使用道具
7#
weier_2016 中级会员 发表于 2017-2-22 15:25:25 | 只看该作者
Fuller 发表于 2017-2-22 14:56
加载二级规则的时候,等看到提示说要执行后续分析时,先不要后续分析,按照顺序执行以下各步
1,工具条中 ...

明白了,谢谢!
举报 使用道具
8#
weier_2016 中级会员 发表于 2017-2-22 15:25:57 | 只看该作者
scraper 发表于 2017-2-22 15:09
定义连续动作的第二级规则时,需要手动去掉内容定位,点击页面后再勾上内容定位,然后刷新页面结构,才开始 ...

好的,我试试,谢谢!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 04:46