主题:
Twitter_OBOR_textALL

转推ID

想点击第一个图里的转推,抓取第二个弹出的页面的信息。但是第二个页面没有新的网址。
请帮忙看看什么问题。

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2018-2-12 21:48

沙发
Fuller 管理员 发表于 2018-2-12 09:24:23 | 只看该作者
你的规则有几个问题:
1,第一级不应该勾“飞掠模式”,这个问题影响最大。
飞掠模式用于抓弹出窗口的内容,弹窗是指新打开一个完整的浏览器窗口,而不是网页上浮出来一个区域,浮出来一个区域我们通常称为浮动窗体,本质上不是一个窗口,而是现有html网页的一部分。

所以,你要把飞掠模式去掉


2,每一级的抓取内容至少有一个勾上关键内容,否则,DS打数机运行的时候根本不会去检查页面上的内容是否加载成功了,这样很可能抓到空结果

3,这个问题只是一个建议,没有严重影响。第一级点击用的xpath,你写的没错,但是我们通常会自定义xpath,让xpath里面包含页面上的一些文字,作为定位标志。比如,5转推,“转推”可以作为一个标志,所以,xpath会写成这样
  1. //*[@class='request-retweeted-popup' and contains(text()[2], '转推')]
复制代码


里面的[2]表示第二个
举报 使用道具
板凳
wuqianhd 初级会员 发表于 2018-2-12 21:20:49 | 只看该作者
Fuller 发表于 2018-2-12 09:24
你的规则有几个问题:
1,第一级不应该勾“飞掠模式”,这个问题影响最大。
飞掠模式用于抓弹出窗口的内容 ...

那转推ID里面如何设置让它自动打开那个页面呀?抓取的数据的时候它不会自己打开新页面,总是显示规则失败。而且我又不能在Twitter_OBOR_textALL里面抓,显示不在一个DOM里面。
如果可以麻烦qq指导一下,啊,花钱开了会员,不知道咋用。。。。

举报 使用道具
地板
Fuller 管理员 发表于 2018-2-12 21:40:47 | 只看该作者
wuqianhd 发表于 2018-2-12 21:20
那转推ID里面如何设置让它自动打开那个页面呀?抓取的数据的时候它不会自己打开新页面,总是显示规则失败 ...

你不要勾飞掠模式,显示的转推是在同一个DOM上的,一开始没有,点击以后出现了,在定义规则模式下,在DOM窗口中虽然没有看到这块内容的DOM,那是因为没有刷新DOM。定义规则的时候,DOM是需要手工刷新的。

我现在不能诊断你的规则,因为下班了,在家里访问不了twitter。如果你需要在线指导,明天上班时间我在办公室可以上网指导。你可以先加入qq群:470506980  ,明天上班时间在群里说一声我就会帮你看看
举报 使用道具
5#
Fuller 管理员 发表于 2018-2-12 21:48:16 | 只看该作者
我刚才点你发的qq图标,连不了,我们还没有加好友。你先在qq群里喊一声吧
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 10:30