快捷导航
主题:
Twitter_OBOR_textALL

转推ID

想点击第一个图里的转推,抓取第二个弹出的页面的信息。但是第二个页面没有新的网址。
请帮忙看看什么问题。
image1.png image2.png
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2018-2-12 21:48

Fuller 管理员 发表于 2018-2-12 09:24:23 | 显示全部楼层
你的规则有几个问题:
1,第一级不应该勾“飞掠模式”,这个问题影响最大。
飞掠模式用于抓弹出窗口的内容,弹窗是指新打开一个完整的浏览器窗口,而不是网页上浮出来一个区域,浮出来一个区域我们通常称为浮动窗体,本质上不是一个窗口,而是现有html网页的一部分。

所以,你要把飞掠模式去掉


2,每一级的抓取内容至少有一个勾上关键内容,否则,DS打数机运行的时候根本不会去检查页面上的内容是否加载成功了,这样很可能抓到空结果

3,这个问题只是一个建议,没有严重影响。第一级点击用的xpath,你写的没错,但是我们通常会自定义xpath,让xpath里面包含页面上的一些文字,作为定位标志。比如,5转推,“转推”可以作为一个标志,所以,xpath会写成这样
  1. //*[@class='request-retweeted-popup' and contains(text()[2], '转推')]
复制代码


里面的[2]表示第二个
举报 使用道具
wuqianhd 初级会员 发表于 2018-2-12 21:20:49 | 显示全部楼层
Fuller 发表于 2018-2-12 09:24
你的规则有几个问题:
1,第一级不应该勾“飞掠模式”,这个问题影响最大。
飞掠模式用于抓弹出窗口的内容 ...

那转推ID里面如何设置让它自动打开那个页面呀?抓取的数据的时候它不会自己打开新页面,总是显示规则失败。而且我又不能在Twitter_OBOR_textALL里面抓,显示不在一个DOM里面。
如果可以麻烦qq指导一下,啊,花钱开了会员,不知道咋用。。。。

举报 使用道具
Fuller 管理员 发表于 2018-2-12 21:40:47 | 显示全部楼层
wuqianhd 发表于 2018-2-12 21:20
那转推ID里面如何设置让它自动打开那个页面呀?抓取的数据的时候它不会自己打开新页面,总是显示规则失败 ...

你不要勾飞掠模式,显示的转推是在同一个DOM上的,一开始没有,点击以后出现了,在定义规则模式下,在DOM窗口中虽然没有看到这块内容的DOM,那是因为没有刷新DOM。定义规则的时候,DOM是需要手工刷新的。

我现在不能诊断你的规则,因为下班了,在家里访问不了twitter。如果你需要在线指导,明天上班时间我在办公室可以上网指导。你可以先加入qq群:470506980  ,明天上班时间在群里说一声我就会帮你看看
举报 使用道具
Fuller 管理员 发表于 2018-2-12 21:48:16 | 显示全部楼层
我刚才点你发的qq图标,连不了,我们还没有加好友。你先在qq群里喊一声吧
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 空间密度分析不只ArcGIS还有Excel
  • 用GooSeeker爬虫实现自动点击抓取淘宝sku库
  • 挖掘淘宝爆款商品名称中的关键词
  • 怎样抓取京东和淘宝sku对应的库存?
  • 快速建立手机用户评论特征词库-GooSeeker分

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2018-5-28 01:51