我做了这样一个规则,测试成功,打数机上也显示抓取完成,但是数据却抓空了。需要抓的样本是pdf网页,有大概100多页,我用了函数定位,请问大家可能出了什么问题?
以下是我设置的打数机的参数。


小Q截图-20170304115709.png (38.14 KB, 下载次数: 461)

小Q截图-20170304115709.png
举报 使用道具
| 回复

共 16 个关于本帖的回复 最后回复于 2017-3-7 12:25

沙发
sagehxq 初级会员 发表于 2017-3-4 12:04:36 | 只看该作者
样本网址:http://www.neeq.com.cn/disclosur ... 58896173_932266.pdf
主题名称:pdf抓取sage01
请大家帮我做个测试,谢谢!!!
举报 使用道具
板凳
Fuller 管理员 发表于 2017-3-4 12:25:24 | 只看该作者
你这个自定义xpath限定了要抓的内容,但是自动匹配到的div里面没有这段话。
  1. substring-before(substring-after(.,'主要产品与服务项目'),'普通股股票转让方式')
复制代码


具体原因我还在看
举报 使用道具
地板
Fuller 管理员 发表于 2017-3-4 12:28:06 | 只看该作者


我用这个表达式没有搜到:
  1. //*[contains(.,'主要产品与服务项目')]
复制代码


你确定有这段话吗?
举报 使用道具
5#
Fuller 管理员 发表于 2017-3-4 12:32:49 | 只看该作者


终于找到了,要加载完所有网页(滚屏)才会显示出来。这样的话,要设置滚屏参数,滚屏次数设置100,滚屏速度设置成-2,负数更慢。我测试一下
举报 使用道具
6#
Fuller 管理员 发表于 2017-3-4 12:37:30 | 只看该作者
正在测试,看来对于这个网页,用滚屏没有用。得定义连续动作,用滚轮类型的动作,就能滚屏
举报 使用道具
7#
Fuller 管理员 发表于 2017-3-4 12:39:53 | 只看该作者

滚到第八次的时候才把要的内容抓到了,那时候才有
举报 使用道具
8#
sagehxq 初级会员 发表于 2017-3-4 14:27:03 | 只看该作者
Fuller 发表于 2017-3-4 12:39
滚到第八次的时候才把要的内容抓到了,那时候才有

为什么你那里抓取了那么多文件呢?我这里只会有有一个抓取到的xml文件
举报 使用道具
9#
sagehxq 初级会员 发表于 2017-3-4 14:28:42 | 只看该作者
Fuller 发表于 2017-3-4 12:39
滚到第八次的时候才把要的内容抓到了,那时候才有

请问还需要在哪里进行设置,或者应该怎么解决这个问题?
举报 使用道具
10#
sagehxq 初级会员 发表于 2017-3-4 14:32:59 | 只看该作者
Fuller 发表于 2017-3-4 12:37
正在测试,看来对于这个网页,用滚屏没有用。得定义连续动作,用滚轮类型的动作,就能滚屏 ...

刚刚没看到你上面的回复,其实不需要完全加载,只需要加载我需要的文本出现的时候就好了,但是问题在于:应该用一种什么方法来把滚屏滚到我需要的文本出现的地方!!!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 21:34