我做了这样一个规则,测试成功,打数机上也显示抓取完成,但是数据却抓空了。需要抓的样本是pdf网页,有大概100多页,我用了函数定位,请问大家可能出了什么问题?
以下是我设置的打数机的参数。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 16 个关于本帖的回复 最后回复于 2017-3-7 12:25

沙发
sagehxq 初级会员 发表于 2017-3-4 12:04:36 | 只看该作者
样本网址:http://www.neeq.com.cn/disclosur ... 58896173_932266.pdf
主题名称:pdf抓取sage01
请大家帮我做个测试,谢谢!!!
举报 使用道具
板凳
Fuller 管理员 发表于 2017-3-4 12:25:24 | 只看该作者
你这个自定义xpath限定了要抓的内容,但是自动匹配到的div里面没有这段话。
  1. substring-before(substring-after(.,'主要产品与服务项目'),'普通股股票转让方式')
复制代码


具体原因我还在看
举报 使用道具
地板
Fuller 管理员 发表于 2017-3-4 12:28:06 | 只看该作者


我用这个表达式没有搜到:
  1. //*[contains(.,'主要产品与服务项目')]
复制代码


你确定有这段话吗?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
5#
Fuller 管理员 发表于 2017-3-4 12:32:49 | 只看该作者


终于找到了,要加载完所有网页(滚屏)才会显示出来。这样的话,要设置滚屏参数,滚屏次数设置100,滚屏速度设置成-2,负数更慢。我测试一下

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
6#
Fuller 管理员 发表于 2017-3-4 12:37:30 | 只看该作者
正在测试,看来对于这个网页,用滚屏没有用。得定义连续动作,用滚轮类型的动作,就能滚屏
举报 使用道具
7#
Fuller 管理员 发表于 2017-3-4 12:39:53 | 只看该作者

滚到第八次的时候才把要的内容抓到了,那时候才有

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
8#
sagehxq 初级会员 发表于 2017-3-4 14:27:03 | 只看该作者
Fuller 发表于 2017-3-4 12:39
滚到第八次的时候才把要的内容抓到了,那时候才有

为什么你那里抓取了那么多文件呢?我这里只会有有一个抓取到的xml文件
举报 使用道具
9#
sagehxq 初级会员 发表于 2017-3-4 14:28:42 | 只看该作者
Fuller 发表于 2017-3-4 12:39
滚到第八次的时候才把要的内容抓到了,那时候才有

请问还需要在哪里进行设置,或者应该怎么解决这个问题?
举报 使用道具
10#
sagehxq 初级会员 发表于 2017-3-4 14:32:59 | 只看该作者
Fuller 发表于 2017-3-4 12:37
正在测试,看来对于这个网页,用滚屏没有用。得定义连续动作,用滚轮类型的动作,就能滚屏 ...

刚刚没看到你上面的回复,其实不需要完全加载,只需要加载我需要的文本出现的时候就好了,但是问题在于:应该用一种什么方法来把滚屏滚到我需要的文本出现的地方!!!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为

热门用户

GMT+8, 2025-2-24 07:10