11#
ym 版主 发表于 2017-3-4 14:37:57 | 只看该作者
前面回复过了,PDF网页是要加载完所有网页(滚屏)才会显示出来,这样的话,要设置滚屏参数,滚屏次数设置100,滚屏速度设置成-2
举报 使用道具
12#
sagehxq 初级会员 发表于 2017-3-4 14:43:44 | 只看该作者
ym 发表于 2017-3-4 14:37
前面回复过了,PDF网页是要加载完所有网页(滚屏)才会显示出来,这样的话,要设置滚屏参数,滚屏次数设置1 ...

不对,fuller说这样不行啊!!!
举报 使用道具
13#
ym 版主 发表于 2017-3-4 15:54:22 | 只看该作者
本帖最后由 ym 于 2017-3-4 15:57 编辑

你前面说的直接跳到你要采集信息的那一页,这是做不到的,因为pdf网页的网址是不变的,爬虫也不能直接定位到你要采集信息的那一页,所以只能滚屏或翻页来把信息加载出来。

fuller说的解决方法是:得定义连续动作,用滚轮类型的动作,就能滚屏,这个滚轮类型的动作是旗舰版的功能。

我建议你在规则里设置翻页,这样就可以点击每一页来采集,虽然速度会慢点,但能保证加载下一页的内容,参考教程《如何采集pdf内的信息》的4.3小节
举报 使用道具
14#
Fuller 管理员 发表于 2017-3-4 16:34:04 | 只看该作者
sagehxq 发表于 2017-3-4 14:43
不对,fuller说这样不行啊!!!

是的,上午测试的时候,发现这个网页不能用滚屏,要用连续动作的滚轮操作,滚轮是旗舰版的功能。滚轮动作每做一次就会采集一次,所以会产生很多结果文件。如果你只想采集中间某页上的一点点内容,用滚轮从头滚到尾是很浪费时间的。直接跳到那页不行,因为不知道是哪一页,除非为这个项目定做一个程序。
举报 使用道具
15#
sagehxq 初级会员 发表于 2017-3-4 18:08:56 | 只看该作者
ym 发表于 2017-3-4 15:54
你前面说的直接跳到你要采集信息的那一页,这是做不到的,因为pdf网页的网址是不变的,爬虫也不能直接定位 ...

没有翻页选项啊,怎么设置呢?
举报 使用道具
16#
shenzhenwan10 金牌会员 发表于 2017-3-6 18:51:32 | 只看该作者
旗舰版用户可以定义"滚轮滚屏"的动作, 如下图




举报 使用道具
17#
sagehxq 初级会员 发表于 2017-3-7 12:25:23 | 只看该作者
谢谢!!!你有旗舰版吗?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-4 00:07