各位想问下,我在进行规则测试时是成功的,但是为什么正式抓取时抓取的数据项为空呢,请教各位什么原因呢?规则名是  酒店详情1

测试成功

测试成功

正式抓取结果的数据项为空

正式抓取结果的数据项为空
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2018-9-7 11:49

Fuller 管理员 发表于 2018-9-7 11:16:44 | 显示全部楼层
滚屏20180907111348.png

这些内容,都在网页上很下面的位置上,不滚屏到这个位置,内容就不显示。或者好久才能加载上来,如果采集太快就采集不到。

为了解决这些问题,应该打开网页的自动滚屏。在DS打数机菜单上 配置-》滚屏参数,把滚屏次数设置成>0的数字,比如,2。这个设置适用于单搜和集搜

如果是爬虫群模式,要在会员中心-》规则管理 那里设置调度,调度参数里面也有自动滚屏的设置项
举报 使用道具
gooseeker_influen 新手上路 发表于 2018-9-7 11:25:55 | 显示全部楼层
谢谢,我刚重新测试了,改了之后有的网页可以采到,但是还是有的网页采不到数据。
举报 使用道具
gooseeker_influen 新手上路 发表于 2018-9-7 11:49:01 | 显示全部楼层
我改后测试时是一个成功一个不成功,这种情况参数应该设置多少才能全部采集到呢?
举报 使用道具
Fuller 管理员 发表于 2018-9-7 11:49:49 | 显示全部楼层
gooseeker_influen 发表于 2018-9-7 11:25
谢谢,我刚重新测试了,改了之后有的网页可以采到,但是还是有的网页采不到数据。 ...

个别采集不到的,应该是规则不合适。采取这样的步骤:
1,先把规则加载到工作台上
2,在地址输入栏输入要检查的网址,回车
3,等加载好网页以后,选择菜单 规则-》刷新页面结构
4,选择菜单 规则-》分析页面
5,在 创建规则 工作台上点击“测试”按钮,看看数据能否采集到
6,如果不能采集到,在DOM上分析一下这个网页的DOM跟样本网页有什么不同
7,调整规则,提高适应性,如果普通内容映射不行,要用上定位标志映射,甚至是自定义XPath

定位标志映射教程:https://www.gooseeker.com/doc/article-344-1.html
自定义xpath教程:https://www.gooseeker.com/doc/thread-701-1-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 13:52