一个是测试结果   ,一个是XML  不知道为什么

举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2017-4-12 10:57

沙发
shenzhenwan10 金牌会员 发表于 2017-4-11 18:19:19 | 只看该作者
因为你做规则时的样本页面已经完全加载了
实际抓取时可能有些内容还没有加载出来就执行抓取了
你可以把滚屏次数调大
同时检查一下菜单项"配置浏览器"里的"允许加载图片"是否是勾选的
举报 使用道具
板凳
Fuller 管理员 发表于 2017-4-11 19:03:23 | 只看该作者
怎样设置自动滚屏,在这个帖子里说了:http://www.gooseeker.com/doc/thread-7119-1-1.html
举报 使用道具
地板
hexin6600 新手上路 发表于 2017-4-12 09:30:55 | 只看该作者
Fuller 发表于 2017-4-11 19:03
怎样设置自动滚屏,在这个帖子里说了:http://www.gooseeker.com/doc/thread-7119-1-1.html ...






我已经设置成8了 结果还是三张
举报 使用道具
5#
Fuller 管理员 发表于 2017-4-12 09:40:02 | 只看该作者
主题名是什么?我帮你检查一下
举报 使用道具
6#
Fuller 管理员 发表于 2017-4-12 09:40:48 | 只看该作者
另外,你运行DS打数机的时候,千万不要把DS的窗口最小化,这个窗口上面可以覆盖别的窗口,但是不能最小化
举报 使用道具
7#
hexin6600 新手上路 发表于 2017-4-12 10:01:06 | 只看该作者
Fuller 发表于 2017-4-12 09:40
主题名是什么?我帮你检查一下

TXDM

举报 使用道具
8#
Fuller 管理员 发表于 2017-4-12 10:38:06 | 只看该作者

我测试了,这个网页通过设置滚屏参数无法滚屏。必须使用滚轮功能才能滚屏,滚轮是旗舰版的功能。
举报 使用道具
9#
Fuller 管理员 发表于 2017-4-12 10:57:56 | 只看该作者
另外,做样例复制的时候,不要担心第二个样例是广告,照样把它作为样例,否则,你生成的规则就会跳一个抓一个。所以,做样例复制的时候,要选择第一和第二个LI,如果吧广告抓下来了,可以在处理结果文件的时候,把第二个删除。

在做规则的时候,要跳过广告是比较容易的,因为广告的那个LI的DOM结构不一样,目前你的整理箱中只有一个抓取内容,如果定义多个抓取内容,当抓取广告那一个样例的时候,必然有些抓取内容抓不到,如果你把这个抓取内容设置成“关键内容”,那么抓不到关键内容的样例就会跳过
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 21:49