为什么采集文本内容,测试的时候可以抓到完整的,但是爬取完之后却不完整
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2020-4-1 00:58

沙发
wangyong 版主 发表于 2020-3-19 14:43:25 | 只看该作者
规则名发一下
举报 使用道具
板凳
JeremyCheng 新手上路 发表于 2020-3-19 17:09:40 | 只看该作者

规则_1
任务名是mfwww2

举报 使用道具
地板
Fuller 管理员 发表于 2020-3-19 18:03:43 | 只看该作者
JeremyCheng 发表于 2020-3-19 17:09
规则_1
任务名是mfwww2

我加载了这个规则,规则结构比较单纯,但是这个网页很长,含有大量图片,需要开启自动滚屏才能把所有内容加载出来。DS打数机开启自动滚屏的方式是:菜单 配置-》滚屏参数,滚屏次数设置成大于0的数字,这个网页很长,设置10试试。

如果样本页面采集是全的,而采集其他页面不全,那就是规则的适应性问题,可以加上定位标志映射,提高适应性。参看《定位标志精确采集范围
举报 使用道具
5#
JeremyCheng 新手上路 发表于 2020-3-19 19:02:18 | 只看该作者
Fuller 发表于 2020-3-19 18:03
我加载了这个规则,规则结构比较单纯,但是这个网页很长,含有大量图片,需要开启自动滚屏才能把所有内容 ...

为什么加了多条同样类别的链接后,就只有第一个可以成功爬取,后面的不行了
举报 使用道具
6#
JeremyCheng 新手上路 发表于 2020-3-19 19:02:46 | 只看该作者
规则名:马蜂窝get2
举报 使用道具
7#
Fuller 管理员 发表于 2020-3-19 19:07:16 | 只看该作者
JeremyCheng 发表于 2020-3-19 19:02
规则名:马蜂窝get2

把失败的网址发出来几个
举报 使用道具
8#
JeremyCheng 新手上路 发表于 2020-3-19 19:31:00 | 只看该作者
Fuller 发表于 2020-3-19 19:07
把失败的网址发出来几个

http://www.mafengwo.cn/i/17982319.html
http://www.mafengwo.cn/i/17928490.html
http://www.mafengwo.cn/i/17793658.html
http://www.mafengwo.cn/i/17722399.html
http://www.mafengwo.cn/i/17475085.html
http://www.mafengwo.cn/i/17453995.html
http://www.mafengwo.cn/i/17387131.html
http://www.mafengwo.cn/i/17172580.html
http://www.mafengwo.cn/i/17039155.html
举报 使用道具
9#
Fuller 管理员 发表于 2020-3-19 21:05:26 | 只看该作者
JeremyCheng 发表于 2020-3-19 19:31
http://www.mafengwo.cn/i/17982319.html
http://www.mafengwo.cn/i/17928490.html
http://www.mafengwo. ...

我测试没有问题。你观察一下DS打数机运行的时候,DS打数机浏览器中有没有显示内容?另外,要注意这几点:1,DS打数机窗口运行的时候,不能缩小窗口
2,网页这么长,要把自动滚屏打开
举报 使用道具
10#
qwer222 新手上路 发表于 2020-4-1 00:58:51 | 只看该作者
你的规则是什么
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-22 00:26