为什么采集文本内容,测试的时候可以抓到完整的,但是爬取完之后却不完整
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2020-4-1 00:58

wangyong 版主 发表于 2020-3-19 14:43:25 | 显示全部楼层
规则名发一下
举报 使用道具
JeremyCheng 新手上路 发表于 2020-3-19 17:09:40 | 显示全部楼层

规则_1
任务名是mfwww2

举报 使用道具
Fuller 管理员 发表于 2020-3-19 18:03:43 | 显示全部楼层
JeremyCheng 发表于 2020-3-19 17:09
规则_1
任务名是mfwww2

我加载了这个规则,规则结构比较单纯,但是这个网页很长,含有大量图片,需要开启自动滚屏才能把所有内容加载出来。DS打数机开启自动滚屏的方式是:菜单 配置-》滚屏参数,滚屏次数设置成大于0的数字,这个网页很长,设置10试试。

如果样本页面采集是全的,而采集其他页面不全,那就是规则的适应性问题,可以加上定位标志映射,提高适应性。参看《定位标志精确采集范围
举报 使用道具
JeremyCheng 新手上路 发表于 2020-3-19 19:02:18 | 显示全部楼层
Fuller 发表于 2020-3-19 18:03
我加载了这个规则,规则结构比较单纯,但是这个网页很长,含有大量图片,需要开启自动滚屏才能把所有内容 ...

为什么加了多条同样类别的链接后,就只有第一个可以成功爬取,后面的不行了
举报 使用道具
JeremyCheng 新手上路 发表于 2020-3-19 19:02:46 | 显示全部楼层
规则名:马蜂窝get2
举报 使用道具
Fuller 管理员 发表于 2020-3-19 19:07:16 | 显示全部楼层
JeremyCheng 发表于 2020-3-19 19:02
规则名:马蜂窝get2

把失败的网址发出来几个
举报 使用道具
JeremyCheng 新手上路 发表于 2020-3-19 19:31:00 | 显示全部楼层
Fuller 发表于 2020-3-19 19:07
把失败的网址发出来几个

http://www.mafengwo.cn/i/17982319.html
http://www.mafengwo.cn/i/17928490.html
http://www.mafengwo.cn/i/17793658.html
http://www.mafengwo.cn/i/17722399.html
http://www.mafengwo.cn/i/17475085.html
http://www.mafengwo.cn/i/17453995.html
http://www.mafengwo.cn/i/17387131.html
http://www.mafengwo.cn/i/17172580.html
http://www.mafengwo.cn/i/17039155.html
举报 使用道具
Fuller 管理员 发表于 2020-3-19 21:05:26 | 显示全部楼层
JeremyCheng 发表于 2020-3-19 19:31
http://www.mafengwo.cn/i/17982319.html
http://www.mafengwo.cn/i/17928490.html
http://www.mafengwo. ...

我测试没有问题。你观察一下DS打数机运行的时候,DS打数机浏览器中有没有显示内容?另外,要注意这几点:1,DS打数机窗口运行的时候,不能缩小窗口
2,网页这么长,要把自动滚屏打开
举报 使用道具
qwer222 新手上路 发表于 2020-4-1 00:58:51 | 显示全部楼层
你的规则是什么
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 19:16