http://www.iyouman.com/4273/            这个是网站链接

所有章节都是倒叙的  
我先用层级,把章节作为第一级,把内容作为第二级 ,在第二级里面还加入了翻页
以下一页为记号  

第一次采集完(87话) 到这里大数据会重复 而我设置成重复就关闭。到这里就卡住  到不了(86话)请问有什么好的办法吗

还有用翻页抓取一张图一个文件夹这样整理很麻烦 有没有什么办法可以把他们整合到一个文件夹

举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2017-4-13 15:54

沙发
Fuller 管理员 发表于 2017-4-13 12:03:33 | 只看该作者
主题名是什么?我帮你分析一下
举报 使用道具
板凳
hexin6600 新手上路 发表于 2017-4-13 12:36:41 | 只看该作者
Fuller 发表于 2017-4-13 12:03
主题名是什么?我帮你分析一下

AAA11 (第一级)和  AAA111(第二级)


举报 使用道具
地板
ym 版主 发表于 2017-4-13 15:09:56 | 只看该作者
本帖最后由 ym 于 2017-4-13 15:12 编辑

规则没有问题,是你运行第二级规则时默认只采集一条线索,即87话。
解决:运行规则前,先右击选择统计线索,看看有多少等待采集的线索,再点击单搜/集搜,输入要采集的线索数量就会逐条采集,详情说明见《DS打数机采集数据》
另外,每一话到了最后一页,还是能点击下一页,这时是没有图片的,就会提示采集失败,但实际上已经把图片都采集下来了,只是最后因为网页结构不同而提示失败,所以这个提示不用管它。

举报 使用道具
5#
ym 版主 发表于 2017-4-13 15:15:27 | 只看该作者
文件和图片合并的操作可以参考教程《如何把下载的大量图片自动匹配到excel中?》
举报 使用道具
6#
hexin6600 新手上路 发表于 2017-4-13 15:45:51 | 只看该作者
ym 发表于 2017-4-13 15:09
规则没有问题,是你运行第二级规则时默认只采集一条线索,即87话。
解决:运行规则前,先右击选择统计线索 ...

我想你是没有理解我的意思



这是我的三步操作 我认为问题是 这里抓取完了  到这里就卡住了(一直点下一页 ,这里开始无限重复。 把打数机设置为终点标示设置为重复,后就会停止)
他无法跳出去(86)继续采集的问题

举报 使用道具
7#
ym 版主 发表于 2017-4-13 15:54:25 | 只看该作者
hexin6600 发表于 2017-4-13 15:45
我想你是没有理解我的意思

我用的最新爬虫版本V8.1.5,测试采集多条线索,每采集完一条线索,是能正常跳转到下一条线索继续采集的。
如果你的爬虫版本低于V8.1.5,就更新一下,去官网下载最新的重装一遍就好

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 15:24