11#
pay123456 初级会员 发表于 2018-4-13 11:20:17 | 只看该作者
我用层级抓取能实现吗?
举报 使用道具
12#
umsung 高级会员 发表于 2018-4-13 11:26:40 | 只看该作者
pay123456 发表于 2018-4-13 11:20
还有一个问题就是我这个附件列表怎么处理?

附件列表的内容不就是你要采集的文章内容吗? 可以用层级采集
举报 使用道具
13#
pay123456 初级会员 发表于 2018-4-13 11:34:40 | 只看该作者
umsung 发表于 2018-4-13 11:26
附件列表的内容不就是你要采集的文章内容吗? 可以用层级采集

附件内容是我要采集的内容 用层级采集可以实现吗?你试试好像不行哎
举报 使用道具
14#
umsung 高级会员 发表于 2018-4-13 11:51:39 | 只看该作者
pay123456 发表于 2018-4-13 11:34
附件内容是我要采集的内容 用层级采集可以实现吗?你试试好像不行哎

用层级采集可以实现,就是普通的层级抓取操作,采集下载按钮的链接给下一级,下一级运行生成的链接就可以直接下载附件




1.png (80.21 KB, 下载次数: 586)

1.png
举报 使用道具
15#
pay123456 初级会员 发表于 2018-4-13 12:29:36 | 只看该作者
你做的这一步我已经实现了,下一级怎么实现呢?能告诉我一下步骤不啊?
举报 使用道具
16#
umsung 高级会员 发表于 2018-4-13 14:15:12 | 只看该作者
本帖最后由 umsung 于 2018-4-13 14:20 编辑
pay123456 发表于 2018-4-13 12:29
你做的这一步我已经实现了,下一级怎么实现呢?能告诉我一下步骤不啊?

参考这篇层级抓取教程,一级规则采集到的下载链接给二级规则,二级规则就用当前的网页随便抓一个内容就可以了,运行二级规则就可以直接下载
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-19 16:20