我新发布了一个采集规则:
知网_文章数据_更多


详细信息:
本规则是教程《怎么样抓取CNKI知网数据》中对应的第三个规则`知网_文章数据_更多`,由`知网_搜索结果采集到每篇文章的链接后,用Excel修改网址格式手工为本规则添加线索。知网的些文章摘要中需要点击“更多”后才能显示完整的摘要,为了抓取完整的内容,本规则来进行模拟点击,点击后自动调用`知网_文章数据`规则来进行抓取。
想要抓取每篇文章的详细信息,除了下载当前规则之外需要下载`知网_搜索`、`知网_搜索结果`、`知网_文章数据`,共同配合使用。

希望大家喜欢!下载地址:
http://www.gooseeker.com/res/detail_99096.html
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2016-9-9 23:44

沙发
lusiluo 初级会员 发表于 2016-9-9 21:32:51 | 只看该作者
请问这些规则下载后,可以经过简单的编辑直接使用吗?我是指满足自己特定的爬取需求。
举报 使用道具
板凳
Fuller 管理员 发表于 2016-9-9 21:54:26 | 只看该作者
lusiluo 发表于 2016-9-9 21:32
请问这些规则下载后,可以经过简单的编辑直接使用吗?我是指满足自己特定的爬取需求。 ...

在MS谋数台上加载上来,可以做修改,可以重新存规则。

我建议重新存规则的时候,把主题名改一下,这样既保留原来下载的那个,又新修改了一个。因为原来下载的那个还有用,比如,网页结构变了,我们会跟着修改规则,你再次下载修改好的规则是不用花积分的
举报 使用道具
地板
lusiluo 初级会员 发表于 2016-9-9 22:00:48 | 只看该作者
Fuller 发表于 2016-9-9 21:54
在MS谋数台上加载上来,可以做修改,可以重新存规则。

我建议重新存规则的时候,把主题名改一下,这样既 ...

好的,谢谢!
举报 使用道具
5#
lusiluo 初级会员 发表于 2016-9-9 22:10:08 | 只看该作者
您好,谢谢提示,加载成功了。网页提示需要四个规则一起配合使用,才能看到整个实现过程。具体是怎么配合?全部下载后直接运行第一个规则?
举报 使用道具
6#
Fuller 管理员 发表于 2016-9-9 22:37:41 | 只看该作者
lusiluo 发表于 2016-9-9 22:10
您好,谢谢提示,加载成功了。网页提示需要四个规则一起配合使用,才能看到整个实现过程。具体是怎么配合? ...

是的,要从第一个开始,一层层地往下运行,执行层级抓取
举报 使用道具
7#
Fuller 管理员 发表于 2016-9-9 22:41:01 | 只看该作者
3和4一定要一起要,其它两个我还要看看
举报 使用道具
8#
Fuller 管理员 发表于 2016-9-9 22:58:08 | 只看该作者
1和2一定要一起用,1-2和3-4之间的衔接是层级抓取,运行的时候1-2和3-4可以分开运行。但是1-2一定要一起运行,3-4也是,他们是串在一起的。
举报 使用道具
9#
lusiluo 初级会员 发表于 2016-9-9 23:44:15 | 只看该作者
好的!谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 01:25