有没有大神帮忙看一下,第一个规则输入关键词,然后点击提交,第二个规则做抓取,但是只抓取到一个规则的内容。而且翻页也有问题,只抓到一页。

举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2017-6-6 14:35

沙发
Fuller 管理员 发表于 2017-6-5 22:09:17 | 只看该作者
第一个规则加载失败,为什么要定义类型一和类型二,因为有的有图吗?是可以通过微调,做成两种情况都适应的规则。

你抓到了第一个规则的内容?因为规则加载失败,我没有测试。

百度新闻搜索根本不用输入动作,因为关键词包含在网址中,直接构造网址就行了,比连续动作运行速度快多了
举报 使用道具
板凳
kevinjin 中级会员 发表于 2017-6-5 23:44:00 | 只看该作者
Fuller 发表于 2017-6-5 22:09
第一个规则加载失败,为什么要定义类型一和类型二,因为有的有图吗?是可以通过微调,做成两种情况都适应的 ...

对的,定义类型一和类型二是区别有些有图 有些没图。 怎么样通过微调呢?做到两种都合适?
因为我想自动爬取不同关键词的新闻内容。这个不用连续动作--输入,怎么实现呢?




举报 使用道具
地板
Fuller 管理员 发表于 2017-6-6 09:07:04 | 只看该作者
kevinjin 发表于 2017-6-5 23:44
对的,定义类型一和类型二是区别有些有图 有些没图。 怎么样通过微调呢?做到两种都合适?
因为我想自动 ...

百度新闻搜索有现成的数据DIY,不用做规则,直接输入网址,启动爬虫群就行。看这个数据DIY:http://www.gooseeker.com/res/dat ... 2%E5%88%97%E8%A1%A8
至于百度新闻搜索网址,比如
  1. http://news.baidu.com/ns?ct=1&rn=20&ie=utf-8&bs=%E9%98%BF%E9%87%8C%E5%B7%B4%E5%B7%B4&rsv_bp=1&sr=0&cl=2&f=8&prevct=no&tn=news&word=%E9%98%BF%E9%87%8C&rsv_sug3=2&rsv_sug4=91&rsv_sug1=2&rsv_sug2=0&inputT=941&rsv_sug=2
复制代码
两个位置出现  %E9%98%BF%E9%87%8C%E5%B7%B4%E5%B7%B4  这个代表“阿里”,用汉字也一样,所以网址可以在excel中构造出来,一次性导入。
如果你用即时输入关键词的话,如果词很多,需要购买旗舰版才行,如果构造网址,只需免费版   







举报 使用道具
5#
kevinjin 中级会员 发表于 2017-6-6 13:59:47 | 只看该作者
Fuller 发表于 2017-6-6 09:07
百度新闻搜索有现成的数据DIY,不用做规则,直接输入网址,启动爬虫群就行。看这个数据DIY:http://www.g ...

DIY的可能以后有不同站的内容要抓取,还是比较麻烦,所以还是想自己先学学看。 能不能帮忙看一下,上面的问题? 怎么微调,使有图片的和没有图片的统一抓取? 还有为什么在连续动作的“输入”中,加了四个关键词,却只抓到一个呢?
举报 使用道具
6#
shenzhenwan10 金牌会员 发表于 2017-6-6 14:09:54 | 只看该作者
kevinjin 发表于 2017-6-6 13:59
DIY的可能以后有不同站的内容要抓取,还是比较麻烦,所以还是想自己先学学看。 能不能帮忙看一下,上面的 ...

你自己测试观察一下
在规则里一次只填入一个词, 保存后抓取.
重复上面的步骤, 只是把词换一下
每个词的抓取过程, 你都观察一下DS打数机的窗口和结果文件是否有生成
举报 使用道具
7#
wangyong 版主 发表于 2017-6-6 14:21:03 | 只看该作者
加载你输入关键词_新闻这个规则两个概要都报错了

有图片和没图片统一抓取可以下载参看百度新闻搜索结果
举报 使用道具
8#
xandy 论坛元老 发表于 2017-6-6 14:35:08 | 只看该作者
本帖最后由 xandy 于 2017-6-6 14:36 编辑
kevinjin 发表于 2017-6-6 13:59
DIY的可能以后有不同站的内容要抓取,还是比较麻烦,所以还是想自己先学学看。 能不能帮忙看一下,上面的 ...

1,可以找一个第一个和第二个样例都有图的新闻所在的页面做样本网址来做规则,这样的采集规则就会把带图的抓下来,碰上没图的就会不会采集图片,图片不要勾选“关键内容”,否则容易出错。
2,连续动作的规则执行有问题,一方面受具体抓取内容所在的规则的影响,因为你抓取内容的规则有问题,根据上面第一条来调整;另外,连续动作所在的规则的采集整理箱抓一个key值就行了,不要设置复杂的规则。

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 06:25