规则名:上海环保-无二级
按照教程做了规则,在百度新闻网页搜索上海环保,采集所产生的所有新闻,按照教程可以顺利采集很多其他关键字如“北京环保”,“天津环保”等,但是“上海环保”这个怎么都失败,因为我一开始都是直接把网址作为线索放在一个做好的规则采集的,发现上海环保总是失败,所以我就重新做了一个“上海环保-无二级”的规则,但是还是失败,请帮忙指点,谢谢。

还有一个问题,一个规则,我放了很多条线索,当然每一条线索是因为结构都相似的网页,比如“天津环保”“南京环保”都是在百度新闻网页上搜新闻条目,但是线索都添加进去之后只能一个个采集,使用爬虫或者集搜就会不翻页,只采集第一页就跳下一个线索了,所以我只能一个个线索单搜。

上海环保-无二级.PNG (76.43 KB, 下载次数: 553)

问题界面

问题界面
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2017-9-10 19:48

沙发
jayxxy 初级会员 发表于 2017-9-9 20:06:04 | 只看该作者
求大神解答,求解答,采集数据好想狗带
举报 使用道具
板凳
shenzhenwan10 金牌会员 发表于 2017-9-9 21:30:03 | 只看该作者
管理员加载你的规则,提示“记号翻页”有问题,建议你重新映射


1. 以图中的@id='page'的P节点做线索定位映射
2. 用“下一页”做记号映射
3. 点击“定位选项”, 选择“偏好ID"


举报 使用道具
地板
jayxxy 初级会员 发表于 2017-9-10 00:26:22 | 只看该作者
shenzhenwan10 发表于 2017-9-9 21:30
管理员加载你的规则,提示“记号翻页”有问题,建议你重新映射

我原本也是用下一页做记号映射。p做定位线索的,刚刚我把定位改成偏好的id 可是到第二页还是失败了

举报 使用道具
5#
Fuller 管理员 发表于 2017-9-10 09:37:40 | 只看该作者
jayxxy 发表于 2017-9-10 00:26
我原本也是用下一页做记号映射。p做定位线索的,刚刚我把定位改成偏好的id 可是到第二页还是失败了

...

要观察一下问题出在哪:
1,可以观察到,你已经成功翻页到第二页了,所以,爬虫路线上的翻页规则没有问题
2,可以看到DS打数机的面板上显示“匹配失败”,说明到了第二页数据规则有问题



上图是你的规则加载以后,点击测试按钮看到的数据规则,里面有多个position()函数,翻页到第二页,position的位置就可能不一样了。所以,要避免出现position函数。



如上图,用定位标志抓取多实例,而不用样例复制 ,其实最合适的是用那个@class='result title',可惜每隔几个结果会出现一个@class='result title titlelast',就会漏掉含有titlelast的,所以,采用了@class='c-title-author'
举报 使用道具
6#
jayxxy 初级会员 发表于 2017-9-10 19:48:39 | 只看该作者
Fuller 发表于 2017-9-10 09:37
要观察一下问题出在哪:
1,可以观察到,你已经成功翻页到第二页了,所以,爬虫路线上的翻页规则没有问题 ...

谢谢啊   解决了

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 16:20