规则名:上海环保-无二级
按照教程做了规则,在百度新闻网页搜索上海环保,采集所产生的所有新闻,按照教程可以顺利采集很多其他关键字如“北京环保”,“天津环保”等,但是“上海环保”这个怎么都失败,因为我一开始都是直接把网址作为线索放在一个做好的规则采集的,发现上海环保总是失败,所以我就重新做了一个“上海环保-无二级”的规则,但是还是失败,请帮忙指点,谢谢。
还有一个问题,一个规则,我放了很多条线索,当然每一条线索是因为结构都相似的网页,比如“天津环保”“南京环保”都是在百度新闻网页上搜新闻条目,但是线索都添加进去之后只能一个个采集,使用爬虫或者集搜就会不翻页,只采集第一页就跳下一个线索了,所以我只能一个个线索单搜。
|
|
|
|
|
共 5 个关于本帖的回复 最后回复于 2017-9-10 19:48