互联网上有很多新闻门户网站,它们各自的网页结构都不相同,要采集不同新闻网站发布的新闻全文信息,就要分别做采集规则,例如,通过百度新闻搜索到的是大部分新闻门户网站的新闻摘要,这里是以百度规定的网页结构显示的,可以做一个采集规则把这些新闻的摘要信息都采集下来,但是要想采集到各篇新闻的全文,就要点进新闻的详情页面去采集,而不同新闻门户的网页结构都不一样,得做很多个门户网站的新闻详情页面的采集规则,所以,这种策略就很不划算了,现在,转变一下思路,直接选定某个主流门户网站,做站内搜索,站内的网页结构不会特别多,只需用几个采集规则就可以解决。 当然了,集搜客爬虫在数据DIY上已经整理出了主流新闻网站的采集规则,大家只需要选定网站、页面,直接把要采集的网址添加进去,再启动爬虫,就可以即时采集,最后轻松下载数据即可。 |