用集搜客网络爬虫来采集新闻,可以免除人力的烦琐,做好规则就能轻松地批量采集新闻信息。具体操作是:要分别对新闻列表页面和新闻详情页面做采集规则,第一级规则用于采集新闻列表,先把单条的新闻标题、摘要、链接等信息做采集,然后做样例复制映射,就可以批量获取当前页面的每一条新闻的这三个字段的信息,接着要对链接设置下级线索,这是为了让下一级规则能批量采集新闻详情必须设置的,也是层级采集的关键。第二级规则是采集新闻详情页面,以一个网页为样例,标注想要采集的新闻标题、发布时间、正文等信息。最后是采集数据,要先运行第一级规则,把链接采集下来,之前设置了下级线索,这样就会自动把链接导入到第二级规则里,最终运行第二级规则,输入网址数量,就能自动化地采集一篇篇新闻信息。 |