本帖最后由 ym 于 2017-2-13 16:19 编辑
一、什么是相同网页结构
相同的网页结构是指网页布局、组成、显示样式都一样,只有信息是不同的网页页面,这里的比较是针对同一个网站上的网页,不同网站的网页结构都是不同的。
例如:下面两部电影的豆瓣影评页面就是相同的网页结构,分别打开两个网址,可以看到上下左右的布局、组成、显示样式都一模一样,不同的只是一个是泰坦尼克的影评,另一个是这个杀手不太冷的影评,它们都是豆瓣影评的网页,网页结构也是相同的,所以可以用一个爬虫程序(采集规则)来批量采集。
泰坦尼克号的影评 https://movie.douban.com/subject/1292722/reviews
这个杀手不太冷的影评 https://movie.douban.com/subject/1295644/reviews
二、如何批量采集
2.1,使用数据DIY上面现成的爬虫程序(选择目录:类别->网站->页面),查看样本网址就可以知道网页结构,把相同网页结构的其他网址点击“输入多条网址”就可以批量采集。
2.2,下载集搜客爬虫,通过学习《从入门到精通》章节的教程,掌握制作采集规则的技能,就可以对想要采集的网页做采集规则,再把相同结构的网址添加到规则里,实现批量采集。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
|
|
|
共 11 个关于本帖的回复 最后回复于 2024-11-19 16:17