如何把某个网站下所有网页中全部类似的成分提取下来

新手,急着想试试如题的功能,但是在教程里只看到翻页提取。有个网站有很多分页,但是结构高度一致,如何把每页上一小段信息全部提取出来呢?主题制作刚入门,不好意思急着发问了。非常感谢!

至少先把网址贴出来吧

至少先把具体网址贴出来吧,如果你有半成品的主题也可以把主题名写出来,这样大家才可以帮你看看具体遇到什么问题。
另外速成教材要看全,到后面就豁然开朗了。

网站是这个:high-school

网站是这个:high-schools.com,schema叫wereeagle_high_schools,每个学校有一页,结构都一样,想把各个学校网址都抓下来,就是不知道怎么去访问所有页面,也没法弄个所有页的列表。怎么自动去这个网站找所有学校页呢?多谢指教!

抓取高校信息需要用层级抓取

参看《层级抓取》一文,先将左栏的“州”网页地址抓下来,然后,进入州页面,将城市网页地址抓下来,然后,进入城市页面,将这个城市的所有学校的网址抓下来,如果还要抓取学校详细信息,那么再进入学校页面,将详细信息抓下来

多谢大神指教!!再

多谢大神指教!!再弱问一下,如果最后抓到了所有学校的链接,比如http://high-schools.com/schools/6698/southeast-high-school.html,这将会是很长的清单,可能有2、3万个页面的url,然后如何进行最后一步,进入每个学校页面将详细或者一小部分信息抓下来呢?叩谢了

层级抓取每一步对应一个主题

层级抓取每一步对应一个主题,每个主题都可以独立地执行抓取,可以按照层次结构从第一层依次往下分别执行抓取,到最后一层,就会几类很多网页网址。

2、3万个网页是个很小的数目。如果目标网站速度比较慢的话,一天可能抓不完,MetaSeeker可以长期运行。