如何把某个网站下所有网页中全部类似的成分提取下来

Wed, 02/27/2013 - 09:15 — wereeagle

新手，急着想试试如题的功能，但是在教程里只看到翻页提取。有个网站有很多分页，但是结构高度一致，如何把每页上一小段信息全部提取出来呢？主题制作刚入门，不好意思急着发问了。非常感谢！

Web信息提取

Wed, 02/27/2013 - 23:01 — youranq

至少先把网址贴出来吧

至少先把具体网址贴出来吧，如果你有半成品的主题也可以把主题名写出来，这样大家才可以帮你看看具体遇到什么问题。
另外速成教材要看全，到后面就豁然开朗了。

Thu, 02/28/2013 - 06:21 — wereeagle

网站是这个：high-school

网站是这个：high-schools.com，schema叫wereeagle_high_schools，每个学校有一页，结构都一样，想把各个学校网址都抓下来，就是不知道怎么去访问所有页面，也没法弄个所有页的列表。怎么自动去这个网站找所有学校页呢？多谢指教！

Thu, 02/28/2013 - 09:25 — Fuller

抓取高校信息需要用层级抓取

参看《层级抓取》一文，先将左栏的“州”网页地址抓下来，然后，进入州页面，将城市网页地址抓下来，然后，进入城市页面，将这个城市的所有学校的网址抓下来，如果还要抓取学校详细信息，那么再进入学校页面，将详细信息抓下来

Thu, 02/28/2013 - 09:37 — wereeagle

多谢大神指教！！再

多谢大神指教！！再弱问一下，如果最后抓到了所有学校的链接，比如http://high-schools.com/schools/6698/southeast-high-school.html，这将会是很长的清单，可能有2、3万个页面的url，然后如何进行最后一步，进入每个学校页面将详细或者一小部分信息抓下来呢？叩谢了

Thu, 02/28/2013 - 11:27 — Fuller

层级抓取每一步对应一个主题

层级抓取每一步对应一个主题，每个主题都可以独立地执行抓取，可以按照层次结构从第一层依次往下分别执行抓取，到最后一层，就会几类很多网页网址。

2、3万个网页是个很小的数目。如果目标网站速度比较慢的话，一天可能抓不完，MetaSeeker可以长期运行。

GooSeeker