我正在用这个网站练习:http://110.waimaoba.com/category/arts-and-crafts
每个页面包含10组公司信息,但是具体的联络方式等内容仍然需要点开公司名字上的链接才能够看到,这些链接有个共同的特点,即前半部分url都是:http://110.waimaoba.com/company/...。
我目前只会对当前页面上的信息进行抓取并设置翻页,不知道在上述情况下如何对新翻开的的网页进行抓取并翻页?
期待回复!
我正在用这个网站练习:http://110.waimaoba.com/category/arts-and-crafts
每个页面包含10组公司信息,但是具体的联络方式等内容仍然需要点开公司名字上的链接才能够看到,这些链接有个共同的特点,即前半部分url都是:http://110.waimaoba.com/company/...。
我目前只会对当前页面上的信息进行抓取并设置翻页,不知道在上述情况下如何对新翻开的的网页进行抓取并翻页?
期待回复!
层级抓取实现这个需求
请参看《层级抓取》这个教程