抓取实时道路平均车速 地址:http://szmap.sutpc.com/roadcongmore.aspx 问题:没有翻页键,只有每页的链接,如何实现翻页抓取? 邮箱:327895161@qq.com
盼解答,谢谢!
比如,网址:http://szmap.sutpc.com/roadcongmore.aspx?page=13 是第13页,如果把这个网址的13替换成12,就是12页,有这个规律,可以把所有网址都构造出来
比如,手工构造出如下网址 http://szmap.sutpc.com/roadcongmore.aspx?page=1 http://szmap.sutpc.com/roadcongmore.aspx?page=2 http://szmap.sutpc.com/roadcongmore.aspx?page=3 http://szmap.sutpc.com/roadcongmore.aspx?page=4
然后手工录入到MetaSeeker服务器中,网址是 http://www.metacamp.cn/datastore/manageclue.htm ,找到你那个主题,点击进入到线索添加页面,手工把这些网址添加上,DataScraper就能抓取了。
还有一种方法:把这些网址写到一个html里面,如果自己没有http服务器,那么可以在百度或者新浪博客中把这些网址写进去,然后用MetaStudio定义一个规则,抓取这些网址生成下一级线索。用一个两级抓取就能达到目的
请问是要用相对线索构造还是特征线索构造呢?
谢谢!
直接构造网址
比如,网址:http://szmap.sutpc.com/roadcongmore.aspx?page=13 是第13页,如果把这个网址的13替换成12,就是12页,有这个规律,可以把所有网址都构造出来
用个程序或者手工构造就行了
比如,手工构造出如下网址
http://szmap.sutpc.com/roadcongmore.aspx?page=1
http://szmap.sutpc.com/roadcongmore.aspx?page=2
http://szmap.sutpc.com/roadcongmore.aspx?page=3
http://szmap.sutpc.com/roadcongmore.aspx?page=4
然后手工录入到MetaSeeker服务器中,网址是 http://www.metacamp.cn/datastore/manageclue.htm ,找到你那个主题,点击进入到线索添加页面,手工把这些网址添加上,DataScraper就能抓取了。
还有一种方法:把这些网址写到一个html里面,如果自己没有http服务器,那么可以在百度或者新浪博客中把这些网址写进去,然后用MetaStudio定义一个规则,抓取这些网址生成下一级线索。用一个两级抓取就能达到目的
请问是要用相对线索
请问是要用相对线索构造还是特征线索构造呢?
谢谢!
谢谢!