本帖最后由 zsl_8087 于 2016-11-7 16:19 编辑
本人小白一枚,今天初次使用集搜客软件用于抓取数据,碰到一些问题望情大神们帮助,在此感激不尽,说下问题:
手里有几千万个企业名称,想以此为索引获取其企业信用信息(天眼查),查询格式如下:
http://www.tianyancha.com/search?key=北京百度网讯科技有限公司&checkFrom=searchBox
列表item XPATH为://*[@class='search_result_single ng-scope']
由于详情页的一些信息空缺需先抓取上图红色框内的HTML后再执行点击跳转详情页。
详情页方面由于链接是点击新开页面展示出来,链接也是没有规律的ID字符串,如:http://www.tianyancha.com/company/22822
详情页所需信息为下图红色框:
其上下XPATH分别为://*[@class='row b-c-white '] 和 //*[@class='row b-c-white company-content']
现在问题来了,集搜客只支持翻页和当前页面跳转,像这种另开页面的需要开启飞掠模式~,全程不需要任何图片。,本人新手上路第一天就翻车了还是说我不够熟悉不知道另外的办法,在此特向各位大神请求帮助,望能解答。再次感谢。
PS:说可以花钱解决的就算了,可以的话就不需要自己钻研了,另一半也算给自己提升的机会。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
|
|
|
共 12 个关于本帖的回复 最后回复于 2017-11-16 14:53