本帖最后由 zsl_8087 于 2016-11-7 16:19 编辑

本人小白一枚,今天初次使用集搜客软件用于抓取数据,碰到一些问题望情大神们帮助,在此感激不尽,说下问题:
手里有几千万个企业名称,想以此为索引获取其企业信用信息(天眼查),查询格式如下:
      http://www.tianyancha.com/search?key=北京百度网讯科技有限公司&checkFrom=searchBox

列表item XPATH为://*[@class='search_result_single ng-scope']
由于详情页的一些信息空缺需先抓取上图红色框内的HTML后再执行点击跳转详情页。
详情页方面由于链接是点击新开页面展示出来,链接也是没有规律的ID字符串,如:http://www.tianyancha.com/company/22822
详情页所需信息为下图红色框:

其上下XPATH分别为://*[@class='row b-c-white ']    和    //*[@class='row b-c-white company-content']
现在问题来了,集搜客只支持翻页和当前页面跳转,像这种另开页面的需要开启飞掠模式~,全程不需要任何图片。,本人新手上路第一天就翻车了还是说我不够熟悉不知道另外的办法,在此特向各位大神请求帮助,望能解答。再次感谢。
PS:说可以花钱解决的就算了,可以的话就不需要自己钻研了,另一半也算给自己提升的机会。
举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2017-11-16 14:53

沙发
TonyJiang 高级会员 发表于 2016-11-7 16:26:46 | 只看该作者
从列表到详情页 有独立网址 直接抓取href做层级线索就可以 不需要用飞掠模式
举报 使用道具
板凳
TonyJiang 高级会员 发表于 2016-11-7 16:27:12 | 只看该作者
从列表到详情页 有独立网址 直接抓取href做层级线索就可以 不需要用飞掠模式
举报 使用道具
地板
zsl_8087 新手上路 发表于 2016-11-7 16:32:10 | 只看该作者
TonyJiang 发表于 2016-11-7 16:27
从列表到详情页 有独立网址 直接抓取href做层级线索就可以 不需要用飞掠模式 ...

层级线索?能一次性抓完完整的么?不是说先保存下来详情页链接再抓详情页的方式。而且层级线索不是只能抓翻页之类的当前页刷新的方式么?
举报 使用道具
5#
TonyJiang 高级会员 发表于 2016-11-7 16:45:09 | 只看该作者
zsl_8087 发表于 2016-11-7 16:32
层级线索?能一次性抓完完整的么?不是说先保存下来详情页链接再抓详情页的方式。而且层级线索不是只能抓 ...

层级不只能抓翻页,因为你这个详情页有独立的网址,可以把这个网址当做下级线索,然后做一个下级规则来抓取详情页的内容
举报 使用道具
6#
Fuller 管理员 发表于 2016-11-7 16:47:03 | 只看该作者
zsl_8087 发表于 2016-11-7 16:32
层级线索?能一次性抓完完整的么?不是说先保存下来详情页链接再抓详情页的方式。而且层级线索不是只能抓 ...

用纯粹的层级抓取,速度最快,根本不用飞掠模式。参看层级抓取教程
举报 使用道具
7#
zsl_8087 新手上路 发表于 2016-11-7 16:50:04 | 只看该作者
TonyJiang 发表于 2016-11-7 16:45
层级不只能抓翻页,因为你这个详情页有独立的网址,可以把这个网址当做下级线索,然后做一个下级规则来抓 ...

我再试试,谢谢
举报 使用道具
8#
zsl_8087 新手上路 发表于 2016-11-7 16:50:36 | 只看该作者
Fuller 发表于 2016-11-7 16:47
用纯粹的层级抓取,速度最快,根本不用飞掠模式。参看层级抓取教程。

谢谢,我再试试
举报 使用道具
9#
ds9752 新手上路 发表于 2016-12-13 00:09:08 | 只看该作者

楼主现在解决了吗?  是怎么做的?

举报 使用道具
10#
HJLing 版主 发表于 2016-12-13 09:49:03 | 只看该作者
ds9752 发表于 2016-12-13 00:09
楼主现在解决了吗?  是怎么做的?

就用《下级线索》和《翻页线索》就可以采集了

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-2 05:46