嵌入如scrapy之类的爬虫作为数据提取器
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2016-8-12 16:48

ippfon 版主 发表于 2016-8-12 10:10:41 | 显示全部楼层
本帖最后由 ippfon 于 2016-8-12 10:12 编辑

GooSeeker开源Python网络爬虫GitHub源
可以先尝试看看官方的示例源代码,上面有以scrapy为框架,使用GsExtractor内容提取器的例子
流程可以参考:Python网页信息采集-使用PhantomJS采集淘宝天猫商品内容

举报 使用道具
xiaoyuvps 初级会员 发表于 2016-8-12 15:24:33 | 显示全部楼层
ippfon 发表于 2016-8-12 10:10
GooSeeker开源Python网络爬虫GitHub源
可以先尝试看看官方的示例源代码,上面有以scrapy为框架,使用GsExt ...

我看了这部分。

我想知道GS_EX2输出的格式是固定的么?
XML?
举报 使用道具
Fuller 管理员 发表于 2016-8-12 15:32:17 | 显示全部楼层
xiaoyuvps 发表于 2016-8-12 15:24
我看了这部分。

我想知道GS_EX2输出的格式是固定的么?

目前,GooSeeker的所有爬虫产品输出的格式都是xml
举报 使用道具
xiaoyuvps 初级会员 发表于 2016-8-12 15:37:28 | 显示全部楼层
Fuller 发表于 2016-8-12 15:32
目前,GooSeeker的所有爬虫产品输出的格式都是xml

所以现在就有一个问题了。

我第一个parse 过程 把列表页采集出来所有的详情 输出为XML

然后第二个parse 能否读取xml里的链接 然后进行详情页的提取呢?

另外就是我能否不输出为xml 改输出为json之类的  还是说用gs_ex提取出来的数据 一定就是以XML文件输出的?
举报 使用道具
Fuller 管理员 发表于 2016-8-12 16:31:04 | 显示全部楼层
xiaoyuvps 发表于 2016-8-12 15:37
所以现在就有一个问题了。

我第一个parse 过程 把列表页采集出来所有的详情 输出为XML

如果要做结果合并,最好入到数据库,比如MySQL或者MongoDB

gs_extractor输出成XML,因为抓取规则是一个输出成XML的脚本程序,目前不直接输出json,需要做一个转换,比如,入MongoDB之前肯定要转换成json。这个转换可以很直接

结果里面的<item>应该对应成[],里面是整理箱实例对象。就变成 [{}, {}, {}, ...., {}]这样子。这样变换的话,入MongoDB最合适,如果用市面上现成的转换工具,会把<item>当成一项内容,变成json后,就把对象结构搞得不好了,在MongoDB中搜索子集就失效了
举报 使用道具
xiaoyuvps 初级会员 发表于 2016-8-12 16:48:41 | 显示全部楼层
Fuller 发表于 2016-8-12 16:31
如果要做结果合并,最好入到数据库,比如MySQL或者MongoDB

gs_extractor输出成XML,因为抓取规则是一个 ...

不是。我的意思是第一和第二。
等到内容页采集出来进行一次性转换就行了。

我的意思是第二个parse 也就是内容页采集的时候 可以直接读取 第一个parse采集出来的地址集么?

难弄么?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 15:31