爬虫规则

爬虫规则

网页结构

网页结构

爬虫数据

爬虫数据

规则名称:网贷之家_资讯_3.1   
爬出的数据一个xml文件中出现了多个:资讯标题,资讯内容,资讯时间没法导入数据库中
寻求解决方案

举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2017-8-23 17:14

bowieD 金牌会员 发表于 2017-8-23 15:18:13 | 显示全部楼层
本帖最后由 bowieD 于 2017-8-23 15:57 编辑

做了样例复制,xml中就会出现多个item对,所以这些标签会重复出现。一对item代表一个样例的内容。 资讯标题,资讯内容,资讯时间是底层标签,这些标签里面就是采集到的网页信息了。

1,如果想导入GooSeeker的云数据库,在会员中心的爬虫调度那里,选中一个抓取规则,点击调度链接,进入调度设置页面,可以看到“结果入库”,勾上。然后运行DS打数机,运行在爬虫群模式,就实现了自动入库。
2,如果要导入自己的数据库,抓取 结果文件是xml格式的,解析入库程序可以自己写一个,xml结构请参考《xml结构》
3,如果是这些重复的标签而无法导入数据库,可以把XML转换成Excel,做去重复处理。
举报 使用道具
shengchengx 金牌会员 发表于 2017-8-23 15:18:16 | 显示全部楼层
这个是因为做了样例复制,抓取了多条数据,所以表头会重复。
要么取消掉样例复制,每个xml文件存放一条数据,要么转换成Excel,每一行就存放的是一条数据
举报 使用道具
Shuquan 中级会员 发表于 2017-8-23 15:56:23 | 显示全部楼层
4.jpg
不做样例复制,我遇到分页怎么解决
举报 使用道具
环境监测 中级会员 发表于 2017-8-23 16:05:17 | 显示全部楼层
Shuquan 发表于 2017-8-23 15:56
不做样例复制,我遇到分页怎么解决

多栏只有用样例复制,样例复制就会出现多个重复的,你转换成Excel格式的吧

举报 使用道具
Shuquan 中级会员 发表于 2017-8-23 16:11:10 | 显示全部楼层
我现在应该写好程序采用xml导入数据库的,不会让我在重新协议个程序吧,这样的工作量太大了
寻求解决方案
举报 使用道具
shengchengx 金牌会员 发表于 2017-8-23 17:14:03 | 显示全部楼层
Shuquan 发表于 2017-8-23 16:11
我现在应该写好程序采用xml导入数据库的,不会让我在重新协议个程序吧,这样的工作量太大了
寻求解决方案
...

如果需要一条数据一个xml文件的话,那就再做一个下级规则,点击查看详情,进去抓取标题、时间和摘要就好了。
TIM截图20170823171319.png TIM截图20170823171332.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 01:45