https://corp.1688.com/page/index ... acelog=gsda_huangye
如上网页,需要抓取主营产品、主营行业、经营模式、是否加工订制、企业类型、员工人数、产品质量认证、品牌名称这些信息。
目前我遇到的问题:因为每条数据所在的DOM节点CLASS是相同的,但是通过绝对定位来做又会因为不同公司黄页信息的顺序是不同的导致抓取内容错误。求高人指点或帮我做一条规则出来。谢谢了~~~
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2016-6-8 16:55

沙发
gsk117520 中级会员 发表于 2016-6-8 14:11:00 | 只看该作者
求大神关注
举报 使用道具
板凳
Fuller 管理员 发表于 2016-6-8 15:38:10 | 只看该作者

最好这样抓:
1)做样例复制映射,一行行抓下来,不用区分每行是什么意思
2)导入数据库,编写数据清洗程序,把每行是什么意思识别出来,然后存入表格的对应字段中

也就是说,抓取的时候不区分,入库以后用清洗程序区分开
举报 使用道具
地板
gsk117520 中级会员 发表于 2016-6-8 16:22:39 | 只看该作者
Fuller 发表于 2016-6-8 15:38
最好这样抓:
1)做样例复制映射,一行行抓下来,不用区分每行是什么意思
2)导入数据库,编写数据清洗程 ...

可是数据顺序是乱的啊,也就是说用EXCEL打开的时候 每一列的数据不是一个类型啊
举报 使用道具
5#
Fuller 管理员 发表于 2016-6-8 16:55:26 | 只看该作者
gsk117520 发表于 2016-6-8 16:22
可是数据顺序是乱的啊,也就是说用EXCEL打开的时候 每一列的数据不是一个类型啊 ...

要编写数据清洗程序,专门处理数据对齐的问题
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 15:03