纵向表格数据怎么写规则
举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2016-11-9 17:04

沙发
HJLing 版主 发表于 2016-11-8 14:27:08 | 只看该作者
表格型数据都是比较规整的,直接按照表格字段设置抓取内容,再做样例复制就可以
参考教程《表格型数据采集
举报 使用道具
板凳
65801266 新手上路 发表于 2016-11-9 11:04:00 | 只看该作者
表格中 有部分合并 ,比如左边为合并项,右边为规整的循环表格,就无法 编写采集规则
举报 使用道具
地板
65801266 新手上路 发表于 2016-11-9 11:04:29 | 只看该作者
比如 这个样子的,不知道怎么写 http://atestsc.mot.gov.cn/pub/publish/34/BJ1049V9JEA-FE.html
举报 使用道具
5#
xandy 论坛元老 发表于 2016-11-9 11:31:40 | 只看该作者
65801266 发表于 2016-11-9 11:04
比如 这个样子的,不知道怎么写 http://atestsc.mot.gov.cn/pub/publish/34/BJ1049V9JEA-FE.html ...

有一种方案就是,对HTML树里面的TR做样例复制,如下图所示:
然后采集下来的数据用excel分列处理,这样就规整了。
举报 使用道具
6#
HJLing 版主 发表于 2016-11-9 11:33:45 | 只看该作者
65801266 发表于 2016-11-9 11:04
比如 这个样子的,不知道怎么写 http://atestsc.mot.gov.cn/pub/publish/34/BJ1049V9JEA-FE.html ...

是的 这个表格比较复杂 我们除了把文本采集下来 还把单元格的rowspan和colspan采集下来 再在数据库通过清洗程序来知道哪些单元格合并了

举报 使用道具
7#
65801266 新手上路 发表于 2016-11-9 12:09:02 | 只看该作者
HJLing 发表于 2016-11-9 11:33
是的 这个表格比较复杂 我们除了把文本采集下来 还把单元格的rowspan和colspan采集下来 再在数据库通过清 ...

你这方式固然可以抓去文字内容,但里面的链接地址 无法 方便抓取
举报 使用道具
8#
xandy 论坛元老 发表于 2016-11-9 14:13:20 | 只看该作者
65801266 发表于 2016-11-9 12:09
你这方式固然可以抓去文字内容,但里面的链接地址 无法 方便抓取

建立两个整理箱,一个整理箱抓数据,一个整理箱抓链接

根据链接的名称可以将整理箱2中的链接和整理箱1中的名称进行匹配
举报 使用道具
9#
65801266 新手上路 发表于 2016-11-9 16:50:55 | 只看该作者
本帖最后由 65801266 于 2016-11-9 16:54 编辑
xandy 发表于 2016-11-9 14:13
建立两个整理箱,一个整理箱抓数据,一个整理箱抓链接

根据链接的名称可以将整理箱2中的链接和整理箱1中 ...

嗯,谢谢
给你们提个建议,
1、就是 有些自动跳转的 页面,可以 禁止 跳转 ,方便编制采集规则
2、有JS代码的 ,特别 有统计 JS代码的页面,禁止 JS代码执行,这个 可以 提高 页面加载速度。
以上两个建议 ,可以 增加为 用户手动 根据需要配置

1、我设置了 IE浏览器禁止自动跳转,在IE中访问已停止跳转,但在集搜 里面 任然自动跳转,这样 无法设置 中间页面 的采集规则 再跳转到下级页面
2、这是运行中发现 页面加载速度慢,多半就是这个 统计JS导致

之前问到的问题 在XXX 软件里面  已解决 ,但是 采集速度 比较慢。
举报 使用道具
10#
65801266 新手上路 发表于 2016-11-9 16:54:22 | 只看该作者
本帖最后由 65801266 于 2016-11-9 16:56 编辑

建立的一个采集 流程,深层次多页面,结果就是我想要的。但是采集速度 比较慢。

http://atestsc.mot.gov.cn/pub/publish/33/index.html
就是采集 这个目录 下所有车型里面的配置,其中 就有之前 探讨的特殊界面 ,然后 再到详细界面
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 11:55