刚使用GooSeeker,在抓取以下网页的时候,遇到以下几个问题,望大家多赐教。
网页地址:http://law.npc.gov.cn/FLFG/ksjsCateGroup.action?zlsxid=01&bmflid=01&zdjg=&txtid=&keyword=
一、爬取目标:
1.1、获取表格中的数据;
1.2、目标图片内容示意图,如下:

二、个人使用GS爬虫配置如下图:

三、遇到的问题主要如下:
3.1、表格数据格式不一致,目前只有一个规则匹配,不知道是否需要多个规则?
3.2、如何动态获取表格中的数据,比如需要鼠标滑动才出现的文本;
3.3、翻页问题未处理;(可暂不考虑,已找到使用说明)
3.3、3层链接的爬取问题;(还未到此步骤。已找到说明文档,但还未试用)。

   谢谢大家。



举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2016-11-24 19:29

沙发
Fuller 管理员 发表于 2016-11-23 23:02:25 | 只看该作者
根据你截图上的主题名搜不到规则,是不是还没有存规则?

1)内容时有时无这种情况,需要一些技巧,比如,用自定义xpath,也许还有更加简便的方法,要看具体规则来定
2)鼠标滑动才出现的内容,要用连续动作,有专门的鼠标悬浮动作。3)网页上显示不全的内容,有些是用css控制的,而网页源代码是全的,就能抓,如果源代码都不全,就抓不了
举报 使用道具
板凳
lizhuquan 新手上路 发表于 2016-11-24 10:34:13 | 只看该作者
@Fuller 非常感谢。
搜不到规则,确实没有存规则,主要原因是点击“测试”按钮后,感觉数据采集效果不理想,所以未存。
根据你的回答,做了以下两项测试:
1)重新采集四个字段;
2)做了样例复制;(第一条和第二条)
3)保持了规则,规则名称为“宪法相关法_规则_5”

相关图片如下,请参考:
1)

2)

3)



非常期待你的回复。
举报 使用道具
地板
HJLing 版主 发表于 2016-11-24 11:21:50 | 只看该作者

这个网站比较特殊 每多一行数据就多了一个同级的tr节点 程序只能把全部都采集下来
要把相关文件和标题进行匹配 那就需要后续的处理

举报 使用道具
5#
lizhuquan 新手上路 发表于 2016-11-24 11:26:23 | 只看该作者
@HJLing,谢谢。
我再研究一下。如果大家有更多的建议,万分感谢。
举报 使用道具
6#
HJLing 版主 发表于 2016-11-24 11:32:03 | 只看该作者
本帖最后由 HJLing 于 2016-11-24 11:39 编辑
lizhuquan 发表于 2016-11-24 11:26
@HJLing,谢谢。
我再研究一下。如果大家有更多的建议,万分感谢。


直接使用软件能实现的结果就只能是这样

举报 使用道具
7#
lizhuquan 新手上路 发表于 2016-11-24 16:41:41 | 只看该作者
@HJLing,谢谢。
冒昧一下,能否把数据规则提供一下吗?
举报 使用道具
8#
HJLing 版主 发表于 2016-11-24 16:46:23 | 只看该作者
lizhuquan 发表于 2016-11-24 16:41
@HJLing,谢谢。
冒昧一下,能否把数据规则提供一下吗?

...删了... 因为只是测试 测试完就删了
我都是用自定义xpath写的

举报 使用道具
9#
lizhuquan 新手上路 发表于 2016-11-24 19:10:08 | 只看该作者
@HJLing 。 我换了一个网站,但遇到翻页问题。
主要有:翻页的链接不是<herf aaa/bbb/ccc/xx.jsp /> 这类格式。而是一段js代码。
具体情况如下,如有时间,指导一下。



举报 使用道具
10#
Fuller 管理员 发表于 2016-11-24 19:29:59 | 只看该作者
lizhuquan 发表于 2016-11-24 19:10
@HJLing 。 我换了一个网站,但遇到翻页问题。
主要有:翻页的链接不是 这类格式。而是一段js代码。
具体情 ...

你这个规则我加载不了,好像网址失效了。

翻页不了跟js代码无关,连贯抓取的翻页不会受js影响。你可以点击“定位选项”按钮,换一种偏好试试,应该受定位偏好影响
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 15:40