裁判文书网2y

274 0 12 所需积分:7000 更新时间:2017-03-06 14:36 类别: 法律

规则介绍

采集裁判文书每篇文书的的详情页内容,由规则《裁判文书网1y》生成线索。 (如果该规则与描述不符或无效,您可 申诉。)

采集内容

信息字段 网页内容
列表
标题
日期
法院
类型
编号
内容
审判员
年份
书记员

用户评论

  1. lihuimiaomiao 2017-03-22 14:08

  2. hzlpachong 2017-03-30 14:28

    你好,请问这个规则可以爬取中国裁判文书网上面的全部文书吗?2700万份?

  3. Fuller 2017-03-30 15:04

    不知道近来这个网站是否改过版,以前的版本是:翻页查看更多文书的时候,页码越大,翻页越困难,所以,要把所有2700万份采集完几乎不太可能。需要很多迂回的方案,比如,调整搜索条件,缩小搜索范围,每次需要的翻页数量就会减少。但是这样就会有重复,一个条件采集到的文书与另一个条件采集到的有重复。 总之,要采集2700万份,是一个成本很高的任务

  4. hzlpachong 2017-03-30 16:19

    谢谢您的回复和解释。那如果我只爬取某一类案件,数据量是 几十万份的话,大概需要多长时间呢?可以比较顺利爬取下来吗? 我刚刚接触这一块,计算机基础比较差,麻烦你了!谢谢!

  5. Fuller 2017-03-30 16:22

    假设不是实测而是估计,通常我们担心网站封锁爬虫,所以根据经验让爬虫运行不要太快,一般4秒一个网页就比较安全。一天多少秒就能算出来能采集多少网页。为了采集更快,我们会用多台电脑,而且让他们各自用各自的IP地址

关于作者

作者其他资源更多 >

集搜客_入门
本规则就是《集搜客入门——三步掌握集搜客》中的样例规则,想要深入了解如何操作可以下载规则查看和体验。
抓取优酷评论
抓取优酷视频下的评论信息,包括用户名称、评论内容、评论时间和来自网站。采集这些信息可了解网民态度。
抓取3G网络社区帖子列表信息
3G网络社区是国内最大的3G用户社区,是谈论运营商最多的地方。抓取内容包括帖子标题、摘要、时间等等,可得到关键字搜索最近的热门讨论信息。可配合规则 抓取3G网络社区帖子详细信息 使用抓取更多信息。
V8.9 版权所有 © 2007-2016 GooSeeker 深圳市天据电子商务有限公司
粤ICP备11065265号-2 粤公网安备 44030502000239号