GooSeeker集搜客网络爬虫,简单高效的网页采集器

裁判文书网2y

166 0 10 所需积分:7000 更新时间:2017-03-06 14:36 类别: 法律

规则介绍

采集裁判文书每篇文书的的详情页内容,由规则《裁判文书网1y》生成线索。 (如果该规则与描述不符或无效,您可 申诉。)

采集内容

信息字段 网页内容
列表
标题
日期
法院
类型
编号
内容
审判员
年份
书记员

用户评论

  1. lihuimiaomiao 2017-03-22 14:08

  2. hzlpachong 2017-03-30 14:28

    你好,请问这个规则可以爬取中国裁判文书网上面的全部文书吗?2700万份?

  3. Fuller 2017-03-30 15:04

    不知道近来这个网站是否改过版,以前的版本是:翻页查看更多文书的时候,页码越大,翻页越困难,所以,要把所有2700万份采集完几乎不太可能。需要很多迂回的方案,比如,调整搜索条件,缩小搜索范围,每次需要的翻页数量就会减少。但是这样就会有重复,一个条件采集到的文书与另一个条件采集到的有重复。 总之,要采集2700万份,是一个成本很高的任务

  4. hzlpachong 2017-03-30 16:19

    谢谢您的回复和解释。那如果我只爬取某一类案件,数据量是 几十万份的话,大概需要多长时间呢?可以比较顺利爬取下来吗? 我刚刚接触这一块,计算机基础比较差,麻烦你了!谢谢!

  5. Fuller 2017-03-30 16:22

    假设不是实测而是估计,通常我们担心网站封锁爬虫,所以根据经验让爬虫运行不要太快,一般4秒一个网页就比较安全。一天多少秒就能算出来能采集多少网页。为了采集更快,我们会用多台电脑,而且让他们各自用各自的IP地址

关于作者

作者其他资源更多 >

aliexpress1
aliexpress分类列表采集,为规则《aliexpress2》采集商品列表页的规则生成线索。
aliexpress2
aliexpress商品列表页数据采集,为规则《aliexpress3》抓取详情页的规则生成线索。
aliexpress3
采集aliexpress商品详情页数据,设置连续动作采集评论数据,连续动作后调用《aliexpress4》规则。
V8.7 版权所有 © 2007-2016 GooSeeker 深圳市天据电子商务有限公司
粤ICP备11065265号-2 粤公网安备 44030502000239号