11#
Fuller 管理员 发表于 2016-11-9 16:57:08 | 只看该作者
65801266 发表于 2016-11-9 16:50
嗯,谢谢
给你们提个建议,
1、就是 有些自动跳转的 页面,可以 禁止 跳转 ,方便编制采集规则

集搜客网络爬虫都有这些功能。

做规则时禁止跳转,集搜客有多种手段:
1)MS谋数台或者GS爬虫浏览器工具条中部的“内容定位”,勾上以后,点击超链接或者其他元素就不会发生跳转
2)MS谋数台或者GS爬虫浏览器的菜单 规则-》冻结页面,勾上以后,就会禁止js的运行,这样就能确保在做规则的时候js不要修改网页内容

抓取时提高速度
1)DS打数机菜单 配置-》配置浏览器,能看到 加载图片,加载js等

如果使用集搜或者单搜这种手动启动的爬虫,DS打数机菜单设置的选项是有效的。如果运行爬虫群模式,请到会员中心-》规则管理那里设置调度参数
举报 使用道具
12#
Fuller 管理员 发表于 2016-11-9 17:04:13 | 只看该作者
65801266 发表于 2016-11-9 16:54
建立的一个采集 流程,深层次多页面,结果就是我想要的。但是采集速度 比较慢。

http://atestsc.mot.gov.c ...

本页面内的采集动作不需要定义流程,集搜客爬虫会自动编排,只有当定义连续动作的时候,需要手工排顺序,但是,不用规划内循环和外循环。集搜客爬虫自动根据进位原理把所有动作嵌套起来。

页面之间的关系,是在“爬虫路线”工作台上指定下级线索实现的。也不用再次编排。如果需要看主题之间的关系,如下图点击红框:


目前这些跳转关系都不能手工编排,灵活性稍微差一些。

你这个网站,如果点击以后新的网页内容是在另一个浏览器窗口中显示的,而且没有独立网址,做不了层级抓取,只能用飞掠模式

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-23 15:51