集搜客GooSeeker网络爬虫模块
MS谋数(台)—— MetaStudio:定义网页抓取规则
DS打数(机)—— DataScraper:运行规则执行网页抓取
MC数满仓—— MetaCorpora:抓取结果入库清洗
谋定而后打,必定大数据满仓
规格 | 详细说明 | 费用 |
---|---|---|
集搜客GooSeeker网络爬虫软件的模块 | ||
MS谋数台 | 在浏览器上点选指定抓取内容,定义抓取结果存放结构,自动生成抓取规则 | √可试用 |
DS打数机 | 执行网络爬虫功能,使用抓取规则,把网页数据抓取下来,存成结构化的XML结果文件 | √可试用 |
集搜客GooSeeker网络爬虫软件的功能 | ||
直观易用,集成化图形界面 | 包括网页结构分析窗口、左栏工作台、内嵌浏览器等子窗口。选取被抓取内容时,三个子窗口联动,并显示HTML节点的重要属性 | √可试用 |
免编程,抓取规则自动生成 | 指定抓取内容,定义抓取结果存放结构(整理箱),抓取规则将网页内容分别映射给整理箱中的抓取内容,MS谋数台能够自动生成抓取规则 | √可试用 |
所见即所得,抓取规则即时验证 | 点击界面上的按钮,可即时验证抓取规则的有效性,若达不到预期,可立即修改,不用等到DS打数机实际抓取时才验证,大大提高工作效率 | √可试用 |
直观验证老抓取规则 | 网页结构变化会导致以前定义的抓取规则失效,不用人工阅读抓取规则指令,只需加载以前的抓取规则,MS谋数台会自动加载样本网页,并验证抓取规则的有效性,如果哪个抓取内容无法定位,则会在输出信息中提示错误原因 | √可试用 |
所见即所得地修改老抓取规则 | 在验证抓取规则有效性后,如果哪个抓取内容无法定位,则重新对这个抓取内容做映射操作,即可生成新抓取规则 | √可试用 |
对网页编程技术透明 | 集搜客GooSeeker用户不用关心目标网站和网页采用的编程技术,显示在网页上的内容通常都可抓取,包括AJAX即时生成的动态内容 | √可试用 |
原始网页内容纠错 | 网页的发布者在写网页的时候可能存在语法和词法错误,chrome浏览器能打开的网页通常都能定义抓取规则并进行抓取 | √可试用 |
对网页编码透明 | 所有编码格式不加区别,用户不必操心网页具体的编码,只要是合法的能够被chrome浏览器解析和显示的网页都用统一的方法定义抓取规则和进行抓取 | √可试用 |
抓取服务器侧动态网页 | 服务器侧网页可以采用各种动态技术,比如,ASP,JSP,PHP,CGI等等,集搜客GooSeeker不加区别,都用统一的方法定义抓取规则并进行抓取 | √可试用 |
JS实现的动态网页 | 集搜客GooSeeker提供一系列手段,确保JS动态网页内容抓取的正确性和完整性,而且网页抓取规则定义方法与普通网页一致,所见即所得的方式让用户觉察不到哪些JS代码执行了什么操作 | √可试用 |
post和get一致处理 | DS打数机并不关心向服务器发送的是post还是get消息,因为DS打数机模拟用户的行为只管点击指定的按钮或超链接,至于是post还是get,由低层函数库根据HTML网页上的内容自动识别处理 | √可试用 |
抓取用JS实现的分页 | 如果内容很长,网站会分成多个网页,如果用JS实现翻页,往往每个分页没有独立的URL地址,集搜客GooSeeker可以像抓取普通分页一样,连续模拟点击翻页按钮或者超链接,抓取每一分页的内容 | √可试用 |
模拟点击抓取 | 集搜客GooSeeker可模拟用户用鼠标点击网页上确定位置的按钮或者超链接,并在点击后抓取变化了的网页内容 | √可试用 |
随机延迟 | 通过设置最小延迟时间和最大延迟时间,每抓完一页,DS打数机会随机在这个区间找一个延迟时间,过后才启动下一页抓取 | √可试用 |
爬虫群并行抓取 | 把爬虫分布到不同电脑上,甚至可以部署在不同地点,可以邀请同学和同事进行互助抓取 | √专业版以上 |
抓取结果本地存储 | 抓取结果是XML格式文件,一个目标网页对应一个文件,抓取结果默认存储在Windows用户目录下的DataScraperWorks文件夹,含有语义标签的XML格式利于与第三方系统集成。可以批量导入到excel,也可以成批压缩打包传送给集中管理程序 | √可试用 |
抓取结果存储路径规划 | 缺省情况下,抓取结果存储在系统盘C中,为了防止过度消耗系统盘的可用空间,可通过爬虫软件的管理界面,把存储目录指向别处,可规定每个文件夹存储的结果文件数量,DS打数机能自动创建深层文件夹,存储更多文件。为了防止创建过深的目录结构,可定期修改顶层目录的指向 | √可试用 |
运行策略1:手工启动测试爬虫 | 用MS谋数台定义完抓取规则,并执行了保存操作,则在谋数台工具条上可以点击“爬数据”按钮启动一个测试用网络爬虫,即时验证抓取的正确性 | √可试用 |
运行策略2:手工启动爬虫任务 | 启动一个爬虫任务窗口,则只使用一个抓取规则抓取一批网页,也就是说网络爬虫窗口是独占的,便于观察失败情况。同时可以为多个爬虫任务各启动一个爬虫窗口 | √可试用 |
周期性自动启动爬虫群 | 在任务管理界面上设置调度参数,可以启动多个爬虫窗口,多个窗口可服务于多个抓取规则,轮流执行 | √可试用 |
增量抓取 | 对于不断发布新内容的网站,没有必要重复抓取以前抓取过的内容,通过在周期性抓取调度文件中设定相应参数,可以只增量抓取新内容 | √可试用 |
网络爬虫路径规划 | 互联网的页面由超链接相互连接起来就像一张蜘蛛网,DS打数机称为网络爬虫,MS谋数台定义抓取规则的时候可以设定下级线索,指示打数机进行深度和广度扩展 | √可试用 |
不限深度不限广度 | (此处指范围,非网页数量)集搜客对网站深度和广度不设限,任由您规划。不会根据时间或者根据网页数量额外扣取积分或者费用,规划的爬虫路径可以覆盖整个互联网 | √可试用 |
深度和宽度可限定 | 必要的时候,您可限定深度和宽度,以节省网络爬虫的计算机资源。在周期性抓取调度文件中进行设定 | √可试用 |
连贯抓取和非连贯抓取 | 连贯抓取主要用于翻页抓取,也用在多个抓取规则之间连续跳转页面抓取,比如,ajax页面的连续模拟点击抓取。也可以不设定连贯抓取,那么为跳转到的页面生成独立线索,可以在另外的线程中抓取新线索 | √可试用 |