网络爬虫软件产品技术动态和资讯 - 集搜客GooSeeker网络爬虫

四、下载、查看打标结果使用文本分词标注工具可以输出四个excel表，无论第2或第3步是否完成，都可以去下载已打标的数据，这些都是语义分析和文本分类的基础数据。 1、标签词库：对应第2步的操作结果； 2、情感词库 ...

2016-11-15 16:15

三、识别标签词所在句子中的情感词用文本分词标注工具筛选完标签词后，可以继续第3步操作，目的是识别出名词所在句子中的形容词，并判断出具有的情感色彩（好中差），大家可以根据需要来选择是否进行。在“筛选结 ...

2016-11-15 15:48

二、根据研究目的筛选标签词数据导入成功后，进入第2步筛选标签词，也就是文本分类中的特征选择和特征抽取的步骤。在这里，我们会看到按照词频降序排列的分词结果，而我们要做的是逐屏浏览，选出要研究的词语。很 ...

2016-11-15 15:41

下面以京东的手机评论为例介绍集搜客文本分词标注工具的用法。一. 建立打标任务、导入只有一列数据的excel表点击“新建任务”，就开始第1步导入数据，在这里，要自定义任务名称，导入只有一列数据的excel表，注意e ...

2016-11-15 15:30

利用集搜客所下载的图片名称是根据程序自动命名的，有时候网站有图片名称，我们也把图片采集下来，希望能批量对所下载图片进行重命名。下面教怎么批量修改图片名称。首先把采集结果xml文件转换成excel，教程见《xml ...

2016-11-4 16:36

一、操作步骤对于学习网页设计的人来说，有时候遇到了自己很喜欢的网页，却得不到它的html代码，或者得到的代码不完整。下面用网易新闻采集作为案例，教大家采集html源码，具体操作步骤如下：二、案例规则+操作步 ...

2016-10-28 11:53

数据规则就是随着标注和映射操作立刻生成的XSLT程序，它是爬虫采集网页数据的依据，主要涉及到xpath，大家在掌握html、xml、xpath的基础上，就能很好地理解XSLT程序。查看方法是点击“测试”-“数据规则”，如下图。 ...

2016-10-28 10:57

相信大家在采集数据后都会发现，集搜客的爬虫软件抓取的网页数据是以XML格式保存下来的，可能有一部分人看不懂XML数据文件。所以本文以一个XML文件为例子，给大家讲讲XML文件结构内各个标签（紫色字体）的意思。 XML ...

2016-10-27 17:45

不少网站会用到验证码反爬技术，遇到这种网页就会采集失败。但是集搜客爬虫的“打码功能”可以解决出现验证码的情况，在采集网页的过程中破解各种输入型、算术型、滑块型验证码（滑块型需要定制），让爬虫能够持续有 ...

2016-10-21 12:17

一、操作步骤集搜客的“飞掠模式”是专门针对那些没有独立网址的弹窗网页，就是指点击之后会弹出一个新页签但网址却不变。而“飞掠模式”可以模拟人的操作，打开一个弹窗采集完之后再打开下一个弹窗继续采集，从而 ...

2016-10-21 11:00

一、操作步骤集搜客爬虫不仅能抓到网页上的文本、网址数据，还可以批量下载图片到电脑中。无论是列表页还是详情页上的图片，只要能获取图片网址都可以用集搜客爬虫来下载图片。下面就以途牛网的自助游网页为案例， ...

2016-10-20 17:16

一、操作步骤之前的教程已经教过怎样用样例复制来采集列表数据，除了用样例复制，还可以用定位标志映射来采集列表数据。下面用百度旅游作为案例来讲解，操作步骤如下：二、案例规则+操作步骤采集规则：百度旅游 ...

2016-10-20 16:41

Scrapy框架结构清晰，基于twisted的异步架构可以充分利用计算机资源，是爬虫做大的必备基础。本文将讲解如何快速安装此框架并使用起来。

2016-10-20 15:26

在网页抓取工作中，调试正则表达式或者XPath都是特别繁琐的，耗时耗力，工作枯燥，如果有一个工具可以快速生成规则，而且可以可视化的即时验证，就能把程序员解放出来，投入到创造性工作中。 ... ...

2016-10-20 10:36

一、操作步骤如果只是简单地把信息标注出来，可以采集到样本网页的数据，但是批量采集同类网页就可能会遇到失败。这种情况下需要加上定位标志映射以提高数据规则的精度和适应性,降低网页变化带来的影响。下面用安居 ...

2016-10-19 11:36

资讯