-
- 连续动作:采集悬浮窗信息—以微博为例
-
一、操作步骤 如何采集鼠标悬浮后的浮窗里显示的信息?这个需要用到连续动作中的悬浮功能。下面以微博搜索为例,演示如何采集浮窗里显示的博主信息。 二、案例规则+操作步骤 第一级采集规则:教程悬浮1第二级采集规 ...
2017-1-13 14:14
-
- 数据采集、爬虫路线、连续动作三者的执行顺序
-
一、基本概念 1.1 数据采集 数据采集指的是我们在“创建规则”工作台定义的抓取内容。 1.2 爬虫路线 爬虫路线指的是在“爬虫路线”工作台定义的线索,包括下级线索、翻页线索和模拟点击等。 1.3 连续动作 连续动作指 ...
2017-1-10 11:29
-
- 连续动作的界面介绍
-
各个动作类型的界面基本上是大同小异的,下面以点击动作为例介绍一下界面上的功能按钮。主要是: 目标主题名新建、删除、排序等操作按钮定位表达式、动作名称、高级设置等与某个动作相关的设置 目标主题名 连续动作 ...
2017-1-9 15:39
-
- 如何找到合适的连续动作组合
-
设置连续动作就是为了模拟人在浏览网页时的各种操作,从而加载出想要的网页信息,最后再进行采集,所以,总体上可以分为两大操做步骤,第一步是模拟人浏览网页的操作,通过在规则里设置连续动作来实现;第二步是采集 ...
2017-1-6 10:01
-
- 连续动作:滚屏采集瀑布流网页—以头条新闻为例
-
常见的网页大多数在页面下方会有翻页的按钮,比如“下一页”、“加载更多”,这类网页设置翻页就可以搞定,但是瀑布流网页没有这些按钮,而是随着鼠标滚动会不停的加载更多内容,这种很长很长的没有翻页按钮的网页就 ...
2017-1-4 11:44
-
- 连续动作:自动选择下拉菜单采集数据—以知网为例
-
一、操作步骤 用中国知网的期刊为例,展示连续动作中选择动作和爬虫路线中翻页的组合。本次教程要实现的是先检索2016年发表的期刊,再对检索结果进行采集,流程如下图所示: 为了实现这个,需要建立两级规则,第一级 ...
2017-1-3 18:13
-
- 连续动作:自动搜索关键词采集信息—以京东为例
-
一、操作步骤 如果网页上有搜索框,并且搜索结果页面没有独立网址,想要采集搜索结果,直接做规则是采集不到的,要先做连续动作(输入+点击)来实现自动输入关键词并搜索,然后再采集数据。下面用京东搜索为例,演示 ...
2016-12-30 12:09
-
- 连续动作概念:掌握JS动态网页信息采集
-
下面会从连续动作的适用范围、动作类型、如何使用连续动作、连续动作的循环执行说明等四个方面,全面地介绍连续动作的知识点。 一、连续动作的适用范围 越来越多的网页使用了JS动态技术,即网页信息不是立马显示出来 ...
2016-12-29 15:38
-
- 新浪微博数据采集攻略
-
新浪微博页面的组合采集攻略如下(绿框是页面名称,橙色字体是采集结果表中的网址字段):
1、从“微博关键词搜索结果”展开采集更多页面信息
方法:从“微博关键词搜索结果”的数据表中,把“博主主页”这列的网 ...
2016-12-28 16:45
-
- 推荐一款简单易用的在线中文分词工具
-
最近要对微博和京东的手机评论分别做分析,类似语义研究,需要对文本数据进行分词,再找出有用的词语,进行标签分类,后面还有一堆的处理步骤,此处省略一万字,但是,单单前面分词这里就弄得头大,原因是本人小白不 ...
2016-11-23 11:06
-
- 集搜客文本分词标注工具使用指南5-如何使用打标结果
-
六、如何使用打标结果 用文本分词标注工具可以输出下面四个表,可能对于一些人来说,这样的数据会比较陌生以及不知如何做计算,下面就说说一些思路,但实际的用途不限于这些。 1、标签词库 统计频数,计算权重,进行 ...
2016-11-15 16:24
-
- 集搜客文本分词标注工具使用指南4-下载打标结果
-
四、下载、查看打标结果 使用文本分词标注工具可以输出四个excel表,无论第2或第3步是否完成,都可以去下载已打标的数据,这些都是语义分析和文本分类的基础数据。 1、标签词库:对应第2步的操作结果; 2、情感词库 ...
2016-11-15 16:15
-
- 集搜客文本分词标注工具使用指南3-识别情感词
-
三、识别标签词所在句子中的情感词 用文本分词标注工具筛选完标签词后,可以继续第3步操作,目的是识别出名词所在句子中的形容词,并判断出具有的情感色彩(好中差),大家可以根据需要来选择是否进行。 在“筛选结 ...
2016-11-15 15:48
-
- 集搜客文本分词标注工具使用指南2-筛选标签词
-
二、根据研究目的筛选标签词 数据导入成功后,进入第2步筛选标签词,也就是文本分类中的特征选择和特征抽取的步骤。在这里,我们会看到按照词频降序排列的分词结果,而我们要做的是逐屏浏览,选出要研究的词语。 很 ...
2016-11-15 15:41
-
- 集搜客文本分词标注工具使用指南1-导入数据
-
下面以京东的手机评论为例介绍集搜客文本分词标注工具的用法。 一. 建立打标任务、导入只有一列数据的excel表 点击“新建任务”,就开始第1步导入数据,在这里,要自定义任务名称,导入只有一列数据的excel表,注意e ...
2016-11-15 15:30