第一级规则,主题名:rootlist
第二级规则,主题名:wordlist



爬数据时,第一级规则完成以后,第二级规则开始,其中有的点击不了,抓取不到数据,有的抓取了重复数据。

捕获.PNG (149.05 KB, 下载次数: 742)

rootlist工作台

rootlist工作台

捕获2.PNG (261.61 KB, 下载次数: 742)

worklist工作台

worklist工作台

捕获3.PNG (116.95 KB, 下载次数: 780)

连续动作

连续动作
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2017-3-15 10:43

沙发
Fuller 管理员 发表于 2017-3-14 19:41:49 | 只看该作者
我加载了你的规则做分析,首先看到两个问题1,在第二级,你只想采集一个词吗?还是多个词?因为多个词使用了不同的@class值,如果按照你的定位标志映射,只能采集那一类的词
2,在第二级,似乎应该增加一个点击操作,点击关闭浮窗,不然的话影响第一级的动作执行,如下图







举报 使用道具
板凳
llii_4 新手上路 发表于 2017-3-14 20:12:10 | 只看该作者
Fuller 发表于 2017-3-14 19:41
我加载了你的规则做分析,首先看到两个问题1,在第二级,你只想采集一个词吗?还是多个词?因为多个词使用 ...

里面最多有两种单词,我只采了其中一种。这两种单词的class不一样,我不知道怎么同时采,同时区分开。因为有的里面可能只有一种,但是哪一种不确定,我看你们的规则代码里面都是and的逻辑关系, 是不是如果判断第一个情况没有,第二种情况就不判断了呢?
举报 使用道具
地板
llii_4 新手上路 发表于 2017-3-14 20:35:46 | 只看该作者
Fuller 发表于 2017-3-14 19:41
我加载了你的规则做分析,首先看到两个问题1,在第二级,你只想采集一个词吗?还是多个词?因为多个词使用 ...

抓取成功了,谢谢。
举报 使用道具
5#
Fuller 管理员 发表于 2017-3-14 20:44:28 | 只看该作者
llii_4 发表于 2017-3-14 20:12
里面最多有两种单词,我只采了其中一种。这两种单词的class不一样,我不知道怎么同时采,同时区分开。因 ...


我把规则稍微修改了一下,不用定位标志映射采集多个词,而是用样例复制采集多个词,而且不分种类,我同时把他们的class也采集下来,看看有哪些类型。
举报 使用道具
6#
llii_4 新手上路 发表于 2017-3-14 20:48:38 | 只看该作者
Fuller 发表于 2017-3-14 20:44
我把规则稍微修改了一下,不用定位标志映射采集多个词,而是用样例复制采集多个词,而且不分种类,我同 ...

class是怎么采下来的?
举报 使用道具
7#
HJLing 版主 发表于 2017-3-15 09:50:14 | 只看该作者
llii_4 发表于 2017-3-14 20:48
class是怎么采下来的?


class值通常是在attribute节点下 需要展开才能看到 找到后直接做内容映射就可以了

举报 使用道具
8#
llii_4 新手上路 发表于 2017-3-15 10:43:18 | 只看该作者
HJLing 发表于 2017-3-15 09:50
class值通常是在attribute节点下 需要展开才能看到 找到后直接做内容映射就可以了

...

谢谢,知道了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-8 04:52