很多论坛要求注册以后,看帖子内容需要回复。
目前我的思路是用“连续动作”来解决。
定义三个主题
1、抓所有二级页面地址;
2、连续动作点击回复框,输入内容,发表回复;
3、采集“回复可见”的内容。
不知道这个思路对不对?

现在有点乱,
第一步之后定义爬虫路径,目标主题名应该是第二步的主题名对吗?
第二步的爬虫路径目标主题名应该是第三步的主题名对吗?
也就是说需要在第二步定义定点线索?
可是第二步是子页面,并不需要抓东西啊。
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2016-7-27 17:56

沙发
Fuller 管理员 发表于 2016-7-27 17:00:25 | 只看该作者
第二主题重点是执行“发表回复”,用一组连续动作,其中有输入动作。要注意,GooSeeker主要是采集数据的,对于发布内容这样的动作并不擅长,如果使用“输入”动作不成功,可以告诉我们。

第二主题不是为了采集数据,但是可以创建一个整理箱,抓取一个网页上能作为标志的信息,DS打数机可以用来判断规则是否合适
举报 使用道具
板凳
redwindy 中级会员 发表于 2016-7-27 17:17:50 | 只看该作者
Fuller 发表于 2016-7-27 17:00
第二主题重点是执行“发表回复”,用一组连续动作,其中有输入动作。要注意,GooSeeker主要是采集数据的, ...

呃……二级页面需要先动作,再采集,这样的话怎么样做呢?
就是说怎么让打数机知道先动作再采集,还是先采集再动作呢?
举报 使用道具
地板
HJLing 版主 发表于 2016-7-27 17:24:36 | 只看该作者
redwindy 发表于 2016-7-27 17:17
呃……二级页面需要先动作,再采集,这样的话怎么样做呢?
就是说怎么让打数机知道先动作再采集,还是先 ...

连续动作是 执行定义连续动作的规则时 先抓取整理箱的信息 然后做动作 再去目标主题名的规则采集信息
举报 使用道具
5#
redwindy 中级会员 发表于 2016-7-27 17:33:06 | 只看该作者
HJLing 发表于 2016-7-27 17:24
连续动作是 执行定义连续动作的规则时 先抓取整理箱的信息 然后做动作 再去目标主题名的规则采集信息 ...

也就是说我需要三级主题才能完成?
首先第一层抓帖子标题链接列表,还有实现翻页;
第二层根据第一层链接列表打开二级网页,执行动作;
第三层根据第一层链接列表,打开二级网页,抓取内容。
是这样的过程吗?
举报 使用道具
6#
HJLing 版主 发表于 2016-7-27 17:44:44 | 只看该作者
第一级采集帖子详细链接+翻页,链接指向第二级规则
第二级采的是页面是帖子详情页,随便采一个内容,设置连续动作,这一级规则负责点击,目标主题名指向第三级
第三级采的就是连续动作后的需要采集的内容
举报 使用道具
7#
redwindy 中级会员 发表于 2016-7-27 17:56:19 | 只看该作者
HJLing 发表于 2016-7-27 17:44
第一级采集帖子详细链接+翻页,链接指向第二级规则
第二级采的是页面是帖子详情页,随便采一个内容,设置连 ...

感谢!我先试试看吧!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 13:10