集搜客GooSeeker网络爬虫

标题: 提问:回复可见的论坛怎么办? [打印本页]

作者: redwindy    时间: 2016-7-27 16:03
标题: 提问:回复可见的论坛怎么办?
很多论坛要求注册以后,看帖子内容需要回复。
目前我的思路是用“连续动作”来解决。
定义三个主题
1、抓所有二级页面地址;
2、连续动作点击回复框,输入内容,发表回复;
3、采集“回复可见”的内容。
不知道这个思路对不对?

现在有点乱,
第一步之后定义爬虫路径,目标主题名应该是第二步的主题名对吗?
第二步的爬虫路径目标主题名应该是第三步的主题名对吗?
也就是说需要在第二步定义定点线索?
可是第二步是子页面,并不需要抓东西啊。

作者: Fuller    时间: 2016-7-27 17:00
第二主题重点是执行“发表回复”,用一组连续动作,其中有输入动作。要注意,GooSeeker主要是采集数据的,对于发布内容这样的动作并不擅长,如果使用“输入”动作不成功,可以告诉我们。

第二主题不是为了采集数据,但是可以创建一个整理箱,抓取一个网页上能作为标志的信息,DS打数机可以用来判断规则是否合适
作者: redwindy    时间: 2016-7-27 17:17
Fuller 发表于 2016-7-27 17:00
第二主题重点是执行“发表回复”,用一组连续动作,其中有输入动作。要注意,GooSeeker主要是采集数据的, ...

呃……二级页面需要先动作,再采集,这样的话怎么样做呢?
就是说怎么让打数机知道先动作再采集,还是先采集再动作呢?
作者: HJLing    时间: 2016-7-27 17:24
redwindy 发表于 2016-7-27 17:17
呃……二级页面需要先动作,再采集,这样的话怎么样做呢?
就是说怎么让打数机知道先动作再采集,还是先 ...

连续动作是 执行定义连续动作的规则时 先抓取整理箱的信息 然后做动作 再去目标主题名的规则采集信息
作者: redwindy    时间: 2016-7-27 17:33
HJLing 发表于 2016-7-27 17:24
连续动作是 执行定义连续动作的规则时 先抓取整理箱的信息 然后做动作 再去目标主题名的规则采集信息 ...

也就是说我需要三级主题才能完成?
首先第一层抓帖子标题链接列表,还有实现翻页;
第二层根据第一层链接列表打开二级网页,执行动作;
第三层根据第一层链接列表,打开二级网页,抓取内容。
是这样的过程吗?

作者: HJLing    时间: 2016-7-27 17:44
第一级采集帖子详细链接+翻页,链接指向第二级规则
第二级采的是页面是帖子详情页,随便采一个内容,设置连续动作,这一级规则负责点击,目标主题名指向第三级
第三级采的就是连续动作后的需要采集的内容
作者: redwindy    时间: 2016-7-27 17:56
HJLing 发表于 2016-7-27 17:44
第一级采集帖子详细链接+翻页,链接指向第二级规则
第二级采的是页面是帖子详情页,随便采一个内容,设置连 ...

感谢!我先试试看吧!




欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2