集搜客GooSeeker网络爬虫

标题: 小白求助 [打印本页]

作者: a10863    时间: 2016-5-1 00:51
标题: 小白求助
本帖最后由 a10863 于 2016-5-1 01:15 编辑

我在抓取论坛评论的时候碰到两个问题请教大神帮忙,十分感谢
第一个问题,我想要在每个评论抓取的时候重复抓这篇帖子的标题怎么处理?
第二个问题,我需要同时抓取名字、时间和评论内容,可是名字和时间在一个div层级里,评论内容在其下面并列的div层级中,这两个div的class不同,请大神帮忙指点一下怎么处理能同时抓取每个评论内容的名字、时间和评论。

大概像下面的一样

网页标签     class        备注   
DIV          postbit1     只有该条评论的网名和时间
DIV          postbit2     只有该条评论的内容
DIV          postbit1     第二条评论的网名和时间
DIV          postbit2     第二条评论的评论内容
DIV          postbit1     第三条评论的网名和时间
DIV          postbit2     第三条评论的评论内容
作者: Fuller    时间: 2016-5-1 09:54
第一个问题:
如果翻页的时候每个分页上都有标题,那么抓下来不成问题。其实不用每个分页都抓标题,因为结果文件的文件名或者内部的clueid都是用来把所有分页联系在一起的。大家的clueid都一样,说明是同一个标题下的不同分页。

第二个问题:
这种论坛应该不少,我记得用样例复制映射能应对这种情况。如上,选择第一个和第二个div做内容映射,然后做样例复制映射,第一个div映射给第一个样例,第三个div映射给第二个样例

也可以不用样例复制映射,而是用第一个div的 postbit1作为标志,做定位标志映射,映射给整理箱
作者: a10863    时间: 2016-5-1 16:35
Fuller 发表于 2016-5-1 09:54
第一个问题:
如果翻页的时候每个分页上都有标题,那么抓下来不成问题。其实不用每个分页都抓标题,因为结 ...

明白了,非常感谢
Fuller有什么好的数据分析的工具吗,抓取下来的数据太多都不知道怎么处理漂亮一些
作者: Fuller    时间: 2016-5-1 17:12
a10863 发表于 2016-5-1 16:35
明白了,非常感谢
Fuller有什么好的数据分析的工具吗,抓取下来的数据太多都不知道怎么处理漂亮 ...

现在用Tableau挺流行,我看到同事用的挺好,我不会用




欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2