本帖最后由 a10863 于 2016-5-1 01:15 编辑

我在抓取论坛评论的时候碰到两个问题请教大神帮忙,十分感谢
第一个问题,我想要在每个评论抓取的时候重复抓这篇帖子的标题怎么处理?
第二个问题,我需要同时抓取名字、时间和评论内容,可是名字和时间在一个div层级里,评论内容在其下面并列的div层级中,这两个div的class不同,请大神帮忙指点一下怎么处理能同时抓取每个评论内容的名字、时间和评论。

大概像下面的一样

网页标签     class        备注   
DIV          postbit1     只有该条评论的网名和时间
DIV          postbit2     只有该条评论的内容
DIV          postbit1     第二条评论的网名和时间
DIV          postbit2     第二条评论的评论内容
DIV          postbit1     第三条评论的网名和时间
DIV          postbit2     第三条评论的评论内容
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-5-1 17:12

沙发
Fuller 管理员 发表于 2016-5-1 09:54:41 | 只看该作者
第一个问题:
如果翻页的时候每个分页上都有标题,那么抓下来不成问题。其实不用每个分页都抓标题,因为结果文件的文件名或者内部的clueid都是用来把所有分页联系在一起的。大家的clueid都一样,说明是同一个标题下的不同分页。

第二个问题:
这种论坛应该不少,我记得用样例复制映射能应对这种情况。如上,选择第一个和第二个div做内容映射,然后做样例复制映射,第一个div映射给第一个样例,第三个div映射给第二个样例

也可以不用样例复制映射,而是用第一个div的 postbit1作为标志,做定位标志映射,映射给整理箱
举报 使用道具
板凳
a10863 新手上路 发表于 2016-5-1 16:35:33 | 只看该作者
Fuller 发表于 2016-5-1 09:54
第一个问题:
如果翻页的时候每个分页上都有标题,那么抓下来不成问题。其实不用每个分页都抓标题,因为结 ...

明白了,非常感谢
Fuller有什么好的数据分析的工具吗,抓取下来的数据太多都不知道怎么处理漂亮一些
举报 使用道具
地板
Fuller 管理员 发表于 2016-5-1 17:12:12 | 只看该作者
a10863 发表于 2016-5-1 16:35
明白了,非常感谢
Fuller有什么好的数据分析的工具吗,抓取下来的数据太多都不知道怎么处理漂亮 ...

现在用Tableau挺流行,我看到同事用的挺好,我不会用
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-19 20:25