如题,我访问新浪微博华为的主页,试图用gooseeker抓取华为发的博文下的用户评论,有的博文会有3000多条评论,我按照网上的一些教程,能抓出一些用户名,发布时间,评论内容,出现的问题有:
1.生成的XML文件出现迭代式的重复数据,文档中出现了几百个xml,抓到的数据量是1,1+1,1+1+1, 以此类推,也就是说,如果目标是3000条数据,打数机一次抓100条,那么生成的xml文件就会是100,200,300。。。最后才是含3000数据的xml。应该是定规则的时候除了某些问题,可惜我没找到具体的解决方案。
2.用户的评论内容,如果出现“真是太棒了/大拇指”这种文字+表情的文本,抓取内容为空,这是哪里出了问题?
3.我认为最关键的问题,微博评论页面是动态加载的,翻页这个功能我没有实现,基本是我点开多少内容,就只能抓到多少内容。
|
|
|
|
|
共 3 个关于本帖的回复 最后回复于 2019-7-8 18:03