利用论坛里的帖子和教程做了下博主主页的爬取,但是展开全文这里还是没有搞定。主要有两个问题,第一个是设置了连续动作的Xpath后,在爬取数据的时候并不能点开,但是Xpath设置时搜索的时候结果数量是正确的;
第二个是在点击展开全文后,微博正文有两个内容,一个是展开前的,一个是展开后的,所以我就遵照有篇帖子里的办法用了自定义Xpath,爬取这两个内容,可是后来测试的时候发现,前一个内容一直都在爬取第一篇微博的内容,而后一个内容一直都是第一篇有展开全文的展开后的内容,后来我把Xpath最后的[1]去掉了,前一个内容就正常了,但是因为第一个问题的存在,所以展开全文后的内容一直没有。
希望有大神帮忙解决一下,谢谢!!!!
一级规则——微博展开全文
二级规则——微博爬取博文
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
|
|
|
共 15 个关于本帖的回复 最后回复于 2021-11-26 15:36