快捷导航
就是像这种样子的标题,只能爬显示出来的字数,有没有办法爬完整的?
ball ball 大佬求教

捕获2.PNG
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 5 天前

Fuller 管理员 发表于 2019-12-2 21:57:45 | 显示全部楼层
有几个可选方案:
1,先检查一下DOM,看看有没有一个存了完整内容的节点。通常来说,显示长度是受前端控制的,浏览器可大可小,所以,这些内容一定预留了很长,根据实际屏幕大小截取。那么,DOM上一定会有更长的内容
2,如果这个网站不是前端控制的,那么就要进入到每个帖子的详情页去采集完整的标题
举报 使用道具
qingnianwenzhaishu 新手上路 发表于 5 天前 | 显示全部楼层
Fuller 发表于 2019-12-2 21:57
有几个可选方案:
1,先检查一下DOM,看看有没有一个存了完整内容的节点。通常来说,显示长度是受前端控制 ...

试了第二种,现在问题是二级链接爬取的每一条数据都存成了一个xml,而且是没有表头的。
能不能二级链接的xml表都加上表头?
或者多条数据存于一个xml?


举报 使用道具
Fuller 管理员 发表于 5 天前 | 显示全部楼层
qingnianwenzhaishu 发表于 2019-12-6 18:36
试了第二种,现在问题是二级链接爬取的每一条数据都存成了一个xml,而且是没有表头的。
能不能二级链接的 ...

参看这个文章,把xml转换成excel: https://www.gooseeker.com/doc/article-329-1.html
举报 使用道具
qingnianwenzhaishu 新手上路 发表于 5 天前 | 显示全部楼层
Fuller 发表于 2019-12-6 20:30
参看这个文章,把xml转换成excel: https://www.gooseeker.com/doc/article-329-1.html

用这个,没有表头的也能合并吗



举报 使用道具
qingnianwenzhaishu 新手上路 发表于 5 天前 | 显示全部楼层
Fuller 发表于 2019-12-6 20:30
参看这个文章,把xml转换成excel: https://www.gooseeker.com/doc/article-329-1.html

是二级链接有问题吗,可以爬出想要的效果,但是每一条数据都另存了一个xml还不加表头?会不会是规则哪里出了问题?
举报 使用道具
Fuller 管理员 发表于 5 天前 | 显示全部楼层
qingnianwenzhaishu 发表于 2019-12-6 20:47
是二级链接有问题吗,可以爬出想要的效果,但是每一条数据都另存了一个xml还不加表头?会不会是规则哪里 ...

爬虫下载下来的原始结果文件就是xml文件,一个网页一个文件,要合并的话就先导入到数据库中,然后再导出来,就是excel格式的了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 网络爬虫采集html片段时无法生成结果文件怎
  • 网络爬虫占满了c盘怎么清理
  • 为什么采集速卖通用户评论翻页不了
  • 多级规则执行连续动作而输入动作不在第一级
  • 特征工程入门介绍

热门用户

GMT+8, 2019-12-11 00:30