11#
Fuller 管理员 发表于 2018-10-19 15:22:46 | 只看该作者
锦年相忆不相思 发表于 2018-10-19 12:51
还有一个问题,我的图片也没办法加载。。。可以翻页,但是只能采集第一页的图片和文字信息,第二页就是空 ...


这种新闻文章类,内容结构是自由的,图片和文字没有严格的编排规律,所以,用样例复制不好,一定会有漏的。不如做一个通用的整理箱。把整个文章内容做内容映射,如下图。再勾上下载图片,会把这个范围中的图片都下载下来。如果要确保段落排版,就勾上“网页片段”,否则勾上“文本内容”


举报 使用道具
12#
锦年相忆不相思 初级会员 发表于 2018-10-19 15:34:49 | 只看该作者
Fuller 发表于 2018-10-19 15:22
这种新闻文章类,内容结构是自由的,图片和文字没有严格的编排规律,所以,用样例复制不好,一定会有漏 ...

太感谢啦!但是我的第一个“新华网四号”这个文件还是没办法采集。。。因为总是跳转到手机的页面
举报 使用道具
13#
Fuller 管理员 发表于 2018-10-19 16:18:42 | 只看该作者
锦年相忆不相思 发表于 2018-10-19 15:34
太感谢啦!但是我的第一个“新华网四号”这个文件还是没办法采集。。。因为总是跳转到手机的页面
...

你的电脑上有没有安装某种电脑管家或者安全卫士?会不会某个软件把电脑的终端类型改成了平板电脑或者手机?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 19:08