内容分析应用 金牌会员 发表于 2021-10-29 17:56:51 | 显示全部楼层
你说的二级规则失败的问题, 我认为是这样的: 你这30条网址是从百度搜索来的, 可能是不同网站上的内容。 而你的二级规则,是以某个网址做的规则。 理论上这个规则只能适配某网站的某种页面结构, 对于其它的网址,因为适配不上所以会采集失败


举报 使用道具
lily_lee 初级会员 发表于 2021-10-29 18:01:09 | 显示全部楼层
内容分析应用 发表于 2021-10-29 17:56
你说的二级规则失败的问题, 我认为是这样的: 你这30条网址是从百度搜索来的, 可能是不同网站上的内容。  ...

有办法处理吗,这种情况
举报 使用道具
gz51837844 管理员 发表于 2021-10-29 18:04:45 | 显示全部楼层
有一种做法是: 把整个页面的html或者文本采集下来
举报 使用道具
lily_lee 初级会员 发表于 2021-10-29 18:08:02 | 显示全部楼层
内容分析应用 发表于 2021-10-29 17:43
“戴厚良一级抓取”规则我测试翻页没有问题, 可以修改的点是: 选一个字段设为“关键内容”:key
启动采 ...

请问如何选择字段设为关键内容呢,字段的选择是否有限制呢?

举报 使用道具
lily_lee 初级会员 发表于 2021-10-29 18:10:08 | 显示全部楼层
gz51837844 发表于 2021-10-29 18:04
有一种做法是: 把整个页面的html或者文本采集下来

谢谢,我尝试一下吧

举报 使用道具
lily_lee 初级会员 发表于 2021-10-29 19:14:40 | 显示全部楼层
gz51837844 发表于 2021-10-29 18:04
有一种做法是: 把整个页面的html或者文本采集下来

按照您的方式试了一下也不可以不知道是软件bug还是我自己操作问题
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 04:30