规则名是:天津直接处罚详情页,该网页结构是否必须使用Xpath?


举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2018-7-25 17:25

沙发
Fuller 管理员 发表于 2018-7-25 15:07:02 | 只看该作者
运行DS打数机的时候,抓样本页面就遇到了匹配失败?
举报 使用道具
板凳
Qltech 初级会员 发表于 2018-7-25 15:08:22 | 只看该作者
本页面没问题,测试也没问题。
举报 使用道具
地板
Fuller 管理员 发表于 2018-7-25 15:10:25 | 只看该作者
我加载你的规则分析了,抓取这样的内容,不能这样做规则,每个网页的结构都会不一样,这些网页都是网站的编辑制作的,没有相同的模板,就像写一个word文档一样,自由的内容,不能用这个软件采集。爬虫软件只适合采集类似京东商品这样的网页结构是统一的内容。

这样的数据,我们通常是用我们的另一个摘录软件进行处理的,不过那个是手工操作,一个个网页逐个摘录
举报 使用道具
5#
Qltech 初级会员 发表于 2018-7-25 15:17:09 | 只看该作者
我理解跟无讼网的详情页类似,每个网页有固定的模板。就是我设置的定位不清,爬虫找不到。
举报 使用道具
6#
Fuller 管理员 发表于 2018-7-25 16:13:52 | 只看该作者
Qltech 发表于 2018-7-25 15:17
我理解跟无讼网的详情页类似,每个网页有固定的模板。就是我设置的定位不清,爬虫找不到。 ...

跟无讼网的差别太大了,通常不用用爬虫规则爬文章内部的字段。可以用爬虫把整个文章内容爬下来,自己写个程序,从这些内容中把需要的字段抽取出来。这些字段的显示方式还是挺有规律的,比较容易抽取。但是用爬虫不合适,因为爬虫是根据网页上的定位。每个网页的定位会不一样
举报 使用道具
7#
Qltech 初级会员 发表于 2018-7-25 17:07:17 | 只看该作者
感谢回复,打算先把整个文章爬下来。贵司的摘录软件是什么?
举报 使用道具
8#
Fuller 管理员 发表于 2018-7-25 17:25:51 | 只看该作者
Qltech 发表于 2018-7-25 17:07
感谢回复,打算先把整个文章爬下来。贵司的摘录软件是什么?

在首页上,能看到 报表摘录软件 ,但是,这是个新产品,现在还不成熟,一直没有开放,还在修改bug
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 02:17