求助：二级链接抓取时提示匹配失败。

Qltech

规则名是：天津直接处罚详情页，该网页结构是否必须使用Xpath？

Fuller · 发表于 2018-7-25 15:07:02

运行DS打数机的时候，抓样本页面就遇到了匹配失败？

Qltech · 发表于 2018-7-25 15:08:22

本页面没问题，测试也没问题。

Fuller · 发表于 2018-7-25 15:10:25

我加载你的规则分析了，抓取这样的内容，不能这样做规则，每个网页的结构都会不一样，这些网页都是网站的编辑制作的，没有相同的模板，就像写一个word文档一样，自由的内容，不能用这个软件采集。爬虫软件只适合采集类似京东商品这样的网页结构是统一的内容。

这样的数据，我们通常是用我们的另一个摘录软件进行处理的，不过那个是手工操作，一个个网页逐个摘录

Qltech · 发表于 2018-7-25 15:17:09

我理解跟无讼网的详情页类似，每个网页有固定的模板。就是我设置的定位不清，爬虫找不到。

Fuller · 发表于 2018-7-25 16:13:52

Qltech 发表于 2018-7-25 15:17
我理解跟无讼网的详情页类似，每个网页有固定的模板。就是我设置的定位不清，爬虫找不到。 ...

跟无讼网的差别太大了，通常不用用爬虫规则爬文章内部的字段。可以用爬虫把整个文章内容爬下来，自己写个程序，从这些内容中把需要的字段抽取出来。这些字段的显示方式还是挺有规律的，比较容易抽取。但是用爬虫不合适，因为爬虫是根据网页上的定位。每个网页的定位会不一样

Qltech · 发表于 2018-7-25 17:07:17

感谢回复，打算先把整个文章爬下来。贵司的摘录软件是什么？

Fuller · 发表于 2018-7-25 17:25:51

Qltech 发表于 2018-7-25 17:07
感谢回复，打算先把整个文章爬下来。贵司的摘录软件是什么？

在首页上，能看到报表摘录软件，但是，这是个新产品，现在还不成熟，一直没有开放，还在修改bug

求助：二级链接抓取时提示匹配失败。

共 7 个关于本帖的回复最后回复于 2018-7-25 17:25

浏览过的版块

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

求助：二级链接抓取时提示匹配失败。

共 7 个关于本帖的回复 最后回复于 2018-7-25 17:25

浏览过的版块

推荐板块

精彩推荐

热门话题

热门用户

共 7 个关于本帖的回复最后回复于 2018-7-25 17:25