确实有这个问题,抓取结果解析不了了,我分析了一下,html源代码本身有错误,导致解析出来的网页DOM也有问题。应该是英文的"",与html中的属性值的引号混淆了。这一行:
- alt="阎肃今晨去世 享年86岁 原来这些"流行歌曲"都是老先生写的"
复制代码 引号里面套引号,就出错了。
MS谋数台显示的属性变成这样了
这个问题我们得开发那边想想怎样过滤掉这样的错误。
上面是火狐的解析结果,按 F12 看到的。我看看chrome怎样
chrome的没有问题。
抓取片段是用 xsl:copy-of ,有什么拷贝什么,无法过滤,现在是依赖于浏览器的解析,只能在入库程序中做过滤。
|
共 3 个关于本帖的回复 最后回复于 2016-2-20 11:27