目标网址: http://ggzyjy.jl.gov.cn/JiLinZtb//Template/Default/MoreInfoJYXX.aspx?CategoryNum=004002在gooseeker 可以解析到数据,但在python中使用获取不到数据
doc = etree.HTML(content)
bbsExtra = GsExtractor()
bbsExtra.setXsltFromFile("jl.xml")
result = bbsExtra.extract(doc)
返回数据如下:[size=17.0667px]<?xml version="1.0"?><zhaobiao2/>
数据规则如下
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" >
<xsl:template match="/">
<zhaobiao2>
<xsl:apply-templates select="//*[@id='DataList1']/tbody/tr[position()>=2 and ((position()-2) mod 2)=0 and count(./td[position()=2]/a/@title)>0 and count(./td[position()=2]/a/@href)>0 and count(./td[position()=5]/text())>0]" mode="zhaobiao2"/>
</zhaobiao2>
</xsl:template>
<xsl:template match="//*[@id='DataList1']/tbody/tr[position()>=2 and ((position()-2) mod 2)=0 and count(./td[position()=2]/a/@title)>0 and count(./td[position()=2]/a/@href)>0 and count(./td[position()=5]/text())>0]" mode="zhaobiao2">
<item>
<title>
<xsl:value-of select="td[position()=2]/a/@title"/>
</title>
<url>
<xsl:value-of select="td[position()=2]/a/@href"/>
</url>
<create_date>
<xsl:value-of select="td[position()=5]/text()"/>
</create_date>
</item>
</xsl:template>
</xsl:stylesheet>
|
|
|
|
|
共 2 个关于本帖的回复 最后回复于 2018-4-13 16:33