def parse(self, response):
#print(response.body)
html = response.body
print(html)
print("----------数据处理----------1")
#conn = request.urlopen(response.url)
#doc = etree.HTML(html.read())
listExtra = GsExtractor()
listExtra.setXsltFromFile("/home/list.xml")
result = listExtra.extract(html)
#print(str(result).encode('gbk', 'ignore').decode('gbk'))
print("----------数据处理----------2")
print(result)
request = scrapy.Request(result, callback=self.parse_item)
yield request
我自己写的小的爬虫正常工作。 现在想把自己写的爬虫放到scrapy里来用(入库下载各方面会更简单一些)
但是遇到了一些问题
html = response.body 是直接解析出来html
#conn = request.urlopen(response.url)
#doc = etree.HTML(html.read())
而之前是这种形式出来的是
<Element html at 0x7fb650f62f88>
请问这两个怎么有什么区别 怎么处理?
|
|
|
|
|
共 4 个关于本帖的回复 最后回复于 2017-5-20 19:09