Python即时网络爬虫项目: 内容提取器的定义

shenzhenwan10 · 发表于 2016-5-30 16:02:21

scrapy这个设计挺好。
我们第一步可以在scrapy使用gooseeker提取器，提升使用scrapy的效率
第二步可以做一个类似框架

Fuller · 发表于 2016-5-30 18:01:46

shenzhenwan10 发表于 2016-5-30 16:02
scrapy这个设计挺好。
我们第一步可以在scrapy使用gooseeker提取器，提升使用scrapy的效率
第二步可以做一 ...

如果能完美实现第一步，我倾向于不做第二步，大家各取所长，融入scrapy框架就好

Fuller · 发表于 2016-5-30 18:05:29

Fuller 发表于 2016-5-29 16:25
简书上有篇介绍Scrapy的文章《Scrapy爬虫学习记录》，先运行
生成一个爬虫，就把程序架子搭起来了，然后自 ...

scrapy这种创建工程的操作模式，让我想起以前华为的一个同事，为了提高效率和统一程序的模式，也做了一个生成器，用生成器把架子自动产生出来。

linteck · 发表于 2016-12-23 12:02:03

Fuller 发表于 2016-5-19 19:06
一个问题：
1，这个etree生成的transform对象，就能用html文本文档做输入又能用DOM对象做数据？

为什么我执行了
pip install gooseeker-2.1.zip在运行例子的时候还是会报错呢？错误如下：============ RESTART: C:\Users\CNLEZHU1\Desktop\xslt_bbs\1222.py ============Traceback (most recent call last): File "C:\Users\CNLEZHU1\Desktop\xslt_bbs\1222.py", line 7, in <module> from gooseeker import gsExtractorImportError: cannot import name 'gsExtractor'>>>

shenzhenwan10 · 发表于 2016-12-23 15:09:00

linteck 发表于 2016-12-23 12:02
为什么我执行了
pip install gooseeker-2.1.zip在运行例子的时候还是会报错呢？错误如下：============ ...

你运行的1222.py是什么程序?
可以把代码贴出分析下吗

oldhu_ · 发表于 2016-12-23 15:40:20

你好，我把示例的URL改成 https://www.v2ex.com， xslt文件我自己从你们的谋数台生成的保存到本地，现在按照样例跑了后，发现输出的中文是乱码，请问我哪里设置的不对？谢谢。

Fuller · 发表于 2016-12-23 16:43:26

oldhu_ 发表于 2016-12-23 15:40
你好，我把示例的URL改成 https://www.v2ex.com， xslt文件我自己从你们的谋数台生成的保存到本地，现在按 ...

要为Python设置字符编码类型

linteck · 发表于 2016-12-23 17:46:57

shenzhenwan10 发表于 2016-12-23 15:09
你运行的1222.py是什么程序?
可以把代码贴出分析下吗

已解决，是类名称大小写错了一个，谢谢！

oldhu_ · 发表于 2016-12-29 13:27:57

Fuller 发表于 2016-12-23 16:43
要为Python设置字符编码类型

请问要在哪里设置编码？我用的python 3，代码如下, 非常感谢。

#!/usr/bin/python
# -*- coding: utf-8 -*-

from urllib import request
from lxml import etree
from gooseeker import GsExtractor

# 访问并读取网页内容
url = "https://www.v2ex.com"
conn = request.urlopen(url)
doc = etree.HTML(conn.read())

bbsExtra = GsExtractor() # 生成xsltExtractor对象
bbsExtra.setXsltFromFile("gsk.xml") # 调用set方法设置xslt内容
result = bbsExtra.extract(doc) # 调用extract方法提取所需内容

print(result)

shenzhenwan10 · 发表于 2016-12-29 16:07:49

你是在windows的cmd窗口运行的吗?

Python即时网络爬虫项目: 内容提取器的定义

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页