Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

Fuller · 发表于 2016-6-4 09:48:23

我们得用上非阻塞式http client

Fuller · 发表于 2016-6-8 18:53:28

Python好热，好多高人啊，看到一个好棒的代码分享：基于微信网页版的微信机器人python实现

Fuller · 发表于 2016-6-8 18:56:55

凡是机器人（web bot）程序，我都很喜欢，比如这个，python3+任务计划实现的人人影视网站自动签到

victorray · 发表于 2016-8-31 16:46:16

价格只是抓了一个啊怎么能把所有型号的都抓到

shenzhenwan10 · 发表于 2016-9-2 10:31:40

这篇文章是测试，你可以看看内容提取器及几篇实战文章，里面的步骤很详细

mingdongtianxia · 发表于 2017-7-29 11:16:43

按教程操作下来怎么只有个开头和一个结尾标签是怎么回事，几乎所有的都如此，你们把API给关了还是停止服务了？

mingdongtianxia · 发表于 2017-7-29 11:18:05

Fuller 发表于 2016-6-8 18:53
Python好热，好多高人啊，看到一个好棒的代码分享：基于微信网页版的微信机器人python实现 ...

大神啊，你还在么?最近不见你动态了呢？

shenzhenwan10 · 发表于 2017-7-29 16:10:37

mingdongtianxia 发表于 2017-7-29 11:16
按教程操作下来怎么只有个开头和一个结尾标签是怎么回事，几乎所有的都如此，你们把API给关了还是停止服务 ...

api没有关，有可能是提取器失效
周末这2天技术会测试一下

gz51837844 · 发表于 2017-7-29 23:57:59

今天按这个主题的步骤，做了测试，结果如下：
1. 这篇文章是手工把提取器内容从MS谋数台复制到python程序文件中，没有使用API
2. 原文中测试所用的商品网址，该商品已经下架。这个在测试时应该检查并替换成有效的网址
3. 京东的商品详情页面结构有变化，原提取器内容无法提取到商品名称和价格，需要在MS谋数台里做好规则后，把规则复制到程序代码中

在此上传已更新的实测所用的程序文件，可以参考

#/usr/bin/python
from urllib import request
from lxml import etree
from selenium import webdriver
import time
# 京东手机商品页面
url = "http://item.jd.com/4325123.html"
# 下面的xslt是通过集搜客的谋数台图形界面自动生成的
xslt_root = etree.XML("""\
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" >
<xsl:template match="/">
<li>
<xsl:apply-templates select="//*[@class='sku-name' and count(././text())>0]" mode="li"/>
</li>
</xsl:template>
<xsl:template match="//*[@class='sku-name' and count(././text())>0]" mode="li">
<item>
<商品名称>
<xsl:value-of select="./text()"/>
</商品名称>
<京东价>
<xsl:value-of select="following-sibling::div[position()=2]//*[@class='p-price']/span[position()=2]/text()"/>
</京东价>
</item>
</xsl:template>
</xsl:stylesheet>""")
# 使用webdriver.PhantomJS
browser = webdriver.PhantomJS(executable_path='C:\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe')
browser.get(url)
time.sleep(3)
transform = etree.XSLT(xslt_root)
# 执行js得到整个dom
html = browser.execute_script("return document.documentElement.outerHTML")
doc = etree.HTML(html)
# 用xslt从dom中提取需要的字段
result_tree = transform(doc)
print(result_tree)

复制代码

mingdongtianxia · 发表于 2017-7-31 20:48:04

gz51837844 发表于 2017-7-29 23:57
今天按这个主题的步骤，做了测试，结果如下：
1. 这篇文章是手工把提取器内容从MS谋数台复制到python程序文 ...

对于翻页怎么办呢？它只能采集单页啊，如果一共有5页怎么办呢？能否将MS谋数台的线索规则像数据规则一样能提取过来用呢?那样就好了呀，

Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

本帖子中包含更多资源

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页