11#
Fuller 管理员 发表于 2016-6-4 09:48:23 | 只看该作者
我们得用上非阻塞式http client
举报 使用道具
12#
Fuller 管理员 发表于 2016-6-8 18:53:28 | 只看该作者
Python好热,好多高人啊,看到一个好棒的代码分享:基于微信网页版的微信机器人python实现
举报 使用道具
13#
Fuller 管理员 发表于 2016-6-8 18:56:55 | 只看该作者
凡是机器人(web bot)程序,我都很喜欢,比如这个,python3+任务计划实现的人人影视网站自动签到
举报 使用道具
14#
victorray 初级会员 发表于 2016-8-31 16:46:16 | 只看该作者
价格只是抓了一个啊 怎么能把所有型号的都抓到
举报 使用道具
15#
shenzhenwan10 金牌会员 发表于 2016-9-2 10:31:40 | 只看该作者
这篇文章是测试,你可以看看内容提取器及几篇实战文章,里面的步骤很详细
举报 使用道具
16#
mingdongtianxia 中级会员 发表于 2017-7-29 11:16:43 | 只看该作者
按教程操作下来怎么只有个开头和一个结尾标签是怎么回事,几乎所有的都如此,你们把API给关了还是停止服务了?

22.jpg (51.16 KB, 下载次数: 373)

22.jpg
举报 使用道具
17#
mingdongtianxia 中级会员 发表于 2017-7-29 11:18:05 | 只看该作者
Fuller 发表于 2016-6-8 18:53
Python好热,好多高人啊,看到一个好棒的代码分享:基于微信网页版的微信机器人python实现 ...

大神啊,你还在么?最近不见你动态了呢?
举报 使用道具
18#
shenzhenwan10 金牌会员 发表于 2017-7-29 16:10:37 | 只看该作者
mingdongtianxia 发表于 2017-7-29 11:16
按教程操作下来怎么只有个开头和一个结尾标签是怎么回事,几乎所有的都如此,你们把API给关了还是停止服务 ...

api没有关,有可能是提取器失效
周末这2天技术会测试一下


举报 使用道具
19#
gz51837844 管理员 发表于 2017-7-29 23:57:59 | 只看该作者
今天按这个主题的步骤,做了测试,结果如下:
1. 这篇文章是手工把提取器内容从MS谋数台复制到python程序文件中,没有使用API
2. 原文中测试所用的商品网址,该商品已经下架。这个在测试时应该检查并替换成有效的网址
3. 京东的商品详情页面结构有变化,原提取器内容无法提取到商品名称和价格,需要在MS谋数台里做好规则后,把规则复制到程序代码中


在此上传已更新的实测所用的程序文件,可以参考
test_jd.py (1.25 KB, 下载次数: 1)

  1. #/usr/bin/python
  2. from urllib import request
  3. from lxml import etree
  4. from selenium import webdriver
  5. import time

  6. # 京东手机商品页面
  7. url = "http://item.jd.com/4325123.html"

  8. # 下面的xslt是通过集搜客的谋数台图形界面自动生成的
  9. xslt_root = etree.XML("""\
  10. <xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" >
  11. <xsl:template match="/">
  12. <li>
  13. <xsl:apply-templates select="//*[@class='sku-name' and count(././text())>0]" mode="li"/>
  14. </li>
  15. </xsl:template>


  16. <xsl:template match="//*[@class='sku-name' and count(././text())>0]" mode="li">
  17. <item>
  18. <商品名称>
  19. <xsl:value-of select="./text()"/>
  20. </商品名称>
  21. <京东价>
  22. <xsl:value-of select="following-sibling::div[position()=2]//*[@class='p-price']/span[position()=2]/text()"/>
  23. </京东价>
  24. </item>
  25. </xsl:template>
  26. </xsl:stylesheet>""")

  27. # 使用webdriver.PhantomJS
  28. browser = webdriver.PhantomJS(executable_path='C:\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe')
  29. browser.get(url)
  30. time.sleep(3)

  31. transform = etree.XSLT(xslt_root)

  32. # 执行js得到整个dom
  33. html = browser.execute_script("return document.documentElement.outerHTML")
  34. doc = etree.HTML(html)
  35. # 用xslt从dom中提取需要的字段
  36. result_tree = transform(doc)
  37. print(result_tree)
复制代码



举报 使用道具
20#
mingdongtianxia 中级会员 发表于 2017-7-31 20:48:04 | 只看该作者
gz51837844 发表于 2017-7-29 23:57
今天按这个主题的步骤,做了测试,结果如下:
1. 这篇文章是手工把提取器内容从MS谋数台复制到python程序文 ...

对于翻页怎么办呢?它只能采集单页啊,如果一共有5页怎么办呢?能否将MS谋数台的线索规则像数据规则一样能提取过来用呢?那样就好了呀,
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 22:07