<div class="des-more">  <div>     <span>公司全称:北京小桔科技有限公司</span>  </div>  <div>     <span>成立时间:2012.7</span>     <span>公司规模:2000人以上</span>  </div>  <div>     <span class="tag green">运营中</span>     <span class="tag red">已关闭</span>  </div></div>
像上述HTML文档,我想提取公司全称、成立时间、公司规模。这三个都所属span标签下,该如何区分提取?用select可以实现嘛?
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2016-12-9 14:03

沙发
gz51837844 管理员 发表于 2016-11-6 09:54:52 | 只看该作者
你这种情况,要抓取的内容都含有字段名,那就可以全弄下来再根据字段名提取你要的3个字段
find_all('span')
举报 使用道具
板凳
gz51837844 管理员 发表于 2016-11-6 09:55:23 | 只看该作者
或者用正则,把标签和字段名都写入正则表达式
举报 使用道具
地板
Fuller 管理员 发表于 2016-11-6 10:21:04 | 只看该作者
其实beautifulsoap是一个比较老的技术,不一定非要守着它,它主要完成html的解析,现在有很多方案可以替代它
举报 使用道具
5#
759924607 高级会员 发表于 2016-11-6 19:14:45 | 只看该作者
Fuller 发表于 2016-11-6 10:21
其实beautifulsoap是一个比较老的技术,不一定非要守着它,它主要完成html的解析,现在有很多方案可以替代 ...

您说的很有道理。我只需要把所需要的内容,提取出来即可。您对此有什么建议嘛?
举报 使用道具
6#
vsyour 新手上路 发表于 2016-12-9 14:03:55 | 只看该作者
本帖最后由 vsyour 于 2016-12-9 14:19 编辑



或者:

  1. # -*- coding:utf-8 -*-
  2. __author__ = 'vsyour'

  3. from bs4 import BeautifulSoup

  4. html_doc = '''<div class="des-more">  <div>     <span>公司全称:北京小桔科技有限公司</span>  </div>  <div>     <span>成立时间:2012.7</span>     <span>公司规模:2000人以上</span>  </div>  <div>     <span class="tag green">运营中</span>     <span class="tag red">已关闭</span>  </div></div>'''

  5. soup_html = BeautifulSoup(html_doc, 'html.parser')
  6. list_html = soup_html.find_all('span')
  7. print list_html[0].get_text()
  8. print list_html[1].get_text()
  9. print list_html[2].get_text()
  10. print list_html[3].get_text()
  11. # print list_html[4].get_text()

复制代码


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 20:52