beautifulsoup库疑问？

加为好友

<div class="des-more"> <div> <span>公司全称：北京小桔科技有限公司</span> </div> <div> <span>成立时间：2012.7</span> <span>公司规模：2000人以上</span> </div> <div> <span class="tag green">运营中</span> <span class="tag red">已关闭</span> </div></div>
像上述HTML文档，我想提取公司全称、成立时间、公司规模。这三个都所属span标签下，该如何区分提取？用select可以实现嘛？

gz51837844 · 发表于 2016-11-6 09:54:52

你这种情况，要抓取的内容都含有字段名，那就可以全弄下来再根据字段名提取你要的3个字段
find_all('span')

gz51837844 · 发表于 2016-11-6 09:55:23

或者用正则，把标签和字段名都写入正则表达式

Fuller · 发表于 2016-11-6 10:21:04

其实beautifulsoap是一个比较老的技术，不一定非要守着它，它主要完成html的解析，现在有很多方案可以替代它

759924607 · 发表于 2016-11-6 19:14:45

Fuller 发表于 2016-11-6 10:21
其实beautifulsoap是一个比较老的技术，不一定非要守着它，它主要完成html的解析，现在有很多方案可以替代 ...

您说的很有道理。我只需要把所需要的内容，提取出来即可。您对此有什么建议嘛？

vsyour · 发表于 2016-12-9 14:03:55

本帖最后由 vsyour 于 2016-12-9 14:19 编辑

或者:

# -*- coding:utf-8 -*-
__author__ = 'vsyour'
from bs4 import BeautifulSoup
html_doc = '''<div class="des-more"> <div> <span>公司全称：北京小桔科技有限公司</span> </div> <div> <span>成立时间：2012.7</span> <span>公司规模：2000人以上</span> </div> <div> <span class="tag green">运营中</span> <span class="tag red">已关闭</span> </div></div>'''
soup_html = BeautifulSoup(html_doc, 'html.parser')
list_html = soup_html.find_all('span')
print list_html[0].get_text()
print list_html[1].get_text()
print list_html[2].get_text()
print list_html[3].get_text()
# print list_html[4].get_text()

复制代码

beautifulsoup库疑问？

共 5 个关于本帖的回复最后回复于 2016-12-9 14:03

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

beautifulsoup库疑问？

共 5 个关于本帖的回复 最后回复于 2016-12-9 14:03

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 5 个关于本帖的回复最后回复于 2016-12-9 14:03