如果你只是想提取标签里面的内容的话
我建议你使用beautifulsoup4
首先安装
pip install beautifulsoup4
如果是Linux或者Mac OS请在命令前加sudo
然后把字符串放到BeautifulSoup里
最后用get_text输出里面的内容就好
from bs4 import BeautifulSoup
soup = BeautifulSoup(string)
print soup.get_text()
结果就像这样
如果你不想要其中的空格
可以用split分割然后用''.join连接
print ''.join(soup.get_text().split())
结果就像这样
如果还想实现其他更多的功能可以参考文档
http://www.crummy.com/software/BeautifulSoup/bs4/doc/
<[^>]*>
替换成空就行了、