从 HTML 和 XML 文件中提取数据的 Python 库。它与您最喜欢的解析器配合使用,提供了导航、搜索和修改解析树的惯用方法。
美丽汤

- Python
- 数据分析
- 信息技术(IT), 搜索引擎, 軟體, 軟體開發工具包 (SDK), 用户界面(UI)
特点
- HTML 解析、XML 解析、网络搜刮、数据提取、解析树导航、搜索(通过标签、属性、文本)、修改解析树、处理破碎的 HTML
定价
- 免费
- 易于使用,能很好地处理畸形标记,有很好的文档,可与各种解析器(lxml、html5lib、Python 的 html.parser)集成。
- 不能获取网页(需要类似 "requests "之类的库),如果不使用 lxml,与其他解析器相比,处理超大文件可能会比较慢,主要用于解析,而不是渲染。
最适合:
- 从 HTML 和 XML 文档中进行网络扫描和提取结构化数据,以便收集和分析数据。