爬虫教程
Last updated
Last updated
解析器
使用方法
优势
劣势
Python标准库
BeautifulSoup(markup, "html.parser")
Python的内置标准库 执行速度适中 文档容错能力强
Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差
lxml HTML 解析器
BeautifulSoup(markup, "lxml")
速度快 文档容错能力强
需要安装C语言库
lxml XML 解析器
BeautifulSoup(markup, ["lxml", "xml"]);BeautifulSoup(markup, "xml")
速度快 唯一支持XML的解析器
需要安装C语言库
html5lib
BeautifulSoup(markup, "html5lib")
最好的容错性;以浏览器的方式解析文档;生成HTML5格式的文档
速度慢;不依赖外部扩展