写在前头

约 292 个字预计阅读时间 1 分钟

经过一段时间的学习，我们写出了一个爬虫实战案例，在具体实践我们发现，利用正则表达式来提取对应片段显得十分的不方便。

首先是正则表达式的匹配相对而言“过于严格”，很多时候不是匹配到太多东西，而是根本匹配不到东西，可能仅仅只是一些小小的纰漏而已。

其次正则表达式也不易阅读，如果其中出错了很难检查，也很难修改。

对于HTML语言来说，它是一种标记语言，各个部分都有一个标记其性质的标签< >，标签中还会有很多属性与名称等信息，我们自然想到，能不能依照这个特点对HTML进行解析和提取？

很幸运的是，现在Python已经有了很多功能强大的解析库支持对HTML依照标签的提取，大多数都是通过XPath和CSS选择器实现对HTML的解析的。

本章节我们将详细地学习几个库的用法，包含了lxml、Beautiful Soup和pyquery。