写在前头
约 292 个字
预计阅读时间 1 分钟
经过一段时间的学习,我们写出了一个爬虫实战案例,在具体实践我们发现,利用正则表达式来提取对应片段显得十分的不方便。
首先是正则表达式的匹配相对而言“过于严格”,很多时候不是匹配到太多东西,而是根本匹配不到东西,可能仅仅只是一些小小的纰漏而已。
其次正则表达式也不易阅读,如果其中出错了很难检查,也很难修改。
对于HTML语言来说,它是一种标记语言,各个部分都有一个标记其性质的标签< >
,标签中还会有很多属性与名称等信息,我们自然想到,能不能依照这个特点对HTML进行解析和提取?
很幸运的是,现在Python已经有了很多功能强大的解析库支持对HTML依照标签的提取,大多数都是通过XPath和CSS选择器实现对HTML的解析的。
本章节我们将详细地学习几个库的用法,包含了lxml、Beautiful Soup和pyquery。