爬虫--基本库的使用
使用urllib
在Python2中,有urllib和urllib2两个库来实现请求的发送。而在Python3中,已经不存在urllib2这个库了,统一为urllib。urllib库是Python内置的HTTP请求库,也就是说不需要额外安装即可使用。
- urllib包含的四个模块
模块名 | 描述 |
---|---|
request | 是最基本的HTTP请求模块,可以用来模拟发送请求。就像在浏览器里输入网址然后回车,只需要给库方法传入URL以及额外的参数,就可以模拟实现这个过程了; |
error | 异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后进行重试或其他操作以保证程序不会意外终止; |
parse | 一个工具模块,提供了许多URL处理方法,比如拆分、解析、合并等; |
robotparser | 主要是用来识别网站的robots.txt文件,然后判断哪些网站可以爬,哪些网站不可以爬,其实用得比较少; |