爬虫--基本库的使用

使用urllib

在Python2中，有urllib和urllib2两个库来实现请求的发送。而在Python3中，已经不存在urllib2这个库了，统一为urllib。urllib库是Python内置的HTTP请求库，也就是说不需要额外安装即可使用。

模块名	描述
request	是最基本的HTTP请求模块，可以用来模拟发送请求。就像在浏览器里输入网址然后回车，只需要给库方法传入URL以及额外的参数，就可以模拟实现这个过程了；
error	异常处理模块，如果出现请求错误，我们可以捕获这些异常，然后进行重试或其他操作以保证程序不会意外终止；
parse	一个工具模块，提供了许多URL处理方法，比如拆分、解析、合并等；
robotparser	主要是用来识别网站的robots.txt文件，然后判断哪些网站可以爬，哪些网站不可以爬，其实用得比较少；