报价宝 > 科技 >

八个好用的Python爬虫技巧

消息来源:baojiabao.com 作者: 发布时间：2026-05-19

报价宝综合消息八个好用的Python爬虫技巧

用python也差不多一年多了，python应用最多的场景还是web快速开发、爬虫、自动化运维：写过简单网站、写过自动发帖指令码、写过收发邮件指令码、写过简单验证码识别指令码。

爬虫在开发过程中也有很多复用的过程，这里总结一下，以后也能省些事情。

1、基本抓取网页

get方法

post方法

2、使用代理IP

开发爬虫过程中经常会遇到IP被封掉的情况，这时就需要用到代理IP；

在urllib2包中有ProxyHandler类，通过此类可以设定代理访问网页，如下程式码片段：

3、Cookies处理

cookies是某些网站为了辨别使用者身份、进行session跟踪而储存在使用者本地终端上的资料(通常经过加密)，python提供了cookielib模组用于处理cookies，cookielib模组的主要作用是提供可储存cookie的物件，以便于与urllib2模组配合使用来访问Internet资源.

程式码片段：

关键在于CookieJar，它用于管理HTTP cookie值、储存HTTP请求生成的cookie、向传出的HTTP请求新增cookie的物件。整个cookie都储存在内存中，对CookieJar例项进行垃圾回收后cookie也将丢失，所有过程都不需要单独去操作。

手动新增cookie

4、伪装成浏览器

某些网站反感爬虫的到访，于是对爬虫一律拒绝请求。所以用urllib2直接访问网站经常会出现HTTP Error 403: Forbidden的情况

对有些 header 要特别留意，Server 端会针对这些 header 做检查

1.User-Agent 有些 Server 或 Proxy 会检查该值，用来判断是否是浏览器发起的 Request

2.Content-Type 在使用 REST 界面时，Server 会检查该值，用来确定 HTTP Body 中的内容该怎样解析。

这时可以通过修改http包中的header来实现，程式码片段如下：

5、页面解析

对于页面解析最强大的当然是正则表示式，这个对于不同网站不同的使用者都不一样，就不用过多的说明，附两个比较好的网址：

正则表示式入门：http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

正则表示式线上测试：http://tool.oschina.net/regex/

其次就是解析库了，常用的有两个lxml和BeautifulSoup，对于这两个的使用介绍两个比较好的网站：

lxml：http://my.oschina.net/jhao104/blog/639448

BeautifulSoup：http://cuiqingcai.com/1319.html

对于这两个库，我的评价是，都是HTML/XML的处理库，Beautifulsoup纯python实现，效率低，但是功能实用，比如能用通过结果搜寻获得某个HTML节点的源代码；lxmlC语言编码，高效，支援Xpath

6、验证码的处理

对于一些简单的验证码，可以进行简单的识别。本人也只进行过一些简单的验证码识别。但是有些反人类的验证码，比如12306，可以通过打码平台进行人工打码，当然这是要付费的。

7、gzip压缩

有没有遇到过某些网页，不论怎么转码都是一团乱码。哈哈，那说明你还不知道许多web服务具有传送压缩资料的能力，这可以将网络线路上传输的大量资料消减 60% 以上。这尤其适用于 XML web 服务，因为 XML 资料的压缩率可以很高。

但是一般服务器不会为你传送压缩资料，除非你告诉服务器你可以处理压缩资料。

于是需要这样修改程式码：

这是关键:建立Request物件，新增一个 Accept-encoding 头资讯告诉服务器你能接受 gzip 压缩资料

然后就是解压缩资料：

8、多执行绪并发抓取

单执行绪太慢的话，就需要多执行绪了，这里给个简单的执行绪池模板这个程式只是简单地打印了1-10，但是可以看出是并发的。

虽然说python的多执行绪很鸡肋，但是对于爬虫这种网络频繁型，还是能一定程度提高效率的。

2020-01-02 07:51:00

文章标签: 报价宝降噪耳机价格耳机价格红米手机价格华为手机价格小米手机价格电视机价格笔记本电脑价格笔记本价格汽车价格报价宝数码相机价格汽车价格笔记本价格耳机价格

相关文章

B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了？技术团队公开早先原因
2023-03-06 19:05:55
苹果iPhoneXS/XR手机电池容量续航最强？答案揭晓
2023-02-19 15:09:54
华为荣耀两款机型起内讧：荣耀Play官方价格同价同配该如何选？
2023-02-17 23:21:27
google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格：刘海屏设计顶配版曾卖6900元
2023-02-17 18:58:09
科大讯飞同传同声翻译软件造假浮夸不能只罚酒三杯
2023-02-17 18:46:15
华为mate20pro系列手机首发上市日期价格，屏幕和电池参数配置对比
2023-02-17 18:42:49
小米MAX4手机上市日期首发价格骁龙720打造大屏标准
2023-02-17 18:37:22
武汉弘芯遣散!结局是总投资1280亿项目烂尾光刻机抵押换钱
2023-02-16 15:53:18
谷歌GoogleDrive网云盘下载改名“GoogleOne” 容量提升价格优惠
2023-02-16 13:34:45
巴斯夫将裁员6000人众化工巨头裁员潮再度引发关注
2023-02-13 16:49:06
人手不足韵达快递客服回应大量包裹派送异常没有收到
2023-02-07 15:25:20
资本微念与李子柒销声匿迹谁赢？微念公司退出子柒文化股东
2023-02-02 09:24:38
三星GalaxyS8 S9 S10系统恢复出厂设置一直卡在正在检查更新怎么办
2023-01-24 10:10:02
华为Mate50 RS保时捷最新款顶级手机2022多少钱？1.2万元售价外观图片吊打iPhone14
2023-01-06 20:27:09
芯片常见的CPU芯片封装方式 QFP和QFN封装的区别？
2022-12-02 17:25:17
华为暂缓招聘停止社招了吗?官方回应来了
2022-11-19 11:53:50
热血江湖手游：长枪铁甲刚猛热血正派枪客全攻略技能介绍大全
2022-11-16 16:59:09
东京把玩了尼康微单相机Z7 尼康Z7现在卖多少钱?
2022-10-22 15:21:55
苹果iPhone手机灵动岛大热:安卓灵动岛App应用下载安装量超100万次
2022-10-03 22:13:45
苹果美版iPhone可以在中国保修从哪看怎么查询iPhone的生产日期？
2022-09-22 10:00:07

最新资讯

炒港股要补交多少税？我也接到催交补税特别行动的电话了
2025-07-23 17:36:43
淘宝天猫仅退款属于诈骗吗？淘宝天猫开始部分取消仅退款
2024-10-01 13:01:28
哈啰app借钱|哈啰借钱app下载安装免费小小上当和电话骚扰
2024-10-01 11:22:38
白嫖党｜山西大同大学学生网购申请“仅退款”被拒骂客服一小时
2024-09-27 09:10:44
北大数学教授袁新意《姜萍事件的疑点分析》点评姜萍板书阿里巴巴竞赛受质疑
2024-06-28 10:07:40

手机

中国11月手机出货量增34% 5G手机出货量2709.2万部
2023-12-28 19:27:57
荣耀发布新一代旗舰荣耀Magic5系列，新款上市价格分期0首付3999元起
2023-03-06 16:12:32
美国商务部指违禁，长江存储被美国拜登制裁名单面临停工裁员
2023-02-17 18:41:53
苹果Apple iOS车载系统CarPlay支持哪些更多汽车品牌
2023-02-02 17:33:27
香港去哪买三星手机回来吗？买香港便宜售价手机市场地点和网站
2023-02-02 11:03:11

数码

华为5G芯片正式亮相：预示华为将发首款5G手机
2023-08-31 13:22:33
腾讯传计划放弃虚拟现实VR硬件计划
2023-02-17 23:32:30
三星手机份额大跌！三星手机中国市场份额变化国内仅剩3%
2023-02-01 17:06:15
三星手机份额大跌在中国没市场了！国内市场占有率仅剩1%国外比苹果销量高
2023-02-01 16:59:53
vivo发布2022 vivoNEX手机极简易浏览器下载：简洁流畅无广告！
2022-12-02 17:29:30

科技

B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了？技术团队公开早先原因
2023-03-06 19:05:55
苹果iPhoneXS/XR手机电池容量续航最强？答案揭晓
2023-02-19 15:09:54
华为荣耀两款机型起内讧：荣耀Play官方价格同价同配该如何选？
2023-02-17 23:21:27
google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格：刘海屏设计顶配版曾卖6900元
2023-02-17 18:58:09
科大讯飞同传同声翻译软件造假浮夸不能只罚酒三杯
2023-02-17 18:46:15

品牌选车

选择品牌

选择车系

选择车型