报价宝 > 科技 >

资料进食者Pandas：3大方法减少内存占用和读取时间

消息来源:baojiabao.com 作者: 发布时间：2024-06-01

报价宝综合消息资料进食者Pandas：3大方法减少内存占用和读取时间

全文共1713字，预计学习时长3分钟

Pandas love eating data.

Pandas已经成为最受欢迎的资料科学库之一。它易于使用，内容丰富，且功能强大。

然而，无论使用什么库，大型资料集总是会带来意想不到的挑战，因此需要谨慎处理。

如果使用容量不足的随机存取储存器（RAM）来储存所有资料，就会产生硬件故障。企业公司储存的资料集大小在100GB到1000GB之间。

即使有幸拥有一台足以储存所有资料的机器，仅仅是将资料读入内存这一步就非常慢。

但Pandas库将再次帮助我们解决问题。本文将探讨的三种技术，可减少庞大资料集的内存占用和读取时间。这些技术曾用于处理超过100GB大小的资料集，可以将其压缩至内存为64GB甚至32GB的机器中。一起来看看吧！

来源：Pexels

资料分块

CSV格式是一种非常方便的资料储存方式，易于编写，且具有可读性。此外，pandas函式read_csv()在载入储存为CSV格式的资料方面表现良好。

但如果CSV档案太大，而内存又不够该怎么办？

Pandas可以轻而易举解决这个问题！相比于试图一次性处理所有资料，分块处理更加有效。通常，这些部分被称为“资料块”。

每一资料块只是资料集的一部分。它的大小可以根据内存容量任意变化。过程如下：

1. 读取资料块

2. 处理资料块

3. 储存结果

4. 重复步骤1-3直至得出所有结果

5. 整合所有结果

read_csv()函式中一个名为chunksize的方便变数可以执行上述所有步骤。Chunksize表示一次读取的CSV行数。行数多少取决于内存大小和每一行的大小。

如果资料能够轻松遵循高斯分布等模式，那么可以每次对一个块进行处理，并将其视觉化。这种做法不会对其准确性产生很大影响。

如果是像泊松分布这类比较复杂的情况，则最好在处理前过滤每一个数据块，并将各部分整合在一起。大多数情况下，许多不相关的列或存在缺少值的行最终会被删除。对于每个资料块都可以执行此操作，使其变得更小，整合后对最终资料帧进行资料分析。

以下程式码可执行所述步骤。

排除无用资料

有时，使用者可立即知道想要分析的资料集位于哪几列。事实上，如使用者名称、账号等列数通常无需处理。

读取资料前直接跳过某几列可以节省大量内存。通过Pandas就可以指定想要读取的列数：

忽略那些包含无用资讯的列可以在最大程度上节省内存。

另一种方法是过滤存在缺失或NA值的行。使用dropna() 函式可以轻松做到这一点：

一些有用变数则可以传给 dropna()：

· how：该变数可以指定“any”（若某行的任一列均为NA值，则删除该行）或“all”（只有当某行的所有列都是NA值时才可删除一行）

· thresh：设定一个阈值，表示删除一行的NA值数量

· subset：选择一个列的子集，用于检查NA值

这些引数，尤其是thresh和subset，可以确定哪些行将会被删除。

Pandas在读取时没有采用与处理列相同的方法，但上述方法可以用于处理每一个数据块。

为每一列设定特定的资料型别

对于许多初级资料科学家来说，资料型别并非关注的重点。但是一旦开始处理非常庞大的资料集，资料型别就变得非常重要。

通常的做法是读取资料帧，然后根据需要转换某一列的资料型别。但对于一个大的资料集来说，内存空间必须纳入考虑范围。

CSV档案中，浮点数等列占用的空间比实际需要得更多。例如，如果下载一个用于预测股价的资料集，这些股价可能被储存为32位浮点数！

但真的需要32位浮点数吗？很多时候，股票是以小数点后两位的定价买进的。即使要做到更加精确，16位浮点数也足够了。

因此，相比于在资料集中读取列的原始资料型别，在pandas读取列时，设定所希望的资料型别将更加有效。因为这样占用的内存永远也不会超过实际需求量。

使用read_csv() 函式中的dtype引数可以轻松做到这一点。方法是指定一个词典，其中每个键都是资料集中的一列，每个值都是通过使用该键而希望获得的资料型别。

以下是pandas中的一个例子：

今天的教程就到这里，希望这三个方法能有效节约时间、节省内存！

留言点赞关注

我们一起分享AI学习与发展的干货

欢迎关注全平台AI垂类自媒体 “读芯术”

2019-10-05 23:52:00

文章标签: 报价宝降噪耳机价格耳机价格红米手机价格华为手机价格小米手机价格电视机价格笔记本电脑价格笔记本价格汽车价格手机价格笔记本电脑价格红米手机价格耳机价格降噪耳机价格

相关文章

中兴受美国制裁事件被罚了20亿美元过程事件始末中兴被制裁后公司现状
2023-11-02 22:12:46
B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了？技术团队公开早先原因
2023-03-06 19:05:55
苹果iPhoneXS/XR手机电池容量续航最强？答案揭晓
2023-02-19 15:09:54
华为荣耀两款机型起内讧：荣耀Play官方价格同价同配该如何选？
2023-02-17 23:21:27
google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格：刘海屏设计顶配版曾卖6900元
2023-02-17 18:58:09
科大讯飞同传同声翻译软件造假浮夸不能只罚酒三杯
2023-02-17 18:46:15
华为mate20pro系列手机首发上市日期价格，屏幕和电池参数配置对比
2023-02-17 18:42:49
小米MAX4手机上市日期首发价格骁龙720打造大屏标准
2023-02-17 18:37:22
武汉弘芯遣散!结局是总投资1280亿项目烂尾光刻机抵押换钱
2023-02-16 15:53:18
谷歌GoogleDrive网云盘下载改名“GoogleOne” 容量提升价格优惠
2023-02-16 13:34:45
巴斯夫将裁员6000人众化工巨头裁员潮再度引发关注
2023-02-13 16:49:06
人手不足韵达快递客服回应大量包裹派送异常没有收到
2023-02-07 15:25:20
资本微念与李子柒销声匿迹谁赢？微念公司退出子柒文化股东
2023-02-02 09:24:38
三星GalaxyS8 S9 S10系统恢复出厂设置一直卡在正在检查更新怎么办
2023-01-24 10:10:02
华为Mate50 RS保时捷最新款顶级手机2022多少钱？1.2万元售价外观图片吊打iPhone14
2023-01-06 20:27:09
芯片常见的CPU芯片封装方式 QFP和QFN封装的区别？
2022-12-02 17:25:17
华为暂缓招聘停止社招了吗?官方回应来了
2022-11-19 11:53:50
热血江湖手游：长枪铁甲刚猛热血正派枪客全攻略技能介绍大全
2022-11-16 16:59:09
东京把玩了尼康微单相机Z7 尼康Z7现在卖多少钱?
2022-10-22 15:21:55
苹果iPhone手机灵动岛大热:安卓灵动岛App应用下载安装量超100万次
2022-10-03 22:13:45

最新资讯

YouTube更新违反规定政策，提升惩处透明度和一致性
2023-12-31 14:00:52
美国法院裁定阿里须为Squishmallows玩具侵权案答辩
2023-12-28 19:59:34
小米汽车传员工3700人雷军称小米汽车不可能卖9万9
2023-12-28 19:41:57
吉利飙逾6% 电动车品牌极氪新车款极氪007昨上市预售价格22.99万元
2023-12-28 19:30:28
日本丰田汽车厂11月全球产量创新高
2023-12-28 19:26:02

手机

中国11月手机出货量增34% 5G手机出货量2709.2万部
2023-12-28 19:27:57
荣耀发布新一代旗舰荣耀Magic5系列，新款上市价格分期0首付3999元起
2023-03-06 16:12:32
美国商务部指违禁，长江存储被美国拜登制裁名单面临停工裁员
2023-02-17 18:41:53
苹果Apple iOS车载系统CarPlay支持哪些更多汽车品牌
2023-02-02 17:33:27
香港去哪买三星手机回来吗？买香港便宜售价手机市场地点和网站
2023-02-02 11:03:11

数码

华为5G芯片正式亮相：预示华为将发首款5G手机
2023-08-31 13:22:33
腾讯传计划放弃虚拟现实VR硬件计划
2023-02-17 23:32:30
三星手机份额大跌！三星手机中国市场份额变化国内仅剩3%
2023-02-01 17:06:15
三星手机份额大跌在中国没市场了！国内市场占有率仅剩1%国外比苹果销量高
2023-02-01 16:59:53
vivo发布2022 vivoNEX手机极简易浏览器下载：简洁流畅无广告！
2022-12-02 17:29:30

科技

中兴受美国制裁事件被罚了20亿美元过程事件始末中兴被制裁后公司现状
2023-11-02 22:12:46
B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了？技术团队公开早先原因
2023-03-06 19:05:55
苹果iPhoneXS/XR手机电池容量续航最强？答案揭晓
2023-02-19 15:09:54
华为荣耀两款机型起内讧：荣耀Play官方价格同价同配该如何选？
2023-02-17 23:21:27
google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格：刘海屏设计顶配版曾卖6900元
2023-02-17 18:58:09

品牌选车

选择品牌

选择车系

选择车型