APP下载

只知道Pandas吗?资料科学家不能错过的24个Python库(上)

消息来源:baojiabao.com 作者: 发布时间:2026-05-14

报价宝综合消息只知道Pandas吗?资料科学家不能错过的24个Python库(上)

前段时间,全世界范围内的PythonGoogle搜寻指数已经超越了Java(Python王者到来?PythonGoogle搜寻指数已经超越Java) 。说明Python越来越重要,同时,Python也是资料科学家必不可少的工具。最近,Analytics Vidhya总结了24个数据科学家不能错过的24个Python库,也是很不错的一份list,我们一起来看看。也算是入门同学的一个学习和选择的方向。

这24个库包含在以下几个领域中,本文主要介绍前4种(第二部分如果没刷到,请去主页看,因为实在太长了):

用于资料收集的Python库用于资料清理和操作的Python库用于资料视觉化的Python库用于建模的Python库用于模型可解释性的Python库用于音讯处理的Python库用于影象处理的Python库数据库的Python库用于部署的Python库

资料收集的Python

您是否遇到过一种情况,即您没有足够的资料来解决您想要解决的问题? 这是资料科学中一个永恒的问题。 这就是为什么学习如何提取和收集资料对资料科学家来说是一项非常关键的技能。 它开辟了以前无法实现的途径。

所以这里有三个有用的Python库,用于提取和收集资料。

Beautiful Soup

Beautiful Soup是一个HTML和XML解析器,它为解析的页面建立解析树,用于从网页中提取资料。 也就是主要为爬虫爬到的网页资料进行资料抽取功能。

Scrapy

Scrapy是另一个用于Web抓取的超级有用的Python库。 它是一个开源和协作框架,用于从网站中提取您需要的资料。 它使用起来快速而简单。

Selenium

Selenium是一种用于自动化浏览器的流行工具。 它主要用于行业测试,但对于网络抓取也非常方便。 实际上,Selenium在IT领域变得非常受欢迎。

资料清理和表示的Python库

好吧 - 所以你已经收集了你的资料并准备好继续挖掘。现在是时候清理我们可能面临的任何混乱资料并学习如何操作它,以便我们的资料可以用于建模。

这里有四个Python库可以帮助您实现这一目标。 请记住,我们将处理现实世界中的结构化(数字)和文字资料(非结构化) - 这个库列表涵盖了所有这些。

Pandas

在资料处理和分析方面,没有什么能比Pandas更胜一筹。 它是最流行的Python库。 Pandas是用Python语言编写的,特别适用于操作和分析任务。

该名称来源于术语“面板资料”,这是一个数据集的计量经济学术语,包括对同一个体的多个时间段的观察—— 维基百科

PyOD

在检测异常值时苦苦挣扎? 你不是一个人。 这是有抱负(甚至已建立)资料科学家的常见问题。 你如何定义异常值?

别担心,PyOD库可以帮到您。

PyOD是一个全面且可扩充套件的Python工具包,用于检测异常物件。 异常检测是识别与大多数资料显著不同的稀有专案或观察值。

NumPy

像Pandas一样,NumPy是另一个非常受欢迎的Python库。 NumPy引入了支援大型多维阵列和矩阵的函式。 它还引入了高阶数学函式来处理这些阵列和矩阵。

Spacy

到目前为止,我们已经讨论了如何清理和算子值资料。 但是,如果你正在处理文字资料呢?

使用SpaCy。 它是一个超级有用且灵活的自然语言处理(NLP)库和框架,用于清理文字文件以进行模型建立。 与用于类似任务的其他库相比,SpaCy更快。

资料视觉化的Python库

下一个是什么? 当然是资料视觉化! 这是我们的假设被检查的地方,隐藏的洞察力被挖掘出来并找到模式。

这里有三个用于资料视觉化的很棒的Python库。

Matplotlib

Matplotlib是Python中最流行的资料视觉化库。 它允许我们生成和构建各种图表。 它可以与Seaborn一起在视觉上探索资料(稍后会详细介绍)。

Seaborn

Seaborn是另一个基于matplotlib的绘相簿。 它是一个python库,提供高阶界面来绘制有吸引力的图形。 matplotlib可以做什么,Seaborn只是以更具视觉吸引力的方式做到这一点。

Bokeh

Bokeh是一个互动式视觉化库,面向现代Web浏览器进行演示。 它为大量资料集提供了多种图形的优雅构造。

Bokeh可用于建立互动式图表,仪表板和资料应用程序。

建立资料探勘模型的Python库

我们已经到达了本文最受期待的部分 - 构建模型! 这就是我们大多数人首先进入资料科学的原因,不是吗?

让我们通过这三个Python库探索模型构建。

Scikit-Learn

就像用于资料操作的Pandas和用于视觉化的matplotlib一样,scikit-learn是构建模型的Python领导者。 没有什么比得上它了。

事实上,scikit-learn建立在NumPy,SciPy和matplotlib之上。 它是开源的,每个人都可以访问,并且可以在各种环境中重用。

TensorFlow

TensorFlow由Google开发,是一个流行的深度学习库,可帮助您构建和训练不同的模型。 它是一个开源的端到端平台。 TensorFlow提供简单的模型构建,强大的机器学习生成,以及强大的实验工具和库。

PyTorch

什么是PyTorch? 嗯,这是一个基于Python的科学计算包,可以用作:

NumPy的替代品,可以使用GPU的强大功能深度学习研究平台,提供最大的灵活性和速度

2020-01-22 08:58:00

相关文章