APP下载

Kaggle大牛小姐姐自述:我是怎么成为竞赛中Top 0.3%的 | 干货攻略_模型

消息来源:baojiabao.com 作者: 发布时间:2026-05-19

报价宝综合消息Kaggle大牛小姐姐自述:我是怎么成为竞赛中Top 0.3%的 | 干货攻略_模型

原文:Lavanya Shukla

铜灵 编译整理

天天跟资料打交道的研究人员,都有一个成为Kaggle顶级大师(Grandmaster)的梦想。

但每年的Kaggle参赛团队众多,通常一个专案都有数千人至上万人报名,如何在其中脱颖而出?

最近,自动化资料准备及协作平台Dataland的联合创始人Lavanya Shukla,在部落格上分享了她在Kaggle竞赛中最终成为0.3%的获奖经验。

小姐姐在推特中表示,这份攻略里全都是干货,网友纷纷为其点赞。有网友表示,这份攻略非常棒,才知道脊回归如此强大!

*先放上原文地址:*

*https://www.kaggle.com/lavanyashukla01/how-i-made-top-0-3-on-a-kaggle-competition*

量子位将小姐姐的干货要点翻译整理如下,长文干货预警,建议先码后看:

开始一场资料科学竞赛是一项庞大的工作,所以我写了这篇在Kaggle经典房价预测题目(Advanced Regression Techniques)中获得TOP 0.3%成绩的比赛经验。

欢迎大家fork这份干货,也欢迎在实际问题中亲自实践这些程式码。

祝你好运!

目标

模型训练过程中的关键特性

从下图可以看出,混合模型的RMSLE(均方根对数误差)为0.075,远优于其他模型。

这是我用来做最终预测的模型:

现在我们已经知道了一些资讯,可以开始着手了:

EDA

目标

我们的目标是根据这些特征预测销售价格。

销售价格:我们打算预测的变数

特征处理

我们先将资料集中特征进行视觉化:

并绘制出这些特征之间的关系,以及它们与销售价格的关系。

让绘制销售价格与资料集中的一些特性之间的关系。

特征工程

来看一下房子售价的分布情况。

可以看出,销售价格在右边倾斜,这是因为大多数ML模型不能很好地处理非正态分布资料。

我们可以应用log(1+x)变换来修正倾斜。

再画一次销售价格的分布:

添补缺失值

这样一来,这不就没有缺失值了……

解决倾斜特征

我们用scipy函式boxcox1p来计算Box-Cox转换。我们的目标是找到一个简单的转换方式使资料规范化。

创造有趣的特征

ML模型很难识别更复杂的模式,所以我们可以基于对资料集的直觉建立一些特征来帮助我们的模型,比如,每个房子地板总面积、浴室和门廊面积。

特征转换

视觉化我们要训练模型的一些特性。

设定交叉验证并定义错误度量

设定模型

获得每个模型的交叉验证分数。

从上图中我们可以看出,混合模型的RMSLE为0.075,远远优于其他模型。这是我用来做最终预测的模型。

提交预测值

传送门

https://www.kaggle.com/lavanyashukla01/how-i-made-top-0-3-on-a-kaggle-competition

小姐姐的部落格:

https://lavanya.ai/

2020-01-02 17:57:00

相关文章