报价宝 > 科技 >

在R中使用遗传演算法进行特征选择

消息来源:baojiabao.com 作者: 发布时间：2024-06-01

报价宝综合消息在R中使用遗传演算法进行特征选择

点选上方关注，All in AI中国这是一篇关于在R中使用遗传算法进行特征选择的文章，我们先快速回顾一下：

什么是遗传算法？机器学习中的遗传算法（GA）解决方案是什么样的？GA流程及其运算子适应度函式R中的遗传算法！亲自尝试一下相关概念动画来源：“基于肌肉的双足生物运动” - Thomas Geijtenbeek

背后的秘密

想象一个黑盒子可以帮助我们产生无限多种可能性，其标准是我们可以找到一个可接受的解决方案（时间和质量）来解决我们制定的问题。

什么是遗传算法？

遗传算法（GA）是一个受著名的查尔斯达尔文自然选择思想启发的数学模型。

自然选择仅保留了不同代人中最适合的个体。

想象一下，1900年有100只兔子，我们会比兔子祖先更快、更熟练地找到食物。

机器学习中的GA

在机器学习中，遗传算法的一个用途是获取正确数量的变数以建立预测模型。

选择正确的变数子集是一个组合优化的问题。

这种技术优于其他技术的优势在于，它可以从最好的先前解决方案中获得最佳解决方案。一种进化算法，随着时间的推移可以改进选择。

GA的想法是将一代又一代的不同解决方案结合起来，从每一个解决方案中提取最佳基因（变数）。这样就形成了更新、更适合的个体。

我们可以找到GA的其他用途，例如超调节引数，找到函式的最大值（或最小值）或搜寻正确的神经网络结构（Neuroevolution），或者其他......

特征选择中的GA

作为选定变数（单个兔子）的GA的每个可能解决方案都被视为一个整体，它不会针对目标单独对变数进行排序。

这很重要，因为我们已经知道变数在组中是起作用的。

解决方案是什么样的？

举个简单的例子，假设我们总共有6个变数，

一个解决方案可以是获取3个变数，比方说：var2、var4和var5。

另一种解决方案可以是：var1和var5。

这些解决方案是人群中所谓的个体或染色体。它们是解决问题的可能办法。

从影象中可以看出，解3可以表示为单热向量：c（1,0,1,0,1,1）。每个1表示包含该变数的解决方案。在这种情况下是：var1、var3、var5、var6。

而解决方案4是：c（1,1,0,1,1,0）。

载体中的每个位置都是一个基因。

GA过程及其运算子

遗传算法的基本思想是生成一些随机可能的解决方案（称为人口），它们代表不同的变数，然后在迭代过程中组合最佳解决方案。

这种组合遵循基本的GA操作，即：选择、变异和交叉。

选择：在一代人中挑选最适合的人（即：提供最高ROC的解决方案）。交叉：基于两种解决方案的基因建立2个新个体。这些”孩子“将出现在下一代。突变：在个体中随机改变基因（即：将0翻转为1）这个想法是针对每一代人，我们会找到更好的个体，就像跑得很快的兔子一样。

我推荐Vijini Mallawaarachchi关于遗传算法如何工作的帖子。

这些基本操作允许算法通过以最大化目标的方式组合它们来改变可能的解决方案。

适应度函式

例如，该目标最大化是为了保持与最大化ROC曲线下面积最大化的解。这是在适应度函式中定义的。

适应度函式采用一个可能的解决方案（或染色体，如果您想要听起来更复杂的话），并以某种方式评估选择的有效性。

通常，适应度函式采用单热向量c（1,1,0,0,0,0），例如，建立一个具有var1和var2的随机森林模型，并返回适应值（ROC）。

此程式码中的适应度值计算为：ROC值/变数数。通过这样做，该算法利用大量变数惩罚解。类似于Akaike资讯标准或AIC的想法。

R中的遗传算法！

我的目的是为您提供一个干净的程式码，以便您可以了解背后的内容，同时尝试修改适应度函式等新方法。这是至关重要的一点。

要在您自己的资料集上使用，请确保data_x（资料框）和data_y（因子）与custom_fitness函式相容。

主库是由Luca Scrucca开发的GA。请看这里的示例。

重要提示：以下程式码不完整。克隆储存库以执行该示例。

蓝点：总体适合度平均值绿点：最佳适应度值注意：不要期望那么快的结果

现在我们根据最佳选择计算精度！

精度约为95,08％，而ROC值接近0.95（ROC =适应值*变数数，检查适应度函式）。

分析结果

我不喜欢在没有截断点的情况下分析准确度（评分资料），但是与这个Kaggle帖子的结果进行比较是有用的。

他使用基于5个变数的递回特征消除或RFE获得了类似的精度结果，而我们的解决方案保持在4。

亲自尝试一下

尝试新的适应度函式，有些解决方案仍然提供大量变数，可以尝试平方变数的数量。

要尝试的另一件事是获取ROC值的算法，甚至是更改度量标准的算法。

一些配置持续很长时间。在建模之前平衡类并使用p_sampling引数。取样技术可以对模型产生重大影响。有关详细资讯，请检视模型效能帖子上的样本大小和类平衡。

如何改变基因突变率或成为精英主义的比率？或尝试其他交叉方法？

增加popSize以同时测试更多可能的解决方案（按时间成本）。

随意分享任何见解或想法，以改善选择。

克隆储存库以执行该示例。

相关的概念

GA和深度学习之间存在一种并行性、迭代和改进的概念随着时间的推移是相似的。

我添加了p_sampling引数以加快速度。它通常会实现其目标，与深度学习中使用的批处理概念类似。另一个相似之处是在GA引数执行和神经网络训练中的早期停止标准之间。

但最大的相似之处在于两种技术都来自于对自然的观察。在这两种情况下，人类都观察神经网络和遗传学如何工作，并建立了一个模仿其行为的简化的数学模型。大自然有数百万年的进化，为什么不尝试模仿它呢？

编译出品

2019-11-21 13:56:00

文章标签: 报价宝降噪耳机价格耳机价格红米手机价格华为手机价格小米手机价格电视机价格笔记本电脑价格笔记本价格汽车价格数码相机价格手机价格汽车价格电视机价格降噪耳机价格

相关文章

中兴受美国制裁事件被罚了20亿美元过程事件始末中兴被制裁后公司现状
2023-11-02 22:12:46
B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了？技术团队公开早先原因
2023-03-06 19:05:55
苹果iPhoneXS/XR手机电池容量续航最强？答案揭晓
2023-02-19 15:09:54
华为荣耀两款机型起内讧：荣耀Play官方价格同价同配该如何选？
2023-02-17 23:21:27
google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格：刘海屏设计顶配版曾卖6900元
2023-02-17 18:58:09
科大讯飞同传同声翻译软件造假浮夸不能只罚酒三杯
2023-02-17 18:46:15
华为mate20pro系列手机首发上市日期价格，屏幕和电池参数配置对比
2023-02-17 18:42:49
小米MAX4手机上市日期首发价格骁龙720打造大屏标准
2023-02-17 18:37:22
武汉弘芯遣散!结局是总投资1280亿项目烂尾光刻机抵押换钱
2023-02-16 15:53:18
谷歌GoogleDrive网云盘下载改名“GoogleOne” 容量提升价格优惠
2023-02-16 13:34:45
巴斯夫将裁员6000人众化工巨头裁员潮再度引发关注
2023-02-13 16:49:06
人手不足韵达快递客服回应大量包裹派送异常没有收到
2023-02-07 15:25:20
资本微念与李子柒销声匿迹谁赢？微念公司退出子柒文化股东
2023-02-02 09:24:38
三星GalaxyS8 S9 S10系统恢复出厂设置一直卡在正在检查更新怎么办
2023-01-24 10:10:02
华为Mate50 RS保时捷最新款顶级手机2022多少钱？1.2万元售价外观图片吊打iPhone14
2023-01-06 20:27:09
芯片常见的CPU芯片封装方式 QFP和QFN封装的区别？
2022-12-02 17:25:17
华为暂缓招聘停止社招了吗?官方回应来了
2022-11-19 11:53:50
热血江湖手游：长枪铁甲刚猛热血正派枪客全攻略技能介绍大全
2022-11-16 16:59:09
东京把玩了尼康微单相机Z7 尼康Z7现在卖多少钱?
2022-10-22 15:21:55
苹果iPhone手机灵动岛大热:安卓灵动岛App应用下载安装量超100万次
2022-10-03 22:13:45

最新资讯

YouTube更新违反规定政策，提升惩处透明度和一致性
2023-12-31 14:00:52
美国法院裁定阿里须为Squishmallows玩具侵权案答辩
2023-12-28 19:59:34
小米汽车传员工3700人雷军称小米汽车不可能卖9万9
2023-12-28 19:41:57
吉利飙逾6% 电动车品牌极氪新车款极氪007昨上市预售价格22.99万元
2023-12-28 19:30:28
日本丰田汽车厂11月全球产量创新高
2023-12-28 19:26:02

手机

中国11月手机出货量增34% 5G手机出货量2709.2万部
2023-12-28 19:27:57
荣耀发布新一代旗舰荣耀Magic5系列，新款上市价格分期0首付3999元起
2023-03-06 16:12:32
美国商务部指违禁，长江存储被美国拜登制裁名单面临停工裁员
2023-02-17 18:41:53
苹果Apple iOS车载系统CarPlay支持哪些更多汽车品牌
2023-02-02 17:33:27
香港去哪买三星手机回来吗？买香港便宜售价手机市场地点和网站
2023-02-02 11:03:11

数码

华为5G芯片正式亮相：预示华为将发首款5G手机
2023-08-31 13:22:33
腾讯传计划放弃虚拟现实VR硬件计划
2023-02-17 23:32:30
三星手机份额大跌！三星手机中国市场份额变化国内仅剩3%
2023-02-01 17:06:15
三星手机份额大跌在中国没市场了！国内市场占有率仅剩1%国外比苹果销量高
2023-02-01 16:59:53
vivo发布2022 vivoNEX手机极简易浏览器下载：简洁流畅无广告！
2022-12-02 17:29:30

科技

中兴受美国制裁事件被罚了20亿美元过程事件始末中兴被制裁后公司现状
2023-11-02 22:12:46
B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了？技术团队公开早先原因
2023-03-06 19:05:55
苹果iPhoneXS/XR手机电池容量续航最强？答案揭晓
2023-02-19 15:09:54
华为荣耀两款机型起内讧：荣耀Play官方价格同价同配该如何选？
2023-02-17 23:21:27
google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格：刘海屏设计顶配版曾卖6900元
2023-02-17 18:58:09

品牌选车

选择品牌

选择车系

选择车型