APP下载

研究:GitHub上高达7成的档案是复制品!

消息来源:baojiabao.com 作者: 发布时间:2024-09-21

报价宝综合消息研究:GitHub上高达7成的档案是复制品!

示意图,与新闻事件无关。

图片来源: 

GitHub

微软研究院、美国东北大学、捷克技术大学及美国加州大学欧文分校的8名研究人员在近日发表的研究报告中指出,GitHub上所代管的档案中,只有17.6%是独特的,有70%的档案是复制品,其他则是稍有变动或无关紧要的档案。

这群研究人员原本是要调查各种复制品的粒度,以协助其他研究挑选GitHub上的随机样本,他们分析了GitHub的450万个非分叉专案,涵盖逾4.82亿个档案,却意外发现当中只有8500万个独特档案,而让研究方向转了个弯。

该研究排除了各种分叉专案,因为这些专案原本就会含有复制内容,而不同语言的复制比例则各不相同,例如JavaScript生态体系的复制档案比例高达94%,C++为73%,Python为71%,而Java则是40%。

不过,上述结果包含了许多无关紧要的复制内容,例如大小为0的空白档案就被重复建立了220万次,还有一些重复档案只键入了一个空行。即便扣除这些内容,上述语言的复制档案比例依旧高达93%、73%、69%与40%。

开源码观察家Adrian Colyer认为,从该报告可看出GitHub有许多专案虽未采用分叉机制,却仍然复制了大量的档案,且随着现代的软件专案多半仰赖其他开源专案,再加上许多自动产生的程式码,在未来专案中由开发人员自行撰写的程式很可能都只占专案的很小一部分。

2018-01-10 08:25:00

相关文章