盘点:开源社区的大数据分析
|
[page] 从这些数据我们可以度量到非常多信息,取决于我们对数据认识和对项目实现认识。两个例子,出来者进入这个社区和进入到公司一样,我们用这些数据可以度量到个人交际圈,他和谁交互,那些人效率怎么样,影响对社区认识。
第二个不仅是个人个体的一个认知,还包括这个个体所在整个项目环境一个社会性。我们度量有细节,我不多讲。但是重点我们用这些数据可以从不同角度去度量到这个个体跟它周围小环境大环境之间一个互动。最后得到结论,对于开源社区第一个月,看第一个月活动能够预测在多大程度上能够成为在这个项目待足够3年贡献者,比如我们发现的是小环境,每个人不同,和谁交互,交互人能力多高,交互的人注意力够不够,很大程度影响这个项目在这个社区里待下的意愿。
大环境比如说产品流行度,任务密度等等。刚才讲基于这些数据,我们建立了一些量度,我们理解了这个人和社区和项目和其他人怎么交互。现在基于这些信息知道第一个月活动我就能够知道,你未来是不是会在这个环境里待下去,这个对管理者还是其他贡献者都是他实时决策的重要支持,到底应该把更多注意力放谁身上,开源社区来讲人员非常少,怎么把有限资源放到更有潜力人身上,这是这个问题关注的重要点。
还一个例子,比如有研究商业公司对开源影响,大部分公司是关心,我怎么样应用更好吸引到用户,比如说现在大家都做开源,我也会做开源。因为开源有很多志愿者,到一个公司加入开源,开源有自身特点,有自己的优势,但公司进入到开源以后,你会用你的影响力对开源公司造成伤害到它的优势的一个影响,我们所做的这个研究其实给出了任何一个公司你想去加入开源时候,有一些决策支持和你的控制手段,你是需要考虑的。
第二个,我刚才只是讲到,我有整个开源项目,版本控制数据70T,我刚才讲我做一个研究,只面向Gnome和Mozilla两个项目,我可以利用这么大规模数据回答更大问题,这是第二个例子,代码复用检测,是很技术的名词,版权问题,中国从来对版权是不够重视的,这是很多问题起源。比如说最近ORACLE和Google争版权,三星和苹果版权之争,苹果一个版权手机一滑,大家知道三星手机支持的,这个是苹果一个版权,这种版权之争源起都在于当你程序员、当你员工写应用,写新点子时候,怎么知道别人代码尤其开源代码是什么,你是否可以借用那些点子代码。还一个问题,OpenSSL的Heartbleed .刚才揭示一个问题,现在开源代码太多了,版本控制数据有70T,但是对一个公司做软件开发时候,我有1千1万个员工没有办法控制,他们从网上把代码拿下来,任何一份代码到公司够大时候,可能引起诉讼。有一个研究比较重要,对于开源世界,我公司每天新产生的这些代码到底有哪些部分是引用了哪些代码,我们希望面向开源宇宙代码进行代码复用检测。这里只是给大家一个感觉,在这个领域做这个事情计算量和规模多大。
在我们这个领域,我的工作是最好成果之一,我可以负责任地说,大家因为讲到企业数据,企业信息推荐的时候都会讲到计算,我的计算能力有多强,但事实上,我们在做这些研究工作时候,我们面临这些数据时候,我讲到大数据大归根到底其实是对于任何一个特定的领域,你在原有基础之上所面临挑战是什么。刚才我讲到这个问题,我想对整个开源世界去进行复用检测,但事实上我们现在能够抵达这是一些初步结果。
我们发现最常使用软件代码,比如操作系统Linux kernel、,还有Ruby on Rails等等,测试框架Cucumber这个也是目前非常流行的。
(编辑:PHP编程网 - 湛江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |

