热门关键词:

LinkedIn开源旗下资料探勘软件WhereHows

发布于2018-02-13 10:00:07
发布于2018-02-13 10:00:07,资讯LinkedIn开源旗下资料探勘软件WhereHows,最新消息报道,手机发烧友娱乐新闻
图片来源: 

LinkedIn

全球知名商业社群网站LinkedIn于3月3日宣布,开源旗下资料探勘软件WhereHows,整合所有LinkedIn的资料处理环境,并且从中萃取元资料(Metadata),并加以管理,主要用于挖掘企业资讯,现在已于GitHub开放存取。

而WhereHows的名称是由2个关于资料的重点所组成,一是资料从哪里来(Where),二是资料是如何产生的(How)。WhereHows从各种资料来源搜集元资料,并且标准化和模型化这些元资料,以及作为一种整合元资料的储存库(Repository),用于多种分析目的。

LinkedIn表示,WhereHows已经获取5万个资料集的状态、1.4万个评论和3.5千万个工作实行和关联性资讯,而这些资料分别储存在Hadoop、Teradata或其他丛集,且占了超过15PB的储存空间。

WhereHows提供开发者从API或Web应用程序存取资料,其中API提供其他资料处理和应用程序的自动化,而Web应用程序则提供搜寻、视觉化资料集间的关系、注解、讨论、社群参与等功能。

而WhereHows主要由(1)资料储存库、(2)Web服务器和(3)后端服务器所组成,其中资料储存库用来储存所有元资料内容,Web服务器则是透过UI和API来呈现资料,另外,后端服务器则会定期从其他系统抓取元资料。(WhereHows完整架构图如下图所示)

(图片来源/LinkedIn)

另外,LinkedIn也计划整合资料系统,如Kafka、Samza等,以及整合资料生命周期管理和配置系统,如Gobblin和Nuage,来强化WhereHows软件与丰富元资料的搜集。

  • 赞助商广告