加速分散式计算的传输星云Clustar获红杉中国天使轮投资

消息来源:baojiabao.com 作者: 发布时间：2024-05-29

报价宝综合消息加速分散式计算的传输星云Clustar获红杉中国天使轮投资

日前，“星云Clustar”已获得数千万元天使轮融资，由红杉中国投资。

“无论是传统CPU的多核迭代，还是如今的FPGA、ASIC芯片，都是在单点／单服务器上提升算力。随着数据量增多，模型增多，大规模分散式处理成为必须途径。与此同时产生的问题是，很多资源在服务器传输间时被消耗。所以，提升单点算力固然重要，服务器之间的互联、参数在各个节点之间如何高效传输也是研究方向。”创始人陈凯说到，星云Clustar更偏向于后者，将超算的科研和技术成果应用到商用领域，为企业AI提供高效的分散式机器学习系统。核心团队由科学家陈凯和杨强组成。

在星云AI的方案中，首先是基于RDMA的新型数据中心网络技术。

RDMA可以理解为一种传输协议，对标革新的是传统TCP/IP技术。

传统的TCP/IP技术在数据包处理过程中，要经过操作系统及其他软件层，占用大量的服务器资源和内存总线带宽，数据在系统内存、处理器缓存和网络控制器缓存之间来回进行复制移动，给服务器的CPU和内存造成了沉重负担，耗时且浪费资源，100G的带宽算下来可能只有20G用于传输。

RDMA（Remote Direct Memory Access）即远程直接内存访问，可以让计算机直接存取其他计算机的内存，而不需要经过处理器。这样一来，一台服务器的网卡可以直接读取对方应用数据，而不对操作系统造成影响，计算在可编程的网络交换机进行，理论上可以做到100%的带宽利用以及微秒（us）级端对端传输时延（pan>。

星云RDMA技术的原理及其与TCP/IP架构的对比如下图所示：

同时，星云还利用了智能网络计算平台(smart in-network computing)技术。

此前计算是在CPU上进行，网络只是负责传输数据。现在网络也能用于计算，星云通过可编程的交换机和智能网卡，分担了CPU?部分甚?至全部的计算任务。数据在边传输边计算的情况下，一来降低了CPU的负荷，二是边计算可以边消耗传输的数据量（比如对数据进行聚合以及整合），有利于提高传输效率。

再者，在应用感知的路由和调度的算法上，星云也做了优化。

通过分析数据流所对应的应用层的语义，来确定数据流之间的相关性和优先级，用于制定路由路径和调度顺序，进而用同样的网络带宽极大化应用程序的执行速度。陈凯举例，假设一堆分布在不同节点的数据要算最大值，则需要完全传输到一个目标点才能计算，传输完成99%都不能执行后续的流程，星云的算法就是为了确定数据流之间的相关性，制定整体最优的传输策略，保证目标进程不会因为某些流的迟到而被拖延。

诸如此类，星云所有技术的目的就为了提高AI环境下的高效运算。那么具体到应用上，微信的Amber深度学习平台就是由微信跟陈凯团队联合研发。Amber与TensorFlow、相同，也是一种深度学习计算框架。其中，陈凯团队负责将RDMA等技术应用到其数据传输环节，最终实现了平均提速3倍的计算效果。

此外，星云还在钢铁、制造业、保险风控领域有正在实施的案例。陈凯概括下来，星云AI的目标客户可以分两类：一类是有大量数据的传统行业，希望做企业转型，所以会涉及到大规模数据计算；另一类是AI的应用公司，他们需要高效的底层设施，来实现上层算法、应用。

目前，星云Clustar是项目制的方式帮企业落地，客单价在百万元级别。对于一些信息化、智能化较弱的企业，星云也提供软硬件一体化解决方案，包括以太网RDMA+智能网卡/自研交换机（最大网络带宽利用率提高AI效率），等等。

据悉，星云公司在2017年注册，2018年境内重组，现在是人民币架构。目前团队共20多人，分布在北京、香港。本轮融资将用于团队建设和产品研发。（若你也希望加入该团队，简历请戳talent@clustar.ai）

附创始团队背景：

陈凯，星云AI创始人兼首席科学家。现任香港科技大学副教授、博导，网络系统实验室主任，港科大-微信人工智能联合实验室主任。主要研究方向包括数据中心网络，云计算系统，大数据和分散式机器学习的底层架构，专注于网络系统的设计和实现，曾多次在ACM SIGCOMM, USENIX NSDI，IEEE/ACM TON等国际顶尖学术会议和期刊上发表论文，其中SIGCOMM/NSDI论文近三年居亚洲第一，是全球网络通信业界首个基于机器学习的网络大脑核心设计者。

杨强，星云AI联合创始人。港科大教授、博导，ACM/IEEE Fellow，首位AAAI华人院士，在数据挖掘、人工智能、终身学习和智能规划等研究领域都有着卓越贡献。

2018-05-07 18:32:00