中国商业电讯(China Business Press Release Newswire)  


视野 | 一款优秀的流处理产品必备的5大功能  

2017-07-06 13:47     来源:商业电讯

    星环科技是今年在硅谷举行的Strata+Hadoop World 2017大会(详情请点击阅读新闻 | Strata+Hadoop World 2017见闻)中仅有的两家参展的中国公司之一。小编有幸跟着星环科技的团队参加了此次大会,在向世界展示星环科技的技术和产品的同时,也了解下目前世界上其他科技公司所做的一些工作,从而把握目前科技中的一些发展趋势。从参加展览的公司来看,其中有两个方向相关的公司和产品最多:机器学习和流处理。小编平时也会参与一些流计算相关产品的研究和开发工作,所以很激动可以和世界上最顶尖的工程师讨论流处理的一些问题和发展。

    小编粗略统计了一下,本次大会中涉及的流计算产品以及解决方案达到将近10种,包括开源界目前最流行的Apache Beam、Apache Flink、Spark Streaming等;还有5、6家国外做流处理产品已经比较成熟的公司,包括Data Torrent、SQLstream、 SAS Event Stream Processing等;以及一些新起的流处理产品,比如新版本的Kafka等。通过跟以上多家公司的交流,并看了一些他们的演示Demo,总结下来,除了一些必要的基本功能之外,一款优秀的流处理产品主要还有以下几个方面的特点:

    1.低延迟是主流

    在上述提到的众多的流处理的产品当中,除了Spark Streaming是基于Micro-Batch的模型之外,毫无例外的都是基于Event-Driven的模型实现,这种模型能够让事件处理的延迟降低到毫秒级别,使其能够适用于对延迟要求比较的高的领域,比如IoT、金融行业等。 而Spark Streaming,包括新版本中的Structured Spark Streaming这种采用Mirco-Batch的模型,延迟则在秒级别,无法满足这些行业的低延迟要求。

    2.易用是关键

    商业化流处理产品的另外一个通用的特点是他们都致力于提供更方便简单的接口帮助用户构建和管理流处理应用,包括三种方式:

    ①提供可视化的工具:例如Data Torrent、SAS Event Streaming,他们都提供了对应的可视化工具,用户可以通过一些简单的拖拽操作,修改配置,能在数分钟内构建一个流处理应用 。

    ②提供SQL接口:例如SQLstream。通过提供标准的SQL支持,用户可以通过SQL语句创建Stream,以及转换、分析等操作,降低用户使用流处理引擎的门槛,并且可以方便的将一些原来在数据库上的复杂业务迁移到流处理平台上。SQLstream是目前国外产品中唯一一个支持SQL开发的流处理引擎。

    ③提供类SQL的API:例如Apache Flink以及Strunctured Spark Streaming。通过提供类似SQL操作的API,如select、groupby等,可以稍微降低用户编写流处理应用的复杂程度,但是总的来说在开发、部署以及后期的维护成本仍然比较高。

    另外大部分流产品都提供比较丰富的Connector的支持,让用户可以轻松的对接多种输入数据源/输出存储,常见的包括消息队列、关系数据库等。

    3.结合批处理是王牌

    如果流处理引擎只是处理实时数据,只能够实现ETL和有限的基于窗口的简单分析业务。流处理和批处理的结合,使得流处理能够实现更复杂的分析,例如实时数据和历史数据的关联操作等,从而帮助客户构建实时数据仓库。目前流处理引擎中,主要包括两种方式来实现流处理和批处理的结合:

    ①通过API的方式:例如Flink。用户需要通过API编写程序去实现历史数据的关联或者其他比对操作,开发难度大,并且不够灵活。

    ② 通过SQL的方式:例如 SQLstream、Slipstream。用户可以像关系数据库中使用Join来实现Stream和表的关联操作,编写简单、并且修改维护容易。

    4.安全是必须

    作为企业级产品,其中包括金融、能源等重要行业的客户,几乎所有的流处理产品都提供了安全的功能,包括账号管理、用户认证、资源控制等方面。实现方式常见的包括基于Kerberos的用户认证、基于LDAP的账户管理等。另外如Data Torrent,还提供了RBAC(Role Based Access Control)的安全控制方式。除此之外,现有的流处理系统通常都是在企业中被多部门共用的,因此还需要考虑多用户之间的资源管理和控制,但并没有发现现有的产品中在这方面做的比较好的。

    5.CEP和机器学习是趋势

    CEP(Complex Event Processing)能够帮助通过模式匹配、事件的相互关系等方式能够找出数据流中的有意义的事件,从而帮助企业开发出更复杂的业务,例如通过流处理引擎的CEP帮助银行用户进行实时反欺诈的监控和报警。目前Apache Flink是支持一些简单CEP的处理。

    另外流上的机器学习是大家正在探索的方向,将机器学习的模型应用到实时数据,甚至通过流处理进行实时的模型训练,可以帮助用户构建更智能的系统。

    星环科技从14年开始提供企业流处理引擎,广泛使用于交通、能源等行业,通过和客户的沟通发现以上流处理产品的特点也是国内企业在构建实时系统时考虑的因素。经过多个版本的更新和演变,星环最新版本的Slipstream产品,基于Spark实现了低延迟(毫秒级别)的引擎,并且完整支持SQL 2003标准;Slipstream还是一个流处理和批处理统一的引擎,并且充分利用星环Inceptor引擎的优化技术,使得Slipstream在做复杂分析有更好的性能;通过星环Stargate模块,Slipstream能够对接各种Hadoop数据源、关系数据库、消息队列、ElasticSearch、VoltDB等存储系统;Slipstream还支持实时的CEP处理,并且有专门的团队开发流上的机器学习算法,让用户可以轻松的使用Slipstream构建复杂的实时系统。

    关于星环科技

    星环信息科技(上海)有限公司(下文简称“星环科技”)是全球领先的大数据基础软件平台供应商,专注于企业级大数据核心平台数据库研发和服务,打造大数据生态的“中国心”。公司以上海为总部,以北京、广州为区域总部,并在南京、郑州、深圳和成都都设有支持中心,同时在沈阳、西安、武汉等多地设有办事机构。经过多年自主研发,星环科技一站式大数据平台Transwarp Data Hub(TDH)整体架构及功能特性比肩硅谷同行,产品性能在业界处于领先水平,并在2016年被Gartner评为全球最具有前瞻性的数据仓库及数据管理解决方案厂商,也是首个上榜的中国厂商。目前公司处于快速成长期,技术和市场能力均得到投资人高度认可。2016年荣获“安永复旦中国最具潜力企业”,同时位列“中国最具投资价值企业50强”前三甲。星环科技已完成C轮融资,由腾讯领投。 

    


本网站所发布消息的内容和准确性由提供消息的原单位或组织独立承担完全责任。        

 
  北京市海淀区学院南路15号北发大厦B座1层  邮编:100088 电话:010-52384398-5180 传真:010-82228709
商业电讯网 Business Press Release Newswire
© 2000-2024 版权所有 北京商讯天下科技有限公司
京ICP证10043713号     经营性网站备案信息