职业经理人周刊
整合 执行 创新   精彩人生从合作开始
金令牌猎头
企业  职位  经理人  专访  点评
年薪(万) 不限 15 25-35 50 100 200 500
职业经理人周刊 >> 商业评论

大数据和数据库的未来趋势

《职业经理人周刊》
数据猿分享了上一篇雅捷股份CTO谢军的精彩演说后,得到了大数据圈内朋友的广泛关注与支持,今天我们接着为大家放送《数据猿巅峰思享会》第二位做报告的专家SequoiaDB巨杉数据库创始人兼CTO王涛的精彩内容。

在去年的Strata+Hadoop World大会中,巨杉数据库作为唯一的中国参展商在大会上做了展览和演讲,也接受了媒体的采访。王涛认为把自己的产品带到国外展览,对于产品的推广很有意义,至少可以引起国外主流媒体的关注。此次思享会中,王涛分享的主题是“大数据和数据库的未来趋势”。

索取王涛完整PPT&视频的正确姿势:关注数据猿官方微信(datayuancn)并在后台回复关键词“王涛”即可

开源软件的生态模式

现在大部分基础软件都已开源,很多公司的文化也都是开源文化,从整体来说,开源的做法现在也已经不单单是为了跟大家分享,而是一起促进行业技术的发展。2005年以后所有做开源软件的公司基本都获得了VC投资的,这是行业内一个比较明显的现象。

开源软件的发展可以分成两大类:

一是开源软件的商业化;

二是商业软件的开源化。

开元软件的商业化

开源技术一出生就在市场上站住了脚跟,但紧接着就会有一些人想要提供更好的服务,打造更牛的产品,进而成立公司深耕产品,这一类产品叫做开源软件商业化。

纯开源软件设计初衷和商业软件完全不一样,正常商业软件要的是平衡,尤其是广泛适用性、兼容性等方面。通常,一上来就开源的软件目的只是为了解 决某个特定情况下的棘手问题,其设计理念是千招会不如一招灵。基于开源软件的底子打造出来的商业软件,除非能把产品理念完全改变,否则思路还是会按照以前 的方向走。

比如,有些软件的做法是,在软件上封装一些功能,与社区共同成长。一方面社区可以不停的提高自己的软件,同时这些功能会随着社区版本的迭代而迭 代。其特点是与主流的兼容性很强,但自身特点相对比较薄弱。比如社区有10个功能,可以直接在上面添加到11或者12个功能,不需要完全改写。

这种软件的服务模式大多是被集成商集成到解决方案里,去满足某个需求,所以对于软件自身来说,无法主导自己的发展。

另外一些软件的做法是,基于软件拉一个分支,自己独立发展。其特点是不考虑相互兼容,与主流脱节,不管以后添加什么功能,都很难集成进去。优点是自身有特点,可能会做主流无法做的事情。

这种方式发展下去,可以主导分支,未来会向真正的商业软件迈进,目标是成为真正的软件厂商。但这种方式对于做开源软件的公司来说发展会很难:

一, 想要确保对软件永久的控制会很难;

二, 因为原来软件的品牌影响力很大,所以,大部分用户两年以后还是会认原本的软件,而不认可新的分支版本。

所以,拉分支单干的方式在开源软件商业化里是很难走的一条路。除非团队的服务能力特别强,能够完全掌握整个软件,比如,出现问题后可以快速修复完善。

商业软件开源化

这种软件本质还是一个传统的商业软件,只是以开源的模式去运营,来扩大自己的品牌影响力。其类型特点会保持传统企业的特点,比如:高品质、高度平衡、通用性较强,但不会聚焦于特定的某一方面。

这种开源情况,厂商会永远主导发展方向,也会提供比较优秀的售后服务,这跟开源软件商业化运营有本质区别。

从数据库领域来看,在未来一段时间,从开源、闭源角度来说两者其实是并存的,因为它带给客户的利益不一样。但是它不会一统市场,会有一些开源的玩家进入。

我们认为开源产品的社区加企业版会成为未来的趋势,纯粹做开源的模式是无法持久的,然而若想收取用户费用,只有为用户提供更多的价值才行。比如,企业版增加运维功能,社区版削减功能,以后基本会是这种运营模式去发展。

强调一下,单纯打包开源软件是无法成为一个厂商的。比如,有些人想做开源软件的项目,会先从网上下载源代码,再包一个界面,然后说这是自己做的 新产品。这里面有一个误区,首先被拷出来的源代码软件除非自身是雷锋式的开源,后面没有任何厂商才可以。因为但凡有厂商,就会为了盈利而去限制别的玩家进 入。

对于厂商来说,如何建设开源生态?首先,要构建社区,扩展最终用户,包括增大社区的文档、市场、驱动和解决方案。而对于产品研发方面,企业会严 格把控产品的发展方向,大家不会允许其他厂商进入。厂商会使用强强联合的模式去合作,互相弥补对方的短板,而不会独自一家从头做到尾。

数据库的发展

说起大数据,很多人会把它与数据库划等号,还有一些人把Hadoop作为大数据技术的总称。从狭义来讲,Hadoop可以分为分布式的文件系统和调度系统。文件系统是HDFS,调度系统是YARN。从广义上来讲Hadoop就是大数据的代名词。

从技术层面来说,数据湖才是描述大数据更好的方式。数据湖拥有全量的用户属性,它会把所有数据存进去,然后根据这些数据进行挖掘。

数据湖分为两部分:一部分是操作域,另一部分是分析域。除了大数据分析以外,数据湖还包括海量数据的实时查询、调用、交互式检索和影像存储。

从广义的大数据生态来说,包括可视化数据,数据集成,还有传统狭义上的Hadoop生态圈,以及分布式数据库。

分布式数据库经历了几代的发展,其中最早的Share everything是主机的DB2,它上面有几个不同的数据库实例,使用同样的数据,高速网络打通,然后移植性控制,中间是用网络来完成的。而 Share Nothing的架构相反,它的做法是把整个数据切成不同的小块,每个小块放在不同的节点,让每个节点拥有自己的数据。

传统数据库一定要基于外置存储,而新型的分布式数据库是基于PC服务器,再加上内置盘,不能使用高端存储。

新型分布式数据库有两大分支,一个分支是NoSQL,一个分支是NewSQL。两者的目标一致,都是为企业提供好的数据库管理软件,只是方式不一样,前者是从底向上的设计,后者是从顶向下的设计。

NoSQL会先把底层的存储、通讯都搭好,然后是计算。NewSQL的做法是基于已有的关系型数据库的框架去修改存储,然后满足分布式的需要。

去年底,美国做了一个研究,结论是未来NewSQL会与NoSQL合并,越来越多的NewSQL开始支持NoSQL, 而NoSQL也会向NewSQL靠拢。我们认为五年之内NoSQL和NewSQL可能会成为历史名词,大家会认为是新一代的分布式数据库,具体是 NoSQL还是NewSQL,每个厂商可能都会有自己API特性和SQL特性。

从整个大数据基础软件的发展来看,未来会殊途同归,会从传统的关系型数据产生分支,通过操作系统方式进行。其实所谓的文件系统加分布式调度就是 Hadoop,Hadoop自己不做上层建筑,核心是分布式调度和分布式操作系统,数据库在这个层面走的方向就是MPP数据库,第三个是重建分布式架构, 专注于存储引擎的建议。三者目标都是为了企业做成熟的管理软件,未来都会统一,将会变成分布式数据管理系统。

很多人问,分布式数据库的未来将会是什么样的?会不会消亡?我认为十年内不会,至少与IBM的主机一样,在很多全球500强企业里还会再用,比如说DB2,现在很多银行还再用它。关系型的数据库的Oracle不会死亡,会成为存量市场,但会逐渐萎缩。

新型数据库的NoSQL和NewSQL,两者会在接下来短短几年时间内产生较大融合,SQL和Hadoop会成为另一个分支,主要是做分析为 主,分布式数据库将会是更加通用化的场景,包括OLTP和一些分布式的事务、高性能的读取、高并发都是数据库支持的。SQL—on—Hadoop将会局限 在低并发企业内部的分析。

分布式数据库的应用场景

我们做的历史数据查询平台产品,把企业内部的冷数据、热数据、温数据拷贝出来,放在数据库管理集群里面,这套集群并不是取代现有的任何集群,而是一个旁路系统,可以把原本离线的数据在线化,满足大家的需求。很多典型的应用场景,我们都可以满足。

比如,司法机关想在银行查询用户两年前登录网银后做了什么,这些请求如果使用传统数据库,就需要到很多不同的数据库把数据抽出来,然后进行手工 关联。现在,所有的历史数据都可以在线化,相当于把新系统作为一个旁路系统,不会影响任何已有的业务系统,所有的业务系统都可以把数据移到旁路系统,在里 面做业务,从安全角度考虑,这肯定是需要的。

另外就是影像平台,以前用EMC或者IBM做存储时,扩展性、成本都会有问题,现在有了大数据分布式技术,传统的做法使用Oracle加上 EMC的存储,变更到分布式数据库存储里,就可以用高性价比的方案做长期保存,不用每段时间归档一次,可以做快速检索或简单分析。我们在几家银行都已经完 成了这种部署。

模块架构,底层都是使用分布式数据库,上面长出很多的服务,包括版本控制、动态标签、归档、数据管理等等,这些都可以使用数据库内部的一些原数据管理,外加存储机制去满足需求。

来源:数据猿
金令牌猎头
企业找猎头  职业经理人找猎头
北京猎头职位
上海猎头职位
广州猎头职位
联系我们 | 金令牌猎头 | 法律声明 | 猎头服务 | 职业经理人俱乐部 | 设为主页 | 收藏本站
职业经理人周刊  Copyright® 版权所有   微信:AirPnP   TEL:010-85885475
京ICP备05025905号-2   京公网安备110105009133号