睿帆科技如何用好数据库这把利器?挖掘未来“钻石矿”
21世纪的“钻石矿”是什么?“大数据。”
近年来,大数据因其在社会生产、流通、分配、消费活动以及经济运行机制等方面发挥着重要的作用,一直被认为是“未来的新石油”。今年,国家发改委重点指出,扩大投资,新基建是重点,制定加快新型基础设施建设和发展的意见,实施全国一体化大数据中心建设重大工程,大数据战略已上升为国家战略高度,积极落实推进大数据发展政策。
被上升到国家战略的大数据,行业市场广阔。去年中国信息通信研究院在发展白皮书中提到,综合国内外环境、新兴技术发展等多种因素,测算2018年我国大数据产业增速约为15%,产值达到5405亿元。
赛迪数据也曾显示,2018年中国大数据产业规模为4384.5亿元,同比增长23.5%;到2021年,中国大数据产业规模将超过8000亿元。
市场广阔的背后,大数据被有效储存、使用的情况却不容乐观,甚至只有10%的利用率,如何唤醒大量“沉睡的”数据并从中寻找、分析有价值的信息,促进业务发展,无疑是一个巨大挑战。
机遇与挑战并存,随着5G时代的到来,各行各业各领域数据化、信息化之后产生的数据呈现井喷式增长,推动着大数据的蓬勃发展。此外,人工智能、数据中台等新技术新概念的兴起,也推送了大数据产业的转型和融合。
目前,行业头部企业数据每年以PB级甚至上百PB爆炸式增长,催生了对于PB级数据量在线或实时数据分析的处理能力的需求。如何存储,使用这些数据,成为SAAS赛道上,各个大数据服务商需要深思的问题。
极速的交互查询引擎
睿帆科技就是这些大数据服务商的其中之一,如何存储、利用大数据,从一开始睿帆科技就思考的很清晰。
睿帆科技的创始团队发现,面对庞大的数据量,很多企业早期主要通过抽样数据来获取结论。抽样之后的数据变成百万级或千万级,是原始数据的一个子集,和实际情况会有很大的偏差,导致根据样本得出的结论可靠性大大降低。
为了追求数据的准确性,有的企业不得不降低数据处理的实时性,采用离线处理的方式,但是数据的价值就在于其时效性,越早分析越能得到快速准确的反馈和响应,并及时利用结论指导后续的业务工作。
此时,一款针对海量数据进行实时即席查询分析的数据库就显得尤其关键,它甚至决定了企业是否能以比竞争对手更低的成本,更快的速度解决问题,构建起核心竞争力。
对此,睿帆自研了一款分布式分析型数据库雪球DB。
雪球DB是一款纯列式数据库,提供海量结构化数据存储和高并发查询。针对此前采用离线手段提高数据的准确性,却失去了时效性的痛点,雪球DB则提供PB级数据联机分析处理,实现高吞吐即席查询(Ad-hoc)和多维分析场景。
雪球DB对于上述痛点,各个击破。总的来说,雪球DB打破了传统架构的读写瓶颈,实现海量数据的简单查询可以在毫秒级返回查询结果。
简单来说,雪球DB的特点就是:快速、稳定、易用。满足了海量数据的实时交互式查询需求。但做到这些并不是一件容易的事情,雪球DB从研发到第一版正式推出,花了近5年的时间。到了2019年6年,睿帆科技正式推出雪球DB 1.0版本。
雪球DB通过列式存储、向量化执行方式,达到单表千亿级数据简单查询响应时间在毫秒级别,能够高效、极速,支持多并发即席查询。雪球DB可以为数据保留多个副本,并对数据的多个副本之间自动进行同步,保证数据安全。另外,还具备海量数据的实时加载以及索引、数组及嵌套等功能。
雪球DB的定位一开始并不清晰,“在最开始研发的时候,我们主要是为了解决如何快速响应交互式查询的问题,但是后来我们其实是开发出了一款通用的OLAP产品数据仓库,进而解决了交互式查询的问题。”睿帆科技CTO王雪博士回忆道。
作为一款通用的OLAP产品数据仓库,雪球DB主要有两个两个使用场景,一种是作为通用的OLAP数据库来使用,另一种就是极致快速响应交互式查询引擎。但最终,在长期的摸索中,雪球DB的产品定位越发清晰,“我们其实就想把雪球DB作为一个极速的交互查询引擎来使用。”王雪告诉猎云网。
“快”
今年10月份,睿帆科技正式推出雪球DB 2.0版本。“和第一版雪球DB相比,新版雪球DB在易用性、可拓展性上做了增强。”王雪谈到。
具体而言,“雪球DB”的特点主要在于列式存储,向量化执行引擎,去中心化的集群架构以及数据自动均衡、副本同步拷贝的能力。
列式存储,相比于行式存储将每一行的数据连续存储不同,列存是连续存储每一列的数据。
它的优势是在数据读取时,只需要读取参与计算的列,这极大降低了IO的消耗,加快了查询速度。与此同时,同一列中的数据属于同一类型,这使得列式存储可对数据进行高达十倍以上的压缩,这节省了存储空间和成本消耗,非常适合大数据查询分析。
向量化执行引擎,对内存中的数据,一个数据集调用一次指令(而非每一行调用一次),不仅减少了函数调用次数,而且可以充分发挥指令的并行能力,大幅缩短了计算耗时。相当于让数据处理的效率有了几何倍的提升。
应对节点宕机时的负载均衡优化,是睿帆开发的一项专利技术,主要是针对传统分布式系统节点宕机时可能造成剩余节点负载不均的问题。雪球DB能够根据系统整体容量自动地生成和配置副本策略,使得雪球DB能够在一个节点宕机时,保证剩余各节点负载相对均衡,避免雪崩效应。雪球DB可以在不同的节点上维护相同数据的多个副本。如果当前节点发生故障,则自动切换由其副本提供服务。
这些核心特点使得“雪球DB”在根本上解决了交互式查询在数据量大的时候效率低下的问题,满足了海量数据在线交互、多维分析和高效查询,确保数据分析结果更真实。“快。”王雪用一个字总结了雪球DB新版本的特点,“加载数据快,查询数据快,实时更新也快,和其他传统数据厂商相比,一个快字可以涵盖雪球DB所有的特点。”
“实时性、高效性、承压性”
目前,雪球DB2.0版本已经在电信、轨交、安防、大型公共工程等领域使用,针对大型公共工程场景,王雪谈到了两个具体的场景案例。
大型公共工程是一个比较典型的场景,它每天产生的数据量不大,数据通过实时消息队列接入实时流引擎进行处理,处理之后的数据进入到NoSQL数据库中供给用户进行实时交互式查询。NoSQL数据库无法支撑复杂的SQL查询,且无法对接报表制作工具,相比NoSQL数据库,雪球DB则既可以响应用户的复杂实时SQL查询,也可以实时加载和更新数据。
另外一个比较典型的场景在于安防场景,客户使用雪球DB进行碰撞多维分析。具体来说,就是从雪球DB里面执行两个查询生成两个数据集合,并对这两个数据集合进行并、交、差、补的集合运算得出结果。
在采访中,王雪博士还透露了雪球DB 3.0版本将会在明年推出。相比于雪球DB 2.0版本而言,3.0版本的雪球DB将支持OLAP和OLTP双引擎,可以满足不同的场景。
OLTP数据库可满足交易型操作,保证操作的事务性,而OLAP数据库则专门设计用于支持复杂的分析操作,可以根据分析人员要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员。
举例来说,电信场景下对交互查询实时性、高效性、复杂性的要求,OLAP引擎则更为适用。
雪球DB 3.0版本和2.0版本将是两个独立并行的产品。未来,雪球DB 3.0版本除了已经覆盖的场景外,还会拓展到金融领域。
谈及雪球DB的未来,王雪表示,雪球DB一方面会和大数据生态圈里面的其他产品做成集合,即与睿帆的另外三款产品成一套组合拳,由零距大数据中台作为“低代码”+“数据中台”的最下层依托,附加极速查询的分布式分析型数据库雪球DB与少量语料即可完成文本识别的大禹中文智慧文本平台,形成了覆盖结构化、非结构化、半结构化数据的一整套系统。这套系统所有的产品都支持PB级以上的数据处理能力,这使得产品的性能和承压性更强。
另外一个方向即将服务产品化,换句话说就是云化,“雪球DB要上云,但是上云也需要解决一些问题,这些问题我们已经在逐步的解决过程之中。”王雪谈到。
猜你喜欢
Tiger Global、凯雷投资集团领投,神策数据完成2亿美元D轮融资
明势资本、DCM、线性资本、红杉中国、华平投资、Bessemer Ventures、M31 资本、襄禾资本、五源资本、GGV 纪源资本跟投。清华x-lab创业DNA基金、启恒产业投资基金加持,寓科未来完成D+轮融资
此次D+轮融资资金将用于智能软硬件开发、大数据产业基地建设等方面。