Oushu Database简介

基本介绍

Oushu Database是基于Apache HAWQ的新一代数据仓库(New Data Warehouse),采用了MPP和Hadoop结合的创新技术架构,高可扩展,遵循ANSI-SQL标准,具有极速执行器,提供PB级数据交互式查询能力。并且提供对主要BI工具的描述性分析支持和高级机器学习功能。 兼容Oracle,GPDB和PostgreSQL,可以轻松取代传统MPP数据仓库和其他SQL-on-Hadoop引擎。并且原生支持Kubernetes容器平台,帮助企业无缝迁移到最新的云计算平台。HAWQ已在金融、电信、制造、医疗和互联网等行业得到广泛的部署和应用。

Oushu Database对Apache HAWQ的增强

  • 全新执行引擎,充分利用硬件的所有特性,比Apache HAWQ性能高出5-10倍

  • C++可插拔外部存储

    • 替换JAVA PXF,性能高数倍,无需安装部署PXF额外组件,极大简化了用户安装部署和运维
    • 原生支持CSV/TEXT外部存储
    • 可以用于不同集群之间共享数据,比如数据仓库和集市之间共享及传输数据
    • 可以用于高速数据加载和数据导出
    • 可以实现高速备份和恢复
    • 可以实现可插拔文件系统:比如S3, Ceph等
    • 可以实现可插拔文件格式:比如ORC,Parquet等
  • 支持ORC/TEXT/CSV作为内部表格式,支持ORC作为外部表格式 (通过C++可插拔外部存储)

  • 对PaaS/CaaS云平台的原生支持

    • 世界上首个可以原生运行与PaaS容器平台中的MPP++分析型数据库
    • 支持Kubernetes集群容器编排与部署
  • csv和text文件格式中对非ASCII字符串或长度大于1的字符串作为分隔符的支持

  • 关键Bug fixes

主要功能

  • 极速执行器: 世界上最快的执行器,比传统数仓/MPP快5-10倍,比Hadoop SQL引擎要快5-30倍。
  • 公有云和私有云部署:支持亚马逊和阿里云等公有云平台,同时可以支持主流PaaS云平台(比如Kubernetes等)和Docker部署。
  • 对标准的完善支持:ANSI SQL标准,OLAP扩展,标准JDBC/ODBC,比其他Hadoop SQL引擎都要完善。
  • 具有非常成熟的并行优化器。优化器是并行SQL引擎的重要组成部分,对性能影响很大,尤其是对复杂查询。
  • 支持ACID事务特性:这是很多现有基于Hadoop的SQL引擎做不到的,对保证数据一致性很重要。可以有效减少开发及运维人员的负担。
  • 动态数据流引擎:基于UDP的高速互联网络。
  • 弹性调度执行:可以根据查询大小来决定执行查询使用的节点及Segment个数。
  • 支持多种分区方法及多级分区:支持List分区和Range分区。分区表对性能有很大提升作用,如果用户只想访问最近一个月的热数据,查询只需要扫描最近一个月数据所在分区。
  • 支持多种压缩方法:snappy,gzip,zlib, zstd, lz4, RLE等。
  • 多种存储过程语言支持:python, c/c++, perl等。
  • 动态扩容:动态按需扩容,按照存储大小或者计算需求,秒级添加节点。
  • 多级资源和负载管理:和外部资源管理器YARN集成;可以管理CPU,Memory资源等;支持多级资源队列;具有方便的DDL管理接口。
  • 支持访问任何HDFS及其他系统的数据:各种HDFS格式(文本,ORC等等)以及其他外部系统(Hive等),并且用户自己可以开发插件来访问新的数据源。
  • 原生的机器学习数据挖掘库MADLib支持:易于使用及高性能。
  • 与Hadoop系统无缝集成:存储、资源、安装部署、数据格式和访问等。
  • 完善的安全及权限管理:kerberos;数据库,表等各个级别的授权管理。
  • 支持多种第三方工具:比如Tableau,SAS,较新的Apache Zeppelin等。