ClickHouse

  ClickHouse是俄罗斯搜索公司Yandex开源,面向列式的高性能分布式分析RDMS,被称为大数据实时分析领域的黑马。

  ClikHouse的跑分要超过很多流行的商业MPP(Massively Parallel Processor,大规模并行处理)数据库软件,例如Vertica。

实时数据分析的特点

avatar

ClickHouse最大应用

  Yandex的统计分析服务Yandex.Metrica,类似于百度统计,谷歌Analytics(GA),帮助网站或移动应用进行数据分析和精细化运营工具。
Yandex.Metrica的设计理念和部署:
avatar

聚焦在快速查询。

跑分快:ClickHouse跑分是Vertica的5倍快

  ClickHouse性能超过了市面上大部分的列式存储数据库,相比传统的数据ClickHouse要快100-1000X,ClickHouse还是有非常大的优势:
100Million 数据集:
  ClickHouse比Vertica约快5倍,比Hive快279倍,比MySQL快801倍。
1Billion 数据集:
  ClickHouse比Vertica约快5倍,MySQL和Hive已经无法完成任务了。
100M数据集的跑分结果:
  ClickHouse 比Vertia快约5倍,比Hive快279倍,比My SQL快801倍。
  虽然对不同的SQL查询,结果不完全一样,但是基本趋势是一致的。
  ClickHouse跑分有多快?举个例子:ClickHouse 1秒,Vertica 5.42秒,Hive 279秒。
avatar

ClickHouse功能和场景

avatar

ClickHouse和一些技术的比较

1.商业OLAP数据库

例如:HP Vertica, Actian the Vector
区别:ClickHouse是开源而且免费的

2.云解决方案

例如:亚马逊RedShift和谷歌的BigQuery
区别:ClickHouse可以使用自己机器部署,无需为云付费

3.Hadoop生态软件

例如:Cloudera Impala, Spark SQL, Facebook Presto , Apache Drill
区别:
-ClickHouse支持实时的高并发系统
-ClckHouse不依赖于Hadoop生态软件和基础
-ClickHouse支持分布式机房的部署

可代替Hadoop

  大数据分析 例如Hadoop 家族很多技术和框架组合,犹如一头大象被拆分后其实所剩下的价值也就是 hdfs,kafka,spark 。其他的都是没有太大价值。这些可以用ClickHouse 一项技术代替。
典型的大数据分析架构=>ClickHouse。
avatar

ClickHouse的技术能力:

avatar

ClickHouse为什么快

avatar

ClickHouse的不完美

1.不支持事务。
2.不支持Transaction,OLTP。
3.不支持Update/Delete操作。
4.不支持Blob/Document类型数据。
5.仅支持ubuntu,centos 需自己编译,其他可用Docker。