ClickHouse是俄罗斯搜索公司Yandex开源,面向列式的高性能分布式分析RDMS,被称为大数据实时分析领域的黑马。
ClikHouse的跑分要超过很多流行的商业MPP(Massively Parallel Processor,大规模并行处理)数据库软件,例如Vertica。
实时数据分析的特点
ClickHouse最大应用
Yandex的统计分析服务Yandex.Metrica,类似于百度统计,谷歌Analytics(GA),帮助网站或移动应用进行数据分析和精细化运营工具。
Yandex.Metrica的设计理念和部署:
聚焦在快速查询。
跑分快:ClickHouse跑分是Vertica的5倍快
ClickHouse性能超过了市面上大部分的列式存储数据库,相比传统的数据ClickHouse要快100-1000X,ClickHouse还是有非常大的优势:
100Million 数据集:
ClickHouse比Vertica约快5倍,比Hive快279倍,比MySQL快801倍。
1Billion 数据集:
ClickHouse比Vertica约快5倍,MySQL和Hive已经无法完成任务了。
100M数据集的跑分结果:
ClickHouse 比Vertia快约5倍,比Hive快279倍,比My SQL快801倍。
虽然对不同的SQL查询,结果不完全一样,但是基本趋势是一致的。
ClickHouse跑分有多快?举个例子:ClickHouse 1秒,Vertica 5.42秒,Hive 279秒。
ClickHouse功能和场景
ClickHouse和一些技术的比较
1.商业OLAP数据库
例如:HP Vertica, Actian the Vector
区别:ClickHouse是开源而且免费的
2.云解决方案
例如:亚马逊RedShift和谷歌的BigQuery
区别:ClickHouse可以使用自己机器部署,无需为云付费
3.Hadoop生态软件
例如:Cloudera Impala, Spark SQL, Facebook Presto , Apache Drill
区别:
-ClickHouse支持实时的高并发系统
-ClckHouse不依赖于Hadoop生态软件和基础
-ClickHouse支持分布式机房的部署
可代替Hadoop
大数据分析 例如Hadoop 家族很多技术和框架组合,犹如一头大象被拆分后其实所剩下的价值也就是 hdfs,kafka,spark 。其他的都是没有太大价值。这些可以用ClickHouse 一项技术代替。
典型的大数据分析架构=>ClickHouse。
ClickHouse的技术能力:
ClickHouse为什么快
ClickHouse的不完美
1.不支持事务。
2.不支持Transaction,OLTP。
3.不支持Update/Delete操作。
4.不支持Blob/Document类型数据。
5.仅支持ubuntu,centos 需自己编译,其他可用Docker。