博客
关于我
MergeTree原理解析(五)
阅读量:389 次
发布时间:2019-03-05

本文共 1396 字,大约阅读时间需要 4 分钟。

ClickHouse技术解析:MergeTree引擎深入理解

引言

ClickHouse的核心设计理念围绕MergeTree引擎展开,作为其基础,理解MergeTree的工作原理至关重要。本文将从分区、索引、标记文件、数据块等方面深入探讨MergeTree的实现细节,揭示其高效查询背后的秘密。


MergeTree创建与存储

创建

MergeTree表的创建语法简洁,主要参数包括:

  • 分区键:决定数据如何划分,支持单列或多列分区键。
  • 排序规则:决定数据块内部的排序顺序,默认与主键一致。
  • 索引粒度:决定索引间隔,默认为8192行。

示例:

CREATE TABLE [IF NOT EXISTS] [db_name.]table_name (    name1 [type] [DEFAULT|MATERIALIZED|ALIAS expr],    name2 [type] [DEFAULT|MATERIALIZED|ALIAS expr],    ...) ENGINE = MergeTree()    [PARTITION BY expr]    [ORDER BY expr]    [PRIMARY KEY expr]    [SAMPLE BY expr]    [SETTINGS name=value, ...]

存储

MergeTree采用按列存储压缩算法

  • 列存储:每列独立存储,支持LZ4、ZSTD等压缩算法。
  • 排序:数据按ORDER BY规则预先排序。
  • 数据块:按大小或规则划分数据块,优化存储和查询效率。

数据分区

分区规则

分区ID生成规则包括:

  • 不指定分区键:默认分区ID为all
  • 整型分区:直接使用整型字符表示。
  • 日期分区:转换为YYYYMMDD格式。
  • 其他类型:使用128位Hash值。
  • 分区名称

    分区名称格式为:

    PartitionID_MinBlockNum_MaxBlockNum_Level

    其中:

    • PartitionID:分区ID。
    • MinBlockNum:最小数据块编号。
    • MaxBlockNum:最大数据块编号。
    • Level:合并次数。

    分区合并

    分区合并基于以下规则:

  • 新数据写入时,系统会自动创建新的分区目录。
  • 相同分区目录会按规则合并。
  • 合并时会生成新的partition.datminmax索引文件。

  • 一级索引

    稀疏索引优势

    稀疏索引优势体现在:

  • 索引标记占用少量空间。
  • 索引数据常驻内存,查询速度快。
  • 仅需12208行索引标记支持1亿行数据。
  • 索引粒度

    index_granularity定义索引粒度,影响数据标记和索引文件。每8192行生成一次索引标记。

    索引生成规则

    索引文件primary.idx内容规则:

    • 每8192行记录一次索引值。
    • 支持多列索引,例如ORDER BY(CounterID, EventDate)

    二级索引

    二级索引类型

    MergeTree支持四种二级索引:

  • minmax:基于最小和最大值。
  • set:基于集合元素。
  • ngrambf_v1:基于多字段聚合。
  • tokenbf_v1:基于子字符串匹配。
  • 二级索引创建

    二级索引语法:

    INDEX index_name expr TYPE index_type(...)GRANULARITY granularity

    创建时会生成相应的索引和标记文件。

    转载地址:http://mqzzz.baihongyu.com/

    你可能感兴趣的文章
    NetworkX系列教程(11)-graph和其他数据格式转换
    查看>>
    Networkx读取军械调查-ITN综合传输网络?/读取GML文件
    查看>>
    network小学习
    查看>>
    Netwox网络工具使用详解
    查看>>
    Net与Flex入门
    查看>>
    net包之IPConn
    查看>>
    Net操作配置文件(Web.config|App.config)通用类
    查看>>
    Neutron系列 : Neutron OVS OpenFlow 流表 和 L2 Population(7)
    查看>>
    New Relic——手机应用app开发达人的福利立即就到啦!
    查看>>
    NFinal学习笔记 02—NFinalBuild
    查看>>
    NFS
    查看>>
    NFS Server及Client配置与挂载详解
    查看>>
    NFS共享文件系统搭建
    查看>>
    nfs复习
    查看>>
    NFS安装配置
    查看>>
    NFS的安装以及windows/linux挂载linux网络文件系统NFS
    查看>>
    NFS的常用挂载参数
    查看>>
    NFS网络文件系统
    查看>>
    nft文件传输_利用remoting实现文件传输-.NET教程,远程及网络应用
    查看>>
    NFV商用可行新华三vBRAS方案实践验证
    查看>>