Apache Doris 2.1.4 版本正式发布

亲爱的社区小伙伴们，Apache Doris 2.1.4 版本已于 2024 年 6 月 26 日正式发布。在 2.1.4 版本中，我们对数据湖分析场景进行了多项功能体验优化，重点修复了旧版本中异常内存占用的问题，同时提交了若干改进项以及问题修复，进一步提升了系统的性能、稳定性及易用性，欢迎大家下载使用。

官网下载页：https://doris.apache.org/download/

GitHub 下载：https://github.com/apache/doris/releases

行为变更

通过 Catalog 查询外部表（如 Hive **数据表）时，系统将忽略不存在的文件：**当从元数据缓存中获取文件列表时，由于缓存更新并非实时，因此可能在实际的文件列表已删除、而元数据缓存中仍存在该文件的情况。为了避免由于尝试访问不存在的文件而导致的查询错误，系统会忽略这些不存在的文件。
默认情况下，创建 Bitmap Index 不再默认变更为 Inverted Index。该行为由 FE 配置项 enable_create_bitmap_index_as_inverted_index 控制，默认为 false。
当使用 --console 启动 FE、BE进程时，所有日志将输出到标准输出，并通过前缀区分不同类型的日志。具体文档地址如下：
- https://doris.apache.org/zh-CN/docs/admin-manual/log-management/be-log
- https://doris.apache.org/zh-CN/docs/admin-manual/log-management/fe-log
如果建表时没有填写表注释，默认注释为空，不再使用表类型作为默认表注释。
decimalv3 的默认精度从 (9, 0) 调整为 (38,9) ，以和最初发布此功能的版本保持兼容。

新功能

查询优化器

支持 FE 火焰图工具：在 FE 部署目录${DORIS_FE_HOME}/bin中会增加profile_fe.sh脚本，可以利用 async-profiler 工具生成 FE 的火焰图，用以发现性能瓶颈点。
- 参考文档：https://doris.apache.org/zh-CN/community/developer-guide/fe-profiler/
支持 SELECT DISTINCT 与聚合函数同时使用：支持SELECT DISTINCT与聚合函数同时使用，在一个查询中同时去重和进行聚合操作，如 SUM、MIN/MAX 等。
支持无 GROUP BY 的单表查询重写：无GROUP BY的单表查询重写功能允许数据库优化器在不需要分组的情况下，根据查询的复杂性和数据表的结构，自动选择最佳的执行计划来执行查询，这可以提高查询的性能，减少不必要的资源消耗，并简化查询逻辑。
查询优化器全面支持高并发点查询功能 ：在 2.1.4 版本之后，查询优化器全面支持高并发点查询功能，所有符合点查询条件的 SQL 语句会自动走短路径查询，无需用户在客户端额外设置 set experimental_enable_nereids_planner = false。

湖仓一体

支持 Paimon 的原生读取器来处理 Deletion Vector：Deletion Vector 主要用于标记或追踪哪些数据已被删除或标记为删除，通常应用在需要保留历史数据的场景，基于本优化可以提升大量数据更新或删除时的处理效率。
- 参考文档：https://doris.apache.org/zh-CN/docs/lakehouse/datalake-analytics/paimon
支持在表值函数（TVF）中使用 Resource：TVF 功能为 Apache Doris 提供了直接将对象存储或 HDFS 上的文件作为 Table 进行查询分析的能力。通过在 TVF 中引用 Resource，可以避免重复填写连接信息，提升使用体验。
- 参考文档：https://doris.apache.org/zh-CN/docs/sql-manual/sql-functions/table-functions/hdfs/
支持通过 Ranger 插件实现数据脱敏：开启 Ranger 鉴权功能后，支持使用 Ranger 中的 Data Mask 功能进行数据脱敏。
- 参考文档：https://doris.apache.org/zh-CN/docs/admin-manual/auth/ranger/

异步物化视图

构建支持内表触发式更新，如果物化视图使用的是内表，如果内表数据发生变化，可以触发物化视图刷新，需要在创建物化视图时指定 REFRESH ON COMMIT。
支持单表透明改写。
- 参考文档：https://doris.apache.org/zh-CN/docs/query/view-materialized-view/query-async-materialized-view
透明改写支持 agg_state, agg_union 类型的聚合上卷，物化视图可以定义为 agg_state 或者 agg_union，查询使用具体的聚合函数，或者使用 agg_merge
- agg_state 参考文档：https://doris.apache.org/zh-CN/docs/sql-manual/sql-types/Data-Types/AGG_STATE#agg_state

其他

新增 replace_empty 函数：将字符串中的子字符串进行替换，当旧字符串为空时，会将新字符串插入到原有字符串的每个字符前以及最后。
- 参考文档：https://doris.apache.org/zh-CN/docs/sql-manual/sql-functions/string-functions/replace_empty
支持 show storage policy using 语句：支持查看所有或指定存储策略关联的表和分区。
- 参考文档：https://doris.apache.org/zh-CN/docs/sql-manual/sql-statements/Show-Statements/SHOW-STORAGE-POLICY-USING
支持 BE 侧的 JVM 指标： 通过在be.conf配置文件中设置enable_jvm_monitor=true，可以启用对 BE 节点 JVM 的监控和指标收集，有助于了解 BE JVM 的资源使用情况，以便进行故障排除和性能优化。

功能优化

支持为中文列名创建倒排索引。
优化 Segment Cache 所消耗内存的估算准确度，以便能够更快地释放未使用的内存。
在使用 Export 功能导出数据时，提前过滤空分区以提升导出效率。
优化 Routine Load 任务分配算法以平衡 BE 节点之间的负载压力。
在设置错误的会话变量名时，自动识别近似变量值并给出更详细的错误提示。
支持将 Java UDF Jar 文件放到 FE 的 custom_lib 目录中并默认加载。
为审计日志导入作业添加超时的全局变量audit_plugin_load_timeout ，以控制在加载审计插件或处理审计日志时允许的最大执行时间。
优化了异步物化视图透明改写规划的性能。
当 INSERT 源数据为空时，BE 将不会执行任何操作。
支持分批获取 Hudi 和 Hive 文件列表，当存在大量数据文件时可以提升数据扫描性能。
- 120 万文件场景下，获取文件列表的时间由390秒缩减到46秒。
创建异步物化视图时，禁止使用动态分区。
支持检测 Hive 外表分区数据是否和异步物化视图同步。
允许异步物化视图创建索引。