Apache Doris 2.1.4 版本正式发布

亲爱的社区小伙伴们,Apache Doris 2.1.4 版本已于 2024 年 6 月 26 日正式发布。在 2.1.4 版本中,我们对数据湖分析场景进行了多项功能体验优化,重点修复了旧版本中异常内存占用的问题,同时提交了若干改进项以及问题修复,进一步提升了系统的性能、稳定性及易用性,欢迎大家下载使用。

官网下载页:https://doris.apache.org/download/

GitHub 下载:https://github.com/apache/doris/releases

行为变更

  • 通过 Catalog 查询外部表(如 Hive **数据表)时,系统将忽略不存在的文件:**当从元数据缓存中获取文件列表时,由于缓存更新并非实时,因此可能在实际的文件列表已删除、而元数据缓存中仍存在该文件的情况。为了避免由于尝试访问不存在的文件而导致的查询错误,系统会忽略这些不存在的文件。
  • 默认情况下,创建 Bitmap Index 不再默认变更为 Inverted Index。该行为由 FE 配置项 enable_create_bitmap_index_as_inverted_index 控制,默认为 false。
  • 当使用 --console 启动 FE、BE进程时,所有日志将输出到标准输出,并通过前缀区分不同类型的日志。具体文档地址如下:
    • https://doris.apache.org/zh-CN/docs/admin-manual/log-management/be-log
    • https://doris.apache.org/zh-CN/docs/admin-manual/log-management/fe-log
  • 如果建表时没有填写表注释,默认注释为空,不再使用表类型作为默认表注释。
  • decimalv3 的默认精度从 (9, 0) 调整为 (38,9) ,以和最初发布此功能的版本保持兼容。

新功能

查询优化器

  • 支持 FE 火焰图工具:在 FE 部署目录${DORIS_FE_HOME}/bin中会增加profile_fe.sh脚本,可以利用 async-profiler 工具生成 FE 的火焰图,用以发现性能瓶颈点。
    • 参考文档:https://doris.apache.org/zh-CN/community/developer-guide/fe-profiler/
  • 支持 SELECT DISTINCT 与聚合函数同时使用:支持SELECT DISTINCT与聚合函数同时使用,在一个查询中同时去重和进行聚合操作,如 SUM、MIN/MAX 等。
  • 支持无 GROUP BY 的单表查询重写:无GROUP BY的单表查询重写功能允许数据库优化器在不需要分组的情况下,根据查询的复杂性和数据表的结构,自动选择最佳的执行计划来执行查询,这可以提高查询的性能,减少不必要的资源消耗,并简化查询逻辑。
  • 查询优化器全面支持高并发点查询功能 :在 2.1.4 版本之后,查询优化器全面支持高并发点查询功能,所有符合点查询条件的 SQL 语句会自动走短路径查询,无需用户在客户端额外设置 set experimental_enable_nereids_planner = false

湖仓一体

  • 支持 Paimon 的原生读取器来处理 Deletion Vector:Deletion Vector 主要用于标记或追踪哪些数据已被删除或标记为删除,通常应用在需要保留历史数据的场景,基于本优化可以提升大量数据更新或删除时的处理效率。
    • 参考文档:https://doris.apache.org/zh-CN/docs/lakehouse/datalake-analytics/paimon
  • 支持在表值函数(TVF)中使用 Resource:TVF 功能为 Apache Doris 提供了直接将对象存储或 HDFS 上的文件作为 Table 进行查询分析的能力。通过在 TVF 中引用 Resource,可以避免重复填写连接信息,提升使用体验。
    • 参考文档:https://doris.apache.org/zh-CN/docs/sql-manual/sql-functions/table-functions/hdfs/
  • 支持通过 Ranger 插件实现数据脱敏:开启 Ranger 鉴权功能后,支持使用 Ranger 中的 Data Mask 功能进行数据脱敏。
    • 参考文档:https://doris.apache.org/zh-CN/docs/admin-manual/auth/ranger/

异步物化视图

  • 构建支持内表触发式更新,如果物化视图使用的是内表,如果内表数据发生变化,可以触发物化视图刷新,需要在创建物化视图时指定 REFRESH ON COMMIT
  • 支持单表透明改写。
    • 参考文档:https://doris.apache.org/zh-CN/docs/query/view-materialized-view/query-async-materialized-view
  • 透明改写支持 agg_state, agg_union 类型的聚合上卷,物化视图可以定义为 agg_state 或者 agg_union,查询使用具体的聚合函数,或者使用 agg_merge
    • agg_state 参考文档:https://doris.apache.org/zh-CN/docs/sql-manual/sql-types/Data-Types/AGG_STATE#agg_state

其他

  • 新增 replace_empty 函数:将字符串中的子字符串进行替换,当旧字符串为空时,会将新字符串插入到原有字符串的每个字符前以及最后。
    • 参考文档:https://doris.apache.org/zh-CN/docs/sql-manual/sql-functions/string-functions/replace_empty
  • 支持 show storage policy using 语句:支持查看所有或指定存储策略关联的表和分区。
    • 参考文档:https://doris.apache.org/zh-CN/docs/sql-manual/sql-statements/Show-Statements/SHOW-STORAGE-POLICY-USING
  • 支持 BE 侧的 JVM 指标: 通过在be.conf配置文件中设置enable_jvm_monitor=true,可以启用对 BE 节点 JVM 的监控和指标收集,有助于了解 BE JVM 的资源使用情况,以便进行故障排除和性能优化。

功能优化

  • 支持为中文列名创建倒排索引。
  • 优化 Segment Cache 所消耗内存的估算准确度,以便能够更快地释放未使用的内存。
  • 在使用 Export 功能导出数据时,提前过滤空分区以提升导出效率。
  • 优化 Routine Load 任务分配算法以平衡 BE 节点之间的负载压力。
  • 在设置错误的会话变量名时,自动识别近似变量值并给出更详细的错误提示。
  • 支持将 Java UDF Jar 文件放到 FE 的 custom_lib 目录中并默认加载。
  • 为审计日志导入作业添加超时的全局变量audit_plugin_load_timeout ,以控制在加载审计插件或处理审计日志时允许的最大执行时间。
  • 优化了异步物化视图透明改写规划的性能。
  • INSERT 源数据为空时,BE 将不会执行任何操作。
  • 支持分批获取 Hudi 和 Hive 文件列表,当存在大量数据文件时可以提升数据扫描性能。
    • 120 万文件场景下,获取文件列表的时间由390秒缩减到46秒。
  • 创建异步物化视图时,禁止使用动态分区。
  • 支持检测 Hive 外表分区数据是否和异步物化视图同步。
  • 允许异步物化视图创建索引。

问题修复

查询优化器

  • 修复 SQL Cache 在 truncate paritition 后依然返回旧结果的问题。
  • 修复从 JSON Cast 到其他类型 Nullable 属性不对的问题。
  • 修复偶现的 Datetimev2 Literal 化简错误。
  • 修复窗口函数中不能使用 count(*) 的问题。
  • 修复 UNION ALL 下全部是无 FROM 的 SELECT 时,Nullable 属性可能错误的问题。
  • 修复 Bitmap in Join 和子查询解嵌套无法同时使用的问题。
  • 修复在特定情况下过滤条件不能下推到 CTE Producer 导致的性能问题。
  • 修复聚合 Combinator 为大写时,无法找到函数的问题。
  • 修复窗口函数没有被列裁剪正确裁剪导致的性能问题。
  • 修复多个同名不同库的表同时出现在查询中时,可能解析错误导致结果错误的问题。
  • 修复对于 Schema 表扫描时,由于生成了 Runtime Filter 导致查询报错的问题。
  • 修复关联子查询解嵌套,关联条件被折叠为 Null Literal 导致无法执行的问题。
  • 修复规划时,偶现的 Decimal Literal 被错误设置精度的问题。
  • 修复偶现的多层聚合被合并后规划错误的问题。
  • 修复偶现的聚合扩展规划报错输入输出不匹配的问题。
  • 修复偶现的 <=> 被错误转换为 = 的问题。

查询执行

  • 修复 Pipeline 引擎上达到限定的行数且内存没有释放时查询被挂起的问题。
  • 修复当设置 enable_decimal256 =true 且查询优化器回退到旧版本时 BE 发生 Core 的问题。

物化视图

  • 修复构建异步物化视图指定 store_row_column 属性,be core 的问题。
  • 修复构建异步物化视图指定 storage_medium 不生效的问题。
  • 修复基表删除后,异步物化视图 show partitions 报错的问题。
  • 修复异步物化视图引起备份恢复异常的问题。
  • 修复分区改写可能导致错误结果的问题。

半结构化数据分析

  • 修复带有空 Key 的 Variant 类型发生 Core 的问题。
  • Bitmap 索引和 Bloom Filter 索引不应支持轻量级索引变更。

主键模型

  • 修复在有部分列更新导入的情况下发生异常重启,可能会产生重复 Key 的问题。
  • 修复在内存紧张时发生 Clone 时 BE 可能会发生 core 的问题。

湖仓一体

  • 修复创建 Hive 表时无法使用完全限定名(如 ctl.db.tbl)的问题。
  • 修复 Refresh 操作时 Hive Metastore 连接未关闭的问题。
  • 修复从 2.0.x 升级到 2.1.x 时可能的元数据回放问题。
  • 修复 TVF 表函数无法读取空 Snappy 压缩文件的问题。
  • 修复无法读取具有无效最小/最大列统计信息的 Parquet 文件的问题。
  • 修复 Parquet/ORC Reader 中无法处理带有 null-aware 函数下推谓词的问题。
  • 修复创建 Hive 表时分区列顺序的问题。
  • 修复当分区值包含空格时无法将 Hive 表写入 S3 的问题。
  • 修复 Doris 写入 Parquet 格式 Hive 表无法被 Hive 读取的问题。
  • 修复 Hive 表 Schema 变更后无法读取 ORC 文件的问题。
  • 修复了部分情况下,启用 Hive Metastore Listener 后 FE 无法启动的问题。
  • 修复由 Hadoop FS 缓存引起的 FE OOM 问题。
  • 修复写出 Parquet 格式文件写出 Row Group 过小的问题。
  • 修复 Paimon 表 Schema 变更后无法通过 JNI 读取 Paimon 表的问题。
  • 修复 Paimon 表 Schema 变更后由于表字段长度判断错误导致无法读取的问题。
  • 修复了读取 Iceberg 中的时间戳列类型时的时区问题。
  • 修复了 Iceberg 表上的日期时间转换错误和数据路径错误的问题。
  • 修复阿里云 OSS Endpoint 不正确的问题。
  • 修复了大量文件导致的查询性能下降问题。
  • 允许用户定义的属性通过表函数传递给 S3 SDK。

数据导入

  • 修复 CANCEL LOAD 命令不生效的问题。
  • 修复导入事务 Publish 阶段空指针错误导致导入事务无法完成的问题。
  • 修复 bRPC 通过 HTTP 发送大数据文件序列化的问题。

数据管控

  • 修复了在将 DDL 或 DML 转发到主 FE 后,ConnectionContext 中的资源标签未设置的问题。
  • 修复了在启用 lower_case_table_names 时,Restore 表名不正确的问题。
  • 修复了清理无用数据或文件的管理命令不生效的问题。
  • 修复了无法从分区中删除存储策略的问题。
  • 修复了向多副本自动分区表导入数据时的数据丢失问题。
  • 修复了使用旧优化器查询或插入自动分区表时,表的分区列发生变化的问题。

内存管理

  • 修复日志中频繁报错 Cgroup meminfo 获取失败的问题
  • 修复使用 Bloom filter 时 Segment 缓存大小不受控制导致进程内存异常增长的问题。

权限

  • 修复开启表名大小写不敏感后,权限设置无效的问题。
  • 修复通过非Master FE 节点设置 LDAP 密码不生效的问题。
  • 修复了无法检查 SELECT COUNT(*) 语句授权的问题。

其他

  • 修复 MySQL 连接损坏情况下,客户端 JDBC 程序无法关闭连接的问题。
  • 修改 SHOW PROCEDURE STATUS 语句返回值与 MySQL 协议不兼容的问题。
  • libevent 库强制开启 Keepalive 以解决部分情况下连接泄露的问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/746470.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

观测云 VS 开源自建

观测云是一款面向全技术栈的监控观测一体化产品方案&#xff0c;具备强大而丰富的功能&#xff0c;目标是帮助最终用户提升监控观测的能力&#xff0c;化繁为简&#xff0c;轻松的构建起完整的监控观测体系。同时能够帮助整个企业的开发技术团队从统一的观测能力上获得完整的收…

ONLYOFFICE 文档开发者版 8.1:API 更新

随着版本 8.1 新功能的发布&#xff0c;我们更新了编辑器、文档生成器和插件的 API&#xff0c;并添加了 Office API 板块。阅读下文了解详情。 ​ ONLYOFFICE 文档是什么 ONLYOFFICE 文档是一个功能强大的文档编辑器&#xff0c;支持处理文本文档、电子表格、演示文稿、可填写…

探索ChatGPT在程序员日常工作的多种应用

引言 在现代科技迅猛发展的今天&#xff0c;人工智能的应用已经深入到我们生活和工作的各个方面。作为程序员&#xff0c;我们时常面临大量繁杂的任务&#xff0c;从代码编写、错误调试到项目管理和团队协作&#xff0c;每一项都需要花费大量的时间和精力。近年来&#xff0c;…

算法与数据结构——时间复杂度详解与示例(C#,C++)

文章目录 1. 算法与数据结构概述2. 时间复杂度基本概念3. 时间复杂度分析方法4. 不同数据结构的时间复杂度示例5. 如何通过算法优化来提高时间复杂度6. C#中的时间复杂度示例7. 总结 算法与数据结构是计算机科学的核心&#xff0c;它们共同决定了程序的性能和效率。在实际开发中…

大模型产品的“命名经济学”:名字越简单,产品越火爆?

文 | 智能相对论 作者 | 陈泊丞 古人云&#xff1a;赐子千金&#xff0c;不如教子一艺&#xff1b;教子一艺&#xff0c;不如赐子一名。 命名之妙&#xff0c;玄之又玄。 早两年&#xff0c;大模型爆火&#xff0c;本土厂商在大模型产品命名上可谓下足了功夫&#xff0c;引…

C#+uni-app医院HIS预约挂号系统源码 看病挂号快人一步

​​​​​​​ 提到去大型医院机构就诊时&#xff0c;许多人都感到恐惧。有些人一旦走进医院的门诊大厅&#xff0c;就感到迷茫&#xff0c;既无法理解导医台医生的建议&#xff0c;也找不到应该去哪个科室进行检查。实际上&#xff0c;就医也是一门学问&#xff0c;如何优化…

【CS.DS】数据结构 —— 图:深入了解三种表示方法之邻接表(Adjacency List)

文章目录 1 概念2 无向图的邻接表2.1 示例2.2 Mermaid 图示例2.3 C实现2.3.1 简单实现2.3.2 优化封装 2.4 总结 3 有向图的邻接表3.1 示例3.2 C实现3.3 总结 4 邻接图的遍历5 拓展补充References 数据结构 1 概念 优点&#xff1a;空间效率高&#xff0c;适合稀疏图。动态性强…

Win10,Win11电脑重装系统怎么操作,简单一步搞定【保姆级教程】

电脑重装系统怎么操作&#xff1f;电脑使用时间长了&#xff0c;就会出现系统崩溃、病毒感染或者是系统文件损坏等问题。这个时候我们就可以对电脑进行系统重装&#xff0c;也就是恢复电脑出厂设置。现在市面上有很多系统重装工具可以帮助我们解决难题&#xff0c;如果您是电脑…

自定义 Django 管理界面中的多对多内联模型

1. 问题背景 在 Django 管理界面中&#xff0c;用户可以使用内联模型来管理一对多的关系。但是&#xff0c;当一对多关系是多对多时&#xff0c;Django 提供的默认内联模型可能并不适合。例如&#xff0c;如果存在一个产品模型和一个发票模型&#xff0c;并且产品和发票之间是…

Java文件操作小项目-带GUI界面统计文件夹内文件类型及大小

引言 在Java编程中&#xff0c;文件操作是一项基本且常见的任务。我们经常需要处理文件和文件夹&#xff0c;例如读取、写入、删除文件&#xff0c;或者遍历文件夹中的文件等。本文将介绍如何使用Java的File类和相关API来统计一个文件夹中不同类型文件的数量和大小。 准备工作…

数据分析python基础实战分析

数据分析python基础实战分析 安装python&#xff0c;建议安装Anaconda 【Anaconda下载链接】https://repo.anaconda.com/archive/ 记得勾选上这个框框 安装完后&#xff0c;然后把这两个框框给取消掉再点完成 在电脑搜索框输入"Jupyter"&#xff0c;牛马启动&am…

Vitis Accelerated Libraries 学习笔记--OpenCV 安装指南

目录 1. 简介 2. 安装过程 2.1 安装准备 2.2 编译并安装 XRT 2.2.1 下载 XRT 源码 2.2.2 安装依赖项 2.2.3 构建 XRT 2.2.4 打包 DEB 2.2.5 安装 XRT 2.3 编译并安装 OpenCV 2.3.1 下载 OpenCV 源码 2.3.2 创建目录 2.3.3 设置环境变量 2.3.4 构建 opencv 3. 总…

【STM32】看门狗

1.看门狗简介 看门狗起始就是一个定时器&#xff0c;从功能上说它可以让微控制器在程序发生意外&#xff08;程序进入死循环或跑飞&#xff09;的时候&#xff0c;能重新恢复到系统刚上电状态&#xff0c;以保障系统出问题的时候可以重启一次。说的简单一点&#xff0c;看门狗…

加速业务布局,30年老将加盟ATFX,掌舵运营新篇章

全球领先的差价合约经纪商ATFX日前宣布了一项重大人事任命&#xff0c;聘请业界资深人士约翰博格(John Bogue)为机构业务运营总监。约翰博格是一名行业老将&#xff0c;曾在差价合约界深耕三十余载。伴随其加入ATFX&#xff0c;相信他的深厚专业知识和从业经验将为ATFX机构业务…

HarmonyOS NEXT Developer Beta1配套相关说明

一、版本概述 2024华为开发者大会&#xff0c;HarmonyOS NEXT终于在万千开发者的期待下从幕后走向台前。 HarmonyOS NEXT采用全新升级的系统架构&#xff0c;贯穿HarmonyOS全场景体验的底层优化&#xff0c;系统更流畅&#xff0c;隐私安全能力更强大&#xff0c;将给您带来更高…

数据集的未来:如何利用亮数据浏览器提升数据采集效率

目录 一、跨境电商的瓶颈1、技术门槛2、语言与文化差异3、网络稳定性4、验证码处理和自动识别5、数据安全6、法规和合规 二、跨境电商现在是一个合适的商机吗&#xff1f;三、数据集与亮数据浏览器1、市场分析2、价格监控3、产品开发4、供应链优化5、客户分析 四、亮数据浏览器…

Jenkins流水线发布,一篇就解决你的所有疑惑

这次搭建的项目比较常规,前端是react写的,后端是springboot,并且由于是全栈开发,所以是在同一个项目中。接下来我演示下怎么用jenkins进行自动化发布。 1.jenkins必装插件 这里用到的是jenkinsFile主要是基于Groovy这个沙盒,有些前置插件。这里使用maven进行打包,所以需…

如何提高项目风险的处理效率?5个重点

提高项目风险的处理效率&#xff0c;有助于迅速识别和应对风险&#xff0c;减少风险导致的延误&#xff0c;降低成本&#xff0c;提升项目质量&#xff0c;确保项目按时交付。如果项目风险处理效率较低&#xff0c;未能及时发现和处理风险&#xff0c;导致问题累积&#xff0c;…

浏览器扩展V3开发系列之 chrome.runtime 的用法和案例

【作者主页】&#xff1a;小鱼神1024 【擅长领域】&#xff1a;JS逆向、小程序逆向、AST还原、验证码突防、Python开发、浏览器插件开发、React前端开发、NestJS后端开发等等 chrome.runtime API 提供了一系列的方法和事件&#xff0c;可以通过它来管理和维护 Chrome 扩展的生命…

揭示优化Prompt的秘诀:如何让API表现媲美网页版

为什么用GPT API&#xff08;GPT-3.5-turbo&#xff09;进行程序分析时&#xff0c;效果好像比网页版的GPT-3.5差一点&#xff1f;这可能有几个原因&#xff0c;咱们细说一下。 1. Prompt不同 这是最常见的问题之一。API调用时的指令&#xff08;prompt&#xff09;往往比较简…