为了更好地找到平衡点,搜索数据团队采取了以下解决措施:
明确边界:分主题建设对应数据集,单主题内 数据集尽量做到合并统一,以达到更高的集成度与一致性。
明确粒度:从业务场景需求出发,单主题内数据集建设前明确数据集最小粒度 ,确保数据最小粒度既能满足主题分析的精度要求,又避免因过度细化或粗放导致的分析效能损耗,为后续数据集的结构化构建与高效奠定基础。
深度性能优化:充分利用了 TDE-ClickHouse 强大基础引擎,例如在处理高基数去重计数字段时 创新性地采用 NoMerge 技术来替代传统的 COUNT (DISTINCT) 方法,降低了聚合层的计算负担,实现了查询性能 5 至 10 倍的提升,极大地优化了数据处理速度。
3.3 新模式带来的改变
△ 图灵 3.0 的数据开发新模式
强化主动能力,业务自助效率显著提升:相较于以往被动式的一对一需求定制化开发模式,数据研发工作已从单纯响应被动需求转变为主动规划构建数据集。图灵 3.0 新开发模式下,实现数据集 <-> 可视化分析 <-> 仪表盘的数据分析闭环(满足 90% 查询;其余 10% 长尾交给 Adhoc 查询),业务人员对日常通用需求的分析工作转移到数据集自助查询与分析上(根据数据集自助创建可视化数据报表)。可视化分析占比、业务自助率提高至 90%,数据研发日常需求量减少 80%。
非核心常用维度指标查询性能显著提升:非核心常用维度指标由以往业务提需 查表或单独建设报表来获取数据的方式 转变为通过数据集自助下钻、拖拉拽自由组合常用维度指标,实现可视化分析的方式。借助 TDE-ClickHouse 强大基础引擎能力:可视化分析效率大幅提升,从小时、分钟级的数据分析效率 提升至秒级分析。单次查询数据周期由 1 周内 提升至 1 年内(秒级完成查询),真正做到即需即查即用。
血缘管理规范化,运维效率显著提升:数据血缘更加完整流程化,数仓 - 数据集 血缘在 TDS 完成闭环,数据集内字段血缘在 TDA 完成闭环,以数据集为纽带串联整个数据流全过程,数据链路运维效率提升 2-3 倍。
目前,该模式已经广泛应用于搜索各业务数据运营人员早报、周报等多种业务汇报场景。得益于该模式,搜索产品线下仪表盘周均查询(PV)高达 1.7W 次左右,可视化分析周均 0.93W 次左右 ,每周超过 400 多名用户参与 TDA 搜索数据分析工作。更重要的是,需求的交付周期实现了显著缩短,由以往的单 / 双周缩短至按天交付;甚至在某些情况下,业务人员能够直接自助获取所需数据。在处理重点项目时,该模式也能确保业务团队在第一时间获取到 P0 级别的关键数据。这种方式的转变不仅能够减轻数据开发团队的工作负担 —— 人力成本由原先的 3 人锐减至 1 人,还能提高业务侧的数据使用效率和自主性,使得团队得以从繁琐的 “取数” 与 “跑数” 任务中解放出来,将更多的精力投入到数仓模型的优化、技术框架的探索与治理等更具战略价值的工作中去。
七星配资平台-北京股票配资公司-网络股票配资平台-东莞股票配资平台官网提示:文章来自网络,不代表本站观点。