身处光伏行业之中,数据规模正凭借指数级的速度急剧膨胀。一旦每日数据量从百万级跳跃至千万级,传统文档型数据库的存储成本以及查询性能会快速变成阻碍业务增长的“拦路虎”。天合富家的实践所呈现显示,借助引入专业的时序数据库,不但能够使得存储成本减半,愈发能够达成毫秒级的查询响应,为构建零碳生态体系奠定坚实基础。
天合富家,那家作为全球领先的整体解决方案提供商的光伏智慧能源企业,自2018年开始,就面临着数据洪流的猛力冲击。光伏系统每天采集的数据量,从百万级持续攀升,一直到2022年达到千万级,而且涵盖了光伏组件、逆变器以及电池等设备的运行参数。原来基于MongoDB的架构呢,在处理这种海量的时序数据时,显得明显有很大的短处:查询的响应特别缓慢,存储成本一直居高不下,根本不满足不了业务对于实时监控和能源优化的那种严苛要求。
在处理多样化数据格式之事上,MongoDB作为一种文档型NoSQL数据库确实具备灵活性,然而其底层存储引擎并非为时间序列数据优化设计。随着数据量增长极其惊人,索引膨胀相应出现,写入吞吐有瓶颈,复杂聚合查询效率很低,这些问题逐渐突显出来,这致使系统难以支撑能源管理系统里高频的数据分析以及实时计算任务,技术架构必然要转型。
多种技术方案经综合评估后,TDengine TSDB因高压缩比、毫秒级查询性能以及内置降采样功能而崭露头角,它针对时序数据设计的存储引擎能实现超10倍的压缩率,极大降低磁盘占用。在此基础上,其面向物联网场景优化的查询计算能力,可从容应对千万级数据点的实时统计需求。综合权衡存储成本、读写性能以及实施难度后,团队最终决定替换原有数据库。
架构设计里,天合富家留存 Kafka 当作实时数据缓冲层,采集端借 TCP 协议上报设备数据,经清洗后暂且存于 Kafka,数据写入应用后再从 Kafka 消费并持久化到 TDengine。此设计虽增添了链路长度,可为系统供高可用的冗余缓冲区,于应对采集峰值波动、保障数据零丢失以及为后续处理预留维护窗口之际,明显提升了整体架构的可靠性。
项目开始实施的初期阶段,运用的是TDengine 2.6版本,布置了3个数据库节点,集群所采用的是高效云盘跟普通云盘相互结合起来的多级存储架构。数据采集以及处理应用借助RESTful接口连接到集群,在对查询性能予以兼顾的情况下,有效地控制了存储成本。历经半年的项目实施过程,其中涵盖了采集设备改造、应用开发以及数据库适配,能源管理系统得以顺利上线并运行。
每日千万级数据,在系统上线之后,达成了零延迟入库。并且在此基础上,数据分析响应时间被控制在了秒级以内。此外如设备日发电量统计所描述类似事情。原本在MongoDB上进行查询,所需要花费数十秒的时间。现在换成使用TDengine,结果能够在毫秒级就返回。再者通过采取分层存储方案,也就是把热数据存于高效云盘里,将冷数据迁移至普通云盘。如此一来,整体存储成本降低了大约50%,从而为业务快速发展提供了坚实的数据支撑。
伴随接入设备数量持续不停增长,系统所面临的挑战也跟着产生了变化,子表数量达到千万这个级别, 元数据体量急剧增多,致使2.6版本数据库启动变得迟缓,维护窗口持续不断延长,为满足业务对于系统高可用以及海量数据管理能力的更高要求,天合富家决定把数据库全面升级到TDengine 3.3版本,新版本具备更快的启动速度以及更强的元数据管理能力。
升级进程要确保业务不出现停机情况,团队跟TDengine专业服务团队深入交流之后,明确采用taosX数据同步迁移工具,搭配“镜像集群+程序双写”的方案。于数据库升级之际,应用层同步开展适配优化,借助运用参数化写入、批量查询接口等办法,充分施展新版本的功能特性。历经严格校验,近乎20TB数据零误差迁移至新集群,全程业务不存在中断。
通过合理的负载均衡策略,天合富家在集群前端部署了负载均衡服务器,以此进一步提升数据库集群的高可用性,精细化控制不同应用对数据库资源的占用,实现各应用间能有效隔离与性能优化,保证系统具有高可用性,避免因个别应用出现异常致使集群整体响应下降的风险。
在存储成本进行优化时,3.3版本具备支持把历史数据迁移到对象存储服务的能力。天合富家借助这一特性,把大量访问频率较为低的早期历史数据转存到云端对象存储之中,本地磁盘占用量下降了大约50%,进一步对整体存储成本予以压缩。这种分层存储策略在确保近期数据查询性能的情形下,达成了数据全生命周期管理的成本最优状态。
从2022年开始合作直至如今,随着TDengine从2,6版本持续迭代到3.3版本,天合富家深切领会到时序数据库对于能源行业业务场景具备的深度适配价值。在数据采集方面,在实时监控环节,在发电量统计范畴,在能源优化领域,TDengine依靠高性能写入以及查询能力,给企业的能源管理系统给予了全流程数字化支撑,有力地支撑了分布式能源业务的迅速扩张。
就天合富家搭建零碳生态体系而言,稳定的、高效的、可扩展的数据底座成了核心基础设施。任何技术工具都不会是完美的,然而TDengine因与业务需求高度契合,得以成功助力企业在分布式能源数字化之路上加快前行。从千万级数据能零延迟入库,到存储成本减半,从元数据管遭遇理瓶颈,直到集群呈现高可用架构,这样的演进过程给同行业提供了可借鉴的实践经验。
直面海量时序数据之际,你的业务系统可有碰到过查询性能以及存储成本没法两全其美的艰难处境?有请于评论区去分享你的技术选型还有优化心得。

相关标签: # 光伏 # TDengine # 时序数据库 # 数据迁移 # 零碳生态