欢迎光临HAWKER英国霍克蓄电池(中国)营销总部
服务热线:15313702523

首页 > 新闻中心

霍克锂电池基于奖励分解与电池健康保护的车辆到电网能量管理深度强化学习

电动汽车(EV)作为可持续交通方式正获得显著认可,这使得基于车网互动(V2G)的能源管理系统(EMS)需求日益增长。V2G技术使电动汽车能够作为动态储能系统运行,支持需求响应(DR),降低成本并整合可再生能源(RES)。然而,现有基于V2G的能源管理系统难以在协调实时动作的同时,兼顾成本、电池健康与可再生能源整合的平衡。此外,不规则的充放电模式与电池退化问题共同加剧了电动汽车(EV)、电网与可再生能源系统(RES)之间能量交换协调的复杂性。因此,精确预测对于实时车联网(V2G)能源管理至关重要,它能实现充放电计划的动态调整。本研究提出一种集成先进预测技术与强化学习(RL)的能源管理系统(EMS),通过挖掘电动汽车使用规律与预测能源需求来优化V2G能源控制。我们采用Optuna进行超参数优化,最终获得34.与基线模型相比,MAE提升9%,计算开销降低20%。通过奖励分解机制,基于偏好的多目标多智能体强化学习(MARL)框架优化了能源成本、环境影响及电池健康度。此外,采用集中训练分散执行(CTDE)的协同策略,实现了可扩展分布式控制的实时决策。基于真实数据的评估表明,软演员-评论家算法(SAC)在各项指标上均优于基线MARL算法:经济收益提升41.88%,环境影响降低16.56%,电池健康度改善18.58%。

引言

电动汽车(EVs)在全球范围内的快速普及不仅提高了人们对能源挑战的认知,也加强了对可持续能源管理的关注。根据[1]的数据,在公共充电基础设施发展和电池回收技术进步的推动下,预计到2024年全球电动汽车销量将达到1700万辆。2023年,公共充电站点数量增长40%,而电池回收能力已达到300吉瓦时。促进电动汽车普及的一项关键技术进步是车网互动(V2G)技术,该技术使电动汽车能够作为智能电网(SG)中的动态分布式存储资源。V2G在需求响应(DR)策略中具有平衡供需的潜力。然而,高昂的初始成本、不确定的转售价值以及增加的运营费用等挑战阻碍了其广泛采用[2]。
V2G系统与可再生能源(RES)相结合,能有效应对能源需求峰值、降低运营成本并提升电网可靠性。该技术可替代22.2%至30.1%的储能系统(ESS)容量,并缓解能源价格波动。当RES渗透率达到80%时,V2G因兼具降本减排优势而更具吸引力[3]。此外,私人电动汽车充电时段因闲置时间较长,为V2G参与提供了灵活性[4]。然而,RES与电动汽车的不确定性和动态特性会导致配电网稳定性问题[5]。此外,V2G集成与充电管理的有效性受使用及充电行为影响[6]。尽管V2G会改变电动汽车的离网时间与放电行为[7],但会导致滞留现象,即电动汽车超过预期离网时间。未经控制的V2G交互会引发电池劣化,深度循环充放电将加速这一过程[8]。深度循环充放电指电池经历完全放电与再充电的重复过程。管理电池退化需实施最小化深度循环的策略[9],并采用放电深度感知控制机制。通过需求响应项目优化电动汽车运行,并结合经济激励措施,可减轻V2G参与对电池健康的不利影响。
尽管当前能源管理系统(EMS)方法学取得进展,但重大缺陷依然存在。EMS中的预测模型通常依赖人工调整参数,导致显著计算负担且难以适应波动的能源曲线。为此,本研究提出一种采用optuna优化的能源预测算法[10]并结合电动汽车使用模式的EMS。现有控制技术多聚焦于成本最小化或电网稳定性,忽视了考虑环境影响与电池损耗的基于偏好的优化方案。强化学习(RL)在复杂能源管理领域已展现效能。整合动态优化与多智能体强化学习(MARL)模型对实现电动汽车充放电实时协调至关重要。需求响应(DR)计划联合MARL可动态调节充电行为以响应电网状态,有效降低峰值负荷[11]。
鉴于V2G集成与电池健康的复杂性,基于偏好的多目标多智能体强化学习控制策略展现出良好前景。此外,基于多智能体强化学习的多目标优化旨在解决具有多重且常相互冲突目标特性的问题[12]。尽管强化学习已应用于能源管理系统和V2G领域,但现有框架多为集中式或单智能体架构,限制了其在异构电动车队中的可扩展性。集中式方法存在固有延迟问题,同时面临数据安全与隐私方面的挑战。与当前基于强化学习或预测增强的能源管理系统方法相比,本框架提出了一种创新的奖励分解机制。该机制通过Optuna自动超参数优化,明确平衡了经济性、环境友好性和电池健康性三大目标。此外,系统采用集中训练分散执行(CTDE)架构,确保了可扩展性、低延迟性以及强大的数据安全性与隐私保护能力。