近日,皇冠体育官方网站曾建潮教授团队在人工智能领域离线强化学研究中取得重要进展,以“Transport or Discard: Robust Unbalanced Optimal Transport for Cross-Domain Policy Adaptation”为题的成果被人工智能领域国际顶级会议International Conference on Machine Learning(ICML 2026)接收。论文第一作者为博士生陈文宇同学,共同第一作者为张钰嘉博士,通讯作者为曾建潮教授,同时该论文还得到了秦品乐教授的共同指导。此外,王彦博博士和博士生郭威与马林利也为该研究做出了贡献。

离线强化学习通过利用大量历史数据,显著降低策略学习过程中环境交互的风险与成本,从而在更多行业中实现强化学习技术的安全、可行应用。然而现有离线策略的性能从根本上受限于可用数据的覆盖范围和质量。为了缓解数据稀缺的问题,跨域离线强化学习旨在利用源域的数据集来改进数据受限目标域中的策略学习。一个核心挑战是:许多源域的转换在目标环境中运动学上是不可行的,而简单地将它们纳入目标域往往会导致严重的负迁移。
针对跨域强化学习动力学不匹配的问题,文章通过筛选源域数据集中与目标域接近的数据来缓解负迁移问题。具体来说,文章首先将数据筛选问题建模为最小化加权源域分布和经验目标域分布间的 Wasserstein 距离的软子集选择问题,通过引入针对目标域的不确定性集合以及源域数据的惩罚,算法实现了一种原则性的“传输或丢弃”机制,使其能够自动降低高成本源域样本的权重。
相关理论分析表明,该方法诱导的关联权重会随传输成本呈指数级衰减,从而为抑制异常值和负迁移提供了严格的数学保证。在包含重力、摩擦力和形态等多种动力学偏移的基准测试中,算法无需任何额外的调参并且在大多数任务中均显著优于现有的主流基线方法。

该成果聚焦国家智能化发展战略与山西省产业数字化升级需求,以“人才培育+科研攻坚”双向发力,彰显了公司在人工智能领域的科研实力与人才培养成效。公司也将以此为契机,筑牢学术高地、激活创新动能,为皇冠体育官方网站“双一流”创建贡献坚实力量。