Publications

Social Simulation Adversarial Robustness LLM

2025 45 papers

AGT

Enhancing LLM-Based Social Bot via an Adversarial Learning Framework

Fanqi Kong, Xiaoyuan Zhang, Xinyu Chen, Yaodong Yang, Song-Chun Zhu, Xue Feng

EMNLP 2025

AGT

Hierarchical Multi-Agent Framework for Dynamic Macroeconomic Modelling Using Large Language Models

Zhixun Chen, Zijing Shi, Yaodong Yang, Meng Fang, Yali Du

AAMAS 2025 Extended

Macroeconomics Multi-Agent RL LLM

AGT

Social World Model-Augmented Mechanism Design Policy Learning *

Xiaoyuan Zhang, Yizhe Huang, Chengdong Ma, Zhixun Chen, Long Ma, Yali Du, Song-Chun Zhu, Yaodong Yang, Xue Feng

NeurIPS 2025

Mechanism Design Social Simulation World Models

AGT

World Models Should Prioritize the Unification of Physical and Social Dynamics *

Xiaoyuan Zhang, Chengdong Ma, Yizhe Huang, Weidong Huang, Siyuan Qi, Song-Chun Zhu, Xue Feng, Yaodong Yang

NeurIPS 2025 Position

Physics Social Simulation World Models

AI4

PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Models

Shi Qiu, Shaoyang Guo, Zhuo-Yang Song, Yunbo Sun, Zeyu Cai, Jiashen Wei, Tianyu Luo, Yixuan Yin, Haoxu Zhang, Yi Hu, Chenyang Wang, Chencheng Tang, Haoling Chang, Qi Liu, Ziheng Zhou, Tianyu Zhang, Jingtian Zhang, Zhangyi Liu, Minghao Li, Yuku Zhang, Boxuan Jing, Xianqi Yin, Yutong Ren, Zizhuo Fu, Jiaming Ji, Weike Wang, Xudong Tian, Anqi Lv, Laifu Man, Jianxiang Li, Feiyu Tao, Qihua Sun, Zhou Liang, Yushu Mu, Zhongxuan Li, Jing-Jun Zhang, Shutao Zhang, Xiaotian Li, Xingqi Xia, Jiawei Lin, Zheyu Shen, Jiahang Chen, Qiuhao Xiong, Binran Wang, Fengyuan Wang, Ziyang Ni, Bohan Zhang, Fan Cui, Changkun Shao, Qing-Hong Cao, Ming-xing Luo, Yaodong Yang, Muhan Zhang, Hua Xing Zhu

NeurIPS 2025 Dataset

Physics LLM

arXiv S2

ALN

Amulet: ReAlignment During Test Time for Personalized Preference Adaptation of LLMs *

Zhaowei Zhang, Fengshuo Bai, Qizhi Chen, Chengdong Ma, Mingzhi Wang, Haoran Sun, Zilong Zheng, Yaodong Yang#

ICLR 2025

Amulet Persona Preference Learning Alignment

arXiv S2

ALN

Benchmarking Multi-National Value Alignment for Large Language Models

Chengyi Ju, Weijie Shi, Chengzhong LIU, Jiaming Ji, Jipeng Zhang, Ruiyuan Zhang, Jiajie Xu, Yaodong Yang, Sirui Han, Yike Guo

ACL 2025 Findings

Value Alignment Benchmark Alignment LLM

ALN

Boosting Policy and Process Reward Models with Monte Carlo Tree Search in Open-Domain QA

Chi-Min Chan, Chunpu Xu, Junqi Zhu, Jiaming Ji, Donghai Hong, Pengcheng Wen, Chunyang Jiang, Zhen Ye, Yaodong Yang, Wei Xue, Sirui Han, Yike Guo

ACL 2025 Findings

Reward Modeling Bayesian Methods

ALN

Emerging Safety Attack and Defense in Federated Instruction Tuning of Large Language Models

Rui Ye, Jingyi Chai, Xiangrui Liu, Yaodong Yang, Yanfeng Wang, Siheng Chen

ICLR 2025

Federated Learning Instruction Tuning Adversarial Attack Safety LLM

ALN

In-Context Editing: Learning Knowledge from Self-Induced Distributions

Qi, Siyuan, Bangcheng Yang, Kailin Jiang, Xiaobo Wang, Jiaqi Li, Yifan Zhong, Yaodong Yang, and Zilong Zheng

ICLR 2025

Knowledge Editing

ALN

InterMT: Multi-Turn Interleaved Preference Alignment with Human Feedback *

Boyuan Chen, Donghai Hong, Jiaming Ji, Jiacheng Zheng, Bowen Dong, Rui Pan, Xuyao Wang, Juntao Dai, Chi-Min Chan, Yaodong Yang#

NeurIPS 2025 SpotlightDataset

Multi-Turn Preference Learning Alignment

ALN

Learning Principles from Multi-modal Human Preference *

Jiayi Zhou, Jiaming Ji, Boyuan Chen, Jiapeng Sun, Wenqi Chen, Donghai Hong, Sirui Han, Yike Guo, Yaodong Yang

NeurIPS 2025

Preference Dataset Multimodal Preference Learning

ALN

Libra-Leaderboard: Towards Responsible AI through a Balanced Leaderboard of Safety and Capability,

Li, Haonan, Xudong Han, Zenan Zhai, Honglin Mu, Hao Wang, Zhenxuan Zhang, Yilin Geng, Yaodong Yang et al

NAACL 2025

Libra Leaderboard Leaderboard Safety

ALN

Magnetic Mirror Descent Self-play Preference Optimization *

Mingzhi Wang, Chengdong Ma, Qizhi Chen, Linjian Meng, Yang Han, Jiancong Xiao, Zhaowei Zhang, Jing Huo, Weijie J. Su, Yaodong Yang#

ICLR 2025

Preference Optimization Self-Play Preference Learning

ALN

Mitigating Reward Over-Optimization in RLHF via Behavior-Supported Regularization *

Juntao Dai, Taiye Chen, Yaodong Yang#, Qian Zheng

ICLR 2025

RLHF Reward Hacking

ALN

PKU-SafeRLHF: Towards Multi-Level Safety Alignment for LLMs with Human Preference *

Jiaming Ji, Donghai Hong, Borong Zhang, Boyuan Chen, Josef Dai, Boren Zheng, Tianyi Qiu, Boxun Li, Yaodong Yang#

ACL 2025

Safe RLHF PKU-SafeRLHF Preference Dataset Preference Learning Safety

arXiv S2

ALN

Reward Generalization in RLHF: A Topological Perspective *

Tianyi Qiu, Fanzhi Zeng, Jiaming Ji, Dong Yan, Kaile Wang, Jiayi Zhou, Yang Han, Josef Dai, Xuehai Pan, Yaodong Yang

ACL 2025 Findings

RLHF

ALN

Risk-aware Direct Preference Optimization under Nested Risk Measure

Lijun Zhang, Lin Li, Yajie Qi, Huizhong Song, Yaodong Yang, Jun Wang, Wei Wei

NeurIPS 2025

Preference Optimization Preference Learning

arXiv S2

ALN

SAE-V: Interpreting Multimodal Models for Enhanced Alignment *

Hantao Lou, Changye Li, Jiaming Ji, Yaodong Yang#

ICML 2025

Interpretability Multimodal Alignment

ALN

STAR: Efficient Preference-based Reinforcement Learning via Dual Regularization *

Fengshuo Bai, Rui Zhao, Hongming Zhang, Sijia Cui, Shao Zhang, Ying Wen, Yaodong Yang, bo xu, Lei Han

NeurIPS 2025

Preference Learning Reinforcement Learning

arXiv S2

ALN

Safe RLHF-V: Safe Reinforcement Learning from Multi-modal Human Feedback *

Jiaming Ji, Xinyu Chen, Rui Pan, Han Zhu, Conghui Zhang, Jiahao Li, Donghai Hong, Boyuan Chen, Jiayi Zhou, Kaile Wang, Juntao Dai, Chi-Min Chan, Sirui Han, Yike Guo, Yaodong Yang#

NeurIPS 2025

Safe RLHF RLHF Safe RL Multimodal Reinforcement Learning

ALN

SafeLawBench: Towards Safe Alignment of Large Language Models

Chuxue Cao, Han Zhu, Jiaming Ji, Qichao Sun, Zhenghao Zhu, WU YINYU, Josef Dai, Yaodong Yang, Sirui Han, Yike Guo

ACL 2025 Findings

SafeLawBench Alignment LLM

ALN

Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback *

Jiayi Zhou, Jiaming Ji, Juntao Dai, Yaodong Yang#

AAAI 2025 Oral

RLHF Reward Modeling

ALN

Stream Aligner: Efficient Sentence-Level Alignment via Distribution Induction *

Hantao Lou, Jiaming Ji, Kaile Wang, Yaodong Yang#

AAAI 2025

Aligner Stream Aligner Alignment

EMB

Adaptive Visual-Tactile Fusion with Predictive Force Attention for Dexterous Manipulation

Jinzhou Li, Tianhao Wu*, Jiyao Zhang, Zeyuan Chen, Haotian Jin, Aaron Mingdong Wu, Yujun Shen, Yaodong Yang, Hao Dong

IROS 2025

Dexterous Manipulation Tactile Robotics

EMB

ClutterDexGrasp: A Sim-to-Real System for General Dexterous Grasping in Cluttered Scenes

Zeyuan Chen, Qiyang Yan, Yuanpei Chen, Tianhao Wu, Jiyao Zhang, Zihan Ding, Jinzhou Li, Yaodong Yang, Hao Dong

CoRL 2025

ClutterDex Sim-to-Real Dexterous Manipulation Grasping

EMB

DexFlyWheel: A Scalable and Self-improving Data Generation Framework for Dexterous Manipulation *

Kefei Zhu, Fengshuo Bai, YuanHao Xiang, Yishuai Cai, Xinglin Chen, Ruochong Li, Xingtao Wang, Hao Dong, Yaodong Yang#, Xiaopeng Fan, Yuanpei Chen

NeurIPS 2025 Spotlight

DexFlyWheel Dexterous Manipulation Robotics

EMB

Differentiable Information Enhanced Model-Based Reinforcement Learning *

Xiaoyuan Zhang, Xinyan Cai, Bo Liu, Weidong Huang, Song-Chun Zhu, Siyuan Qi, Yaodong Yang#

AAAI 2025 Oral

Model-Based RL Reinforcement Learning

EMB

Falcon: Fast visuomotor policy via partial denoising *

Haojun Chen, Minghao Liu, Xiaojian Ma, Zailin Ma, Huimin Wu, Chengdong Ma, Yuanpei Chen, Yifan Zhong, Mingzhi Wang, Qing Li, Yaodong Yang

ICML 2025

Diffusion Policy Falcon Policy Visuomotor

EMB

RAT: Adversarial Attacks on Deep Reinforcement Agents for Targeted Behaviors *

Fengshuo Bai, Runze Liu, Yali Du, Ying Wen, Yaodong Yang#

AAAI 2025 Oral

Adversarial Attack Adversarial Robustness

ALN

Language Models Resist Alignment: Evidence From Data Compression *

Jiaming Ji, Kaile Wang, Tianyi Alex Qiu, Boyuan Chen, Jiayi Zhou, Changye Li, Hantao Lou, Josef Dai, Yunhuai Liu, Yaodong Yang#

ACL 2025 ★ Best Paper

Alignment Theory Alignment LLM

Media Xinhua↗NSFC↗Jiqizhixin↗

arXiv S2

ALN

Safe VLA: Towards Safety Alignment of Vision-Language-Action Model via Safe Reinforcement Learning *

Borong Zhang, Yuhao Zhang, Jiaming Ji, Yingshan Lei, Josef Dai, Yuanpei Chen, Yaodong Yang#

NeurIPS 2025 Spotlight

Safe VLA VLA Safe RL Safety Alignment

MRL

A Unified Framework for Multi-Stage Decision Optimization with Deep Reinforcement Learning and Foundation Models *

Qinghao Wang, Jinyang Jiang, Xiaotian Liu, Tao Ren, Yi Zheng, Cheng Zhang, Yaodong Yang, Yijie Peng

2025 IEEE 21st International Conference on Automation Science and Engineering (CASE)

PSRO Zero-Sum Games Distributed Systems

MRL

Distributed Policy Space Response Oracles in Two-Player Zero-Sum Games https://ieeexplore.ieee.org/document/10950104

Hongsong Tang,Yingzhuo Liu,Letian Ni,Liuyu Xiang,Yaodong Yang,Ke Bi,Zhaofeng He

IEEE Transactions on Neural Networks and Learning Systems (TNNLS)

MRL

Empirical Study on Robustness and Resilience in Cooperative Multi-Agent Reinforcement Learning *

Simin Li, Zihao Mao, Hanxiao Li, Zonglei Jing, Zhuohang bian, Jun Guo, Li Wang, Zhuoran Han, Ruixiao Xu, Xin Yu, Chengdong Ma, Yuqing Ma, Bo An, Yaodong Yang, Weifeng Lv, Xianglong Liu Hide authors

NeurIPS 2025

Cooperative MARL Multi-Agent RL Cooperation Reinforcement Learning

arXiv S2

MRL

Mean Field Correlated Imitation Learning *

Zhiyu Chen, Muning Wen, Yali Du, Ying Wen, Yaodong Yang#

AAMAS 2025

Mean Field RL Imitation Learning

MRL

Towards efficient collaboration via graph modeling in reinforcement learning *

Fan, Wenzhe, Zishun Yu, Chengdong Ma, Changye Li, Yaodong Yang, and Xinhua Zhang

AAAI 2025

Zero-Sum Games Multi-Agent RL Benchmark

PRE

A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment

Kun Wang, Guibin Zhang, Zhenhong Zhou, Jiahao Wu, Miao Yu, Shiqian Zhao, Chenlong Yin, Jinhu Fu, Yibo Yan, Hanjun Luo, Liang Lin, Zhihao Xu, Haolang Lu, Xinye Cao, Xinyun Zhou, Weifei Jin, Fanci Meng, Junyuan Mao, Yu Wang, Hao Wu, Minghe Wang, Fan Zhang, Junfeng Fang, Wenjie Qu, Yue Liu, Chengwei Liu, Yifan Zhang, Qiankun Li, Chongye Guo, Yalan Qin, Zhaoxin Fan, Kai Wang, Yi Ding, Donghai Hong, Jiaming Ji, Yingxin Lai, Zitong Yu, Xinfeng Li, Yifan Jiang, Yanhui Li, Xinyu Deng, Junlin Wu, Dongxia Wang, Yihao Huang, Yufei Guo, Jen-tse Huang, Qiufeng Wang, Xiaolong Jin, Wenxuan Wang, Dongrui Liu, Yanwei Yue, Wenke Huang, Guancheng Wan, Heng Chang, Tianlin Li, Yi Yu, Chenghao Li, Jiawei Li, Lei Bai, Jie Zhang, Qing Guo, Jingyi Wang, Tianlong Chen, Joey Tianyi Zhou, Xiaojun Jia, Weisong Sun, Cong Wu, Jing Chen, Xuming Hu, Yiming Li, Xiao Wang, Ningyu Zhang, Luu Anh Tuan, Guowen Xu, Tianwei Zhang, Xingjun Ma, Xiang Wang, Bo An, Jun Sun, Mohit Bansal, Shirui Pan, Yuval Elovici, Bhavya Kailkhura, Bo Li, Yaodong Yang, Hongwei Li, Wenyuan Xu, Yizhou Sun, Wei Wang, Qing Li, Ke Tang, Yu-Gang Jiang, Felix Juefei-Xu, Hui Xiong, Xiaofeng Wang, Shuicheng Yan, Dacheng Tao, Philip S. Yu, Qingsong Wen, Yang Liu

arXiv 2025

Survey Safety LLM

arXiv PDF

PRE

A Survey on Vision-Language-Action Models: An Action Tokenization Perspective *

Yifan Zhong, Fengshuo Bai, Shaofei Cai, Xuchuan Huang, Zhang Chen, Xiaowei Zhang, Yuanfei Wang, Shaoyang Guo, Tianrui Guan, Ka Nam Lui, Zhiquan Qi, Yitao Liang, Yuanpei Chen, Yaodong Yang#

arXiv 2025

VLA Survey

arXiv PDF

PRE

Approximating N-Player Nash Equilibrium through Gradient Descent

Dongge Wang, Xiang Yan, Zehao Dou, Wenhan Huang, Yaodong Yang, Xiaotie Deng

arXiv 2025

Nash Equilibrium

arXiv PDF

PRE

Iterative Training of Language Models with Opponent Modeling for Red Teaming Data Generation *

Yiming Rong, Hang Deng, Xuehai Pan, Yang Han, Fengshuo Bai, Yaodong Yang#

ICLR 2025

Opponent Modeling Red-teaming LLM

PRE

Mixed Hierarchical Oracle and Multi-Agent Benchmark in Two-player Zero-sum Games

Hongsong Tang, Bo Chen, Yingzhuo Liu, Yaodong Yang, Junge Zhang, Liuyu Xiang, Jianchun Xu, Zhaofeng He

arXiv 2025

PRE

Model Evolution Framework with Genetic Algorithm for Multi-Task Reinforcement Learning

Yan Yu, Wengang Zhou, Yaodong Yang, Wanxuan Lu, Yingyan Hou, Houqiang Li

arXiv 2025

Mixed-Motive Opponent Modeling

arXiv PDF

PRE

RedStar: Does Scaling Long-CoT Data Unlock Better Slow-Reasoning Systems?

Haotian Xu, Xing Wu, Weinong Wang, Zhongzhi Li, Da Zheng, Boyuan Chen, Yi Hu, Shijia Kang, Jiaming Ji, Yingying Zhang, Zhijiang Guo, Yaodong Yang, Muhan Zhang, Debing Zhang

arXiv 2025

Chain-of-Thought

arXiv PDF

PRE

Retrieval Dexterity: Efficient Object Retrieval in Clutters with Dexterous Hand

Fengshuo Bai, Yu Li, Jie Chu, Tawei Chou, Runchuan Zhu, Ying Wen, Yaodong Yang, Yuanpei Chen

arXiv 2025

Dexterous Manipulation

arXiv PDF

2024 57 papers

AGT

CivRealm: A Learning and Reasoning Odyssey for Decision-Making Agents

Qi, Siyuan, Shuo Chen, Yexin Li, Xiangyu Kong, Junqi Wang, Bangcheng Yang, Pring Wong, Yaodong Yang, et al

ICLR 2024 Spotlight

CivRealm

AGT

Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning

Yizhe Huang, Anji Liu, Fanqi Kong, Yaodong Yang, Song-Chun Zhu, Xue Feng

ICML 2024

arXiv S2

AGT

ProAgent: Building Proactive Cooperative AI with Large Language Models *

Ceyao Zhang, Kaijie Yang, Siyi Hu, Zihao Wang, Guanghe Li, Yihang Sun, Cheng Zhang, Zhaowei Zhang, Anji Liu, Song-Chun Zhu, Xiaojun Chang, Junge Zhang, Feng Yin, Yitao Liang, Yaodong Yang#

AAAI 2024 Oral

ProAgent Cooperation LLM

AI4

Large Language Models in Medicine: Applications, Challenges, and Future Directions

Erlan Yu, Xuehong Chu, Wanwan Zhang, Xiangbin Meng, Yaodong Yang, Xunming Ji, Chuanjie Wu

International Journal of Medical Sciences

Medical AI LLM

AI4

Revolutionizing Healthcare: The Transformative Impact of LLMs in Medicine *

Yi-Da Tang, Jmir Preprints, Kuo Zhang, Xiangyu Yan, Dph, Xiangbin Meng, Jiaming Ji, Hua Xu, Jingqian Liu, Jingjia Wang, Xuliang Wang, Jun gao, Da Liu, Yuan-Geng-Shuo Wang, Chunli Shao, Wenyao Wang, Yaodong Yang

Journal of Medical Internet Research (JMIR)

Medical AI

AI4

The application of large language models in medicine: A scoping review

Meng, Xiangbin, Xiangyu Yan, Kuo Zhang, Da Liu, Xiaojuan Cui, Yaodong Yang, Muhan Zhang et al.

iScience (Cell Press)

Medical AI Survey LLM

PDF S2

ALN

AI Alignment: A Contemporary Survey *

Yaodong Yang, Jiaming Ji,Tianyi Qiu,Boyuan Chen,Jiayi Zhou,Borong Zhang,Donghai Hong,Hantao Lou,Kaile Wang,Yawen Duan,Zhonghao He,Lukas Vierling,Zhaowei Zhang,Fanzhi Zeng,Juntao Dai,Xuehai Pan,Hua Xu,Aidan O’Gara,Kwan Yee Ng,Brian Tse,Jie Fu,Stephen McAleer,Yizhou Wang,Song-Chun Zhu,Yike Guo,Wen Gao

ACM Computing Surveys

Survey Alignment

ALN

Heterogeneous Value Alignment Evaluation for Large Language Models *

Zhaowei Zhang, Ceyao Zhang, Nian Liu, Siyuan Qi, Ziqi Rong, Song-Chun Zhu, Yaodong Yang

AGI（poster）

Value Alignment Alignment LLM

ALN

Med-Aligner Empowers LLM Medical Applications for complex medical scenarios *

Xiangbin Meng, Jiaming Ji, Xiangyu Yan, Jing Dai, Bishan Chen, Guan Wang, Hua Xu, Jingjia Wang, X G Wang, Da Liu, Ming-Qi Zheng, Ruidong Wu, Chujun Wu, Ying Wu, W Wang, Zhen Song, Yaodong Yang

The Innovation

Aligner Medical AI LLM

ALN

Panacea: Pareto Alignment via Preference Adaptation for LLMs *

Yifan Zhong, Chengdong Ma, Xiaoyuan Zhang, Ziran Yang, Haojun Chen, Qingfu Zhang, Siyuan Qi, Yaodong Yang#

NeurIPS 2024

Panacea Preference Learning Alignment

ALN

ProgressGym: Alignment with a Millennium of Moral Progress *

Tianyi Qiu, Yang Zhang, Xuchuan Huang, Jasmine Xinze Li, Jiaming Ji, Yaodong Yang

NIPS24DB Spotlight

ProgressGym Value Alignment Alignment

ALN

Roadmap on Incentive Compatibility for AI Alignment in Sociotechnical Systems *

Zhaowei Zhang, Fengshuo Bai, Mingzhi Wang, Haoyang Ye, Chengdong Ma and Yaodong Yang

AGI（） Oral

Survey Alignment

ALN

Safe RLHF: Safe Reinforcement Learning from Human Feedback *

Josef Dai, Xuehai Pan, Ruiyang Sun, Jiaming Ji, Xinbo Xu, Mickel Liu, Yizhou Wang, Yaodong Yang#

ICLR 2024 Spotlight

Safe RLHF RLHF Safe RL Reinforcement Learning

arXiv S2

ALN

Safe Reinforcement Learning using Finite-Horizon Gradient-based Estimation

Dai, Juntao, Yaodong Yang, Qian Zheng, and Gang Pan

ICML 2024

Safe RL Reinforcement Learning

arXiv S2

ALN

SafeDreamer: Safe Reinforcement Learning with World Models *

Weidong Huang, Jiaming Ji, Chunhe Xia, Borong Zhang, Yaodong Yang#

ICLR 2024

SafeDreamer Safe RL World Models Reinforcement Learning

ALN

SafeSora: Towards Safety Alignment of Text2Video Generation via a Human Preference Dataset *

Juntao Dai, Tianle Chen, Xuyao Wang, Ziran Yang, Taiye Chen, Jiaming Ji, Yaodong Yang

NIPS24DB

Video Generation Preference Dataset Dataset Preference Learning Safety

ALN

Scalable Constrained Policy Optimization for Safe Multi-agent Reinforcement Learning

Lijun Zhang, Lin Li, Wei Wei, Huizhong Song, Yaodong Yang, Jiye Liang

NeurIPS 2024

Offline RL Q-Learning Reinforcement Learning

EMB

Adaptive pessimism via target Q-value for offline reinforcement learning *

Liu, Jie, Yinmin Zhang, Chuming Li, Yaodong Yang, Yu Liu, and Wanli Ouyang

Neural Networks

EMB

AnySkill: Learning Open-Vocabulary Physical Skill for Interactive Agents

Cui, Jieming, Tengyu Liu, Nian Liu, Yaodong Yang, Yixin Zhu, and Siyuan Huang

CVPR 2024

AnySkill Physics Skill Learning

EMB

ECO: Energy-Constrained Optimization with Reinforcement Learning for Humanoid Walking

Huang, Weidong; Zhang, Jingwen; Li, Jiongye; zhang, shibowen; Wu, Jiayang; Wang, Jiayi; Liu, Hangxin; Yang, Yaodong; SU, YAO

IEEE Transactions on Automation Science and Engineering

Humanoid Reinforcement Learning

arXiv S2

EMB

Grasp multiple objects with one hand

Li, Yuyang, Bo Liu, Yiran Geng, Puhao Li, Yaodong Yang, Yixin Zhu, Tengyu Liu, and Siyuan Huang

IEEE Robotics and Automation Letters (RA-L)

Grasping

EMB

Neural Attention Field: Emerging Point Relevance in 3D Scenes for One-Shot Dexterous Grasping

Wang, Qianxu, Congyue Deng, Tyler Ga Wei Lum, Yuanpei Chen, Yaodong Yang, Jeannette Bohg, Yixin Zhu, and Leonidas Guibas

CoRL

Dexterous Manipulation Grasping

EMB

Object-Centric Dexterous Manipulation from Human Motion Data

Chen, Yuanpei, Chen Wang, Yaodong Yang, and C. Karen Liu

CoRL

Dexterous Manipulation Robotics

EMB

ASP: Learn a Universal Neural Solver *

Chenguang Wang, Zhouliang Yu, Stephen McAleer, Tianshu Yu, Yaodong Yang#

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)

Combinatorial Optimization

arXiv PDF S2

ALN

Aligner: Efficient Alignment by Learning to Correct *

Jiaming Ji, Boyuan Chen, Hantao Lou, Donghai Hong, Borong Zhang, Xuehai Pan, Juntao Dai, Yaodong Yang#

NeurIPS 2024 Oral

Aligner Alignment

EMB

Bi-DexHands: Towards Human-Level Bimanual Dexterous Manipulation *

Yuanpei Chen, Yiran Geng, Fangwei Zhong, Jiaming Ji, Jiechuang Jiang, Zongqing Lu, Hao Dong, Yaodong Yang#

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)

Bimanual Dexterous Manipulation Robotics

Media China Youth Daily↗

AI4

Efficient and scalable reinforcement learning for large-scale network control *

Chengdong Ma, Aming Li, Yali Du, Hao Dong, Yaodong Yang#

Nature Machine Intelligence ★ Best Paper

Network Control Reinforcement Learning

Media Xinhua↗STDaily↗PKU News↗

PDF S2

MRL

Heterogeneous-Agent Reinforcement Learning *

Yifan Zhong, Jakub Grudzien Kuba, Xidong Feng, Siyi Hu, Jiaming Ji, Yaodong Yang#

Journal of Machine Learning Research (JMLR)

HARL Reinforcement Learning

arXiv PDF S2

ALN

Omnisafe: An infrastructure for accelerating safe reinforcement learning research *

Jiaming Ji, Jiayi Zhou, Borong Zhang, Juntao Dai, Xuehai Pan, Ruiyang Sun, Weidong Huang, Yiran Geng, Mickel Liu, Yaodong Yang#

Journal of Machine Learning Research (JMLR)

OmniSafe Safe RL Reinforcement Learning

AI4

Transforming the synthesis of carbon nanotubes with machine learning models and automation *

Yue Li, Shurui Wang, Zhou Lv, Zhaoji Wang, Yunbiao Zhao, Ying Xie, Yang Xu, Liu Qian, Yaodong Yang#, Ziqiang Zhao#, Jin Zhang#

Matter (Cell Press)

Carbon Nanotubes Materials Synthesis

Media Xinhua↗

MRL

A Perspective of Q-value Estimation on Offline-to-Online Reinforcement Learning *

Zhang, Yinmin, Jie Liu, Chuming Li, Yazhe Niu, Yaodong Yang, Yu Liu, and Wanli Ouyang

AAAI 2024

Q-Learning Reinforcement Learning

MRL

Byzantine Robust Cooperative Multi-Agent Reinforcement Learning as a Bayesian Game *

Li, Simin, Jun Guo, Jingqiao Xiu, Ruixiao Xu, Xin Yu, Jiakai Wang, Aishan Liu, Yaodong Yang, and Xianglong Liu

ICLR 2024

Byzantine Robust Cooperative MARL Bayesian Methods Multi-Agent RL Cooperation

MRL

Can large language models independently complete tasks? a dynamic evaluation framework for multi-turn task planning and completion

Jun Gao, Junlin Cui, Huijia Wu, Liuyu Xiang, Han Zhao，Xiangang Li, Meng Fang, Yaodong Yang, Zhaofeng He

Neurocomputing

Multi-Turn LLM

MRL

Computing Ex Ante Equilibrium in Heterogeneous Zero-Sum Team Game

Naming Liu, Mingzhi Wang, Xihuai Wang, Weinan Zhang, Yaodong Yang, Youzhi Zhang, Bo An, Ying Wen

Frontiers of Computer Science (FCS)

Nash Equilibrium Team Games Zero-Sum Games

arXiv S2

MRL

Deep Reinforcement Learning with Task-Adaptive Retrieval via Hypernetwork

Yonggang Jin, Chenxu Wang, Tianyu Zheng, Liuyu Xiang, Yaodong Yang, Junge Zhang, Jie Fu, Zhaofeng He

ICASSP 2024

arXiv PDF

MRL

End-to-End Neuro-Symbolic Reinforcement Learning with Textual Explanations

Luo, Lirui, Guoxi Zhang, Hongming Xu, Yaodong Yang, Cong Fang, and Qing Li

ICML 2024

FPGA Acceleration Gym Environment Reinforcement Learning

MRL

FPGA-Gym: An FPGA-Accelerated Reinforcement Learning Environment Simulation Framework

Jiayi Li · Hongxiao Zhao · Wenshuo Yue · Yihan Fu · Daijing Shi · Anjunyi Fan · Qinghao Wang · Yaodong Yang · Bonan Yan

NeurIPS 2024 Workshop

MRL

JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models

Wang, Zihao, Shaofei Cai, Anji Liu, Yonggang Jin, Jinbing Hou, Bowei Zhang, Haowei Lin, Yaodong Yang et al.

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)

JARVIS-1 Multimodal LLM

MRL

Learning Uniformly Distributed Embedding Clusters of Stylistic Skills for Physically Simulated Characters *

Nian Liu, Zilong Zhang, Zi Wang, Tengyu Liu, Hongzhao Xie, Xinyi Tong, Libin Liu, Yaodong Yang, Zhaofeng He

Physics Distributed Systems

MRL

MT-dyna: A Framework for Evaluating Multi-Turn Capabilities of LLMs

Jun Gao, Junlin Cui, Anwen Yang , Yiqi Tong, Huijia Wu, Xiangzheng Zhang, Yaodong Yang, Zhaofeng He

Applied Soft Computing

Agent Eval Multi-Turn

MRL

MaskMA: Towards Zero-Shot Multi-Agent Decision Making with Mask-Based Collaborative Learning *

Liu, Jie, Yinmin Zhang, Chuming Li, Chao Yang, Yaodong Yang, Yu Liu, and Wanli Ouyang

Transactions on Machine Learning Research (TMLR)

MaskMA Multi-Agent RL

MRL

Maximum Entropy Heterogeneous-Agent Reinforcement Learning *

Jiarong Liu, Yifan Zhong, Siyi Hu, Haobo Fu, Qiang Fu, Xiaojun Chang, Yaodong Yang#

ICLR 2024 Spotlight

HARL Reinforcement Learning

MRL

Multi-Agent Deep Reinforcement Learning for Multi-Echelon Inventory Management

Liu, Xiaotian, Ming Hu, Yijie Peng, and Yaodong Yang.

Production and Operations Management

Inventory Management Multi-Agent RL Reinforcement Learning

MRL

Off-Agent Trust Region Policy Optimization *

Chen, Ruiqing, Xiaoyuan Zhang, Yali Du, Yifan Zhong, Zheng Tian, Fanglei Sun, and Yaodong Yang

IJCAI 2024

Trust Region

MRL

Resilient Multi-agent Reinforcement Learning for Tiered Mixed Autonomy

Xin Gao,Xiaoqiang Meng,Chengdong Ma,Zhaoyang Ma,Yaodong Yang,Xueyuan Li,Lihua Xie

IEEE Transactions on Intelligent Transportation Systems

Multi-Agent Transformer Multi-Agent RL

MRL

RoMAT: Role-based multi-agent transformerfor generalizable heterogeneous cooperation *

Wang, Dongzi, Fangwei Zhong, Minglong Li, Muning Wen, Yuanxi Peng, Teng Li, and Adam Yang

Neural Networks

MRL

STAS: Spatial-Temporal Return Decomposition for Multi-agent Reinforcement Learning *

Chen, Sirui, Zhaowei Zhang, Yaodong Yang, and Yali Du

AAAI 2024

MRL

TIMAR: Transition-informed representation for sample-efficient multi-agent reinforcement learning *

Feng, Mingxiao, Yaodong Yang, Wengang Zhou, and Houqiang Li

Neural Networks

Self-Play Survey Reinforcement Learning

PRE

A Survey on Self-play Methods in Reinforcement Learning

Ruize Zhang, Zelai Xu, Chengdong Ma, Chao Yu, Wei-Wei Tu, Wenhao Tang, Shiyu Huang, Deheng Ye, Wenbo Ding, Yaodong Yang, Yu Wang

arXiv 2024

arXiv PDF

PRE

Align Anything: Training All-Modality Models to Follow Instructions with Language Feedback *

Jiaming Ji, Jiayi Zhou, Hantao Lou, Boyuan Chen, Donghai Hong, Xuyao Wang, Wenqi Chen, Kaile Wang, Rui Pan, Jiahao Li, Mohan Wang, Josef Dai, Tianyi Qiu, Hua Xu, Dong Li, Weipeng Chen, Jun Song, Bo Zheng, Yaodong Yang#

arXiv 2024

All-Modality Alignment

arXiv PDF

PRE

Efficient Model-agnostic Alignment via Bayesian Persuasion *

Fengshuo Bai, Mingzhi Wang, Zhaowei Zhang, Boyuan Chen, Yinda Xu, Ying Wen, Yaodong Yang#

arXiv 2024

Bayesian Methods Alignment

arXiv PDF

PRE

Learning Expressive Random Feature Models via Parametrized Activations *

Zailin Ma, Jiansheng Yang, Yaodong Yang#

arXiv 2024

Random Features

arXiv PDF

PRE

Leveraging Team Correlation for Approximating Equilibrium in Two-Team Zero-Sum Games

Naming Liu, Mingzhi Wang, Youzhi Zhang, Yaodong Yang, Bo An, Ying Wen

arXiv 2024

Nash Equilibrium Zero-Sum Games

arXiv PDF

PRE

Open-Ended Learning in General-Sum Games: The Role of Diversity in Correlated Equilibrium *

Zeyuan Zhao, Muning Wen, Ying Wen, Yaodong Yang#

ICLR 2024

Nash Equilibrium

PRE

Real-World Performance of Large Language Models in Emergency Department Chest Pain Triage

Xiangbin Meng, Kuo Zhang, Xiangyu Yan, Da Liu, Yaodong Yang, Jingjia Wang, Wenyao Wang, Yi-Da Tang, et al.

medRxiv 2024

Medical AI LLM

PRE

Reason to Behave: Achieving Human-Like Task Execution for Physics-Based Characters

Nian Liu, Yaodong Yang, Zilong Zhang, Zi Wang, Jiayi Zhou, Libin Liu, Song-Chun Zhu, Zhibo Yang, Zhaofeng He

ICLR 2024

Physics

PRE

Sample-Efficient Regret-Minimizing Double Oracle in Extensive-Form Games *

Xiaohang Tang, Chiyuan Wang, Chengdong Ma, Ilija Bogunovic, Stephen McAleer, Yaodong Yang#

arXiv 2024

Double Oracle Extensive-Form Games

arXiv PDF

2023 42 papers

AGT

Carbon trading supply chain management based on constrained deep reinforcement learning *

Wang, Qinghao, and Yaodong Yang.

Journal of Autonomous Agents and Multi-Agent Systems (JAAMAS)

Quantitative Finance Supply Chain Reinforcement Learning

AI4

A Deep Reinforcement Learning-driven Vine Copula Method for Correlation Structure Analysis of Mortgage *

Qinghao Wang, Yanling PENG, Yijie Peng, Yaodong Yang

计量经济学报

Quantitative Finance Reinforcement Learning

ALN

BeaverTails: A Human-Preference Dataset for LLM Harmlessness Alignment *

Jiaming Ji, Mickel Liu, Juntao Dai, Xuehai Pan, Chi Zhang, Ce Bian, Chi Zhang, Ruiyang Sun, Yizhou Wang, Yaodong Yang#

NeurIPS23DB

BeaverTails Preference Dataset Dataset Preference Learning Safety

ALN

ReDMan: Reliable Dexterous Manipulation with Safe Reinforcement Learning *

Yiran Geng, Jiaming Ji, Yuanpei Chen, Haoran Geng, Fangwei Zhong, and Yaodong Yang

Machine Learning Journal

ReDMan Dexterous Manipulation Safe RL Robotics Reinforcement Learning

ALN

Safety Gymnasium: A Unified Safe Reinforcement Learning Benchmark *

Jiaming Ji, Borong Zhang, Jiayi Zhou, Xuehai Pan, Weidong Huang, Ruiyang Sun, Yiran Geng, Yifan Zhong, Juntao Dai, Yaodong Yang#

NeurIPS23DB

Safety Gymnasium Gym Environment RL Environment Safe RL Benchmark

arXiv S2

EMB

Dynamic Handover: Throw and Catch with Bimanual Hands

Huang, Binghao, Yuanpei Chen, Tianyu Wang, Yuzhe Qin, Yaodong Yang, Nikolay Atanasov, and Xiaolong Wang

CoRL 2023

Bimanual

EMB

End-to-End Affordance Learning for Robotic Manipulation *

Geng, Yiran, Boshi An, Haoran Geng, Yuanpei Chen, Yaodong Yang, and Hao Dong

ICRA 2023

Affordance Robotics

EMB

GenDexGrasp: Generalizable Dexterous Grasping

Li, Puhao, Tengyu Liu, Yuyang Li, Yiran Geng, Yixin Zhu, Yaodong Yang, and Siyuan Huang

ICRA 2023

GenDexGrasp Dexterous Manipulation Grasping

EMB

Hierarchical Multi-Agent Skill Discovery *

Yang, Mingyu, Yaodong Yang, Zhenbo Lu, Wengang Zhou, and Houqiang Li

NeurIPS 2023

Multi-Agent RL Skill Learning

EMB

UniDexGrasp++: Improving Dexterous Grasping Policy Learning via Geometry-aware Curriculum and Iterative Generalist-Specialist Learning

Wan, Weikang, Haoran Geng, Yun Liu, Zikang Shan, Yaodong Yang, Li Yi, and He Wang

ICCV 2023

UniDexGrasp Dexterous Manipulation Grasping

MRL

MARLlib: A Multi-agent Reinforcement Learning Library *

Siyi Hu, Yifan Zhong, Minquan Gao, Weixun Wang, Hao Dong, Xiaodan Liang, Zhihui Li, Xiaojun Chang, Yaodong Yang#

Journal of Machine Learning Research (JMLR)

MARLlib Multi-Agent RL Reinforcement Learning

MRL

On the complexity of computing markov perfect equilibrium in general-sum stochastic games *

Xiaotie Deng, Ningyuan Li, David Mguni, Jun Wang, Yaodong Yang#

National Science Review

Nash Equilibrium Stochastic Games

arXiv PDF S2

ALN

Safe multi-agent reinforcement learning for multi-robot control *

Shangding Gu, Jakub Grudzien Kuba, Yuanpei Chen, Yali Du, Long Yang, Alois C. Knoll, Yaodong Yang#

Artificial Intelligence Journal (AIJ)

Multi-Agent RL Robotics Reinforcement Learning

PDF S2

MRL

TorchOpt: An Efficient Library for Differentiable Optimization *

Jie Ren, Xidong Feng, Bo Liu, Xuehai Pan, Yao Fu, Luo Mai, Yaodong Yang#

Journal of Machine Learning Research (JMLR)

Differentiable Optimization

arXiv PDF S2

MRL

A Game-Theoretic Approach to Multi-Agent Trust Region Optimization

Wen, Ying, Hui Chen, Yaodong Yang, Minne Li, Zheng Tian, Xu Chen, and Jun Wang

DAI'23

Trust Region Game Theory Multi-Agent RL

MRL

A Game-Theoretic Framework for Managing Risk in Multi-Agent Systems

Slumbers, Oliver, David Henry Mguni, Stefano B. Blumberg, Stephen Marcus Mcaleer, Yaodong Yang, and Jun Wang

ICML 2023

Game Theory Multi-Agent RL

MRL

Attacking Cooperative Multi-Agent Reinforcement Learning by Adversarial Minority Influence

Simin Li, Jun Guo, Jingqiao Xiu, Yuwei Zheng, Pu Feng, Xin Yu, Jiakai Wang, Aishan Liu, Yaodong Yang#, Bo An, Wenjun Wu, Xianglong Liu

Neural Networks

Cooperative MARL Adversarial Attack Adversarial Robustness Multi-Agent RL Cooperation

MRL

Cooperative Multi-agent Q-learning with Bidirectional Action-Dependency *

Li, Chuming, Jie Liu, Yinmin Zhang, Yuhong Wei, Yazhe Niu, Yaodong Yang, Yu Liu, and Wanli Ouyang

AAAI 2023

Cooperative MARL Multi-Agent RL Q-Learning Cooperation

arXiv PDF S2

MRL

Discrete information acquisition in financial markets

Pan, Jingrui, Shancun Liu, Qiang Zhang, and Yaodong Yang

Mathematics (MDPI)

Quantitative Finance Finance

MRL

Distributed Reinforcement Learning with Dataflow Fragments

Zhu, Huanzhou, Bo Zhao, Gang Chen, Weifeng Chen, Yijie Chen, Liang Shi, Yaodong Yang, Peter Pietzuch, and Lei Chen

ATC

Distributed Systems Reinforcement Learning

MRL

GEAR: A GPU-Centric Experience Replay System for Large Reinforcement Learning Models

Wang, Hanjing, Man-Kit Sit, Congjie He, Ying Wen, Weinan Zhang, Jun Wang, Yaodong Yang, and Luo Mai

ICML 2023

Non-Transitivity Game AI Zero-Sum Games

arXiv PDF S2

MRL

Is Nash Equilibrium Approximator Learnable ?

Duan, Zhijian, Wenhan Huang, Dinghuai Zhang, Yali Du, Jun Wang, Yaodong Yang, and Xiaotie Deng

AAMAS 2023

Nash Equilibrium

MRL

JiangJun: Mastering Xiangqi by Tackling Non-Transitivity in Two-Player Zero-Sum Games *

Li, Yang, Kun Xiong, Yingping Zhang, Jiangcheng Zhu, Stephen Mcaleer, Wei Pan, Jun Wang, Zonghong Dai, and Yaodong Yang

Transactions on Machine Learning Research (TMLR)

MRL

Large sequence models for sequential decision-making: a survey

Wen, Muning, Runji Lin, Hanjing Wang, Yaodong Yang, Ying Wen, Luo Mai, Jun Wang, Haifeng Zhang, and Weinan Zhang

Frontiers of Computer Science (FCS)

Survey Sequence Modeling

MRL

Learning to Shape Rewards using a Game of Two Partners *

Mguni, David, Taher Jafferjee, Jianhong Wang, Nicolas Perez-Nieves, Wenbin Song, Feifei Tong, Matthew Taylor, Yaodong Yang, et al

AAAI 2023

Reward Shaping

MRL

MALib: A Parallel Framework for Population-based Multi-agent Reinforcement Learning

Zhou, Ming, Ziyu Wan, Hanjing Wang, Muning Wen, Runzhe Wu, Ying Wen, Yaodong Yang, Yong Yu, Jun Wang, and Weinan Zhang

Journal of Machine Learning Research (JMLR)

MALib Population-Based Multi-Agent RL Reinforcement Learning

MRL

MANSA: Learning Fast and Slow in Multi-Agent Systems *

Mguni, David Henry, Haojun Chen, Taher Jafferjee, Jianhong Wang, Longfei Yue, Xidong Feng, Stephen Marcus Mcaleer, Feifei Tong, Jun Wang, and Yaodong Yang.

ICML 2023

MRL

Multi-Agent First Order Constrained Optimization in Policy Space *

Zhao, Youpeng, Yaodong Yang, Zhenbo Lu, Wengang Zhou, and Houqiang Li

NeurIPS 2023

MRL

Offline Pre-trained Multi-Agent Decision Transformer

Meng, Linghui and Wen, Muning and Le, Chenyang and Li, Xiyun and Xing, Dengpeng and Zhang, Weinan and Wen, Ying and Zhang, Haifeng and Wang, Jun and Yang, Yaodong and others

Machine Intelligence Research (MIR)

PDF S2

MRL

Online Markov Decision Processes with Non-oblivious Strategic Adversary *

Le Dinh, Cong, David Henry Mguni, Long Tran-Thanh, Jun Wang, and Yaodong Yang

Journal of Autonomous Agents and Multi-Agent Systems (JAAMAS)

Adversarial Robustness MDP

MRL

Policy Space Diversity for Non-Transitive Games

Yao, Jian, Weiming Liu, Haobo Fu, Yaodong Yang, Stephen McAleer, Qiang Fu, and Wei Yang

NeurIPS 2023

Non-Transitivity

MRL

QUALITY-SIMILAR DIVERSITY VIA POPULATION BASED REINFORCEMENT LEARNING

Wu, Shuang, Jian Yao, Haobo Fu, Ye Tian, Chao Qian, Yaodong Yang, Qiang Fu, and Yang Wei

ICLR 2023

Double Oracle Extensive-Form Games

MRL

Regret-Minimizing Double Oracle for Extensive-Form Games *

Tang, Xiaohang, Stephen Marcus McAleer, and Yaodong Yang

ICML 2023

MRL

Remember the Past for Better Future: Memory-Augmented Offline RL *

Zhang, Yue, Yaodong Yang, Zhenbo Lu, Wengang Zhou, and Houqiang Li

IJCNN

Offline RL

MRL

Robust Multi-Agent Reinforcement Learning by Mutual Information Regularization

Simin Li,Ruixiao Xu,Jingqiao Xiu,Yuwei Zheng,Pu Feng,Yuqing Ma,Bo An,Yaodong Yang,Xianglong Liu

IEEE Transactions on Neural Networks and Learning Systems (TNNLS)

Wireless ML Signal Processing

MRL

Self-Supervised MAFENN for Classifying Low-labeled Distorted Images over Mobile Fading Channels

Li, Yang, Fanglei Sun, Jingchen Hu, Chang Liu, Fan Wu, Kai Li, Ying Wen, Yaodong Yang, et al

IEEE Transactions on Mobile Computing

MRL

Subspace-Aware Exploration for Sparse-Reward Multi-Agent Tasks

Xu, Pei, Junge Zhang, Qiyue Yin, Chao Yu, Yaodong Yang, and Kaiqi Huang

AAAI 2023

PSRO Team Games Cooperation Reinforcement Learning

MRL

Team-PSRO for Learning Approximate TMECor in Large Team Games via Cooperative Reinforcement Learning

McAleer, Stephen, Gabriele Farina, Gaoyue Zhou, Mingzhi Wang, Yaodong Yang, and Tuomas Sandholm

NeurIPS 2023

MRL

Theoretically Guaranteed Policy Improvement Distilled from Model-Based Planning

Li, Chuming, Ruonan Jia, Jie Liu, Yinmin Zhang, Yazhe Niu, Yaodong Yang, Yu Liu, and Wanli Ouyang.

ECAI

Theory

PDF S2

PRE

Baichuan 2: Open Large-scale Language Models

Aiyuan Yang, Bin Xiao, Bingning Wang, Borong Zhang, Ce Bian, Chao Yin, Chenxu Lv, Da Pan, Dian Wang, Dong Yan, Fan Yang, Fei Deng, Feng Wang, Feng Liu, Guangwei Ai, Guosheng Dong, Haizhou Zhao, Hang Xu, Haoze Sun, Hongda Zhang, Hui Liu, Jiaming Ji, Jian Xie, JunTao Dai, Kun Fang, Lei Su, Liang Song, Lifeng Liu, Liyun Ru, Luyao Ma, Mang Wang, Mickel Liu, MingAn Lin, Nuolan Nie, Peidong Guo, Ruiyang Sun, Tao Zhang, Tianpeng Li, Tianyu Li, Wei Cheng, Weipeng Chen, Xiangrong Zeng, Xiaochuan Wang, Xiaoxi Chen, Xin Men, Xin Yu, Xuehai Pan, Yanjun Shen, Yiding Wang, Yiyu Li, Youxin Jiang, Yuchen Gao, Yupeng Zhang, Zenan Zhou, Zhiying Wu, Yaodong Yang

arXiv 2023

LLM

arXiv PDF

PRE

Mixup-Augmented Meta-Learning for Sample-Efficient Fine-Tuning of Protein Simulators

Jingbang Chen, Yian Wang, Xingwei Qu, Shuangjia Zheng, Yaodong Yang, Hao Dong, Jie Fu

arXiv 2023

Protein Meta-Learning

arXiv PDF

PRE

ValueDCG: Measuring Comprehensive Human Value Understanding Ability of Language Models *

Zhaowei Zhang, Fengshuo Bai, Jun Gao, Yaodong Yang#

arXiv 2023

LLM

arXiv PDF

2022 18 papers

AI4

Solving inventory management problems through deep reinforcement learning *

Wang, Qinghao, Yijie Peng, and Yaodong Yang

Journal of Systems Science and Complexity (JSSSC)

Inventory Management Reinforcement Learning

ALN

Constrained Update Projection Approach to Safe Policy Optimization

Yang, Long, Jiaming Ji, Juntao Dai, Linrui Zhang, Binbin Zhou, Pengfei Li, Yaodong Yang, and Gang Pan

NeurIPS 2022

Safe RL

arXiv PDF S2

ALN

Meta-Reward-Net: Implicitly Differentiable Reward Learning for Preference-based Reinforcement Learning *

Liu, Runze, Fengshuo Bai, Yali Du, and Yaodong Yang

NeurIPS 2022

Meta-RL Preference Learning Reinforcement Learning

EMB

MyoChallenge 2022: Learning contact-rich manipulation using a musculoskeletal hand

Caggiano, Vittorio, Guillaume Durandau, Huwawei Wang, Alberto Chiappa, Alexander Mathis, Pablo Tano, Nisheet Patel, Yaodong Yang, et al

NeurIPS 2022 Dataset

Dataset Robotics

EMB

Towards Human-Level Bimanual Dexterous Manipulation with Reinforcement Learning *

Chen, Yuanpei, Tianhao Wu, Shengjie Wang, Xidong Feng, Jiechuan Jiang, Zongqing Lu, Stephen McAleer, Hao Dong, Song-Chun Zhu, and Yaodong Yang

NeurIPS 2022 Dataset

Bimanual Dexterous Manipulation Dataset Robotics Reinforcement Learning

arXiv PDF S2

MRL

A Game-Theoretic Approach for Improving Generalization Ability of TSP Solvers

Chenguang Wang, Yaodong Yang, Oliver Slumbers, Congying Han, Tiande Guo, Haifeng Zhang, Jun Wang

ICLR 2022 Workshop

Game Theory

arXiv PDF

MRL

A Theoretical Understanding of Gradient Bias in Meta-Reinforcement Learning *

Liu, Bo, Xidong Feng, Jie Ren, Luo Mai, Rui Zhu, Haifeng Zhang, Jun Wang, and Yaodong Yang

NeurIPS 2022

Meta-RL Theory Reinforcement Learning

MRL

A Unified Diversity Measure for Multiagent Reinforcement Learning

Liu, Zongkai, Chao Yu, Yaodong Yang, Zifan Wu, and Yuan Li

NeurIPS 2022

Multi-Agent RL Reward Shaping

MRL

Debias the Black-Box: A Fair Ranking Framework via Knowledge Distillation

Zhu, Zhitao, Shijing Si, Jianzong Wang, Yaodong Yang, and Jing Xiao

WISE 2022

Fairness

MRL

LIGS: Learnable Intrinsic-Reward Generation Selection for Multi- Agent Learning

David Mguni1, Taher Jafferjee, Jianhong Wang, Oliver Slumbers, Nicolas Perez-Nieves, Feifei Tong, Li Yang, Jiangcheng Zhu, Yaodong Yang , Jun Wang

ICLR 2022

MRL

MATE: Benchmarking Multi-Agent Reinforcement Learning in Distributed Target Coverage Control *

Pan, Xuehai, Mickel Liu, Fangwei Zhong, Yaodong Yang, Song-Chun Zhu, and Yizhou Wang

NeurIPS 2022 Dataset

Distributed Systems Multi-Agent RL Benchmark Dataset Reinforcement Learning

MRL

Measuring the Non-Transitivity in Chess *

Sanjaya, Ricky, Jun Wang, and Yaodong Yang

MDPI

Non-Transitivity Game AI

MRL

Multi-Agent Reinforcement Learning is a Sequence Modeling Problem *

Muning Wen, Jakub Grudzien Kuba, Runji Lin, Weinan Zhang, Ying Wen, Jun Wang, Yaodong Yang#

NeurIPS 2022

Multi-Agent RL Sequence Modeling Reinforcement Learning

MRL

Online double oracle *

Le Cong Dinh, Yaodong Yang, Stephen McAleer, Zheng Tian, Nicolas Perez Nieves, Oliver Slumbers, David Henry Mguni, Haitham Bou Ammar, Jun Wang

Transactions on Machine Learning Research (TMLR)

Double Oracle

MRL

Scalable Model-based Policy Optimization for Decentralized Networked Systems *

Du, Yali, Chengdong Ma, Yuchen Liu, Runji Lin, Hao Dong, Jun Wang, and Yaodong Yang

IROS 2022

Network Control

MRL

Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning *

Jakub Grudzien Kuba, Ruiqing Chen, Muning Wen, Ying Wen, Fanglei Sun, Jun Wang, Yaodong Yang#

ICLR 2022

Trust Region Multi-Agent RL Reinforcement Learning

PRE

Efficient Policy Space Response Oracles

Ming Zhou, Jingxiao Chen, Ying Wen, Weinan Zhang, Yaodong Yang, Yong Yu, Jun Wang

arXiv 2022

PSRO

arXiv PDF

PRE

Heterogeneous-Agent Mirror Learning: A Continuum of Solutions to Cooperative MARL *

Jakub Grudzien Kuba, Xidong Feng, Shiyao Ding, Hao Dong, Jun Wang, Yaodong Yang#

arXiv 2022

HARL Multi-Agent RL Cooperation

arXiv PDF

2021 6 papers

MRL

Diverse Auto-Curriculum is Critical for Successful Real-World Multiagent Learning Systems *

Yaodong Yang, Jun Luo, Ying Wen, Oliver Slumbers, Daniel Graves, Haitham Bou Ammar, Jun Wang, Matthew E. Taylor

AAMAS 2021 ★ Best Paper

Auto-Curriculum Multi-Agent RL

arXiv PDF

MRL

Neural Auto-Curricula *

Xidong Feng, Oliver Slumbers, Ziyu Wan, Bo Liu, Stephen McAleer, Ying Wen, Jun Wang, Yaodong Yang#

NeurIPS 2021

Auto-Curriculum

MRL

On the Convergence of Fictitious Play: A Decomposition Approach

Mguni, D., Y. Chen, X. Deng, C. Li, Jun Wang, Xiang Yan, and Yaodong Yang

IJCAI 2021

Fictitious Play

MRL

Settling the Variance of Multi-Agent Policy Gradients *

Jakub Grudzien Kuba, Muning Wen, Linghui Meng, Shangding Gu, Haifeng Zhang, David Henry Mguni, Jun Wang, Yaodong Yang#

NeurIPS 2021

Multi-Agent RL Policy Gradient Theory

MRL

Unifying Behavioral and Response Diversity for Open-ended Learning in Zero-sum Games

Xiangyu Liu, Hangtian Jia, Ying Wen, Yujing Hu,Yingfeng Chen, Changjie Fan, Zhipeng Hu, Yaodong Yang

NeurIPS 2021

Zero-Sum Games

PRE

Cooperative Multi-Agent Transfer Learning with Level-Adaptive Credit Assignment

Tianze Zhou, Fubiao Zhang, Kun Shao, Kai Li, Wenhan Huang, Jun Luo, Weixun Wang, Yaodong Yang, Hangyu Mao, Bin Wang, Dong Li, Wulong Liu, Jianye Hao

arXiv 2021

Cooperative MARL Multi-Agent RL Cooperation

arXiv PDF

2020 6 papers

AI4

Can Deep Learning Predict Risky Retail Investors? A Case Study in Financial Risk Behavior Forecasting

A. Kim, Y. Yang, S. Lessmann, T. Ma, M.-C. Sung, J. E. V. Johnson

European 2020

Finance

arXiv PDF

EMB

SMARTS: An Open-Source Scalable Multi-Agent RL Training School for Autonomous Driving

Ming Zhou, Jun Luo, Julian Villella, Yaodong Yang, David Rusu, Jiayu Miao, Weinan Zhang, Montgomery Alban, Iman Fadakar, Zheng Chen, Aurora Chongxi Huang, Ying Wen, Kimia Hassanzadeh, Daniel Graves, Dong Chen, Zhengbang Zhu, Nhat Nguyen, Mohamed Elsayed, Kun Shao, Sanjeevan Ahilan, Baokuan Zhang, Jiannan Wu, Zhengang Fu, Kasra Rezaee, Peyman Yadmellat, Mohsen Rohani, Nicolas Perez Nieves, Yihan Ni, Seyedershad Banijamali, Alexander Cowen Rivers, Zheng Tian, Daniel Palenicek, Haitham bou Ammar, Hongbo Zhang, Wulong Liu, Jianye Hao, Jun Wang

CoRL 2020 ★ Best Paper

SMARTS Autonomous Driving Multi-Agent RL

arXiv PDF

MRL

Bi-level Actor-Critic for Multi-agent Coordination

Haifeng Zhang, Weizhe Chen, Zeren Huang, Minne Li, Yaodong Yang, Weinan Zhang, Jun Wang

AAAI 2020