如何通关超级玛丽兄弟合击4？

作者：佚名|分类：手游问答|浏览：799|发布时间：2024-10-29 09:39:06

你能在《超级马里奥兄弟》中闯到哪一关？

提及这款FC时代的经典游戏，相信许多人的心中都充满了熟悉与怀念，大鼻子、留胡子，身穿背带工装服的马里奥大叔，成为了无数80后、90后童年不可或缺的回忆，看着马里奥大叔在游戏中跌跌撞撞，躲避毒蘑菇、乌龟、头盔兔子、食人花等障碍，仿佛又回到了无忧无虑的童年时光。

最初的32关挑战

最初发行的《超级马里奥兄弟》共设置了8个场景，每个场景包含4关，总计32个关卡，尽管许多玩家至今未能通关，但来自德国的程序员Viet Nguyen就是其中之一，他仅完成了前9个关卡，于是决定利用强化学习AI算法来弥补这一遗憾。

AI马里奥挑战29关

经过训练，Viet Nguyen开发的AI马里奥大叔已经成功闯过了29个关卡，遗憾的是，第4、7、8场景中的第4关卡未能通关，Viet Nguyen解释说，这与游戏规则的设置有关，在游戏结束后，玩家可以选择通关路径，但可能重复访问同一关卡，导致AI未能成功进入这三关。

PPO算法助力马里奥

Viet Nguyen使用的强化学习算法是OpenAI研发的近端策略优化算法（Proximal Policy Optimization，简称PPO），他介绍，此前使用A3C代码训练马里奥闯关，效果远不及PPO，这次能够达到29关也超出了原本的预期，Viet Nguyen已经将基于PPO编写的完整Python代码发布到了GitHub上，并提供了详细的使用说明。

PPO算法：游戏AI的强大引擎

PPO算法的诞生与突破

PPO是OpenAI在2017年开发的算法模型，主要用于训练虚拟游戏玩家OpenAI Five，这位虚拟玩家在2018年的Dota2人机对抗赛中，战胜过世界职业选手，同时能够打败99.95%的普通玩家。

强化学习与PPO算法

复杂的游戏环境一直是研究人员训练AI的理想场景，为了使AI掌握游戏规则，学会运用策略，强化学习成为机器学习方法中常用的一种，PPO作为一种新型的策略梯度算法，通过提出新的“目标函数”，实现了多个训练步骤的小批量更新，解决了PG算法中步长难以确定的问题。

PPO算法的基准任务测试

在游戏角色的AI训练中，PPO算法展现了出色的连续控制性能，研究人员使用3D人形机器人进行了测试，包括仅向前运动、目标位置随机变化、从地面站起来等任务，PPO在Atari游戏合集（含49个）中也表现出色，与A2C和ACER两种算法进行了对比，证明了PPO在游戏AI训练中的优势。

如何通关超级玛丽兄弟合击4？

相关内容