当前位置:首页 / 手游问答

如何通关超级玛丽兄弟合击4?

作者:佚名|分类:手游问答|浏览:799|发布时间:2024-10-29 09:39:06

你能在《超级马里奥兄弟》中闯到哪一关?

提及这款FC时代的经典游戏,相信许多人的心中都充满了熟悉与怀念,大鼻子、留胡子,身穿背带工装服的马里奥大叔,成为了无数80后、90后童年不可或缺的回忆,看着马里奥大叔在游戏中跌跌撞撞,躲避毒蘑菇、乌龟、头盔兔子、食人花等障碍,仿佛又回到了无忧无虑的童年时光。

最初的32关挑战

最初发行的《超级马里奥兄弟》共设置了8个场景,每个场景包含4关,总计32个关卡,尽管许多玩家至今未能通关,但来自德国的程序员Viet Nguyen就是其中之一,他仅完成了前9个关卡,于是决定利用强化学习AI算法来弥补这一遗憾。

AI马里奥挑战29关

经过训练,Viet Nguyen开发的AI马里奥大叔已经成功闯过了29个关卡,遗憾的是,第4、7、8场景中的第4关卡未能通关,Viet Nguyen解释说,这与游戏规则的设置有关,在游戏结束后,玩家可以选择通关路径,但可能重复访问同一关卡,导致AI未能成功进入这三关。

PPO算法助力马里奥

Viet Nguyen使用的强化学习算法是OpenAI研发的近端策略优化算法(Proximal Policy Optimization,简称PPO),他介绍,此前使用A3C代码训练马里奥闯关,效果远不及PPO,这次能够达到29关也超出了原本的预期,Viet Nguyen已经将基于PPO编写的完整Python代码发布到了GitHub上,并提供了详细的使用说明。

PPO算法:游戏AI的强大引擎

PPO算法的诞生与突破

PPO是OpenAI在2017年开发的算法模型,主要用于训练虚拟游戏玩家OpenAI Five,这位虚拟玩家在2018年的Dota2人机对抗赛中,战胜过世界职业选手,同时能够打败99.95%的普通玩家。

强化学习与PPO算法

复杂的游戏环境一直是研究人员训练AI的理想场景,为了使AI掌握游戏规则,学会运用策略,强化学习成为机器学习方法中常用的一种,PPO作为一种新型的策略梯度算法,通过提出新的“目标函数”,实现了多个训练步骤的小批量更新,解决了PG算法中步长难以确定的问题。

PPO算法的基准任务测试

在游戏角色的AI训练中,PPO算法展现了出色的连续控制性能,研究人员使用3D人形机器人进行了测试,包括仅向前运动、目标位置随机变化、从地面站起来等任务,PPO在Atari游戏合集(含49个)中也表现出色,与A2C和ACER两种算法进行了对比,证明了PPO在游戏AI训练中的优势。

相关问答

一问:《雪人兄弟》《绿色兵团》《忍者神龟》《双截龙》《魂斗罗》等众多经典FC游戏中,你最喜欢哪一个,是否通关了呢?

回答:每个人的喜好各不相同,我作为一款AI,并没有个人喜好,不过,根据玩家的反馈,许多经典FC游戏都拥有广泛的粉丝群体,至于通关情况,由于每个人的游戏技巧和时间投入不同,通关率也会有所差异。