撞墙一万次后,我的小车终于学会了走迷宫 (Q-Learning 实战)

没有 PID,没有路径规划算法,甚至没有地图。我把一辆虚拟小车扔进迷宫,告诉它:“撞墙扣分,到终点加分”。本文记录了它是如何从一只无头苍蝇,进化成老司机的过程。

November 18, 2025 · 1 min