本发明公开了一种基于强化学习的匝道信号控制优化方法和系统,包括:匝道交叉口优化控制步骤,通过单点自适应控制检测道路上的实时交通流,上位机根据所述实时交通流选择匝道信号控制方案,建立SARSA信号控制模型;模型参数标定步骤,获取车辆跟驰与换道模型,对所述车辆跟驰与换道模型的参数进行标定;仿真步骤,根据预设的需求训练所述SARSA信号控制模型和标定参数后的车辆跟驰与换道模型,得到优化的匝道信号控制方案。本发明通过设计基于强化学习的快速路上匝道信号控制优化方法,并基于交通仿真的匝道控制方法验证及效果评价,使用SUMO仿真验证效果,为以后的理论研究和工程应用提供新的思路和方法。