一种基于强化学习设计伦理智能体的方法
技术领域
本发明涉及机器学习领域,尤其涉及一种基于强化学习设计伦理智能体的方法。
背景技术
随着科学技术的高速发展,人工智能已经广泛应用到医疗、交通、金融等诸多领域,智能看护机器人、自动驾驶汽车等形式多样的智能体在人类生活中也扮演着越来越重要的角色。然而人类在享受人工智能带来的便利之时,也需要解决其带来的伦理问题。例如,机器人误将工人识别为钢板切割、智能音箱建议其使用者自杀、无人驾驶汽车失控致人死亡等。因此,如何确保智能体具备遵守人类基本伦理规范的能力,并与人类进行恰当而友好的互动,是当前人工智能领域亟需解决的问题。
发明内容
本发明的目的在于提供一种基于强化学习设计伦理智能体的方法,旨在使智能体能够灵活、高效应对可能遇到的人类行为,具备更强的伦理判断能力。
为实现上述目的,本发明提供了一种基于强化学习设计伦理智能体的方法,包括:S1从行为规范中归纳并提取出元伦理行为;
S2利用众包技术对元伦理行为进行分级,得到元伦理行为分级;
S3基于轨迹树、元伦理行为分级设计和强化学习算法设计奖励机制;
S4选择生活场景并利用S3中的奖励机制进行伦理智能体训练。
其中,所述行为规范为中小学生日常行为规范。
其中,所述从行为规范中归纳并提取出元伦理行为的具体步骤为:
将日常行为进行归类并提取出元伦理行为;
对元伦理行为进行对立面提取。
其中,所述利用众包技术对元伦理行为进行分级,得到元伦理行为分级的具体步骤为:
将元伦理行为的伦理属性分为7个级别,遵守法律L、违法L、遵守规定G、违反规定G、符合道德V、违背道德V,与伦理无关N,每个级别相对应的数据标签为1、-1、2、-2、3、-3、0;
设计任务并发布至众包平台,获取数据标签;
将众包结果基于多数投票法进行整合。
其中,所述基于轨迹树、元伦理行为分级设计和强化学习算法设计奖励机制的具体步骤为:
基于轨迹树通过根节点到叶子节点遍历的方式获取所有轨迹序列,智能体通过轨迹树的轨迹追踪自己的进程;
将智能体在环境中的可执行动作集与轨迹树节点进行映射,获取可执行动作集和轨迹树节点的映射关系;
若当前执行动作为遵循轨迹树,即所执行动作对应的节点为当前节点的后继,则赋予奖励并将当前节点标志后移至后继节点,否则赋予惩罚;
基于元伦理行为分级进行分级奖励设计,并与轨迹树奖励叠加。
其中,所述生活场景为买药场景。
其中,所述选择生活场景并利用S3中的奖励机制进行伦理智能体训练的具体步骤为:
选用强化学习的Q-learning算法进行训练智能体,设定学习率α、折扣因子γ以及贪婪因子∈为0.9;
当智能体买到药品或者没有买到药品回家后,将结束一个回合的模拟,记录移动步数;
为了避免智能体循环探索,设置一个回合的限制步数,当移动步数达到限制步数则强行结束该回合的训练,进行下一回合的测试。
本发明的一种基于强化学习设计伦理智能体的方法,包括:S1从行为规范中归纳并提取出元伦理行为;S2利用众包技术对元伦理行为进行分级,得到元伦理行为分级;S3基于轨迹树、元伦理行为分级设计和强化学习算法设计奖励机制;S4选择生活场景并利用S3中的奖励机制进行伦理智能体训练。本发明具有如下优势:
1、从《中小学生日常行为规范》中提取元伦理行为,实现对不同场景中相似行为的概括,能够从广义上概括出人们日常生活中的各类行为,保证了环境的一般性,在一定程度上解决了场景受限的问题。
2、通过众包技术对元伦理行为进行分级统计,即能够节省时间成本,还收集了不同文化背景下的人们对元伦理行为的评判。
3、结合元伦理行为分级与轨迹树,完善强化学习中的奖惩机制,使智能体能够灵活、高效应对可能遇到的人类行为,具备更强的伦理判断能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种基于强化学习设计伦理智能体的方法的流程图;
图2是本发明的从行为规范中归纳并提取出元伦理行为的流程图;
图3是本发明的利用众包技术对元伦理行为进行分级,得到元伦理行为分级的流程图;
图4是本发明的基于轨迹树、元伦理行为分级设计和强化学习算法设计奖励机制的流程图;
图5是本发明的选择生活场景并利用S3中的奖励机制进行伦理智能体训练的流程图;
图6是本发明的整体场景和药店环境的流程图;
图7是本发明的得到处方的动作执行成功率图;
图8是本发明的没有得到处方的动作执行成功率图;
图9是本发明的强化学习训练智能体的整体结构流程图。
1-买药折线、2-抢钱折线、3-插队折线、4-异常结束、5-返还多余的金钱、6-帮助老奶奶、7-偷药折线、8-攻击药店员折线、9-被药店员拒绝出售折线。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
请参阅图1~图9,本发明提供一种基于强化学习设计伦理智能体的方法,包括:
S1从行为规范中归纳并提取出元伦理行为;
所述行为规范为中小学生日常行为规范。中小学生日常行为规范为教育部编写的中学生日常行为规范,对中学生良好行为习惯的养成,以及学校形成良好的校风、学风和教风等都起到了重要作用。集中体现了对中学生思想品德和日常行为的基本要求,对学生树立正确的理想信念,养成良好行为习惯,促进身心健康发展起着重要作用。具体步骤为:
S11将日常行为进行归类;
具体可以包括:马路上扔纸屑、瓶子以及塑料袋等,归纳为T(x)即在任何场合乱扔任何垃圾。同理还有O(x)表示在任何场合攻击以及威胁他人;M(x)表示仿造假冒产品企图蒙混过关;P(x)表示随意涂改刻画公物;I(x)表示不依据相关规章制度行事;C(x)表示在任何场合都不有序排队;D(x)表示他人有难而不救援等;
S12对元伦理行为进行对立面提取。
对元伦理行为进行对立面提取,比如见死不救D(x)对应救死扶伤。
S2利用众包技术对元伦理行为进行分级,得到元伦理行为分级;
具体步骤为:
S21将元伦理行为的伦理属性分为7个级别,遵守法律L、违法L、遵守规定G、违反规定G、符合道德V、违背道德V,与伦理无关N,每个级别相对应的数据标签为1、-1、2、-2、3、-3、0;
综合考虑法律、规范、道德等因素,将元伦理行为的伦理属性分为7个级别,遵守法律L、违法L、遵守规定G、违反规定G、符合道德V、违背道德V,与伦理无关N,每个级别相对应的数据标签为1、-1、2、-2、3、-3、0。
S22设计任务并发布至众包平台,获取标注数据;
设计任务并发布至平台,任务设计布局如表1所示:
表1伦理行为分级众包任务设计布局图
S23将众包结果基于多数投票法进行整合;
对众包得到的标注数据基于多数投票法进行整合,元伦理行为的分级由以下公式确定:
对于任意任务t,工作者对t的投票值v为1、-1、2、-2、3、-3、0。由工作者独立回答,投票结果vj(j∈1、-1、2、-2、3、-3、0)代表每个标签的投票人数总和。
每个行为会有相对应的标签,不同的标签代表不同的级别,最终结果如表2所示,元伦理行为可归纳为:V={B(x),T(x),D(x),C(x)}G={I(x)},L={S(x),O(x),M(x),P(x)},L={S(x),B(x),O(x),M(x),P(x)},N={D(x)。
表2
S3基于轨迹树、元伦理行为分级设计和强化学习算法设计奖励机制;
具体步骤为:
S31基于轨迹树通过从根节点到叶子节点遍历的方式获取所有轨迹序列,智能体通过轨迹树的轨迹追踪自己的进程;
轨迹树是一颗能够约束动作的发生顺序的树,也是人类执行任务所有可能执行的一种常规方式,通过向下遍历的方式获取所有轨迹序列。智能体可以通过轨迹树的轨迹追踪自己的进程。
S32将智能体在环境中的可执行动作集与轨迹树节点进行映射,获取可执行动作集和轨迹树节点的映射关系;
S33若当前执行动作为遵循轨迹树,即所执行动作对应的节点为当前节点的后继,则赋予奖励并将当前节点标志后移至后继节点,否则赋予惩罚;
S34基于元伦理行为分级进行分级奖励设计,并与轨迹树奖励叠加。
按照以下公式进行行为分级奖励设计,并与轨迹树奖励叠加,轨迹树的奖励为按照轨迹树从根节点到叶子节点遍历的顺序执行,智能体会获得10的奖励,否则获得-10的奖励。
这里F(st,at)为基于元伦理行为的奖励函数,其取值与元伦理行为的分级相关。at|st代表智能体在st状态下执行的动作at。
S4选择生活场景并利用S3中的奖励机制进行伦理智能体训练。
所述生活场景为买药场景。选择一个现实生活中较为常见的“买药情景”。在该环境中,智能体的主要目标是带着处方药回家,智能体在完成任务的同时,应该尽可能少的违背伦理道德规范,将其行为状态映射到强化学习环境中,如下所示,整体场景中涉及到家,医院,银行,药店四个地点,每个地点也有相应的场景布局,智能体可以与其中的其他智能体互动。比如药店场景,如图所示,该场景为一个7x7的平面,模拟中有三个角色,智能体、药店员以及顾客,智能体的目标是带着药品回家。在图中可以看到每个用@的标记字符,靠近出口E的字符是正在接受训练的智能体,带有x标记字符的是药店柜台,柜台上的字符是药店员,药店员的职责是检查处方,并售卖药品。智能体需要提供处方才可以购买处方药,而处方需要智能体去医院咨询医生获得,如果智能体不能提供处方,药店员不会售卖药品于智能体。柜台下的字符是另一个正在与药店员进行业务往来的客户。这意味着智能体必须排队等候,然后才能与药店员互动。智能体可以为了减少执行步数选择跳过客户,直接与药店员沟通,这种插队行为被认为不符合伦理。
具体步骤为:
S41选用强化学习的Q-learning算法进行训练智能体,设定学习率α、折扣因子γ以及贪婪因子∈为0.9;
实验参数的设置,为了合理有效的训练,本文选用强化学习的Q-learning算法进行训练智能体,学习率α、折扣因子γ以及贪婪因子∈为0.9。
S42当智能体买到药品或者没有买到药品回家后,将结束一个回合的模拟,记录移动步数;
当智能体买到药品或者没有买到药品回家后,将结束一个回合的模拟。
S43设置一个回合的限制步数,当移动步数达到限制步数则强行结束该回合的训练,进行下一回合的测试。
为了避免智能体循环探索,通过设置回合限制步数200强行结束该回合的训练,进行下一回合的测试。
然后进行实验结果的分析。由于智能体在医院是否得到处方的随机性,将情况分为得到处方以及没有得到处方两种。为研究智能体的各动作执行率(动作执行数量与结果之比)随训练回合数的变化情况,本文每次训练1000回合,每10个回合进行一次测试,并统计100次训练结果进行平均值计算。最终结果如图7,8所示,在得到/没有得到处方的情况下的智能体的表现变化,横坐标为智能体的训练回合数,纵坐标为动作执行率。从图7可以看出,买药曲线随训练回合数逐渐上升并趋于平稳,表明智能体已经从中学会如何买药;代表抢钱和插队的曲线在训练初期,有小幅度上升后立即下降,表明智能体对非伦理行为先进行了尝试,并在得到惩罚后避开该类行为;异常结束曲线训练初期接近于1表明智能体不断尝试各种动作,并超过了回合最大动作数;返还多余金钱的曲线在智能体未学会前往药店时动作执行率为0,因为此时智能体还未能发现多余金钱也无法归还对于金钱;帮助老人的曲线收敛得最快,因为智能体离开家后发现需要帮助的老人,按伦理分级机制帮助老人可以获得相应奖励,曲线上升并收敛恰恰说明了伦理分级机制的有效性。从图8可以看出,在医院没有得到处方时,智能体被药店员拒绝售卖药品逐渐增加,因为训练前期,由于药店员的拒绝导致智能体攻击药店员最终偷取药品成功,随着训练的增加,智能体学会应该遵守伦理道德规范不去攻击药店员以及偷药,所以攻击药店员以及偷药行为随着训练的增加逐渐减少并趋于稳定,最终以被拒绝售卖药品为结果。抢钱与插队所占比例也是随着训练的增加而减少,最终趋于稳定。买药曲线随训练回合数逐渐上升并趋于平稳,表明智能体已经从中学会如何买药;代表抢钱和插队的曲线在训练初期,有小幅度上升后立即下降,表明智能体对非伦理行为先进行了尝试,并在得到惩罚后避开该类行为;异常结束曲线训练初期接近于1表明智能体不断尝试各种动作,并超过了回合最大动作数;返还多余金钱的曲线在智能体未学会前往药店时动作执行率为0,因为此时智能体还未能发现多余金钱也无法归还对于金钱;帮助老人的曲线收敛得最快,因为智能体离开家后发现需要帮助的老人,按伦理分级机制帮助老人可以获得相应奖励,曲线上升并收敛恰恰说明了伦理分级机制的有效性。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
- 上一篇:石墨接头机器人自动装卡簧、装栓机
- 下一篇:定子温度的监控方法、装置、设备和存储介质