基于多模态知识图谱的机器人个性化情感互动装置及方法
技术领域
本发明属于智能机器人领域,尤其涉及一种基于多模态知识图谱的机器人个性化情感互动装置及方法。
背景技术
家庭服务机器人是在家庭环境中自主或半自主工作的服务机器人,能够为人提供陪伴、娱乐、教育、家庭助理、清洁等服务。如何让家庭服务机器人更加智能地与人交互,是本
技术领域
亟需解决的一个重要问题,而家庭服务机器人智能化交互的一个重要方面,是让家庭中的每个成员都能获得个性化的情感互动体验。现有的家庭服务机器人产品、已发表的家庭服务机器人研究成果,均未单独涉及或重视让家庭中的每个成员都获得个性化的情感互动体验。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于多模态知识图谱的家庭服务机器人个性化情感互动装置及方法。本发明运用知识图谱中存储的知识为家庭中的每个用户提供个性化的情感互动。
本发明的目的是通过以下技术方案来实现的:一种基于多模态知识图谱的机器人个性化情感互动装置,包括:多模态知识图谱、用户注册模块、状态识别模块、互动实施模块、知识更新模块等。
多模态知识图谱用于存储每个已注册用户的信息,包括用户ID、人脸特征、声音偏好、情感策略。
用户注册模块用于为新用户注册,包括子模块:用户ID生成、人脸特征采集、声音偏好采集、情感策略初始化。
状态识别模块用于识别当前用户的身份和情感,包括子模块:人脸识别、情感识别。
互动实施模块用于生成与当前用户个性化情感互动的实施方案并下发给机器人执行,包括子模块:个性化语音合成、情感互动。
知识更新模块用于更新已注册用户在多模态知识图谱中的信息,包括子模块:用户反馈采集、情感策略更新、声音偏好更新。
进一步地,所述用户的情感策略包括对应于每一种预置情感的反馈动作、回答语句。
进一步地,所述用户注册模块中,情感策略初始化为:使用随机化的方法生成初始化的情感策略。
进一步地,所述互动实施模块中,个性化语音合成为:利用多模态知识图谱存储的当前用户的声音偏好,在与当前用户语音互动时合成相应风格的声音。
进一步地,所述互动实施模块中,情感互动为:利用状态识别模块识别出的当前用户的情感,查询多模态知识图谱获取当前用户在该情感下的情感策略,让机器人执行反馈动作,并合成用户偏好风格的声音让机器人播报回答语句。
进一步地,所述知识更新模块中,用户反馈包括满意或不满意;其中,情感策略更新为:对用户不满意的反馈动作或回答语句,随机生成一个新的反馈动作或回答语句替换,并更新多模态知识图谱。声音偏好更新为:对用户不满意的声音风格,由用户重新选择一个预置的声音风格替换,并更新多模态知识图谱。
一种基于上述装置的基于多模态知识图谱的机器人个性化情感互动方法,包括以下步骤:
(1)用户注册模块为新用户生成用户ID,然后采集新用户的人脸特征、声音偏好,然后为新用户生成初始化的情感策略,最后将新用户的用户ID以及人脸特征、声音偏好、情感策略记录到多模态知识图谱中。
(2)状态识别模块调用人脸识别得到当前用户的人脸特征,然后将当前用户的人脸特征与多模态知识图谱中存储的已注册用户的人脸特征进行匹配;如果没有匹配到已注册用户,则提示当前用户先进行注册,返回步骤(1);如果匹配到已注册用户,则查询出当前用户的用户ID,进入步骤(3)。
(3)状态识别模块调用情感识别尝试识别当前用户的情感;如果识别出已知情感,则将情感识别结果和用户ID传递给互动实施模块,进入步骤(4);如果没有识别出已知情感,则不断重复执行此步骤,直到识别出已知情感。
(4)互动实施模块根据步骤(3)识别出的当前用户的情感查询多模态知识图谱,得到当前用户对应于该情感的情感策略,同时根据用户ID查询多模态知识图谱得到当前用户的声音偏好;接下来情感互动将情感策略中的反馈动作下发给机器人执行;然后情感互动将情感策略中的回答语句传递给个性化语音合成;个性化语音合成使用回答语句和声音偏好合成语音,发送给机器人进行播报。
(5)知识更新模块使用用户反馈收集功能采集该用户对个性化互动的反馈,包括用户对情感互动结果的反馈和用户对当前声音风格的反馈;情感策略更新根据用户对情感互动的反馈结果更新多模态知识图谱中该用户相应情感的情感策略,包括更新反馈动作和更新回答语句;声音偏好更新根据当前用户对当前声音风格的反馈更新多模态知识图谱中存储的该用户的声音偏好。
相比于现有技术,本发明的有益效果是:本发明考虑了使用多模态知识图谱表达和存储每个用户的个性化信息,能够实现让家庭服务机器人为家庭内的每一个成员提个性化的情感互动体验,使得家庭服务机器人与人的互动更加智能。
附图说明
图1为基于多模态知识图谱的机器人个性化情感互动装置的模块架构示意图;
图2为多模态知识图谱的知识结构示意图。
具体实施方式
下面结合附图和实施例具体说明本发明所提出的技术方案。
如图1所示,本发明一种基于多模态知识图谱的家庭服务机器人个性化情感互动装置,包括多模态知识图谱、用户注册模块、状态识别模块、互动实施模块、知识更新模块五个主要部分。
如图2所示,多模态知识图谱存储每个已注册用户的用户ID、人脸特征、声音偏好,以及该用户的情感策略。用户ID是用户唯一的身份标识,用于区分不同用户。人脸特征是使用人脸识别算法提取出的用户的人脸特征,用于识别当前用户的身份。声音偏好是预置的多个声音风格中的一个,例如“男童音”,用于在和用户语音交互时合成相应风格的声音。每一个情感策略具体地包括用户的一种情感以及该情感所对应的反馈动作和回答语句,例如情感“沮丧”,对应反馈动作“抬起右手”、回答语句“振作起来”,用于为互动实施模块提供情感互动方案。
用户注册模块用于为新用户注册,主要包括子模块:用户ID生成、人脸特征采集、声音偏好采集、情感策略初始化。用户注册模块首先为新用户生成用户ID;本实施例中使用UUID生成算法。然后采集新用户的人脸特征;本实施例使用FaceNet算法。然后采集新用户的声音偏好,让用户在多个声音风格的选项中选择一个最偏好的,这些声音风格是预置的。然后为新用户生成初始化的情感策略,本实施例中使用随机化的方法生成初始化的情感策略,即对于每一种预置的情感,从该情感对应的预置的多个反馈动作中随机选择一个作为情感策略中的反馈动作,从该情感对应的预置的多个回答语句中随机选择一个作为情感策略中的回答语句,这样就为每一种预置的情感都生成了初始化的情感策略;最后用户注册模块将以上步骤得到的用户ID、人脸特征、声音偏好、情感策略以图2所示的结构录入到多模态知识图谱中。
状态识别模块用于识别当前用户的身份和情感,主要包括子模块:人脸识别、情感识别。人脸识别用于识别当前用户的身份,具体地包括:使用人脸识别算法提取当前用户的人脸特征,用当前用户的人脸特征去匹配多模态知识图谱中存储的各用户的人脸特征,从而判断当前用户是否为已注册用户,如果是已注册用户,则进一步判断当前用户是哪一位已注册用户。本实施例中,人脸识别使用FaceNet算法提取用户的人脸特征。情感识别使用人脸表情识别算法识别出当前用户的情感,供互动实施模块使用;本实施例使用深度卷积神经网络识别人脸表情。
互动实施模块用于生成与当前用户个性化情感互动的实施方案并下发给机器人控制系统执行,主要包括子模块:个性化语音合成、情感互动。个性化语音合成利用多模态知识图谱存储的当前用户的声音偏好,在与当前用户语音互动时合成相应风格的声音;本实施例中每个预置的声音风格都有相应的预置的音库,在语音合成时根据用户的声音偏好选择相应的音库用于合成相应风格的声音。情感互动利用状态识别模块识别出的当前用户的情感,查询多模态知识图谱获取当前用户在该情感下的情感策略,利用情感策略中的反馈动作与回答语句与当前用户进行互动;具体地,将情感策略中的反馈动作下发给机器人执行,将情感策略中的回答语句的文本利用个性化语音合成进行语音合成,下发给机器人播报。
知识更新模块用于更新已注册用户在多模态知识图谱中的信息,主要包括子模块:用户反馈采集、情感策略更新、声音偏好更新。用户反馈采集用于采集当前用户对情感互动结果的反馈和声音风格的反馈;本实施例中,机器人在每次由互动实施模块完成情感互动后,用户反馈采集会通过屏幕询问用户对刚才的反馈动作、声音风格、回答语句是否满意,用户可对每一项选择“满意”或“不满意”。情感策略更新根据当前用户对情感互动的反馈更新多模态知识图谱中存储的该用户在相应情感下的情感策略;本实施例中,如果用户选择对反馈动作不满意,则情感策略更新随机选择另外一个预置的反馈动作,更新多模态知识图谱中该用户相应情感策略中的反馈动作;如果用户选择对回答语句不满意,则情感策略更新随机选择另外一个预置的回答语句,更新多模态知识图谱中该用户相应情感策略中的回答语句。声音偏好更新根据当前用户对当前声音风格的反馈更新多模态知识图谱中存储的该用户的声音偏好;本实施例中,如果用户选择对当前声音风格不满意,则声音偏好更新给出所有预置声音风格的选项,让用户选择其中一个声音风格,更新多模态知识图谱中该用户的声音偏好。
本发明一种基于多模态知识图谱实现家庭服务机器人个性化情感互动的方法,包括以下步骤:
(1)用户注册模块为新用户生成用户ID,然后采集该用户的人脸特征、声音偏好,然后为该用户生成初始化的情感策略,最后将用户ID以及该用户的人脸特征、声音偏好、情感策略记录到多模态知识图谱中。
(2)状态识别模块调用人脸识别得到当前用户的人脸特征,然后将该人脸特征与多模态知识图谱中存储的已注册用户的人脸特征进行匹配;如果没有匹配到已注册用户,则提示该用户先进行注册,返回步骤(1);如果匹配到已注册用户,则查询出该用户的用户ID,进入步骤(3)。
(3)状态识别模块调用情感识别尝试识别当前用户的情感;如果识别出已知情感,则将情感识别结果和用户ID传递给互动实施模块,进入步骤(4);如果没有识别出已知情感,则不断重复执行此步骤,直到识别出已知情感。优选地,每隔1秒识别一次。
(4)互动实施模块根据上一步识别出的当前用户的情感查询多模态知识图谱,得到当前用户对应于该情感的情感策略,同时根据用户ID查询多模态知识图谱得到该用户的声音偏好;接下来情感互动将情感策略中的反馈动作下发给机器人执行;然后情感互动将情感策略中的回答语句传递给个性化语音合成;个性化语音合成使用回答语句和声音偏好合成语音,发送给机器人进行播报。
(5)知识更新模块使用用户反馈收集功能采集该用户对个性化互动的反馈,包括用户对情感互动结果的反馈和用户对当前声音风格的反馈;情感策略更新根据用户对情感互动的反馈结果更新多模态知识图谱中该用户相应情感的情感策略,包括更新反馈动作和更新回答语句;声音偏好更新根据当前用户对当前声音风格的反馈更新多模态知识图谱中存储的该用户的声音偏好。
下面通过一个实施例来具体说明本发明的装置在完成个性化交互的过程中,装置中各个部件的工作流程。假设家庭成员“张三”还未在机器人上注册过,则当他使用机器人时,装置中各个部件的工作流程如下:
(1)当“张三”来到机器人面前时,状态识别模块调用人脸识别提取出“张三”的人脸特征,然后去匹配多模态知识图谱中存储的已注册用户的人脸特征;由于“张三”还没有注册过,没有匹配结果,因此状态识别模块提示“张三”先进行注册;
(2)用户注册模块使用用户ID生成为“张三”生成用户ID;然后人脸特征采集使用FaceNet算法提取“张三”的人脸特征;然后声音偏好采集提示“张三”从预置的多个声音风格中选择一种,例如“男童音”;接下来情感策略初始化对于每一种预置情感为“张三”随机生成初始化的情感策略,例如情感“沮丧”的反馈动作为“抬起右手”、回答语句为“振作起来”;最后,用户注册模块将“张三”的用户ID及人脸特征、声音偏好、情感策略记录到多模态知识图谱中;
(3)“张三”再次来到机器人面前,状态识别模块调用人脸识别提取出“张三”的人脸特征,然后将该人脸特征与多模态知识图谱中存储的已注册用户的人脸特征进行匹配,该人脸特征匹配到了多模态知识图谱中已存储的“张三”的人脸特征,因此人脸识别判断出当前用户是“张三”,并查询出“张三”的用户ID;
(4)状态识别模块调用情感识别不断尝试识别“张三”的情感,直到识别出一种预置的情感,例如当识别出“沮丧”的情感时,就将“张三”的用户ID和情感“沮丧”传递给互动实施模块;
(5)互动实施模块根据上一步识别出的情感“沮丧”和“张三”的用户ID查询多模态知识图谱,得到“张三”对应于情感“沮丧”的情感策略,例如反馈动作“抬起右手”、回答语句“振作起来”,同时根据用户ID查询多模态知识图谱得到“张三”的声音偏好,例如“男童音”;接下来情感互动将反馈动作“抬起右手”下发给机器人执行;然后情感互动将回答语句“振作起来”和声音偏好“男童音”传递给个性化语音合成;个性化语音合成使用回答语句“振作起来”和声音偏好“男童音”合成语音,发送给机器人进行播报;最后互动实施模块将“张三”的用户ID和情感“沮丧”传递给知识更新模块;
(6)知识更新模块使用用户反馈收集询问“张三”对上一步个性化互动是否满意,具体地包括对情感“沮丧”的反馈动作、回答语句和当前声音风格是否满意;如果“张三”选择对反馈动作“抬起右手”不满意,则情感策略更新随机选择另外一个预置的反馈动作,更新到多模态知识图谱中存储的“张三”对应情感“沮丧”的反馈动作;如果“张三”选择对回答语句“振作起来”不满意,则情感策略更新随机选择另外一个预置的回答语句,更新到多模态知识图谱中存储的“张三”对应情感“沮丧”的回答语句;如果“张三”选择对当前声音风格“男童音”不满意,则声音偏好提示“张三”选择另一个预置的声音风格,然后更新到多模态知识图谱中存储的“张三”的声音偏好。
以上实施例仅用以说明本发明的技术方案,而非对其限制,应当指出:对本领域的技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。