基于车辆的语音交互方法、装置、车辆和存储介质
技术领域
本发明实施例涉及车辆数据控制
技术领域
,尤其涉及一种基于车辆的语音交互方法、装置、车辆和存储介质。背景技术
在车辆驾驶过程中,要求驾驶员保持手眼能够专注于路况,使得语音交互成为车辆智能驾驶的标配核心功能,驾驶员能够通过语音与车辆进行导航、娱乐或者车控等各项交互操作。
目前,现有的语音交互通常是利用驾驶员发出的上下文语音对话内容,来对当前发出的语音信息进行上下文解析,以消除短时间内的歧义理解,确定驾驶员的操作意图。此时,如果需要车辆执行各类精确的意图操作,例如开窗程度、导航的具体路线等,则要求驾驶员发出的语音信息能够包含精确的意图内容,导致车辆语音交互时驾驶员发出的语音信息极为繁琐,极大降低车辆语音交互的便捷性;或者,通过车辆与驾驶员间执行多轮语音交互,使驾驶员不断给出精确的意图内容,然而会影响到驾驶员的行驶专注性,导致车辆驾驶安全风险的增加。
发明内容
本发明实施例提供了一种基于车辆的语音交互方法、装置、车辆和存储介质,提高车辆语音交互的准确性和便捷性,降低车辆驾驶的安全风险。
第一方面,本发明实施例提供了一种基于车辆的语音交互方法,该方法包括:
响应于用户发出的当前语音,获取车辆所处的当前时空数据;
根据所述当前语音和所述当前时空数据,从所述车辆已生成的惯性行为集中确定目标行为模式,所述惯性行为集通过对所述车辆上经过时间对齐后的历史时空数据和历史语音对话进行行为建模而生成;
采用所述目标行为模式内的惯性行为信息,执行对应的响应操作。
第二方面,本发明实施例提供了一种基于车辆的语音交互装置,该装置包括:
语音响应模块,用于响应于用户发出的当前语音,获取车辆所处的当前时空数据;
行为模式确定模块,用于根据所述当前语音和所述当前时空数据,从所述车辆已生成的惯性行为集中确定目标行为模式,所述惯性行为集通过对所述车辆上经过时间对齐后的历史时空数据和历史语音对话进行行为建模而生成;
交互响应模块,用于采用所述目标行为模式内的惯性行为信息,执行对应的响应操作。
第三方面,本发明实施例提供了一种车辆,该车辆包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所述的基于车辆的语音交互方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述的基于车辆的语音交互方法。
本发明实施例提供了一种基于车辆的语音交互方法、装置、车辆和存储介质,通过对车辆上经过时间对齐后的历史时空数据和历史语音对话进行行为建模可以生成相应的惯性行为集,以在接收到用户发出的当前语音后,首先获取车辆所处的当前时空数据,然后从车辆已生成的惯性行为集中,查找出与当前语音和当前时空数据匹配的目标行为模式,进而采用目标行为模式内的惯性行为信息,执行对应的响应操作,从而实现车辆的语音交互,此时即使当前语音内未包含明确的用户意图,也能够结合当前时空数据准确定位出符合用户需求的目标行为模式,在简化用户交互语音的基础上,提高了车辆语音交互的准确性和便捷性,无需用户执行多轮语音对话来明确用户的意图,降低了车辆驾驶的安全风险。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例一提供的一种基于车辆的语音交互方法的流程图;
图2为本发明实施例二提供的一种基于车辆的语音交互方法的流程图;
图3为本发明实施例三提供的一种基于车辆的语音交互装置的结构示意图;
图4为本发明实施例四提供的一种车辆的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种基于车辆的语音交互方法的流程图。本实施例可适用于在任一车辆上与用户进行语音交互,以控制车辆执行对应操作的情况中。本实施例提供的一种基于车辆的语音交互方法可以由本发明实施例提供的一种基于车辆的语音交互装置来执行,该装置可以通过软件和/或硬件的方式实现,并集成在执行本方法的车辆中。
具体的,参考图1,该方法具体包括如下步骤:
S110,响应于用户发出的当前语音,获取车辆所处的当前时空数据。
具体的,随着车辆智能化的发展,车辆上多种功能都会支持用户的语音控制,例如用户语音控制开窗、导航、播放歌曲等。车辆在起动后,会实时检测是否接收到用户发出的语音,以便通过对所接收的用户语音进行语义解析,来分析用户意图,从而按照该用户意图来控制车辆上的相应功能进行响应。
然而,考虑到用户发出的语音可能没有包含明确的意图,那么需要用户与车辆进行多轮语音对话,以分析用户的明确意图,使得车辆语音交互时的语音信息极为繁琐,且增加了车辆驾驶的安全风险,因此为了避免上述问题,本实施例在接收到用户发出的当前语音后,首先会按照车辆的当前行驶状态,来获取车辆所处的当前时空数据,该当前时空数据可以包括车辆的行驶轨迹、停留点、车辆行驶过程中的感兴趣点(Point of Interest,POI)、车辆在不同出行状态下的时间段以及用户与车辆间的操作行为(如选中播放的歌曲、输入的导航目的地等)等,以便后续在解析当前语音的基础上,进一步结合车辆所处的当前时空数据,来准确分析用户需要控制车辆执行的行为操作,避免通过多轮语音对话来判断用户的明确意图。
S120,根据当前语音和当前时空数据,从车辆已生成的惯性行为集中确定目标行为模式。
可选的,为了准确分析用户与车辆间进行语音交互时的行为操作,本实施例可以为车辆离线建模出对应的惯性行为集,该惯性行为集中会包含车辆行驶过程中用户常用的各个行为模式,例如导航、听歌、开窗等。
其中,惯性行为集可以通过对车辆上经过时间对齐后的历史时空数据和历史语音对话进行行为建模而生成。具体的,首先采集车辆在之前的各个历史行驶过程中的历史时空数据,如历史行驶轨迹(由历史行驶过程中不同时刻下的位置信息组成)、停留点(在历史行驶过程中一段时间保持静止的位置)和POI(历史行驶过程中一定区域内某种类型的兴趣点,例如地铁站、医院、商超、饭店等),以及在各个历史行驶过程中车辆与用户间得历史语音对话,如语音交互内容(如在历史行驶过程中控制车辆执行各类行为操作的语音指令和车辆语音回复内容等)、用户触发车辆的行为操作(如列表选择、触发按钮点击等)等。然后,对车辆的历史时空数据进行行驶轨迹的分析挖掘,确定出车辆经常采用的惯性行驶行为,例如每天早上的上班轨迹和下午的下班轨迹等,同时对历史语音对话与由历史时空数据确定的惯性行驶行为进行时间对齐,然后通过对历史语音对话进行语义分析,利用与每一个惯性行驶行为经过时间对齐后的历史语音对话的语义分析结果,确定各个惯性行驶行为对应的语义标签和用户在各个惯性行驶行为常用的行为意图和操作状态等,从而得到车辆在历史行驶过程中常用的各种行为模式。
例如,本实施例中的行为模式可以包括:<意图:导航;行为:上班;时间段:早上8点到8点半;起点:A;终点:B;路径:xxx>,<意图:听歌;行为:上班;歌单:xxx>,<意图:开窗;行为:上班;窗户开关程度:1/3>等,本实施例中惯性行为集内的每一行为模式中均包括多个槽位,每一槽位中分别设置车辆在相应维度下的惯性行为信息。
在本实施例中,在接收到用户发出的当前语音以及车辆所处的当前时空数据后,首先可以对当前语音进行语义分析,即可得到当前语音包含的用户意图,该用户意图可以为简化的泛意图,未明确真实的行为内容。同时,对当前时空数据进行常用的惯性行驶行为分析,例如当前时间为早上8点,则可以确定车辆此时的惯性行驶行为上班,然后从已生成的惯性行为集中,查找出同时包含当前语音对应的用户意图和当前时空数据指向的惯性行驶行为的目标行为模式,例如若当前语音为“放首歌”,当前时空数据为早上8点开始的出行轨迹,那么可以确定当前语音的用户意图为“听歌”,当前时空数据对应的惯性行驶行为“上班”,因此可以确定出目标行为模式为:<意图:听歌;行为:上班;歌单:xxx>。
此外,为了保证车辆语音交互的全面性,本实施例中惯性行为集内的每一行为模式中还会包括该行为模式的触发执行条件,该触发执行条件用于判断在车辆行驶过程中是否需要执行该行为模式。在车辆行为过程中,针对惯性行为集内的每一行为模式,会实时检测车辆起动后是否到该行为模式的触发执行条件,如果车辆起动后达到该行为模式的触发执行条件,则生成用于用户判断是否执行该行为模式的提示消息,将该提示消息展示给用户,由用户人为判断当前是否需要执行该行为模式,以实现惯性行为集内各行为模式的主动提示执行。
S130,采用目标行为模式内的惯性行为信息,执行对应的响应操作。
本实施例中,在确定出目标行为模式后,可以获取到目标行为模式内每一槽位下的惯性行为信息,此时目标行为模式内的惯性行为信息可以表示明确的用户意图,进而按照目标行为模式内每一槽位下的惯性行为信息,执行对应的响应操作。例如,若目标行为模式为:<意图:听歌;行为:上班;歌单:xxx>,则可以在接收到当前语音为“放首歌”后,自动控制歌单:xxx中的歌曲进行播放。
本实施例提供的技术方案,通过对车辆上经过时间对齐后的历史时空数据和历史语音对话进行行为建模可以生成相应的惯性行为集,以在接收到用户发出的当前语音后,首先获取车辆所处的当前时空数据,然后从车辆已生成的惯性行为集中,查找出与当前语音和当前时空数据匹配的目标行为模式,进而采用目标行为模式内的惯性行为信息,执行对应的响应操作,从而实现车辆的语音交互,此时即使当前语音内未包含明确的用户意图,也能够结合当前时空数据准确定位出符合用户需求的目标行为模式,在简化用户交互语音的基础上,提高了车辆语音交互的准确性和便捷性,无需用户执行多轮语音对话来明确用户的意图,降低了车辆驾驶的安全风险。
实施例二
图2为本发明实施例二提供的一种基于车辆的语音交互方法的流程图。本发明实施例是在上述实施例的基础上进行优化。可选的,本实施例主要对于从惯性行为集中确定目标行为模式的具体过程和目标行为模式的具体响应过程进行详细的解释说明。
具体的,参见图2,本实施例的方法具体可以包括:
S210,响应于用户发出的当前语音,获取车辆所处的当前时空数据。
S220,将当前语音输入到预先构建的语义理解模型中,得到对应的用户泛意图,并从惯性行为集中查找出当前时空数据的适配行为模式。
可选的,为了准确分析当前语音内的用户意图,本实施例会预先构建一个语义理解模型,用于对当前语音进行相应的语义分析。因此,在接收到用户发出的当前语音后,会将该当前语音输入到预先构建的语义理解模型中,以对当前语音进行语义分析,此时即使当前语音较为简单,也能够得到当前语音表示的用户泛意图,该用户泛意图为能够表示用户控制车辆执行的某个特定功能,但未设定该特定功能的具体执行参数,例如用户泛意图为“开窗”,但未指定开窗的具体打开程度。
需要说明的是,本实施例中的语义理解模型可以采用如下方式进行训练:确定用户发出的历史语音在通过多轮对话操作后执行的历史响应操作;如果惯性行为集中存在历史响应操作匹配的第一行为模式,则将第一行为模式内的意图槽位信息作为历史语音的样本标签:利用历史语音以及历史语音的样本标签,对语义理解模型进行训练。
也就是说,在语义理解模型还未训练完成时,为了确保用户语音控制车辆执行功能的准确性,对于用户发出的历史语音,如果历史语音较为简单,未包含用户的明确意图时,通常会控制车辆与用户进行多轮语音交互,以不断引导用户通过多轮对话操作,指示出本次控制车辆执行功能的明确意图,从而按照该明确意图控制车辆执行对应的历史响应操作,以实现特定功能的语音控制。此时,可以获取到用户发出的各个历史语音在通过多轮对话操作后所执行的历史响应操作,然后将该历史响应操作与惯性行为集内每一行为模式对应的响应操作进行比对,如果惯性行为集中存在与该历史响应操作匹配的第一行为模式,说明用户发出的历史语音所包含的用户泛意图与该第一行为模式内的意图槽位信息一致,因此为了保证语音理解模型能够输出历史语音的用户泛意图,可以将该第一行为模式内的意图槽位信息作为用户发出的历史语音的样本标签,从而采用上述步骤可以获取由大量历史语音组成的训练样本集合,且每一训练样本设置有对应的样本标签。进而,利用训练样本集合内的各个历史语音以及每一历史语音的样本标签,可以对语义理解模型进行口语化的适配训练,使得语义理解模型能够对口语化的语音数据进行语义分析,得到与惯性行为集中某一行为模式内的意图槽位信息一致的用户泛意图,保证用户泛意图的识别准确性。
而且,考虑到用户发出的当前语音可能比较简单,未完全提及本次控制车辆执行某项功能时的每项具体操作数据,例如当前语音为“开窗”时,未指定打开哪个车窗,以及车窗打开到什么程度等,从而无法得到用户的明确意图,因此需要进一步结合车辆所处的当前时空数据,来分析用户的明确意图。
具体的,通过分析车辆所处的当前时空数据,可以判断出车辆当前的行驶时段、行驶位置等信息,然后通过查看已生成的惯性行为集中每一行为模式下通过历史时空数据所设定的常用行驶行为,并将每一行为模式下的常用行驶行为与当前时空数据表示的行驶时段和行驶位置等信息进行一一比对,从而查找出惯性行为集内包含当前时空数据所表示的行驶时段和行驶位置等信息的适配行为模式,例如当前时空数据表示早上8点,行驶位置持续处于上班路线中,那么惯性行为集中包含有“行为:上班”的各个行为模式可以为本实施例中的适配行为模式。
S230,根据用户泛意图与每一适配性为模型内的意图槽位信息间的比对结果,确定对应的目标行为模式。
在本实施例中,由于用户在同一行驶行为下,会存在控制车辆执行多种不同功能的意图,因此不同适配行为模式内的意图槽位信息也各不相同。此时,在确定出用户发出的历史语音表示的用户泛意图后,通过对该用户泛意图与每一适配性为模型内的意图槽位信息进行一一比对,查找出意图槽位信息与该用户泛意图一致的适配行为模式,作为本实施例中的目标行为模式,从而采用用户泛意图即可实现一语即达的目标行为模式确定,无需与用户进行多轮语音对话交互,提高车辆语音交互的智能性。
S240,判断目标行为模式是否为空,若是,执行S260;若否,执行S250。
在确定出目标行为模式后,由于惯性行为集中可能不存在包含当前语音表示的用户泛意图的行为模式,使得目标行为模式为空而无法执行对应的响应操作,因此为了保证车辆语音交互的准确性,需要进一步判断目标行为模式是否为空,以便后续执行不同的响应操作。
S250,采用目标行为模式内每一槽位的惯性行为信息,执行对应的响应操作。
可选的,如果目标行为模式为非空,说明目标行为模式内各个槽位下已经设定好不同维度的功能操作参数,此时可以直接获取目标行为模式内每一槽位的惯性行为信息,然后按照该目标行为模式内每一槽位的惯性行为信息,执行对应的响应操作。
S260,通过多轮对话操作确定用户的明确意图,并执行对应的响应操作。
可选的,如果目标行为模式为空,说明仍然无法获取用户的明确意图,此时可以通过控制车辆与用户进行多轮语音交互,不断引导用户通过多轮对话操作,指示出本次控制车辆执行功能的明确意图,然后按照该明确意图执行对应的响应操作。
S270,对多轮对话操作下的对话数据和时空数据进行时间对齐,并采用时间对齐后的对话数据和时空数据,优化惯性行为集内的行为模式。
可选的,在通过多轮对话操作确定出用户的明确意图后,可以不断采集多轮对话操作下的各个对话数据和车辆所处的各项时空数据,然后通过对各项时空数据进行分析,可以得到车辆本次的行驶行为,进而通过对多轮对话操作下的对话数据和时空数据进行时间对齐,可以为该行驶行为设定对应的语义标签,并确定该行驶行为下的行为意图和操作状态等。然后,采用时间对齐后的对话数据和时空数据所表示的行驶行为和该行驶行为下的行为意图和操作状态,来不断优化惯性行为集内的行为模式,使得惯性行为集在车辆的每次行驶过程中能够得到不断优化,逐步实现惯性行为集内各行为模式的全面性。
本实施例提供的技术方案,通过对车辆上经过时间对齐后的历史时空数据和历史语音对话进行行为建模可以生成相应的惯性行为集,以在接收到用户发出的当前语音后,首先获取车辆所处的当前时空数据,然后从车辆已生成的惯性行为集中,查找出与当前语音和当前时空数据匹配的目标行为模式,进而采用目标行为模式内的惯性行为信息,执行对应的响应操作,从而实现车辆的语音交互,此时即使当前语音内未包含明确的用户意图,也能够结合当前时空数据准确定位出符合用户需求的目标行为模式,在简化用户交互语音的基础上,提高了车辆语音交互的准确性和便捷性,无需用户执行多轮语音对话来明确用户的意图,降低了车辆驾驶的安全风险。
实施例三
图3为本发明实施例三提供的一种基于车辆的语音交互装置的结构示意图,如图3所示,该装置可以包括:
语音响应模块310,用于响应于用户发出的当前语音,获取车辆所处的当前时空数据;
行为模式确定模块320,用于根据所述当前语音和所述当前时空数据,从所述车辆已生成的惯性行为集中确定目标行为模式,所述惯性行为集通过对所述车辆上经过时间对齐后的历史时空数据和历史语音对话进行行为建模而生成;
交互响应模块330,用于采用所述目标行为模式内的惯性行为信息,执行对应的响应操作。
本实施例提供的技术方案,通过对车辆上经过时间对齐后的历史时空数据和历史语音对话进行行为建模可以生成相应的惯性行为集,以在接收到用户发出的当前语音后,首先获取车辆所处的当前时空数据,然后从车辆已生成的惯性行为集中,查找出与当前语音和当前时空数据匹配的目标行为模式,进而采用目标行为模式内的惯性行为信息,执行对应的响应操作,从而实现车辆的语音交互,此时即使当前语音内未包含明确的用户意图,也能够结合当前时空数据准确定位出符合用户需求的目标行为模式,在简化用户交互语音的基础上,提高了车辆语音交互的准确性和便捷性,无需用户执行多轮语音对话来明确用户的意图,降低了车辆驾驶的安全风险。
进一步的,上述行为模式确定模块320,可以具体用于:
将所述当前语音输入到预先构建的语义理解模型中,得到对应的用户泛意图,并从所述惯性行为集中查找出所述当前时空数据的适配行为模式;
根据所述用户泛意图与每一所述适配性为模型内的意图槽位信息间的比对结果,确定对应的目标行为模式。
进一步的,上述语义理解模型可以通过执行如下步骤训练得到:
确定所述用户发出的历史语音在通过多轮对话操作后执行的历史响应操作;
如果所述惯性行为集中存在所述历史响应操作匹配的第一行为模式,则将所述第一行为模式内的意图槽位信息作为所述历史语音的样本标签:
利用所述历史语音以及所述历史语音的样本标签,对所述语义理解模型进行训练。
进一步的,上述交互响应模块330,可以具体用于:
如果所述目标行为模式为非空,则采用所述目标行为模式内每一槽位的惯性行为信息,执行对应的响应操作;
如果所述目标行为模式为空,则通过多轮对话操作确定所述用户的明确意图,并执行对应的响应操作。
进一步的,上述基于车辆的语音交互装置,还可以包括:
惯性行为集优化模块,用于对所述多轮对话操作下的对话数据和时空数据进行时间对齐,并采用时间对齐后的对话数据和时空数据,优化所述惯性行为集内的行为模式。
进一步的,上述惯性行为集内的每一行为模式中包括该行为模式的触发执行条件。
进一步的,上述基于车辆的语音交互装置,还可以包括:
行为触发模块,用于针对所述惯性行为集内的每一行为模式,如果所述车辆起动后达到该行为模式的触发执行条件,则生成用于所述用户判断是否执行该行为模式的提示消息。
本实施例提供的一种基于车辆的语音交互装置可适用于上述任意实施例提供的基于车辆的语音交互方法,具备相应的功能和有益效果。
实施例四
图4为本发明实施例四提供的一种车辆的结构示意图。如图4所示,该车辆包括处理器40、存储装置41和通信装置42;车辆中处理器40的数量可以是一个或多个,图4中以一个处理器40为例;车辆的处理器40、存储装置41和通信装置42可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储装置41作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的基于车辆的语音交互方法对应的模块(例如,基于车辆的语音交互装置中的语音响应模块310、行为模式确定模块320和交互响应模块330)。处理器40通过运行存储在存储装置41中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述的基于车辆的语音交互方法。
存储装置41可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置41可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置41可进一步包括相对于多功能控制器40远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
通信装置42可用于实现设备间的网络连接或者移动数据连接。
本实施例提供的一种车辆可用于执行上述任意实施例提供的基于车辆的语音交互方法,具备相应的功能和有益效果。
实施例五
本发明实施例五还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可实现上述任意实施例中的基于车辆的语音交互方法。该方法具体包括:
响应于用户发出的当前语音,获取车辆所处的当前时空数据;
根据所述当前语音和所述当前时空数据,从所述车辆已生成的惯性行为集中确定目标行为模式,所述惯性行为集通过对所述车辆上经过时间对齐后的历史时空数据和历史语音对话进行行为建模而生成;
采用所述目标行为模式内的惯性行为信息,执行对应的响应操作。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的基于车辆的语音交互方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述基于车辆的语音交互装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。