语音处理方法和系统、及语音交互设备和方法

文档序号:9799 发布日期:2021-09-17 浏览:39次 英文

语音处理方法和系统、及语音交互设备和方法

技术领域

本发明涉及信息处理领域,尤其涉及一种语言处理方法和系统,以及语音交互设备和方法。

背景技术

智能语音助手已逐渐普及,成为许多用户生活中不可或缺的一部分。语音助手除了以最常见的音箱型态出现在用户家中之外,也开始出现在诸如车娱系统、智能手机、可穿戴智能设备之中。当前大部分智能语音交互采用的是单指令单服务形式,单个用户指令需要用明确的用户意图,并且只有单个服务形式,这种相对固定的语音反馈方式会给用户带来机械呆板的感觉,与智能语音产品的“智能”初衷背道而驰。

为此,需要一种更为灵活的语音交互反馈方案。

发明内容

为了解决如上至少一个问题,本发明提出了一种能够依据用户身份提供个性化语音交互服务的方案。该方案根据不同用户的不同喜好,推荐出非精确意图场景下不同的信息服务流组合。

根据本发明的第一方面,提出了一种语音处理方法,包括:接收来自用户的语音数据;确定所述用户的用户身份;以及基于所述用户身份,生成所述语音数据的处理结果。

根据本发明的第二方面,提出了一种语音处理系统,包括服务器以及多个语音交互设备,其中:所述语音交互设备用于:接收来自用户的语音数据;确定所述用户的用户身份;向所述服务器上传所述语音数据和所述用户身份,所述服务器用于:对所述语音数据进行处理;以及基于用户身份,生成并下发所述语音数据的处理结果。

根据本发明的第三方面,提出了一种语音交互设备,包括:语音数据接收装置,用于接收用户的语音数据;用户身份确定装置,用于确定所述用户的用户身份;联网装置,用于将获取到的语音数据和所述用户身份上传至服务器,并获取所述服务器基于用户身份生成并下发的所述语音数据的处理结果;交互装置,用于基于下发的所述处理结果进行交互。

根据本发明的第四方面,提出了一种语音交互方法,包括:接收用户的语音数据;确定所述用户的用户身份;将获取到的语音数据和所述用户身份上传至服务器;获取所述服务器基于用户身份生成并下发的所述语音数据的处理结果;以及基于下发的所述处理结果进行操作。

根据本发明的第五方面,提出了一种语音处理方法,包括:接收来自用户的语音数据;采集所述用户的图像数据;基于所述语音数据和/或所述图像数据确定所述用户的用户身份;以及基于所述用户身份,生成所述语音数据的处理结果。

根据本发明的第六方面,提出了一种车载语音处理系统,包括:麦克风,用于接收用户的语音数据;处理器,用于基于所述语音数据确定所述用户的用户身份;以及交互装置,用于根据基于所述用户身份生成的语音处理结果进行交互。

根据本发明的第七方面,提出了一种语音处理系统,包括:多个语音交互设备,用于接收来自用户的语音设备,其中,所述多个语音交互设备中的一个语音交互设备被唤醒与用户进行交互,并且所述交互包括:接收来自用户的语音数据;基于所述语音数据确定所述用户的用户身份,并且基于被唤醒的所述语音交互设备的位置确定当前交互场景;以及基于所述用户身份和所述当前交互场景,生成所述语音数据的处理结果。

根据本发明的第八方面,提出了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上第四方面所述的方法。

根据本发明的第九方面,提出了一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上第四方面所述的方法。

本发明的语音处理方案可以通过对用户身份确定获取该用户的画像信息和历史信息,并且基于上述信息确定用户语音输入的意图领域,并推荐出包括多种服务的信息流。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。

图1示出了语音交互链路的处理流程示意图。

图2示出了根据本发明一个实施例的语音处理方法的流程示意图。

图3示出了根据本发明建立身份信息库用于后续身份识别的一个例子。

图4示出了根据本发明进行推荐信息服务流的例子。

图5示出了根据本发明一个实施例的语音处理系统的组成示意图。

图6示出了根据本发明一个实施例的语音交互设备的组成示意图。

图7示出了根据本发明一个实施例的语音交互方法的流程示意图。

图8示出了根据本发明一个实施例可用于实现上述语音处理方法的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。

智能语音助手已逐渐普及,成为许多用户生活中不可或缺的一部分。智能语音助手能够与用户进行口语对话,并基于对话的内容给出语音反馈和其他操作。图1示出了语音交互链路的处理流程示意图。语音交互链路是指实现语音交互的过程中涉及的单元模块,这些单元模块共同协作完成语音交互功能。在不同的应用场景中,可以会涉及上述交互链路中的部分或全部模块。图1中示出了最为核心的单元模块,在其他的实现中,交互链路还可以包括诸如唤醒响应和声纹识别等的功能模块。

如图1所示,音频采集到的用户语音经过语音识别模块(AutomaticSpeechRecognition,ASR)产生语音识别结果,即用户话语对应的文本指令。随后,自然语言理解模块(NaturalLanguageUnderstanding,NLU)对用户话语进行语义解析。在此,自然语言理解是指将文本识别出其中含意的算法/系统。在语音助理中,NLU能将用户语音指令识别为特定的领域意图。领域是指自然语言理解领域中的某类特定问题,如天气、时间等,意图则是指自然语言理解领域中属于某领域的特定问题,如查询天气、查询时间、设置闹钟等。当接收到的用户语音数据含义明确时,比如输入“北京天气”能够触发天气查询返回精确的结果。但当用户的语音输入内容并不明确时,例如,用户A回家后对智能音箱说“我回来了”,现有的语音回复可以是“欢迎回来”并且需要进一步地交互,比如“有什么可以帮您”来明确用户A的意图领域。在理解了用户语音指令中的领域和意图之后,可以将上述领域和意图送入领域服务模块(DomainService,DS),该模块可以根据NLU语义解析结果(即,特定领域和意图)选择需要执行的系统行为。自然语音生成模块(NaturalLanguageGeneration,NLG)根据系统行为结果生成自然语言或者说是系统话语;最后,生成的语言由语音合成模块(Text-to-Speech,TTS)朗读给用户听。

现有的对话系统逻辑依赖于NLU识别出一个明确技能,DS根据NLU识别出来的该技能进行接下来的系统行为,例如,对话处理、语音播报以及其他服务等。这种处理方式在对话系统各技能的数据边界清晰的情况下可以满足需求,随着技能建设步骤加快和技能增多,技能间的边界开始变得模糊,使得NLU通常不具备足够的信息判断是否属于某个特定技能。这在涉及问答、知识图谱(KnowledgeGraph,KG)、百科技能和闲聊式对话的情况下尤其如此。这时仅凭NLU分类模型将难以实现对查询的精确领域分类。针对如上情况,如果系统仍然依赖于NLU给出的分类结果做后续的处理,会加大系统召回错误率,导致用户体验下降。如果系统需要继续与用户对话以明确用户意图,也会导致用户的体验下降。另外,上述流程针对给定的语音输入会给出单一的反馈,即,采用单指令单服务的形式,缺乏用户区分度,同样无法给出令用户满意的反馈。

为此,本发明给出一种为智能语音设备或系统(例如,智能音箱或家用智能语音交互系统)的每个用户提供个性化信息服务流的方案。该方案能够针对同一设备/系统的不同用户(例如,家庭中不同用户),实现在无明确意图指令下,为不同用户推荐出符合该用户喜好的信息或者服务,从而实现千人千面,提升用户的黏性和使用体验。

由于获取了用户身份,因此在本发明的语音处理方法中,可以基于用户身份,来确定所述语音数据的领域意图。因此,本发明尤其适用于利用用户身份信息,来明确本身语义意图不明确的语音输入的意图领域,并给出相应的处理结果。换句话说,本发明可以利用表征某一目标用户的数据,来推定该用户当前语音输入本身语义之外的隐藏意图,从而使得智能交互更加的“善解人意”,并避免后续的多轮询问。

例如,如家庭成员中爸爸说“早上好”时,实际可根据家庭用户习惯来推荐天气信息、科技新闻信息(用户画像的喜好)、以及喜爱的科技产品打折信息(购物)等推荐出用户喜好较高的信息服务。而当家庭成员中妈妈说“早上好”时,同样可以推荐天气信息(例如,以更为缓慢的语速和温和的语气),并且可以推荐例如早餐知识(用户画像的喜好)、以及日用品打折信息(购物)等。

图2示出了根据本发明一个实施例的语音处理方法的流程示意图。该语音处理方法在不同的应用场景中,可以是在完全在语音交互设备上实现的单机方案,可以是在单个语音交互设备借助云端处理能力实现的单机联网方案,可以是云端服务器支持海量语音交互端实现的分布式系统方案,也可以是单纯由服务器执行的云端解决方案。

在步骤S210,接收来自用户的语音数据。在某些实施例中,例如,涉及语音交互端的实施例,接收语音数据可以指代直接从本地的语音交互设备的音频采集模块(例如,麦克风阵列)获取其采集到的音频数据。例如,家用场景中,智能音箱经由其内设置的麦克风阵列采集用户的语音数据,或是与其例如蓝牙连接的智能语音贴采集用户的语音数据。驾驶场景中,车载娱乐系统(IVI,In-Vehicle Infotainment,简称车娱系统)经由设置在方向盘上的麦克风阵列采集到的音频数据。在其他实施例中,接收语音数据可以指代从外部获取的语音数据,例如,云端服务器从客户端获取的语音数据。在此,语音数据可以是指代原始的语音数据,例如,音频数据,也可以指代经过了一定预处理的语音数据。例如,云端服务器可以获取经过本地降噪压缩后上传的数据,甚至可以直接获取客户端进行经过ASR(自动语音识别)处理后得到的文本数据。

在步骤S220,确定所述用户的用户身份。在步骤S230,基于所确定的用户身份,生成所述语音数据的处理结果。例如,针对同一本地系统(例如,家庭智能语音交互系统)的不同成员,可以给出不同的语音数据处理结果(哪怕是不同成员给出了相同的语音指令,例如,爸爸和妈妈分别对智能音箱说出“早上好”)。由此,实现对不同用户的区别处理,提升用户满意度。

在此,“用户身份”的确定指代对该语音数据来自哪个自然人的辨认。可以基于用户的身份信息来确定用户身份。用户的身份信息可以是例如登录设备的账户信息。这尤其适用于设备和用户强相关的场景。在其他实施例中,身份信息可以是采集的用户生物信息,由此以更高的可信度来确定用户身份。相应地,步骤S220可以包括识别所述用户的生物信息并基于所述生物信息确定所述用户身份。作为替换或者补充,用户身份的确定也可以包括识别所述用户的账户信息并基于所述账户信息确定所述用户身份。生物信息识别可以包括对语音数据进行声纹识别,例如,对步骤S210接收到的语音数据进行声纹识别,随后可以根据识别出的声纹确定所述用户身份。生物信息识别也可以包括对用户的指纹进行识别,并根据识别出的指纹确定所述用户身份。再例如,生物信息识别也可以包括对用户进行人脸识别,并根据识别出的人脸确定所述用户身份。上述识别可由语音设备通过自身配备的声纹识别模块通过对语音数据进行处理而获得,可由语音设备通过例如指纹锁对特定用户指纹的识别以及识别结果的传送而获得,可由语音设备通过本机安装的摄像头进行图像识别或是其他设备的图像识别结果传输而获得。在此,图像识别可以是对面部特征的识别,例如人脸识别,也可以对其他人体特征的识别,例如,身高和身形识别等。

在具体实践中,可以根据多种信息综合确定用户身份,例如,结合账户信息和声纹信息,结合人脸信息和声纹信息等。还可以通过语音播报和用户二次确认来进一步明确用户信息。

进一步地,可以为同一语音设备或是语音系统的不同用户建立身份信息库,由此方便通过识别出的信息与库内存储信息的比对来识别用户身份。为此,本发明的语音处理方法可以包括:采集多个用户各自的生物信息并生成身份信息库。相应地,步骤S220可以包括:将获取的所述用户的生物信息与所述身份信息库内存储的生物信息相比较;以及根据比较结果,确定所述用户身份。

图3示出了根据本发明建立身份信息库用于后续身份识别的一个例子。如图3所示,假设在某一家庭智能语音场景中,包括爸爸、妈妈和宝宝(例如,三岁的幼儿)三个家庭成员。为了实现本发明的基于用户身份的语音处理,可以首先进行用户身份注册。在此例中,用户身份注册包括人脸和声纹注册。为此,作为家庭智能语音系统的中心节点的智能音箱可以要求爸爸、妈妈和宝宝各自输入固定的语音(例如,唤醒词),以供智能音箱(基于本地或云端处理能力)进行特征提取。另外,还可以通过带有摄像头的智能音箱,或是通过安装有语音管理APP的智能手机等获取用户的人脸图像信息,并同样进行特征提取。经提取的特征可以被输入通常位于服务器上的模型训练模块,以对人脸和声纹建模,并得到该家庭的人脸/声纹库作为身份信息库。基于不同的实现,该身份信息库可被按家庭或是设备ID存储在云端(例如,与语音服务器相连的数据库内),也可以存储在本地,例如,本地的智能音箱或是家庭数据库内,还可以存储在边缘计算设备能够读取的数据库内等。

在身份数据库建立之后,就可利用当前获取数据与数据库内数据的比对来判定身份。例如,在某位家庭成员回来并说出智能音箱的唤醒词时,该唤醒词使得智能音箱的语音交互功能被唤醒,并且通过对该唤醒词语音本身的声纹特征提取以及与身份信息库内声纹信息的比对判决,确定用户的身份是爸爸,随后就可以根据该唤醒词,提供后续的信息服务流,例如,包含后续的语音交互以及各种形式的反馈。

在确定了用户身份之后,就可以在步骤S230,基于所确定的用户身份,生成所述语音数据的处理结果。具体地,可以基于用户身份,获取该用户的用户画像信息和历史信息。随后,可以基于获取的画像信息和历史信息,来生成语音数据的处理结果。所述画像信息和历史信息可以包括所述用户使用当前语音交互设备时获取的画像信息和历史信息,还可以包括所述用户使用关联账户和/或设备时获取的画像信息和历史信息。相应地,可以根据用户针对当前语音交互设备、关联账户和/或关联设备的操作,创建并在后续更新所述画像信息和历史信息。

具体地,与如图3为家庭成员创建身份信息库类似,还可以为家庭成员建立用户画像以及行为分析结果。例如,可以根据不同家庭成员建立每个用户的标签化喜好信息。如下表1示出了家庭成员的标签化喜好信息的例子。该信息可以存储作为该家庭各用户的用户画像,或是用户画像的一部分。在某些实施例中,用户画像还可以包括该用户的自然人属性信息,例如,年龄、身高、性别和常驻地等等。上述信息可以通过用户输入等方式获取,由此进一步提升用户画像对用户喜好描述的准确性。类似地,该信息表可被按家庭或是设备ID存储在云端(例如,与语音服务器相连的数据库内),也可以存储在本地,例如,本地的智能音箱或是家庭数据库内,还可以存储在边缘计算设备能够读取的数据库内等。

表1家庭成员标签化喜好信息表

在针对智能设备的用户画像建立时,如果缺乏历史数据,可以从例如关联账号(例如,购物账号、支付账号、导航账号)和关联设备(例如,智能手机上的关联APP以及家用IoT)中拉取历史数据,以分析得到上述标签信息。上述关联账号和设备的历史操作信息,连同当前设备的操作信息,可以被关联地存储作为用户的历史信息。该历史信息随着用户的后续操作而持续更新,并且还可用于更新标签。上述历史信息可以存储在本地,并且优选地被结构化存储在云端,以方便例如记忆引擎服务的调取。

基于用户身份获取的上述用户画像和历史信息,可用于帮助确定语音数据的领域意图,以方便生成语音数据的处理结果。在某些实施例中,本发明尤其适用于针对本身语义上意图不明确的语音数据,经由用户身份对应的画像和历史信息,确定其背后的隐含意图。例如,当爸爸回家,对智能音箱输入语音“我回来了”时,其隐含意图可以是告知系统进行操作以满足回家后的通常需求。例如,家庭IoT控制客厅灯打开,介绍最新喜好的流行音乐歌手,播放音乐,同时给出音乐的乐评人评论等。

在某些实施例中,即便语音数据本身的语音较为明确,仍然可以根据用户身份信息对应的用户画像和历史信息,确定所述语音数据本身的领域意图之外的附加领域意图,并且可以基于所述附加领域意图,生成所述语音数据的附加处理结果。例如,当宝宝输入语音“我要看电视”时,可以根据用户画像推断其具体意图是要打开电视观看A动画。此时,家庭IoT可以控制智能电视打开,并播放A动画。

另外,还可以根据生物特征(例如,识别出的人脸或声纹),实现不同用户例如针对智能音箱的手势自定义识别。

为了进一步明确意图,还可以获取所述语音数据的场景和/或上下文信息。随后,所述场景和/或上下文信息可用于明确语音数据的意图领域,以生成所述语音数据的处理结果。

在此,场景信息可以指代语音数据生成时,或是更具体地,原始音频数据采集时能够用于描述用户所处具体场景的信息(随后将举例详述)。由于上述场景信息能够表征语音生成时用户所处的具体场景,上下文信息则可指代例如对话过程中的上下文。因此,可以根据对上述场景和上下文的判断来生成与之相应的处理结果。即,在接收到相同的语音输入的情况下,可以基于不同的场景信息,生成所述语音数据的不同的处理结果。

如上所述,场景信息是用于描述用户语音生成时所处场景的信息。在一个实施例中,可以基于至少一个相关信息,确定所述场景信息。在一个实施例中,相关信息可以包括当前时间。当前时间处于休闲还是匆忙时间,也可以从一个侧面反映用户的当前关注度水平。例如,工作日的上班之前的场景就比休息日的场景更为匆忙,因此交互系统可以提供更为简短省时的反馈。进一步地,当前时间的场景划分可以根据特定用户的特定作息时间进行。例如,对于退休人员而言,通常的上下班时间就不应被划分为匆忙时间。上述划分可以通过设备对当前用户的使用习惯等进行分析或是基于用户设置而得到。

在一个实施例中,相关信息可以包括当前日历信息。在其他实施例中,当前日历信息也可以作为当前时间信息的一部分。在此,日历信息可以特指某些节假日或是全民活动的信息。这些信息会在日历(或日历软件)上有所反映,因此可被成为日历信息。于是,可以基于当前日历信息,确定所述场景信息包括特殊日历场景信息。例如,春节和双十一所对应的日历信息。在双十一到来之前的一段时间内,交互系统可以提供与其相关的促销反馈,由此提升用户进一步浏览和参与双十一购物的意愿。

在一个实施例中,相关信息还可以包括环境信息。此处的环境信息可以是小环境信息,例如,周围音量、亮度等,也可以是大环境信息,例如天气和温度等。例如,在场景信息指示当前背景声音嘈杂时(例如,智能音箱获知智能电视正打开时),智能音箱可以以更大的音量进行语音交互。再例如,在场景信息指示当前亮度较低时(例如,智能音箱在夜间获知智能电灯已关闭时),智能音箱可以以较低的亮度或是护眼黄光显示给用户反馈的图像。在此,上述播放音量的大小以及屏幕亮度的高低等,也可以看作是前述不同交互形式的一种体现。

在一个实施例中,相关信息还可以包括用户信息。用户信息可以包括用户设置或是基于用户使用行为或是用户画像得到的用户偏好信息,也可以是用户自身的属性信息。例如,用户可以设定在某一场景下,相比于预设交互等级更高或是更低的用户偏好交互水平。例如,如果用户的上班时间与常规上班时间不同,用户可以自行设定与时间相关的用户偏好。例如,用户可以关闭交互等级对应的反馈等。再例如,可以通过声纹识别当前交互的对象是老人、小孩还是成年人,并选择相应的语气和交互丰富程度来进行交互。

在一个实施例中,还可以根据用户所在位置来确定场景或是用于确定场景的相关信息。例如,可以基于用户正与卧室、客厅还是厨房中的语音设备来通信等确定用户当前正处于卧室、客厅或是厨房中,并相应地确定卧室、客厅或厨房场景,或是基于上述信息帮助确定临睡、娱乐或是做饭场景。

在通常情况下,场景信息可以基于如上两种以上的相关信息确定,由此通过参考不同途径的信息描述,更为准确的推断出用户状态,并由此给出与用户当前状态相对应的处理结果。

具体地,在某些实施例中,场景和/或上下文信息本身可以用于帮助明确意图领域。在其他一些实施例中,场景和/或上下文信息可以帮助筛选用户信息。为此,可以基于所述场景和/或上下文信息,从所述画像信息和历史信息中筛选所需的用户信息,并且基于筛选出的用户信息,生成所述语音数据的处理结果。

在此,处理结果可以是用于与用户进行交互的交互结果。上述交互结果可以是语音交互,也可以是其他形式,例如,触觉和视觉上的交互,例如,可以是交由语音识别进行TTS(语音合成)的数据,也可以包括其他的表现形式,例如在本地语音设备还具有显示屏的情况下,上述交互结果还包括用于在显示屏上显示的数据等。在生成所述语音数据的处理结果之后,可以向所述用户提供基于所述语音数据的处理结果的服务。

所述服务可以包括单个服务,例如,家庭IoT可以控制智能电视打开,并播放A动画。但更为优选地,上述服务可以包括多个服务,每个服务涉及对应的关联操作,所述多个关联操作包括如下至少一项:相继执行的同类操作(例如,顺序播放的流行歌曲);以及同时执行的异类操作(打开客厅的灯,同时播放歌曲等。所述关联操作包括如下至少一项:声音播放;视觉呈现;以及其他设备控制。声音播放可以包括语音反馈,例如,在打开电视的同时,向宝宝播放语音反馈“电视打开了”。语音反馈的具体形式可以基于所述用户身份确定。在此,语音反馈的“形式”是相对于语音反馈的“内容”而言的,在反馈内容确定的情况下,可以根据用户身份来确定如何反馈这些已经确定的内容。例如,在上例中,可以以更为亲切的语气向宝宝反馈“电视打开了”。声音播放也可以包括其他播放,例如智能音箱播放音乐等。

由此,向所述用户提供基于所述语音数据的处理结果的服务可以包括:向所述用户提供对应于相同或不同服务的信息流。例如,控制IoT设备、提供推荐音频流、给出语音反馈等。

图4示出了根据本发明进行推荐信息服务流的例子。图4的中部,给出了语音交互系统的常规操作,即,在获取用户需求时,针对用户的语音输入(query),进行自然语言理解(NLU)操作并确定执行领域,给出相应的服务。在本发明中,则进一步添加了用户信息和场景信息的分支。在获取到用户语音输入时,除了用于常规的语义识别,还如图右侧所示,用于声纹识别以识别用户身份,根据用户身份获取用户信息,例如,从用户画像和记忆引擎(例如,用于提取有用的历史信息)中提取的信息。进一步地,还可以如图左侧所示,确定语音输入的上下文和场景信息,例如,基于上下文理解模块的处理。随后,三个分支的信息可以汇总,用于判定要执行的领域。根据汇总的信息,可以查询推荐引擎和知识图谱,并由对话管理模块给出相应的语音反馈。由此,给出通常涉及多种不同服务和操作的推荐信息服务流。

例如,智能音箱接收到妈妈的语音输入“做饭了”,此时,可以根据上下文和场景信息(客厅内打开的电视和灯)确定“做饭了”的语音处理结果包括关闭客厅电视和灯的操作。随后,可以根据NLP对“做饭了”的语义理解并结合妈妈在前的操作习惯,打开厨房的相关设备,同时菜谱可以根据家庭成员(爸爸和宝宝),推荐出喜好的菜谱。

由此,可以根据不同用户的喜好和习惯,推荐出非精确意图场景下不同的信息服务流组合。

如上所述,在不同的实施例中,结合图1描述的语音处理方法在不同的应用场景中,可以是在完全在语音交互设备上实现的单机方案,可以是在单个语音交互设备借助云端处理能力实现的单机联网方案,可以是云端服务器支持海量语音交互端实现的分布式系统方案,也可以是单纯由服务器执行的云端解决方案。

如下将结合图5-7进一步描述本发明的语音处理方案在不同范围内的具体应用。

图5示出了根据本发明一个实施例的语音处理系统的组成示意图。该系统指代更大范围内的分布式系统(而非例如小范围的家用语音交互系统),包括服务器(云端)和多个语音交互设备。在某些实现中,多个语音交互设备可以是多个相同类型的语音交互设备,但在如图5所示的更大范围的实现中,云端支持针对多种不同类型的海量语音交互设备的语音处理。

如图5所示,分布式语音处理系统500包括服务器510以及多个语音交互设备520。

语音交互设备520例如可以包括各种类型的交互终端,例如图示的智能音箱(例如,带屏幕的智能音箱)、智能电视和车娱系统等。在此,智能音箱可以用作家庭智能交互中心节点,并且用于应对多家庭用户的场景。智能电视则可用作智能视频会议的中心节点,并且用于应对多参会人员的场景。车娱系统则可以应对车辆上的驾驶员和其他乘坐人的多用户场景。本发明对上述语音交互设备520的实现形式不做限制。

语音交互设备520可以用于:接收来自用户的语音数据;确定所述用户的用户身份;向所述服务器510上传所述语音数据和所述用户身份。

服务器510可以是为同一品牌或厂商旗下的所有语音交互终端提供联网语音服务的云端服务器。服务器310可以用于对所述语音数据进行处理;以及基于用户身份,生成并下发所述语音数据的处理结果。

具体地,语音交互设备520对用户身份的识别,可以是自身进行的数据采集识别,借助云端服务器和/或数据的识别,获取其他设备的采集数据或采集结果的识别。在一个实施例中,语音交互设备520可以对所述语音数据进行声纹识别,并根据识别出的声纹确定所述用户身份。作为替换或者补充,语音交互设备520可以从生物识别组件或设备获取确定的用户身份。所述生物识别组件或设备可以包括如下至少一项:指纹识别组件或设备;以及人脸识别组件或设备。上述生物识别组件或设备可以是语音交互设备520所包括的组件,例如,摄像头和图像处理设备,也可以是分类的设备,例如,指纹锁。

进一步地,语音交互设备520可以参与在前身份信息库的建立。具体地,语音交互设备520可以用于:采集多个用户各自的身份信息,所述身份信息用于确定用户身份;以及在本地或服务器(或边缘计算设备)上生成包括所述身份信息的身份信息库。随后,语音交互设备可以通过获取所述用户的身份信息,将获取的所述用户的生物信息与所述身份信息库内存储的身份信息相比较,来根据比较结果确定所述用户身份。

在获取了用户身份之后,服务器510可以用于:基于所述用户身份,查询所述用户的画像信息和历史信息;以及基于所述画像信息和历史信息,生成所述语音数据的处理结果。类似地,用户的画像信息和历史信息可以优选存储在云端,或是部分存储在本地,例如上文表1所示的标签信息表。

在一个实施例中,服务器510可以用于:获取所述语音数据的场景和/或上下文信息;基于所述场景和/或上下文信息,从所述画像信息和历史信息中筛选所需的用户信息;以及基于筛选出的用户信息,生成所述语音数据的处理结果。

在一个实施例中,服务器510可以用于:基于所述用户身份,确定所述语音数据的领域意图,和/或所述语音数据本身的领域意图之外的附加领域意图;以及基于所述领域意图,和/或所述附加领域意图,生成所述语音数据的处理结果。

随后,服务器510可以返回基于所述语音数据的处理结果的服务信息。语音交互设备520则获取所述服务器返回的服务信息,并且基于所述服务信息,执行对应的关联操作,所述关联操作包括如下至少一项:声音播放;视觉呈现;以及其他设备控制。

优选地,语音交互设备520是智能音箱,所述其他设备是与所述智能音箱联网的物联网设备。

图6示出了根据本发明一个实施例的语音交互设备的组成示意图。该语音交互设备600可以前图中示出的语音交互设备520。

如图6所示,语音交互设备600包括语音数据接收装置610,用于接收用户的语音数据;用户身份确定装置620,用于确定所述用户的用户身份;联网装置630,用于将获取到的语音数据和所述用户身份上传至服务器,并获取所述服务器基于用户身份生成并下发的所述语音数据的处理结果;以及交互装置640,用于基于下发的所述处理结果进行交互。

在一个实施例中,语音数据接收装置610可以是设备600自带的麦克风装置,用于采集用户的语音数据。在其他实施例中,设备600可以包括短距离通信装置,用于获取其他语音终端采集到的用户语音数据,例如,由布置在家中其他房间内的智能语音贴采集并传送的语音数据。另外,该短距离通信装置还可以获取其他设备采集到的用于确定用户身份的身份数据或是判定的用户身份本身,例如,获取密码锁判定的用户身份。

在不同的实现中,交互装置630可以包括如下至少一项:扬声器装置,用于向用户播报所述处理结果;显示屏装置,用于向用户显示所述处理结果,并且短距离通信装置可用于将获取的所述处理结果发送至其他设备,例如,受控的IoT设备。

在一个实施例中,该设备600还可以包括场景信息获取装置,用于获取场景信息。场景信息可以包括如下至少一项:语音交互设备类型;当前时间;当前地理位置;当前速度;当前日历信息;以及当前环境信息等。场景信息获取装置620可以包括如下至少一项:联网装置,用于通过查询网络获取场景信息;定位装置,用于通过定位系统获取场景位置信息(例如,利用GPS设备获取GPS信息作为地理位置信息);一个或多个传感器,用于感测一个或多个场景传感信息(例如,感测车速等);系统访问装置,用于读取本地系统配置信息(例如,设备类型信息)。联网装置可以将获取到的所述场景信息上传服务器,并获取所述服务器基于所述场景信息筛选出的用户身份信息生成的所述处理结果。

如前所述,该设备可以采集多个用户各自的身份信息,所述身份信息用于确定用户身份;以及在本地或服务器上生成包括所述身份信息的信息库。

另外,该设备可以在本地执行部分语音交互链路的功能,因此,设备600还可以包括如下至少一项:声纹识别装置,用于对获取的至少部分语音数据进行声纹识别;语音识别装置,用于对获取的至少部分语音数据进行语音识别;以及自然语言理解装置,用于对至少部分经语音识别的语音数据进行意图和领域的识别。

图7示出了根据本发明一个实施例的语音交互方法的流程示意图。该方法可由本发明的语音交互设备实现。

在步骤S710,接收用户的语音数据。在步骤S720,确定所述用户的用户身份。在步骤S730,将获取到的语音数据和所述用户身份上传至服务器。在步骤S740,获取所述服务器基于用户身份生成并下发所述语音数据的处理结果。在步骤S750,基于下发的处理结果进行操作。

在一个实施例中,确定所述用户的用户身份包括如下至少一项:基于所述语音数据中提取的声纹信息,确定所述用户的用户身份;以及获取其他设备采集到所述用户身份或是用于确定所述用户身份的身份信息。

在一个实施例中,获取语音数据可以包括如下至少一项:使用麦克风装置采集用户的语音数据;以及使用短距离通信装置获取其他语音终端采集到的用户语音数据。

在一个实施例中,基于下发的所述处理结果进行交互可以包括如下至少一项:使用扬声器装置向用户播报所述处理结果;使用显示屏装置向用户显示所述处理结果;以及使用短距离通信装置将获取的所述处理结果发送至其他语音终端。

在一个实施例中,该方法还包括:采集多个用户各自的身份信息,所述身份信息用于确定用户身份;以及在本地或服务器上生成包括所述身份信息的身份信息库。

进一步地,该设备可以在本地执行部分语音交互链路的功能,因此该方法还可以包括:对获取的至少部分语音数据进行语音识别;以及对至少部分经语音识别的语音数据进行意图和领域的识别。

本发明的语音处理方案还可适用于多种具体的应用场景。

在一个实施例中,本发明还可以实现为一种语音处理方法,包括:接收来自用户的语音数据;采集所述用户的图像数据;基于所述语音数据和/或所述图像数据确定所述用户的用户身份;以及基于所述用户身份,生成所述语音数据的处理结果。该方法尤其适用于由包括语音设备和摄像头的家庭智能系统或是智能会议系统实现。在此,语音设备可以采集用户语音数据并进行声纹提取,摄像头则可以采集用户的图像数据以进行用户特征提取和识别(例如,人脸识别),并由此共同或是择一确定用户身份,并给出相应的语音数据处理结果。在此例中,如果系统配备了多个语音设备,或是摄像头具备深度测量功能,则还可以根据交互的语音设备的位置或是摄像头采集的深度图像数据确定的用户位置,进一步细化语音交互场景,从而明确用户意图并给出相应的反馈。

在一个实施例中,本发明还可以应用于车载场景。为此,本发明还可以实现为一种车载语音处理系统,包括:麦克风,用于接收用户的语音数据;处理器,用于基于所述语音数据确定所述用户的用户身份;以及交互装置,用于根据基于所述用户身份生成的语音处理结果进行交互。在此,用户身份可以指代车载场景上特定的身份划分,例如,司机和乘客,并且乘客可以进一步细化为前排乘客和后排乘客等。此时,车载系统可以设置某些命令只能由被识别为“司机”身份的用户发出。

上述身份的判定可以基于不同的机制。例如,麦克风可以包括布置在车辆不同位置上的多组麦克风,并且所述处理器根据所述多组模块获取的语音数据确定所述用户的用户身份。作为替换或者补充,该车载系统还可以包括图像采集装置,并且所述处理器还根据图像采集数据采集到的图像信息确定所述用户的用户身份。

进一步地,本发明还可以实现为一种包括多个语音交互设备的语音处理系统。所述多个语音交互设备,例如可以是智能家庭中布置在客厅、厨房和卧室的不同的语音设备,并且可以用于接收来自用户的语音设备。

通常情况下,所述多个语音交互设备中的一个语音交互设备被唤醒与用户进行交互。所述交互可以实现本发明的语音处理方法,并且可以包括:接收来自用户的语音数据;基于所述语音数据确定所述用户的用户身份,并且基于被唤醒的所述语音交互设备的位置确定当前交互场景;以及基于所述用户身份和所述当前交互场景,生成所述语音数据的处理结果。例如,根据爸爸身份和客厅位置,确定娱乐场景并打开电视等。

图8示出了根据本发明一个实施例可用于实现上述语音处理方法的计算设备的结构示意图。

参见图8,计算设备800包括存储器810和处理器820。

处理器820可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,处理器820可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中,处理器820可以使用定制的电路实现,例如特定用途集成电路(ASIC)或者现场可编程逻辑门阵列(FPGA)。

存储器810可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器820或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器810可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器810可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器810上存储有可执行代码,当可执行代码被处理器720处理时,可以使处理器820执行上文述及的语音处理方法。

上文中已经参考附图详细描述了根据本发明的语音处理方法和系统,以及语音交互装置和方法。本发明的语音处理方案能够依据用户身份提供个性化语音交互服务的方案。该方案根据不同用户的不同喜好,推荐出非精确意图场景下不同的信息服务流组合。

此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:车内含噪语音数据生成方法、装置以及设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!