口语理解（Spoken Language Understanding）简介及其模型、数据集

口语理解

Spoken Language Understanding

口语理解（Spoken Language Understanding）是计算机系统为执行特定任务或提供特定服务而分析和理解口语的能力。这通常包括分析所讲的单词和短语，以及它们使用的上下文，以便准确解释它们的含义并以适当的方式做出回应。例如，口语理解系统可以用于能够理解和响应语音指令的虚拟助理，或者在能够理解和响应客户问题和请求的客户服务聊天机器人中使用。口语理解的最终目标是使人们能够使用自然语言与计算机系统互动，就像他们与其他人一样。

口语理解的输入是语音，其主要目的是基于人类的语音理解内容然后完成相应的任务。这里的理解“Understanding”是一系列自然语言处理任务的集合，包括自然语言处理中的命名实体识别、问答系统等任务。目前，口语理解任务的处理方式有两类：一种是基于pipeline的方式处理，即先将语音识别成文字，然后基于识别结果的文字内容进行自然语言处理的后续任务。另一种是端到端的处理方式，即输入是语音，中间不会将语音识别成文字再处理，而是直接建立一个面对最终任务的模型。