人机交互技术报告

西南交通大学

人机交互技术报告

课程《人机交互技术》学院信息科学与技术学院

专业软件工程

姓名

学号 20119050

日期 2016年月日

摘要

随着数字化及智能化的普及，在日常生活及工作中，我们随处可以见到一些语音与听觉系统的应用，像公交车的语音报站系统、语音邮件系统、手机的语音命令拨打电话等等，都是这样的应用。那么，本文就现阶段的一些语音与音频技术，包括离散词语识别、连续语音识别、语音信息系统、语音生成、非语音听觉交互五种，针对每一类技术各自的应用领域、优缺点及其发展趋势进行了详细地探讨、分析。最后，整体总结分析了语音与听觉界面当前的发展及其未来发展趋势。

关键词：语音与听觉界面；离散词语识别；连续语音识别；语音信息系统；语音生成；非语音听觉界面

1. 引言

对计算机讲话和让计算机说话的梦想已经诱惑了很多研究人员及幻想家。1968年，Arthur C. Clarke 在《2011：星际漫游》的书和电影中对HAL 9000 计算机的幻想，已经为科幻小说中计算机的性能和一些高级开发人员设定了标准。虽然硬件设计人员已经在语音识别、生成和处理方面取得了引人注目的进步，但是与科学小说的幻想相比，当前的成功仍是令人清醒的。

那么在现阶段，语音与听觉交互到底有着怎么样的发展呢？在哪些领域进行的了应用呢？应用的效果怎么样呢？优势与劣势各是什么呢？针对上述这些问题，语音与听觉交互的发展趋势又会是怎样呢？这些都是本文将要讨论的问题。

2. 语音与听觉界面

通俗易懂的讲，语音交互是要实现对计算机讲话和让计算机讲话。目前语音交互取得了很多进展，但是仍然存在着很多不能忽视的问题。

总的来讲，语音交互的实际应用只有在他们适合用户的工作速度快，认知负载底，出错率低的需要时才会成功。从这些需求来看，语音交互似乎都不能很好地满足用户的需要，原因是：首先，语音输出是相对缓慢的；其次，与手眼协调相比，语音命令对用户工作记忆的要求更高，对正在执行任务的用户影响更大，比如计划和问题求解便是这样的；最后，背景噪声和用户语音的变体对语音识别的挑战仍旧很大，使得语音的识别的出错率还是占有一定的比重。

尽管语音交互存在着这么多不能忽视的，不尽如人意的问题，语音交互仍有以下一些方面的优点：①语音存储转发和语音生成可预测、低成本、广泛可用。②对于有身体缺陷者，语音有明显好处。③电话会话的及时性和情感影响是人与人之间交流中引人瞩目的组成成分。

语音和音频技术有五种：离散词语识别、连续语音识别、语音信息系统、语音生成、非语音听觉交互。接下来，就从这五个具体方面，解析语音交互的优点与缺点，及可能的发展趋势。

2.1离散词语识别

离散词语识别设备识别特定人所说的单个词，对于100~10000 个词或更大的词汇量，其工作的可靠性能够达到90%~98%。目前，离散词语识别设备的使用分两种方式，一种是由使用者通过特定方式对系统进行词汇学习训练，另外一种

则不进行，因为更容易推广。因为技术的限制，语音识别设备的固有缺点，使得语音的识别率并不是很高，可以通过下列方式提高识别率：安静的环境、头戴式话筒、精心选择的词汇。

离散词语识别技术的缺点是显而易见的，这种技术面临着如下的问题：因为他的不可靠的识别，许多用户不愿使用。语言识别设备的识别率低可能是由以下原因引起的：背景声音的改变、用户生病或者处于压力之下，词汇表中的单词相似。

其优点则是，通过语音识别设备，使用者就可以把眼睛与手等本来要用于关注指令的器官解放出来。当然这个优点是有局限性地，因为语音设备的使用，必然会占用用户的更多的工作记忆。所以并不能适应用户过多使用工作记忆的场合。

从上面对语音交互设备优点的阐述，可以知道，在一些特定的领域，语音识别仍有着较好的应用，比如飞机发送机机检察员就是用着语音系统。他们一边检查设备，一边通过头戴无线话筒发指令。同样地，离散词语识别设备针在身体有残疾者已经有着较好的应用。

相反地，如果是在普通的计算机应用系统上,使用显示器的用户就会明显胜于使用语音系统的。因为使用光标来检索或者操作比使用语音不论是从识别率还是效率上都要高效。用户的手脚与眼睛并不需要那么忙碌，而通过语音设备解放出来。

尽管从绘图程序对调色版的选取上来看，语音系统快过光标系统。问题是，语音系统占用用户的更多记忆。对于需要短时记忆工作的场景不合适。

因而对于语音系统，最重要的一点不足就是说命令或者听对计划和问题求解的破坏更大，会占用用户的工作记忆，在一些很需要工作记忆的地方就会暴漏出语音识别设备的不足。而在一些不太需要工作记忆的场合，比如玩具使用者的身上，语音设别就可以成功应用。

由于语音会占用用户的工作记忆这一点并不是容易解决的问题，当前研究项目就会专注于提高在困难条件下的识别率，使得语音识别系统在那些可以使用的场合下可以更高效地使用。这些研究包括尽量消除对与讲话者有关训练的需要，并把处理的词汇增加到1万个以上。基于移动设备的、基于语音的文本输入也在改进。这些困难条件就会包括，语音文本输入效率低、方言噪声干扰影响语音识

别等。

总结上述对离散语言设备的论述可以知道，离散语音设备可以将人的本来用于控制命令的器官解放出来，使得工作更高效，但却有着出错率高、占用用户工作记忆等缺点。所以离散语音系统在专门的应用系统中工作良好，但语音识别系统并没有起到通用交互式媒介的作用，因为直接操作设备速度较快，能使动作或命令可见而容易编辑。

既然离散语音识别系统存在着上述的这些问题与优势，那么将语音与直接操纵结合起来将是有用的。

2.2连续语音识别

连续语音识别主要是用于语音听写。语音听写是可以做到得到，缺点是有着较高的出错率。从用户角度说，与写作相比，听写干扰计划和句子构造造成的认知负担通常会降低文档质量。从语音识别角度说识别口语单词之间的界限比较困难。为了解决困难：通常会让用户朗读标准文字段来进行训练。

连续语音识别系统使用户能够口述写信和口头撰写报告。在准备标准报告方面，语音输入似乎做得最好；而在创造性写作有思想性地文章，因为需要用工作记忆，键盘输入最好。

连续语音识别使得电视节目、诉讼节目、演讲等的自动浏览和检索特定单词或者主题成为可能。

连续语音识别的另外一个应用就是身份识别。

总的来说，需要抓住连续语音识别的高出错率这个特点，还有连续语音识别快捷这个优点进行综合分析。那么可以得到的结论是，连续语音识别在一些实时准确性要求不高的，但又在一些比较花时间的且有时间进行错误修改的场合或者一些不需要识别太多语句的场合是有用武之地的。至于在一些比较影响口述者思维的情况下，连续语音识别还要通过技术的继续进步才能做到。

尽管连续语音识别到今天取得了很多重要的进步，不过在普通环境下进行舒服自然的交流至今还做不到。

2.3语音信息系统

人的声音作为信息源和作为通信基础的吸引力是强烈的。存储的语音通常用于提供关于旅游胜地和政府服务的、组织办公时间等基于电话的消息。这些语音

信息系统通常称为交互式语音设备，如果能够使用恰当的开发方法和度量标准，就能以低成本提供良好的客户服务。语音信息系统的弊端仍然在于语音输出速度缓慢、语音的短暂性及浏览/检索的困难。但如果能巧妙地规避这些问题就可以充分利用它廉价的优点，进行推广。语音信息系统主要有以下一些方面的应用：

（1）语音信息技术在个人语音邮件系统中非常流行，基于电话的语音系统能够使用通过小键盘输入的用户命令来存储和转发口信，用户能够接收消息、重放消息、回复呼叫、向其他用户转发消息、删除消息、把消息存档等。从这一点上看来，语音邮件技术工作可靠、相当低廉。

（2）语音信息技术的另一应用，便是录音机向数字化方法的迈进以及小型手持式语音设备的应用。

（3）作为语音信息技术的另一方面体现，博物馆的语音导览和有声读物已经获得了成功，允许用户控制节奏，传达馆长的热情和作者的感情。视觉触觉听觉三者结合则可促进学习。

对于语音信息系统，其优点在于语音输出是使用人的声音作为源声音，是很具有吸引力的。而缺点仍是在进行语音识别时的识别困难。针对语音识别困难，最简单的解决办法是规定用户使用陈述所选数字或者所选选择项单词的方式，来简化语音识别。而要使用直接识别自然语言，仍然需要进一步研究。

2.4语音生成

语音生成广泛应用于消费产品和电话应用系统，它是使用数字化语音段的廉价、简洁、可靠的系统，已经用于汽车导航系统、互联网服务和公共设施控制室等系统中。

语音生成的弊端在于，在有些环境下是不合适的，因为有些东西不适合以语音的形式表现出来。

语音生成的一个优点就是，这种机器合成声，容易引起注意。

盲人的应用系统就是语音生成的一个重要的成功案例。

基于Web的语音应用系统是有前途的。例如：手机用户能够通过视觉显示和语音生成输出的组合来访问Web信息。

基于电话的语音信息系统可能把数字化的语音段和语音生成混合在一起，以允许提供适当的情调和当前信息呈现。电话的普遍性使得这些服务有吸引力。

语音合成在技术上是可行的，在应用上还有很到的扩展空间。对于设计人员来说，需要做的是找到该技术优于预录和数字化的人类语音消息的情形。

在我来看，语音合成与预录和数字化语音比较起来，优点大致有一下几种：①廉价；②特有的机器合成音在很多场合更可以引人注意。语音合成的发展趋势应该是作为显示的补充或者是嵌入到小型消费产品中，使得产品更加灵活有吸引力。

2.5非语音听觉界面

除语音之外，听觉输出包括个人的音调和通过声音和音乐的组合来表示的更复杂的信息。

音乐设计对于非语音听觉界面的开发有着重要的作用，特别是移动和嵌入式设备的开发。有用的区别是在成为声标的熟悉声音与成为耳标的、其含义必须加以学习创造出来的抽象声音之间。听标、耳标和可听化技术是听觉显示研究的三个重要研究内容[2]。有研究者对听觉界面中耳标与听标的效率和可用性进行了比较研究，结果发现耳标与听标均为听觉用户界面设计中的有效信息表征方式，但其适用场合有所不同[2]。

现在，已经发展了多种听觉界面的概念。提供关于用户动作反馈的滚动条，提供听觉信息的地图或图表和呈现统计信息的表格数据或地图的可听话。

针对盲人用户或电话用途的听觉Web浏览器已经开发出来，用户能够听文本和连接标签然后通过按键输入做出选择。而这里的这些声音就属于非语言听觉界面。

在非语言听觉界面方面，科学家们还有着更大胆的设想，将数据以一系列立体的或三维的声音形式显示而不是以图像的形式呈现。

在非语言听觉界面方面的另一想法是，把传统的音乐添加到用户界面设计中，这样使得用户能够更自然的听懂这些声音的含义。

非语言听觉界面的一个新的应用是，在创造新的音乐设备，在这方面潜力似乎特别有吸引力，结合触觉敏锐设备有可能给予音乐家类似乐器的体验发明新乐器。现在更快的硬件和创新的用户界面正在促进更新的虚拟音乐设备的产生。

关于非语音听觉界面，我个人的想法是，这个技术应该主要应用于界面设计中，用来使得交互形象化，通过一些声标与耳标使得用户能够更加方便轻松地进

行交互。但是听觉界面的使用要注意的是度，适当的听觉交互可以使得交互变得活跃起来，太多的交互就会在一定场景下就会变成噪音与累赘，影响交互效果。

通过查找关于非语言听觉方面的资料以及课堂上的学习，了解到了听觉界面的如下一些优点：①人对声音信号随时间的变化特别敏感，即时间解析度；②声音具有全向特性；③听觉是视觉缺陷者获得信息的主要通道之一；④声音信号与其他信号共同使用回答道更自然和搞笑的人机交互效果；⑤声音信号有可能表示多维数据流；⑥声音信号的反应时间和处理时间快于视觉；⑦听觉界面可以解决视觉界面中的误操作。所以说听觉在界面设计上的应用将会越用越灵活。

就我个人而言，非语言听觉界面后期的发展应该更加注意的是听觉应用场景与度的把握，以及通过对用户的心理研究，研究出更适合的非语音听觉交互界面。

3. 总结

通过分以上对语音与听觉界面的分析可以得出以下一些结论。

在现阶段，语音交互总体来说，从输出的方面，有着输出缓慢、语音短暂、浏览/搜索困难的障碍，识别方面，有着增加认知负荷、噪音干扰、不稳定识别的障碍。但其优势也是明显的，主要集中在这样一些时机：到用户有视觉障碍时、当说话者手忙的时候、当需要移动性时、当说话者眼睛被占用时、当恶劣的或狭窄的条件妨碍使用键盘时。只要能把握好语音交互的上述特点，便可以更好地进行应用。

语音交互的应用主要集中在一些特定领域，比如军用、医疗等一些嵌入式计算机领域或者针对一些残障用户群体。另外就是一些娱乐领域。在这些领域的应用已经相对成熟起来。以后语音交互的发展应该重点偏向一些特定的领域，这样才能使得语音识别变得更高效。

正如黄学东在其《无处不在的语音用户界面（VOICE UI）》中所说,“我们认为下一个推动计算机新时代到来的最关键的技术之一，应该是语音和通用的用户界面技术，这一技术可以使用户在任何地方、任何时候都能够获得信息，控制计算机。”[3]，语音用户界面的优势便是操作简洁性，因为键盘鼠标这些设备并不是在任何场景下都可以使用的。所以印证了语音界面在嵌入式领域可以大有作为这样一个观点。

就我个人的观点并结合文章所述，语音交互的两个重要问题，一是识别率低，

二是占用用户工作记忆。我觉得可以通过下列的思路来考虑：

（1）在这些特定领域可以使用一些技巧来增加识别率降低错误率，比如通过自我学习与积累在一个领域中可能使用到的语法库、词语库、句子库的方法，使得语音的识别变得专项起来，那么在这个领域的语音识别率就会大大提高。

（2）除了语音的识别率低，另外语音的使用会占用用户的工作记忆的问题，就如前面所说，可以通过手动操作与语音操作结合起来的办法来克服，通过结合的办法就可以充分利用语音识别与手动操作各自的优势。

只要能很好地规避语音交互的一些障碍，加之语言与听觉交互在现代电子计算机的发展过程中占据着越来越重要的地位，是使用户工作与生活便捷化的一个重要方式，并且使用正确地方法攻克识别的难关且在适当的领域中充分发挥其特点充分考虑用户需求进而发展。那么就可以使得语音与听觉交互有着更好地发展。

参考文献：

[1] 方志刚,胡国兴,吴晓波.基于非语言声音的听觉用户界面研究[J].浙江大学学报.

[2] 喻耀华,刘正捷.听觉显示研究与应用[J].计算机科学,

2008,35(06):272-275.

[3] 黄学东.无处不在的语音用户界面(VOICE UI)[EB/OL].

http://sopolo.blog.163.com/blog/static/[***********]39173/,2009.

西南交通大学

人机交互技术报告

课程《人机交互技术》学院信息科学与技术学院

专业软件工程

姓名

学号 20119050

日期 2016年月日

摘要

关键词：语音与听觉界面；离散词语识别；连续语音识别；语音信息系统；语音生成；非语音听觉界面

1. 引言

2. 语音与听觉界面

通俗易懂的讲，语音交互是要实现对计算机讲话和让计算机讲话。目前语音交互取得了很多进展，但是仍然存在着很多不能忽视的问题。

2.1离散词语识别

尽管从绘图程序对调色版的选取上来看，语音系统快过光标系统。问题是，语音系统占用用户的更多记忆。对于需要短时记忆工作的场景不合适。

别等。

既然离散语音识别系统存在着上述的这些问题与优势，那么将语音与直接操纵结合起来将是有用的。

2.2连续语音识别

连续语音识别使得电视节目、诉讼节目、演讲等的自动浏览和检索特定单词或者主题成为可能。

连续语音识别的另外一个应用就是身份识别。

尽管连续语音识别到今天取得了很多重要的进步，不过在普通环境下进行舒服自然的交流至今还做不到。

2.3语音信息系统

（2）语音信息技术的另一应用，便是录音机向数字化方法的迈进以及小型手持式语音设备的应用。

2.4语音生成

语音生成的弊端在于，在有些环境下是不合适的，因为有些东西不适合以语音的形式表现出来。

语音生成的一个优点就是，这种机器合成声，容易引起注意。

盲人的应用系统就是语音生成的一个重要的成功案例。

基于Web的语音应用系统是有前途的。例如：手机用户能够通过视觉显示和语音生成输出的组合来访问Web信息。

语音合成在技术上是可行的，在应用上还有很到的扩展空间。对于设计人员来说，需要做的是找到该技术优于预录和数字化的人类语音消息的情形。

2.5非语音听觉界面

除语音之外，听觉输出包括个人的音调和通过声音和音乐的组合来表示的更复杂的信息。

现在，已经发展了多种听觉界面的概念。提供关于用户动作反馈的滚动条，提供听觉信息的地图或图表和呈现统计信息的表格数据或地图的可听话。

在非语言听觉界面方面，科学家们还有着更大胆的设想，将数据以一系列立体的或三维的声音形式显示而不是以图像的形式呈现。

在非语言听觉界面方面的另一想法是，把传统的音乐添加到用户界面设计中，这样使得用户能够更自然的听懂这些声音的含义。

3. 总结

通过分以上对语音与听觉界面的分析可以得出以下一些结论。

就我个人的观点并结合文章所述，语音交互的两个重要问题，一是识别率低，

二是占用用户工作记忆。我觉得可以通过下列的思路来考虑：

参考文献：

[1] 方志刚,胡国兴,吴晓波.基于非语言声音的听觉用户界面研究[J].浙江大学学报.

[2] 喻耀华,刘正捷.听觉显示研究与应用[J].计算机科学,

2008,35(06):272-275.

[3] 黄学东.无处不在的语音用户界面(VOICE UI)[EB/OL].

http://sopolo.blog.163.com/blog/static/[***********]39173/,2009.

相关内容

热门内容

标签