多媒体技术基础与应用简答论述题

1-7

7、简述多媒体计算机的关键技术及其主要应用领域？

答：多媒体计算机的关键技术是：（1）视频音频信号获取技术；（2）多媒体数据压缩编码和解码技术；

（3）视频音频数据的实时处理和特技；（4）视频音频数据的输出技术。

多媒体技术促进了通信、娱乐和计算机的融合。多媒体计算机的主要应用领域有三个方面：（1）多媒体技术是解决常规电视数字化及高清晰度电视（HDTV）切实可行的方案。采用多媒体计算机技术制造HDTV，它可支持任意分辨率的输出，输入输出分辨率可以独立，输出分辨率可以任意变化，可以用任意窗口尺寸输出。与此同时，它还赋予HDTV很多新的功能，如图形功能，视频音频特技以及交互功能。多媒体计算机技术在常规电视和高清晰度电视的影视节目制作中的应用可分成两个层次：一是影视画面的制作：采用计算机软件生成二维、三维动画画面；摄象机在摄影真实的影视画面后采用数字图象处理技术制作影视特技画面，最后是采用计算机将生成和实时结合用图象处理技术制作影视特技画面。另一个层次是影视后期制作，如现在常用的数字式非线性编辑器，实质上是一台多媒体计算机，它需要有广播级质量的视频音频的获取和输出、压缩解压缩，实时处理和特技以及编辑功能。（2）用多媒体技术制作V-CD及影视音响卡拉OK机。多媒体数据压缩和解压缩技术是多媒体计算机系统中的关键技术，V-CD就是利用MPEG-I的音频编码技术将压缩到原来的六分之一。（3）采用多媒体技术创造PIC（个人信息通信中心），即采用多媒体技术使一台个人计算机具有录音电话机、可视电话机、图文传真机、立体声音响设备、电视机和录像机等多种功能，即完成通信、娱乐和计算机的功能。如果计算机再配备丰富的软件连接上网，还可以完成许多功能进一步提高用户的工作效率。

2-10

10、简述音频编码的分类及常用编码算法和标准。

答：音频编码分为：

（1）基于音频数据的统计特性进行编码，其典型技术是波形编码。其目标是使重建语音波形保持原波形的形状，PCM（脉冲编码调制）是最简单的编码方法。还有差值量化（DPCM）、自适应量化（APCM）和自适应预测编码（ADPCM）等算法。

（2）基于音频声学参数进行参数编码，可进一步降低数据率。其目标是使重建音频保持原音频特性。常用的音频参数有共振峰、线性预测系数、滤波器组等。这种编码技术的优点是数据率低，但还原信号的质量较差，自然度低。

（3）基于人的听觉特性进行编码。从人的听觉系统出发，利用掩蔽效应设计心理学模型，从而实现更高效率的数字音频压缩。而最有代表性的是MPEG标准中的高频编码和Dolby AC-3。

国际电报电话咨询委员会（CCITT）和国际标准化组织（ISO）提出了一系列有关音频编码算法和国际标准。如G.711 64Kbps（A）律PCM编码标准、G7. 21采用ADPCM数据率为32kbps。还有G.722、G.723、G.727和G.728等。

3-11

11、简述视频信息获取的流程，并画出视频信息获取的流程框图。

答：（1）视频信息获取的基本流程概述为：

彩色全电视信号经过采集设备分解成模拟的R、G、B信号或Y、U、V信号，然后进行各个分量的A/D变换、解码、将模拟的R、G、B信号或Y、U、V信号变换成数字信号的R、G、B信号或Y、U、V信号，存入帧存储器。主机可通过总线对帧存储器中的图象数据进行处理，帧存储器的数据R、G、B信号或Y、U、V信号经过D/A变换转成模拟的R、G、B信号或Y、U、V信号，再经过编码器合成彩色电视信号，输出到显示器上。

（2）视频信息获取流程框图如下：

3-12

12、简述视频信号获取器的工作原理。

答：视频信号获取器的工作原理概述如下：

从彩色摄象机、录象机或其他视频信号源得到的彩色全电视信号首先到视频模拟输入端口，首先需要解决行同步信号和场同步信号（包括奇数场同步信号和偶数场同步信号）的分离问题，即采用限幅的方法，将场同步和行同步信号与图象信号分开，然后用积分和微分的方法获得场同步信号和行同步信号，再根据奇数场同步信号在一行的开始和偶数场同步信号在一行的中间，得到奇数场同步信号和偶数场同步信号。然后送到具有钳位电路和自动增益的运算放大器，最后经过A/D变换器将彩色全电视信号转换成8位数字信号，送给彩色多制式数字解码器。经过多制式数字解码器解码后得到Y、U、V数据，然后由视频窗口控制器对其进行剪裁，改变比例后存入帧存储器，帧存储器的内容在窗口控制器的控制下与VGA信号或视频编码器的同步信号同步，再送到D/A变换器，模拟彩空间变换矩阵，同时送到数字式视频编辑器进行视频编码，最后输出到VGA监视器及电视机或录象机。

4-8

8、简述MPEG和JPEG的主要差别。

答：MPEG视频压缩技术是针对运动图象的数据压缩技术。为了提高压缩比，帧内图象数据和帧间图象数据压缩技术必须同时使用。

MPEG通过帧运动补偿有效地压缩了数据的比特数，它采用了三种图象，帧内图、预测图和双向预测图。有效地减少了冗余信息。对于MPEG来说，帧间数据压缩、运动补偿和双向预测，这是和JPEG主要不同的地方。而JPEG和MPEG相同的地方均采用了DCT帧内图象数据压缩编码。

在JPEG压缩算法中，针对静态图象对DCT系数采用等宽量化，而是MPEG中视频信号包含有静止画面（帧内图）和运动信息（帧间预测图）等不同的内容，量化器的设计不能采用等宽量化需要作特殊考虑。从两方面设计，一是量化器综合行程编码能使大部分数据得到压缩；另一方面是通过量化器、编码器使之输出一个与信道传输速率匹配的比特流。

4-9

9、

求其Huffman解：

a1 0.5----------------------------------------------------------------0---------- 0 a2 0.25----------------------------------------------0------0.5------1 10

a3 0.125--------------------------0------0.25-------1 110

a4 0.0625-------0-----0.125------1 1110

a5 0.0625-------1 1111

则：a1=0(码长1) a2=10(码长2) a3=110（码长3） a4=1110(码长4) a5=1111(码长4)

信息熵：

n5

HPiLog2(Pi)

i1

(

1

212Log1

21221

414Log1

41247818Log128116Log1216116Log1216) 3811.875bit/字符

a1-a5码长分别为1，2，3，4，4

0.5*1+0.25*2+0.125*3+0.0625*4*2 n5

则平均码长N

4-10 i1PiLj121142183116411641.875bit/字符

10、详述JPEG静态图象压缩编码原理及实现技术。

答：JPEG是由国际电报咨询委员会（CCITT）和国际标准化协会（OSI）联合组成的一个图象专家小组开发研制的连续色调、多级灰度、静止图象的数字图象压缩编码方法。JPEG适于静止图象的压缩，此外，电视图象序列的帧内图象的压缩编码也常采用JPEG压缩标准。JPEG数字图象压缩文件作为一种数据类型，如同文本和图形文件一样地存储和传输。基于离散余弦变换（DCT）的编码方法是JPEG算法的核心内容。算法的编解码过程如教材136页图4.25-4.26所示。编码处理过程包括原图象数据输入、正向DCT变换器、量化器、熵编码器和压缩图象数据的输出，除此之外还附有量化表和熵编码表（即哈夫曼表）；接收端由信道收到压缩图象数据流后，经过熵解码器、逆量化器、逆变换（IDCT），恢复并重构出数字图象，量化表和熵编码表同发送端完全一致。编码原图象输入，可以是单色图象的灰度值，也可以是彩色图象的亮度分量或色差分量信号。DCT的变换压缩是对一系列8*8采样数据作块变换压缩处理，可以对一幅像，从左到右、从上到下、一块一块（8*8/块）地变换压缩，或者对多幅图轮流取8*8采样数据块压缩。解码输出数据，需按照编码时的分块顺序作重构处理，得到恢复数字图象。

具体的实现技术如下：

（1）首先把一幅图象分8*8的子块按图中的框图进行离散余弦正变换（FDCT）和离散余弦逆变换（IDCT）。

在编码器的输入端，原始图象被分成一系列8*8的块，作为离散余弦正变换（FDCT）的输入。在解码器的输出端，离散余弦逆变换（IDCT）输出许多8*8的数据块，用以重构图象。8*8 FDCT和8*8 IDCT数学定义表达式如下：

FDCT：

F(u,v)1

477C(u)C(v)[

x0y0f(x,y)cos(2x1)16ucos(2y1)

16v]

IDCT：

F(x,y)1

477[

u0v0C(u)C(v)f(u,v)cos(2x1)16ucos(2y1)

16v]

两式中，C(u),C(v)=1

2，当u=v=0

C(u),C(v)=1 , 其它情况

离散余弦正变换（FDCT）可看作为一个谐波分析仪，把离散余弦逆变换（IDCT）看作一个谐波合成器。每个8*8二维原图象采样数据块，实际上是64点离散信号，该信号是空间二维参数x和y的函数。FDCT把这些信号作为输入，然后把它分解成64个正交基信号，每个正交信号对应于64个二维（2D）空间频率中的一个，这些空间频率是由输入信号的频谱组成。FDCT的输出是64个基信号的幅值（即DCT系数），每个系数值由64点输入信号唯一地确定，即离散余弦变换的变换系数。在频域平面上变换系数二维频域变量u和v的函数。对应于u=0，v=0的系数，称做直流分量（DC系数），其余63个系数称做交流分量（AC系数）。因为在一幅图象中像素之间的灰度或色差信号变化缓慢，在8*8子块中像素之间相关性很强，所以通过离散余弦正变换处理后，在空间频率低频范围内集中了数值大的系数，这样为数据压缩提供了可能。远离直流系数的高频交流系数大多为零或趋于零。如果FDCT和IDCT变换计算中计算精度足够高，并且DCT系数没有被量化，那么原始的64点信号就能精确地恢复。

（2）量化

为了达到压缩数据的目的，对DCT系数F（u,v）需作量化处理。量化处理是一个多到一的映射它是造成DCT编解码信息损失的根源。在JPEG标准中采用线性均匀量化器。量化定义为，对64个DCT变换系数F（u,v）除以量化步长Q(u,v)后四舍五入取整。即量化器步长是量化表的元素，量化表元素随DCT变换系数的位置而改变，同一像素的亮度量化表和色差量化表不同值，量化表的尺寸也是64，与64个变换系数一一对应。量化表中的每一个元素值为1至255之间的任意整数，其值规定了对应位置变换系数的量化器步长。在接收端要进行逆量化，逆量化的计算公式为：

FQ'Q(u,v)F(u,v)Q(u,v)

不同频率的余弦函数对视觉的影响不同，量化处理是在一定的主观保真度图像质量的前提下，可据不同频率的视觉阈值来选择量化表中的元素值的大小。根据心理视觉加权函数得到亮度化表和色度量化表。DCT变换系数F（u,v）除以量化表中对应位置的量化步长，其幅值下降，动态范围变窄，高频系数的零值数目增加。

（3）熵编码

为进一步达到压缩数据的目的，需对量化后的DC系数和行程编码后的AC系数进行基于统计特性的熵编码。64个变换系数经量化后，坐标u=v=0的值是直流分量（即DC系数）。DC系数是64个图像采样平均值。因为相邻的8×8块之间有强的相关性，所以相邻块的DC系数值很接近，对量化后前后两块之间的DC系数差值进行编码，可以用较少的比特数。DC系数包含了整个图像能量的主要部分。经量化后的63个AC系数编码时从左上方AC(u=7,v=7)开始，沿箭头方向，以“Z”字形行程扫描，直到AC（u=7,v=7）扫描结束。量化后特编码的AC系数通常有许多零值，沿“Z”字形路径行进，可使零AC系数集中，便于使用行程编码方法。63个AC系数行程编码和码字，可用两个字节表示。JPEG建议使用两种熵编码方法：Huffman编码和自适应二进制算术编码。熵编码可分成两步进行，首先把DC和AC系数转换成一个中间格式的符号序列，第二步是给这些符号赋以变长码字。

5-5

5、详述Intel/IBM公司研制的DVI多媒体计算机系统成功和失败的经验教训，理想的系统如何设计实现。答：DVI系统能够用计算机综合处理声、文、图信息。

从硬件方面看：

（1）选用了PLV（Product Leave Vedio）视频压缩编码算法，产生AVI文件。

（2）为了实现PLV算法，DVI系统设计制造了两个专用芯片82750PA（PB）（象素处理器）和82750DA（DB）

（显示处理器）。

（3）同时设计了三个专用的门阵电路，即82750LH（主机接口门阵）、82750LV（VRAM/SCSI/Capture接口

门阵）和82750LA（视频子系统接口门阵）。

（4）设计实现了AVE（视频音频引擎）。

从软件方面看：

DVI系统设计实现了DOS环境下的AVSS（Audio Vedio SubSystem）和Windows环境下的AVK（Audio Vedio

Kernel），DVI系统中最成功的部分是AVE（视频音频引擎）。AVE包括三个部分，即视频子系统、音频子系统和AVBUS（视频音频总线）。

1．视频子系统

视频子系统的作用是视频信号处理和显示引擎，它们由82750PB（象素处理器）、VRAM以及82750DB（显示处理器）组成。其中存储器阵列VRAM存放所有DVI系统数据，即：位映射的数据、压缩编解码数据、算法微码、控制执行算法的数据结构以及控制显示功能的寄存器集数据。象素处理器82750PB用微码执行及视频图象快速处理算法、视频特技以及数字式运动图象和静止图象的压缩编码算法以及解码算法。显示处理器82750DB有非常灵活的可编程功能，它能够将不同的位映射数据转换成在监视器上显示需要的模拟信号。

82750PB象素处理器具有较宽的指令字长（48位），直接连到VRAM的随机或并行通道，由于不同指令字的不同字段分别控制硬件机构，所以这些指令可以同时执行多种操作，它包括两个分开并对称的内插16位数据总线、为8位象素计算专门分开的ALU操作；在解压缩时为运动补偿设计了象素插值器，解压缩编码数据流设计了统计解码器；以及为了同DVI的VRAM传输数据所设计的四个先进先出（FIFO）数据缓冲区。82750PB象素处理器运行较小的微码译码器，它定时询问在VRAM中的命令表。由计算机建立主命令表，微码命令由主机直接引导加载到82750PB微码存储器中，当命令表指出某些操作需要运行时，如解码操作，微码译码器从VRAM中将一个微码块加载到82750PB内部的微码存储器中，并且执行它。这些解码是由主计算机设计并加载到VRAM中的。

82750DB显示处理器连到VRAM的串行或顺序通道，显示处理器有几种不同的VRAM的位映射格式，可直接解释成在监视器显示屏幕上所需要的模拟信号数据流，YUV数据在VRAM中分别在三个门映射区存储，82750DB显示处理器把这三个位映射区取来并混合在一起，完成解压缩的最后一步。同时，通过计算水平面和垂直方向每个U和V的四个采集样点的平均值，完成色差信号的插值，然后82750DB要进行从YUV到RGB彩色空间的转换，把三个8位数字信号送到D/A变换器，最后输出模拟信号到彩色监视器。

2．音频子系统

音频子系统由音频信号处理器、数字到模拟的转换硬件以及模拟滤波器组成。它与视频子系统并行操作、解决音频信号的压缩、编码和解码，还解决音频信号的A/D、D/A转换以及音响声效的特技处理。

音频子系统的核心器件是AD（Analog Device）公司的AD-2105数字信号处理器（DSP），通过它完成所有音频信号的压缩和解压缩任务。DVI系统采用自适应预测编码（ADPCM）算法将16位的采样数据压缩编码成4位码，最后将压缩的音频数据输出到D/A转换器，DSP的垂直消隐中断出现在每个显示帧的场逆程，以此来解决视频数据流和音频数据流的同步问题。数字到模拟量的转换器是由Burr-Brown公司生产的PCM66P单片立体声16位串行接口组成。跟着D/A变换器是双通道的模拟滤波器，其截止频率近似固定在17KHz，并且有5个极点。

3．AVBUS视频音频总线

为了支持视频音频子系统，大量的基本数据必须在DVI的VRAM和DVI 的其余设备（包括外部设备、主机、获取子系统）之间传送。DVI中数据的通信通道采用了VRAM的具有多路开关功能的32位数据和地址总线，即AVBUS。AVBUS解决了视频音频流的问题。AVBUS由VRAM并行通道的数据信号组成，所有三个门阵、82750PB象素处理器以及VRAM都直接连到总线上，很多时间AVBUS作为VRAM和82750PB之间单一的数据总线，因而它们是默认的AVBUS的主设备。为了在AVBUS上传输数据，首先必须把总线控制权从82750PB手中转让给申请控制权的DVI设备，主机接口门阵是各种请求的仲裁器，通常采用主从型。一旦一个请求信号被仲裁器承认了，总线控制权从82750PB转让给该设备，允许在AVBUS执行该设备的通信协议。

AVSS是在DOS环境下运行的DVI系统的支撑软件，AVK是在Windows环境下运行的DVI系统的支撑软件。

（1）最下层的DVI系统的硬件包括：视频版、音频板、多功能板以及PC/AT的硬件。初始化时直接和硬件打交道的软件在引导程序作用下安装到系统RAM中常驻内存。一种多媒体硬件设备需要一个驱动程序模块，有为视频板设计的视频驱动程序、为音频板设计的音频驱动程序以及多功能板设计的多功能驱动程序。

（2）再上一层是驱动接口模块，驱动接口模块建立了为高层应用软件使用的虚拟设备。在DVI系统中共有四个驱动接口模块，即a）微码接口模块[Mc]：它是82750PA的接口模块，负责微码的加载和执行，同时也负责主机系统对VRAM的存取。b）视频接口模块[Vid]：它是82750DA的接口模块，负责82750DA的初始化。同时，它还包含了视频信号数字化器的接口软件。c）多功能接口模块[Utl]：它提供CD-ROM和操纵杆的接口软件。d）音响接口模块：它是音响板和音响数字化器的接口软件。

在同一层次上还有两个IBMPC/DOS的扩展模块：a）实时执行模块[Rtx]：它为DVI应用软件提供实时多任务操作系统环境。b）Microsoft CD-ROM模块[MSCDEX]：它是DOS扩展模块，能够使满足ISO 9660的CD-ROM用一般的方法在硬盘和软盘上自由存取。

（3）在第三层有两个高层次的软件包，即图形软件包[Gr]和音频视频支撑软件AVSS[Av]。a）图形软件包[Gr]：它提供图象处理，图形绘图基元以及视频管理功能。b）音频视频支撑软件AVSS[Av]：AVSS软件可管理AVSS格式写的视频、音频文件。

（4）最上面是应用层，它可以提供大量的应用程序。在应用层下面还有两个高层的DVI系统的接口，即DVI系统生产工具软件和多媒体编程工具语言。

DVI系统实现了AVE和AVSS或AVK，因而比较成功地解决了声、文、图信息的综合处理问题。它是一个比较成熟的多媒体计算机系统，它获得了“Comdex 91”最佳媒体产品奖和最佳展示奖。

DVI系统失败的地方是：由于现行的视频压缩国际标准是H.261、H.263、MPEG-1 、MPEG-2，而DVI的视频压缩算法采用非国际标准（AVI文件），这便是它的失败之处。

理想系统设计和实现：

（1）采用国际标准的设计原则

标准化是产业活动成功的前提，为了使新型的计算机增加多媒体数据的获取、压缩和解压缩、实时处理和特技、输出和通信等功能，设计时必须采用国际标准。如视频的H.261、H.262、H.263、MPEG-1 、MPEG-2，音频的国际标准有G.711、G.721、G.722、G.723、G.728、G.729。

（2）多媒体和通信功能的单独解决变成集中解决

计算机综合处理声、文、图信息和通信功能，过去的解决办法是设计专用接口卡分散单独解决，例如使用类似声霸卡解决声音的输入输出和实时编码、解码及处理问题，使用视频压缩编码和解码卡解决视频信号压缩和解压缩问题等。现在希望采用微码引擎，设计制造适合的DSP或阵列处理器通过微码变成综合解决这些问题。

（3）体系结构设计和算法相结合

要想使计算机具有综合处理声、文、图信息和通信功能的最佳解决办法是把计算机体系结构设计和算法相结合。综合处理声、文、图信息和通信功能算法的核心是数字信号处理，数组向量运算，即以乘加运算为核心的矩阵运算。

（4）把多媒体和通信技术做到CPU芯片中

多媒体计算要必须使其与网络相结合，为了使计算机具有多媒体和通信功能，最早的解决办法是采用专用芯片设计制造专用接口卡；其次是把多媒体和通信功能作到母板上，最佳的方案是将多媒体和通信功能融合到CPU芯片中。从目前的发展趋势看可以把融合方案分成两类：一类是以多媒体和通信功能为主，融合CPU芯片原有的计算功能，其设计目标是用在多媒体专用设备、家电和宽带通信设备上，可以取代这些设备中CPU及大量的ASIC及其它芯片。另一类是以通用CPU计算功能为主，融合多媒体和通信功能，它们的设计目标与现有计算机系列兼容，融合多媒体和通信功能，主要用在多媒体计算机中。

6-6

6、超文本和超媒体系统中的数据库层与传统的数据库有什么不同？

答：超文本和超媒体系统中的数据库层是模型中的最低层，比普通的数据库管理系统更为简单，用于处理所有信息存储中的传输问题。如存储分配管理、缓冲区调度、存储控制等等，其基本功能是对节点和链等的基本信息进行存储、管理和访问，并保证这些操作对于高层的超文本抽象机层来说是透明的，即无论高层访问的信息是存储在本地或远地，是存储在一台计算机中还是存储中多台计算机中，数据库层都能保证正确的存储。

超文本和超媒体系统中的数据库由于具有多媒体数据所以信息量很大，因此用到大容量的存储技术，如大容量的磁盘、光盘等。而传统的数据库信息量没有那么大，而且信息量比较单一，一般都是文档或数据等。但是在超文本和超媒体的数据库层的设计中也用到了大量的传统数据库的思想方法。

6-7

7、超文本和超媒体的组成要素与操作工具有哪些？

答：超文本和超媒体的组成要素是由节点、链和网络等组成。其中节点可分为表现型用于记录各种媒体信息，另一种是组织型用于组织并记录节点间的联结关系。

节点可归纳为以下基本类型：

文本节点、图形节点、图形节点、音频节点、视频节点、混合媒体节点、按钮节点、组织型节点和推理型节点。

链：链由三部分组成，即链源、链缩和链的属性。而链的种类可分为：基本结构链、（基本链、交叉检索链、节点内注释链）、推理链、隐型链等。

网络：即超文本和超媒体的数据库由声、文、图各类节点和链组成网络。

超文本和超媒体的操作工具主要有：编辑器、编译器、阅读器、导航工具等，而导航工具又可分为：导航图、查询系统、线索、遍历、书签等。

7-9

9、在视频会议系统中为什么需要QOS？

答：视频会议系统是一种分布式多媒体信息管理系统，或称为分布式多媒体通信系统。因此在通信的传输过程中要求有较好的服务质量（QOS），不仅要求能够快速传送视频、音频和数据，而且要求视频和音频连续媒体必须保证在明确规定的时间内无差错传送给用户，以便在终端系统播放具备良好的质量。为了获得服务质量的保证，在业务执行过程中需要对计算机、网络、MCU及终端的各种资源进行控制和管理。

对于视频会议系统还要求：高数据吞吐量，经过压缩的数据一个视频流也需要64Kbps到2Mbps的数据吞吐率；实时性，视频会议系统的终端同时要播放视频、音频和数据信息要有严格的时间要求，即需要为无差错传送提供时间保证；服务质量保证，用户使用视频会议业务要和其他业务进行对比，因此不能提供一定的服务质量保证，用户就可选择其他种类的业务。

视频会议系统需求是多样化，多媒体业务也是多样化，为使这些需求和业务能够定量化的描述，往往采用参数化，而不必为每个应用都实行一套新的系统集。而采用国际标准化组织采用服务质量（QOS）的标准。

国际标准化组织（ISO）指定著名的七层标准计算机通信协议OSI-RM。在OSI-RM中把QOS参数分成面向功能的QOS参数和非面向功能的QOS参数两类。

对于一个网络多媒体系统一般包含有三个抽象层：应用层、系统层（通信和操作系统）和设备层（网络和多媒体终端设备），而这三层都需要考虑QOS参数。

7-10

10、简述多媒体数据库中基于内容检索系统的工作原理。

答：多媒体数据库基于内容检索系统的工作原理概述如下：

基于内容的检索作为一种信息检索技术，接入或嵌入到其他多媒体系统中，提供基于多媒体数据库的检索体系结构见教材325页图7.20所示。

由图7.20可见，基于内容检索系统分为两个子系统：特征抽取子系统和查询子系统。系统包括如下功能模块：

（1）目标识别：为用户提供自动半自动识别静态图象、视频、镜头的代表帧，是用户感兴趣的内容或区域。

视频序列图象动态目标，对目标进行特征抽取、查询，处理进行整体的或局部的内容检索，可采用全局特征或局部的特征。

（2）特征抽取：提取用户感兴趣的又适合于基于内容检索的特征。如颜色分布情况、颜色的组成情况、纹理结构、方向对称关系、轮廓形状大小。

（3）数据库：多媒体数据库，声、文、图；特征库，预处理特征；知识库，知识表达。

（4）查询接口：有三种输入方式：交互输入方式、模板选择输入方式、用户提交特征样板输入方式。多媒体特征组合功能和查询结果浏览。

（5）检索引擎：利用特征之间的距离函数来进行相似性检索。对于不同的特征用不同的相似性测度算法，检索引擎中系统有效的是相似性测度函数集。

（6）索引/过滤：通过索引和过滤达到快速搜索的目的。把全部的数据通过过滤器变成新的集合再用高维特征匹配来检索。

基于内容检索的工作过程包括以下几个步骤：

（1）提交查询要求：利用系统人机交互界面输入方式形成一个查主询条件。

（2）相似性匹配：将查寻特征与数据库中的特征按一定的匹配算法进行匹配。

（3）返回侯选结果：满足一定相似性的一组侯选结果按相似度大小排列返回给用户。

（4）特征调整：对系统返回的一组初始特征的查询结果，用户通过浏览选择满意的结果，或进行特征调整，形成新的查询，直到查询结果满意为止。

基于内容检索的工作过程见教材326页图7.21所示。

多媒体技术基础与应用简答论述题

1-7

7、简述多媒体计算机的关键技术及其主要应用领域？

答：多媒体计算机的关键技术是：（1）视频音频信号获取技术；（2）多媒体数据压缩编码和解码技术；

（3）视频音频数据的实时处理和特技；（4）视频音频数据的输出技术。

2-10

10、简述音频编码的分类及常用编码算法和标准。

答：音频编码分为：

3-11

11、简述视频信息获取的流程，并画出视频信息获取的流程框图。

答：（1）视频信息获取的基本流程概述为：

（2）视频信息获取流程框图如下：

3-12

12、简述视频信号获取器的工作原理。

答：视频信号获取器的工作原理概述如下：

4-8

8、简述MPEG和JPEG的主要差别。

答：MPEG视频压缩技术是针对运动图象的数据压缩技术。为了提高压缩比，帧内图象数据和帧间图象数据压缩技术必须同时使用。

4-9

9、

求其Huffman解：

a1 0.5----------------------------------------------------------------0---------- 0 a2 0.25----------------------------------------------0------0.5------1 10

a3 0.125--------------------------0------0.25-------1 110

a4 0.0625-------0-----0.125------1 1110

a5 0.0625-------1 1111

则：a1=0(码长1) a2=10(码长2) a3=110（码长3） a4=1110(码长4) a5=1111(码长4)

信息熵：

n5

HPiLog2(Pi)

i1

(

1

212Log1

21221

414Log1

41247818Log128116Log1216116Log1216) 3811.875bit/字符

a1-a5码长分别为1，2，3，4，4

0.5*1+0.25*2+0.125*3+0.0625*4*2 n5

则平均码长N

4-10 i1PiLj121142183116411641.875bit/字符

10、详述JPEG静态图象压缩编码原理及实现技术。

具体的实现技术如下：

（1）首先把一幅图象分8*8的子块按图中的框图进行离散余弦正变换（FDCT）和离散余弦逆变换（IDCT）。

FDCT：

F(u,v)1

477C(u)C(v)[

x0y0f(x,y)cos(2x1)16ucos(2y1)

16v]

IDCT：

F(x,y)1

477[

u0v0C(u)C(v)f(u,v)cos(2x1)16ucos(2y1)

16v]

两式中，C(u),C(v)=1

2，当u=v=0

C(u),C(v)=1 , 其它情况

（2）量化

FQ'Q(u,v)F(u,v)Q(u,v)

（3）熵编码

5-5

5、详述Intel/IBM公司研制的DVI多媒体计算机系统成功和失败的经验教训，理想的系统如何设计实现。答：DVI系统能够用计算机综合处理声、文、图信息。

从硬件方面看：

（1）选用了PLV（Product Leave Vedio）视频压缩编码算法，产生AVI文件。

（2）为了实现PLV算法，DVI系统设计制造了两个专用芯片82750PA（PB）（象素处理器）和82750DA（DB）

（显示处理器）。

（3）同时设计了三个专用的门阵电路，即82750LH（主机接口门阵）、82750LV（VRAM/SCSI/Capture接口

门阵）和82750LA（视频子系统接口门阵）。

（4）设计实现了AVE（视频音频引擎）。

从软件方面看：

DVI系统设计实现了DOS环境下的AVSS（Audio Vedio SubSystem）和Windows环境下的AVK（Audio Vedio

Kernel），DVI系统中最成功的部分是AVE（视频音频引擎）。AVE包括三个部分，即视频子系统、音频子系统和AVBUS（视频音频总线）。

1．视频子系统

2．音频子系统

3．AVBUS视频音频总线

AVSS是在DOS环境下运行的DVI系统的支撑软件，AVK是在Windows环境下运行的DVI系统的支撑软件。

（4）最上面是应用层，它可以提供大量的应用程序。在应用层下面还有两个高层的DVI系统的接口，即DVI系统生产工具软件和多媒体编程工具语言。

理想系统设计和实现：

（1）采用国际标准的设计原则

（2）多媒体和通信功能的单独解决变成集中解决

（3）体系结构设计和算法相结合

（4）把多媒体和通信技术做到CPU芯片中

6-6

6、超文本和超媒体系统中的数据库层与传统的数据库有什么不同？

6-7

7、超文本和超媒体的组成要素与操作工具有哪些？

节点可归纳为以下基本类型：

文本节点、图形节点、图形节点、音频节点、视频节点、混合媒体节点、按钮节点、组织型节点和推理型节点。

链：链由三部分组成，即链源、链缩和链的属性。而链的种类可分为：基本结构链、（基本链、交叉检索链、节点内注释链）、推理链、隐型链等。

网络：即超文本和超媒体的数据库由声、文、图各类节点和链组成网络。

超文本和超媒体的操作工具主要有：编辑器、编译器、阅读器、导航工具等，而导航工具又可分为：导航图、查询系统、线索、遍历、书签等。

7-9

9、在视频会议系统中为什么需要QOS？

国际标准化组织（ISO）指定著名的七层标准计算机通信协议OSI-RM。在OSI-RM中把QOS参数分成面向功能的QOS参数和非面向功能的QOS参数两类。

7-10

10、简述多媒体数据库中基于内容检索系统的工作原理。

答：多媒体数据库基于内容检索系统的工作原理概述如下：

基于内容的检索作为一种信息检索技术，接入或嵌入到其他多媒体系统中，提供基于多媒体数据库的检索体系结构见教材325页图7.20所示。

由图7.20可见，基于内容检索系统分为两个子系统：特征抽取子系统和查询子系统。系统包括如下功能模块：

（1）目标识别：为用户提供自动半自动识别静态图象、视频、镜头的代表帧，是用户感兴趣的内容或区域。

视频序列图象动态目标，对目标进行特征抽取、查询，处理进行整体的或局部的内容检索，可采用全局特征或局部的特征。

（2）特征抽取：提取用户感兴趣的又适合于基于内容检索的特征。如颜色分布情况、颜色的组成情况、纹理结构、方向对称关系、轮廓形状大小。

（3）数据库：多媒体数据库，声、文、图；特征库，预处理特征；知识库，知识表达。

（4）查询接口：有三种输入方式：交互输入方式、模板选择输入方式、用户提交特征样板输入方式。多媒体特征组合功能和查询结果浏览。

（5）检索引擎：利用特征之间的距离函数来进行相似性检索。对于不同的特征用不同的相似性测度算法，检索引擎中系统有效的是相似性测度函数集。

（6）索引/过滤：通过索引和过滤达到快速搜索的目的。把全部的数据通过过滤器变成新的集合再用高维特征匹配来检索。

基于内容检索的工作过程包括以下几个步骤：

（1）提交查询要求：利用系统人机交互界面输入方式形成一个查主询条件。

（2）相似性匹配：将查寻特征与数据库中的特征按一定的匹配算法进行匹配。

（3）返回侯选结果：满足一定相似性的一组侯选结果按相似度大小排列返回给用户。

（4）特征调整：对系统返回的一组初始特征的查询结果，用户通过浏览选择满意的结果，或进行特征调整，形成新的查询，直到查询结果满意为止。

基于内容检索的工作过程见教材326页图7.21所示。

多媒体技术基础与应用简答论述题

相关内容

热门内容

标签