《现代语音信号处理》(胡航著)第1-6章简介

根据《现代语音信号处理》(胡航版)总大概列出前六章的内容,有些会有一些自己的理解和总结。

第一章 绪论

  • 发展史和主要研究内容及发展。

第二章 语音信号处理的基础知识:

  • 语音信号处理的基础知识

  • 语音的产生过程

    • 语音信号的特性:音质、音调、音强、音长

    • 汉语的特点(21个声母、39个韵母)

    • 语音信号的统计特性

  • 语音产生的线性模型

  • 语音产生的非线性模型

    • FM-AM模型

    • Teager能量算子

    • 能量分离算法

    • FM-AM模型应用

  • 语音感知

    • 听觉系统(内耳、中耳、外耳;人可感知的频率范围:20-20KHZ,强度范围:-5-130dB)

    • 神经系统

    • 语音感知(人类能够感知语音的四要素:响度、音调、音色、听觉掩蔽效应)

第三章 时域分析

  • 简介

    • 语音信号非平稳、事变、离散性大,且其中蕴含着说话内容以及说话人特征等,处理难度大。

    • 时域分析具有简单、运算量小、物理意义明确等优点。

  • 数字化和预处理

    • 取样率和量化字长选择

    • 预处理(数字化、放大及增益控制、反混叠滤波、预加重)

  • 短时能量分析(En表示为语音信号一个短时间段内的能量,短时平均能量能反映语音能量随时间变化的特性,用于区分清/浊音等)

  • 短时过零分析(短时平均过零数能用于度量信号的频率,粗略地描述了信号频谱特性,可用于区别清/浊音 ;高频率意味高平均过零数,低频率意味着低平均过零数)

  • 短时相关分析

    • 分为互相关函数、自相关函数;主要是自相关,用于研究信号本省,如波形同步性和周期性

    • 短时自相关函数

    • 修正短时自相关函数(解决基音周期宽,是窗和预期的基音周期相适应)

    • 短时平均复查函数(避免乘法,简化运算,与自相关函数有类似的作用)

  • 语音端点检测(用于有/无声或是浊/清/无声判定)

    • 双门限前端检测(存在较大时延)

    • 多门限过零率前端检测(解决方法1的缺陷)

    • 基于FM-AM模型的端点检测(利用算子输出能量进行端点检测,相比常规的基于短时能量的端点检测方法有较好的效果)

  • 基于高阶累积量的语音端点检测

    • 噪声环境下的端点检测(目前提出的方法只适用于不同适用环境)

    • 高阶累积量和高阶谱

    • 基于高阶累积量的端点检测(广泛应用于非高斯及非循环平稳信号中 ;核心:任何类型的高斯信号,其三阶以上的高阶累积量均为0 )

第四章 短时傅里叶变换

  • 短时傅里叶变换(短时傅里叶变换是窗选语音信号的傅里叶变换,Xn(ejw) )

  • 短时傅里叶变换的取样率(针对避免混叠;三种取样率:时间取样率、频域取样率、综合取样率)

  • 语音信号的短时综合(用于由Xn(ejw)恢复x(n)的问题;两种方法,滤波器组求和法与FFT求和法 存在对偶性)

    • 滤波器组求和法(与频率取样有关;性能较好,因为其对噪声敏感性较小)
    • FFT求和法(与时间取样有关)
  • 语谱图(显示大量与语句特性相关的信息,综合了频谱图与时域波形的优点,直观显示语音频谱随时间变化的情况,是一种动态的频谱)

第五章 倒谱分析和同态滤波

  • 同态信号处理(可实现将卷积关系变成求和关系的分离处理,以达到解卷的效果;用于非加性组合信号,其中有包括乘性和卷积性组合信号)

  • 同态信号处理的基本原理,分三步

    • 特征系统(将卷积信号转化为加性信号;一分三步:Z变换,对数运算,逆Z变换)

    • 线型系统

    • 逆特征系统(将加性信号转化为卷积信号;一分三步:Z变换,指数运算,逆Z变换 )

  • 复倒谱和倒谱

    • 复倒谱(输入信号进行特征系统后得到的时域信号,成为输入信号的复倒谱,对应倒谱域)

    • 倒谱(相对于复倒谱来说,取对数阶段,只取幅度的对数,除去相位的信息;倒谱运算相对简单,由于不含相位信息,不能恢复原始性)

  • 语音信号两个卷积分量复倒谱的性质

    • 声门激励信号(较重要的性质:可用高复倒谱窗在复倒谱域中提取浊音激励信号的特性)

    • 声道冲激响应序列(较重要的性质:可用低复倒谱窗在复倒谱域中提取声道冲激响应)

  • 避免相位卷绕的算法

    • 相位卷绕:复倒谱取对数是进行的是复对数运算,此时存在相位多只问题,称其为相位卷绕。

    • 避免的方法(微分法(不适用,会产生频谱混叠),最小相位信号法,递推法(x(0)不能过小))

  • 语音信号复倒谱分析实例

  • Mel频率倒谱系数(MFCC;应用于语音识别和说话人识别 )

    • Mel频率滤波器组(基于人耳在1KHZ以下为频率的线性尺度,1KHZ以上为对数尺度,是人二对低频信号比高频信号更敏感的特点)

    • MFCC(重要特点:对频率轴不均匀的划分;该参数常用于语音识别中,可进行端点检测)

    • 计算过程:

      • 对信号分帧,预加重,hamming窗处理,STFT 得到频谱

      • 使信号的线性幅度谱通过L个通道的Mel滤波器组并对输出累加

      • 对滤波器输出取对数,在进行DCT(离散余弦变换),得到MFCC

第六章 线性预测分析

  • LPC的基本思想:一个语音的取样可用过去若干语音取样的线性组合来逼近。通过使实际语音取样与LPC取样间差值的平方和,即进行LMS(最小均方误差)逼近,可决定唯一的一组预测系数,而它们就是线性组合中的加权系数。

  • 线性预测的基本原理(基于AR模型,用一个模型表示被分析信号)

  • 线性预测方程的建立(因为信号模型的建立是有信号估计模型参数的过程,信号是客观存在由一个有限数目参数的模型进行表示的,不可能完全准确,总会存在误差,因而求解LPC系数是一个逼近的过程,采用逆滤波器法来逼近)

  • 线性预测分析的解法(1)——经典解法

    • 自相关法(这种解法在整个时间范围内使误差最小;加窗处理;高效求解、精度低、会引入误差,能保证解的稳定性,适合硬件实现)

    • 协方差法(这种解法可使信号N个样本上的误差最小;不加窗处理;精度高、不能保证解的稳定性 ,适用于平稳信号,存在对中间量比例运算的困难)

  • 线性预测分析的解法(2)——格型法(解决自相关与协方差法的精度与稳定性存在矛盾的问题),求解方法:

    • 正向格型法(逼近原则:正向均方差;不能保证解的稳定性)

    • 反向格型法(逼近原则:正向均方差;不能保证解的稳定性 )

    • 几何平均法(非逼近法;通过正向格型法Ki与反向格型法Ki 的几何平均求解;能保证解的稳定性 )

    • Burg法(非逼近法;通过正向和反向均方误差纸盒的最小求解;能保证解的稳定性 )

    • 协方差格型法(非逼近法; 针对原格型法减小其运算量,改写B\C\E的表达式改进格型法求解;保持格型法的灵活性、解的稳定性和精度,运算量与自相关法相近)

  • 线性预测应用——LPC谱估计和LPC倒谱

    • 谱估计

    • LPC复倒谱

    • LPC估计与其他谱分析方法的比较

  • 线谱对(LSP)分析(频域参数;既有良好的量化和插值特性;以AR模型为基础)

  • 极零点模型(为了获取更精确的解且节省运算量;存在解法困难,难以保证收敛于最佳值,且难以确定模型阶数)

第七章 语音信号的非线性分析

  • 小波变换