MEMS 麦克风如何在语音激活设计中辅助声音检测和关键词识别

作者：Majeed Ahmad

投稿人：DigiKey 北美编辑

2020-04-23

随着用户越来越依赖语音作为用户界面，设计人员面临着多重挑战，既要以尽可能小的功耗和响应时间来实现最准确、最可靠的用户语音界面 (VUI)，又要满足更紧凑的空间、更低的成本预算并缩短设计进度的要求。为了帮助设计人员达到这些目标，多家供应商推出了一种先进的微机电系统 (MEMS) 麦克风，这种麦克风具有多个性能特征，有助于实现强大的唤醒词检测和 VUI 语音指令处理。

MEMS 麦克风（也称为硅麦克风）已普遍在智能手机、智能手表、无线耳塞、汽车、智能电视以及遥控器中使用。这在很大程度上归功于大获成功的个人语音助手（例如亚马逊的 Alexa、谷歌语音助手和苹果的 Siri）。这些助手会收听特定的语音指令，使用唤醒词识别算法从周围环境中提取语音指令。设计人员的诀窍是：以经济高效地的方式快速实现这种提取功能，同时尽管存在环境噪声，也要提高可靠性、准确性和远场语音采集能力。

本文将讨论影响 VUI 设计的 MEMS 麦克风的关键特性，包括信噪比 (SNR)、动态范围、灵敏度和启动时间。然后介绍来自 TDK InvenSense、CUI Devices、STMicroelectronics 和 Vesper Technologies 的硬件和软件解决方案，并展示如何将其应用于语音激活设计中。

MEMS 麦克风如何工作

一个 MEMS 麦克风封装中通常包含两个组件：将声波转换为电信号的 MEMS 膜，以及用作阻抗转换器向音频信号链提供可用模拟输出的放大器。如果需要数字输出，还可在其芯片上再集成一个组件——模数转换器 (ADC)。

MEMS 麦克风的基本组件图 图 1：MEMS 麦克风的基本结构显示了其两个关键构建块：MEMS 变动器和信号处理链（位于 ASIC 中）。（图片来源：CUI Devices）

除了支持具有模拟或数字输出的微型麦克风外，MEMS 技术还实现了出色的相位匹配和漂移性能。

MEMS 麦克风的关键特性

对于语音控制设备设计人员而言，需要在 MEMS 麦克风中查找的关键参数如下：

• 信噪比 (SNR)：这是参考信号电平与麦克风输出信号的噪声电平之比。SNR 测量值包括麦克风元件和 MEMS 麦克风封装中集成的任何其他设备（例如 IC）产生的噪声。
灵敏度：响应 1千赫 (kHz) 正弦波时的模拟或数字输出值，其声压级 (SPL) 为 94 分贝 (dB) 或1 帕斯卡 (Pa)，后者为压力测量值。
• 灵敏度公差：任何给定的单只麦克风的灵敏度范围。严格的灵敏度公差可在使用多个麦克风时确保一致性。
• 动态范围：麦克风线性响应的最大和最小声压级的差异测量。
• 频率响应：麦克风能够工作的频率范围。
• 启动时间：响应触发事件时麦克风被唤醒并输出有效信号的速度。

诸如遥控器、电视和智能扬声器之类的语音控制设备通常工作在高环境噪声下。同样，在远场操作中，用户可能在附近或距离 1 至 10 米 (m) 的地方。这些情况使麦克风的动态范围、灵敏度和 SNR 变得如此重要。在阵列中使用多个麦克风的应用中，灵敏度公差至关重要。

虽然可以规定每个麦克风具有一定的灵敏度水平，但细微的结构变化可能会导致各种变更。但是，由于 MEMS 麦克风是使用严格控制的半导体制造工艺开发，因此具有匹配严格的灵敏度公差，这是任何麦克风阵列进行有效数据处理所需的（图 2）。

阵列中使用的麦克风图 图 2：阵列中使用的麦克风必须严格匹配才能实现所需的信号处理性能。（图片来源：CUI Devices）

为使支持 VUI 的设计能越来越多地采用麦克风阵列，紧公差的辅助作用极其重要。在麦克风阵列中，由两个或多个麦克风收集信号，然后在组合信号并形成合成信号之前，分别处理来自每个麦克风的信号（放大、延迟或滤波）。在麦克风阵列中，可以使用多个输入来确定方向响应（也称为波束形成），以滤除不需要的噪声；与此同时，重点关注在来自更期望的方向上的声音。

MEMS 麦克风的启动时间对于捕获全部关键词并确保其准确性也至关重要。为了节电，支持 VUI 的设备保持低功耗状态；但是，如果麦克风响应唤醒触发的启动时间短，则会影响 VUI 唤醒时间，进而影响唤醒词检测性能以及功耗。

只要在选择麦克风时考虑到这些特性，那么在具有高环境噪声或者用户远距离讲话，或者这两种情形都存在的情况下，后续的语音处理算法便能够更好地执行用户语音提取功能。

模拟与数字 MEMS 麦克风接口

正如有关 MEMS 麦克风工作原理的部分所述，MEMS 麦克风输出可以采用模拟或者数字形式。模拟 MEMS 麦克风使用内部放大器将麦克风的输出信号驱动至具有低输出阻抗的合理高电平。这提供了一个连接音频处理器的直接接口。对于 VUI，设计人员需要确保相关处理器具有板载 ADC，或者设计人员能够选择 ADC 以满足其特定要求。后者会增加复杂性和成本。

借助数字 MEMS 麦克风，麦克风输出可直接应用于通常的微控制器或数字信号处理器 (DSP) 的数字电路。用于电噪声环境的 VUI 设计更倾向于数字麦克风，因为与模拟输出信号相比，数字输出信号具有更高的抗噪能力。

此外，数字 MEMS 麦克风通常采用脉冲密度调制 (PDM) 将模拟信号电压转换为包含相应密度的逻辑高信号的单比特数字流。这样可以进一步抵御射频干扰 (RFI) 和电磁干扰 (EMI)。这对于大型麦克风阵列和诸如支持语音的车辆信息娱乐系统之类的实际大型系统尤其重要。

关于灵敏度，就模拟麦克风而言，是采用以分贝为单位的声压级相对于 1 伏 (dB/V) 进行测量的。对于数字麦克风，通常以相对于满刻度分贝值为单位进行测量 (dB FS) 。

VUI 的 MEMS 麦克风解决方案

TDK InvenSense 的 ICS-40740 模拟 MEMS 麦克风满足了 VUI 应用的许多关键麦克风性能要求。该器件包含一个 MEMS 麦克风元件、一个阻抗转换器和一个差分输出放大器，采用小型 4.00 x 3.00 x 1.20 毫米 (mm) 的表面贴装封装。该器件采用 1.5 伏电源供电，工作时仅消耗 165 微安 (µA) 电流（图 3）。

Invensense ICS-40740 模拟 MEMS 麦克风的图片 图 3：ICS-40740 模拟 MEMS 麦克风满足智能扬声器和可穿戴设备（例如降噪耳机）的尺寸和功率预算要求。（图片来源： TDK InvenSense）

该器件的 SNR 为 70 dBA（A 加权分贝），并与 108.5 dB 的宽动态范围相耦合，即使在高环境噪声和远场条件下也能检测到语音信号。此外，该器件具有 80 赫兹 (Hz) 到 20 kHz 的宽工作频率响应范围，132.5 dB 的线性响应性能和 ±1 dB 灵敏度公差。后者使其对于麦克风阵列非常有用。

ICS-40740 的封装小、功耗低，使其适用于围绕智能扬声器和诸如降噪耳机等可穿戴设备构建的物联网 (IoT) 应用程序。

Vesper Technologies 的 VM3000 是一款全向、底部端口压电式数字 MEMS 麦克风，具有不到 200 微秒 (µs) 的超快速启动时间，使其被快速唤醒，足以捕获完整的唤醒词（图4）。

Vesper VM3000 压电式数字 MEMS 麦克风图 图4：VM3000 压电式数字 MEMS 麦克风具有不到 200 µs 的超快速启动时间，使其能够足被快速唤醒，足以捕获完整的唤醒词。（图片来源：Vesper Technologies）

在压电式 MEMS 麦克风中，当声波撞击压电悬臂时，将使悬臂移动并产生电压。该电压由一个功耗非常低的比较器电路检测，该电路会将唤醒信号发送到音频系统。

由于压电式 MEMS 麦克风不需要偏置电压，因此 VM3000 在被唤醒词指令启动前几乎无功耗。而且，这种麦克风仅需 0.35 µA 电流即可保持休眠模式，并且能够在不到 100 µs 的时间内切换到性能模式。超低功耗休眠模式与快速模式切换相结合，还能确保在唤醒音频设备时不会丢失任何信息。

VM3000 数字麦克风几乎可以与任何音频芯片配对，其输出特点是在一条数据线上复用两个麦克风。该麦克风在 1 kHz 信号下的典型 SNR 为 63 dB，具有 122 dB SPL 声学过载点 (AOP)。

VM3000 采用 3.5 x 2.65 x 1.3 mm 封装，并通过集成 ADC 节省物料清单 (BOM)。此外，VM3000 使用单层压电晶体，使其不受灵敏度漂移的影响，并可防止灰尘、水、湿气和其他环境颗粒的侵害。

诸如 VM3000 之类的压电式 MEMS 麦克风无需使用保护网或薄膜覆盖多个麦克风，从而简化了阵列的音频设计。如保护网或保护膜等为防止受环境污染而覆盖声学孔的保护元件，可导致 MEMS 麦克风灵敏度下降。

VM3000 也相对容易实现，因为它可以直与 CODEC 或其他处理器连接（图 5）。主系统（CODEC 等）提供主时钟 CLK，该时钟定义了 DATA 线上的比特速率。

Vesper VM3000 可直接连接外部处理器的图 图5：VM3000 可以直接与外部处理器连接，并且可将两个麦克风连接到一条 DATA 线上。（图片来源：Vesper Technologies）

有趣的是，两个麦克风可以通过一条 DATA 线连接。这是因为数据是在由 L/R Select 引脚定义的时钟 (CLK) 上升沿或下降沿设置的，而 L/R Select = GND（顶部）在时钟下降沿设置数据，L/R Select = VDD（底部）在时钟上升沿设置数据。然后，CODEC 或处理器可以根据比特流与 CLK 边沿的对齐方式将其分离。

入门：MEMS 麦克风评估套件

为了评估关键参数并简化使用 MEMS 麦克风的音频系统的设计，供应商提供了参考板和软件开发套件。例如，Vesper 提供了 S-VM3000-C 评估板，其中包括一个 VM3000 数字 MEMS 麦克风和一个 0.1 微法拉 (µF) 的电源旁路电容器以及一个边缘连接器。

同样，TDK InvenSense 为其 ICS-40740 模拟 MEMS 传感器提供 EV_ICS-40740-FX 评估板，可让设计人员快速、高效地分析差分模拟输出麦克风的性能。除 MEMS 麦克风外，该开发套件唯一的其他组件便是 0.1 µF 电源旁路电容器。

CUI Devices 同时提供模拟和数字 MEMS 麦克风，其 DEVKIT-MEMS-001 开发套件用于原型开发和测试（图 6）。该评估板有四个独立的麦克风评估电路。

CUI Devices DEVKIT-MEMS-001 开发板图 图 6：DEVKIT-MEMS-001 有四个可拆卸麦克风评估电路：其中两个用于模拟输出，另两个用于数字输出。（图片来源：CUI Devices）

该评估板上有两个模拟 MEMS 麦克风：底部音孔 CMM-2718AB-38308-TR 和顶部音孔 CMM-2718AT-42308-TR；两个数字 MEMS 麦克风：底部音孔 CMM-4030DB-26354-TR 和顶部音孔 CMM-4030DT-26354-TR。顶部和底部音孔用于模拟和数字输出麦克风，以提高设计灵活性。

比较这两个模拟设备，CMM-2718AB-38308-TR 的灵敏度为 -38 dB，SNR 为 65 dBA。CM-2718AT-43208-TR 的灵敏度为 -42 dB，SNR 为 60 dBA。两者的频率范围均为 100 Hz 至 10 kHz，并从 2 V 电源轨汲取 80 µA 电流。

对于两个数字麦克风，CMM-4030DB-26354-TR 的灵敏度为 -26 dB FS，SNR 为 64 dBA。CMM-4030DT-26354-TR 的灵敏度为 -26 dB FS，SNR 为 65 dBA。两者均使用 1 位 PDM 数据格式，在 100 Hz 至 10 kHz 频率范围内工作，并从 2 V 电源汲取 0.54 毫安 (mA) 电流。

总结

通过仔细研究 MEMS 麦克风（模拟和数字），可以发现其系统级性能优势，以及它们如何对始终开启的语音接口设计进行补充。最新的 MEMS 麦克风采用新颖的技术来延长电池寿命，改善远场音频质量并能抵御环境污染。提高关键词的准确性是另一个主要的设计考虑因素，它与 SNR、灵敏度容差和启动时间等参数密切相关。所有这些都已在最新设备中得到解决，能更好地适应 VUI 设计。