行业首发场景化 AI 降噪，用极致技术为“音质”发声- ZEGO即构科技

行业首发场景化 AI 降噪，用极致技术为“音质”发声

2022/11/30

噪声降低通讯质量

噪声在我们日常生活中十分常见，例如，鼠标点击声、键盘声、空调声、厨房碗碟碰撞声。所以音频质量往往决定了在音视频通讯场景中的通话体验，而噪声又是决定了音频质量是否良好的关键因素，如何对音频进行噪声处理，是工程师们绕不开的问题。

以两个简单的用户场景为例，了解下日常生活中我们经常受到困扰的时刻：

场景一：Eric 在家中进行视频会议，受到来自邻居的装修噪音干扰，导致对方听不清 Eric 的线上会议报告；

场景二：Lily 是某平台音乐主播，在一次直播中进行了吉他弹唱，该平台将吉他伴奏的声音识别为噪音并进行降噪，导致听众端收听体验不佳。

以上为我们在日常生活中经常会遇到的噪音场景，那么用户在面对这种噪音问题时，是否无解？

业内首发 “场景化 AI 降噪” 解决方案

ZEGO 即构科技在本次 Express SDK 3.0 升级方案中，针对以往 AI 降噪能力进行了重磅升级，并针对不同用户场景在业内首次推出场景化 AI 降噪解决方案。

ZEGO 即构科技场景化 AI 降噪方案可以自动识别不同场景，可进行无感知切换，智能调整 AI 降噪策略提供给用户最佳的降噪效果。本次升级，不仅对之前 AI 降噪的效果进行了优化，还首次针对音乐场景推出智能 AI 降噪，还原高保真音质。

通讯场景，消除人声以外的全部噪声

针对一般通讯场景，ZEGO 提出轻量级的神经网络降噪方法 —— ZegoAIDenoise。ZegoAIDenoise 采用传统算法和深度学习相结合的 Hybrid 方法，为了降低性能开销，采用频域分成子带方案，并无限缩小深度学习网络模型，用尽量小的网络模型达到更好的降噪效果。

在实时处理的性能测试方面，默认采样率 32kHz，帧长 10ms，在 1.4G Hz主频的 iPhone 6上，CPU 性能开销为 1% 左右，与 WebRTC 的通用降噪相当。所以，ZegoAIDenoise 无论在降噪效果、泛化能力，还是性能开销上，都取得了长足的进步。

ZegoAIDenoise 对于平稳和非平稳噪声都有很好的降噪效果，保证了语音的质量和语言清晰度，同时将性能开销控制在一个很低的量级，与传统降噪算法相当，成功覆盖大部分中低端机型，保留纯净语音，提升用户的通话体验。

处理声音类型：主要处理包括鼠标，键盘声，敲击，空调，厨房碗碟、嘈杂餐厅、环境风声，咳嗽、吹气等非人声噪声以及去除小房间的人声混响。

音乐场景，还原高保真音质

在音乐场景中，AI 降噪容易将音乐识别成噪声，并对其进行降噪处理，这样会对音乐造成极大的损伤，严重影响音乐场景中的用户体验，因此，即构在本次场景化 AI 降噪方案中也包含了针对音乐场景的降噪处理。

首先，即构为了提高对于音乐场景的识别准确率，对数十种歌曲风格（如轻音乐、古典音乐以及流行音乐等）、乐器（如吉他、钢琴、小提琴等）采集了上万条音频数据，并对现有数据进行数据增广以增加模型的泛化性并进行特征提取和训练。

同时，为了减少非音乐的误判问题，即构采集了丰富的噪声和人声数据进行对比训练，同时区分不同信噪比下的音乐加以识别以保证最优音质，最终完成 99% 的识别率。并且，在极高识别率的情况下可达到音频处理 0 延时，无额外性能消耗。

为了全面覆盖音乐场景，提升全程体验，我们采用多帧平滑后处理技术，使识别速度达到 400ms，保证音乐能够从伴奏的“第一个旋律”起，就能被快速识别。

最终，即构场景化 AI 降噪利用自研音乐检测算法对 mic 输入进行音乐识别，在声卡、近场弹唱或其他外放设备播放音乐的场景下自动调整降噪等级，保证音乐的高保真音质，降低对音乐的音质损伤。

处理声音类型：支持识别音乐元素丰富的场景，如伴奏/乐器等。

一般降噪处理的过程中会将音乐/伴奏误识别为噪音，进行降噪处理，而在即构场景化 AI 降噪处理中，通过智能识别并调整处理策略，真实还原音乐现场，避免一般降噪处理对于音质的损伤。

上述提到的两个用户场景，在接入即构场景化 AI 降噪解决方案后可取得明显改善：

场景1：去除线上会议中除人声外的噪音后，Eric 和同事们获得了良好的线上会议体验；

场景2：避免了在弹唱场景中主播的伴奏被识别为噪音的痛苦，Lily 让听众端收获了和主播端音质无差别的收听体验。

关于 ZEGO 即构科技本次发布的场景化 AI 降噪解决方案的使用场景可以归纳为：

ZEGO 即构科技场景化 AI 降噪，无论是在稳态还是非稳态的噪声环境、一般通讯场景或者音乐场景，都能取得飞跃般的降噪效果，旨在用高质量的音频降噪有效提升用户的实时互动体验。

目前，ZEGO Express 3.0 SDK 已正式提供场景化 AI 降噪功能，开发者可以在使用麦克风采集声音时对声音进行降噪处理，获得高保真音质，提升用户通话体验！

RTI（Real-time interaction）代表一切为实现媲美甚至超越现实的实时互动场景下所需要用到的所有产品和技术组合，除了核心的 RTC、IM、直播之外，还包括 Avatar、Al 视觉、状态同步等等。相较于 RTC 更强调互动，不以予以信息的交换为唯一目标，旨在以数字化方式，创造用户所需的共享时空，满足其精神需求，并辅以配套的可视化服务体系保障更好的互动。

上一篇: 即构 ZIM 在超大房间架构模型设计上的思考与实践

下一篇: 从音视频到元宇宙：即构科技的技术工程化之路

行业首发场景化 AI 降噪，用极致技术为“音质”发声

噪声降低通讯质量

业内首发 “场景化 AI 降噪” 解决方案

通讯场景，消除人声以外的全部噪声

音乐场景，还原高保真音质

产品

解决方案

产业中心

开发者中心

公司

认证