
作为长期深耕空间音频、杜比全景声制作与复杂编曲领域的从业者,评判音频分离工具的核心标准只有一个 —— 分离后的音轨能否直接融入实际创作项目。在体验过 LALAL.AI、UVX、iZotope RX 等多款主流工具后,Yoohe STEMX 带来了颠覆性惊喜:它不仅是首个实现中国传统民族乐器精准分离的商业平台,其多通道分离质量更跻身行业第一梯队。本文将从核心功能、实操体验、多场景测试表现等维度,全面拆解这款国产工具的实力。
民乐分离突破:无需标注,炼狱级测试下的精准表现
Yoohe STEMX 最引人瞩目的创新,在于首次将笛子、箫、长笛、古琴、古筝、琵琶、二胡等中国传统民族乐器纳入分离选项。为验证其真实性能,我们特意选择了两段未经后期处理的小型现场同期录音进行极限测试 —— 这类录音存在严重的频率掩盖问题,远比录音室作品更考验分离算法的精准度。
在二胡、琵琶与吉他同期演奏的复杂片段中,Yoohe STEMX 展现了惊人的分离能力:单独提取的琵琶音轨完整保留了弹拨细节与原生混响,这一表现远超同类工具 —— 通常这类精细分离需要额外提供 10 秒以上的纯乐器标注音轨才能实现。尽管在二胡电平占比较低的场景下,分离结果仍存在轻微弹拨乐器串扰,但完全具备实际使用价值。
针对长笛这类长线条乐器,Yoohe STEMX 同样表现出色。在吉他与琵琶的音色包裹中,分离后的长笛音轨清晰保留了气流颤抖与腔体共鸣细节,成功剥离出主体旋律线,同时压制了背景中模糊的低频干扰,让旋律的横向谐波走向更清晰,可直接用于扒带或转换为 MIDI 素材适配长笛音源。
手碟分离难题破解:兼顾瞬态与空间质感
手碟作为兼具旋律性、打击感与空间共鸣的特殊乐器,是检验分离算法是否 “理解乐器本质” 的绝佳测试对象。若算法仅做粗暴切割,极易将手碟处理为只剩攻击瞬态的干瘪声音,丧失其核心的腔体共鸣质感。
Yoohe STEMX 在手部分离测试中交出了高分答卷:分离后的音轨不仅完整保留了高频泛音与延音,更成功还原了乐器兼具旋律性与空间共鸣的整体特质,甚至保留了部分原生混响。尽管高频细节略有损失,但在 “一键分离” 的便捷性下,这样的表现已远超同类工具,成为手碟音乐创作的实用辅助。
传统四大件分离:性能碾压主流竞品
为验证其通用性,我们选取信息密度高、混音复杂的流行 / 电子曲目,将 Yoohe STEMX 与 SpectraLayers 12、UVR(BS-Roformer-Viperx-1297 + MDX23C)进行对比测试,结果如下:
| 对比项目 |
Yoohe |
SpectraLayers 12 |
UVR(BS-Roformer-Viperx-1297 + MDX23C) |
| 弦乐分离度 |
断档级优秀 |
表现不及 Yoohe |
表现不及 Yoohe |
| Bass 分离度 |
断档级优秀 |
表现不及 Yoohe |
表现不及 Yoohe |
| 鼓组瞬态 |
优秀 |
与 Yoohe 处于同一水准 |
弱于 Yoohe |
| 鼓组 Punch 感 |
优秀 |
与 Yoohe 处于同一水准 |
略微弱于 Yoohe |
| 低频能量保留 |
更自然 |
不如 Yoohe 自然 |
不如 Yoohe 自然 |
测试结果显示,Yoohe STEMX 在弦乐与 Bass 分离上呈现断档优势,鼓组表现与 SpectraLayers 12 持平且低频更自然,其他乐器与人声的信息保留度和混响还原也均处于领先水平,作为国产工具实现了对国际主流产品的超越。
极限挑战:完胜 SpectraLayers 12 的钢琴弦乐分离
坂本龙一作品中的钢琴与弦乐同期演奏片段,因二者均非长线条演奏且节拍重叠,成为分离算法的终极考验。我们曾尝试用行业顶尖的 SpectraLayers 12 进行分离,结果出现严重失真与合成噪音,分离失败。
而 Yoohe STEMX 的表现令人惊艳:分离后的弦乐音轨清晰呈现木质共鸣细节,完整保留左右声道的宽度与空间感;钢琴音轨则纯净无噪,虽低频略有变化,但音色表达完整。更值得称道的是,将两条分离音轨重新组合后,能近乎完美还原原始音频结构 —— 这背后体现了算法的核心优势:在分离精度与音频完整性之间找到最佳平衡,不追求极端切割感,而是优先保证音乐本体不受损伤。
一站式创作生态:从分离到 AI 生成的全链路支持
Yoohe STEMX 的价值不止于分离,更构建了覆盖多场景创作需求的一站式服务:
歌声转换功能
支持上传纯人声、带伴奏音频或含和声人声,精准替换主唱声线,同时保留原唱的情感、咬字与气息控制。该功能与平台歌声训练模块深度打通,可直接选用官方模型或自定义训练模型,还能实时调节音高、添加效果器预览,为和声录制、音色叠录提供高效解决方案。需注意的是,自定义模型建议提供 10 分钟以上覆盖中高低音域的高质量语料,复杂转音场景下偶有音准偏差,但常规使用场景完全够用。
AI 音乐生成
作为 ACE-STEP1.5 联合发布方,平台已率先接入该 AI 生成模型,提供完整操作指引。官方透露,后续将通过更新引入更多生成模型,均采用通用点数计费,持续丰富创作工具矩阵。
和声分离亮点
在主 vocals 响度远高于和声的经典测试片段中,Yoohe STEMX 成功将隐藏在混音中的和声主体前置,使人声中频区域更集中,且主 vocals 出现时和声频率无压缩、无失真,这一表现已跻身行业前列。尽管分离后音频的亮度与宽度略有变化,但为后期处理提供了极大可能性。
创作 workflow 革新:Suno 到 Yoohe 的可编辑闭环
Yoohe STEMX 的 MIDI 转换功能为 AI 音乐创作带来了革命性改变。以 Suno 生成的民乐作品为例,完整 workflow 仅需 5 分钟:Suno 生成完整音频 → 通过 StemX 传统分离模式提取含目标乐器的 other 轨道 → 单独分离琵琶、古琴等特定乐器 → 一键转 MIDI → 导入 Logic 等 DAW 加载音源,即可自由修改和弦、节奏、旋律与音质。
这一链路彻底打破了 AI 音乐 “一次生成即结束” 的局限,将成品音乐拆解为可编辑、可替换、可重构的素材,让创作者重新掌控音乐结构、声部与音色。更重要的是,其分离精度远超 Suno Studio 自身功能,甚至可将分离后的特定轨道回输至 Suno 进行二次修改,形成创作闭环。
现存不足与优化建议
尽管表现亮眼,Yoohe STEMX 仍存在可提升空间:笛子、二胡等高频民乐分离后偶有弹拨乐器串扰,不过这类分离所需积分成本较低;所有乐器分离后,音频低频与宽度会略有变化,无法直接用于发行级产出,但可通过 MIDI 替换等方式弥补;此外,分离效果与原始录音质量相关性较大,但即便对 Suno 生成的民乐轨道,也能大概率完整保留音色与旋律线。
官方给出的优化使用建议值得参考:先通过标准分轨分离出传统四大件,再用 other 轨道进行专业分离,可显著提升分离效果。
未来更新与生态拓展
据官方披露,Yoohe STEMX 目前已支持 38 种乐器分离,未来 2-3 个月内将进一步扩展至管弦乐器、电子乐器及全球各类民族乐器。2026 年第二季度将上线钢琴卷帘与实时转谱功能,分离后的音轨可直接转换为 MIDI 文件,且在钢琴卷帘中的修改能实时同步至五线谱与简谱视图,为乐谱制作、编曲教学、扒带与配器整理提供极大便利。
更具潜力的是平台的 API 支持 —— 当这些分离、转换能力被 AI 程序调度,用户可通过简单编程实现自动化处理,无需手动操作即可批量获取干净的 Stem 文件与 MIDI 素材,构建高效创作生产力系统。官方同时强调,用户需对上传内容的版权负责,工具的价值最终取决于正确的使用方式。
总结
Yoohe STEMX 的核心突破,不仅在于实现了中国民乐分离的行业空白,更在于其将 “分离精度” 与 “创作实用性” 深度结合。无论是民乐、手碟等特殊乐器的精准分离,还是传统四大件的超越性表现,都印证了其第一梯队的技术实力。而一站式的歌声转换、AI 生成、MIDI 转换功能,以及即将上线的谱面编辑模块,构建了从创意生成到素材重构的完整创作链路,重新定义了 AI 时代的音乐制作流程。
阅读量: 7