FireRedASR

What is FireRedASR?

FireRedASR 是一系列为实际应用而设计的开源自动语音识别 (ASR) 模型。如果您需要在普通话、中文方言或英语中实现准确高效的语音转文本功能，FireRedASR 将提供强大的解决方案。它满足了对强大 ASR 的关键需求，该 ASR 在各种声学条件下表现出色，甚至扩展到诸如歌词识别之类的专业任务。

主要特点：

🗣️ 达到顶尖准确率：FireRedASR 具有一流的性能，在公共普通话 ASR 基准测试中实现了新的技术水平 (SOTA)。这意味着您的应用程序的错误更少，转录更可靠。
⚙️ 选择您的架构： 从两种模型变体中选择以满足您的特定需求：

FireRedASR-LLM： 采用 Encoder-Adapter-LLM 框架，利用大型语言模型 (LLM) 的强大功能来实现卓越的性能和无缝的端到端语音交互。
FireRedASR-AED： 采用基于注意力的编码器-解码器 (AED) 架构，在高性能和计算效率之间取得平衡。非常适合作为基于 LLM 的语音模型中的语音表示模块。

🌐 支持多种语言和方言： 以高精度转录普通话、各种中国方言和英语的音频。这种广泛的语言覆盖范围开辟了更广泛的应用程序可能性。
🎤 识别歌词： FireRedASR 在具有挑战性的歌词识别领域表现出色，为音乐相关应用程序提供独特的功能。
💻 易于使用： 创建一个 Python 环境，下载并放置模型文件，然后使用简单的命令安装依赖项。

技术细节：

模型变体：FireRedASR-LLM（83 亿个参数）和 FireRedASR-AED（11 亿个参数）。
评估指标： 中文的字错误率 (CER%) 和英文的词错误率 (WER%)。
基准： 在 aishell1、aishell2、WenetSpeech (ws_net, ws_meeting)、KeSpeech 和 LibriSpeech (test-clean, test-other) 上进行了严格的测试。
架构：

FireRedASR-LLM：Encoder-Adapter-LLM 框架。
FireRedASR-AED：基于注意力的编码器-解码器 (AED) 架构。

依赖项： Python 3.10, requirements.txt。

使用案例：

语音助手集成： 将 FireRedASR 集成到语音助手中，以实现准确的命令识别和自然语言理解，即使在嘈杂的环境中或具有不同的口音。低错误率可确保可靠的用户交互。
实时转录服务： 开发用于会议、讲座或访谈的实时转录服务。 AED 模型的效率允许低延迟处理，而 LLM 模型为关键应用程序提供最高的准确性。
多媒体内容分析： 使用 FireRedASR 自动生成视频字幕、索引音频档案或分析播客内容。歌词识别功能为音乐平台提供独特的功能。

结论：

对于寻求工业级语音识别的开发人员和研究人员来说，FireRedASR 提供了一个强大而通用的解决方案。它具有一流的准确性、灵活的架构选项和多语言支持，使其成为各种应用程序的引人注目的选择。该项目的开源性质鼓励社区贡献和该领域的进一步发展。

常见问题解答：

问：每个模型的输入长度限制是什么？
答： FireRedASR-AED 支持最长 60 秒的音频输入。长于 60 秒的输入可能会导致幻觉问题。超过 200 秒的输入将触发位置编码错误。 FireRedASR-LLM 支持最长 30 秒的音频输入。
问：如何处理 FireRedASR-LLM 在批量束搜索期间的潜在重复问题？
答：将批量束搜索与 FireRedASR-LLM 结合使用时，请确保输入话语的长度相似。长度上的显着差异可能导致较短话语中的重复。您可以按长度对数据集进行排序，或者将批量大小设置为 1 来缓解此问题。
问：FireRedASR-LLM 和 FireRedASR-AED 模型之间的主要区别是什么？
答： FireRedASR-LLM 旨在最大限度地提高准确性和端到端语音交互，从而利用 LLM。 FireRedASR-AED 在保持高性能的同时优先考虑计算效率，使其适合作为语音表示模块。
问：如何将音频转换为所需的格式？
答：使用提供的 FFmpeg 命令：ffmpeg -i input_audio -ar 16000 -ac 1 -acodec pcm_s16le -f wav output.wav。这会将音频转换为 16kHz 16 位 PCM 格式。
问：在哪里可以下载模型文件？
答：可以从 Hugging Face 下载模型文件。链接在提供的文档 [Model] 中提供。您还需要为 FireRedASR-LLM-L 下载 Qwen2-7B-Instruct。
问：需要什么 Python 版本？ 答： Python 3.10。

More information on FireRedASR

Launched

Pricing Model

Free

Starting Price

Global Rank

Month Visit

<5k

Tech used

FireRedASR was manually vetted by our editorial team and was first featured on 2025-03-04.

FireRedASR 替代方案

更多替代方案

Omnilingual ASR
0

Visit

Omnilingual ASR 是一款开源语音识别系统，支持超过1600种语言，其中甚至涵盖了数百种此前任何ASR技术都未曾涉足的语言。

Compare
Aero-1-Audio
0

Visit

Aero-1-Audio：高效的15亿参数模型，可处理长达15分钟的连续音频。无需分割即可实现精准的语音识别（ASR）和语义理解。开源！

Compare
FireRedTTS-2
0

Visit

FireRedTTS-2 赋能您的播客与聊天机器人，实现全面革新：提供自然逼真的多说话人长篇语音。畅享超低延迟与多语种语音克隆技术。

Compare
Step-Audio
1

Visit

探索 Step - Audio：首个可直接用于生产的开源智能语音交互框架。它协调理解与生成，支持多语言、情感化和方言丰富的对话。

Compare
Reverb
1

Visit

Reverb 提供开源语音识别和说话人分离模型。高精度自动语音识别 (ASR)，说话人分离，逐字控制。非常适合播客转录、会议记录和视频字幕。重新定义了语音技术的基准。

Compare

FireRedASR

What is FireRedASR?

主要特点：

使用案例：

结论：

More information on FireRedASR

FireRedASR 替代方案

Omnilingual ASR

Aero-1-Audio

FireRedTTS-2

Step-Audio

Reverb