FireRedASR

What is FireRedASR?

FireRedASR 是一系列專為真實世界應用設計的開源自動語音辨識（ASR）模型。如果您需要在普通話、中文方言或英語中獲得準確且高效的語音轉文字功能，FireRedASR 將提供強大的解決方案。它解決了對穩健 ASR 的關鍵需求，即使在唱歌歌詞辨識等專業任務中，也能在各種聲學條件下表現出色。

🗣️ 達到最先進的準確度： FireRedASR 提供頂級性能，在公共普通話 ASR 基準測試中達到新的最先進水準（SOTA）。這意味著您的應用程式將減少錯誤並獲得更可靠的轉錄結果。
⚙️ 選擇您的架構： 從兩種模型變體中進行選擇，以滿足您的特定需求：

FireRedASR-LLM： 採用 Encoder-Adapter-LLM 框架，利用大型語言模型（LLM）的強大功能，實現卓越的性能和無縫的端到端語音互動。
FireRedASR-AED： 採用基於注意力的 Encoder-Decoder（AED）架構，在高性能和計算效率之間取得平衡。非常適合作為基於 LLM 的語音模型中的語音表示模組。

技術細節：

模型變體： FireRedASR-LLM（8.3B 參數）和 FireRedASR-AED（1.1B 參數）。
評估指標： 中文的字元錯誤率（CER%）和英文的單詞錯誤率（WER%）。
基準測試： 在 aishell1、aishell2、WenetSpeech (ws_net, ws_meeting)、KeSpeech 和 LibriSpeech (test-clean, test-other) 上進行嚴格測試。
架構：

語音助理整合： 將 FireRedASR 整合到語音助理中，即使在嘈雜的環境中或使用不同的口音，也能實現準確的指令辨識和自然語言理解。低錯誤率確保了可靠的使用者互動。
即時轉錄服務： 開發用於會議、講座或訪談的即時轉錄服務。AED 模型的效率允許低延遲處理，而 LLM 模型為關鍵應用提供最高的準確度。
多媒體內容分析： 使用 FireRedASR 自動產生影片字幕、索引音訊檔案或分析 Podcast 的內容。唱歌歌詞辨識功能為音樂平台提供獨特的功能。

FireRedASR 為尋求工業級語音辨識的開發人員和研究人員提供了一個強大而通用的解決方案。其最先進的準確度、靈活的架構選項和多語言支援使其成為各種應用程式的引人注目的選擇。該專案的開源性質鼓勵社群貢獻和該領域的進一步發展。

常見問題：

問：每個模型的輸入長度限制是什麼？
答： FireRedASR-AED 支援最長 60 秒的音訊輸入。超過 60 秒的輸入可能會導致幻覺問題。超過 200 秒的輸入將觸發位置編碼錯誤。FireRedASR-LLM 支援最長 30 秒的音訊輸入。
問：如何在批次 Beam Search 期間處理 FireRedASR-LLM 的潛在重複問題？
答：將批次 Beam Search 與 FireRedASR-LLM 結合使用時，請確保輸入語音具有相似的長度。長度上的顯著差異可能導致較短語音中的重複。您可以按長度對資料集進行排序，或將批次大小設定為 1 來緩解此問題。
問：FireRedASR-LLM 和 FireRedASR-AED 模型之間的主要區別是什麼？
答： FireRedASR-LLM 專為最大準確度和端到端語音互動而設計，利用了 LLM。FireRedASR-AED 在保持高性能的同時，優先考慮計算效率，使其適合作為語音表示模組。
問：如何將我的音訊轉換為所需的格式？
答：使用提供的 FFmpeg 指令：ffmpeg -i input_audio -ar 16000 -ac 1 -acodec pcm_s16le -f wav output.wav。這會將音訊轉換為 16kHz 16-bit PCM 格式。
問：從哪裡可以下載模型檔案？
答：可以從 Hugging Face 下載模型檔案。連結可在提供的文件 [Model] 中找到。您還需要為 FireRedASR-LLM-L 下載 Qwen2-7B-Instruct。
問：需要什麼 Python 版本？ 答： Python 3.10。

Launched

Pricing Model

Free

Starting Price

Global Rank

Month Visit

<5k

FireRedASR was manually vetted by our editorial team and was first featured on 2025-03-04.