FireRedASR

What is FireRedASR?

FireRedASR est une famille de modèles de reconnaissance vocale automatique (ASR) open source conçus pour des applications concrètes. Si vous avez besoin de fonctionnalités de conversion parole-texte précises et efficaces en mandarin, dans les dialectes chinois ou en anglais, FireRedASR offre une solution performante. Il répond au besoin essentiel d'une ASR robuste qui fonctionne exceptionnellement bien dans diverses conditions acoustiques, y compris pour des tâches spécialisées telles que la reconnaissance des paroles de chansons.

Principales caractéristiques :

🗣️ Obtenez une précision à la pointe de la technologie : FireRedASR offre des performances de premier ordre, atteignant un nouveau sommet (SOTA) sur les benchmarks publics d'ASR mandarin. Cela se traduit par moins d'erreurs et des transcriptions plus fiables pour vos applications.
⚙️ Choisissez votre architecture : Sélectionnez l'une des deux variantes de modèle pour répondre à vos besoins spécifiques :

FireRedASR-LLM : Utilise un framework Encoder-Adapter-LLM, tirant parti de la puissance des grands modèles de langage (LLM) pour des performances supérieures et une interaction vocale de bout en bout fluide.
FireRedASR-AED : Utilise une architecture Encodeur-Décodeur basée sur l'Attention (AED), équilibrant des performances élevées et une efficacité de calcul. Idéal comme module de représentation vocale dans les modèles vocaux basés sur LLM.

🌐 Prise en charge de plusieurs langues et dialectes : Transcrivez l'audio en mandarin, dans divers dialectes chinois et en anglais avec une grande précision. Cette large couverture linguistique ouvre un éventail plus vaste de possibilités d'application.
🎤 Reconnaissance des paroles de chansons : FireRedASR excelle dans le domaine difficile de la reconnaissance des paroles de chansons, offrant des capacités uniques pour les applications liées à la musique.
💻 Facile à utiliser : Créez un environnement Python, téléchargez et placez les fichiers modèles, et installez les dépendances à l'aide de commandes simples.

Détails techniques :

Variantes de modèle : FireRedASR-LLM (8,3 milliards de paramètres) et FireRedASR-AED (1,1 milliard de paramètres).
Mesures d'évaluation : Taux d'erreur de caractères (CER%) pour le chinois et taux d'erreur de mots (WER%) pour l'anglais.
Benchmarks : Rigoureusement testé sur aishell1, aishell2, WenetSpeech (ws_net, ws_meeting), KeSpeech et LibriSpeech (test-clean, test-other).
Architecture :

FireRedASR-LLM : Framework Encodeur-Adaptateur-LLM.
FireRedASR-AED : Architecture Encodeur-Décodeur basée sur l'Attention (AED).

Dépendances : Python 3.10, requirements.txt.

Cas d'utilisation :

Intégration d'assistants vocaux : Intégrez FireRedASR dans les assistants vocaux pour permettre une reconnaissance précise des commandes et une compréhension du langage naturel, même dans des environnements bruyants ou avec des accents divers. Les faibles taux d'erreur garantissent une interaction utilisateur fiable.
Service de transcription en temps réel : Développez un service de transcription en temps réel pour les réunions, les conférences ou les entretiens. L'efficacité du modèle AED permet un traitement à faible latence, tandis que le modèle LLM offre la plus grande précision pour les applications critiques.
Analyse de contenu multimédia : Utilisez FireRedASR pour générer automatiquement des sous-titres pour les vidéos, indexer les archives audio ou analyser le contenu des podcasts. La capacité de reconnaissance des paroles de chansons permet des fonctionnalités uniques pour les plateformes musicales.

Conclusion :

FireRedASR fournit une solution puissante et polyvalente pour les développeurs et les chercheurs à la recherche d'une reconnaissance vocale de qualité industrielle. Sa précision à la pointe de la technologie, ses options d'architecture flexibles et sa prise en charge multilingue en font un choix intéressant pour un large éventail d'applications. La nature open source du projet encourage les contributions de la communauté et les progrès futurs dans le domaine.

FAQ :

Q : Quelles sont les limitations de longueur d'entrée pour chaque modèle ?
R : FireRedASR-AED prend en charge les entrées audio jusqu'à 60 secondes. Une entrée supérieure à 60 secondes peut entraîner des problèmes d'hallucination. Une entrée dépassant 200 secondes déclenchera des erreurs d'encodage positionnel. FireRedASR-LLM prend en charge les entrées audio jusqu'à 30 secondes.
Q : Comment puis-je gérer les problèmes de répétition potentiels avec FireRedASR-LLM lors de la recherche de faisceau par lots ?
R : Lorsque vous utilisez la recherche de faisceau par lots avec FireRedASR-LLM, assurez-vous que les énoncés d'entrée ont des longueurs similaires. Des différences de longueur importantes peuvent entraîner des répétitions dans les énoncés plus courts. Vous pouvez trier votre ensemble de données par longueur ou définir la taille du lot sur 1 pour atténuer ce problème.
Q : Quelles sont les principales différences entre les modèles FireRedASR-LLM et FireRedASR-AED ?
R : FireRedASR-LLM est conçu pour une précision maximale et une interaction vocale de bout en bout, tirant parti d'un LLM. FireRedASR-AED donne la priorité à l'efficacité de calcul tout en conservant des performances élevées, ce qui le rend approprié comme module de représentation vocale.
Q : Comment puis-je convertir mon audio au format requis ?
R : Utilisez la commande FFmpeg fournie : ffmpeg -i input_audio -ar 16000 -ac 1 -acodec pcm_s16le -f wav output.wav. Cela convertit l'audio au format PCM 16 bits 16 kHz.
Q : Où puis-je télécharger les fichiers modèles ?
R : Les fichiers modèles peuvent être téléchargés depuis Hugging Face. Les liens sont disponibles dans la documentation fournie [Model]. Vous devez également télécharger Qwen2-7B-Instruct pour FireRedASR-LLM-L.
Q : Quelle version de Python est requise ? R : Python 3.10.

More information on FireRedASR

Launched

Pricing Model

Free

Starting Price

Global Rank

Month Visit

<5k

FireRedASR was manually vetted by our editorial team and was first featured on 2025-03-04.

FireRedASR alternatives

Omnilingual ASR
0

Visit

Omnilingual ASR est un système de reconnaissance vocale open source prenant en charge plus de 1 600 langues — dont des centaines qui n'avaient, jusqu'à présent, jamais été couvertes par aucune technologie ASR.

FireRedASR VS Omnilingual ASR
Aero-1-Audio
0

Visit

Aero-1-Audio : Modèle performant de 1,5 milliard de paramètres pour le traitement audio continu de 15 minutes. Transcription et compréhension précises sans segmentation. Open source !

FireRedASR VS Aero-1-Audio
FireRedTTS-2
0

Visit

Révolutionnez vos podcasts et chatbots avec FireRedTTS-2 : une synthèse vocale naturelle, multivoix et de longue durée. Profitez d'une latence ultra-faible et d'un clonage vocal multilingue.

FireRedASR VS FireRedTTS-2
Step-Audio
1

Visit

Découvrez Step - Audio, le premier framework open source prêt à l'emploi pour une interaction vocale intelligente. Harmonisez la compréhension et la génération, prenez en charge des conversations multilingues, riches en émotions et en dialectes.

FireRedASR VS Step-Audio
Reverb
1

Visit

Reverb propose des modèles de reconnaissance vocale et de diarisation open source. ASR haute précision, diarisation des locuteurs, contrôle de la verbatimité. Idéal pour la transcription de podcasts, les comptes rendus de réunion et le sous-titrage vidéo. Redéfinit la référence en matière de technologie vocale.

FireRedASR VS Reverb

FireRedASR

What is FireRedASR?

Principales caractéristiques :

Cas d'utilisation :

Conclusion :

More information on FireRedASR

FireRedASR alternatives

Omnilingual ASR

Aero-1-Audio

FireRedTTS-2

Step-Audio

Reverb