FireRedASR

What is FireRedASR?

FireRedASR – это семейство моделей автоматического распознавания речи (automatic speech recognition, ASR) с открытым исходным кодом, разработанных для реальных задач. Если вам необходимы точные и эффективные возможности преобразования речи в текст на китайском (мандаринском диалекте), других диалектах китайского языка или английском языке, FireRedASR предлагает мощное решение. Эта технология отвечает важнейшей потребности в надежном ASR, который исключительно хорошо работает в различных акустических условиях, вплоть до специализированных задач, таких как распознавание текстов песен.

Ключевые особенности:

🗣️ Достижение передовой точности: FireRedASR обеспечивает первоклассную производительность, достигая нового уровня state-of-the-art (SOTA) в общедоступных бенчмарках ASR для мандаринского диалекта. Это означает меньше ошибок и более надежную транскрипцию для ваших приложений.
⚙️ Выберите свою архитектуру: Выберите один из двух вариантов модели в соответствии с вашими конкретными потребностями:

FireRedASR-LLM: использует структуру Encoder-Adapter-LLM, задействуя мощь больших языковых моделей (large language models, LLM) для превосходной производительности и бесшовного сквозного речевого взаимодействия.
FireRedASR-AED: использует архитектуру Attention-based Encoder-Decoder (AED), сочетая высокую производительность с вычислительной эффективностью. Идеально подходит в качестве модуля представления речи в речевых моделях на основе LLM.

🌐 Поддержка нескольких языков и диалектов: транскрибируйте аудио на мандаринском диалекте, различных диалектах китайского языка и английском языке с высокой точностью. Этот широкий лингвистический охват открывает более широкий спектр возможностей применения.
🎤 Распознавание текстов песен: FireRedASR превосходно справляется со сложной задачей распознавания текстов песен, предлагая уникальные возможности для приложений, связанных с музыкой.
💻 Простота использования: создайте среду Python, загрузите и разместите файлы модели и установите зависимости, используя простые команды.

Технические детали:

Варианты модели: FireRedASR-LLM (8,3 млрд параметров) и FireRedASR-AED (1,1 млрд параметров).
Метрики оценки: Character Error Rate (CER%) для китайского языка и Word Error Rate (WER%) для английского языка.
Бенчмарки: Тщательно протестировано на aishell1, aishell2, WenetSpeech (ws_net, ws_meeting), KeSpeech и LibriSpeech (test-clean, test-other).
Архитектура:

FireRedASR-LLM: структура Encoder-Adapter-LLM.
FireRedASR-AED: архитектура Attention-based Encoder-Decoder (AED).

Зависимости: Python 3.10, requirements.txt.

Сценарии использования:

Интеграция с голосовыми помощниками: интегрируйте FireRedASR в голосовых помощников, чтобы обеспечить точное распознавание команд и понимание естественного языка даже в шумной обстановке или с разными акцентами. Низкий уровень ошибок обеспечивает надежное взаимодействие с пользователем.
Сервис транскрипции в реальном времени: разработайте сервис транскрипции в реальном времени для совещаний, лекций или интервью. Эффективность модели AED обеспечивает обработку с низкой задержкой, а модель LLM обеспечивает максимальную точность для критически важных приложений.
Анализ мультимедийного контента: используйте FireRedASR для автоматического создания субтитров для видео, индексации аудиоархивов или анализа контента подкастов. Возможность распознавания текстов песен предоставляет уникальные функции для музыкальных платформ.

Заключение:

FireRedASR предоставляет мощное и универсальное решение для разработчиков и исследователей, которым требуется распознавание речи промышленного уровня. Его передовая точность, гибкие варианты архитектуры и поддержка нескольких языков делают его привлекательным выбором для широкого спектра приложений. Открытый исходный код проекта способствует развитию сообщества и дальнейшим достижениям в этой области.

FAQ:

В: Каковы ограничения на длину входных данных для каждой модели?
О: FireRedASR-AED поддерживает аудиовход продолжительностью до 60 секунд. Входные данные длиннее 60 секунд могут вызвать проблемы с галлюцинациями. Входные данные, превышающие 200 секунд, вызовут ошибки позиционного кодирования. FireRedASR-LLM поддерживает аудиовход продолжительностью до 30 секунд.
В: Как обрабатывать потенциальные проблемы с повторами в FireRedASR-LLM во время пакетного поиска лучшего соответствия?
О: При использовании пакетного поиска лучшего соответствия с FireRedASR-LLM убедитесь, что входные высказывания имеют примерно одинаковую длину. Значительные различия в длине могут привести к повторам в более коротких высказываниях. Вы можете отсортировать свой набор данных по длине или установить размер пакета равным 1, чтобы смягчить эту проблему.
В: Каковы основные различия между моделями FireRedASR-LLM и FireRedASR-AED?
О: FireRedASR-LLM разработан для максимальной точности и сквозного речевого взаимодействия с использованием LLM. FireRedASR-AED отдает приоритет вычислительной эффективности, сохраняя при этом высокую производительность, что делает его пригодным в качестве модуля представления речи.
В: Как преобразовать аудио в требуемый формат?
О: Используйте предоставленную команду FFmpeg: ffmpeg -i input_audio -ar 16000 -ac 1 -acodec pcm_s16le -f wav output.wav. Это преобразует аудио в 16-битный PCM формат с частотой 16 кГц.
В: Где можно скачать файлы модели?
О: Файлы модели можно скачать с Hugging Face. Ссылки доступны в предоставленной документации [Model]. Вам также необходимо скачать Qwen2-7B-Instruct для FireRedASR-LLM-L.
В: Какая версия Python требуется? О: Python 3.10.

More information on FireRedASR

Launched

Pricing Model

Free

Starting Price

Global Rank

Month Visit

<5k

FireRedASR was manually vetted by our editorial team and was first featured on 2025-03-04.

FireRedASR Альтернативы

Omnilingual ASR
0

Visit

Omnilingual ASR — это система распознавания речи с открытым исходным кодом, поддерживающая более 1600 языков, — в том числе сотни таких, которые ранее никогда не охватывались ни одной технологией ASR.

FireRedASR VS Omnilingual ASR
Aero-1-Audio
0

Visit

Aero-1-Audio: Эффективная модель на 1.5 миллиарда параметров для обработки 15-минутных аудиозаписей. Точное распознавание речи и понимание без сегментации. С открытым исходным кодом!

FireRedASR VS Aero-1-Audio
FireRedTTS-2
0

Visit

Преобразите ваши подкасты и чат-боты с FireRedTTS-2: естественная многоголосая речь для продолжительного контента. Оцените сверхнизкую задержку и многоязычное клонирование голоса.

FireRedASR VS FireRedTTS-2
Step-Audio
1

Visit

Представляем Step - Audio, первый готовый к использованию open-source фреймворк для интеллектуального речевого взаимодействия. Он обеспечивает гармоничное понимание и генерацию речи, поддерживает многоязычные, эмоциональные и насыщенные диалектами беседы.

FireRedASR VS Step-Audio
Reverb
1

Visit

Reverb предлагает модели распознавания речи и диаризации с открытым исходным кодом. Высокоточная ASR, диаризация речи, управление дословностью. Идеально подходит для транскрипции подкастов, протоколов встреч и субтитров к видео. Переосмысливает эталон в области речевых технологий.

FireRedASR VS Reverb

FireRedASR

What is FireRedASR?

Ключевые особенности:

Сценарии использования:

Заключение:

More information on FireRedASR

FireRedASR Альтернативы

Omnilingual ASR

Aero-1-Audio

FireRedTTS-2

Step-Audio

Reverb