Пример использования: разговорный ИИ
Более 3 8 часов данных, собранных, сегментированных и транскрибированных для создания ASR на XNUMX индийских языках
BHASHINI, индийская платформа языкового перевода на основе искусственного интеллекта, является важной частью инициативы Digital India.
Платформа Bhashini, предназначенная для предоставления инструментов искусственного интеллекта (ИИ) и обработки естественного языка (NLP) для ММСП, стартапов и независимых новаторов, служит общедоступным ресурсом. Его цель — способствовать цифровому охвату, позволяя гражданам Индии взаимодействовать с цифровыми инициативами страны на своих родных языках.
Кроме того, он направлен на значительное расширение доступности интернет-контента на индийских языках. Это особенно нацелено на области, представляющие общественный интерес, такие как управление и политика, наука и технологии и т. д. Следовательно, это будет стимулировать граждан использовать Интернет на своем родном языке, способствуя их активному участию.
Используйте НЛП, чтобы обеспечить разнообразную экосистему участников, партнерских организаций и граждан с целью преодоления языковых барьеров, тем самым обеспечивая доступ к цифровым технологиям и расширение их возможностей.
Реальное решение мира
Раскрытие возможностей локализации с помощью данных
Индии нужна была платформа, которая сосредоточилась бы на создании многоязычных наборов данных и языковых технологических решений на основе искусственного интеллекта для предоставления цифровых услуг на индийских языках. Чтобы запустить эту инициативу, Индийский технологический институт в Мадрасе (IIT Madras) сотрудничал с Shaip для сбора, сегментации и расшифровки наборов данных на индийском языке для создания многоязычных речевых моделей.
Вызовы
Чтобы помочь клиенту с дорожной картой речевых технологий для индийских языков, команде необходимо было собрать, сегментировать и расшифровать большие объемы обучающих данных для построения модели ИИ. Критическими требованиями заказчика были:
Сбор данных
- Получите 3000 часов обучающих данных на 8 индийских языках с 4 диалектами на каждом языке.
- Для каждого языка поставщик будет собирать Extempore Speech и
Разговорная речь в возрастных группах 18-60 лет - Обеспечьте разнообразный состав говорящих по возрасту, полу, образованию и диалектам.
- Обеспечьте разнообразное сочетание сред записи в соответствии со спецификациями.
- Каждая аудиозапись должна быть не менее 16 кГц, но предпочтительно 44 кГц.
Сегментация данных
- Создавайте речевые сегменты по 15 секунд и добавляйте временные метки аудио к миллисекундам для каждого заданного говорящего, типа звука (речь, лепет, музыка, шум), поворотов, высказываний и фраз в разговоре.
- Создайте каждый сегмент для целевого звукового сигнала с отступом в 200–400 миллисекунд в начале и в конце.
- Для всех сегментов должны быть заполнены следующие объекты: время начала, время окончания, идентификатор сегмента, уровень громкости, тип звука, код языка, идентификатор динамика и т. д.
Транскрипция данных
- Следуйте подробным инструкциям по транскрипции символов и специальных символов, правописания и грамматики, использования заглавных букв, сокращений, сокращений, отдельных произносимых букв, цифр, знаков препинания, акронимов, дисфлюэнтных, речи, неразборчивой речи, нецелевых языков, неречевых и т. д.
Проверка качества и обратная связь
- Все записи должны пройти оценку качества и проверку, должна быть произнесена только проверенная речь
Решения
Благодаря нашему глубокому пониманию разговорного ИИ мы помогли клиенту собрать, сегментировать и расшифровать данные вместе с командой опытных сборщиков, лингвистов и аннотаторов для создания большого корпуса аудиоданных на 8 индийских языках.
Объем работы для Shaip включал, но не ограничивался сбором больших объемов данных аудиотренировок, сегментированием аудиозаписей на несколько частей, расшифровкой данных и доставкой соответствующих файлов JSON, содержащих метаданные [SpeakerID, Age, Gender, Language, Dialect,
Родной язык, квалификация, род занятий, домен, формат файла, частота, канал, тип звука, количество говорящих, количество иностранных языков, используемая настройка, узкополосный или широкополосный звук и т. д.].
Shaip собрал 3000 часов аудиоданных в масштабе, сохранив при этом желаемый уровень качества, необходимый для обучения технологии речи для сложных проектов. Форма явного согласия была взята у каждого из участников.
1. Сбор информации
2. Сегментация данных
- Собранные аудиоданные были далее разделены на речевые сегменты по 15 секунд каждый и привязаны к миллисекундам для каждого заданного говорящего, типа звука, оборотов, высказываний и фраз в разговоре.
- Создал каждый сегмент для своего целевого звукового сигнала с отступом в 200-400 миллисекунд в начале и в конце звукового сигнала.
- Для всех сегментов присутствовали и были заполнены следующие объекты: время начала, время окончания, идентификатор сегмента, уровень громкости (громко, нормально, тихо), основной тип звука (речь, лепет, музыка, шум, перекрытие), код языка. удостоверение личности, транскрипция и т. д.
3. Проверка качества и обратная связь
- Все записи были оценены на качество, и были доставлены только проверенные записи речи с WER 90% и TER 90%.
- Контрольный список качества:
» Макс. 15 секунд длины сегмента
» Транскрипция из определенных доменов, а именно: погода, различные типы новостей, здоровье, сельское хозяйство, образование, работа или финансы.
» Низкий фоновый шум
» No Audio clip off – Без искажений
» Правильная сегментация аудио для транскрипции
4. Транскрипция данных
Все произнесенные слова, включая колебания, слова-паразиты, фальстарты и другие словесные тики, были точно зафиксированы в транскрипции. Мы также соблюдали подробные рекомендации по транскрипции заглавных и строчных букв, правописания, использования заглавных букв, аббревиатур, сокращений, цифр,
знаки препинания, аббревиатуры, нечеткая речь, неречевые шумы и т. д. Кроме того, рабочий процесс, используемый для сбора и транскрипции, выглядит следующим образом:
Результат
Высококачественные аудиоданные от опытных лингвистов позволят Индийскому технологическому институту в Мадрасе точно обучить и построить многоязычные модели распознавания речи на 8 индийских языках с разными диалектами в установленные сроки. Модели распознавания речи можно использовать для:
- Преодолейте языковой барьер для цифровой интеграции, подключив граждан к инициативам на их родном языке.
- Продвигает цифровое управление
- Катализатор для формирования экосистемы услуг и продуктов на индийских языках
- Более локализованный цифровой контент в областях, представляющих общественный интерес, в частности, в управлении и политике.
Мы были впечатлены опытом Шаипа в области диалогового ИИ. Их общая компетенция в выполнении проекта, включая поиск, сегментацию, расшифровку и предоставление необходимых обучающих данных от опытных лингвистов на 8 языках в строгие сроки и в соответствии с инструкциями; при сохранении приемлемого стандарта качества».
Избранные клиенты
Расширение возможностей команд для создания ведущих в мире продуктов искусственного интеллекта.