Пример использования: разговорный ИИ
Более 3 тыс. часов данных, собранных, сегментированных и расшифрованных для создания ASR на 8 индийских языках
Правительство стремится предоставить своим гражданам легкий доступ к Интернету и цифровым услугам на их родном языке с помощью проекта Bhashini.
BHASHINI, индийская платформа языкового перевода на основе искусственного интеллекта, является важной частью инициативы Digital India.
Платформа Bhashini, предназначенная для предоставления инструментов искусственного интеллекта (ИИ) и обработки естественного языка (NLP) для ММСП, стартапов и независимых новаторов, служит общедоступным ресурсом. Его цель — способствовать цифровому охвату, позволяя гражданам Индии взаимодействовать с цифровыми инициативами страны на своих родных языках.
Кроме того, он направлен на значительное расширение доступности интернет-контента на индийских языках. Это особенно нацелено на области, представляющие общественный интерес, такие как управление и политика, наука и технологии и т. д. Следовательно, это будет стимулировать граждан использовать Интернет на своем родном языке, способствуя их активному участию.
Реальное решение мира
Раскрытие возможностей локализации с помощью данных
Индии требовалась платформа, которая бы специализировалась на создании многоязычных наборов данных и решений на основе ИИ для предоставления цифровых услуг на индийских языках. Для запуска этой инициативы Индийский технологический институт в Мадрасе (IIT Madras) в партнерстве с компанией Shaip занимался сбором, сегментацией и транскрипцией наборов данных на индийских языках для создания многоязычных моделей речи.
Задачи
Чтобы помочь клиенту с дорожной картой речевых технологий для индийских языков, команде необходимо было собрать, сегментировать и расшифровать большие объемы обучающих данных для построения модели ИИ. Критическими требованиями заказчика были:
Сбор данных
- Получите 3000 часов обучающих данных на 8 индийских языках с 4 диалектами на каждом языке.
- Для каждого языка поставщик будет собирать Extempore Speech и
Разговорная речь в возрастных группах 18-60 лет - Обеспечьте разнообразный состав говорящих по возрасту, полу, образованию и диалектам.
- Обеспечьте разнообразное сочетание сред записи в соответствии со спецификациями.
- Каждая аудиозапись должна быть не менее 16 кГц, но предпочтительно 44 кГц.
Сегментация данных
- Создавайте речевые сегменты по 15 секунд и добавляйте временные метки аудио к миллисекундам для каждого заданного говорящего, типа звука (речь, лепет, музыка, шум), поворотов, высказываний и фраз в разговоре.
- Создайте каждый сегмент для целевого звукового сигнала с отступом в 200–400 миллисекунд в начале и в конце.
- Для всех сегментов должны быть заполнены следующие объекты: время начала, время окончания, идентификатор сегмента, уровень громкости, тип звука, код языка, идентификатор динамика и т. д.
Транскрипция данных
- Следуйте подробным инструкциям по транскрипции символов и специальных символов, правописания и грамматики, использования заглавных букв, сокращений, сокращений, отдельных произносимых букв, цифр, знаков препинания, акронимов, дисфлюэнтных, речи, неразборчивой речи, нецелевых языков, неречевых и т. д.
Проверка качества и обратная связь
- Все записи должны пройти оценку качества и проверку, должна быть произнесена только проверенная речь
Решение
Благодаря нашему глубокому пониманию разговорного ИИ, мы помогли клиенту собрать, сегментировать и расшифровать данные с помощью команды экспертов-сборщиков, лингвистов и аннотаторов, чтобы создать большой корпус аудиоданных на 8 индийских языках.
В объем работы для компании Shaip входило, помимо прочего, получение больших объемов обучающих аудиоданных, сегментирование аудиозаписей на несколько частей, транскрибирование данных и предоставление соответствующих JSON-файлов, содержащих метаданные [идентификатор говорящего, возраст, пол, язык, диалект, родной язык, квалификация, профессия, область знаний, формат файла, частота, канал, тип аудио, количество говорящих, количество иностранных языков, используемая конфигурация, узкополосное или широкополосное аудио и т. д.].
Shaip собрал 3000 часов аудиоданных в масштабе, сохранив при этом желаемый уровень качества, необходимый для обучения технологии речи для сложных проектов. Форма явного согласия была взята у каждого из участников.
1. Сбор информации
2. Сегментация данных
- Собранные аудиоданные были дополнительно разделены на речевые сегменты по 15 секунд каждый и снабжены временными метками в миллисекундах для каждого говорящего, типа звука, реплик, высказываний и фраз в разговоре.
- Создал каждый сегмент для своего целевого звукового сигнала с отступом в 200-400 миллисекунд в начале и в конце звукового сигнала.
- Для всех сегментов присутствовали и были заполнены следующие объекты: время начала, время окончания, идентификатор сегмента, уровень громкости (громко, нормально, тихо), основной тип звука (речь, лепет, музыка, шум, перекрытие), код языка. удостоверение личности, транскрипция и т. д.
3. Проверка качества и обратная связь
- Все записи были оценены на качество, и были доставлены только проверенные записи речи с WER 90% и TER 90%.
- Контрольный список качества:
» Макс. 15 секунд длины сегмента
» Транскрипция из определенных доменов, а именно: погода, различные типы новостей, здоровье, сельское хозяйство, образование, работа или финансы.
» Низкий фоновый шум
» No Audio clip off – Без искажений
» Правильная сегментация аудио для транскрипции
4. Транскрипция данных
Все произнесенные слова, включая колебания, слова-паразиты, фальстарты и другие словесные тики, были точно зафиксированы в транскрипции. Мы также соблюдали подробные рекомендации по транскрипции заглавных и строчных букв, правописания, использования заглавных букв, аббревиатур, сокращений, цифр,
знаки препинания, аббревиатуры, нечеткая речь, неречевые шумы и т. д. Кроме того, рабочий процесс, используемый для сбора и транскрипции, выглядит следующим образом:
Результат
Высококачественные аудиоданные от опытных лингвистов позволят Индийскому технологическому институту в Мадрасе точно обучить и построить многоязычные модели распознавания речи на 8 индийских языках с разными диалектами в установленные сроки. Модели распознавания речи можно использовать для:
- Преодолейте языковой барьер для цифровой интеграции, подключив граждан к инициативам на их родном языке.
- Продвигает цифровое управление
- Катализатор для формирования экосистемы услуг и продуктов на индийских языках
- Более локализованный цифровой контент в областях, представляющих общественный интерес, в частности, в управлении и политике.
Мы были впечатлены опытом Шаипа в области диалогового ИИ. Их общая компетенция в выполнении проекта, включая поиск, сегментацию, расшифровку и предоставление необходимых обучающих данных от опытных лингвистов на 8 языках в строгие сроки и в соответствии с инструкциями; при сохранении приемлемого стандарта качества».