Пример использования: разговорный ИИ
BHASHINI, индийская платформа языкового перевода на основе искусственного интеллекта, является важной частью инициативы Digital India.
Платформа Bhashini, предназначенная для предоставления инструментов искусственного интеллекта (ИИ) и обработки естественного языка (NLP) для ММСП, стартапов и независимых новаторов, служит общедоступным ресурсом. Его цель — способствовать цифровому охвату, позволяя гражданам Индии взаимодействовать с цифровыми инициативами страны на своих родных языках.
Кроме того, он направлен на значительное расширение доступности интернет-контента на индийских языках. Это особенно нацелено на области, представляющие общественный интерес, такие как управление и политика, наука и технологии и т. д. Следовательно, это будет стимулировать граждан использовать Интернет на своем родном языке, способствуя их активному участию.
Реальное решение мира
Раскрытие возможностей локализации с помощью данных
Индии нужна была платформа, которая сосредоточилась бы на создании многоязычных наборов данных и языковых технологических решений на основе искусственного интеллекта для предоставления цифровых услуг на индийских языках. Чтобы запустить эту инициативу, Индийский технологический институт в Мадрасе (IIT Madras) сотрудничал с Shaip для сбора, сегментации и расшифровки наборов данных на индийском языке для создания многоязычных речевых моделей.
Задачи
Чтобы помочь клиенту с дорожной картой речевых технологий для индийских языков, команде необходимо было собрать, сегментировать и расшифровать большие объемы обучающих данных для построения модели ИИ. Критическими требованиями заказчика были:
Сбор данных
- Получите 3000 часов обучающих данных на 8 индийских языках с 4 диалектами на каждом языке.
- Для каждого языка поставщик будет собирать Extempore Speech и
Разговорная речь в возрастных группах 18-60 лет - Обеспечьте разнообразный состав говорящих по возрасту, полу, образованию и диалектам.
- Обеспечьте разнообразное сочетание сред записи в соответствии со спецификациями.
- Каждая аудиозапись должна быть не менее 16 кГц, но предпочтительно 44 кГц.
Сегментация данных
- Создавайте речевые сегменты по 15 секунд и добавляйте временные метки аудио к миллисекундам для каждого заданного говорящего, типа звука (речь, лепет, музыка, шум), поворотов, высказываний и фраз в разговоре.
- Создайте каждый сегмент для целевого звукового сигнала с отступом в 200–400 миллисекунд в начале и в конце.
- Для всех сегментов должны быть заполнены следующие объекты: время начала, время окончания, идентификатор сегмента, уровень громкости, тип звука, код языка, идентификатор динамика и т. д.
Транскрипция данных
- Следуйте подробным инструкциям по транскрипции символов и специальных символов, правописания и грамматики, использования заглавных букв, сокращений, сокращений, отдельных произносимых букв, цифр, знаков препинания, акронимов, дисфлюэнтных, речи, неразборчивой речи, нецелевых языков, неречевых и т. д.
Проверка качества и обратная связь
- Все записи должны пройти оценку качества и проверку, должна быть произнесена только проверенная речь
Решение
Благодаря нашему глубокому пониманию разговорного ИИ мы помогли клиенту собрать, сегментировать и расшифровать данные вместе с командой опытных сборщиков, лингвистов и аннотаторов для создания большого корпуса аудиоданных на 8 индийских языках.
Объем работы для Shaip включал, но не ограничивался сбором больших объемов данных аудиотренировок, сегментированием аудиозаписей на несколько частей, расшифровкой данных и доставкой соответствующих файлов JSON, содержащих метаданные [SpeakerID, Age, Gender, Language, Dialect,
Родной язык, квалификация, род занятий, домен, формат файла, частота, канал, тип звука, количество говорящих, количество иностранных языков, используемая настройка, узкополосный или широкополосный звук и т. д.].
Shaip собрал 3000 часов аудиоданных в масштабе, сохранив при этом желаемый уровень качества, необходимый для обучения технологии речи для сложных проектов. Форма явного согласия была взята у каждого из участников.
1. Сбор информации
2. Сегментация данных
- Собранные аудиоданные были далее разделены на речевые сегменты по 15 секунд каждый и привязаны к миллисекундам для каждого заданного говорящего, типа звука, оборотов, высказываний и фраз в разговоре.
- Создал каждый сегмент для своего целевого звукового сигнала с отступом в 200-400 миллисекунд в начале и в конце звукового сигнала.
- Для всех сегментов присутствовали и были заполнены следующие объекты: время начала, время окончания, идентификатор сегмента, уровень громкости (громко, нормально, тихо), основной тип звука (речь, лепет, музыка, шум, перекрытие), код языка. удостоверение личности, транскрипция и т. д.
3. Проверка качества и обратная связь
- Все записи были оценены на качество, и были доставлены только проверенные записи речи с WER 90% и TER 90%.
- Контрольный список качества:
» Макс. 15 секунд длины сегмента
» Транскрипция из определенных доменов, а именно: погода, различные типы новостей, здоровье, сельское хозяйство, образование, работа или финансы.
» Низкий фоновый шум
» No Audio clip off – Без искажений
» Правильная сегментация аудио для транскрипции
4. Транскрипция данных
Все произнесенные слова, включая колебания, слова-паразиты, фальстарты и другие словесные тики, были точно зафиксированы в транскрипции. Мы также соблюдали подробные рекомендации по транскрипции заглавных и строчных букв, правописания, использования заглавных букв, аббревиатур, сокращений, цифр,
знаки препинания, аббревиатуры, нечеткая речь, неречевые шумы и т. д. Кроме того, рабочий процесс, используемый для сбора и транскрипции, выглядит следующим образом:
Результат
Высококачественные аудиоданные от опытных лингвистов позволят Индийскому технологическому институту в Мадрасе точно обучить и построить многоязычные модели распознавания речи на 8 индийских языках с разными диалектами в установленные сроки. Модели распознавания речи можно использовать для:
- Преодолейте языковой барьер для цифровой интеграции, подключив граждан к инициативам на их родном языке.
- Продвигает цифровое управление
- Катализатор для формирования экосистемы услуг и продуктов на индийских языках
- Более локализованный цифровой контент в областях, представляющих общественный интерес, в частности, в управлении и политике.
Мы были впечатлены опытом Шаипа в области диалогового ИИ. Их общая компетенция в выполнении проекта, включая поиск, сегментацию, расшифровку и предоставление необходимых обучающих данных от опытных лингвистов на 8 языках в строгие сроки и в соответствии с инструкциями; при сохранении приемлемого стандарта качества».
Ускорьте разработку приложений с разговорным ИИ на 100%
Избранные клиенты
Расширение возможностей команд для создания ведущих в мире продуктов искусственного интеллекта.