Пример использования: разговорный ИИ

Более 3 8 часов данных, собранных, сегментированных и транскрибированных для создания ASR на XNUMX индийских языках

Сборник высказываний
Правительство стремится предоставить своим гражданам легкий доступ к Интернету и цифровым услугам на их родном языке с помощью проекта Bhashini.

BHASHINI, индийская платформа языкового перевода на основе искусственного интеллекта, является важной частью инициативы Digital India.

Платформа Bhashini, предназначенная для предоставления инструментов искусственного интеллекта (ИИ) и обработки естественного языка (NLP) для ММСП, стартапов и независимых новаторов, служит общедоступным ресурсом. Его цель — способствовать цифровому охвату, позволяя гражданам Индии взаимодействовать с цифровыми инициативами страны на своих родных языках.

Кроме того, он направлен на значительное расширение доступности интернет-контента на индийских языках. Это особенно нацелено на области, представляющие общественный интерес, такие как управление и политика, наука и технологии и т. д. Следовательно, это будет стимулировать граждан использовать Интернет на своем родном языке, способствуя их активному участию.

Используйте НЛП, чтобы обеспечить разнообразную экосистему участников, партнерских организаций и граждан с целью преодоления языковых барьеров, тем самым обеспечивая доступ к цифровым технологиям и расширение их возможностей.

Реальное решение мира

Раскрытие возможностей локализации с помощью данных

Индии нужна была платформа, которая сосредоточилась бы на создании многоязычных наборов данных и языковых технологических решений на основе искусственного интеллекта для предоставления цифровых услуг на индийских языках. Чтобы запустить эту инициативу, Индийский технологический институт в Мадрасе (IIT Madras) сотрудничал с Shaip для сбора, сегментации и расшифровки наборов данных на индийском языке для создания многоязычных речевых моделей.

Вызовы

Чтобы помочь клиенту с дорожной картой речевых технологий для индийских языков, команде необходимо было собрать, сегментировать и расшифровать большие объемы обучающих данных для построения модели ИИ. Критическими требованиями заказчика были:

Сбор данных

  • Получите 3000 часов обучающих данных на 8 индийских языках с 4 диалектами на каждом языке.
  • Для каждого языка поставщик будет собирать Extempore Speech и
    Разговорная речь в возрастных группах 18-60 лет
  • Обеспечьте разнообразный состав говорящих по возрасту, полу, образованию и диалектам.
  • Обеспечьте разнообразное сочетание сред записи в соответствии со спецификациями.
  • Каждая аудиозапись должна быть не менее 16 кГц, но предпочтительно 44 кГц.

Сегментация данных

  • Создавайте речевые сегменты по 15 секунд и добавляйте временные метки аудио к миллисекундам для каждого заданного говорящего, типа звука (речь, лепет, музыка, шум), поворотов, высказываний и фраз в разговоре.
  • Создайте каждый сегмент для целевого звукового сигнала с отступом в 200–400 миллисекунд в начале и в конце.
  • Для всех сегментов должны быть заполнены следующие объекты: время начала, время окончания, идентификатор сегмента, уровень громкости, тип звука, код языка, идентификатор динамика и т. д.

Транскрипция данных

  • Следуйте подробным инструкциям по транскрипции символов и специальных символов, правописания и грамматики, использования заглавных букв, сокращений, сокращений, отдельных произносимых букв, цифр, знаков препинания, акронимов, дисфлюэнтных, речи, неразборчивой речи, нецелевых языков, неречевых и т. д.

Проверка качества и обратная связь

  • Все записи должны пройти оценку качества и проверку, должна быть произнесена только проверенная речь

Решение

Благодаря нашему глубокому пониманию разговорного ИИ мы помогли клиенту собрать, сегментировать и расшифровать данные вместе с командой опытных сборщиков, лингвистов и аннотаторов для создания большого корпуса аудиоданных на 8 индийских языках.

Объем работы для Shaip включал, но не ограничивался сбором больших объемов данных аудиотренировок, сегментированием аудиозаписей на несколько частей, расшифровкой данных и доставкой соответствующих файлов JSON, содержащих метаданные [SpeakerID, Age, Gender, Language, Dialect,
Родной язык, квалификация, род занятий, домен, формат файла, частота, канал, тип звука, количество говорящих, количество иностранных языков, используемая настройка, узкополосный или широкополосный звук и т. д.]. 

Shaip собрал 3000 часов аудиоданных в масштабе, сохранив при этом желаемый уровень качества, необходимый для обучения технологии речи для сложных проектов. Форма явного согласия была взята у каждого из участников.

1. Сбор информации