Пример использования: разговорный ИИ

Более 3 8 часов данных, собранных, сегментированных и транскрибированных для создания ASR на XNUMX индийских языках

Сборник высказываний
Правительство стремится предоставить своим гражданам легкий доступ к Интернету и цифровым услугам на их родном языке с помощью проекта Bhashini.

BHASHINI, индийская платформа языкового перевода на основе искусственного интеллекта, является важной частью инициативы Digital India.

Платформа Bhashini, предназначенная для предоставления инструментов искусственного интеллекта (ИИ) и обработки естественного языка (NLP) для ММСП, стартапов и независимых новаторов, служит общедоступным ресурсом. Его цель — способствовать цифровому охвату, позволяя гражданам Индии взаимодействовать с цифровыми инициативами страны на своих родных языках.

Кроме того, он направлен на значительное расширение доступности интернет-контента на индийских языках. Это особенно нацелено на области, представляющие общественный интерес, такие как управление и политика, наука и технологии и т. д. Следовательно, это будет стимулировать граждан использовать Интернет на своем родном языке, способствуя их активному участию.

Используйте НЛП, чтобы обеспечить разнообразную экосистему участников, партнерских организаций и граждан с целью преодоления языковых барьеров, тем самым обеспечивая доступ к цифровым технологиям и расширение их возможностей.

Реальное решение мира

Раскрытие возможностей локализации с помощью данных

Индии нужна была платформа, которая сосредоточилась бы на создании многоязычных наборов данных и языковых технологических решений на основе искусственного интеллекта для предоставления цифровых услуг на индийских языках. Чтобы запустить эту инициативу, Индийский технологический институт в Мадрасе (IIT Madras) сотрудничал с Shaip для сбора, сегментации и расшифровки наборов данных на индийском языке для создания многоязычных речевых моделей.

Вызовы

Чтобы помочь клиенту с дорожной картой речевых технологий для индийских языков, команде необходимо было собрать, сегментировать и расшифровать большие объемы обучающих данных для построения модели ИИ. Критическими требованиями заказчика были:

Сбор данных

  • Получите 3000 часов обучающих данных на 8 индийских языках с 4 диалектами на каждом языке.
  • Для каждого языка поставщик будет собирать Extempore Speech и
    Разговорная речь в возрастных группах 18-60 лет
  • Обеспечьте разнообразный состав говорящих по возрасту, полу, образованию и диалектам.
  • Обеспечьте разнообразное сочетание сред записи в соответствии со спецификациями.
  • Каждая аудиозапись должна быть не менее 16 кГц, но предпочтительно 44 кГц.

Сегментация данных

  • Создавайте речевые сегменты по 15 секунд и добавляйте временные метки аудио к миллисекундам для каждого заданного говорящего, типа звука (речь, лепет, музыка, шум), поворотов, высказываний и фраз в разговоре.
  • Создайте каждый сегмент для целевого звукового сигнала с отступом в 200–400 миллисекунд в начале и в конце.
  • Для всех сегментов должны быть заполнены следующие объекты: время начала, время окончания, идентификатор сегмента, уровень громкости, тип звука, код языка, идентификатор динамика и т. д.

Транскрипция данных

  • Следуйте подробным инструкциям по транскрипции символов и специальных символов, правописания и грамматики, использования заглавных букв, сокращений, сокращений, отдельных произносимых букв, цифр, знаков препинания, акронимов, дисфлюэнтных, речи, неразборчивой речи, нецелевых языков, неречевых и т. д.

Проверка качества и обратная связь

  • Все записи должны пройти оценку качества и проверку, должна быть произнесена только проверенная речь

Решения

Благодаря нашему глубокому пониманию разговорного ИИ мы помогли клиенту собрать, сегментировать и расшифровать данные вместе с командой опытных сборщиков, лингвистов и аннотаторов для создания большого корпуса аудиоданных на 8 индийских языках.

Объем работы для Shaip включал, но не ограничивался сбором больших объемов данных аудиотренировок, сегментированием аудиозаписей на несколько частей, расшифровкой данных и доставкой соответствующих файлов JSON, содержащих метаданные [SpeakerID, Age, Gender, Language, Dialect,
Родной язык, квалификация, род занятий, домен, формат файла, частота, канал, тип звука, количество говорящих, количество иностранных языков, используемая настройка, узкополосный или широкополосный звук и т. д.]. 

Shaip собрал 3000 часов аудиоданных в масштабе, сохранив при этом желаемый уровень качества, необходимый для обучения технологии речи для сложных проектов. Форма явного согласия была взята у каждого из участников.

1. Сбор информации

2. Сегментация данных

  • Собранные аудиоданные были далее разделены на речевые сегменты по 15 секунд каждый и привязаны к миллисекундам для каждого заданного говорящего, типа звука, оборотов, высказываний и фраз в разговоре.
  • Создал каждый сегмент для своего целевого звукового сигнала с отступом в 200-400 миллисекунд в начале и в конце звукового сигнала.
  • Для всех сегментов присутствовали и были заполнены следующие объекты: время начала, время окончания, идентификатор сегмента, уровень громкости (громко, нормально, тихо), основной тип звука (речь, лепет, музыка, шум, перекрытие), код языка. удостоверение личности, транскрипция и т. д.

3. Проверка качества и обратная связь

  • Все записи были оценены на качество, и были доставлены только проверенные записи речи с WER 90% и TER 90%.
  • Контрольный список качества:
       » Макс. 15 секунд длины сегмента
       » Транскрипция из определенных доменов, а именно: погода, различные типы новостей, здоровье, сельское хозяйство, образование, работа или финансы.
       » Низкий фоновый шум
       » No Audio clip off – Без искажений
       » Правильная сегментация аудио для транскрипции

4. Транскрипция данных
Все произнесенные слова, включая колебания, слова-паразиты, фальстарты и другие словесные тики, были точно зафиксированы в транскрипции. Мы также соблюдали подробные рекомендации по транскрипции заглавных и строчных букв, правописания, использования заглавных букв, аббревиатур, сокращений, цифр,
знаки препинания, аббревиатуры, нечеткая речь, неречевые шумы и т. д. Кроме того, рабочий процесс, используемый для сбора и транскрипции, выглядит следующим образом:

Результат

Высококачественные аудиоданные от опытных лингвистов позволят Индийскому технологическому институту в Мадрасе точно обучить и построить многоязычные модели распознавания речи на 8 индийских языках с разными диалектами в установленные сроки. Модели распознавания речи можно использовать для:

  • Преодолейте языковой барьер для цифровой интеграции, подключив граждан к инициативам на их родном языке.
  • Продвигает цифровое управление
  • Катализатор для формирования экосистемы услуг и продуктов на индийских языках
  • Более локализованный цифровой контент в областях, представляющих общественный интерес, в частности, в управлении и политике.
Золотой-5-звездочный

Мы были впечатлены опытом Шаипа в области диалогового ИИ. Их общая компетенция в выполнении проекта, включая поиск, сегментацию, расшифровку и предоставление необходимых обучающих данных от опытных лингвистов на 8 языках в строгие сроки и в соответствии с инструкциями; при сохранении приемлемого стандарта качества».

Ускорьте свой разговорный ИИ
разработка приложений на 100%

Избранные клиенты

Расширение возможностей команд для создания ведущих в мире продуктов искусственного интеллекта.