Пример использования: разговорный ИИ

Более 3 8 часов данных, собранных, сегментированных и транскрибированных для создания ASR на XNUMX индийских языках

Правительство стремится предоставить своим гражданам легкий доступ к Интернету и цифровым услугам на их родном языке с помощью проекта Bhashini.

BHASHINI, индийская платформа языкового перевода на основе искусственного интеллекта, является важной частью инициативы Digital India.

Платформа Bhashini, предназначенная для предоставления инструментов искусственного интеллекта (ИИ) и обработки естественного языка (NLP) для ММСП, стартапов и независимых новаторов, служит общедоступным ресурсом. Его цель — способствовать цифровому охвату, позволяя гражданам Индии взаимодействовать с цифровыми инициативами страны на своих родных языках.

Кроме того, он направлен на значительное расширение доступности интернет-контента на индийских языках. Это особенно нацелено на области, представляющие общественный интерес, такие как управление и политика, наука и технологии и т. д. Следовательно, это будет стимулировать граждан использовать Интернет на своем родном языке, способствуя их активному участию.

Используйте НЛП, чтобы обеспечить разнообразную экосистему участников, партнерских организаций и граждан с целью преодоления языковых барьеров, тем самым обеспечивая доступ к цифровым технологиям и расширение их возможностей.

Реальное решение мира

Раскрытие возможностей локализации с помощью данных

Индии нужна была платформа, которая сосредоточилась бы на создании многоязычных наборов данных и языковых технологических решений на основе искусственного интеллекта для предоставления цифровых услуг на индийских языках. Чтобы запустить эту инициативу, Индийский технологический институт в Мадрасе (IIT Madras) сотрудничал с Shaip для сбора, сегментации и расшифровки наборов данных на индийском языке для создания многоязычных речевых моделей.

Вызовы

Чтобы помочь клиенту с дорожной картой речевых технологий для индийских языков, команде необходимо было собрать, сегментировать и расшифровать большие объемы обучающих данных для построения модели ИИ. Критическими требованиями заказчика были:

Сбор данных

Получите 3000 часов обучающих данных на 8 индийских языках с 4 диалектами на каждом языке.
Для каждого языка поставщик будет собирать Extempore Speech и
Разговорная речь в возрастных группах 18-60 лет
Обеспечьте разнообразный состав говорящих по возрасту, полу, образованию и диалектам.
Обеспечьте разнообразное сочетание сред записи в соответствии со спецификациями.
Каждая аудиозапись должна быть не менее 16 кГц, но предпочтительно 44 кГц.

Сегментация данных

Создавайте речевые сегменты по 15 секунд и добавляйте временные метки аудио к миллисекундам для каждого заданного говорящего, типа звука (речь, лепет, музыка, шум), поворотов, высказываний и фраз в разговоре.
Создайте каждый сегмент для целевого звукового сигнала с отступом в 200–400 миллисекунд в начале и в конце.
Для всех сегментов должны быть заполнены следующие объекты: время начала, время окончания, идентификатор сегмента, уровень громкости, тип звука, код языка, идентификатор динамика и т. д.

Транскрипция данных

Следуйте подробным инструкциям по транскрипции символов и специальных символов, правописания и грамматики, использования заглавных букв, сокращений, сокращений, отдельных произносимых букв, цифр, знаков препинания, акронимов, дисфлюэнтных, речи, неразборчивой речи, нецелевых языков, неречевых и т. д.

Проверка качества и обратная связь

Все записи должны пройти оценку качества и проверку, должна быть произнесена только проверенная речь

Решения

Благодаря нашему глубокому пониманию разговорного ИИ мы помогли клиенту собрать, сегментировать и расшифровать данные вместе с командой опытных сборщиков, лингвистов и аннотаторов для создания большого корпуса аудиоданных на 8 индийских языках.

Объем работы для Shaip включал, но не ограничивался сбором больших объемов данных аудиотренировок, сегментированием аудиозаписей на несколько частей, расшифровкой данных и доставкой соответствующих файлов JSON, содержащих метаданные [SpeakerID, Age, Gender, Language, Dialect,
Родной язык, квалификация, род занятий, домен, формат файла, частота, канал, тип звука, количество говорящих, количество иностранных языков, используемая настройка, узкополосный или широкополосный звук и т. д.].

Shaip собрал 3000 часов аудиоданных в масштабе, сохранив при этом желаемый уровень качества, необходимый для обучения технологии речи для сложных проектов. Форма явного согласия была взята у каждого из участников.

1. Сбор информации

2. Сегментация данных

Собранные аудиоданные были далее разделены на речевые сегменты по 15 секунд каждый и привязаны к миллисекундам для каждого заданного говорящего, типа звука, оборотов, высказываний и фраз в разговоре.
Создал каждый сегмент для своего целевого звукового сигнала с отступом в 200-400 миллисекунд в начале и в конце звукового сигнала.
Для всех сегментов присутствовали и были заполнены следующие объекты: время начала, время окончания, идентификатор сегмента, уровень громкости (громко, нормально, тихо), основной тип звука (речь, лепет, музыка, шум, перекрытие), код языка. удостоверение личности, транскрипция и т. д.

3. Проверка качества и обратная связь

Все записи были оценены на качество, и были доставлены только проверенные записи речи с WER 90% и TER 90%.
Контрольный список качества:
» Макс. 15 секунд длины сегмента
» Транскрипция из определенных доменов, а именно: погода, различные типы новостей, здоровье, сельское хозяйство, образование, работа или финансы.
» Низкий фоновый шум
» No Audio clip off – Без искажений
» Правильная сегментация аудио для транскрипции

4. Транскрипция данных
Все произнесенные слова, включая колебания, слова-паразиты, фальстарты и другие словесные тики, были точно зафиксированы в транскрипции. Мы также соблюдали подробные рекомендации по транскрипции заглавных и строчных букв, правописания, использования заглавных букв, аббревиатур, сокращений, цифр,
знаки препинания, аббревиатуры, нечеткая речь, неречевые шумы и т. д. Кроме того, рабочий процесс, используемый для сбора и транскрипции, выглядит следующим образом:

Результат

Высококачественные аудиоданные от опытных лингвистов позволят Индийскому технологическому институту в Мадрасе точно обучить и построить многоязычные модели распознавания речи на 8 индийских языках с разными диалектами в установленные сроки. Модели распознавания речи можно использовать для:

Преодолейте языковой барьер для цифровой интеграции, подключив граждан к инициативам на их родном языке.
Продвигает цифровое управление
Катализатор для формирования экосистемы услуг и продуктов на индийских языках
Более локализованный цифровой контент в областях, представляющих общественный интерес, в частности, в управлении и политике.

Мы были впечатлены опытом Шаипа в области диалогового ИИ. Их общая компетенция в выполнении проекта, включая поиск, сегментацию, расшифровку и предоставление необходимых обучающих данных от опытных лингвистов на 8 языках в строгие сроки и в соответствии с инструкциями; при сохранении приемлемого стандарта качества».

Ускорьте свой разговорный ИИ
разработка приложений на 100%

Избранные клиенты

Расширение возможностей команд для создания ведущих в мире продуктов искусственного интеллекта.

Пример использования: разговорный ИИ

Более 3 8 часов данных, собранных, сегментированных и транскрибированных для создания ASR на XNUMX индийских языках

Реальное решение мира

Вызовы

Решения

Результат

Избранные клиенты

Службы данных AI

Специальность

Промышленный дизайн

Продукция

Компания

Полезные ресурсы

Свяжитесь с нами

Сообщите нам больше о себе!