Пример использования: разговорный ИИ
Более 3 8 часов данных, собранных, сегментированных и транскрибированных для создания ASR на XNUMX индийских языках
BHASHINI, индийская платформа языкового перевода на основе искусственного интеллекта, является важной частью инициативы Digital India.
Платформа Bhashini, предназначенная для предоставления инструментов искусственного интеллекта (ИИ) и обработки естественного языка (NLP) для ММСП, стартапов и независимых новаторов, служит общедоступным ресурсом. Его цель — способствовать цифровому охвату, позволяя гражданам Индии взаимодействовать с цифровыми инициативами страны на своих родных языках.
Кроме того, он направлен на значительное расширение доступности интернет-контента на индийских языках. Это особенно нацелено на области, представляющие общественный интерес, такие как управление и политика, наука и технологии и т. д. Следовательно, это будет стимулировать граждан использовать Интернет на своем родном языке, способствуя их активному участию.
Используйте НЛП, чтобы обеспечить разнообразную экосистему участников, партнерских организаций и граждан с целью преодоления языковых барьеров, тем самым обеспечивая доступ к цифровым технологиям и расширение их возможностей.
Реальное решение мира
Раскрытие возможностей локализации с помощью данных
Индии нужна была платформа, которая сосредоточилась бы на создании многоязычных наборов данных и языковых технологических решений на основе искусственного интеллекта для предоставления цифровых услуг на индийских языках. Чтобы запустить эту инициативу, Индийский технологический институт в Мадрасе (IIT Madras) сотрудничал с Shaip для сбора, сегментации и расшифровки наборов данных на индийском языке для создания многоязычных речевых моделей.
Вызовы
Чтобы помочь клиенту с дорожной картой речевых технологий для индийских языков, команде необходимо было собрать, сегментировать и расшифровать большие объемы обучающих данных для построения модели ИИ. Критическими требованиями заказчика были:
Сбор данных
- Получите 3000 часов обучающих данных на 8 индийских языках с 4 диалектами на каждом языке.
- Для каждого языка поставщик будет собирать Extempore Speech и
Разговорная речь в возрастных группах 18-60 лет - Обеспечьте разнообразный состав говорящих по возрасту, полу, образованию и диалектам.
- Обеспечьте разнообразное сочетание сред записи в соответствии со спецификациями.
- Каждая аудиозапись должна быть не менее 16 кГц, но предпочтительно 44 кГц.
Сегментация данных
- Создавайте речевые сегменты по 15 секунд и добавляйте временные метки аудио к миллисекундам для каждого заданного говорящего, типа звука (речь, лепет, музыка, шум), поворотов, высказываний и фраз в разговоре.
- Создайте каждый сегмент для целевого звукового сигнала с отступом в 200–400 миллисекунд в начале и в конце.
- Для всех сегментов должны быть заполнены следующие объекты: время начала, время окончания, идентификатор сегмента, уровень громкости, тип звука, код языка, идентификатор динамика и т. д.
Транскрипция данных
- Следуйте подробным инструкциям по транскрипции символов и специальных символов, правописания и грамматики, использования заглавных букв, сокращений, сокращений, отдельных произносимых букв, цифр, знаков препинания, акронимов, дисфлюэнтных, речи, неразборчивой речи, нецелевых языков, неречевых и т. д.
Проверка качества и обратная связь
- Все записи должны пройти оценку качества и проверку, должна быть произнесена только проверенная речь
Решение
Благодаря нашему глубокому пониманию разговорного ИИ мы помогли клиенту собрать, сегментировать и расшифровать данные вместе с командой опытных сборщиков, лингвистов и аннотаторов для создания большого корпуса аудиоданных на 8 индийских языках.
Объем работы для Shaip включал, но не ограничивался сбором больших объемов данных аудиотренировок, сегментированием аудиозаписей на несколько частей, расшифровкой данных и доставкой соответствующих файлов JSON, содержащих метаданные [SpeakerID, Age, Gender, Language, Dialect,
Родной язык, квалификация, род занятий, домен, формат файла, частота, канал, тип звука, количество говорящих, количество иностранных языков, используемая настройка, узкополосный или широкополосный звук и т. д.].
Shaip собрал 3000 часов аудиоданных в масштабе, сохранив при этом желаемый уровень качества, необходимый для обучения технологии речи для сложных проектов. Форма явного согласия была взята у каждого из участников.
1. Сбор информации