Разговорный ИИ: автоматическое распознавание речи

Собрано более 8 тысяч аудиочасов, 800 часов расшифровано для многоязычной голосовой технологии

Введение

Индии нужна была платформа, которая бы сконцентрировалась на создании многоязычных наборов данных и языковых технологических решений на основе искусственного интеллекта, чтобы предоставлять цифровые услуги на индийских языках. Чтобы запустить эту инициативу, Клиент в партнерстве с Шаипом собрал и расшифровал индийский язык для создания многоязычных речевых моделей.

Объём

Часы сбора данных

Количество страниц с аннотациями

10 +

Продолжительность проекта

< 1 месяцев

Вызовы

Чтобы помочь клиенту с планом речевых технологий для индийских языков, команде необходимо было получить, сегментировать и расшифровать большие объемы обучающих данных для построения модели искусственного интеллекта. Критическими требованиями клиента были:

Сбор данных

Получите данные о 8000 часах обучения в отдаленных уголках Индии.
Поставщик по сбору спонтанной речи возрастных групп 20–70 лет.
Обеспечьте разнообразие говорящих по возрасту, полу, образованию и диалектам.
Каждая аудиозапись должна иметь частоту не менее 16 кГц и 16 бит/сэмпл.

Транскрипция данных

Следуйте подробным рекомендациям по транскрипции символов и специальных символов, орфографии и грамматики, использования заглавных букв, сокращений, сокращений, отдельных разговорных букв, цифр, знаков препинания, акронимов и инициализмов, сбивчивой речи, неразборчивой речи, нецелевых языков, неречи.

Проверка качества и обратная связь

Все записи должны пройти оценку качества и валидацию, доставляться должны только проверенные записи речи.

Решения

Благодаря нашему глубокому пониманию разговорного искусственного интеллекта мы помогли клиенту собрать и расшифровать аудиоданные с помощью команды опытных сборщиков, лингвистов и аннотаторов, чтобы создать большой массив аудиоданных из отдаленных частей Индии.

Объем работ Shaip включал, помимо прочего, получение больших объемов данных аудиообучения, расшифровку данных и доставку соответствующих файлов JSON, содержащих метаданные [как для докладчиков, так и для транскрибаторов. Для каждого говорящего метаданные включают в себя анонимный идентификатор говорящего, сведения об устройстве, демографическую информацию, такую как пол, возраст и образование, а также его пин-код, социально-экономический статус, языки, на которых он говорит, и запись о продолжительности его жизни. Для каждого транскрибатора данные включают анонимный идентификатор транскрибатора, демографические данные, аналогичные данным говорящих, продолжительность их опыта транскрибирования, а также тщательную разбивку языков, на которых они могут читать, писать и говорить.

Шаип собрал 8000 часов аудиоданных/спонтанной речи в масштабе и 800 часов расшифровки при сохранении желаемого уровня качества, необходимого для обучения речевых технологий для сложных проектов. Форма явного согласия была получена от каждого из участников. Собранная спонтанная речь была основана на изображениях, предоставленных университетом. Из 3500 изображения, 1000 являются общими и 2500 относятся к культуре, фестивалям и т. д. конкретного района. На изображениях изображены различные области, такие как вокзалы, рынки, погода и т. д.

Сбор данных

Область	Районы	Аудио Часы	транскрипция (Часы)
Бихар	Саран, Восточный Чампаран, Гопалгандж, Ситамархи, Самастипур, Дарбханга, Мадхепура, Бхагалпур, Гая, Кишангандж, Вайшали, Лакхисарай, Сахарса, Супаул, Арария, Бегусарай, Джаханабад, Пурния, Музафарпур, Джамуи	2000	200
Уттар-Прадеш	Деория, Варанаси, Горакхпур, Газипур, Муззафарнагар, Эта, Хамирпур, Джьотиба Пхуле Нагар, Будаун, Джалаун	1000	100
Раджастхан	Нагаур, Чуру	200	20
Уттаракханд	Техри Гарвал, Уттаркаши	200	20
Чхаттисгарх	Биласпур, Райгарх, Кабирдхам, Саргуджа, Корба, Джашпур, Раджнандгаон, Балрампур, Бастар, Сукма	1000	100
Западная Бенгалия	Пашим Мединипур, Мальда, Джалпайгури, Пурулия, Калькутта, Джарграм, Северный 24 Парганас, Дакшин Динаджпур	800	80
Джаркханд	Сахебгандж, Джамтара	200	20
AP	Гунтур, Читтур, Вишакхапатнам, Кришна, Анантапур, Шрикакулам	600	60
Telangana	Каримнагар, Налгонда	200	20
Гоа	Северный+Южный Гоа	100	10
Карнатака	Дакшин Каннада, Гулбарга, Дхарвад, Беллари, Майсур, Шимога, Биджапур, Белгаум, Райчур, Чамраджнагар	1000	100
Махараштра	Синдхудург, Дхуле, Нагпур, Пуна, Аурангабад, Чандрпур, Солапур	700	70
Всего		8000	800

Общие рекомендации

Формат

- Звук с частотой 16 кГц, 16 бит/отсчет.
- Один канал.
- Необработанный звук без перекодирования.

Стиль

- Спонтанная речь.
- Предложения на основе изображений, предоставленных университетом. Из 3500 изображений 1000 являются общими, а 2500 относятся к культуре конкретного района, фестивалям и т. д. Изображения изображают различные области, такие как вокзалы, рынки, погода и т. д.

Фон записи

- Записано в тихой обстановке без эха.
- Никаких помех смартфону (вибрация или уведомления) во время записи.
- Никаких искажений, таких как клиппирование или эффекты дальнего поля.
- Вибрации от телефона недопустимы; внешние вибрации терпимы, если звук чистый.

Спецификация динамика

- Возрастной диапазон от 20 до 70 лет со сбалансированным гендерным распределением по районам.
- Минимум 400 носителей языка в каждом округе.
- Выступающие должны использовать свой родной язык/диалект.
- Формы согласия обязательны для всех участников.

Проверка качества и критическая гарантия качества

В процессе обеспечения качества приоритет отдается обеспечению качества аудиозаписей и транскрипций. Стандарты аудио ориентированы на точную тишину, продолжительность сегмента, четкость звука одного динамика и подробные метаданные, включая возраст и социально-экономический статус. Критерии транскрипции подчеркивают точность тегов, достоверность слов и правильные детали сегмента. Критерий приемки предписывает, что если более 20% аудиопакета не соответствуют этим стандартам, он отклоняется. При расхождениях менее 20 % требуется замена записей с аналогичными профилями.

Транскрипция данных

Рекомендации по транскрипции подчеркивают точность и дословную транскрипцию только в том случае, если слова ясны и понятны; неясные слова помечаются как [неразборчиво] или [неразборчиво] в зависимости от проблемы. Границы предложений в длинных аудиозаписях отмечены значком , перефразирование и исправление грамматических ошибок не допускаются. Дословная транскрипция охватывает ошибки, жаргонизмы и повторы, но опускает фальстарты, звуки-вставки и заикания. Шумы фона и переднего плана транскрибируются с помощью описательных тегов, а имена собственные, названия и числа следуют определенным правилам транскрипции. Метки говорящих используются для каждого предложения, а неполные предложения отмечаются значком.

Рабочий процесс проекта

Рабочий процесс описывает процесс транскрипции аудио. Все начинается с адаптации и обучения участников. Они записывают звук с помощью приложения, которое загружается на платформу контроля качества. Этот звук проходит проверку качества и автоматическую сегментацию. Затем техническая команда готовит сегменты для транскрипции. После ручной транскрипции следует этап проверки качества. Транскрипции доставляются клиенту, и в случае их принятия доставка считается завершенной. В противном случае изменения вносятся на основе отзывов клиентов.

Результат

Высококачественные аудиоданные от опытных лингвистов позволят нашему клиенту точно обучить и построить многоязычные модели распознавания речи на различных индийских языках с разными диалектами в оговоренные сроки. Модели распознавания речи можно использовать для:

Преодолейте языковой барьер для цифровой интеграции, подключив граждан к инициативам на их родном языке.
Продвигает цифровое управление
Катализатор для формирования экосистемы услуг и продуктов на индийских языках
Более локализованный цифровой контент в областях, представляющих общественный интерес, в частности, в управлении и политике.

Мы в восторге от опыта Шаипа в области диалогового искусственного интеллекта. Задача обработки 8000 часов аудиоданных и 800 часов транскрипции в 80 различных районах была, мягко говоря, монументальной. Именно глубокое понимание Шаипом сложных деталей и нюансов этой области сделало возможным успешное выполнение такого сложного проекта. Их способность беспрепятственно управлять этим огромным объемом данных и ориентироваться в нем, обеспечивая при этом первоклассное качество, заслуживает похвалы.

Ускорьте свой разговорный ИИ
разработка приложений на 100%

Разговорный ИИ: автоматическое распознавание речи

Собрано более 8 тысяч аудиочасов, 800 часов расшифровано для многоязычной голосовой технологии

Введение

Объём

Вызовы

Сбор данных

Транскрипция данных

Проверка качества и обратная связь

Решения

Общие рекомендации

Проверка качества и критическая гарантия качества

Транскрипция данных

Рабочий процесс проекта

Результат

Службы данных AI

Специальность

Промышленный дизайн

Продукция

Компания

Полезные ресурсы

Свяжитесь с нами

Сообщите нам больше о себе!