Пример использования музыкального ИИ
Сбор данных о вокальном пении
Коллекция аудиозаписей вокала для обучения алгоритму эквалайзера и сжатия: учет языкового и музыкального разнообразия
Обзор проекта
Shaip сотрудничал с ведущей технологической компанией для сбора разнообразных аудиозаписей пения на четырех приоритетных языках: китайском, арабском, испанском и русском. Целью проекта было предоставление высококачественных данных для обучения алгоритмов эквалайзера и сжатия на основе ИИ, которые необходимы для улучшения автоматизированной обработки звука.
В коллекцию вошли 40 участников (по 10 на каждом языке) разных жанров, при этом основное внимание уделялось записям студийного качества с использованием различных микрофонов и сред.
Основная статистика
4 языков: Китайский, арабский, испанский, русский
10 певца для
язык (всего 40)
20 часа of
поющий аудио
Формат аудио: 48 кГц PCM, моно, WAV
Аудио транскрипция на родных языках
Продолжительность проекта:
18 недель
Объем проекта
Сбор данных
Объем исследования включал коллекцию аудиозаписей пения на четырех целевых языках, записанных настоящими артистами в различных музыкальных жанрах. Для обеспечения высококачественных записей, подходящих для обучения моделей ИИ, использовалась студийная среда.
Основные требования
- Участники: 10 певцов на каждом языке, со сбалансированным гендерным распределением (50% мужчин, 50% женщин).
- Жанры: Разнообразие жанров, определяемых самим художником, подтвержденное последовательностью.
- Среда записи: Студийное качество, с несколькими настройками микрофона (динамический, конденсаторный).
- Формат аудио: Файлы 48 кГц PCM, моно, WAV, без обработки (например, без компрессии, эквалайзера, реверберации).
- Транскрипция: Песни должны быть транскрибированы на том языке, на котором они исполняются, с особыми правилами для двуязычных песен.
- Языки: Китайский, арабский, испанский, русский
- транскрипция
- Транскрипции должны быть предоставлены на языке записи (например, строки на хинди на деванагари, а затем на английском).
- Для ясности и точности убедитесь, что длительность каждого сегмента не превышает 15 секунд.
- Требования к аудиозаписи
- Минимум 3 настройки микрофона за сеанс записи.
- 3 минуты на песню, по 3 дубля на песню, что обеспечивает разную запись микрофонов для каждого участника.
- Акустическая среда студийного качества без фонового шума.
Задачи
Обеспечение сбалансированного распределения певцов по полу, тембру голоса и музыкальному жанру было сложной задачей.
Поддержание постоянных настроек микрофона и окружающей среды при записи разнообразных вокальных исполнений на разных языках.
Обеспечение звука студийного качества без внешних шумов и точной транскрипции на нескольких языках.
Решение
Компания Shaip предоставила комплексное решение, отвечающее требованиям проекта:
- Привлечение 40 певцов на четырех языках с обеспечением разнообразного представительства по полу, тону голоса и музыкальному стилю.
- Проведение записей студийного качества с использованием различных типов микрофонов (динамических, конденсаторных) для захвата широкого спектра аудиоданных.
- Точная транскрипция записей на используемых языках с соблюдением особых правил для двуязычных песен.
- Согласие: Перед записью у всех участников будут собраны формы согласия.
Результат
Собранные разнообразные данные о пении позволили клиенту разработать надежный набор для обучения автоматизированных алгоритмов эквалайзера и сжатия, что повысило качество обработки звука. Высококачественные записи и подробные метаданные гарантировали, что модели ИИ смогут обрабатывать различные музыкальные жанры и лингвистические сложности. Ключевые результаты:
- Высококачественные, разнообразные аудиоданные для обучения систем искусственного интеллекта.
- Точная транскрипция и метаданные для анализа.
- Более прочная основа для инструментов обработки звука на базе искусственного интеллекта.
Результат
- 20 часов аудиозаписей студийного качества (48 кГц PCM, моно WAV-файлы).
- Транскрипции на языке записи.
- Метаданные: марка/модель микрофона, ЦАП/аудиоинтерфейс, профиль певца, информация о жанре.
- Формат JSON для транскрипции с метаданными.
Способность Шаипа улавливать разнообразие музыкальных талантов и языковое богатство оказалась бесценной для разработки наших алгоритмов эквалайзера и компрессии. Их команда гарантировала, что каждый аспект, от подбора артистов до качества записи, был обработан с точностью, что сделало это важным шагом в совершенствовании наших автоматизированных систем обработки звука.
Мы искренне благодарны за доверие и сотрудничество, которые Шайп проявил на протяжении всего процесса. Несмотря на наши строгие и сложные технические требования, их преданность делу, упорный труд и внимание к деталям были выдающимися. Было приятно работать с командой, которая так стремится к достижению совершенства