Пример использования музыкального ИИ

Сбор данных о вокальном пении

Коллекция аудиозаписей вокала для обучения алгоритму эквалайзера и сжатия: учет языкового и музыкального разнообразия

Коллекция аудиозаписей вокала

Обзор проекта

Shaip сотрудничал с ведущей технологической компанией для сбора разнообразных аудиозаписей пения на четырех приоритетных языках: китайском, арабском, испанском и русском. Целью проекта было предоставление высококачественных данных для обучения алгоритмов эквалайзера и сжатия на основе ИИ, которые необходимы для улучшения автоматизированной обработки звука.

В коллекцию вошли 40 участников (по 10 на каждом языке) разных жанров, при этом основное внимание уделялось записям студийного качества с использованием различных микрофонов и сред.

Аудиоколлекция пения

Основная статистика

4 языков: Китайский, арабский, испанский, русский

10 певца для
язык (всего 40)

20 часа of
поющий аудио

Формат аудио: 48 кГц PCM, моно, WAV

Аудио транскрипция на родных языках

Продолжительность проекта:
18 недель

Объем проекта

Сбор данных

Объем исследования включал коллекцию аудиозаписей пения на четырех целевых языках, записанных настоящими артистами в различных музыкальных жанрах. Для обеспечения высококачественных записей, подходящих для обучения моделей ИИ, использовалась студийная среда.

Основные требования

  • Участники: 10 певцов на каждом языке, со сбалансированным гендерным распределением (50% мужчин, 50% женщин).
  • Жанры: Разнообразие жанров, определяемых самим художником, подтвержденное последовательностью.
  • Среда записи: Студийное качество, с несколькими настройками микрофона (динамический, конденсаторный).
  • Формат аудио: Файлы 48 кГц PCM, моно, WAV, без обработки (например, без компрессии, эквалайзера, реверберации).
  • Транскрипция: Песни должны быть транскрибированы на том языке, на котором они исполняются, с особыми правилами для двуязычных песен.
  • Языки: Китайский, арабский, испанский, русский
  • транскрипция
    • Транскрипции должны быть предоставлены на языке записи (например, строки на хинди на деванагари, а затем на английском).
    • Для ясности и точности убедитесь, что длительность каждого сегмента не превышает 15 секунд.
  • Требования к аудиозаписи
    • Минимум 3 настройки микрофона за сеанс записи.
    • 3 минуты на песню, по 3 дубля на песню, что обеспечивает разную запись микрофонов для каждого участника.
    • Акустическая среда студийного качества без фонового шума.

Задачи

Разнообразие участников

Обеспечение сбалансированного распределения певцов по полу, тембру голоса и музыкальному жанру было сложной задачей.

Согласованность данных

Поддержание постоянных настроек микрофона и окружающей среды при записи разнообразных вокальных исполнений на разных языках.

Контроль качества звука

Обеспечение звука студийного качества без внешних шумов и точной транскрипции на нескольких языках.

Решение

Компания Shaip предоставила комплексное решение, отвечающее требованиям проекта:

  • Привлечение 40 певцов на четырех языках с обеспечением разнообразного представительства по полу, тону голоса и музыкальному стилю.
  • Проведение записей студийного качества с использованием различных типов микрофонов (динамических, конденсаторных) для захвата широкого спектра аудиоданных.
  • Точная транскрипция записей на используемых языках с соблюдением особых правил для двуязычных песен.
  • Согласие: Перед записью у всех участников будут собраны формы согласия.

Результат

Собранные разнообразные данные о пении позволили клиенту разработать надежный набор для обучения автоматизированных алгоритмов эквалайзера и сжатия, что повысило качество обработки звука. Высококачественные записи и подробные метаданные гарантировали, что модели ИИ смогут обрабатывать различные музыкальные жанры и лингвистические сложности. Ключевые результаты:

  • Высококачественные, разнообразные аудиоданные для обучения систем искусственного интеллекта.
  • Точная транскрипция и метаданные для анализа.
  • Более прочная основа для инструментов обработки звука на базе искусственного интеллекта.

Результат

  • 20 часов аудиозаписей студийного качества (48 кГц PCM, моно WAV-файлы).
  • Транскрипции на языке записи.
  • Метаданные: марка/модель микрофона, ЦАП/аудиоинтерфейс, профиль певца, информация о жанре.
  • Формат JSON для транскрипции с метаданными.

Способность Шаипа улавливать разнообразие музыкальных талантов и языковое богатство оказалась бесценной для разработки наших алгоритмов эквалайзера и компрессии. Их команда гарантировала, что каждый аспект, от подбора артистов до качества записи, был обработан с точностью, что сделало это важным шагом в совершенствовании наших автоматизированных систем обработки звука.

Мы искренне благодарны за доверие и сотрудничество, которые Шайп проявил на протяжении всего процесса. Несмотря на наши строгие и сложные технические требования, их преданность делу, упорный труд и внимание к деталям были выдающимися. Было приятно работать с командой, которая так стремится к достижению совершенства

Золотой-5-звездочный