Теперь получите 50% СКИДКА* на готовых наборах данных разговорного ИИ
Набор данных Speech & Audio для чат-ботов, голосовых помощников, устройств с поддержкой речи.
* Предложение на ограниченный период
Нам доверяют лидеры отрасли
Подробнее | Ключевое слово | Готовый набор языковых данных | Разговоры в колл-центре 8 кГц* | Общие диалоги 8 кГц* | Медиа и подкасты 16 кГц* | Высказывание/монолог по сценарию 16 кГц* | Общий объем в часах | Охваченные диалекты | Аудио форматы | Формат транскрипции текста | Кейсы | Источник | CTA |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Африкаанс | Набор аудиоданных для африкаанс | 600 | 900 | 1500 | Африкаанс, на котором говорят в Африке | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | |||
арабском | Арабский аудио набор данных | 800 | 1500 | 2300 | Арабский из стран Персидского залива | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | |||
Китайские | Китайский аудио набор данных | 2000 | 2000 | китайцы из китая | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | ||||
Датский | Датский аудио набор данных | 400 | 600 | 2000 | 3000 | Датский из Дании | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | ||
Голландский | Голландский набор аудиоданных | 2000 | 2000 | Голландец из Нидерландов | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | ||||
Английский – акцент AAVE | Английский — набор аудиоданных AAVE (афроамериканский разговорный английский) | 500 | 500 | 1000 | Народный вариант (иногда известный как AAVE, на котором обычно говорит подавляющее большинство афроамериканцев из рабочего и среднего класса) и более стандартный вариант (на котором обычно говорят афроамериканцы из среднего класса в формальных и общественных ситуациях), но с более сильным акцентом на просторечии. | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | |||
Английский – Бостонский/Нью-Йоркский акцент | Английский — Бостон/Нью-Йорк, набор аудиоданных | 225 | 225 | 350 | 800 | Это коллекция нескольких региональных акцентов, на которых говорят в городах Бостон, Нью-Йорк и Филадельфия и их окрестностях. Эти акценты могут звучать похоже на неместные, но отличаться от других американских акцентов. Несмотря на некоторую местную лексику, которая отличается от других частей англоязычного мира, эти акценты взаимно понятны с английским языком, на котором говорят в других местах. | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | ||
Английский – китайский акцент | Набор аудиоданных с английским и китайским акцентом | 150 | 300 | 450 | Носители, которые говорят на китайском как на своем родном языке и которые переехали/иммигрировали в Соединенные Штаты в подростковом/взрослом возрасте и выучили английский как второй язык. | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | |||
Английский с глубоким южным акцентом | Английский - Deep South Audio Dataset | 275 | 275 | 450 | 1000 | Спикеры из (i) Техаса; (ii) Северная Каролина, Южная Каролина, Джорджия; (iii) Новый Орлеан; (iv) Флорида попрошайничать; (v) Теннесси, Арканзас, Мичиган. | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | ||
Английский – латиноамериканский акцент | Английский – набор аудиоданных с латиноамериканским акцентом | 400 | 400 | 800 | Латиноамериканский английский относится к разновидностям американского английского, на котором говорят латиноамериканцы с разнообразным национальным наследием. Основное внимание уделялось американцам мексиканского происхождения, представителям разных национальностей (например, Мексики, Пуэрто-Рико, Доминиканской Республики, Эквадора, Кубы и т. д.), а также из разных регионов (например, Калифорнии, Нью-Йорка, Флориды). Среди спикеров были те, кто говорит на испанском как на родном языке, а также носители латиноамериканского происхождения, которые говорят, что испанский язык имеет наследие. | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | |||
Английский - новозеландский акцент | Английский – набор аудиоданных Новой Зеландии | 250 | 750 | 1000 | Говорящие на обоих островах, в том числе молодые носители (младше 40 лет) и пожилые носители (старше 40 лет) в равных пропорциях. | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | |||
Английский – сингапурский акцент | Английский — Сингапурский набор аудиоданных | 400 | 600 | 1000 | И стандартный сингапурский английский, и разговорный сингапурский английский. Сингапурцы разного этнического происхождения (например, китайцы, малайцы, индийцы и т. д.) и разного уровня образования. | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | |||
Английский - южноафриканский акцент | Английский – Южная Африка, набор аудиоданных | 400 | 600 | 1000 | Представители различных социально-экономических классов и этнического происхождения (например, южноафриканцы европейского, африканского, индийского или смешанного происхождения). | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | |||
английский – ирландский акцент | Английский — ирландский набор аудиоданных | 500 | 500 | Английский, на котором говорят в Ирландии | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | ||||
английский - шотландский акцент | Английский – шотландский набор аудиоданных | 800 | 800 | Английский, на котором говорят шотландцы | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | ||||
английский - валлийский акцент | Английский – валлийский набор аудиоданных | 800 | 800 | Валлийский английский | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | ||||
французский канадец | Французско-канадский набор аудиоданных | 1000 | 1000 | Канадский французский | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | ||||
древнееврейский | Набор аудиоданных на иврите | 750 | 750 | 1500 | Иврит в Израиле | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | |||
Индонезийский | Индонезийский аудио набор данных | 1000 | 1000 | 2000 | Индонезийский бахаса | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | |||
Японский | Японский аудио набор данных | 2000 | 2000 | Японец из Японии | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | ||||
Корейский | Корейский аудио набор данных | 100 | 200 | 1500 | 1800 | Ораторы распространились по всей Южной Корее. | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | ||
Malay | Малайский аудио набор данных | 500 | 500 | 1000 | Малайский в Малайзии | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | |||
Мексиканский испанский | Мексиканский испанский набор аудиоданных | 1250 | 1250 | Мексиканец из Мексики | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | ||||
Польский | Польский аудио набор данных | 250 | 2000 | 2250 | Польский из Польши | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | |||
Русский | Русский аудио набор данных | 2000 | 2000 | Русский из России | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | ||||
суахили | Набор аудиоданных на суахили | 350 | 650 | 1000 | Южноафриканский и кенийский суахили | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | |||
Шведский | Шведский набор аудиоданных | 350 | 650 | 1000 | Шведский в Швеции | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | |||
Тайваньский китайский | Тайваньский китайский набор аудиоданных | 1000 | 1000 | Китайцы из Тайваня | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | ||||
Тайский | Тайский аудио набор данных | 350 | 450 | 800 | Неофициальный регистр, используемый между друзьями, | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | |||
Турецкий | Турецкий набор аудиоданных | 2000 | 2000 | Турецкий из Турции | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | ||||
Вьетнамский | Вьетнамский набор аудиоданных | 600 | 400 | 1000 | Северный (например, Ханой), Центральный и Южный (например, Хошимин). | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | |||
Хинди | Хинди аудио набор данных | 800 | 2000 | 2800 | Хинди в Индии, особенно в северном, восточном и западном регионах. | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | |||
хинглиш | Индийский английский аудио набор данных | 300 | 500 | 800 | Собраны из городских городов Индии, которые являются финансовыми центрами страны из-за растущих экономических возможностей. Такими местами могут быть Нойда, Дели, Дехрадун, Чандигарх, Мумбаи, Калькутта, Бангалор, Пуна, Ченнаи, Хайдарабад и т. д. | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | |||
Английский | Английский аудио набор данных | 700 | 700 | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | |||||
каннады | Набор аудиоданных каннада | 60 | 100 | 40 | 200 | Каннада из Карнатаки, Индия | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | ||
Малайялам | Набор аудиоданных малаялам | 60 | 100 | 40 | 200 | Малаялам из Кералы, Лакшадвипа и Пудучерри | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | ||
Ория | Набор аудиоданных Ория | 60 | 100 | 40 | 200 | Ория из частей Одиши, Западной Бенгалии, Джаркханда и Чхаттисгарха. | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | ||
панджаби | Пенджабский аудио набор данных | 60 | 100 | 40 | 200 | Пенджаби из Пенджаба, Индия | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | ||
Тамильский | Тамил аудио набор данных | 60 | 100 | 240 | 400 | Тамильский из Тамил Наду, Индия | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | ||
Телугу | Набор аудиоданных телугу | 100 | 950 | 950 | 2000 | Телугу из Андхра-Прадеша, Индия | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | ||
Бенгальский | Бенгальский набор аудиоданных | 60 | 100 | 40 | 200 | Бенгалец из Западной Бенгалии, Индия | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | ||
Гуджарати | Набор аудиоданных гуджарати | 60 | 100 | 40 | 200 | Гуджарати из Гуджарата, Индия | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | ||
Маратхи | Набор аудиоданных маратхи | 60 | 100 | 40 | 200 | Маратхи из Махараштры, Индия | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты | ||
Ассамский | Ассамский аудио набор данных | 60 | 100 | 40 | 200 | Ассамец из Ассама, Индия | . Wav | .json | ASR, виртуальный помощник, чат-бот, разговорный ИИ, речевая аналитика, TTS, языковое моделирование | Шаип | Контакты Контакты |
Глубокий опыт в разговорном ИИ
Разговорный ИИ, чат-боты или виртуальные/цифровые помощники настолько умны, насколько умны технологии и данные, стоящие за ними. В Shaip мы предлагаем вам широкий набор диверсифицированных наборов аудиоданных для обработки естественного языка (NLP), которые имитируют разговоры с реальными людьми, что позволяет вам воплотить в жизнь свой ИИ. Благодаря нашему глубокому пониманию, мы помогаем вам создавать и локализовать речевые модели с поддержкой ИИ с максимальной точностью, используя обширные и структурированные наборы данных на нескольких языках со всего мира. Мы предлагаем услуги по сбору многоязычных аудиофайлов, аудиотранскрипции и аудиоаннотации в соответствии с вашими требованиями, полностью настраивая желаемое намерение, высказывания и демографическое распределение.
Сборник сценариев речи
Коллекция спонтанной речи
Транскрипция аудиоданных
Маркировка данных и аннотации
Shaip позволяет точно обучить вашу платформу разговорного ИИ, чтобы она могла:
- Беспрепятственно разговаривайте, отправляйте текстовые сообщения и общайтесь в чате по нескольким каналам.
- Учитесь на основе существующих взаимодействий в форме чата, голосовых расшифровок, транзакций и т. д. и предлагайте и общайтесь на основе этих знаний.
- Поймите намерение, стоящее за человеческой речью, и устраните двусмысленность в понимании человеческого языка.
- Взаимодействуйте с вами один на один и можете быть обучены идентифицировать пользователей и запоминать прошлые разговоры.
Мировой лидер в области разговорных данных для обучения искусственному интеллекту
Часы аудиоданных на более чем 100 языках - исходные, расшифрованные и аннотированные
Лицензирование речевых данных
Более 20 тысяч часов речевых данных на 40+ языках и диалектах, охватывающих более 55 тем из разных областей, например, колл-центр, дебаты, общие разговоры, выступления, подкасты и т. Д.
Сбор речевых данных
Собирайте аудио- и речевые данные (монолог, разговор между двумя людьми, чат между человеком и ботом) на более чем 2 языках со всего мира в соответствии с вашими требованиями к ИИ.
Транскрипция речевых данных
Экономичная транскрипция аудиозаписей или аннотации с помощью сильной команды из 30,000 сотрудников с гарантированным TAT, точностью и экономией
Ускорьте разработку разговорного AI-приложения с помощью Audio Collection и Audio Annotation Services
Преимущество Shaip
Масштаб
Мы можем создавать, масштабировать и доставлять аудиоданные со всего мира на нескольких языках и диалектах в соответствии с вашими требованиями.
Эксперты в своем деле
У нас есть необходимый опыт в области сбора точных и непредвзятых данных, транскрипции и аннотаций золотого стандарта.
Cеть
Сеть из 30,000+ квалифицированных участников, которым можно быстро назначить задачи по сбору данных для создания модели обучения ИИ и масштабируемых услуг.
Технологии
У нас есть полностью основанная на ИИ платформа с запатентованными инструментами и процессами для круглосуточного круглосуточного управления рабочим процессом.
проворство
Мы очень быстро адаптируемся к изменениям требований клиентов и помогаем ускорить разработку ИИ с помощью качественных речевых данных в 5-10 раз быстрее, чем у конкурентов.
Безопасность
Мы придаем первостепенное значение безопасности и конфиденциальности данных, а также имеем сертификаты для работы с конфиденциальными данными, которые строго регулируются.
Что мы делаем лучше всего
Данные обучения
Получите данные высочайшего качества за очень короткое время. Это золотой стандарт, надежность и готовность обучить ваши модели искусственного интеллекта и машинного обучения достижению высочайшего уровня производительности.
Сбор данных, маркировка и аннотации
С Shaip вы получите более 15 лет проверенного опыта в сборе, расшифровке и аннотировании качественных данных. Благодаря нашей глобальной рабочей силе мы можем собирать данные со всего мира, а затем предоставлять услуги маркировки и аннотации с идеальным уровнем навыков и знаний, необходимых для ваших данных.
Каталоги данных и лицензирование
Благодаря нашему обширному инвентарю из миллионов наборов данных вы можете собирать и систематизировать их по мере необходимости. Затем мы можем лицензировать эти качественные данные для ваших конкретных требований к использованию AI и ML. Кроме того, эти данные доступны за небольшую часть стоимости, если вы создадите их самостоятельно.
Хотите создать свой собственный набор данных?
Свяжитесь с нами сейчас, чтобы узнать, как мы можем собрать пользовательский набор данных для вашего уникального решения ИИ.