Июль 18, 2023

За кулисами: изучение внутренней работы ChatGPT — часть 2

Добро пожаловать во вторую часть нашей увлекательной дискуссии с ChatGPT. в начальная часть нашего разговора, мы обсудили роль сбора данных, аннотации и важность человека в цикле в обучении языковых больших моделей. Теперь мы поговорим о проблемах, предубеждениях, с которыми приходится сталкиваться при обучении моделей ИИ, их применении и о том, как продвинутые модели ИИ влияют на людей в целом.

Да, автоматизация процесса аннотирования данных действительно может сократить время, затраты и потенциальные человеческие ошибки, связанные с ручным аннотированием. Это часто делается с помощью методов, известных как «автоматическая маркировка» или «полуконтролируемое обучение». Вот несколько стратегий автоматического комментирования:

Системы, основанные на правилах: Они включают создание определенных правил, которым машина следует для аннотирования данных. Например, правилом может быть пометка любого текста, похожего на адрес электронной почты (например, содержащего символ «@»), как «Электронная почта».
Модели машинного обучения: Предварительно обученные модели машинного обучения можно использовать для аннотирования новых данных. Например, предварительно обученная модель распознавания именованных объектов может использоваться для идентификации и маркировки объектов в тексте.
Активное изучение: В этом методе модель машинного обучения сначала обучается с небольшим набором аннотированных вручную данных. Затем модель аннотирует данные, в которых она наиболее уверена, и эти аннотации проверяются и исправляются аннотаторами-людьми. Модель переобучается с этим большим набором данных, и процесс повторяется.
Слабый надзор: Здесь для маркировки данных используются несколько слабых аннотаторов (которые могут быть системами на основе правил, краудсорсингом, эвристикой и т. д.). Хотя каждый слабый аннотатор несовершенен, их объединенные метки могут обеспечить хорошее приближение для обучения исходной модели.
Трансферное обучение: Этот подход использует модель, обученную одной задаче, и применяет ее к другой связанной задаче. Например, модель, обученная распознавать объекты на изображениях, может быть использована в качестве отправной точки для модели, предназначенной для распознавания определенных типов объектов.

Хотя автоматическое аннотирование может быть мощным инструментом, важно помнить, что оно не всегда идеально, а качество может варьироваться в зависимости от используемого метода и сложности задачи. Могут быть ошибки из-за предвзятости в начальных правилах или обучающем наборе, а сложные задачи часто по-прежнему требуют контроля со стороны человека. Таким образом, сочетание автоматизированного и ручного аннотирования (полуконтролируемое обучение) часто является лучшим подходом для больших и сложных наборов данных.

Сбор и аннотирование данных для проектов искусственного интеллекта и машинного обучения может вызвать ряд проблем, в том числе:

Разнообразие данных и репрезентативность: Обеспечение того, чтобы собранные данные охватывали различные сценарии и точно отображали реальные условия, является сложной задачей. Например, для модели распознавания изображений требуются изображения с разным освещением, ориентацией и фоном.
Конфиденциальность данных и этика: Уважение прав на неприкосновенность частной жизни и соблюдение этических норм при сборе данных имеет решающее значение. Анонимизация данных пациентов в ИИ для здравоохранения обеспечивает конфиденциальность без ущерба для его полезности для обучения моделей.
Качество данных: Необходимы высококачественные данные; зашумленные, нерелевантные или неверные данные могут негативно сказаться на производительности модели. Данные социальных сетей со сленгом, опечатками и непоследовательным использованием языка создают проблемы для обучения анализу настроений.
Качество и согласованность аннотаций: Обеспечение точных и последовательных аннотаций является сложной задачей. При классификации изображений разные аннотаторы, по-разному маркирующие один и тот же объект, могут запутать модель во время обучения.
Время и стоимость: Аннотирование вручную требует много времени и средств, особенно для больших наборов данных. Для обработки естественного языка аннотаторам требуется значительное время и лингвистические знания, чтобы понять контекст текста.
Масштабируемость: Масштабирование процесса аннотации при сохранении качества является сложной задачей. Языковые модели часто требуют миллиардов примеров, что требует координации между большой командой аннотаторов и обеспечения согласованности аннотаций.
Неоднозначность маркировки: Правильные ярлыки могут быть субъективными и открытыми для интерпретации. Аннотаторы могут иметь разные мнения о задачах анализа тональности, что приводит к присвоению разных меток одному и тому же тексту.
Конфиденциальные данные: Обращение с конфиденциальными данными, такими как медицинские или финансовые записи, требует дополнительных мер предосторожности. Аннотаторам может потребоваться специальное обучение или сертификация для надлежащей обработки этих данных и обеспечения их защиты.

Для решения этих проблем часто требуется сочетание хорошего планирования проекта, четких инструкций для сборщиков данных и аннотаторов, использования автоматизированных инструментов, где это возможно, и надежной системы контроля качества.

Предвзятость в обучающих данных является серьезной проблемой в машинном обучении, поскольку модели учатся на данных, на которых они обучаются. Если обучающие данные смещены, прогнозы модели также могут быть смещены. Вот несколько способов устранения предубеждений в процессе тонкой настройки:

Сбалансируйте набор данных: Настройте набор данных, чтобы иметь одинаковое представление разных классов.
Используйте алгоритмы уменьшения предвзятости: Используйте методы, предназначенные для уменьшения систематической ошибки в прогнозах модели.
Применить дифференциальную конфиденциальность: Добавьте шум к данным, чтобы защитить конфиденциальные атрибуты.
Выполните тонкую настройку модели с учетом смещения: Отрегулируйте модель с учетом смягчения смещения.
Используйте человеческий обзор и рекомендации: Рецензенты следуют рекомендациям, которые предписывают не отдавать предпочтение какой-либо группе во время тонкой настройки.
Установите непрерывный цикл обратной связи: Регулярное взаимодействие с рецензентами позволяет постоянно учиться и исправлять предвзятость.

Помните, что полностью устранить предвзятость сложно, но эти шаги могут помочь уменьшить ее.

Большие языковые модели имеют широкий спектр практического применения в различных отраслях:

Генерация контента: Они могут помочь в создании контента, такого как статьи, отчеты и электронные письма.
Обслуживание клиентов: Их можно использовать в чат-ботах и виртуальных помощниках для автоматизации поддержки клиентов.
Языковой перевод: Они могут помочь в переводе текста между разными языками.
Репетиторство: Они могут давать пояснения по разным предметам, помогая в учебе.
Написание кода: Они могут помочь в написании кода, помогая в разработке программного обеспечения.
Маркетинг и реклама: Они могут создавать креативный контент для маркетинговых кампаний.
Доступность: Они могут помочь в создании речи для приложений преобразования текста в речь.

Усовершенствованные модели ИИ могут изменить рынки труда несколькими способами:

Автоматизация работы: Рутинные и рутинные задачи, особенно в таких секторах, как производство, логистика и канцелярская работа, могут быть автоматизированы, что приведет к сокращению рабочих мест.
Создание новых рабочих мест: С положительной стороны, развитие ИИ создаст новые роли, которых раньше не существовало, например специалисты по ИИ, аналитики данных, инженеры по машинному обучению, а также роли в этике и политике ИИ.
Преобразование работы: Многие рабочие места будут преобразованы, а не упразднены, а ИИ возьмет на себя рутинные аспекты работы, освободив сотрудников, чтобы они могли сосредоточиться на более сложных и творческих задачах.
Изменение спроса на навыки: Будет расти спрос на цифровые навыки и понимание ИИ, что может привести к дефициту навыков в краткосрочной перспективе.

Таким образом, хотя ИИ, несомненно, изменит рынок труда, он также предоставит возможности для новых рабочих мест и повышения производительности.

Текущие модели искусственного интеллекта и машинного обучения, несмотря на их замечательные возможности, по-прежнему имеют ряд ограничений:

Недопонимание: Модели ИИ не понимают контекст или концепции так, как это делают люди. Они выявляют закономерности в данных, но не понимают лежащего в их основе смысла.
Зависимость данных: Они требуют больших объемов данных для обучения. Если данные необъективны, неполны или низкого качества, это может существенно повлиять на производительность модели.
Обобщение: Модели, обученные конкретным задачам или наборам данных, часто не могут обобщить свое обучение на новые, неизвестные сценарии.
Объяснимость: Часто трудно понять, почему определенные модели (особенно модели глубокого обучения) принимают определенные решения, что приводит к отсутствию прозрачности или интерпретируемости.
Надёжность: Модели ИИ могут быть чувствительны к незначительным изменениям входных данных (шум, искажения) и могут не работать надежно во всех условиях.
Этические проблемы: Приложения ИИ могут привести к проблемам с конфиденциальностью, потенциальному неправомерному использованию или непреднамеренной предвзятости, вызывая этические и юридические проблемы.

Вопрос о том, сможет ли ИИ когда-либо по-настоящему понимать контекст так же, как это делает человек, является сложным и включает в себя продолжающиеся споры о природе ИИ и сознания.

На момент прекращения моих знаний в сентябре 2021 года ИИ добился значительных успехов в понимании контекста, особенно с разработкой сложных языковых моделей, таких как GPT-3 и GPT-4. Эти модели могут генерировать человекоподобный текст на основе получаемых ими входных данных и их внутреннего понимания взаимосвязей между словами и понятиями.

Однако важно отметить, что это «понимание» отличается от человеческого понимания. Системы ИИ в том виде, в каком они существуют сейчас, не обладают сознанием, самосознанием или той же глубиной эмпирических знаний, которыми обладают люди. Они интерпретируют контекст, основываясь на шаблонах данных, а не на жизненном опыте или интуитивном понимании нюансов. Поэтому их понимание контекста в корне отличается от нашего.

Например, хотя ИИ может генерировать ответ на вопрос о личном опыте, такой как «Как вы себя чувствовали в первый день в школе?», он делает это на основе шаблонов данных, на которых он обучался, а не на каких-либо данных. личный опыт или эмоции, которые он имеет. У ИИ нет чувств или личного опыта.

Насчет будущего сложно сказать. Прогресс в исследованиях и разработках ИИ продолжается быстрыми темпами, но скачок от распознавания образов к подлинному человеческому пониманию и сознанию является масштабным, и мы еще не знаем, возможно ли это и как это будет достигнуто. Даже если системы ИИ станут более изощренными в интерпретации контекста, это не обязательно будет означать, что они будут понимать его как человек.

Хотя невозможно с уверенностью предсказать, эксперты в области искусственного интеллекта определили несколько областей, в которых в ближайшем будущем ожидаются значительные успехи, на момент прекращения моих знаний в сентябре 2021 года:

Улучшено понимание и генерация естественного языка: Более человекоподобный диалоговый ИИ и улучшенный автоматический перевод.
Справедливость, объяснимость и прозрачность ИИ: Методы для понимания процесса принятия решений ИИ, обеспечения справедливости и продвижения прозрачности.
ИИ в здравоохранении: Усовершенствованная диагностика заболеваний, прогнозирование результатов лечения пациентов и персонализированное лечение с помощью ИИ.
Обучение с подкреплением и общий ИИ: Более адаптируемые системы искусственного интеллекта, которые могут изучать различные задачи и адаптироваться к новым ситуациям.
ИИ и квантовые вычисления: Повышенная вычислительная мощность, позволяющая создавать более сложные модели и ускорять время обучения.
Федеративное обучение: Машинное обучение с сохранением конфиденциальности, которое обучает модели на нескольких устройствах без обмена данными.

Пожалуйста! Я рад, что смог вам помочь. Не стесняйтесь обращаться к нам, если у вас возникнут дополнительные вопросы в будущем. Хорошего дня!

Социальная Поделиться

Поговорить с экспертом

Имя*
Фамилия*
Эл. адрес*
Телефон*
Компания*
Страна*
Страна
Комментарии*
Регистрируясь, я соглашаюсь с Shaip Персональные данные и Условия Предоставления Услуг и даю свое согласие на получение маркетинговых сообщений B2B от Shaip.
ЗАЩИТНЫЙ

Скачать бесплатную книгу

Вам также может понравиться

За кулисами: изучение внутренней работы ChatGPT — часть 2

Социальная Поделиться

Поговорить с экспертом

За кулисами: изучение внутренней работы ChatGPT — часть 1

Что такое голосовой помощник? & Как Siri и Alexa понимают, что вы говорите?

Данные обучения распознаванию речи — типы, сбор данных и приложения

Службы данных AI

Специальность

Промышленный дизайн

Продукция

Компания

Полезные ресурсы

Свяжитесь с нами