Составьте игру про поиск сокровищ. Исполните «Gangnam Style» в стиле Adele. Создайте фотореалистичное видео, как два пиратских корабля сражаются, плывя в чашке кофе. Современные инструменты ИИ позволяют реализовать всё это и даже больше всего за несколько минут, что делает ИИ похожим на современную магию.
Однако, это не волшебство. На самом деле, для создания моделей генеративного ИИ требуется огромное количество работы, инструкций и информации. AI-системы необходимо обучать, чтобы они могли распознавать паттерны в данных. Например, GPT-3, базовая модель ChatGPT, была обучена на 45 ТБ данных Common Crawl, что эквивалентно примерно 45 миллионам PDF-документов по 100 страниц каждый. Как и люди, AI-модели улучшаются при обучении, они лучше понимают и обрабатывают информацию, что позволяет им делать точные прогнозы и выполнять важные задачи.
Качество данных, вводимых в инструменты ИИ, играет решающую роль. Как же обеспечить высокое качество данных для построения успешных AI моделей? Рассмотрим это подробнее.
Риски использования некачественных данных
Хорошие данные должны быть точными, актуальными, полными, разнообразными и непредвзятыми. Они являются основой для принятия эффективных решений, организации оперативных процессов и ценных выводов AI. Но поддерживать высокое качество данных сложно. Одна из платформ для работы с данными провела опрос, который показал, что 91% профессионалов считают, что качество данных влияет на их организацию, однако только 23% считают, что у их организаций имеются высококачественные данные.
Некачественные данные часто содержат ограниченную и неполную информацию, не отражающую реальную картину, что приводит к предвзятым выводам и дискриминационным результатам. Например, автоматизированный инструмент найма, разработанный Amazon в 2014 году, дискриминировал женских кандидатов из-за данных, основанных на подавляющем большинстве мужчин-инженеров. Проект был свернут через год.
Также, например, чат-бот Tay от Microsoft стал известен благодаря оскорбительным высказываниям в соцсетях из-за некачественных данных, на которых он был обучен.
Как правильно обучать модель ИИ
Исследования показывают, что только 13% мировых компаний находятся в авангарде по готовности данных для ИИ. Для достижения успешных результатов ИИ, необходимо собирать полные и релевантные данные из надежных источников, очищать их от ошибок и несоответствий, точно маркировать и стандартизировать данные.
Начать следует с создания централизованного каталога данных, который включает информацию из различных хранилищ и отделов, организовав её в одном месте. Затем данные необходимо классифицировать и курировать, чтобы сделать их легко доступными и полезными для бизнес-пользователей. Инженеры должны внедрить надежную систему управления данными с регулярными оценками качества данных. Учёные по данным должны постоянно устранять ошибки и пропуски в наборах данных.
Отслеживание происхождения данных включает понимание их источника, этапов обработки и точек доступа. Это необходимо для обеспечения прозрачности и ответственности в случае возникновения проблем.
Обеспечение справедливости и безопасности данных
Сегодня личные запросы ИИ становятся аналогами конфиденциальных поисковых запросов. При этом пользователи не будут доверять свою частную информацию, если она будет передаваться или продаваться. Исследования Cisco показывают, что 60% потребителей беспокоятся о том, как организации используют их личные данные для ИИ, и почти две трети (65%) уже потеряли доверие к организациям из-за использования ИИ.
Важно обеспечить безопасность данных. Каждый при взаимодействии с ИИ-инструментами должен контролировать свои данные и быть уверенным в их безопасном использовании. Компании должны строить свои технологии на концепции «конфиденциальности по дизайну», собирая только необходимые данные, безопасно их храня и действуя прозрачно в отношении их использования.
Хорошим методом является анонимизация всех собираемых данных, позволяя их повторное использование для обучения моделей ИИ без компрометации конфиденциальности клиентов. Когда данные больше не нужны, их необходимо удалить, чтобы исключить риск утечек в будущем.
Соблюдение регуляторных требований
Соблюдение законодательных требований является приоритетом для любой организации. Например, в Европе GDPR требует, чтобы данные граждан ЕС хранились в Европейской экономической зоне. Это значит, что компании должны располагать дата-центрами в регионе, чтобы не нарушать закон.
Для соблюдения требований необходимо либо покупать хранилища данных в нужных регионах, либо сотрудничать со специализированными провайдерами, предлагающими дата-центры в стратегически важных местах. Модель «Суверенный ИИ», согласно Всемирному экономическому форуму, подразумевает наличие мощной цифровой инфраструктуры, где данные создаются, хранятся и обрабатываются локально, обеспечивая эффективное и соответствующее регулированиям развитие и развертывание AI-технологий.
Результаты могут быть не магическими, но они столь же впечатляющими.
Источник: TechRadar