Качество данных: невидимая угроза для машинного обучения

2fTNETW2pThAt9VGi9zXW8 1200 80

Основные задачи современного инженера по машинному обучению

Сначала может показаться, что ответ на вопрос о том, чем занимается современный инженер по машинному обучению, достаточно прост: строит модели и анализирует данные. Однако на практике этот ответ часто оказывается неверным.

Путь данных в успешном бизнесе

Эффективное использование данных необходимо для успешного современного бизнеса. Для того чтобы данные принесли ощутимые результаты, они должны пройти определенный путь: быть собранными, безопасно переданными и проанализированными. Рост облачных вычислений в середине 2000-х и внедрение машинного обучения в бизнесе спустя десятилетие помогли на начальных и завершающих этапах этого пути. Но на промежуточном этапе часто возникают проблемы с качеством данных, которые часто остаются незамеченными руководителями.

Реклама

Влияние низкого качества данных на бизнес

Низкое качество данных становится проблемой для тех, кто использует их в конце цикла — для создания моделей и других задач, приносящих прибыль. Часто нанимаются специалисты по данным, чтобы строить модели и анализировать данные, но плохое качество данных мешает им эффективно выполнять эту работу. В результате организации вкладывают значительные усилия в доступ к данным, не проверяя их качество. Если исходные данные некачественные, то и результаты моделирования будут неточными.

Чистка данных как основная задача

Считается, что 60-80% времени специалистов по данным уходит на очистку данных, чтобы их результаты были надежными. Этот процесс включает в себя угадывание смысла данных, заполнение пробелов и иногда удаление потенциально ценной информации. Это приводит к раздражению и снижению эффективности, так как специалисты не могут полноценно решать бизнес-задачи.

Влияние качества данных на машинное обучение

Чистые данные особенно важны для проектов в области машинного обучения. Постоянная оценка моделей на новых данных — ключевая часть жизненного цикла машинного обучения. Отсюда возникает необходимость управления изменением данных, чтобы модели оставались эффективными и приносили пользу бизнесу.

Препятствия при построении моделей

Включение бизнес-пользователей в процесс работы с данными стало возможным благодаря ИИ. Обработка естественного языка позволяет нетехническим пользователям легко запрашивать данные и получать инсайты. Прогнозируемые темпы роста ИИ говорят об его важности для бизнеса, и значительная часть будущей прибыли будет зависеть от его применения.

Качество данных — основа ИИ. Оно улучшает работу алгоритмов, позволяя им делать более точные прогнозы и рекомендации. Плохо выполненные проекты ИИ, как правило, связаны с низким качеством данных. Компании, которые уделяют внимание качеству данных, получают более высокую эффективность.

Как преодолеть барьеры качества данных

Организации должны постоянно проверять данные на наличие проблем, вовлекая всех заинтересованных лиц и назначая ответственных за данные. Так инженеры по машинному обучению смогут, наконец, с гордостью заявить, что они строят модели и анализируют данные.


Эта статья была подготовлена в рамках каналов экспертных мнений TechRadarPro, где представлены лучшие и самые яркие умы в индустрии технологий. Высказанные мнения принадлежат автору и не обязательно отражают позицию TechRadarPro.

Источник: TechRadar

Добавить комментарий

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Будьте в курсе самых важных событий

Нажимая кнопку "Подписаться", вы подтверждаете, что ознакомились с нашими условиями и соглашаетесь с ними. Политика конфиденциальности и Условия использования
Реклама