Видео с конференции Data & Science, на котором эксперты рассказывают о своём опыте работы с большими данными, машинном обучении и их применении в науке, экономике и других сферах жизни.
Очень интересно первое выступление — Эмели Драль из Yandex Data Factory, рассказывает о подводных камнях, которые возникают при использовании машинного обучения в промышленности (выбор нефтяных скважин для гидроразрыва пласта, контроль разделения газа на фракции, предсказание дефектов в продуктах металлургического производства (слябах)).
Этапы проекта:
1. Постановка задачи
2. Определение метрик и критериев успеха
3. Оценка доступности данных
4. Обучение предсказательной модели
5. Тестирование модели (эксперимент)
6. Интеграция и поддержка
Правильная оценка экономической целесообразности — для этого нужно погружаться в предметную область, привлекая экспертов.
Очень важно правильно выбрать метрику, которую нужно оптимизировать.
Отсутствие данных для обучения (особый момент на который нужно обратить внимание: необходимо использовать только те данные, которые действительно доступны модели во время её работы).
Оценка применимости модели в бизнес-процессе (подходит ли горизонт прогнозирования для оптимизации процесса).
Правильное проведение A/B-тестирования (равномерное разделение данных на тестовую и контрольную выборки).
Адаптация модели для работы на новых данных (деградация модели).
Каждый пункт может привести к ошибке, но очень важно обратить внимание на возможность деградации модели. В этой особенности состоит важное отличие обычного программного обеспечения от использования моделей машинного обучения.
Модель машинного обучения со временем может начать хуже работать. Можно привести аналогию, что «модель — это некая живая сущность, которая питается данными», т.е. нужно держать её в состоянии, согласованном с текущим набором данных. Таким образом, получается, что модели со временем устаревают и поэтому их нужно периодически дообучать или переобучать.
Однако, важно следить за тем, чтобы эффект от перестроения модели на свежих данных был больше, чем затраты на этот процесс.
Среднее время проекта — 6-9 месяцев.
Много времени тратится на изучение предметной области.
Само моделирование занимает всего 30-40% времени.
далее: Как применять искусственный интеллект в бизнесе
По теме
Проблемы применения машинного обучения для решения реальных задач