AutoML и перспективные методы ИИ

Youtube:

Rutube: https://rutube.ru/video/5ba5d1a7ed4a0a6bbc656e607263e354/
VK Видео: https://vkvideo.ru/video-214877772_456239067
Презентация: https://t.me/rcppe/79?comment=96

Вебинар с интенсива курсов повышения квалификации Летней цифровой школы Сбера для преподавателей, трек Наука о данных.
Сбер, Центр Практического Искусственного Интеллекта (ЦПИИ)*
* ранее Лаборатория Искусственного Интеллекта

AutoML (автоматизированное машинное обучение) — это набор методов и инструментов, позволяющих автоматически настраивать и оптимизировать весь цикл машинного обучения, включая этапы обработки данных, выбора модели, настройки гиперпараметров и оценки качества.

Основная цель AutoML — минимизировать участие специалистов вручную в процессе создания моделей машинного обучения, делая этот процесс доступным даже пользователям без глубоких технических знаний.

▌ Ключевые аспекты AutoML:

1. Автоматическая обработка данных: Включает предварительную обработку данных (нормализацию, заполнение пропусков), выделение значимых признаков и преобразование данных в пригодный для моделирования вид.

2. Выбор алгоритма: Автоматическое определение наиболее подходящей модели (линейная регрессия, дерево решений, ансамблевые методы и др.) исходя из особенностей набора данных и поставленной задачи.

3. Настройка гиперпараметров: Процесс подбора наилучших гиперпараметров для выбранной модели, который осуществляется автоматически методами, такими как Grid Search, Randomized Search или Bayesian Optimization.

4. Оценка и сравнение моделей: Автоматическое проведение кросс-валидации, A/B-тестирования и других процедур для сравнения различных моделей и определения лучшей среди них.

5. Интерпретация и отчетность: Генерируются отчёты и метрики качества, позволяющие оценить производительность модели и принять решение о дальнейшем улучшении или внедрении.

▌ Преимущества AutoML:

- Ускоряет разработку моделей, сокращая время, затрачиваемое на рутинные операции.
- Повышает доступность технологий машинного обучения для широкого круга пользователей, снижая барьер входа.
- Улучшает точность моделей путём автоматического тестирования множества комбинаций настроек и архитектуры.
- Помогает избежать субъективизма и человеческого фактора при выборе и настройке моделей.

▌ Примеры платформ и библиотек AutoML:

- Google Cloud AutoML
- Microsoft Azure Machine Learning Studio
- H2O.ai Driverless AI
- DataRobot
- TPOT (Tree-based Pipeline Optimization Tool)
- auto-sklearn
- PyCaret
- LightAutoML (Lama)

Использование AutoML значительно упрощает работу специалистов по данным и открывает доступ к технологиям машинного обучения широкой аудитории, ускоряя внедрение инновационных решений в различные отрасли экономики.

LightAutoML (сокращенно LAMA) — это библиотека Python, разработанная Сбербанком, предназначенная для автоматизации процессов машинного обучения. Основная задача библиотеки — упростить создание, обучение и оценку моделей ML, предоставляя инструменты для автоматической предварительной обработки данных, выбора модели, настройки гиперпараметров и оценивания результатов.

▌ Особенности LightAutoML:

1. Простота использования: позволяет быстро построить модели машинного обучения с минимальным количеством строк кода, обеспечивая высокую скорость разработки прототипов.

2. Автоматическая предобработка данных: библиотека автоматически обрабатывает численные и категориальные признаки, нормализует данные, удаляет выбросы и проводит стандартизацию, что экономит значительное количество времени и усилий разработчиков.

3. Быстрая настройка гиперпараметров: используются продвинутые техники поиска оптимальных параметров, такие как Hyperopt, что существенно повышает качество конечной модели.

4. Поддержка популярных алгоритмов: LightAutoML поддерживает широкий спектр моделей, включая CatBoost, XGBoost, линейные модели и стекинг-модели, обеспечивая гибкость и возможность экспериментировать с различными архитектурами.

5. Интеграция с экосистемой Python: легко интегрируется с популярными инструментами анализа данных и машинного обучения, такими как Pandas, Scikit-Learn и Matplotlib.

6. Масштабируемость: благодаря использованию распределённых вычислений и поддержке параллельной обработки, LightAutoML подходит для работы с большими объемами данных и сложных вычислительных задач.

7. Открытый код: является открытым проектом, размещённым на GitHub, что позволяет сообществу вносить вклад в развитие и адаптацию инструмента под конкретные нужды.

▌ Применение LightAutoML:

- Быстрое создание базовых моделей для исследования данных и формирования гипотез.
- Простое развертывание решений на производственных системах.
- Оптимизация рабочего процесса аналитиков и инженеров данных, позволяющая сосредоточиться на ключевых аспектах проектов, а не на рутинных операциях.

Библиотека LightAutoML предназначена для тех, кто хочет ускорить свою работу с машинным обучением, сохраняя высокое качество итогового продукта.