AutoML и перспективные методы ИИ
Youtube:
Rutube: https://rutube.ru/video/5ba5d1a7ed4a0a6bbc656e607263e354/
VK Видео: https://vkvideo.ru/video-214877772_456239067
Презентация: https://t.me/rcppe/79?comment=96
Вебинар с интенсива курсов повышения квалификации Летней цифровой школы Сбера для преподавателей, трек Наука о данных.
Сбер, Центр Практического Искусственного Интеллекта (ЦПИИ)*
* ранее Лаборатория Искусственного Интеллекта
AutoML (автоматизированное машинное обучение) — это набор методов и инструментов, позволяющих автоматически настраивать и оптимизировать весь цикл машинного обучения, включая этапы обработки данных, выбора модели, настройки гиперпараметров и оценки качества.
Основная цель AutoML — минимизировать участие специалистов вручную в процессе создания моделей машинного обучения, делая этот процесс доступным даже пользователям без глубоких технических знаний.
▌ Ключевые аспекты AutoML:
1. Автоматическая обработка данных: Включает предварительную обработку данных (нормализацию, заполнение пропусков), выделение значимых признаков и преобразование данных в пригодный для моделирования вид.
2. Выбор алгоритма: Автоматическое определение наиболее подходящей модели (линейная регрессия, дерево решений, ансамблевые методы и др.) исходя из особенностей набора данных и поставленной задачи.
3. Настройка гиперпараметров: Процесс подбора наилучших гиперпараметров для выбранной модели, который осуществляется автоматически методами, такими как Grid Search, Randomized Search или Bayesian Optimization.
4. Оценка и сравнение моделей: Автоматическое проведение кросс-валидации, A/B-тестирования и других процедур для сравнения различных моделей и определения лучшей среди них.
5. Интерпретация и отчетность: Генерируются отчёты и метрики качества, позволяющие оценить производительность модели и принять решение о дальнейшем улучшении или внедрении.
▌ Преимущества AutoML:
- Ускоряет разработку моделей, сокращая время, затрачиваемое на рутинные операции.
- Повышает доступность технологий машинного обучения для широкого круга пользователей, снижая барьер входа.
- Улучшает точность моделей путём автоматического тестирования множества комбинаций настроек и архитектуры.
- Помогает избежать субъективизма и человеческого фактора при выборе и настройке моделей.
▌ Примеры платформ и библиотек AutoML:
- Google Cloud AutoML
- Microsoft Azure Machine Learning Studio
- H2O.ai Driverless AI
- DataRobot
- TPOT (Tree-based Pipeline Optimization Tool)
- auto-sklearn
- PyCaret
- LightAutoML (Lama)
Использование AutoML значительно упрощает работу специалистов по данным и открывает доступ к технологиям машинного обучения широкой аудитории, ускоряя внедрение инновационных решений в различные отрасли экономики.
LightAutoML (сокращенно LAMA) — это библиотека Python, разработанная Сбербанком, предназначенная для автоматизации процессов машинного обучения. Основная задача библиотеки — упростить создание, обучение и оценку моделей ML, предоставляя инструменты для автоматической предварительной обработки данных, выбора модели, настройки гиперпараметров и оценивания результатов.
▌ Особенности LightAutoML:
1. Простота использования: позволяет быстро построить модели машинного обучения с минимальным количеством строк кода, обеспечивая высокую скорость разработки прототипов.
2. Автоматическая предобработка данных: библиотека автоматически обрабатывает численные и категориальные признаки, нормализует данные, удаляет выбросы и проводит стандартизацию, что экономит значительное количество времени и усилий разработчиков.
3. Быстрая настройка гиперпараметров: используются продвинутые техники поиска оптимальных параметров, такие как Hyperopt, что существенно повышает качество конечной модели.
4. Поддержка популярных алгоритмов: LightAutoML поддерживает широкий спектр моделей, включая CatBoost, XGBoost, линейные модели и стекинг-модели, обеспечивая гибкость и возможность экспериментировать с различными архитектурами.
5. Интеграция с экосистемой Python: легко интегрируется с популярными инструментами анализа данных и машинного обучения, такими как Pandas, Scikit-Learn и Matplotlib.
6. Масштабируемость: благодаря использованию распределённых вычислений и поддержке параллельной обработки, LightAutoML подходит для работы с большими объемами данных и сложных вычислительных задач.
7. Открытый код: является открытым проектом, размещённым на GitHub, что позволяет сообществу вносить вклад в развитие и адаптацию инструмента под конкретные нужды.
▌ Применение LightAutoML:
- Быстрое создание базовых моделей для исследования данных и формирования гипотез.
- Простое развертывание решений на производственных системах.
- Оптимизация рабочего процесса аналитиков и инженеров данных, позволяющая сосредоточиться на ключевых аспектах проектов, а не на рутинных операциях.
Библиотека LightAutoML предназначена для тех, кто хочет ускорить свою работу с машинным обучением, сохраняя высокое качество итогового продукта.