Москвин Александр
- Этап создания скрипта data_creation.py:
- Импортируем необходимые библиотеки (numpy, pandas, matplotlib, seaborn)
- Создаем функцию generate_data, которая создает наборы данных каждый набор - это таблица с колонками, содержащими значения отчетности за определенный период времени. В каждом наборе данных также могут быть включены аномалии или шумы.
- Разбиваем полученные данные на две части: обучающую (train) и тестовую (test) в отношении примерно 80% на 20%. Сохраняем эти наборы данных в соответствующих директориях.
- Функцией plot_data строим графики для каждого набора данных.
- Этап создания скрипта model_preprocessing.py:
- Импортируем необходимые библиотеки (sklearn.preprocessing)
- Создаем функцию preprocess_data, которая выполняет предобработку данных, например, стандартизацию с помощью StandardScaler.
- Этап создания скрипта model_preparation.py:
- Импортируем необходимые библиотеки (numpy, pandas, sklearn)
- Загружаем обучающий набор данных из директории "train".
- Выполняем предобработку данных с помощью функции preprocess_data, которую написали на предыдущем этапе.
- Создаем модель машинного обучения, используя любой из доступных алгоритмов обучения, которые поддерживает библиотека Scikit-learn.
- Обучаем модель на обучающем наборе данных.
- Сохраняем полученную модель в директории "model".
- Этап создания скрипта model_testing.py:
- Импортируем необходимые библиотеки (numpy, pandas, matplotlib)
- Загружаем тестовый набор данных из директории "test".
- Загружаем сохраненную модель из директории "model".
- Выполняем предобработку данных с помощью функции preprocess_data из скрипта model_preprocessing.py.
- Далее, на основе полученной модели, проводим тестирование на тестовом наборе данных.
- Считаем среднеквадратичное отклонение для всех предсказаний и выводим на экран график, на котором отображены реальные и предсказанные значения.
- Создание bash-скрипта pipeline.sh:
- Создаем bash скрипт, который последовательно запускает python скрипты в нужном порядке: data_creation.py -> model_preprocessing.py -> model_preparation.py -> model_testing.py.
- Внутри скрипта pipeline.sh вызываем функции из всех выше перечисленных скриптов.
- Сделаем также вывод графиков, которые построили на этапах 1 и 4, например, с использованием библиотеки matplotlib.pyplot.