Прогнозирование качества извлечение оксида железа из руды с помощью машинного обучения

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

Ссылка на репозиторий GitHub.

О себе

Здравствуйте, меня зовут Ыдырыс Олжас. Учусь на 3 курсе в Национальном исследовательском технологическом университете “МИСИС” по специальности металлургия, но также в свободное время я изучаю Data Science. Данный проект я реализовал, чтобы показать насколько эффективно можно применять методы машинного обучения для оптимизации и улучшения металлургических процессов. Так что давайте я начну с маленькой теоретического введения.

Примечание: Не всегда легко найти базы данных реальных производственных предприятий, особенно металлургических. Надеюсь что данная статья поможет развитию такого узкого направления и крупные предприятия начнут выкладывать данные для учебной практики.

Введение

Железные руды - это горные породы и минералы, из которых можно экономично извлечь металлическое железо. Кремнезем является основной примесью в железной руде. Высокое ее содержание может привести к большому объему шлака. Это, в свою очередь, приводит загрязнению окружающей среды. Прогнозируя содержание примеси в руде, мы можем помочь инженерам на заводе проводить необходимые расчеты на ранних стадиях производства.

Прогнозирование содержания кремнезема включает в себя множество химических анализов, которые отнимают много времени и требуют больших операционных затрат. Использование ML-моделей упростит наш процесс, решив все наши проблемы одним махом...

Данные

Данные были получены на сайте Kaggle.

# Выводим информацию о датафрейме
df.info()

Второй и третий столбец - это показатели качества железорудной пульпы непосредственно перед ее подачей на флотационную установку. Столбцы с четвертого по восьмой - это наиболее важные переменные, которые влияют на качество исходной продукции в конце процесса. С столбца 9 по столбец 22 мы можем видеть данные процесса (уровень и поток воздуха внутри флотационных колонн, которые также влияют на качество процесса. Последние два столбца - это окончательные измерения качества пульпы железной руды, полученные в лаборатории. Цель - предсказать последний столбец, который представляет собой процент кремнезема в железорудном концентрате.

Разведочный анализ данных

Разведочный анализ данных (EDA) - это подход к анализу наборов данных для обобщения их основных характеристик, часто с использованием визуальных методов.

# Выводим статистическую информацию
df.describe()

В первую очередь я рассмотрел статистическую информацию для этого я применил метод df.describe(). Из выведенного столбца мы можем увидеть что максимальный процент кремнезема после флотации равно 5.5%, а минимальное 0.6%. Процент железного концентрата после флотации 62-68%.

Гистограмма столбцов

С помощью гистограмм мы можем более наглядно увидеть статистическую информацию.

df.hist(figsize= (20,20))
plt.show("png")

Матрица корреляций

Коэффициент корреляции характеризует величину отражающую степень взаимосвязи двух переменных между собой. Из этой диаграммы можно сделать вывод, что существует взаимосвязь между железным сырьем и кремнеземом. Также существует связь между концентратом кремнезема и концентратом железа.

plt.figure(figsize=(18,18))
sns.heatmap(df.corr(), annot=True)
plt.show("png")

Строим и оцениваем модель

В этом практическом проекте я буду использовать LightGBM и Optuna для лучшей эффективности модели. Также для оценки модели я и использовал перекрестную проверку, что поможет мне избежать переобучения модели.

LightGBM

LightGBM — это фреймворк, который предоставляет реализацию деревьев принятия решений с градиентным бустингом. Он создан группой исследователей и разработчиков Microsoft. Основные преимуществами:

Более высокая скорость обучения и высокая эффективность.
Меньшее использование памяти.
Более высокая точность.
Поддержка параллельного, распределенного и GPU-обучения.
Возможность работы с большими объемами данных.

Optuna

Optuna - это программный фреймворк для автоматической оптимизации гиперпараметров, разработанный специально для машинного обучения.

Масштабируемость
Параллелизация вычислении
Быстрая визуализация

from optuna.integration import LightGBMPruningCallback
import optuna
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import KFold
import lightgbm as lgbm

EPS = 1e-8

# Создаем функцию objective для optuna
def objective(trial, X, y):
  
    # Параметры обучения
    param_grid = {
    "verbosity": -1,
    "boosting_type": "gbdt",
    "n_estimators": trial.suggest_categorical("n_estimators", [10000]),
    "learning_rate": trial.suggest_categorical("learning_rate", [0.0125, 0.025, 0.05, 0.1]),
    "num_leaves": trial.suggest_int("num_leaves", 2, 2048),
    "max_depth": trial.suggest_int("max_depth", 3, 12),
    "min_data_in_leaf": trial.suggest_int("min_data_in_leaf", 1, 100),
    "lambda_l1": trial.suggest_float("lambda_l1", 1e-8, 10.0, log=True),
    "lambda_l2": trial.suggest_float("lambda_l2", 1e-8, 10.0, log=True),
    "min_gain_to_split": trial.suggest_float("min_gain_to_split", 0, 15),
    "bagging_fraction": min(trial.suggest_float("bagging_fraction", 0.3, 1.0 + EPS), 1.0),
    "bagging_freq": trial.suggest_int("bagging_freq", 1, 7),
    "feature_fraction": min(trial.suggest_float("feature_fraction", 0.3, 1.0 + EPS), 1.0),
    "feature_pre_filter": False,
    "extra_trees": trial.suggest_categorical("extra_trees", [True, False]),
    }
    
    # Перекрестная проверка
    cv = KFold(n_splits=5, shuffle=True)
    
		# Массив куда мы сохраняем результаты проверки
    cv_scores = np.empty(5)
        
    for idx, (train_idx, test_idx) in enumerate(cv.split(X, y)):
        X_train, X_test = X.iloc[train_idx], X.iloc[test_idx]
        y_train, y_test = y[train_idx], y[test_idx]
        
        # Создаем регрессионную модель LightGBM
        model = lgbm.LGBMRegressor( **param_grid)
        # Обучаем модель
        model.fit(
            X_train,
            y_train,
            eval_set=[(X_test, y_test)],
            eval_metric="rmse",
            early_stopping_rounds=100,
            callbacks=[
                LightGBMPruningCallback(trial, "rmse")
            ], 
        )
        preds = model.predict(X_test)
        # Сохраняем в массив результаты проверки
        cv_scores[idx] = mean_squared_error(y_test, preds)

    return np.mean(cv_scores) # Возращаем среднее значение всех проверок

# Создаем новое обучение.
study = optuna.create_study(direction="minimize", study_name="LGBM Classifier")
func = lambda trial: objective(trial, X, y)
# Вызываем оптимизацию функций objective.
study.optimize(func, n_trials=20)

Для оценки модели я использую метрику RMSE (Среднеквадратическая ошибка)

Для каждой точки вычисляется квадратная разница между прогнозами и целью, а затем усредняются эти значения и возводится в корень. Чем выше это значение, тем хуже модель.

print(f"\tНаилучшее значение (rmse): {study.best_value:.5f}")
print(f"\tНаилучшие параметры:")
for key, value in study.best_params.items():
print(f"\t\t{key}: {value}")

--------------------------------------------------------------------------------
		Наилучшее значение (rmse): 0.01053
		Наилучшие параметры:
				n_estimators: 10000
				learning_rate: 0.025
				num_leaves: 628
				max_depth: 11
				min_data_in_leaf: 1
				lambda_l1: 1.970304366797382e-06
				lambda_l2: 3.183217431386711e-08
				min_gain_to_split: 0.06980772043041306
				bagging_fraction: 0.9383496311685677
				bagging_freq: 7
				feature_fraction: 0.978126829339409
				extra_trees: False

Заключение

На основании проведённых исследований мы можем увидеть насколько эффективно применять методы машинного обучения в отличие от лабораторных исследований. Потратив час на написание кода и обучения модели мы получаем невероятную точность предсказании (99%).

Ссылки

https://optuna.org
https://lightgbm.readthedocs.io/en/latest/
https://www.kaggle.com/edumagalhaes/quality-prediction-in-a-mining-process

Источник: https://habr.com/ru/post/652835/

Вернуться к списку

Интересные статьи

Как с помощью нейросети определить лучшую дату отправки email и повысить доход рассылки в 8,5 раз

Чтобы email-рассылка не затерялась во входящих, а клиенты чаще открывали письма и покупали, важно угадать правильное время отправки. С помощью нейросети мы п...

445 велокилометров по городу. Строим карту качества тротуаров Минска

Если вы используете велосипед для передвижения по городу, то, скорее всего, у вас есть какие-то вопросы к велоинфраструктуре и ее качеству. Чтобы понять, что велодорожки вашего гор...

Инкрементальный бэкап в Proxmox VE с помощью VBR

В одной из предыдущих статей цикла про гипервизор Proxmox VE мы уже рассказывали, как выполнять бэкап штатными средствами. Сегодня покажем, как для этих же целей использовать отличн...

«У Предназначения масса обличий...» или автоматизируем управление автолампой с помощью CANNY 3 tiny и фоторезистора

В прошлой статье на Хабре я рассказал вам о том, как получил в подарок контроллер Canny3 tiny. Мы «поморгали» светодиодом, понажимали на кнопку. На этом в принципе можно было и закончить экспери...

Термоакустика. Выработка электроэнергии из звука с помощью динамика

Рис. 1. – Внешний вид 4-х ступенчатого термоакустического двигателя с бегущей волной В предыдущих статьях я писал о том, как построить двигатель Стирлинга без поршней, то есть о том, как пос...