THE STUDY OF THE PEROVSKITE SOLAR CELL PARAMETER INFLUENCE ON THEIR EFFICIENCY BY USING MACHINE LEARNING

Research article
DOI:
https://doi.org/10.60797/IRJ.2024.143.121
Issue: № 5 (143) S, 2024
Suggested:
27.02.2024
Accepted:
24.05.2024
Published:
31.05.2024
241
6
XML
PDF

Abstract

This paper presents an approach to optimize perovskite solar cells (PSC) by using machine learning algorithms. The aim of the study is to find the best PSC parameters that provide high power conversion efficiency (PCE). To train the algorithms, the dataset with PSC feature information (the perovskite layer thickness, the electron transport layer type, the target variables, etc.) was created. Various machine learning algorithms were applied, the XGBoosting, CatBoost and Random Forest showed the low error in both learning stages (regression where the target variable is PCE, multi-target regression where the four variables are PCE, Voc, Jsc and FF as well). The most important variables for PCE are Voc, Jsc and FF, the less important ones – Pero th, ETL, Cs, MA, FA, I and HTL.

1. Введение

Машинное обучение становится все более популярным инструментом для исследований в области материаловедения. При помощи методов машинного обучения можно оптимизировать поиск исходных структур соединений, что способствует созданию новых материалов с определёнными свойствами, их улучшению, ускорению процесса разработки новых инновационных решений, сокращению затрат ресурсов и времени на исследование

,
,
,
,
. Перовскиты – класс материалов с широким спектром потенциальных применений, включая солнечные батареи, светодиоды, детекторы и др.
,
,
,
,
. В данной работе рассматривается применение алгоритмов машинного обучения для решения задачи поиска наилучших параметров для получения соединения с высокой эффективностью преобразования энергии (PCE).

2. Методы и принципы исследования

Набор данных для обучения алгоритмов машинного обучения для решения задачи поиска наилучших параметров для получения соединения с высокой эффективностью (PCE) был получен при помощи моделирования PSC различной архитектуры (зарядовые слои, перовскиты, толщины перовскитного слоя) в программном пакете SCAPS

.

Перед непосредственной настройкой алгоритмов и их обучением требуется предварительная обработка набора данных, поскольку полученный набор имеет пропуски в данных. На рисунке 1 представлен фрагмент датасета после обработки.

Фрагмент датасета

Рисунок 1 - Фрагмент датасета

Примечание: Примечание: Pero th, nm – толщина перовскитного слоя, нм; ETL – тип электронно-транспортного слоя; Cs – количество Cs в А-положении; MA – количество MA в А-положении, FA – количество FA в А-положении, I – количество йода в Х-положении, Br – количество брома в Х-положении, HTL – тип дырочно-транспортного слоя, FTO – присутствие слоя FTO, Voc – напряжение холостого хода, Jsc – ток короткого замыкания, FF – фактор заполнения, PCE – эффективность преобразования энергии

Тип зарядово-транспортных слоёв задавался цифрами, кодировка представлена в таблице 1.

Таблица 1 - Кодировка типов зарядово-транспортных слоёв

Тип ETL

Номер в датасете

Тип HTL

Номер в датасете

PCBM

1

C60

1

TiO2

2

Cu2O

2

ZnO

3

CuI

3

CdS

4

Spiro-OMeTAD

4

WO3

5

CuSCN

5

WS2

6

NiO

6

IGZO

7

P3HT

7

SnO2

8

CuSbS2

8

  –

 –

PEDOT:PSS

9

 – 

  –

CuO

10

 – 

 – 

MoO3

11

Обучение было разбито на два этапа:

1. Решение задачи регрессии (несколько признаков и одна целевая переменная).

2. Решение задачи многоцелевой регрессии (несколько признаков и несколько целевых переменных).

Всего получилось 7182 объекта, которые будут анализироваться по 12 признакам ('Pero th', 'ETL', 'Cs', 'MA', 'FA', 'I', 'Br', 'HTL’, ’FTO’, 'Voc', 'Jsc', 'FF') и 1 целевой переменной ('PCE') для первого этапа, а также по 9 признакам ('Pero th', 'ETL', 'Cs', 'MA', 'FA', 'I', 'Br', 'HTL', ‘FTO’) и 4 целевым переменным ('Voc', 'Jsc', 'FF', 'PCE'), значение которых и будут предсказываться на втором этапе.

Перед загрузкой данных в алгоритм была построена тепловая карта взаимокорреляций Пирсона для признаков (см. рис. 2). Корреляция – важнейший фактор, лежащий в основе анализа данных. Он сообщает, как переменные в наборе данных связаны друг с другом.

Тепловая карта матрицы корреляции признаков и целевых переменных

Рисунок 2 - Тепловая карта матрицы корреляции признаков и целевых переменных

Поскольку коэффициент корреляции Пирсона обладает несколькими недостатками: работает только с непрерывными переменными, учитывает только линейную связь между ними, чувствителен к выбросам, использовалась Phik (φk) корреляция, лишенная данных недостатков (см. рис. 3).

Согласно рисунку 3 сильная корреляция (больше 0,6) со значениями целевых переменных наблюдается у следующих признаков: HTL, Cs, MA, FA, I, Br.

Матрица коэффициентов корреляции φk

Рисунок 3 - Матрица коэффициентов корреляции φk

Однако при оценке корреляций необходимо также исследовать статистическую значимость данной корреляции.

Для определения значимости, необходимо учесть значение p-критерия. Значение p менее 0,05 обычно считается статистически значимым, и в этом случае нулевую гипотезу следует отклонить на взятом уровне значимости, то есть связь между двумя наблюдаемыми событиями существует. Значение p больше 0,05 означает, что нулевая гипотеза не отвергается, следовательно, не существует связи между двумя наблюдаемыми событиями.

Значимость корреляции

Рисунок 4 - Значимость корреляции

Согласно рисунку 4 почти все коэффициенты корреляции признаков (кроме ‘Pero th, nm’, ‘HTL’, ‘FTO’, ‘Cs’, ‘ETL’) с целевыми переменными статистически значимы при выбранном уровне значимости. Также стоит отметить, что в матрице отсутствуют некоторые значения коэффициентов значимости корреляции, поскольку нет зависимости между данными переменными.

В качестве алгоритмов машинного обучения применялись не только базовые алгоритмы, такие как линейная регрессия (англ. Linear Regression), К-ближайших соседей (англ. K-Nearest Neighbors), метод опорных векторов (англ. Support vector Machine), дерево решений (англ. Decision Tree), но и современные ансамблевые методы, такие как случайный лес (англ. Random Forest) и методы основанные на бустинге (англ. Extreme Gradient Boosting (XGBoosting), Light Gradient Boosting Machine (LightGBM), Gradient Boosting Regressor). Для тонкой настройки алгоритмов, а также для борьбы с переобучением необходимо использовать разбиение набора данных на обучающую и тестовую выборки, кросс-валидацию, различные регуляризации, масштабирование признаков, подбор гиперпараметров при помощи метода GridSearchCV и другие приемы для увеличения обобщающей способности алгоритмов. В результате на основе выбранных алгоритмов можно будет оценить важность выбранных признаков, а также оценить точность алгоритмов по метрикам средняя квадратичная ошибка (англ. mean squared error, MSE) и средняя абсолютная ошибка (англ. mean absolute error, MAE).

Далее представлены результаты обучения алгоритмов, а также важности признаков для первого этапа.

Таблица 2 - Результаты обучения алгоритмов для одноцелевой регрессии

Алгоритм

MSE

MAE

Support Vector Machine

1,63

0,93

Linear Regression

1,56

0,92

Ridge

1,88

1,05

Lasso

3,86

1,54

K-nearest neighbors

0,75

0,54

Decision Tree

0,16

0,22

Random Forest

0,05

0,14

XGBoosting

0,04

0,15

LightGBM

0,05

0,16

CatBoost

0,02

0,10

Gradient Boosting

0,15

0,30

Исходя из данных таблицы 2, низкую ошибку показали ансамблевые методы (Random Forest и методы, основанные на бустинге).

Важность признаков в алгоритмах

Рисунок 5 - Важность признаков в алгоритмах

Примечание: Примечание: a – decision tree regression, b – random forest regression, c – gradient boosting regression, d – xgboosting regression, e – lightgbm regression, f – catboost regression

Почти все алгоритмы показали примерно одинаковые значения важности признаков (см. рис. 5). Из рисунков видно, что наибольшую важность вносят следующие признаки: 'Voc', 'Jsc', 'FF'. Методы, основанные на бустинге LightGBM и CatBoost показали, что помимо вышеупомянутых признаков, также важны, но в меньшей степени, такие признаки как 'Pero th', 'ETL', 'Cs', 'MA', 'FA', 'I', 'HTL'.

Далее представлены результаты обучения алгоритмов для второго этапа.

Таблица 3 - Результаты обучения алгоритмов для многоцелевой регрессии

Алгоритм

MSE

MAE

Voc

Jsc

FF

PCE

Voc

Jsc

FF

PCE

SVM

0,05

62,07

271,67

58,65

0,15

5,61

10,83

6,52

Linear Regression

0,04

39,34

205,79

48,39

0,14

4,65

11,72

5,75

Ridge

0,04

39,34

205,79

48,40

0,14

4,65

11,72

5,74

Lasso

0,05

43,55

212,35

50,66

0,17

5,27

12,10

6,05

KNN

0,03

22,52

127,06

22,75

0,11

3,29

8,45

3,72

Decision Tree

0,02

8,02

135,05

18,12

0,09

2,24

8,53

3,37

Random Forest

0,00

0,11

4,96

0,48

0,01

0,18

1,19

0,43

XGBoosting

0,00

0,05

4,96

0,21

0,01

0,12

1,45

0,32

LightGBM

0,00

0,15

11,84

0,67

0,02

0,22

2,21

0,58

CatBoost

0,00

0,06

6,29

0,31

0,01

0,13

1,64

0,37

Gradient Boosting

0,00

0,98

43,85

4,37

0,05

0,68

5,20

1,59

Исходя из данных табл. 3, самые низкие значения ошибки показали следующие алгоритмы: XGBoosting, CatBoost и Random Forest.

3. Заключение

В работе были применены методы машинного обучения для поиска наилучших параметров PSC с высоким PCE. Для обучения алгоритмов был создан набор данных, содержащий информацию о PSC, таких как толщина перовскитного слоя, тип электронно-транспортного слоя и т.д., а также целевые переменные: Voc, Jsc, FF и PCE. Были применены различные алгоритмы машинного обучения, включая линейную регрессию, K-ближайших соседей, метод опорных векторов, дерево решений, случайный лес и методы, основанные на бустинге. Результаты показали, что:

1) низкую ошибку на обоих этапах обучения показали XGBoosting, CatBoost и Random Forest;

2) наибольшую важность для PCE имеют такие параметры, как Voc, Jsc и FF;

3) дополнительными важными параметрами, в меньшей степени влияющими на PCE, являются Pero th, ETL, Cs, MA, FA, I и HTL.

Данная работа демонстрирует потенциал применения машинного обучения для оптимизации PSC и может быть использована для ускорения разработки новых материалов с высокой PCE.

Article metrics

Views:241
Downloads:6
Views
Total:
Views:241