ПРЕОДОЛЕНИЕ ПСИХОЛОГО-ПОЗНАВАТЕЛЬНЫХ БАРЬЕРОВ СТУДЕНТОВ ВУЗА ПРИ ОБУЧЕНИИ АНАЛИЗУ БОЛЬШИХ ДАННЫХ

Научная статья
DOI:
https://doi.org/10.18454/IRJ.2016.54.066
Выпуск: № 12 (54), 2016
Опубликована:
2016/12/19
PDF

Сорокин Л.В.1, Баранова Н.М.2

1ORCID: 0000-0003-4361-833X, кандидат биологических наук, 2ORCID: 0000-0002-7201-9435, кандидат педагогических наук, Российский университет дружбы народов

Работа выполнена при поддержке гранта РГНФ № 15-06-10860 а

ПРЕОДОЛЕНИЕ ПСИХОЛОГО-ПОЗНАВАТЕЛЬНЫХ БАРЬЕРОВ СТУДЕНТОВ ВУЗА ПРИ ОБУЧЕНИИ АНАЛИЗУ БОЛЬШИХ ДАННЫХ

Аннотация

Широкое применение технологии больших данных ставит вопрос об обучении студентов и аспирантов вузов методам и технологиям анализа больших данных. С другой стороны в процессе обучения наблюдаются психолого-познавательные барьеры, что делает актуальным разработку информационных технологий преодоления когнитивных затруднений у студентов. Уровень сложности решаемых задач ставит высокие требования к системе обучения студентов. Каждый обучающийся обладает индивидуальным набором профессиональных навыков и собственным неповторимым опытом, что позволяет говорить о формировании новых принципов индивидуализации траекторий обучения.

Ключевые слова: преодоление когнитивных затруднений, психолого-познавательные барьеры, преодоление познавательных барьеров, индивидуальные образовательные траектории, большие данные, MATLAB, математическое моделирование, экономический анализ.

Sorokin L.V.1, Baranova N.M.2

1ORCID: 0000-0003-4361-833X, PhD in Biology, 2ORCID: 0000-0002-7201-9435, PhD in Pedagogy, RUDN University (Peoples’ Friendship University of Russia)

OVERCOMING COGNITIVE BARRIERS OF HIGHER SCHOOL STUDENTS IN BIG DATA ANALYSIS EDUCATION 

Abstract

Widespread use of big data technologies add to learning undergraduate and graduate university students’ methods and technologies of big data analysis. However during the education cognitive barriers observed that makes actual the development of information technology for overcoming cognitive problems. Level of tasks complexity puts high demands on the students' learning. Each student has an individual skills and unique experience that follow the formation its own individual education trajectory.

Keywords: cognitive barriers, cognitive difficulties, cognitive problems, individual education trajectory, big data, MATLAB, mathematical models, economic analysis.

Решение многих экономических и социальных задач требует применение новых технологий для анализа больших данных. Развитие сервисов сетевой и интернет торговли, таких как супермаркеты и гипермаркеты, а также проведение социальных исследований и предвыборных опросов населения делают необходимым развитие методов и средств для работы с большими массивами информации.

Из определения понятия больших данных следует, что необходимо увеличить, не только объем данных, но и скорости передачи данных. Таким образом, критичным показателем для анализа больших данных является величина потока информации в единицу времени. Хорошо известен эффект перехода количества в качество. Для выявления статистических закономерностей необходимо увеличение массива данных, а это связано с зависимостью точности предсказания от размера длинны выборки. Таким образом, простое увеличение объема данных позволяет увеличить точность статистического метода и сделать возможным анализ величин, которые ранее были неразрешимыми. Для крупных торговых сетей тонкая подстройка логистических издержек и запасов продукции в пределах единиц или десятых долей процента может обеспечить существенную экономию средств.

Широкое применение технологии больших данных ставит вопрос об обучении студентов и аспирантов вузов методам и технологиям анализа больших данных. Однако в процессе изучения материала у обучающихся могут возникнуть психолого-познавательные барьеры (ППБ) [1], [2].

Анализ больших данных

Трудно проводить анализ того, что нельзя увидеть или потрогать. Это может быть как очень маленьким объектом, так и очень большим. При этом реальные свойства объекта могут быть неизвестны. В этом и заключается иррациональная асимметрия учебной информации.

Иррациональный подход к анализу того что нельзя охватить чувствами восприятия заключается в предположении, что это возможно понять и проанализировать.

Возникает ряд парадоксов:

  • Для изучения больших данных необходим большой инструмент;
  • Скорости обмена информацией становятся очень высокими и несоизмеримы с человеческим восприятием;
  • Приходится говорить о том, что нельзя увидеть или ощутить;
  • Найти можно только то, что будешь искать (должна быть определенная поисковая стратегия);
  • Результат анализа может быть не очевидным и весьма неожиданным.

После того как получен результат анализа предстоит понять что с ним можно сделать. Как представить результат анализа в простой и понятной для восприятия форме? Результат анализа необходимо осознать, понять и найти для него разумное применение. Должна быть возможность для практического применения результата анализа больших данных в практической плоскости.

Психолого-познавательные барьеры в анализе больших данных

В качестве аналога для источника больших данных рассмотрим три случая построения систем: изолированная, закрытая и открытая системы.

Изолированная система (замкнутая система) – термодинамическая система, которая не обменивается с окружающей средой ни веществом, ни энергией. Это самый простой случай, когда огромные массивы наблюдаемых данных могут быть сведены к простым и понятным законам математики, физики и химии.

Закрытая система – термодинамическая система, которая может обмениваться с окружающей средой теплом и энергией, но не веществом. Это более сложный случай, который хорошо объясняется законами термодинамики и химии, но при условии, что исходное число атомов в системе остается неизменным в не зависимости от того в какие химические реакции они вступают и какие химические вещества из них образуются. Описав при помощи уравнений все химические реакции в системе, а также обмен потоками тепла и энергии с окружающей средой, возможно, построить модель закрытой системы. В качестве утешения можно заметить, что в такой системе число уравнений, описывающих ее, будет конечным, но для точного решения вычислительной мощности современных компьютеров будет недостаточно. Однако возможно построение приближенного решения для описания закрытой системы. Анализ в этом случае существенно упрощается, а результаты могут быть представлены в компактной форме.

Третий практический случай массива больших данных, это когда сложная система имеет функциональную связь с процессами, происходящими во внешнем мире. Существует определение открытой системы в теории систем: «Система, которая непрерывно взаимодействует с её средой. Взаимодействие может принимать форму информации, энергии или материальных преобразований на границе с системой». [3]. Из определения открытой системы следует, что в открытой системе имеется постоянный обмен энергией, материей и информацией с внешним миром. Открытые системы могут уменьшать собственную энтропию и проявлять признаки самоорганизации [4].

Остается найти эти закономерности и проверить меру их влияния на изучаемые большие данные. Это еще одна причина для формирования у обучающихся психолого-познавательных барьеров [2]. В случае открытой системы точного решения не существует, всегда имеется коридор ошибок и допущения, связанные с методом исследования. Оказывается, на результат исследования может оказать влияние все что угодно, например: погода, политическая и экономическая ситуации, высказывания общественных деятелей или просмотр телепередачи.

На первый взгляд возникает ассоциация с притчей про слона, которого изучают мудрецы и у каждого формируется собственное мнение об этом животном. Но слон это не полная аналогия с большими данными, и как в сказке про «Кота в сапогах» он может превратиться в маленькую мышку, с которой можно будет легко справиться.

С реальными большими данными справиться гораздо труднее и для этого можно воспользоваться программными комплексами Matlab [5], SAS или Fortran.

Большие данные в MATLAB

Суть проблемы заключается в том, что программный комплекс должен иметь возможность погрузить весь объем больших данных в свою память или иметь возможность для их последовательного просмотра.

Преимущество 64 битной версии Matlab заключается в том, что в Windows 8 адресуемая память составляет 500 Гб данных, а для Windows Server – 2 Тб, по сравнению с 32 битной версией, где можно адресовать только 2 Гб данных. Учитывая разную скорость обращения к оперативной памяти и массивам жестких дисков, в программном комплексе Matlab предусмотрены специальные функции (memmapfile), которые позволяют отображать часть файла в переменную памяти Matlab. Просмотр переменной без загрузки всей переменной в память осуществляется при помощи функции – matfile. Кроме того программный комплекс Matlab поддерживает многопоточные и многоядерные вычисления, параллельные вычисления на графическом процессоре, оптимизацию параллельных вычислений на многоядерных компьютерах (Parallel Computing Toolbox), облачные вычисления, распределенные массивы данных, потоковые алгоритмы и блочную обработку изображений. Все это обеспечивает высокую производительность при работе с большими данными.

Далее в этих данных необходимо найти закономерности или конкретные объекты, которые можно идентифицировать. Ситуация может существенно усложниться если у нас нет образа того, что мы ищем. Тогда программе надо обнаружить некие объекты параметры, которых могут удовлетворять условиям поиска, а затем их классифицировать, подсчитать и статистически обработать результат поиска. Таким образом, при анализе больших данных результат может быть совершенно новым, а объект исследования заранее неизвестен.

При анализе больших данных возможно использование самообучающихся алгоритмов, нейронных сетей, гибкой логики и искусственного интеллекта. В программном комплексе Matlab для этих целей смеются тулбоксы: «Neural Network Toolbox», «Fuzzy Logic Toolbox» и «Statistics and Machine Learning Toolbox».

Это с одной стороны может облегчить задачу, а с другой стороны потребует дополнительного ресурса для осмысления полученного результата. Применение нейронных сетей, гибкой логики и искусственного интеллекта может дать результат в виде распознавания образа объекта, но качество распознавания будет функцией обучения самой программы и может быть определено только при предъявлении алгоритму тестовых объектов и статистического анализа полученных данных.

Уровень сложности решаемых задач ставит высокие требования к системе обучения студентов [6]. Каждый обучающийся обладает индивидуальным набором профессиональных навыков и собственным неповторимым опытом [7], что позволяет говорить о формировании новых принципов индивидуализации траекторий обучения. С другой стороны в процессе обучения наблюдаются психолого-познавательные барьеры, что делает актуальным разработку информационных технологий преодоления когнитивных затруднений у студентов [2].

Приведем два примера анализа больших данных в акустике и управлении продажами фирмы «Tesco».

Ученые из орнитологической лаборатории Корнел (США) разработали биоакустическую программу [8] для анализа больших данных и идентификации голосов морских млекопитающих. В качестве среды для разработки была выбрана платформа MATLAB HPC [9], которая позволяет проводить обработку больших данных и осуществлять параллельные вычисления. Задача идентификации голосов морских млекопитающих на фоне природных и техногенных шумов требует глубокого знания распространения акустических волн в океане. Примененные в программе методы автоматического распознавания образов позволили идентифицировать не только различные виды морских млекопитающих, но и отдельные их особи. В результате исследования им удалось разработать алгоритм автоматического обнаружения слабых сигналов от морских млекопитающих на фоне мощных акустических помех от машин и винтов кораблей. Созданная ими биоакустическая программа позволила картировать перемещения морских млекопитающих, не приближаясь к ним, а также оценить уровень акустического техногенного шума и акустического загрязнения среды Океанов. Точная оценка акустического шума позволила поставить вопрос о его роли в потере ориентации морских млекопитающих и большого числа случаев их выбрасывания на берег. Кроме того в лаборатории Корнел существует широкая образовательная программа: ими подготовлено 600 учителей и 15000 студентов из 60 стран; каждый год 100 студентов участвует в научных исследованиях.

В качестве примера использования больших данных в экономике можно привести успешный опыт компании «Tesco». Так применение платформы MATLAB для логистического анализа позволяет компании «Tesco» учитывать влияние погоды и ценообразования на продажи в 2400 супермаркетах Великобритании, что позволяет экономить £100000000 в год [10]. Оптимизация логистических издержек в крупнейшей в Великобритании торговой сети позволяет сократить объемы хранимых товаров и снизить стоимость их транспортировки. Для анализа используются Терабайты данных за четыре года работы торговой сети, что позволяет математической модели оптимизировать цепочки продаж и управлять поставками. Благодаря использованию больших данных удается получить высокую точность прогнозных значений, что позволяет осуществлять регулирование в достаточно узком коридоре значений.

В некоторых случаях полученные в результате анализа больших данных результаты, могут сами быть массивом больших данных, которые необходимо визуализировать, что представляется не менее сложной задачей и будет подробно описано в следующей статье.

Обсуждение

Анализ больших данных находит применение в широкой области дисциплин: экономке, менеджменте, логистике, социологии, экономической географии, климатологии, медицине, теории катастроф и многих других. Везде, где имеется большой объем информации и высокий уровень экономических потерь, применение технологии анализа больших данных будет крайне эффективным. Оптимизация логистики, движения товаров, торговли, складского хранения, системы продаж, строительства, промышленности и производства могут стать базовыми задачами для анализа больших данных. По сравнению с возможным экономическим ущербом стоимость программного обеспечения, а также суперкомпьютера, системы хранения данных и линий связи не должны быть препятствием для широкого внедрения технологии анализа больших данных. Соответственно и новые принципы индивидуализации траекторий обучения студентов на базе новейших информационных технологий должны быть востребованы.

Список литературы / References

  1. Пилипенко А.И. Феномен психолого-познавательных барьеров в обучении: опыт теоретического исследования. / А.И. Пилипенко. – Курск: КГТУ, – 1995. – 103 с.
  2. Белянина И.Н., Богомаз И.В. Познавательные барьеры студентов вуза и педагогические условия их преодоления / И.Н. Белянина // Вестник ТГПУ. – 2014. 2 (143), – C. 114–116.
  3. Ludwig von Bertalanffy. The Theory of Open Systems in Physics and Biology// Science 13 January, 1950, 111: p. 23–29. DOI: 10.1126/science.111.2872.23 (in Articles)
  4. Ludwig von Bertalanffy. A Critical Review, «General Systems», vol. VII, 1962, p. 1–20.
  5. MathWorks [Электронный ресурс] URL: http://www.mathworks.com/ (дата обращения 28.12.2016).
  6. Баранова Н.М., Сорокин Л.В. Компьютерные прикладные программы в формировании стиля мышления будущего специалиста / Н.М. Баранова // Международный научно-исследовательский журнал International research journal, № 11(42), Екатеринбург, – 2015. – С. 60–63. DOI: 10.18454/IRJ.2015.42.202
  7. Сорокин Л.В., Баранова Н.М. Применение системы MATLAB для развития методов математического мышления у студентов экономических специальностей / Л.В. Сорокин // Международный научно-исследовательский журнал International research journal, № 11(42), Екатеринбург, – 2015. – С. 99–102. DOI: 10.18454/IRJ.2015.42.093
  8. Bioacoustics Research Program at the Cornell Laboratory of Ornithology, Cornell University, Ithaca, New York, USA. [Электронный ресурс] URL: http://www.birds.cornell.edu/brp/ (дата обращения 28.12.2016).
  9. Cornell Bioacoustics Scientists Develop a High-Performance Computing Platform for Analyzing Big Data. [Электронный ресурс] URL: https://www.mathworks.com/tagteam/84366_92132v01_Cornell_UserStory.pdf (дата обращения 28.12.2016).
  10. Tesco uses supply chain analytics to save £100m a year. [Электронный ресурс] URL: http://www.computerweekly.com/news/2240182951/Tesco-uses-supply-chain-analytics-to-save-100m-a-year (дата обращения 28.12.2016).

Список литературы на английском языке / References in English

  1. Pilipenko A. I. Fenomen psihologo-poznavatel'nyh bar'erov v obuchenii: opyt teoreticheskogo issledovanija. [The phenomenon of psychological-cognitive barriers to learning: experience of theoretical research]. / A. I. Pilipenko // Kursk: KGTU [Kursk, Kursk State Technical University Publ]., – 1995., 103 p. [in Russian].
  2. Belyanina I. N., Bogomaz I. V. Poznavatel'nye bar'ery studentov vuza i pedagogicheskie uslovija ih preodolenija [Cognitive barriers of higher school students and pedagogical conditions to overcome them]. / I. N. Belyanina // Vestnik TGPU [TSPU Bulletin]. – 2014. 2 (143), – P. 114–116. [in Russian].
  3. Ludwig von Bertalanffy. The Theory of Open Systems in Physics and Biology// Science 13 January 1950 111: P. 23–29. DOI: 10.1126/science.111.2872.23 (in Articles)
  4. Ludwig von Bertalanffy. A Critical Review, «General Systems», vol. VII, 1962, P. 1–20.
  5. MathWorks [Electronic resource] URL: http://www.mathworks.com/ (accessed 28.12.2016).
  6. Baranova N.M., Sorokin L.V. Komp'juternye prikladnye programmy v formirovanii stilja myshlenija budushhego specialista [Computer applications in making the intellection style of the future specialist]. / N.M. Baranova // Mezhdunarodnyj nauchno-issledovatel'skij zhurnal [International research journal], № 11(42), Ekaterinburg, – 2015. – P. 60–63. DOI: 10.18454/IRJ.2015.42.202 [in Russian].
  7. Sorokin L.V., Baranova N.M. Primenenie sistemy MATLAB dlja razvitija metodov matematicheskogo myshlenija u studentov jekonomicheskih special'nostej [MATLAB aplication for development of mathematical thinking in the education of the economic department students]. / L.V. Sorokin // Mezhdunarodnyj nauchno-issledovatel'skij zhurnal [International research journal], № 11(42), Ekaterinburg, – 2015. – P. 99–102. DOI: 10.18454/IRJ.2015.42.093 [in Russian].
  8. Bioacoustics Research Program at the Cornell Laboratory of Ornithology, Cornell University, Ithaca, New York, USA. [Electronic resource] URL: http://www.birds.cornell.edu/brp/ (accessed 28.12.2016).
  9. Cornell Bioacoustics Scientists Develop a High-Performance Computing Platform for Analyzing Big Data. [Electronic resource] URL: https://www.mathworks.com/tagteam/84366_92132v01_Cornell_UserStory.pdf (accessed 28.12.2016).
  10. Tesco uses supply chain analytics to save £100m a year. [Electronic resource] URL: http://www.computerweekly.com/news/2240182951/Tesco-uses-supply-chain-analytics-to-save-100m-a-year (accessed 28.12.2016).