<?xml version="1.0" encoding="UTF-8"?>
    <!DOCTYPE article PUBLIC "-//NLM/DTD JATS (Z39.96) Journal Publishing DTD v1.2 20120330//EN" "http://jats.nlm.nih.gov/publishing/1.2/JATS-journalpublishing1.dtd">
    <!--<?xml-stylesheet type="text/xsl" href="article.xsl">-->
<article xmlns:ns0="http://www.w3.org/1999/xlink" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" article-type="research-article" dtd-version="1.2" xml:lang="en">
	<front>
		<journal-meta>
			<journal-id journal-id-type="issn">2303-9868</journal-id>
			<journal-id journal-id-type="eissn">2227-6017</journal-id>
			<journal-title-group>
				<journal-title>Международный научно-исследовательский журнал</journal-title>
			</journal-title-group>
			<issn pub-type="epub">2303-9868</issn>
			<publisher>
				<publisher-name>ООО Цифра</publisher-name>
			</publisher>
		</journal-meta>
		<article-meta>
			<article-id pub-id-type="doi">10.60797/IRJ.2025.157.38</article-id>
			<article-categories>
				<subj-group>
					<subject>Brief communication</subject>
				</subj-group>
			</article-categories>
			<title-group>
				<article-title>Исследование возможности создания среднебюджетных очков дополненной реальности и анализ получившегося изделия</article-title>
			</title-group>
			<contrib-group>
				<contrib contrib-type="author" corresp="yes">
					<contrib-id contrib-id-type="orcid">https://orcid.org/0000-0001-7501-7964</contrib-id>
					<contrib-id contrib-id-type="rinc">https://elibrary.ru/author_profile.asp?id=1116926</contrib-id>
					<name>
						<surname>Сурин</surname>
						<given-names>Николай Владимирович</given-names>
					</name>
					<email>n.surin@psu.ru</email>
					<xref ref-type="aff" rid="aff-2">2</xref>
				</contrib>
				<contrib contrib-type="author">
					<contrib-id contrib-id-type="orcid">https://orcid.org/0000-0002-8204-3084</contrib-id>
					<name>
						<surname>Лунегов</surname>
						<given-names>Игорь Владимирович</given-names>
					</name>
					<email>igorlunegov99@gmail.com</email>
					<xref ref-type="aff" rid="aff-2">2</xref>
				</contrib>
			</contrib-group>
			<aff id="aff-1">
				<institution-wrap>
					<institution-id institution-id-type="ROR">https://ror.org/029njb796</institution-id>
					<institution content-type="education">Пермский государственный университет</institution>
				</institution-wrap>
			</aff>
			<aff id="aff-2">
				<institution-wrap>
					<institution-id institution-id-type="ROR">https://ror.org/029njb796</institution-id>
					<institution content-type="education">Пермский государственный университет</institution>
				</institution-wrap>
			</aff>
			<pub-date publication-format="electronic" date-type="pub" iso-8601-date="2025-07-17">
				<day>17</day>
				<month>07</month>
				<year>2025</year>
			</pub-date>
			<pub-date pub-type="collection">
				<year>2025</year>
			</pub-date>
			<volume>9</volume>
			<issue>157</issue>
			<fpage>1</fpage>
			<lpage>9</lpage>
			<history>
				<date date-type="received" iso-8601-date="2025-05-05">
					<day>05</day>
					<month>05</month>
					<year>2025</year>
				</date>
				<date date-type="accepted" iso-8601-date="2025-07-07">
					<day>07</day>
					<month>07</month>
					<year>2025</year>
				</date>
			</history>
			<permissions>
				<copyright-statement>Copyright: &amp;#x00A9; 2022 The Author(s)</copyright-statement>
				<copyright-year>2022</copyright-year>
				<license license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
					<license-p>
						This is an open-access article distributed under the terms of the Creative Commons Attribution 4.0 International License (CC-BY 4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited. See 
						<uri xlink:href="http://creativecommons.org/licenses/by/4.0/">http://creativecommons.org/licenses/by/4.0/</uri>
					</license-p>
					.
				</license>
			</permissions>
			<self-uri xlink:href="https://research-journal.org/archive/7-157-2025-july/10.60797/IRJ.2025.157.38"/>
			<abstract>
				<p>Статья посвящена разработке AR-очков, в которых используются две ключевые нейронные модели: YOLO для обнаружения объектов в реальном времени и GPT для генерации текстовых описаний на основе визуальных данных.Основная цель статьи — рассказать о способе создания бюджетного AR-устройства, способного не только распознавать объекты, но и предоставлять пользователю детальное описание сцены, что позволит сделать его удобным инструментом для профессионального использования в различных сферах, таких как логистика, медицина, образование и т. д.Были изучены существующие решения в области AR-устройств, их достоинства и недостатки. Используя анализ существующих AR-продуктов, были разработаны различные компоненты системы. Эксперимент же стал ключевым методом для тестирования гипотез и оптимизации системы.Основные результаты эксперимента представляют из себя оценку устройства группой лиц в широком диапазоне возрастов.</p>
			</abstract>
			<kwd-group>
				<kwd>искусственный интеллект</kwd>
				<kwd> дополненная реальность</kwd>
				<kwd> 3д печать</kwd>
				<kwd> нейросеть</kwd>
				<kwd> большие данные</kwd>
			</kwd-group>
		</article-meta>
	</front>
	<body>
		<sec>
			<title>HTML-content</title>
			<p>1. Введение</p>
			<p>Современные технологии дополненной реальности (AR) уже давно перешагнули порог научной фантастики и стали частью нашей повседневной жизни. Это крайне мощные технологии, которые могут значительно изменить наш опыт восприятия окружающей среды </p>
			<p>[1, С. 4]</p>
			<p>Целью исследования, представленного в этой статье, является создание прототипа AR-очков, который будет способен выполнять распознавание и анализ объектов и людей в реальном времени, причем устройство должно быть максимально похоже на обычные солнцезащитные очки, а его стоимость не должна превышать цену среднебюджетного смартфона.</p>
			<p>Самый сложный компонент системы — модуль визуализации информации, который самостоятельно реализовать почти невозможно и единственным на сегодняшний день бюджетным решением, внешне максимально схожим с солнцезащитными очками, являются носимые мониторы XREAL. Такое устройство максимально схоже с обычными очками, что очень важно, так как это необходимо для создания элегантного прототипа, который не отпугнет пользователей, в отличие от систем, подобных Apple Vision Pro.</p>
			<p>Отличительной особенностью проекта является использование локальных алгоритмов обработки данных, что исключает зависимость от облачных сервисов и повышает уровень приватности. Кроме того, в работе предложено нововведение — разделение задач по приоритетам: модель YOLO используется для критичных ко времени операциям, а GPT модель — для сложных анализов, не требующих мгновенной реакции.</p>
			<p>Практическая значимость исследования заключается в демонстрации возможности создания AR-устройств с ограниченным бюджетом без ущерба для ключевых функций. Такой подход открывает путь к персонализированным AR-приложениям в образовании, медицине, безопасности и других областях, где стоимость и адаптируемость системы играют ключевую роль. Таким образом, данное исследование нацелено на решение актуальной проблемы доступности AR-технологий и задаёт новый стандарт для разработки бюджетных решений, способных конкурировать с промышленными аналогами.</p>
			<p>2. Методы и принципы исследования</p>
			<p>Разработка самодельных AR-очков с ограниченным бюджетом требует тщательного подбора компонентов, которые бы обеспечивали высокую производительность, энергоэффективность и компактность. Поэтому разработку необходимо начать с анализа ключевых элементов аппаратной части проекта, включая выбор USB-камер, сравнение одноплатного компьютера Raspberry Pi и видеокарты RTX 2080 Ti, конструирование 3D-корпуса, а также затронуть использование носимых мониторов XREAL Air 2.</p>
			<p>Одной из нетривиальных задач при создании AR-очков является выбор USB-камер, которые должны обеспечивать качественный захват видео в реальном времени и при этом быть компактными. С последним, а именно компактностью, есть огромная проблема, так как такие камеры могут рассматриваться как шпионские и их приобретение может повлечь ненужное внимание со стороны правоохранительных органов. Поэтому затронем тему видеокамер поверхностно.</p>
			<p>Основными критериями при подборе камер являются:</p>
			<p>– разрешение и частота кадров;</p>
			<p>– наличие автофокуса и стабилизации изображения;</p>
			<p>– работа в условиях слабой освещённости; компактность и вес.</p>
			<p>Стоит отметить, что использование нескольких камер открывает дополнительные возможности. Например, стереокамеры могут улучшить точность распознавания объектов за счёт трёхмерного анализа пространства. Другим вариантом использования нескольких камер может быть одновременный захват изображения с разных углов или даже использование удаленных камеры, что открывает огромный простор для расширения применения устройства. Однако, такой подход требует более мощного аппаратного обеспечения и тщательной синхронизации данных.</p>
			<p>Для тестирования и начальной реализации были выбраны бюджетные USB-камеры, как выясниться в дальнейшем это будет оправданно, так как размер кадра при программном вычислении будет обрезаться примерно до квадрата со стороной 600 пикселей из-за компромисса между точностью и быстродействием.</p>
			<p>Другим сложным вопросом при разработке AR-очков становится выбор вычислительного устройства. На рассмотрение представлены два доступных варианта: одноплатный компьютер Raspberry Pi 4/5 и видеокарта Nvidia (конкретика видеокарты не имеет особого значения, важен факт превосходства в вычислениях).</p>
			<p>В итоге самым оптимальным решением было выбрано использование Raspberry Pi 4/5 для начальных этапов разработки и тестирования, а для более сложных задач, таких как обучение и запуск сложных моделей, использование RTX 2080 Ti.</p>
			<p>Ещё одной из важных задач аппаратной части проекта является создание функционального и компактного корпуса для размещения всех необходимых компонентов. Важно не только обеспечить надёжное крепление элементов, но и сохранить минимальный вес и удобство использования. Идеально под эту задачу подходит 3D-печать. Аддитивное производство, или 3D-печать, — процесс создания трехмерных объектов практически любой геометрической формы на основе их цифровых моделей </p>
			<p>[2, С. 4]</p>
			<p>Для разработки 3D-модели корпуса можно воспользоваться программой Blender, которая предоставляет широкие возможности для проектирования сложных художественных конструкций и достаточно проста в освоении, однако не совсем подходит для инженерного моделирования, но в данном случае это не особо важно, так корпус не имеет подвижных частей и ювелирная точность, следовательно, не нужна. После разработки модели в Blender она должна быть экспортирована в формате поддерживаемом 3д-слайсером (например, STL), после чего необходимо создать в 3D-слайсере G-code и отправить на 3D-печать (например, на 3D-принтер Elegoo Neptune 3 Pro).</p>
			<p>В итоге был создан корпус, включающий отсеки для микрокомпьютера, аккумуляторов и USB-камер. Конструкция корпуса предусматривает удобное подключение проводов и быстрый доступ к компонентам для их обслуживания или замены.</p>
			<p>Что касается самих очков, то их конструкция не требовала использования 3D-печати, так как в качестве основы были выбраны уже готовые носимые мониторы XREAL Air 2. Использование 3D-печати для создания корпуса микрокомпьютера, камер и аккумуляторов позволило получить компактное и надёжное решение, соответствующее всем требованиям проекта. В то же время, выбор готовых AR-очков упростил процесс разработки, обеспечив высокое качество и эстетичный дизайн. Такой комбинированный подход демонстрирует, как можно эффективно сочетать ручное проектирование и готовые компоненты для создания сложных устройств.</p>
			<p>Один из ключевых плюсов XREAL Air 2 — это хорошие дисплеи (1920x1080 пикселей на каждый глаз), которые обеспечивают чёткое и детализированное изображение. Это особенно важно для AR-приложений, где точность отображения информации играет критическую роль. Устройство выполнено в форме, которая визуально почти не отличается от обычных солнцезащитных очков. Это делает их удобными для повседневного использования и снижает нагрузку на пользователя.</p>
			<p>Однако, наряду с преимуществами, XREAL Air 2 имеют и некоторые недостатки. Основным недостатком является небольшой угол обзора. Угол обзора составляет всего 46 градусов, что существенно ограничивает поле зрения пользователя. Это может вызывать дискомфорт при длительном использовании, особенно в приложениях, требующих широкого охвата окружающего пространства.</p>
			<p>Устройство поддерживает подключение через USB-C, но в данном проекте гораздо проще воспользоваться HDMI-переходником для совместимости с микрокомпьютером Raspberry Pi 4/5. Это решение добавило дополнительный элемент в систему. Чтобы этого избежать, можно использовать вместо Raspberry Pi 4/5 официально поддерживаемые смартфоны Samsung S22 или Samsung S24, однако, это значительно повысит стоимость проекта.</p>
			<p>Внешний вид собранного устройства представлен на рис. 1.</p>
			<fig id="F1">
				<label>Figure 1</label>
				<caption>
					<p>Собранное устройство</p>
				</caption>
				<alt-text>Собранное устройство</alt-text>
				<graphic ns0:href="/media/images/2025-05-04/62d643d7-939f-4325-b269-e3f061515366.jpg"/>
			</fig>
			<p>Самая трудозатратная стадия конвейера — обработка данных. Чтобы её решить можно воспользоваться методами искусственного интеллекта. Искусственный интеллект — это полностью или частично автономная самоорганизующая и самоорганизующаяся компьютерно-аппаратно программная виртуальная (virtual) или киберфизическая (cyber-physical), в том числе биокибернетическая (bio-cybernetic), система (юнит), неживая в биологическом смысле этого понятия, с соответствующим математическим обеспечением, наделённая / обладающая программно-синтезированными (эмулированными) способностями и возможностями </p>
			<p>[3, С. 69][4, С. 5][5, С. 57][6]</p>
			<p>Для реализации программного обеспечения были выбраны три ключевые библиотеки: Ultralytics, OpenCV и Unsloth. Их выбор обусловлен функциональностью, производительностью и доступностью, что делает их идеальными инструментами для задач компьютерного зрения и машинного обучения.</p>
			<p>После захвата изображение передаётся на анализ в зависимости от задачи. YOLO подходит для задач, требующих быстрого обнаружения объектов. Она анализирует изображение, идентифицирует объекты и возвращает их координаты, классы и уровень уверенности. Это критически важно для приложений, где требуется мгновенная реакция, таких как навигация или взаимодействие с окружающей средой. GPT, в свою очередь, больше подходит для сложных задач, таких как анализ сцен или генерация текстовых описаний.</p>
			<p>После обработки данных результат интегрируется в видеопоток с использованием библиотеки OpenCV. Это включает: наложение AR-меток (например, рамок вокруг объектов) и вывод текстовых описаний, если требуется. Процесс вывода изображения также оптимизирован для минимизации задержки, что обеспечивает синхронность между действиями пользователя и отображаемой информацией. Одним из простых методов оптимизации вывода является использование только латинского алфавита, потому что именно он оптимизирован в библиотеке OpenCV.</p>
			<p>Комплексная схема системы представлена на рис. 2.</p>
			<fig id="F2">
				<label>Figure 2</label>
				<caption>
					<p>Схема системы</p>
				</caption>
				<alt-text>Схема системы</alt-text>
				<graphic ns0:href="/media/images/2025-05-04/1d3dd962-35b1-4722-b1bf-4132aa2ca7ac.png"/>
			</fig>
			<p>[7, С. 65]</p>
			<p>Набор данных, который содержит изображения всех классов распознаваемых объектов, сгруппированных в соответствующие разделы, носит название датасет </p>
			<p>[8, С. 10]</p>
			<p>Для восполнения пробелов в данных логично использовать синтетическую генерацию изображений, например, с помощью Stable Diffusion XL. Эта программа позволяет генерировать изображений на основе текстовых описаний, а также дополнять уже существующие изображения новыми элементами. Но с синтетическими данными всегда есть опасность того, что они не будут репрезентативны реальному миру, где будет функционировать модель </p>
			<p>[9, С. 8]</p>
			<p>Далее данные необходимо разметить, то есть подготовить текстовые описания изображений в специальном формате. Для ускорения процесса разметки данных лучше всего разработать собственный серверный помощник на базе библиотеки FastAPI, интегрированный с Label Studio ML Backend. Этот инструмент автоматически размечает изображения на основе уже обученных моделей, таких как YOLO. Основные преимущества серверного помощника: интеграция с Label Studio, что позволяет пользователям редактировать и подтверждать разметку через удобный интерфейс; автоматическая начальная разметка снижает нагрузку на человека. Однако, не нужно забывать о необходимости проверки автоматически сгенерированных разметок.</p>
			<p>Для обучения модели LLaVA через библиотеку Unsloth требуется создать свой набор данных. Этот процесс включает в себя не только получение данных, но и создание структурированных Parquet-файлов, поддерживаемых библиотекой Unsloth. Parquet файл идеально подходит для работы с большими объёмами данных благодаря своей эффективности и совместимости с большинством инструментов обработки. Каждый созданный для обучения файл Parquet содержит две ключевые колонки: изображение, преобразованное в байтовый формат для удобства хранения, и текстовое описание, соответствующее этому изображению.</p>
			<p>Процесс тестирования и оптимизации системы самодельных AR-очков является завершающим этапом, позволяющим не только выявить скрытые недостатки архитектуры, но и трансформировать сырой прототип в устойчивое к реальным условиям устройство. На начальном этапе тестирования следует сосредоточиться на функциональной проверке всех компонентов: от корректности захвата видеопотока с камер до синхронизации AR-меток с движениями пользователя. Для этого необходимо разработать серию сценариев, имитирующих типичные вариантов использования — от прогулки по квартире до анализа сложных визуальных композиций, для чего проще всего выводить различные изображения или даже видео на дополнительный экран и подбирать такой угол камеры, чтобы она фокусировалась на изображении с монитора. Каждый сценарий необходимо сопровождать детальным протоколом, фиксирующим такие параметры, как задержка обработки кадра, процент ложных срабатываний модели, субъективную оценку удобства интерфейса и так далее.</p>
			<p>Тестирование позволяет оценить эффективность модели YOLO 11n и LLaVA 7b в реальных условиях. Необходимо тестировать модели на изображениях различной сложности — от простых сцен с одним объектом до сложных композиций с множеством взаимодействующих элементов.</p>
			<p>3. Основные результаты</p>
			<p> YOLO 11n демонстрирует высокую скорость обработки, что критически важно для AR-приложений, где задержка недопустима. Однако, несмотря на её эффективность в обнаружении объектов, модель ограничена в плане понимания контекста.</p>
			<p>С другой стороны, LLaVA 7b, которая, в отличие от YOLO 11n, способна анализировать изображения на более глубоком уровне и генерировать текстовые описания, но значительно уступает YOLO 11n в плане производительности, а именно, YOLO 11n выполняет работу по обработке одного кадра за несколько миллисекунд, в то время как LLaVA 7b за несколько секунд. Однако, модель LLaVA 7b показывает впечатляющие результаты в понимании контекста и описании сцен. Например, она может не только определить объекты на изображении, но и объяснить их взаимодействие, что делает её идеальной для задач, требующих детального анализа. Тестирование LLaVA 7b проводится на тех же тестовых экземплярах, что и YOLO 11n, чтобы обеспечить объективность сравнения.</p>
			<p>Помимо тестирования отдельных моделей, была проведена оценка их совместной работы в рамках AR-очков. В этом сценарии YOLO 11n используется для быстрого обнаружения объектов, а LLaVA 7b — для их детального анализа и генерации текстовых описаний. Такой подход показывает себя эффективным, но имеет в себе ряд проблем, связанных с синхронизацией данных и нагрузкой на вычислительные ресурсы. Например, в некоторых случаях задержка между обнаружением объекта и получением его описания оказывается слишком большой, что снижает удобство использования системы.</p>
			<p>Снимок работы устройства показан на рис. 3.</p>
			<fig id="F3">
				<label>Figure 3</label>
				<caption>
					<p>Пример работы прототипа изделия</p>
				</caption>
				<alt-text>Пример работы прототипа изделия</alt-text>
				<graphic ns0:href="/media/images/2025-05-04/1ac01272-aef9-4d3e-b8a4-0a3322898cd3.jpg"/>
			</fig>
			<p>[10, С. 9]</p>
			<p>Сравнение моделей YOLO 11n и LLAVA 7b представлено в табл. 1.</p>
			<table-wrap id="T1">
				<label>Table 1</label>
				<caption>
					<p>Сравнение общих ошибок YOLO и GPT</p>
				</caption>
				<table>
					<tr>
						<td>Этап тестирования</td>
						<td>Процент ошибки YOLO 11n</td>
						<td>Процент ошибки LLaVA 7b</td>
					</tr>
					<tr>
						<td>Простые сцены (один объект)</td>
						<td>20</td>
						<td>1</td>
					</tr>
					<tr>
						<td>Сложные сцены (композиция из нескольких объектов)</td>
						<td>25</td>
						<td>5</td>
					</tr>
					<tr>
						<td>Сложные сцены (множество отдельных объектов)</td>
						<td>25</td>
						<td>N/A (LLaVA не поддерживает)</td>
					</tr>
					<tr>
						<td>Высокие шумы</td>
						<td>45</td>
						<td>10</td>
					</tr>
					<tr>
						<td>Описание взаимодействий</td>
						<td>N/A (YOLO не поддерживает)</td>
						<td>5</td>
					</tr>
				</table>
			</table-wrap>
			<p>Как можно понять из табл. 1, LLaVA 7b выигрывает во всем, кроме выделения отдельных частей изображениях, так эта нейросеть не предназначена для этого, хотя в теории это возможно реализовать. Причем, если учесть, что это самая слабая версия модели LLaVA, то даже страшно предположить на что способна самая большая версия, однако для её запуска необходим настоящий суперкомпьютер, который никак не вписывается в рамки поставленной цели.</p>
			<p>Также, обе нейросети были дообучены на распознавание особенностей человека. Детальное сравнение представлено в табл. 2.</p>
			<table-wrap id="T2">
				<label>Table 2</label>
				<caption>
					<p>Сравнение частных ошибок YOLO и GPT</p>
				</caption>
				<table>
					<tr>
						<td>Этап тестирования</td>
						<td>Пояснение визуальных признаков</td>
						<td>YOLO 11n</td>
						<td>LLaVA 7b</td>
					</tr>
					<tr>
						<td>Сильная усталость</td>
						<td>Прищуренные глаза, зевание, сутулость</td>
						<td>15</td>
						<td>5</td>
					</tr>
					<tr>
						<td>Радость</td>
						<td>Улыбка</td>
						<td>5</td>
						<td>1</td>
					</tr>
					<tr>
						<td>Гнев</td>
						<td>Хмурость</td>
						<td>5</td>
						<td>1</td>
					</tr>
					<tr>
						<td>Оружие в руках</td>
						<td>Нож, пистолет</td>
						<td>20</td>
						<td>5</td>
					</tr>
					<tr>
						<td>Пол</td>
						<td>Мужчина, женщина</td>
						<td>5</td>
						<td>1</td>
					</tr>
					<tr>
						<td>Признаки заболеваний</td>
						<td>Чихание, бледность, потливость</td>
						<td>10</td>
						<td>5</td>
					</tr>
					<tr>
						<td>Признаки обмана</td>
						<td>Неестественные выражения, прикосновения к лицу</td>
						<td>20</td>
						<td>5</td>
					</tr>
				</table>
			</table-wrap>
			<p>Для оценки практической применимости AR-очков в реальных сценариях было проведено тестирование с участием 20 добровольцев в возрасте от 7 до 65 лет. Участники, разделённые на три возрастные группы (7–18, 18–40, 40–65), выполняли задачи, имитирующие повседневные и профессиональные сценарии: поиск объектов в помещении, анализ текстовых инструкций в режиме реального времени, взаимодействие с AR-метками в динамической среде. Особое внимание уделялось субъективному восприятию удобства интерфейса, скорости отклика системы и точности распознавания. Результаты опроса участников представлены в табл. 3.</p>
			<table-wrap id="T3">
				<label>Table 3</label>
				<caption>
					<p>Оценка устройства группами лиц</p>
				</caption>
				<table>
					<tr>
						<td>Этап тестирования</td>
						<td>Оценка группы 7–18 лет</td>
						<td>Оценка группы 18–40 лет</td>
						<td>Оценка группы 40–65 лет</td>
					</tr>
					<tr>
						<td>Компактность (оценка 1-5)</td>
						<td>3</td>
						<td>4</td>
						<td>3</td>
					</tr>
					<tr>
						<td>Четкость изображения (оценка 1-5)</td>
						<td>4</td>
						<td>5</td>
						<td>3</td>
					</tr>
					<tr>
						<td>Полезность AR-информации (оценка 1-5)</td>
						<td>4</td>
						<td>5</td>
						<td>2</td>
					</tr>
					<tr>
						<td>Точность информации (%)</td>
						<td>80</td>
						<td>70</td>
						<td>50</td>
					</tr>
					<tr>
						<td>Время отклика YOLO (сек/запрос)</td>
						<td>1</td>
						<td>1</td>
						<td>1</td>
					</tr>
					<tr>
						<td>Время отклика LLAVA (сек/запрос)</td>
						<td>20</td>
						<td>15</td>
						<td>15</td>
					</tr>
					<tr>
						<td>Работа при слабом освещении (оценка 1-5)</td>
						<td>2</td>
						<td>3</td>
						<td>2</td>
					</tr>
					<tr>
						<td>Автономность (оценка 1-5)</td>
						<td>5</td>
						<td>5</td>
						<td>5</td>
					</tr>
					<tr>
						<td>Приятность материалов (оценка 1-5)</td>
						<td>3</td>
						<td>4</td>
						<td>4</td>
					</tr>
					<tr>
						<td>Вес (оценка 1-5)</td>
						<td>4</td>
						<td>5</td>
						<td>3</td>
					</tr>
				</table>
			</table-wrap>
			<p>4. Заключение</p>
			<p>Проведённое исследование демонстрирует, что создание функциональных очков дополненной реальности на базе доступных компонентов — задача не только достижимая, но и открывающая новые горизонты для персонализированных решений в области компьютерного зрения. Разработанный прототип, сочетающий носимые мониторы XREAL, алгоритмы YOLO и мультимодальные модели GPT, подтверждает возможность балансировки между стоимостью и производительностью, бросая вызов коммерческим аналогам с их закрытыми экосистемами и завышенными ценниками. Важнейшим достижением становится доказательство того, что даже на платформе Raspberry Pi 4/5, чья вычислительная мощность сопоставима со слабеньким смартфоном, можно реализовать интерактивный AR-опыт с минимальной задержкой, что ранее считалось прерогативой специализированного оборудования.</p>
			<p>Тестирование AR-очков в группах с возрастным диапазоном от 7 до 65 лет выявило как сильные стороны устройства, так и направления для дальнейшей оптимизации. Наибольшую эффективность система продемонстрировала среди пользователей 18–40 лет: высокая оценка компактности (4/5), четкости изображения (5/5) и полезности AR-информации (5/5) подтверждает соответствие устройства запросам активной аудитории. Однако для младшей (7–18 лет) и старшей (40–65 лет) групп выявлены существенные ограничения.</p>
			<p>Перспективы проекта видятся в нескольких направлениях. Во-первых, интеграция нейросетей следующего поколения, способных работать в несколько раз эффективнее текущих моделей, однако небольшой командой крайне непросто создать новый тип нейросети, следственно следует ждать новых open-source решений. Во-вторых, переход на более хорошие дисплеи может устранить проблему неприятных эффектов при длительной носке, но пока что такие устройства слишком дорогие. И наконец, использование более мощного микрокомпьютера (например, NVIDIA JETSON) так же повысит качество AR-опыта, и также значительно повысит стоимость устройства.</p>
			<p>В глобальном контексте эта работа бросает вызов индустрии, доказывая, что инновации не обязаны быть дорогими или эксклюзивными. Самодельные AR-очки, собранные за стоимость среднебюджетного смартфона, уже сегодня способны трансформировать, например, образование, помогая студентам визуализировать сложные концепции. Остаётся надеяться, что данный проект станет катализатором для новых исследований, где доступность и открытость будут не исключением, а нормой, ведь будущее дополненной реальности должно принадлежать не только корпорациям, но и каждому, кто готов взять паяльник, написать пару строк кода и увидеть невидимое.</p>
		</sec>
		<sec sec-type="supplementary-material">
			<title>Additional File</title>
			<p>The additional file for this article can be found as follows:</p>
			<supplementary-material xmlns:xlink="http://www.w3.org/1999/xlink" id="S1" xlink:href="https://doi.org/10.5334/cpsy.78.s1">
				<!--[<inline-supplementary-material xlink:title="local_file" xlink:href="https://research-journal.org/media/articles/19609.docx">19609.docx</inline-supplementary-material>]-->
				<!--[<inline-supplementary-material xlink:title="local_file" xlink:href="https://research-journal.org/media/articles/19609.pdf">19609.pdf</inline-supplementary-material>]-->
				<label>Online Supplementary Material</label>
				<caption>
					<p>
						Further description of analytic pipeline and patient demographic information. DOI:
						<italic>
							<uri>https://doi.org/10.60797/IRJ.2025.157.38</uri>
						</italic>
					</p>
				</caption>
			</supplementary-material>
		</sec>
	</body>
	<back>
		<ack>
			<title>Acknowledgements</title>
			<p/>
		</ack>
		<sec>
			<title>Competing Interests</title>
			<p/>
		</sec>
		<ref-list>
			<ref id="B1">
				<label>1</label>
				<mixed-citation publication-type="confproc">Смолин А.А. Системы виртуальной, дополненной и смешанной реальности / А.А. Смолин, Д.Д. Жданов, А.В. Меженин [и др.]. — Санкт-Петербург : Университет ИТМО, 2018. — 59 с.</mixed-citation>
			</ref>
			<ref id="B2">
				<label>2</label>
				<mixed-citation publication-type="confproc">Шкуро А.Е. Технологии и материалы 3D-печати / А.Е. Шкуро, П.С. Кривоногов. — Екатеринбург : Уральский государственный лесотехнический университет, 2017. — 98 с. </mixed-citation>
			</ref>
			<ref id="B3">
				<label>3</label>
				<mixed-citation publication-type="confproc">Морхат П.М. Право и искусственный интеллект / П.М. Морхат. — Москва : Юнити-Дана, 2018. — 544 с.</mixed-citation>
			</ref>
			<ref id="B4">
				<label>4</label>
				<mixed-citation publication-type="confproc">Ватьян А.С. Системы искусственного интеллекта / А.С. Ватьян, Н.Ф. Гусарова, Н.В. Добренко. — Санкт-Петербург : Университет ИТМО, 2022. — 186 с. </mixed-citation>
			</ref>
			<ref id="B5">
				<label>5</label>
				<mixed-citation publication-type="confproc">Вакуленко С.А. Практический курс по нейронным сетям / С.А. Вакуленко, А.А. Жихарева. — Санкт-Петербург : Университет ИТМО, 2018. — 71 с.</mixed-citation>
			</ref>
			<ref id="B6">
				<label>6</label>
				<mixed-citation publication-type="confproc">Vaswani A. Attention is All you Need / A. Vaswani, N. Shazeer, N. Parmar [et al.] // Neural Information Processing Systems. — 2017. — № 30. </mixed-citation>
			</ref>
			<ref id="B7">
				<label>7</label>
				<mixed-citation publication-type="confproc">Домингос П. Верховный алгоритм. Как машинное обучение изменит наш мир / П. Домингос. — Москва : Манн, 2016. — 366 с.</mixed-citation>
			</ref>
			<ref id="B8">
				<label>8</label>
				<mixed-citation publication-type="confproc">Ярышев С.Н. Технологии глубокого обучения и нейронных сетей в задачах видеоанализа / С.Н. Ярышев, В.А. Рыжова. — Санкт-Петербург : Университет ИТМО, 2022. — 82 с.</mixed-citation>
			</ref>
			<ref id="B9">
				<label>9</label>
				<mixed-citation publication-type="confproc">Кугаевских А.В. Классические методы машинного обучения / А.В. Кугаевских, Д.И. Муромцев, О.В. Кирсанова. — Санкт-Петербург : Университет ИТМО, 2022. — 53 с.</mixed-citation>
			</ref>
			<ref id="B10">
				<label>10</label>
				<mixed-citation publication-type="confproc">Воронова Н.С. Анализ и представление результатов эксперимента / Н.С. Воронова, С.Г. Бежанов, С.А. Воронов [и др.]. — Москва : НИЯУ МИФИ, 2015. — 120 с.</mixed-citation>
			</ref>
		</ref-list>
	</back>
	<fundings/>
</article>