Vol. 4, №4, 2018
Бекларян Л. А., Бекларян А. Л. К вопросу существования солитонных решений для систем с полиномиальным потенциалом и их численная реализация // Машинное обучение и анализ данных, 2018, 4(4). C. 220-234. doi:10.21469/22233792.4.4.01 В работе рассматривается вопрос существования солитонных решений (решений типа бегущей волны) для уравнения Кортевега - де Фриза с полиномиальным потенциалом базе подхода, в рамках которого показано наличие взаимно однозначного соответствия таких решений с решениями индуцированного функционально дифференциального уравнения точечного типа. На этом пути возникают условия существования и единственности решений типа бегущей волны с условиями роста как по времени, так и по пространству (по координатам). Весьма важно, что условия существования решения типа бегущей волны формируются в терминах правой части уравнения и характеристики бегущей волны, не используя какие-либо линеаризации и спектральные свойства соответствующего уравнения в вариациях. Отдельно рассмотрены условия существования периодических солитонных решений, при этом продемонстрирована возможность перехода от систем с квазилинейным потенциалом к системам с полиномиальным потенциалом с сохранением соответствующих теорем существования. Приведена численная реализация подобных решений.
Мурынин А. Б., Рихтер А. А. Особенности применения методов и алгоритмов реконструкции трехмерной формы ригидных объектов по данным панорамной съёмки // Машинное обучение и анализ данных, 2018, 4(4). C. 235-247. doi:10.21469/22233792.4.4.02 В работе рассмотрены методики восстановления формы трёхмерных объектов земной поверхности с использованием периодических особенностей структуры поверхностей ригидных объектов, применимый как для космических, так и для панорамных изображений этих объектов. Приведён краткий обзор разработанных ранее методик для восстановления трёхмерных объектов по одному изображению (на базе метаданых, на базе эталонов, на базе координатных сеток). Приведены основные особенности панорамной съёмки , область и границы ее применимости. Рассмотрены возможности совместного применения космической и панорамной съёмки. Описана методика, основанная на выделении геометрических периодов на поверхности ригидного объекта и оценки их геометрических параметров. На примере здания показаны основные структурные элементы, геометрические параметры объекта, оцениваемые при панорамной съёмке. Приведен пример восстновления трёхмерной модели объекта.
Мандрикова О. В., Заляев Т. Л., Геппенер В. В., Мандрикова Б. С. Анализ данных нейтронных мониторов и выделение спорадических эффектов на основе нейронных сетей и вейвлет-преобразования // Машинное обучение и анализ данных, 2018, 4(4). C. 248-265. doi:10.21469/22233792.4.4.03 Предложен автоматизированный метод анализа данных космических лучей и выделения спорадических эффектов. Метод основан на применении нейронных сетей и вейвлет-преобразования. Используются нейронные сети векторного квантования и многослойный персептрон. На основе метода по данным мировой сети нейтронных мониторов изучена динамика вариаций космических лучей и определены признаки возникновения спорадических эффектов. Показана эффективность применения нейронных сетей векторного квантования для задачи классификации данных нейтронных мониторов. Приведен способ аппроксимации временного хода космических лучей на основе многослойного персептрона и быстрых вейвлет-разложений. Описан вычислительный алгоритм детального анализа данных нейтронных мониторов и выделения разномасштабных спорадических эффектов, основанный на непрерывном вейвлет-преобразовании. Результаты исследования представляют интерес в задачах прогноза космической погоды.
Вознесенская Т. В., Леднов Д. А. Система автоматического аннотирования текстов с помощью стохастической модели // Машинное обучение и анализ данных, 2018, 4(4). C. 266-279. doi:10.21469/22233792.4.4.04 Pабота посвящена системе автоматического аннотирования текста,
реализованной в рамках совместного проекта компании ``DC – Systems'' и факультета компьютерных наук НИУ ВШЭ.
Построение аннотации осуществляется с помощью синтаксически согласованных словосочетаний, наиболее близких к семантике всего текста. При этом пренебрегается возможными дополнительными смыслами отдельных фрагментов текста. Качество аннотации определяется семантической близостью к исходному тексту.
Задача построения аннотации разбивается на две части: оценка семантики текста в целом, то есть без разделения на более мелкие составляющие, и преобразование текста, приводящее к построению аннотации.
В работе описана структурная схема реализованной системы автоматического аннотирования и алгоритм ее работы. Система протестирована на коллекции из 50 текстов различной тематики, приведен пример построенной аннотации и дана оценка его качества с помощью набора мер качества ROUGE. Ограничением применения текущей версии системы является наличие в тексте формул и специальных символов.
Иванова А. С., Двуреченский П. Е., Гасников А. В. Композитная оптимизация для задачи распределения ресурсов // Машинное обучение и анализ данных, 2018, 4(4). C. 280-290. doi:10.21469/22233792.4.4.05 В этой статье мы рассматриваем проблему выделения ресурсов, сформулированную как выпуклая задача минимизации с линейными ограничениями. Чтобы решить эту проблему, мы используем субградиентный метод и градиентный спуск, примененный к двойственной задаче. Мы также предоставляем экономическую интерпретацию для этих двух методов. Это означает, что итерации алгоритмов естественно соответствуют процессу корректировки цены и производства, чтобы получить желаемый объем производства в экономике. В целом, мы показываем, как эти действия экономических агентов приводят всю систему к равновесию.
Vol. 4, №3, 2018
Кирилюк И. Л., Сенько О. В. Исследования соотношений между нестационарными временными рядами на примере производственных функций // Машинное обучение и анализ данных, 2018, 4(3). C. 142-151. doi:10.21469/22233792.4.3.01 Предложена обобщенная многокомпонентная модель природного временного ряда сложной структуры (ОМКМ), позволяющая описать иррегулярные вариации данных. Рекуррентная составляющая модели имеет параметрический вид и описывает регулярный временной ход данных. Аномальные компоненты модели имеют вид нелинейных аппроксимирующих схем и описывают иррегулярные изменения. На примере временных рядов критической частоты F2-слоя ионосферы по данным мировой сети ионосферных станций описана реализация модели и показаны результаты ее применения. Приведено сравнение с международной эмпирической моделью ИРИ, подтвердившее эффективность ОМКМ для автоматического обнаружения аномальных изменений данных в периоды ионосферных бурь. Результаты исследования важны в задачах геофизического мониторинга и оперативного прогноза космической погоды.
Наумов В. А., Нелюбина Е. А., Рязанов В. В., Виноградов А. П. Анализ и прогнозирование гидрологического ряда на основе обобщённых прецедентов // Машинное обучение и анализ данных, 2018, 4(3). C. 152-164. doi:10.21469/22233792.4.3.02 В работе представлен новый подход к использованию аппарата обобщённых прецедентов в задачах анализа и прогнозирования гидрологических рядов. Обобщённые прецеденты представляют собой вычислительный инструментарий, позволяющий на унифицированной основе задействовать априорные, непосредственно наблюдаемые или предпочтительные по тем или иным причинам локальные закономерности в данных. Представлены основные этапы схемы применения обобщённых прецедентов, показана тесная связь со схемой преобразования Хафа. Исследуются возможности сопоставления и совместного анализа метеоданных и фактических данных по объёму речного стока. В этом случае обобщённые прецеденты представляют собой типичные нелинейные зависимости между определенными гидрологическими параметрами. Целью является выявление дифференциации регионов бассейна реки по их аккумулирующим возможностям. Мы показываем, как это можно сделать на основе анализе ограниченной по времени современной статистики. Полученные характеристики стока в регионах могут далее использоваться для краткосрочного прогноза вариаций уровня реки и других гидрологических процессов и явлений, в том числе паводков и других неблагоприятных ситуаций. Эти характеристики могут также служить важным фактором при исследовании экосистем, геологии региона и других подобных целей.
Ланге М. М., Ланге А. М. О теоретико-информационной модели классификации данных // Машинное обучение и анализ данных, 2018, 4(3). C. 165-179. doi:10.21469/22233792.4.3.03 Исследуется модель классификации в терминах зависимости средней взаимной информации между множеством классифицируемых объектов и множеством решений от допустимой вероятности ошибки. Оптимизация модели состоит в минимизации средней взаимной информации по распределениям вероятностей решений при заданном ограничении на вероятность ошибки. Задача оптимизации сводится к вычислению функции скорость-погрешность в схеме кодирования номера класса по объекту, переданному по непрерывному каналу наблюдения с заданными условными по классам плотностями распределения. Построены нижние границы функций скорость-погрешность в схемах классификации без отказа и с отказом, которые позволяют сравнить значения потенциально достижимой точности при использовании различных данных и каналов наблюдения. Теоретические результаты подтверждаются экспериментальными оценками вероятности ошибки распознавания лиц по декоррелированным компонентам RGB изображений.
Носова С. А., Турлапов В. Е. GLCM, kNN and Meanshift в задаче детектирования нейронов по изображениям срезов мозга, окрашенных по Нисслю // Машинное обучение и анализ данных, 2018, 4(3). C. 180-191. doi:10.21469/22233792.4.3.04 Разработан метод обнаружения нейронов на изображениях срезов мозга, окрашенных по Нисслю. Метод использует текстурные признаки нейронов, построенные на основе 4х матриц взаимой встречаемости (GLCM). Метод включает в себя следующие этапы: предобработка изображений, классификация пикселей по текстурным признакам алгоритмом kNN и кластеризация пикселей нейронов алгоритмом Meanshift.
Предобработка включает в себя следующие шаги: конвертация в оттенки серого, выравнивание гистограммы, квантование гистограммы. Применены и изучены различные способы преобразования цветного изображения в оттенки серого. Наилучший результат дает преобразование по синей компоненте цвета. Показано, что использование квантования гистограммы на 2 и 4 бина дает близкое качество детектирования с квантованием на 8 бин (F1=0,83..0,85).
Результаты показывают, что kNN является лучшим выбором для текущей задачи классификации по сравнению с NBC.
Наш алгоритм обеспечивает следующее качество детектирования:precision = 0,82; recall = 0,92; F1 = 0,86. Предложенный метод показа лучший результат по сравнению с аналогами.
Планируется продолжить исследования на расширенном наборе данных и данных с социальнозначимыми заболеваниями мозга.
Тлеубаев А. Т., Ступников С. А. Применение методов машинного обучения для автоматизации тематической разметки интернет"=доменов // Машинное обучение и анализ данных, 2018, 4(3). C. 192-114. doi:10.21469/22233792.4.3.04 Работа посвящена применению методов машинного обучения для задачи автоматизации тематической разметки интернет"=доменов. Конкретная задача состоит в автоматическом отнесении интернет"=домена к некоторой категории из предопределенного иерархического дерева категорий. Применялись различные классификаторы, хорошо зарекомендовавшие себя в работе с сильно разреженными признаковыми пространствами большой размерности. Признаковые пространства формировались на основании текстов с главных страниц доменов с применением подходов TF-IDF и N-грамм. Разработаны два подхода к применению методов классификации для решения задачи: прямой и многоуровневый. При прямом подходе применяется единственный классификатор, для каждого домена предсказывается его категория, которая может быть любого уровня в дереве категорий. При многоуровневом подходе применяется множество классификаторов: каждому множеству категорий с одним родителем соответствует отдельный классификатор. Классификаторы применяются иерархически~--- от корневых категорий к листовым. Используется также комбинация предложенных подходов. Одним из практических применений работы является профилирование пользователя на основании посещенных им сайтов и дальнейшее предложение персонализированной рекламы.
Vol. 4, №2, 2018
Мандрикова О. В., Фетисова Н. В., Полозов Ю. А. Моделирование и анализ природных временных рядов на основе обобщенной многокомпонентной модели // Машинное обучение и анализ данных, 2018, 4(2). C. 74-88. doi:10.21469/22233792.4.2.01 Предложена обобщенная многокомпонентная модель природного временного ряда сложной структуры (ОМКМ), позволяющая описать иррегулярные вариации данных. Рекуррентная составляющая модели имеет параметрический вид и описывает регулярный временной ход данных. Аномальные компоненты модели имеют вид нелинейных аппроксимирующих схем и описывают иррегулярные изменения. На примере временных рядов критической частоты F2-слоя ионосферы по данным мировой сети ионосферных станций описана реализация модели и показаны результаты ее применения. Приведено сравнение с международной эмпирической моделью ИРИ, подтвердившее эффективность ОМКМ для автоматического обнаружения аномальных изменений данных в периоды ионосферных бурь. Результаты исследования важны в задачах геофизического мониторинга и оперативного прогноза космической погоды.
Васильев Е. П., Комуро Т., Турлапов В. Е., Никольский А. В. Жестовое управление дополненной реальностью при кардиологических интервенциях // Машинное обучение и анализ данных, 2018, 4(2). C. 89-96. doi:10.21469/22233792.4.2.02 Работа интервенционного кардиолога аритмолога сопряжена с высокой концентрацией внимания в ходе операции по устранению аритмий.
Врач одновременно контролирует показатели нескольких мониторов и индикаторных панелей приборов ЭФИ (электрофизиологической) лаборатории и навигационной системы (Carto).
Мы предлагаем интерфейс, который позволяет пользователю взаимодействовать с трехмерной моделью сердца, при помощи жестов, которые могут выполняться одной рукой без взаимодействия с мышью и другими физическими устройствами ввода, и таким образом перемещать, масштабировать и вращать модель.
Использование только одной руки для взаимодействия с моделью более удобно для человека, чем использование двух рук, а в определенных ситуациях является едиственно возможным типом взаимодействия.
В ходе исследований было создано демонстрационное приложение, чтобы показать преимущества этого подхода.
Чуканов С. Н., Лейхтер С. В. Сравнение диффеоморфных изображений на основе топологического анализа данных // Машинное обучение и анализ данных, 2018, 4(2). C. 97-107. doi:10.21469/22233792.4.2.03 В работе рассмотрена задача сравнения начального и терминального изображений, которая решается на основе построения минимизируемого функционала, характеризующего эволюцию диффеоморфного преобразования изображения от начального до терминального, и штрафа за отклонение траектории изображения от требуемой траектории. При распознавании образов изображений объектов анализируется форма объекта с применением методов персистентных гомологий. Характеристики формы, определяемые топологическими методами, не зависят от координатного представления рассматриваемой формы и являются инвариантными при диффеоморфных преобразованиях. Отличительной особенностью использования персистентных гомологий по отношению к методам алгебраической топологии является получение большего количества информации о форме объекта.
Пытьев Ю. П., Фаломкина О. В., Шишкин С. А., Чуличков А. И. Математический формализм субъективного моделирования // Машинное обучение и анализ данных, 2018, 4(2). C. 108-121. doi:10.21469/22233792.4.2.04 Создан математический формализм субъективного моделирования неопределенности, отражающей недостоверность субъективной информации и нечеткости, свойственной ее содержанию, позволяющий моделировать неформализованные, неполные и недостоверные знания, начиная с <<абсолютного незнания>> вплоть до <<точного знания>> модели объекта исследования, когда созданный формализм эквивалентен <<стандартному>> математическому моделированию. Если исследователю доступны данные наблюдений за объектом, то формализм позволяет эмпирически проверять адекватность субъективной модели цели исследования, корректировать субъективную модель, и при определенных условиях -- эмпирически восстанавливать модель объекта исследования.
Мурашов Д. М., Березин А. В., Иванова Е. Ю. Определение количества нитей холстов картин по изображениям, полученным при направленном освещении // Машинное обучение и анализ данных, 2018, 4(2). C. 122-135. doi:10.21469/22233792.4.2.05 Работа посвящена решению задачи подсчета количества нитей на изображениях холстов картин, что необходимо для определения характеристик, используемых искусствоведами для датировки произведений живописи. Особенностью исследования является использование изображений, полученных фотосъемкой при направленном под острым углом по отношению к холсту освещении. Для анализа изображений образцов использовались предложенные модификации известного алгоритма, основанного на частотной фильтрации и пороговой бинаризации, и новый алгоритм на основе локализации хребтов полутоновых изображений. Проведен вычислительный эксперимент по исследованию холстов картин русских художников XVIII века. Вычислительный эксперимент показал, что предложенные алгоритмы обеспечивают измерение плотности холста с точностью в пределах одной нити на сантиметр на $70\--97$ процентах изображений образцов. Полученные результаты соответствуют результатам известных алгоритмов измерения плотности холста по рентгеновским изображениям картин.
Vol. 4, №1, 2018
Воронов А. Д., Громов, А. Н., Инякин, А. С., Замковой, А. А. Верификация экспертных оценок при выявлении релевантных экзогенных факторов, оказывающих влияние на объемы спроса на грузоперевозки // Машинное обучение и анализ данных, 2018, 4(1). C. 6-15. doi:10.21469/22233792.4.1.04 Работа посвящается выявлению экзогенных факторов, оказывающих влияние на прогнозные объемы железнодорожных перевозок с целью повышения их релевантности. Предлагается при построении прогностической модели учесть влияние экзогенных факторов. Релевантные факторы определяются экспертным путём. В работе предложены методы оценки достоверности экспертных высказываний, а так же выявления структуры и характера влияния экзогенных факторов на объёмы спроса грузоперевозки. Систематизированы экспертные оценки влияния экзогенных факторов на прогнозные объемы железно- дорожных перевозок. Описывается методика проведения экспертного анализа значимости и характера влияния экзогенных факторов на объемы спроса на грузоперевозки.
Воронов А. Д., Громов А. Н., Инякин А. С., Замковой А. А. Forecasting amount of demand for cargo transportation for stationar time series // Машинное обучение и анализ данных, 2018, 4(1). C. 16-35. doi:10.21469/22233792.4.1.05 Исследуются свойства прогностических моделей объемов спроса на грузовые железнодорожные перевозки с целью структуризации процессов в области управления и планирования грузовых железнодорожных перевозок. В работе предлагаются четыре модели прогнозирования объемов спроса на грузовые железнодорожные перевозки, учитывающая специфику измеряемых данных, бизнес-процессов и нормативов индустриального партнера. При построении моделей используется многофакторный статистический анализ и прогнозирование взаимозависимых временных рядов. Анализируются свойства построенных моделей. Строятся прогнозы в разрезах день, неделя, месяц для станций и регионов. Предложенные прогностические модели сравниваются по критериям средней абсолютной и средней процентной ошибки.
Дулин С. К., Якушев Д. А. Формирование электронных карт для безопасности локомотивных устройств и систем управления движением электропоездов по данным мобильного лазерного сканирования // Машинное обучение и анализ данных, 2018, 4(1). C. 36-43. doi:10.21469/22233792.4.1.01 Задача формирования единых электронных карт для различных локомотивных устройств безопасности и управления движением электропоездов чрезвычайно актуальна, ее реализация призвана повысить безопасность движения. Новые возможности формирования карт предоставляет комплексная система пространственных данных инфраструктуры железнодорожного транспорта (КСПД ИЖТ), в которую заносятся координаты всех техногенных объектов по результатам обработки данных мобильного лазерного сканирования, полученные в высокоточной координатной системе. Информацией являются координированные в трехмерном пространстве точки отражений от всех объектов, измеренные с субсантиметровой точностью и аннотированные фотоснимками, что позволяет провести идентификацию всех значимых с точки зрения безопасности движения на железнодорожном транспорте техногенных объектов.
Якушев Д. А. Трехмерное моделирование технического состояния техногенных объектов железнодорожного транспорта с помощью ПО Bentley Systems // Машинное обучение и анализ данных, 2018, 4(1). C. 44-51. doi:10.21469/22233792.4.1.02 Отсутствие единой системы измерений и низкая точность проектной документации, устанавливающей требования только к минимальной величине габаритов и междупутий, а так же действующая система оценки состояния техногенных объектов инфраструктуры, определяющая только показатель бальности, никак не связанный с пространственным положением, не оставляет даже теоретической возможности реализовать проектные решения при строительстве и содержать инфраструктуру в проектном положении при эксплуатации. Изменить ситуацию предназначена технология информационного моделирования техногенных объектов инфраструктуры железнодорожного транспорта в трехмерном координатном пространстве. К примеру, созданные в 2016 году трехмерные модели на участках МЦК позволили выявить серьезные расхождения построенного объекта с проектной документацией.
Кольцов П. П., Осипов А. С., Сотнезов Р. М., Чехович Ю. В., Якушев Д. А. Некоторые фундаментальные вопросы эмпирического оценивания систем компьютерного зрения // Машинное обучение и анализ данных, 2018, 4(1). C. 52-68. doi:10.21469/22233792.4.1.03 Статья посвящена вопросам сравнительного исследования алгоритмов обработки и анализа изображений, используемых при создании различных программно-технических средств обеспечения безопасности. Изложены основные принципы разработанной для этой цели методологии EDEM, при этом особое внимание уделено используемым при сравнительной оценке алгоритмам элементов теории нечётких множеств. Рассмотрены концепции нечётких ground truth образов и нечётких мер сходства. Приведены примеры использования методологии EDEM, в том числе для оценки алгоритмов решения некоторых задач обеспечения железнодорожной безопасности.