Т. 3, №1, 2017
Кулунчаков А.С. Порождение параметрических правил упрощения алгебраических выражений в задаче символьной регрессии // Машинное обучение и анализ данных, 2017. T. 3. № 1. C. 6-19. doi:10.21469/22233792.3.1.01 Исследуется проблема раздувания кода в символьной регрессии. Предлагается процедура упрощения суперпозиций, порождаемых символьной регрессией. Предлагаемый подход основан на идее эквивалентных преобразований суперпозиций, которая применяется к порождению параметрических правил упрощения. Помимо удаления неэффективного кода суперпозиций эти правила сокращают размерность их пространства параметров. Вычислительный эксперимент проводится на выборке по опционам Brent Crude Oil. Их волатильность аппроксимируется через цену исполнения опциона и дату окончания его срока действия.
Измаилов П.А., Кропотов Д.П. Быстрый метод обучения модели гауссовских процессов для задач классификации // Машинное обучение и анализ данных, 2017. T. 3. № 1. C. 20-35. doi:10.21469/22233792.3.1.02 Предлагается новый подход к настройке моделей гауссовских процессов для задач классификации. Стандартные методы для данной задачи имеют сложность O(n3), где n - размер обучающей выборки. Данное обстоятельство не позволяет применять эти методы к задачам с большим объемом данных. В связи с этим в литературе был предложен ряд подходов, основанных на использовании так называемых вспомогательных точек (inducing inputs). Изначально такие методы использовались для задачи регрессии, но в недавней работе Хенсмэна с коллегами (2015 г.) подобный метод был разработан для задач классификации. В этом методе используется глобальная нижняя оценка на правдоподобие, которая максимизируется по параметрам гауссовского процесса и по дополнительным вариационным параметрам с помощью стохастической оптимизации. Вычислительная сложность данного метода составляет O(nm2), где m - число вспомогательных точек, которое обычно существенно меньше, чем n. Однако число переменных в оптимизации составляет O(m2), что делает задачу поиска оптимальных параметров весьма сложной при больших значениях m. Предлагаются две новые оценки на маргинальное правдоподобие в модели гауссовских процессов со вспомогательными точками для задач классификации, а также несколько методов для их оптимизации. В новых оценках количество численно оптимизируемых переменных не зависит от числа вспомогательных точек m. В результате новые процедуры обучения становятся эффективными для широкого диапазона параметров n и m. Кроме того, в отличие от стохастического метода из статьи Хенсмэна с коллегами (2015 г.), новые процедуры не требуют настройки параметров пользователем. Это значительно облегчает использование новых методов на практике. Проведенные эксперименты показывают, что новые методы демонстрируют сравнимое или лучшее качество по сравнению с методом из работы Хенсмэна с коллегами (2015 г.).
Михеева А. В., Калинников И. И. Алгоритмы и методы геоинформационно-экспертного анализа данных в ГИС ENDDB // Машинное обучение и анализ данных, 2017. T. 3. № 1. C. 36-49. doi: 10.21469/22233792.3.1.03 Геоинформационная программная система изучения природных катастроф Земли GIS-ENDDB ориентирована на изучение причинно-следственных связей катастрофических событий в истории нашей планеты. Она содержит данные о сейсмической активности планеты, тепловом потоке, детальном рельефе, аномалиях гравитационного поля и распределении космогенных структур Земли. Постоянно развиваются методы анализа этих данных. В числе последних обновлений в подсистемах информационного и математического обеспечения GIS-ENDDB: алгоритм построения глобальных линеаментов сейсмичности по большим кругам Земли; расчет изолиний максимальных магнитуд землетрясений и осредненного механизма землетрясений на единицу площади; функции визуализации и трансформации геофизических полей, функции распределения в разрезе различных характеристик сейсмичности и данных томографии. Все это помогает расширить классические методы геотектонического исследования комплексным научно-экспериментальным подходом, позволяющим выделять современные тектонически активные границы и разломы, изучать пространственную взаимосвязь сейсмичности и космогенных палеоструктур (связанных с историческим прошлым Земли) и, в конечном итоге, интерпретировать данные с точки зрения построения сейсмогеодинамических моделей литосферы.
Двоенко С. Д., Пшеничный Д. О., Обусловленность матриц парных сравнений при коррекции метрических нарушений // Машинное обучение и анализ данных, 2017. T. 3. № 1. C. 50-60. doi:10.21469/22233792.3.1.04 В интеллектуальном анализе данных результаты исследований часто представлены в виде парных сравнений сходства или различия объектов. Для корректного применения алгоритмов машинного обучения результаты парных сравнений необходимо погрузить в метрическое пространство. Одним из условий корректного погружения является неотрицательная определенность матрицы парных близостей элементов множества друг с другом. В этом случае неотрицательные близости интерпретируются как скалярные произведения векторов в положительном квадранте гипотетического признакового пространства, а соответствующие различия представляют собой расстояния. На практике применяют различные способы оценки сходства или различия элементов множества. Во многих случаях такие функции сравнения не обладают свойствами функций близостей или расстояний, поэтому возникает необходимость в метрической коррекции произвольных экспериментальных матриц парных сравнений для обеспечения положительной определенности соответствующих им нормированных матриц скалярных произведений. Но естественное требование минимизации отклонений значений скорректированных матриц от их исходных значений обычно приводит к плохо обусловленным матрицам скалярных произведений с большим числом обусловленности. В данной работе исследуется обусловленность скорректированных матриц скалярных произведений.
Каркищенко А. Н., Мнухин В. Б. Применение гауссовых вращений для защиты графической информации // Машинное обучение и анализ данных, 2017. T. 3. № 1. C. 61-75. doi: 10.21469/22233792.3.1.05 Рассматриваются цифровые изображения над «конечными комплексными полями». Вводится преобразование гауссова вращения таких изображений и доказывается, что при определенных условиях его результат напоминает несколько уменьшенных и повернутых копий оригинала, несмотря на то что эти «копии» образованы различными пикселями. Рассмотрена возможность создания на основе гауссовых вращений защитных фонов и текстур для предотвращения несанкционированного изменения документов. Приведен метод верификации защищенных таким образом документов.
Ганебных С. Н., Ланге М. М. Об эффективности схем комплексирования данных для распознавания образов по ансамблю изображений // Машинное обучение и анализ данных, 2017. T. 3. № 1. C. 76-89. doi: 10.21469/22233792.3.1.06 Исследуются метрические многоклассовые классификаторы на ансамбле изображений от источников различной модальности. Классификаторы принимают коллективные решения по составным объектам, заданным наборами изображений, по одному от каждого источника. Разделяющие функции порождаются элементарными NN (nearest neighbor) или SVM (support vector machine) классификаторами типа «класс против всех». Исследуются две оригинальные схемы комплексирования данных, которые используют в разделяющих функциях либо композиции мер на множествах изображений источников (General Measure, GM), либо композиции мягких решений по изображениям источников (General Similarity, GS). В терминах вероятности ошибок предлагаемые схемы сравниваются с известной схемой голосования композиций жестких решений по изображениям источников (Majority Vote, MV). Сравнительная эффективность трех исследованных схем комплексирования данных продемонстрирована оценками доли ошибок распознавания лиц на ансамбле, заданном тремя декоррелированными компонентами RGB изображений. Экспериментально получены меньшие доли ошибок в схемах GM и GS по сравнению со схемой MV.
Т. 3, №2, 2017
Чуканов С. Н., Лейхтер С. В. Обучение на аффинных группах для трекинга изображений объектов // Машинное обучение и анализ данных, 2017. T. 3. № 2. C. 96-106. doi: 10.21469/22233792.3.2.01 Рассмотрены алгоритмы трекинга (отслеживания) объектов и распознавания поведения объектов на основе контроля пространственных и временных изменений параметров с использованием методов обучения. Предложены алгоритмы трекинга, в которых для аффинных преобразований используются лиевы группы. Анализируются параметры движения объекта, которые оптимизируются на многообразии, определяемого с помощью экспоненциального отображения между лиевой группой и ее алгеброй. Представлены алгоритмы совместного обучения и оценивание с помощью наблюдателя Люенбергера для задач трекинга на многообразиях.
Генрихов И. Е., Дюкова Е. В., Журавлёв В. И Построение и исследование полных решающих деревьев для задачи восстановления регрессии в случае вещественнозначной информации // Машинное обучение и анализ данных, 2017. T. 3. № 2. C. 107-118. doi: 10.21469/22233792.3.2.02 Рассматривается одна из актуальных задач машинного обучения - задача восстановления регрессии. Среди существующих подходов к решению этой задачи выделяют подход, основанный на построении регрессионных решающих деревьев (РРД). В данной работе рассматриваемая задача решается на основе построения так называемых полных k-арных РРД. По сравнению с классическим РРД конструкция полного РРД (ПРРД) позволяет более существенно использовать имеющуюся информацию, поскольку на каждой итерации в ветвлении участвуют все признаки, удовлетворяющие выбранному критерию. Ранее подход к построению ПРРД был исследован авторами на задачах восстановления регрессии с целочисленной информацией и показал повышение качества решения по сравнению с рядом других методов синтеза регрессионных деревьев. Получены новые результаты, связанные с построением полных k-арных РРД для задачи восстановления регрессии в случае вещественнозначной информации. Как известно, данный вид информации наиболее часто встречается на практике.
Князь В. В., Выголов О. В., Федоренко В. В., Севрюков В. Д. Глубокие свёрточные автоэнкодеры: стереотождествление для восстановления 3D-моделей слабо текстурированных объектов // Машинное обучение и анализ данных, 2017. T. 3. № 2. C. 119-134. doi: 10.21469/22233792.3.2.03 Восстановление трехмерных (3D) моделей объектов со слабо выраженными текстурами требует использования дескрипторов, способных разделять очень похожие друг на друга классы характерных точек. К таким объектам, например, относятся артефакты, найденные в ходе археологических раскопок, покрытые равномерным слоем грунта. Широко распространенные дескрипторы особых точек (SIFT - scale-invariant feature transform, SURF - speeded up robust features) часто не справляются с задачей стереоотождествления в случае слабо выраженных текстур. Рассматривается новый метод решения данной задачи на основе глубоких сверточных автоэнкодеров (САЭ). Автоэнкодер (АЭ) производит понижение размерности изображения на несколько порядков и формирует код, который может использоваться для решения задачи стереоотождествления. Рассмотрена архитектура АЭ, производящего кодирование и восстановление цветных изображений, разрешением 32 × 32 пиксела. Приводится сравнение результатов работы предложенного метода стереоотождествления и классических дескрипторов особых точек. Экспериментально восстановлены 3D модели археологических раскопок, производимых в ходе Босфорской экспедиции, организованной Государственным историческим музеем. Анализ полученных результатов показывает, что предложенный метод превосходит существующие дескрипторы особых точек на слабо текстурированных объектах и позволяет успешно решать задачу стереоотождествления для восстановления 3D моделей.
Мурашов Д. М., Мурашов Ф. Д. Метод локализации информативных областей с текстурой специального вида // Машинное обучение и анализ данных, 2017. T. 3. № 2. C. 135-150. doi: 10.21469/22233792.3.2.04 Рассматривается задача локализации информативных областей на изображениях с текстурой специального вида, состоящей из элементов однородной пространственной ориентации и разными пространственными частотами. Такая текстура, в частности, порождается группами мазков на изображениях фактуры произведений живописи. Задача локализации информативных областей решается как задача сегментации текстурных изображений. Предлагается метод решения задачи на основе модифицированного суперпиксельного алгоритма сегментации. Вектор описания пикселей изображения расширен текстурными признаками, вычисляемыми по компонентам структурного тензора. Выбранные признаки отражают особенности рассматриваемой текстуры. Применение суперпиксельного алгоритма с расширенным признаковым описанием изображений позволяет учесть пространственные, цветовые и текстурные свойства сегментируемых областей изображений. Для обеспечения приемлемого качества сегментации используется условие минимума меры избыточности информации. Проведен вычислительный эксперимент на тестовых текстурных изображениях и изображениях картин. Результаты сегментации изображения текстурной мозаики предложенным методом сравнивались с результатами известного метода на основе энергетических признаков Лавса. Результаты эксперимента показали эффективность предлагаемого метода.
Неделько В. М. Оценивание значимости переменных в моделях ранговой регрессии // Машинное обучение и анализ данных, 2017. T. 3. № 2. C. 151-159. doi: 10.21469/22233792.3.2.05 Для регрессионного анализа предложены варианты обобщения понятия ROC (relative operating characteristics) кривой, которые позволяют визуализировать, в какой степени построенное решение использует прогнозирующую способность переменных, а также позволяют оценить информативность переменных. В отличие от известных кривых RROC (regression ROC) и REC (regression error characteristics) предложенные варианты более точно воспроизводят поведение ROC-кривой для классификации, в частности для случайного прогноза эти кривые приближаются к прямой. Предложенная конструкция ROC-кривой близка к конструкции эмпирического моста.
Гасанов Э.Э., Мотренко А.П. Построение аппроксимирующего описания скалограммы в задаче прогнозирования движений по электрокортикограмме // Машинное обучение и анализ данных, 2017. T. 3. № 2. C. 160-169. doi: 10.21469/22233792.3.2.06 Работа посвящена декодированию движений пальцев человека по электрокортикограмме (ЭКоГ). Данные представляют собой временные ряды потенциалов электродов, расположенных на коре головного мозга, и временные ряды положений пальцев руки пяти испытуемых добровольцев. Решается задача прогнозирования движений пальцев руки по временным рядам показаний электродов. В качестве признаков, описывающих сигнал, используется вейвлет-преобразование ЭКоГ сигналов для различных частот и различных промежутков времени. Объединение скалограмм, построенных для каждого электрода, описывает временной ряд в пространственно-частотно-временной области. Для снижения размерности признакового пространства используется метод локальной аппроксимации: скалограмма для каждого электрода приближается параметрической моделью. Для дальнейшего снижения размерности признакового пространства используется метод частичных наименьших квадратов. Приближение скалограмм параметрическими моделями не привело к существенному ухудшению прогноза, хотя значительно сократило количество признаков.
Т. 3, №3, 2017
Федотов Н.Г., Сёмов А.А., Моисеев А.В. Исследование быстродействия распознавания 3D изображения методами стохастической геометрии в зависимости от количества опорных точек на сфере // Машинное обучение и анализ данных, 2017. T. 3. № 3. C. 176-192. doi: 10.21469/22233792.3.3.01 Рассматривается новый подход к распознаванию трехмерных (3D) изображений, дающий инвариантное описание объекта при любой его пространственной ориентации. Метод позволяет параллельно с распознаванием производить анализ исходного изображения, а также конструировать признаки с заданными свойствами. Предлагаемый подход основан на методах стохастической геометрии и функционального анализа. Разработанное авторами гипертрейс-преобразование создает 3D трейс-образ исходного пространственного объекта, который является удобным инструментом для анализа 3D изображения в отличие от математического аппарата других методов. Стохастическое сканирование со случайными параметрами более эффективно по сравнению с детерминированным сканированием с точки зрения соотношения «надежность-быстродействие» распознавания 3D изображений. Приведены результаты экспериментов, показывающие теоретическую и практическую значимость, а также эффективность предлагаемого подхода. Анализируется быстродействие распознавания 3D объектов в зависимости от количества опорных точек на сфере c использованием различных видов сканирования. Предлагаются возможные пути ускорения работы распознающей системы.
Старожилец В.М., Чехович Ю.В. Об идентификации статистической модели транспортных потоков с использованием групп АТС // Машинное обучение и анализ данных, 2017. T. 3. № 3. C. 193-202. doi: 10.21469/22233792.3.3.02 Предлагается статистическая модель транспортных потоков для моделирования движения транспортных средств на автомагистралях, идентифицируемая на данных из гетерогенных источников. Модель симулирует движение групп транспортных средств по магистрали с использованием фундаментальной диаграммы на выбранном участке автодороги для расчета скорости группы. Проводятся вычислительные эксперименты для подтверждения работоспособности модели, а также анализа ее поведения при моделировании ситуации перекрытия одной из полос автомагистрали. Критерием качества выбрана среднеквадратичная ошибка между предсказанным числом проехавших автотранспортных средств и их реальным числом. Используются данные дорожных датчиков Центра организации дорожного движения, а также данные, полученные с помощью видеосъемки.
Самсонов Н.А., Гнеушев А.Н. Дескриптор в аккумуляторном пространстве Хафа градиентного поля изображения для детектирования пешеходов // Машинное обучение и анализ данных, 2017. T. 3. № 3. C. 203-215. doi: 10.21469/22233792.3.3.03 Рассматривается задача выделения признаков для распознавания пешеходов на изображении. Наиболее популярный и эффективный подход к выбору признаков для распознавания объекта на изображении - использование дескриптора на основе гистограмм ориентаций градиентов (Histograms of Oriented Gradients, НОG). В работе предлагается использовать аккумуляторное пространство Хафа для обобщения HOG дескриптора путем получения проекций не только ориентаций, но и положений границ на локальном участке изображения - гистограмм аккумуляторного пространства Хафа (Hough Accumulator Histograms, HAH). Аккумуляторное пространство Хафа строится на основе лучевого преобразования Радона градиентного поля изображения. Предлагаемые методы были протестированы совместно с линейным классификатором метода опорных векторов (Support Vector Machine, SVM) на базе изображений пешеходов INRIA. Результаты экспериментов показали лучшую разделяющую способность новых дескрипторов, уменьшение ложных срабатываний детекторов в сравнении с HOG.
Т. 3, №4, 2017
Сарманова О.Э., Буриков С.А., Доленко С.А., Исаев И.В., Светлов В.А., Лаптинский К.А., Доленко Т.А. Оценка перспектив использования методов машинного обучения при решении задачи мониторинга выведения тераностических флуоресцентных нанокомпозитов из организма // Машинное обучение и анализ данных, 2017. T. 3. № 4. C. 222-238. doi: 10.21469/22233792.3.4.01 Представлены результаты оценки перспектив применения методов машинного обучения для разработки мониторинга в человеческой урине выведенных из организма тераностических нанокомпозитов и их компонентов по спектрам их флуоресценции. Решалась задача определения в урине компонентов нанокомпозитов - флуоресцирующих углеродных точек (УТ), покрытых сополимером (СП) и лигандами фолиевой кислоты (ФК). Задача решалась в рамках двух подходов - как задача кластеризации (с использованием алгоритма k-means и разрабатываемого авторами алгоритма адаптивного построения иерархических нейросетевых классификаторов) с анализом состава полученных кластеров и как задача классификации. Ни одно из полученных разбиений на кластеры не продемонстрировало явно выраженной чувствительности или специфичности по отношению к типам содержащихся в суспензии наночастиц, что привело к необходимости использовать обучение с учителем (классификацию данных). При этом использовался набор различных архитектур нейронных сетей и 4 альтернативные процедуры отбора существенных входных признаков: по кросс-корреляции, по кросс-энтропии, по стандартному отклонению и с помощью анализа весов нейронной сети. Наилучшие результаты решения задачи классификации нанокомпозитов и их компонентов в урине обеспечивает персептрон с 8 нейронами в единственном скрытом слое, натренированный на наборе существенных входных признаков, выделенных с помощью кросс-корреляции. Точность распознавания, усредненная по всем 5 классам, составила 72,3%.
Дюкова Е. В., Масляков Г. О., Прокофьев П. А. О дуализации над произведением частичных порядков // Машинное обучение и анализ данных, 2017. T. 3. № 4. C. 239-249. doi: 10.21469/22233792.3.4.02 Рассматривается одна из центральных труднорешаемых задач логического анализа данных - дуализация над произведением частичных порядков. Исследуется важный частный случай, когда каждый порядок является цепью. Показано, что поставленная задача сводится к поиску неприводимых покрытий булевой матрицы (дуализации булевой матрицы), специальным образом построенной по исходным данным. Приведены результаты численных экспериментов, базирующиеся на эффективном «в типичном случае» асимптотически оптимальном поиске неприводимых покрытий булевой матрицы. Ранее для решения рассматриваемой задачи предлагался подход, представляющий интерес, в основном, для теории и имеющий целью построение инкрементальных алгоритмов c квазиполиномиальными временными оценками «для худшего случая».
Карякина А. А., Мельников А. В. Сравнение моделей прогнозирования оттока клиентов интернет-провайдеров // Машинное обучение и анализ данных, 2017. T. 3. № 4. C. 250-256. doi: 10.21469/22233792.3.4.03 На основе данных российского интернет-провайдера прогнозируется отток клиентов. Определены основные подходы к предварительной обработке архивных данных. Для сравнения использованы алгоритмы классификации: деревья решений, случайный лес, наивный байесовский алгоритм, градиентный бустинг, метод k-ближайших соседей. В качестве первой выборки сформирован экспериментальный массив входных данных размера 6 × 400 000, в который специально подобраны признаки из обращений (id, сервис, признак, причина, результат, уход). В качестве второй выборки сформирован массив входных данных размера 13 × 400 000. Признаками для него были выбраны: id, количество обращений по каждому типу сервиса, по каждому типу результата, общее количество обращений у клиента, уход. Построены модели для прогнозирования с наилучшими параметрами. В таблицах показаны результаты проведенного исследования с разными наборами данных на разных классификаторах.
Чигринский В. В., Матвеев И. А. Исследование движения структуры радужной оболочки глаза методом оптического потока // Машинное обучение и анализ данных, 2017. T. 3. № 4. C. 257-266. doi: 10.21469/22233792.3.4.04 Исследуется нелинейное движение элементов радужной оболочки глаза при изменении размеров зрачка. Для слежения за перемещением элементов радужки используются методы оптического потока. Цель работы - оценка вида радиально-симметричной функции, описывающей положение элементов радужной оболочки в зависимости от радиуса зрачка. Для оценки применимости метода оптического потока предлагается генерация синтетических данных в соответствии с заранее выбранной моделью деформации радужки, реализация метода на построенных данных и сравнение полученных результатов с ожидаемыми. Для тестирования алгоритма используется видео реакции человеческого глаза на вспышку света, полученное с помощью специального прибора.