Т. 1, №7, 2014
Рябенко Е.А. Мультипликативный метод неотрицательного матричного разложения с АБ-дивергенцией и его сходимость// Машинное обучение и анализ данных. 2014. T. 1, № 7. C. 800-816. Мультипликативный метод неотрицательного матричного разложения для случая, когда точность приближения модели измеряется с помощью АБ-дивергенции, вблизи границы неотрицательной области может сходиться к нестационарной точке. Предлагается модифицированный мультипликативный метод, в котором за счёт отделения элементов матриц от нуля константой удаётся показать не только монотонность невозрастания функции потерь, но и тот факт, что любая предельная точка этого метода является стационарной точкой отделённой от нуля задачи. Разреживание получаемых таким методом матриц даёт решение, являющееся стационарной точкой исходной задачи с точностью до . Для частного случая, соответствующего норме Фробениуса, показано, что метод всегда сходится.
Кушнир О.А., Середин О.С., Степанов А.В. Экспериментальное исследование параметров регуляризации и аппроксимации скелетных графов бинарных изображений// Машинное обучение и анализ данных. 2014. T. 1, № 7. C. 817-827. В работе систематизируются и уточняются сведения о параметрах стабилизации непрерывного скелетного графа --- коэффициентах регуляризации и аппроксимации. Также приводится алгоритм вычисления диаметра минимальной описанной вокруг скелета окружности, являющегося масштабным множителем для применения коэффициента аппроксимации. Проводятся экспериментальные исследования влияния коэффициентов регуляризации и аппроксимации на топологию скелета и выдвигаются предположения по определению их адекватных значений для выделения в исходном скелете его базового подграфа --- устойчивого дескриптора формы фигуры при наличии шумовых изменений ее границы.
Матвеев И.А., Трекин А.Н. Метод обнаружения автомобилей на аэрокосмических снимках// Машинное обучение и анализ данных. 2014. T. 1, № 7. C. 828-834. Представлен алгоритм обнаружения автомобилей на цветных изображениях, полученных аэрофотосъемкой. Подходом к решению является то, что большинство автомобилей окрашено в один цвет и имеет сходные размеры. Это позволяет выделять автомобили на фоне как области с цветовыми характеристиками, отличающимися от фоновых и имеющие определенные размер и форму. Области строятся путем иерархического объединения более мелких на основании сходства цветовых и пространственных характеристик. Проведено тестирование алгоритма на наборе изображений, содержащих в общей сложности 2226 автомобилей.
Ларин А.О., Середин О.С., Кондрашов В.В. Комбинирование одноклассовых классификаторов в задачах сегментации изображений, содержащих объекты топологии плат микросборок// Машинное обучение и анализ данных. 2014. T. 1, № 7. C. 835-842. Решение задачи автоматизации установок лазерной подгонки резистивных элементов требует предварительной сегментации элементов топологической структуры платы микросборки на основе изображения, полученного с видеокамеры. Ввиду специфики работы системы, применение стандартных методов сегментации изображения может оказаться затруднительным. В данной работе для решения этой задачи предлагается использовать результаты распознавания одноклассового классификатора Тэкса на основе признаков LBP.
Дюкова Е.В., Никифоров А.Г., Прокофьев П.А. Статистически эффективная схема распараллеливания алгоритмов дуализации // Машинное обучение и анализ данных. 2014. T. 1, № 7. C. 843 - 853. Одной из центральных задач дискретной математики является дуализация, которая может быть сформулирована как построение всех неприводимых покрытий булевой матрицы. Это задача является вычислительно сложной. В данной работе предлагается эффективная в типичном случае схема распараллеливания асимптотически оптимальных алгоритмов дуализации. Предлагаемая схема основана на статистическом анализе множества неприводимых покрытий булевой матрицы.
Пушняков A.C. О комбинаторных оценках максимальных -разбиений метрических конфигураций // Машинное обучение и анализ данных. 2014. T. 1, № 7. C. 854 - 862. Рассматривается метрическое пространство с конечным числом точек. Вводится понятие максимального -разбиения. Рассматриваются нижние оценки на мощность максимального множества диаметра не более при ограничении сверху на число расстояний, превосходящих . Показано, что в случае нельзя гарантировать линейную по мощности пространства оценку. В случае получена неулучшаемая оценка.
Панов А.И. Алгебраические свойства операторов распознавания в моделях зрительного восприятия // Машинное обучение и анализ данных. 2014. T. 1, № 7. C. 863 - 874. В статье рассматривается задача моделирования зрительного восприятия, приводятся основные принципы построения нисходящих моделей. На основе этих принципов приводится формальное определение распознающего блока, как базового математического объекта большинства моделей восприятия. Описывается алгоритм его работы, на основе которого строятся операторы распознавания. Проводится постановка классической статической и динамической задач распознавания и исследуются свойства корректности построенных операторов с использованием алгебраического подхода Ю.И. Журавлева.
Дербенёв Н.В., Козлюк Д.А., Никитин В.В., Толчеев В.О. Экспериментальное исследование методов выявления нечетких дубликатов научных публикаций // Машинное обучение и анализ данных. 2014. T. 1, № 7. C. 875 - 884. Рассмотрены известные методы, в том числе авторский— обобщенный коэффициент ассоциативности (ОКА), для выявления нечетких дубликатов в научных публикациях и критерии эффективности их работы. Сформулирован целевой критерий работы методов, сочетающий требования к полноте и к точности. Составлена выборка пар документов, представленных библиографическими описаниями (заголовками и аннотациями), получены экспертные оценки схожести документов в парах. Проведены эксперименты по установлению наибольшей точности результатов различных методов при ограничении на полноту. Для коэффициента ассоциативности Джаккарда и ОКА, продемонстрировавших наилучшие результаты, предложены и апробированы способы повышения точности до 74% при полноте 90%. Результаты проверены путем анализа полнотекстовых описаний части документов исследуемой выборки, доступных публично.
Двоенко С.Д., Пшеничный Д.О. Оптимальная коррекция метрических нарушений в матрицах парных сравнений // Машинное обучение и анализ данных. 2014. T. 1, № 7. C. 885 - 890. В задачах интеллектуального анализа экспериментальные данные часто представлены результатами парных сравнений объектов между собой. В отсутствие исходного признакового пространства условием корректного погружения множества объектов в метрическое пространство является неотрицательная определённость матрицы парных сравнений элементов множества друг с другом. В этом случае близости интерпретируются как скалярные произведения, а соответствующие различия — как расстояния. В работе предлагается способ коррекции нормированных матриц парных близостей с тем, чтобы скорректированная матрица была положительно определённой и минимально отличающейся от исходной.
Загоруйко Н.Г., Кутненко О.А., Зырянов А.О., Леванов Д.А. Обучение распознаванию без переобучения // Машинное обучение и анализ данных. 2014. T. 1, № 7. C. 891 - 901. Описывается процесс обучения, состоящий в выборе подмножества наиболее информативных объектов («столпов») и признаков, и в автоматическом обнаружении момента начала переобучения. Сходство между объектами оценивается функцией конкурентного сходства (FRiS-функцией). На каждом шаге увеличения числа столпов в фиксированном признаковом пространстве вычисляется качество описания выборки (или оценка разделимости классов). Сформулирована и подтверждена гипотеза о том, что точка перегиба кривой, описывающей разделимость классов, может служить сигналом о начале переобучения. На этом основании разработан алгоритм FRiS-C-GRAD обучения без переобучения. Описываются результаты тестирования алгоритма на модельных задачах.
Корнилов Ф.А. Поиск структурных различий изображений: алгоритмы и методы исследования // Машинное обучение и анализ данных. 2014. T. 1, № 7. C. 902 - 919. В работе рассматривается задача поиска структурных различий на разновременных космических снимках земной поверхности, под которыми понимаются появившиеся или исчезнувшие объекты местности. В качестве отправной точки служит морфологический анализ изображений Ю.П.Пытьева. Вводится общая формулировка понятия структуры изображения и структурных различий. Приводится ряд алгоритмов, решающих поставленную задачу для полутоновых изображений, а также предлагается вариант морфологического проектора для работы с цветными изображениями. Для алгоритма, основанного на морфологическом проекторе, приводятся методика построения распределения яркости выходного изображения в случае возмущения входных изображений аддитивным шумом, и определяются формула оптимального порога и оценки ошибок первого и второго рода результатов работы алгоритма для нее. Формулируется вычислительная методика сравнения алгоритмов поиска структурных различий изображений, для чего вводится специальная математическая модель, позволяющая максимально приблизить эксперимент к реальным задачам. С помощью этой методики определяется наилучший процент верного обнаружения (ложной тревоги), который можно получить при зафиксированном максимально допустимом уровне ложной тревоги (минимально допустимом уровне верного обнаружения), а также приводятся результаты сравнения качества работы предложенных алгоритмов между собой. Эксперименты на реальных данных показывают, что предложенные алгоритмы подходят для прикладного применения.
Каркищенко А.Н., Мнухин В.Б. Симметризация точек изображения, заданных статистическими выборками // Машинное обучение и анализ данных. 2014. T. 1, № 7. C. 920 - 935. Работа посвящена построению отражательно и вращательно симметричных конфигу раций точек изображения по заданным, но не обладающим этим свойством точкам, про которые известно, что они должны быть симметричны. Данная задача называется задачей симметризации и находит многочисленные применения. В предыдущих работах авторов рассматривались методы ее решения при условии, что каждая точка задана некоторой оценкой своего положения, которое может не совпадать с истинным. Были предложены решения для случаев отражательной и вращательной симметрии с разной степенью априорной неопределенности. Оптимальность получаемых решений выражалась в том, что симметризация достигалась минимальным уклонением «симметризованных» точек от первоначальных положений по евклидовой метрике. В отличие от предшествующих публикаций в данной работе мы рассматриваем более общий случай, когда точки задаются статистическими выборками координат. При этом требуется, соответственно, «статистическое» понимание оптимальности решений. Предлагаются методы построения по статистическим выборкам гарантированно симметричных конфигураций, оптимальных в том смысле, что они обладают наибольшей плотностью вероятности появления. Показано, что эти задачи сводятся к стандартной постановке задачи минимизации в пространстве с метрикой Махаланобиса. Предлагается также нормированная мера симметричности исходных статистических данных. Для иллюстрации методов симметризации приводятся результаты моделирования.
Т. 1, №8, 2014
Мурашов Д.М., Березин А.В., Иванова Е. Сравнение изображений картин по информативным фрагментам // Машинное обучение и анализ данных. 2014. T. 1, № 8. C. 941 - 948. Рассматривается задача сравнения изображений картин по информативным фрагментам для целей атрибуции произведений живописи. Для сравнения выбираются фрагменты со сходным содержанием. Используемые текстурные признаки описывают фактуру картины и являются характеристикой стиля живописи художника. В качестве признаков применяются гистограммы локальной ориентации хребтов полутонового рельефа изображения и локальной ориентации простых окрестностей. Разработана процедура извлечения признаков. Для сравнения информативных фрагментов применяется теоретико-информационная мера различия на основе дивергенции Кульбака-Лейблера. Предлагается методика сравнения изображений картин по значениям меры различия фрагментов. Методика тестировалась на изображениях портретов, написанных в 18-19 веках. Результаты экспериментов показали возможность использования разработанной методики в технико-технологических исследованиях для целей атрибуции.
Лепский А.Е. Сравнение искаженных гистограмм вероятностными методами // Машинное обучение и анализ данных. 2014. T. 1, № 8. C. 949 - 965. В работе исследована задача об устойчивости вероятностных способов сравнения гистограмм относительно их искажений. Под сравнением понимается отношение полного предпорядка на множестве всех гистограмм, согласованное с условием упорядоченности аргументов гистограмм по возрастанию их важности. Под искажением понимаются интервальные поточечные изменения. Найдены необходимые и достаточные условия на уровень искажений гистограмм, при которых сравнение двух гистограмм не изменяется. Исследование проведено для трех популярных вероятностных методов сравнения: с помощью математического ожидания, с помощью стохастического доминирования, с помощью стохастического предшествования. Доказанные утверждения проиллюстрированы исследованиями устойчивости сравнений гистограмм результатов ЕГЭ абитуриентов, поступивших в вузы.
Каркищенко А.Н., Мнухин В.Б. Топологическая фильтрация для распознавания и анализа симметрии цифровых изображений // Машинное обучение и анализ данных. 2014. T. 1, № 8. C. 966 - 987. Ряд методов обработки и анализа цифровых изображений в частотной области основан на формальном переносе свойств непрерывного преобразования Фурье на дискретный случай. Это зачастую приводит к искажениям, называемым алиасинг или наложение. В работе алиасинг рассматривается как следствие различной топологии частотных областей непрерывного и дискретного преобразований Фурье: сферы в непрерывном случае, и тора в дискретном. Устанавливается связь между непрерывным и дискретным преобразованиями Фурье, и на её основе предлагается метод топологической фильтрации, уменьшающий эффекты алиасинга в задачах совмещения и анализа симметрии цифровых изображений в частотной области.
Генрихов И.Е. О критериях ветвления, используемых при синтезе решающих деревьев // Машинное обучение и анализ данных. 2014. T. 1, № 8. C. 988 - 1017. Предложен новый критерий ветвления "— критерий максимизации доли объектов различных классов (Maximum Differences of Classes (MDC)). На модельных данных проанализированы особенности критерия MDC в сравнении с такими известными критериями, как: Gain, GainRatio, Gini Index, Twoing и критерий равномерного разбиения. На большом числе прикладных задач проведено исследование структурных и распознающих свойств решающего дерева в зависимости от применяемого критерия ветвления: глубина дерева, средняя глубина листьев дерева, «сбалансированность» дерева (разница между глубиной и средней глубиной листьев дерева), взвешенная глубина распределения описаний обучающих объектов по листьям дерева, «оптимальность» распределения обучающих объектов по листьям дерева (абсолютная разница между средней глубиной листьев дерева и взвешенной глубиной распределения описаний обучающих объектов по листьям дерева), качество дерева (с помощью метода «leave-one-out» и анализа распределения отступов обучающих объектов), число листьев дерева. Показано, что новый критерий ветвления позволяет получить более оптимальное решающее дерево по сравнению с рассмотренными критериями.
Матвеев И. А., Новик В.П. Новый способ выбора наилучшего эталона радужки из последовательности // Машинное обучение и анализ данных. 2014. T. 1, № 8. C. 1018 - 1026. В задаче идентификации по радужке предложен новый способ выбора наилучшего биометрического эталона из группы, построенной по последовательности регистрируемых изображений. Метод основан на анализе матрицы расстояний группы эталонов. Осуществлено сравнение со стандартным подходом, использующим признаки качества исходного изображения. Указано, что признаки качества изображения разрабатываются для задачи отбраковки плохих изображений и мало подходят для задачи выбора наилучшего изображения. Вычислительные эксперименты проведены на нескольких базах данных, находящихся в открытом доступе, общим объёмом более 70000 изображений. Тесты показывают, что предложенный метод даёт несколько лучшее качество выбранных эталонов. При этом, он не требует разработки дополнительных мер качества, а использует имеющееся вычисление расстояния.
Чихрадзе К.К., Коршунов А.В., Бузун Н.О., Кузюрин Н.Н. Иcпользование модели социальной сети с сообществами пользователей для распределённой генерации случайных социальных графов // Машинное обучение и анализ данных. 2014. T. 1, № 8. C. 1027 - 1047. Для тестирования алгоритмов определения сообществ пользователей в социальных графах принято использовать графы с известной структурой сообществ в качестве тестовых данных. В статье предложен распределённый метод для генерации случайных социальных графов с реалистичной структурой пользовательских групп. В предложенной модели поддерживается несколько недавно открытых свойств структуры социальных сообществ: плотные пересечения сообществ, суперлинейный рост количества рёбер внутри сообщества в зависимости от его размера, а также степенное распределение количества сообществ, к которым принадлежит пользователь. Метод реализован с использованием фреймворка для распределённых вычислений Apache Spark и показал линейную масштабируемость на кластере Amazon EC2. Сгенерированные графы обладают свойствами реальных социальных сетей и могут применяться для оценки точности работы алгоритмов поиска сообществ пользователей в социальных графах c более чем пользователей.
Дюкова Е.В., Прокофьев П.А. Построение и исследование новых асимптотически оптимальных алгоритмов дуализации // Машинное обучение и анализ данных. 2014. T. 1, № 8. C. 1048 - 1067. В статье исследуется подход к синтезу эффективных в типичном случае (on average) алгоритмов для задачи дуализации, представленной в матричной формулировке (точный статус этой задачи в плане полиномиальной разрешимости не определен). Построены новые асимптотически оптимальные алгоритмы дуализации. Показано, что эти алгоритмы позволяют сократить временные затраты по сравнению с наиболее эффективными из известных алгоритмов дуализации.
Двоенко С.Д., Шанг Д.В. Оценка параметрических ациклических марковских моделей для зависимых объектов // Машинное обучение и анализ данных. 2014. T. 1, № 8. C. 1068 - 1076. В современной теории распознавания образов объекты часто классифицированы с учетом взаимосвязей между ними. Марковские случайные поля являются наиболее популярными моделями таких объектов. Взаимосвязи между соседними объектами представлены графом соседства. Как правило, для графов общего вида с циклами задача распознавания марковских случайных полей обладает свойствами задачи класса NP. В данной работе предлагается заменить граф с циклами линейной комбинацией конечного или счетного множества ациклических (древовидных) параметрических марковских моделей, для которых проблема распознавания марковских случайных полей может быт эффективно решена. Предлагается упрощенная процедура скользящего контроля для статистической оценки качества решения и настройки параметров линейной комбинации, где марковские параметры рассматриваются как структурные.
Дорофеюк А.А., Дорофеюк Ю., Покровская И.В., Чернявский А.Л. Независимая многовариантная экспертиза в задачах исследования слабо формализованных систем управления // Машинное обучение и анализ данных. 2014. T. 1, № 8. C. 1077 - 1088. Разработана модификация метода коллективной многовариантной экспертизы (КМВЭ), адекватная задачам межведомственного типа, названная методом независимой коллективной многовариантной экспертизы (НМВЭ). Основное и весьма существенное отличие разработанного метода НМВЭ от метода КМВЭ состоит в том, что в процессе экспертизы разрабатываются не варианты решения исходной задачи в целом, а выявляются и разрабатываются варианты решения относительно независимых проблем, связанных с исходной задачей, совокупное решение которых обеспечивает также решение и исходной задачи. Метод независимой коллективной многовариантной экспертизы использовался при решении крупномасштабных прикладных задач.
Емельянов Г.М., Михайлов Д.В., Козлов А.П. Формирование единиц представления предметных знаний в задаче их оценки на основе открытых тестов // Машинное обучение и анализ данных. 2014. T. 1, № 8. C. 1089 - 1106. Разработка и анализ результатов открытых тестов требует автоматизации формирования компьютерной модели экспертных знаний, исходно представляемых текстами предметно-ограниченного подмножества естественного языка (ЕЯ). Актуальная при этом задача — выделение необходимого и достаточного набора признаков единицы знаний, оцениваемых с применением теста открытой формы. Для решения указанной задачи в работе предлагается методика выделения структурных единиц, определяющих лексическую сочетаемость и наибоолее характерные синтаксические связи слов в составе множества семантически эквивалентных (СЭ) ЕЯ-описаний фактов предметной области теста. Ранжирование выделяемых связей осуществляется на основе частоты их встречаемости, а также значения среднеквадратического отклонения расстояния между словами в линейном ряду фразы относительно заданного множества СЭ-фраз. Предложенная методика дает минимум четырехкратное сокращение объема текстовой информации, необходимой для оценки правильности ответа испытуемого на вопрос открытого теста.
Варламов М.И., Коршунов А.В. Расчет семантической близости концептов на основе кратчайших путей в графе ссылок Википедии // Машинное обучение и анализ данных. 2014. T. 1, № 8. C. 1107 - 1125. В задачах автоматической обработки текстовой информации часто возникает необходимость определить, насколько сильно та или иная пара концептов (понятий) связана по смыслу, — иначе говоря, оценить степень семантической близости между ними. В данной работе исследуется применимость к вычислению семантической близости пары концептов расстояния между соответствующими им статьями в графе ссылок Википедии. При этом для оценки расстояния между вершинами в графе используется длина кратчайшего пути между ними. Предлагается ряд мер семантической близости, использующих расстояния по различным типам ссылок Википедии; выявляются типы ссылок, наиболее релевантные для данной задачи (внутритекстовые и категорийные). В сравнении с мерой Дайса, используемой в системе анализа текстов Текстерра, показывается, что использование кратчайших путей позволяет как повысить корреляцию получаемых оценок близости с экспертными, так и достичь лучших результатов в задаче разрешения лексической многозначности.
Ланге М.М., Ганебных С.Н. Эффективность иерархической классификации в терминах соотношения качество–сложность // Машинное обучение и анализ данных. 2014. T. 1, № 8. C. 1126 - 1136. Исследуется многоклассовая метрическая модель распознавания объектов в пространстве древовидных представлений с многоуровневым разрешением. На множестве представлений построен иерархический ансамбль эталонов в виде наборов нарастающей мощности, которые образуют многоуровневую сеть. Рассмотрено параметрическое семейство решающих алгоритмов по критерию ближайшего эталона на основе процедур иерархического и переборного поиска решения в сети эталонов. Для решающих алгоритмов получены аналитические оценки вычислительной сложности и экспериментальные оценки вероятности ошибки распознавания объектов составного источника, заданного полутоновыми изображениями лиц, жестов руки и подписей. Эффективность иерархических и переборного алгоритмов продемонстрирована сравнительными зависимостями доли ошибок от вычислительной сложности.
Т. 1, №9, 2014
Двоенко С.Д. Двухкомпонентная функция качества кластеризации множества элементов, представленных парными сравнениями // Машинное обучение и анализ данных. 2014. T. 1, № 9. C. 1141 - 1153. Рассмотрены варианты известного алгоритма k-средних, в которых не требуется вычислять собственно средние по кластерам. В новых версиях алгоритма k-средних выполняются перестановки на матрице парных сравнений так, что в случае помещения анализируемого множества объектов в признаковое пространство достигается тот же самый результат кластеризации. Рассмотрена новая двухкомпонентная целевая функция качества кластеризации как минимизируемая комбинация внутрикластерных дисперсий (квадратов расстояний) с близостью кластеров между собой или, в двойственной формулировке, как максимизируемая комбинация внутрикластерных близостей с дисперсией (квадратами расстояний) между кластерами. Показано, что качество кластеризации удается улучшить по сравнению с обычным критерием качества кластеризации.
Мандрикова О.В., Заляев Т.Л. Моделирование вариаций космических лучей и выделение аномалий на основе совмещения вейвлет-преобразования с нейронными сетями // Машинное обучение и анализ данных. 2014. T. 1, № 9. C. 1154 - 1167. В работе исследованы данные нейтронных мониторов станций «Афины», «Новосибирск» и «Апатиты» за 2005–2013 гг. и обнаружены аномальные особенности, возникающие в вариациях космических лучей во время сильных магнитных бурь. Исследования основаны на разработанном авторами методе моделирования компонент данных космических лучей путем совмещения вейвлет-преобразования и нейронных сетей прямого распространения. Выполняется кратномасштабное вейвлет-разложение данных и выделяются информативные компоненты. Полученные компоненты аппроксимируются нейронными сетями прямого распространения. Метод позволяет выполнить детальный анализ структуры данных и путём анализа ошибок нейронной сети выявить аномальные особенности (Форбуш-эффекты) во временном ходе космических лучей.
Чучупал В.Я., Коренчиков А.А. Моделирование вариативности произношения для уменьшения уровня ошибок при распознавании речи // Машинное обучение и анализ данных. 2014. T. 1, № 9. C. 1168 - 1179. Рассматривается возможность снижения уровня ошибок при автоматическом распознавании русской речи за счёт использования моделей вариативности произношения. Определена вероятностная модель вариативности произношения, способы оценки её параметров и реализации в рамках стандартных процедур распознавания речи. Показано, что использование явных моделей вариативности произношения может быть эффективным способом снижения уровня ошибок при распознавании русской разговорной речи, в том числе при несоответствии характеристик обучающего и тестового речевого материала.
Кузнецов Е.Н., Анашкина А.А., Есипова Н.Г., Туманян В.Г. Кластер-анализ пространственных контактов аминокислотных остатков белков с нуклеотидами ДНК // Машинное обучение и анализ данных. 2014. T. 1, № 9. C. 1180 - 1199. Предлагается классификация аминокислотных остатков по признакам контактов аминокислот белков с нуклеотидами ДНК. Аминокислотные остатки обладают множеством различных свойств и функций, и могут одновременно принадлежать к разным классам. Поэтому в работе рассматриваются классификации с разными типами размытости. Для определения количества и площади контактов каждой аминокислоты с каждым нуклеотидом в 1937 комплексах использовали разбиение Вороного-Делоне. Задача классификации аминокислотных остатков с разными типами размытости решалась с помощью общего вариационного подхода. Было показано, что около 30% всех контактов между аминокислотами и нуклеотидами в комплексах белок-ДНК являются неслучайными. Методами четкой классификации показано существование инвариантов кластеризации аминокислот. Методами размытой классификации показано, что классификация аминокислот на шесть классов является оптимальной для задачи белок-нуклеинового распознавания.
Федотов Н.Г., Семов А.А., Моисеев А.В. Интеллектуальные возможности гипертрейс-преобразования: конструирование признаков с заданными свойствами // Машинное обучение и анализ данных. 2014. Т. 1, № 9. С. 1200 - 1214. В настоящей статье предлагается новый подход к распознаванию трехмерных (3D) объектов, основанный на современных методах стохастической геометрии и функционального анализа. Данный метод обладает рядом преимуществ и возможностями интеллектуального анализа данных. Так, признаки имеют гипертриплетную композиционную структуру, которая способствует не только легкой машинной реализации этого алгоритма, но и конструированию большого числа признаков. Благодаря построению строгой математической модели, аналитик может строить признаки не интуитивно, а аналитически, описывая каждый класс объектов и их особенности (в частности, конструирование геометрических признаков). Трехмерное трейс преобразование позволяет создавать инвариантное описание пространственного объекта, которое является более устойчивым к искажениям и координатным шумам, чем описание, получаемое в результате процедуры нормализации объекта. Возможность регулировать свойства построенных признаков заметно повышает интеллектуальные возможности 3D трейс преобразования, что, несомненно, является его преимуществом. Доказательством разработанной теории и математической модели является множество построенных теоретических примеров гипертриплетных признаков, имеющихся описанные определенные свойства. В статье анализируется роль функционалов, входящих в композиционную структуру гипертриплетного признака. Описываются расширенные возможности 3D трейс преобразования, в частности, извлечение в той же технике сканирования информации о пространственном положении и ориентации трехмерного объекта. Приводится описание многих способов интеллектуального анализа 3D изображений. Например, одной из интеллектуальных способностей предлагаемого метода является высокоуровневая предобработка, обработка и постобработка 3D изображения в одной технике сканирования.
Филипенков Н.В., Петрова М.А. О некоторых вопросах анализа пучков временных рядов // Машинное обучение и анализ данных. 2014. T. 1, № 9. C. 1215 - 1231. В настоящей работе рассматривается разрабатываемый авторами подход к поиску закономерностей в пучках нестационарных k-значных временных рядов. Этот подход позволяет выявлять закономерности, которые подвергаются «плавным» структурным изменениям с течением времени. Настоящая работа посвящена описанию результатов апробации разрабатываемого подхода на модельных и реальных задачах. Испытания на модельных задачах показали, что подход позволяет эффективно находить заложенные закономерности при достаточно высоком уровне шума. Эксперименты на модельных пучках временных рядов показали, что использование меры сходства закономерностей в функционале качества существенно повышает точность прогнозирования. В рамках экспериментов был получен диапазон весов, при котором достигается максимальное качество распознавания. Анализ реальных временных рядов с применением разрабатываемого алгоритма свидетельствовал об эффективности алгоритма при краткосрочном прогнозировании. Вместе с тем алгоритм решает и задачу интеллектуального анализа данных, предлагая закономерности, описывающие взаимосвязь одномерных временных рядов. Таким образом, апробация разрабатываемого подхода к прогнозированию процессов с плавно меняющимися закономерностями на модельных и реальных данных позволяет судить о достаточной эффективности разрабатываемых авторами алгоритмов при анализе пучков временных рядов с плавно меняющимися закономерностями.
Остапец А.А. Определение местоположения телефона по данным сенсоров // Машинное обучение и анализ данных. 2014. T. 1, № 9. C. 1232 - 1245. Данная статья посвящена использованию методов машинного обучения в задаче определения местоположения телефона (сумка, карман, рука), который несет движущийся человек. Задача является актуальной и имеет множество практических применений, как, например, автоматическое включение/выключение энергозатратных сервисов при различном положении мобильного устройства. Поставленная задача решается по сигналам двух датчиков телефона – акселерометра и гироскопа. Основной смысл работы - это способ выбора и предобработки признаков, позволяющий уменьшить влияние шума на результат классификации и анализировать активность в независимости от пространственной ориентации мобильного устройства. Результаты, полученные в ходе вычислительного эксперимента, подтверждают применимость предложенного подхода.
Чуличков А.И., Юань Б. Оценки, минимизирующие возможность потерь, и минимаксные оценки: сравнительный анализ // Машинное обучение и анализ данных. 2014. T. 1, № 9. C. 1246 - 1260. Поставлена и решена задача оценивания значений функции в заданных точках области ее определения по результатам измерений конечного набора ее функционалов, выполненных с погрешностью. Показано, что с конечной погрешностью может быть оценена только конечномерная составляющая искомой функции, предложена точная конечномерная модель, позволяющая построить искомые оценки. Обсуждаются два метода оценивания. Первый метод минимизирует максимально возможную погрешность оценивания каждого значения функции в заданной точке. Считается, что погрешность измерения каждого линейного функционала с одной и той же возможностью принимают любое значение внутри заданного интервала. Для каждого оцениваемого значения функции построен интервал, которому может принадлежать это значение. Минимаксной оценкой является середина этого интервала, а погрешностью оценки – половина его длины. Концы каждого интервала определяются решениями задач линейного программирования. Второй метод оценивания основан на теоретико-возможностной модели измерений, в которой считается, что большие значения погрешности измерения каждого функционала менее возможны, чем малые. Критерием оценивания является возможность потерь. Метод оценивания минимизирует этот критерий и сводится к решению задачи линейного программирования. Оценки минимальной возможности потерь сравниваются с оценками, минимизирующими максимальную погрешность каждого значения функции. Обсуждаются различия минимаксных оценок и оценок минимальной возможности потерь. Приведен пример оценивания параметров реального спектрометрического эксперимента.
Харациди О.А. Классификация видов физической активности человека по показаниям акселерометра и гироскопа // Машинное обучение и анализ данных. 2014. T. 1, № 9. C. 1261 - 1272. Рассматривается задача распознавания видов физической активности человека по показаниям акселерометра и гироскопа портативного устройства на примере открытого набора данных USC-HAD с 12 классами. Предлагается метод, использующий иерархию классов и настраивающий отдельные классификаторы в ее узлах. Ключевую роль играют классификаторы, использующие частотные признаки и представляющие собой смесь из трех принципиально различных моделей: логистической регрессии, метода ближайшего соседа и случайного леса. Итоговое качество классификации соответствует среднему значению F-меры 0.92.
Карасиков М.Е., Максимов Ю.В. Поиск эффективных методов снижения размерности при решении задач многоклассовой классификации путем её сведения к решению бинарных задач // Машинное обучение и анализ данных. 2014. T. 1, № 9. C. 1273 - 1290. Работа посвящена задаче многоклассовой классификации высокой размерности. Рассмотрены способы решения задачи многоклассовой классификации на основе сведения её к задачам бинарной классификации. Исследованы различные подходы к сведению задачи многоклассовой классификации к задачам бинарной классификации и проведено сравнение их эффективностей. Предложены пути повышения производительности классификаторов путем снижения размерности пространства признаков методом случайных проекций. Проведены эксперименты на реальных данных для различных классификаторов, результаты которых отражают характерные зависимости качества классификации и сложности обучения при снижении размерности методом случайных проекций.
Местецкий Л.М. Медиальная ширина фигуры – дескриптор формы изображений // Машинное обучение и анализ данных. 2014. T. 1, № 9. C. 1291 - 1318. Задача генерации классификационных признаков для объектов переменной формы, таких например, как фигура человека или животного, состоит в построении дескрипторов формы, которые сохраняют инвариантность при деформации объектов. В статье предлагается концепция построения такого интегрального дескриптора формы фигуры, называемого функцией медиальной ширины. Функция медиальной ширины определяется на основе скелета и радиальной функции фигуры. Скелет фигуры — это множество точек-центров вписанных в фигуру окружностей. Радиальная функция фигуры определена в точке скелета и равна радиусу вписанной в фигуру окружности с центром в этой точке. По определению медиальная ширина фигуры в точках скелета равна радиальной функции. Предлагается понятие медиальной ширины фигуры в каждой её точке. Ширину фигуры в точке определяем как длину проходящего через эту точку радиуса одного из максимальных вписанных в фигуру кругов. Затем определяем в фигуре подмножество заданной ширины, состоящее из всех точек фигуры, в которых медиальная ширина не превосходит заданного значения. После этого определяем функцию медиальной ширины фигуры, описывающую площадь подмножества заданной ширины как функцию от параметра ширины. Таким образом, функция медиальной ширины представляет собой функцию распределения медиальной ширины в точках фигуры. В статье предлагается эффективный алгоритм вычисления функции медиальной ширины для многоугольной фигуры. Алгоритм основан на построении диаграммы Вороного линейных сегментов, образующих границу фигуры. Алгоритм обобщается для так называемой циркулярной фигуры, получаемой скруглением углов в многоугольной фигуре. Выбор класса циркулярных фигур обусловлен тем, что ими можно аппроксимировать сложные формы объектов растровых изображений. Работоспособность и эффективность предлагаемого подхода демонстрируется вычислительным экспериментом на примере задачи сравнения формы ладоней при биометрической идентификации личности.
Белозеров Б.В., Бочков А.С., Ушмаев О.С., Фукс О.М. Использование метода ближайших соседей при восстановлении обстановки осадконакопления // Машинное обучение и анализ данных. 2014. T. 1, № 9. C. 1319 - 1329. Целью данной работы является построение метода изучения геологической структуры нефтяных месторождений и создание модуля для автоматизации распознавания литологофациальной обстановки на основе промысловых данных каротажных диаграмм. Методами машинного обучения решается задача классификации по типам фациальных обстановок каротажных данных с месторождения с использованием спектрального представления геофизических полей. Данная методика была успешно применена к интерпретации фаций на реальном месторождении.
Т. 1, №10, 2014
Мандрикова О.В., Жижикина Е.А. Оценка состояния геомагнитного поля на основе совмещения вейвлет-преобразования с радиальными нейронными сетями // Машинное обучение и анализ данных. 2014. T. 1, № 10. C. 1335 - 1344. Предложен метод оценки степени возмущенности геомагнитного поля, основанный на совместном применении кратномасштабного вейвлет-преобразования с радиальными нейронными сетями. Определены разномасштабные составляющие регистрируемых данных геомагнитного поля, характеризующие степень его возмущенности, и изучена их структура. Предложен способ формирования радиального слоя нейронной сети, позволяющий существенно уменьшить количество используемых примеров и повысить качество решения задачи классификации геомагнитных данных. Апробация метода выполнялась на данных станции «Паратунка», Камчатский край (регистрацию данных выполняет ИКИР ДВО РАН).
Горнов А.Ю., Зароднюк Т.С. Вычислительная технология оценки степени выпуклости многоэкстремальной функции // Машинное обучение и анализ данных. 2014. T. 1, № 10. C. 1345 - 1353. В работе предлагается методика определения степени выпуклости функции, основанная на ее стохастической аппроксимации на всей исследуемой области. Основной идеей подхода является поточечное исследование выпуклости функции по случайно выбранным направлениям и систематизация полученной информации с целью получения интегральной оценки выпуклости. Эффективность предложенной технологии демонстрируется на ряде модельных примеров небольших размерностей, для которых построены и визуализированы области выпуклости функций.
Жукова К.В., Рейер И.А. Связность базового скелета и параметрический дескриптор формы // Машинное обучение и анализ данных. 2014. T. 1, № 10. C. 1354 - 1368. В работе рассматривается изменение с ростом точности аппроксимации устойчивого скелетного представления формы -- базового скелета. Этот процесс моделируется стиранием ребер определенными парами кривых. При этом базовый скелет может разделиться на несколько связных компонент. Монотонность и непрерывность изменения позволяют рассматривать параметрическое семейство базовых скелетов и строить масштабируемую гранично-скелетную модель формы, описывающую свойства границы при разных степенях детализации. Для анализа свойств формы, проявляющихся при различных значениях точности, используется параметрический дескриптор, представляющий собой множество вершин выпуклых углов границы аппроксимирующей объект многоугольной фигуры с определенной оценкой значимости. В работе представлено обобщение алгоритма вычисления оценок значимости выпуклых особенностей для случаев нарушения связности базового скелета и исследуется возможность использования параметрического дескриптора для различных типов нарушения связности.
Черноусов В.О., Савченко А.В. Помехоустойчивый Морфологический Алгоритм Обнаружения Вилочного Погрузчика на Видео // Машинное обучение и анализ данных. 2014. T. 1, № 10. C. 1369 - 1381. Исследуется задача обнаружения движущегося вилочного погрузчика на видео при наличии помех, в которой точность традиционного сопоставления локальных дескрипторов (SURF, SIFT, FAST, ORB) не достаточна. Предложен новый алгоритм, на первом этапе которого на кадре выделяются движущиеся объекты, после чего на передней части объекта находится потенциальная область вил и груза. На втором этапе выделяются контуры, затем с помощью морфологических преобразований вычисляются элементарные геометрические признаки объекта. Показано, что такой подход позволяет на 7% и 50% понизить вероятности ложной тревоги и пропуска события, соответственно, при детектировании пустого погрузчика по сравнению с методом FAST, является устойчивым к аддитивному шуму, а обработка одного кадра происходит в среднем на 30 мс быстрее.
Макаров В.Л., Бекларян Л.А., Белоусов Ф.А. Установившиеся режимы в модели Хёнинга и ее модификациях // Машинное обучение и анализ данных. 2014. T. 1, № 10. C. 1382 - 1395. Рассматривается модель Хенинга поведения популяции и ее модификации. Приводятся модификации, в которых преодолеваются некоторые недостатки модели Хенинга, связанные с эффектом гибели популяции в результате внутрипопуляционных противоречий. Эта тема является важной для изучения, так как подобные явления наблюдаются как в дикой природе, так и в истории человеческой цивилизации. Определяется также модель, в которой, в отличие от модели Хенинга и его модификаций, взаимодействие между агентами определяются эндогенно, т.е. взаимодействие, основанное на реакции типа "инстинкт", заменяется на взаимодейстие с использованием элементов "этики".
Покровская И.В., Гольдовская М.Д., Дорофеюк Ю.А., Киселёва Н.Е. Методы интеллектуальной обработки качественных данных // Машинное обучение и анализ данных. 2014. T. 1, № 10. C. 1396 - 1406. В работе исследуются задачи интеллектуальной обработки качественных данных. Рассмотрено два примера постановок задач и алгоритмов обработки качественных данных, представленных в виде признаков долевого типа и эмпирических графов большой размерности. Разработана методика интеллектуальной обработки признаков долевого типа, проведено тестирование на реальных данных. Исследованы возможности точного и приближённого представления графа большой размерности через его описание. На задачу агрегирования распространен оптимизационный подход к построению размытой классификации. В рамках структурно-классификационной методологии интеллектуального анализа сложно организованных данных разработаны оригинальные алгоритмы решения задачи обработки информации с помощью агрегирования графов большой размерности.
Гусев В.Д., Мирошниченко Л.А., Саломатина Н.В. Структурные аналогии в символьных последовательностях различной языковой природы // Машинное обучение и анализ данных. 2014. T. 1, № 10. C. 1407 - 1422. Изучение структуры символьных последовательностей (текстов) играет важную роль при решении многоплановых задач анализа данных, возникающих в биологии, лингвистике и других областях знания. При всём многообразии текстов их объединяет наличие повторов как элементарных структурообразующих единиц. Целью работы является систематизация повторов и их комбинаций, т.е. структурных единиц более высокого уровня. Для их выделения используются сложностные профили последовательности (введены авторами) и аппарат сканирующих статистик (адаптирован для текстов на естественном языке). По итогам обработки текстов различной языковой природы выделены и описаны структурные единицы, характеризующиеся "межъязыковой общностью", что и является отличительной особенностью работы.
Дорофеюк Ю.А., Покровская И.В., Киселева Н.Е. Комплекс алгоритмов интеллектуального анализа сложно организованных данных при исследовании слабо формализованных систем управления // Машинное обучение и анализ данных. 2014. T. 1, № 10. C. 1423 - 1438. Рассматривается задача исследования системы управления заданного множества объектов, каждый из~которых характеризуется фиксированным (исходным) набором разнородных параметров. В работе для решения этой задачи предлагается исследовать структуру взаиморасположения управляемых объектов в пространстве информативных параметров. Это позволяет существенно повысить эффективность анализа функционирования системы, а также устойчивость процедур принятия управленческих решений. Для выявления такой структуры разработан специальный комплекс алгоритмов интеллектуального анализа сложно организованных данных, а также процедур экспертной коррекции. Проведен теоретический анализ различных вариантов алгоритма СКАД, доказаны теоремы о сходимости алгоритма к локальному экстремуму соответствующего критерия качества.
Волков Ю.С., Мирошниченко В.Л., Салиенко А.Е. Математическое моделирование универсальной характеристики поворотно-лопастной гидротурбины // Машинное обучение и анализ данных. 2014. T. 1, № 10. C. 1439 - 1450. Рассматривается задача о построении универсальной характеристики рабочего колеса поворотно-лопастной гидротурбины по результатам энергетических испытаний модельной турбины. Универсальная характеристика является основным документом для выбора параметров натурной гидравлической турбины (диаметр рабочего колеса, частота вращения и др.), которые гарантируют наиболее эффективную работу турбины при всех режимах её эксплуатации на конкретной ГЭС. Даётся описание математического аппарата, применённого для создания математической модели универсальной характеристики рабочего колеса поворотно-лопастной гидротурбины по результатам стендовых энергетических испытаний модельной турбины. В основе предложенного подхода лежат методы аппроксимации многомерных функций по хаотически разбросанным данным, созданные авторами путём модификации и обощения DMM-сплайнов и мультквадриков Харди. Приводится пример моделирования по реальным данным на основе созданного комплекса программ.
Глинский Б.М., Марченко М.А., Родионов А.С., Караваев Д.А., Подкорытов Д.И. Отображения параллельных алгоритмов на суперкомпьютеры экзафлопсной производительности на основе имитационного моделирования // Машинное обучение и анализ данных. 2014. T. 1, № 10. C. 1451 - 1465. Целью работы является исследование возможности отображения параллельных алгоритмов на архитектуру суперЭВМ экзафлопсной производительности с использованием метода имитационного моделирования. Авторами предложена система Agent Network Simulator (AGNES) для исследования масштабируемости алгоритмов и программного обеспечения на предполагаемых архитектурах экзафлопсных суперкомпьютеров. В статье приведены результаты моделирования алгоритмов различного класса: алгоритмы прямого статистического моделирования, сеточные методы.