Т. 1, №5, 2013
Василейский А.С., Карацуба Е.А., Карелов А.И., Кузнецов М.П., Рейер И.А. Обнаружение движения устойчивых отражателей по серии спутниковых радиолокационных снимков земной поверхности // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 489-504. Набор устойчивых отражателей радиолокационного сигнала описан метрической конфигурацией их взаимного расположения и вектором их условных высот. По серии метрических конфигураций требуется определить движение некоторой части устойчивых отражателей относительно всего набора. В работе предложен алгоритм построения серии метрических конфигураций по зашумленным данным со спутниковых снимков земной поверхности и выявления связей между устойчивыми отражателями. Предложен метод обнаружения движения отражателей, исследованы его свойства. Метод проиллюстрирован синтетическими и реальными данными.
Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 505-518. Рассматривается проблема обнаружения причинно-следственных связей в разнородных временных рядах. Предлагается прогностическая модель, использующая выявленные связи. Модель предназначена для прогнозирования загруженности железнодорожного узла. Модель использует как исторические данные о загруженности, так и внешние данные: биржевые цены на основные инструменты и нормативные документы. При построении модели используются экспертные высказывания относительно вида связей. Предложен метод оценки достоверности экспертных высказываний. Метод проиллюстрирован данными грузовых перевозок РЖД.
Сулейманова Е., Константинов К. Об эвристическом методе разрешения неоднозначности при морфологическом анализе незнакомых фамилий // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 519-525. Статья посвящена развитию подхода к морфологическому анализу незнакомых фамилий в русскоязычном тексте, реализованного в специальном модуле системы интеллектуального анализа текста ИСИДА-Т. Идея подхода состоит в первоначальном построении заведомо избыточного множества вариантов - гипотез и последующем сокращении числа вариантов с помощью различных эвристических методов: исключение невозможных вариантов на основании дополнительных проверок правилами-фильтрами; кластеризация словоформ и фильтрация результатов внутри кластера; ранжирование вариантов по предпочтительности. Анализируются ограничения на возможности метода, вытекающие, в частности, из его детерминированной природы.
Неделько В. Исследование погрешности оценок скользящего экзамена // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 526-533.В работе на модельных задачах проводится сравнение различных вариантов оценки скользящего экзамена, таких как leave-one-out и K-fold cross-validaton, а также оценки, основанной на эмпирическом риске с поправкой на смещение. Приводятся зависимости точности оценок от байесовского уровня ошибок. В качестве методов классификации рассмотрены дискриминант Фишера и гистограммный классификатор. В рамках исследования рассмотренные оценки риска показали достаточно близкие результаты по точности.
Пушняков A. Использование спектрального преобразования для распознавания напечатанного изображения // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 534-541. В данной работе решается задача классификации двух типов изображений глаз: реально сфотографированного и впоследствии распечатанного. Используется метод спектрального преобразования изображения. В напечатанном изображении предполагается обнаружить периодическую структуру, которая порождает дополнительную гармонику в спектре. Рассматривается радиальная составляющая фурье-спектра, и по ней строится пространство признаков. Задача классификации решается с помощью метрического классификатора.
Мнухин В. Цифровые изображения на комплексном дискретном торе // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 542-551.В работе предлагается алгебраический метод обработки цифровых изображений. Предлагается рассматривать изображения размера , где - простое число вида , как функции на комплексном дискретном торе. Вводится понятие комплексного вращения и определяется новое обратимое преобразование, являющееся дискретным аналогом непрерывного преобразования Меллина. Строится модулярное преобразование Фурье-Меллина, инвариантное относитительно циклических сдвигов, масштабирования и комплексных вращений цифровых изображений.
Прокашева О. Повышение эффективности алгоритма классификации на основе Анализа Формальных Понятий // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 552-558. В настоящей работе исследуется метод классификации на основе построения минимальных гипотез c использованием решётки формальных понятий. Алгоритм тестируется на реальных данных с номинальными и вещественными признаками. Также сравниваются различные модификации метода для уменьшения количества отказов от классификации на основе введения метрик и процедуры голосования.
Федотов Н.Г., Голдуева Д. Анализ трехмерных текстур с позиции стохастической геометрии и функционального анализа // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 559-567. Предложен новый подход к анализу трехмерных текстур, основанный на аппарате стохастической геометрии и функционального анализа. Приведены результаты исследования новых триплетных признаков на устойчивость к масштабным преобразованиям на примере трехмерных текстур, полученных с помощью атомно-силовой микроскопии.
Дьяконов А. Решение задач анализа данных, основанное на линейной комбинации деформаций // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 568-579. Дан обзор некоторых теоретических результатов представления функций и алгоритмов в специальном виде: линейной комбинации <<деформации>>; линейных функций/алгоритмов. В теории интерполяции подобные результаты отталкиваются от работ А.Н. Колмогорова, в теории классификации - от работ Ю.И. Журавлёва. Показано, что идеи подобного представления можно успешно использовать на практике. Описаны решения нескольких прикладных задач в рамках крупных Международных конкурсов.
Янковская А., Китлер С. Интеллектуальный анализ данных и знаний по стентированию коронарных артерий // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 580-589. Статья посвящена интеллектуальному анализу данных и знаний по стентированию коронарных артерий. Излагаются основные этапы интеллектуального анализа данных и знаний по стентированию коронарных артерий. Описывается подход к анализу данных и знаний по стентированию коронарных артерий, реализованный в интеллектуальной системе. Интеллектуальная система разработана в виде динамически подключаемых модулей к интеллектуальному инструментальному средству ИМСЛОГ, на базе которого конструируются прикладные интеллектуальные системы. Приводятся результаты исследования интеллектуальной системы.
Чинаев Н., Матвеев И. Определение точной границы зрачка // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 590-597. Предлагается метод определения точной границы зрачка на монохромном изображении глаза. Метод основан на бинаризации изображения с последующим поиском зрачка как одной из компонент связности. Граница зрачка определяется как граница или часть границы компоненты связности. Для отделения зрачка в случае его объединения в одну компоненту связности с другими объектами, а также для проверки правдоподобия решения используется преобразование Хафа. Приведены статистические результаты, показывающие точность работы метода; в качестве тестовых данных использованы изображения из открытой базы данных.
Теклина Л.Г., В. К.И., Гельфер И.С. Применение методов распознавания образов для синтеза кусочно-линейных систем квазиинвариантного управления // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 598-605.Работа посвящена дальнейшему развитию нового подхода к синтезу систем квазиинвариантного управления, основанному на постановке и решении задачи синтеза методами распознавания образов с активным экспериментом. Расширение новой методики синтеза линейных систем на область нелинейных систем управления связано с преодолением главного недостатка линейных систем: больших значений функции управления в переходном процессе.
Двоенко С.Д., Пшеничный Д.О. О метрической коррекции матриц парных сравнений // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 606-620. В задачах интеллектуального анализа экспериментальные данные часто сразу представлены результатами парных сравнений объектов между собой. В отсутствие исходного признакового пространства условием корректного погружения данного множества объектов в метрическое пространство является неотрицательная определенность матрицы парных близостей элементов множества друг к другу. В этом случае близости интерпретируются как скалярные произведения, а соответствующие различия - как расстояния. В работе рассмотрены условия возникновения метрических нарушений и предложен подход к коррекции метрических нарушений в матрицах парных сравнений за счет минимальных изменений значений некоторых их элементов.
Каркищенко А., Мнухин В. Восстановление симметричности точек на изображениях объектов с отражательной симметрией // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 621-631. В работе предлагается несколько алгебраических методов, которые позволяют уточнить положение характерных точек, описывающих какие-либо объекты на изображении, на основе априорно известной информации об их симметричном расположении. Эти методы называются симметризацией характерных точек. Рассмотрена симметризация точек для случая вертикальной и произвольной симметрии с известными параметрами оси симметрии, а также более общий случай симметризации при неизвестных параметрах осевой симметрии. Рассматриваемые методы дают решение задачи осевой симметризации при минимальном изменении положения характерных точек.
Чувилин К. Использование правил со сложной структурой для коррекции документов в формате LaTeX // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 632-640.Рассматривается задача автоматического синтеза правил коррекции документов в формате LATEX. Каждый документ представляется в виде синтаксического дерева. Отображения вершин деревьев черновых документов в вершины деревьев чистовых составляют обучающую выборку, по которой синтезируются правила замены. В первую очередь строятся простые правила, реализующие операции удаления, добавления или изменения одной вершины синтаксического дерева и использующие линейные последовательности вершин для выбора позиции применения. Построенные правила объединяются в группы на основе позиций применимости и оценок качества. Исследуются правила, использующие древовидные структуры вершин для выбора позиции применения. Анализируется изменение качества правил при последовательном наращивании обучающей выборки.
Разин Н.А., Черноусова Е.О., Красоткина О.В., Моттль В. Применение Машины Релевантных Объектов в задачах восстановления числовых зависимостей // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 641-653. В работе рассматривается задача беспризнакового распознавания образов в предположении, что объекты попарно сравниваются при помощи произвольной действительной функции. Такой подход является гораздо более общим, чем традиционный метод потенциальных функций (кернелов), требующий положительной полуопределенности матрицы функции сравнения объектов. Последнее требование в большинстве случаев является чрезмерным, причем обучение еще более осложняется, если существует несколько различных способов сравнительного представления объектов. В таких случаях экспериментатор вынужден решать задачу исключения как избыточных базисных объектов для сравнительного представления объектов обучающей совокупности, так и способов сравнения. В терминах общего пространства попарного сравнительного представления объектов предлагаемая постановка становится математически аналогичной классической задаче отбора признаков. Получившийся выпуклый критерий обучения аналогичен методу релевантных векторов Типпинга, но является существенно более общим, поскольку содержит структурный параметр, контролирующий селективность отбора.
Т. 1, №6, 2013
Воронцов К.В., Потапенко А.А. Модификации EM-алгоритма для вероятностного тематического моделирования // Машинное обучение и анализ данных. 2013. T. 1, № 6. С. 657-686. Вероятностная тематическая модель строит интерпретируемое представление коллекции текстовых документов, описывая каждый документ дискретным распределением на мно-жестве тем, каждую тему — дискретным распределением на множестве терминов. Рассматривается обобщённый EM-алгоритм с эвристиками сглаживания, сэмплирования, робастности и разреживания, позволяющий при различных сочетаниях этих эвристик получать как известные тематические модели PLSA, LDA, SWB, так и новые. Предлагаетсяупрощённый робастный алгоритм, который не требует ни дополнительных вычислительных затрат, ни хранения матрицы параметров шума, и хорошо сочетается с эвристикой разреживания. В экспериментах на двух коллекциях научных публикаций, англоязычной и русскоязычной, подбираются оптимальные сочетания стратегий разреживания и других эвристик. Показывается, что робастная модель без сглаживания позволяет разреживать искомые распределения на 99% без ухудшения качества (перплексии) модели.
Манило Л.А., Немирко А.П., Саламонова И.С. Автоматический анализ формы спирографических петель // Машинное обучение и анализ данных. 2013. T. 1, № 6. С. 687-694. Рассмотрены методы автоматического анализа спирографических петель в~условиях искусственной вентиляции легких. Проведен анализ различных числовых характеристик петель <<объем-давление>>, полученных по сигнатуре двумерных кривых. Показаны возможности применения динамического анализа спирограмм для оценки параметров вентиляции легких и ранней диагностики патологий.
Чувилина Е.В. Информативность признаков для диагностики состояния подшипников на основе обнаружения локальных неоднородностей // Машинное обучение и анализ данных. 2013. T. 1, № 6. С. 695-704. Рассматривается задача диагностики состояния подшипников ГТД как задача распознава-ния образов на основе обнаружения локальных неоднородностей в вибросигнале. Предло-жены и исследованы ряд признаковых пространств, выделены наиболее информативные из них, имеющие линейную разделимость, а именно: изменение фрактальной размерности, векторы коэффициентов сноса, матрицы зависимости приращения от величины сигнала.
Дюкова Е.В., Любимцева М.М., Прокофьев П.А. Об алгебро-логической коррекции в задачах распознавания по прецедентам // Машинное обучение и анализ данных. 2013. T. 1, № 6. С. 705-713. Исследуются логические корректоры — модели распознающих алгоритмов, основанные на голосовании по корректным наборам элементарных классификаторов (эл.кл.). Вводится понятие антимонотонного корректного набора эл.кл. На базе антимонотонных коррект-ных наборов эл.кл. построен логический корректор. Приведены результаты тестирования новой модели логического корректора на реальных даннных.
Кудинов М.С. Частичный синтаксический разбор текста на русском языке с помощью условных случайных полей // Машинное обучение и анализ данных. 2013. T. 1, № 6. Pp. 714-724. В статье изложен подход к поиску синтаксически связанных групп соседних слов (chunks) в русском тексте. Продемонстрирована принципиальная возможность и корректность постановки задачи выделения таких групп применительно к языку со свободным порядком слов. С использованием аппарата условных случайных полей определенный класс подобных групп можно выделить с мерой не менее . При этом обучающая выборка может быть получена путем обработки исходного текста синтаксическим анализатором без последующей ручной коррекции результатов. Тем не менее, выделение достаточно длинных фрагментов текста оказывается затруднительным, а показатель меры, полученный в эксперименте, достаточно низким.
Ланге М.М, Ганебных С.Н. Иерархические структуры данных и решающие алгоритмы для классификации изображений // Машинное обучение и анализ данных. 2013. T. 1, № 6. С. 725-733. Исследуется задача классификации объектов, заданных изображениями, в терминах соотношения вычислительной сложности и вероятности ошибки. Используя многоуровневую сеть эталонов, предлагаются алгоритмы иерархического поиска решения по критерию ближайшего эталона. Получены сравнительные оценки вычислительной сложности иерархических алгоритмов относительно алгоритма полного перебора эталонов. Приведены экспериментальные зависимости вычислительной сложности от вероятности ошибки распознавания подписей, жестов и лиц для решающих алгоритмов на основе иерархического поиска и полного перебора.
Воронцов К.В., Фрей А.И., Соколов Е.А. Вычислимые комбинаторные оценки вероятности переобучения // Машинное обучение и анализ данных. 2013. T. 1, № 6. С. 734-743. В данной статье изучаются комбинаторные оценки обобщающей способности, вычислимые по обучающей выборке. Эти оценки основаны на упрощенной вероятностной модели, в которой рассматривается лишь конечная генеральная совокупность объектов и бинарная функция потерь. Для линейных классификаторов предлагается новый эффективный метод вычисления комбинаторных оценок, использующий случайные блужданий по множеству классификаторов с низким числом ошибок. В заключении приводится экспериментальное обоснование предлагаемого метода.
Разин Н.А., Моттль В.В. Численная реализация алгоритмов селективного комбинирования разнородных представлений объектов в задачах распознавания образов // Машинное обучение и анализ данных. 2013. T. 1, № 6. С. 744-760. В работе рассматриваются методы решения задач беспризнакового распознавания образов в предположении, что объекты попарно сравниваются при помощи произвольной действительной функции. Такой подход является гораздо более общим, чем традиционный метод потенциальных функций (кернелов), требующий положительной полуопределенности матрицы функции сравнения объектов. Важное преимущество предлагаемых алгоритмов перед существующими заключается в том, что они хорошо распараллеливаются на современных многопроцессорных вычислительных системах, что позволяет использовать мощные кластеры для быстрого решения задач с большим объёмом данных. Полученное ускорение по сравнению с наивными реализациями алгоритмов доходит до 25 раз на сравнительно слабой по мощности видеокарте NVidia GeForce 310M.
Фрей А.И., Толстихин И.О. Комбинаторные оценки вероятности переобучения на основе кластеризации и покрытий множества алгоритмов // Машинное обучение и анализ данных. 2013. T. 1, № 6. C. 761-778. В данной работе предлагается новая комбинаторная оценка вероятности переобучения, учитывающая сходство алгоритмов.Оценка основана на разложении множества алгоритмов на непересекающиеся подмножества (кластеры). Итоговая оценка учитывает сходство алгоритмов внутри каждого кластера, и расслоение алгоритмов по числу ошибок между кластерами.Для оценки вероятности переобучения каждого кластера предлагается теоретико-групповой подход, основанный на учете симметрий. На примере задач из репозитория UCI показано, что предлагаемый метод в ряде случаев дает менее завышенную оценку вероятности переобучения по сравнению с известными ранее комбинаторными оценками.
Мурашов Д.М., Березин А.В., Иванова Е.Ю. Формирование признакового описания фактуры картин // Машинное обучение и анализ данных. 2013. T. 1, № 6. C. 779-786. Рассматривается задача формирования признакового пространства для сравнения изображений в атрибуции произведений живописи. Предложено признаковое описание фактуры картин на основе характеристик хребтов полутонового рельефа, элементов структурного тензора и значений локальных волновых чисел. В отличие от известных разработок признаковое описание формируется только по информативным фрагментам изображений и не требует предварительной сегментации отдельных мазков кисти. Проведены вычислительные эксперименты. Предложенное признаковое описание позволит получить количественную характеристику стиля живописи автора и наряду с другими видами исследования картин сформировать атрибуционное заключение.
Хашин С.И. Динамическая сегментация последовательности кадров // Машинное обучение и анализ данных. 2013. T. 1, № 6. C. 787-795. Описывается алгоритм сегментации, основанный не на одном кадре, а на паре соседних кадров из видеопоследовательности. По сравнению с обычной, статической сегментацией каждого кадра по-отдельности, качество значительно повышается. При сохранении той же погрешности, количество сегментов удается сократить в несколько десятков раз. Типичное количество сегментов, нужных для получения приемлемой погрешности уменьшается с до .