Т. 1, №11, 2015
Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. Рассматривается задача многоклассовой классификации временных рядов. Временные ряды являются объектами сложной структуры, для которых не задано исходное признаковое описание. Исследуются различные методы построения признакового пространства для временного ряда: метод экспертного задания порождающих функций и метод построения признаков на основе гипотезы порождения данных. Рассматривается комбинированное признаковое описание временного ряда. В качестве прикладной задачи рассматривается задача классификации данных акселерометра. Показано, что использование расширенного множества признаков приводит к значительному улучшению качества классификации.
Бахтеев О.И. Восстановление пропущенных значений в разнородных шкалах с большим числом пропусков // Машинное обучение и анализ данных. 2015. T. 1, №11. C. 1484 - 1499. Рассматривается задача восстановления пропущенных значений в выборках, содержащих значительное число пропусков. Вводится понятие устойчивости восстановления пропуска, а также исследуется возможность применимости подхода для восстановления пропущенных значений. Исследуется случай, когда восстановление производится по k-ближайшим соседям. Рассматриваются теоретические аспекты применимости данного подхода для сильно разреженных данных. Рассматривается вариант восстановления пропущенных значений с использованием восстановленных значений в качестве источника для восстановления других элементов.
Савченко А. В. Статистическое распознавание образов на основе посегментного анализа однородности // Машинное обучение и анализ данных. 2015. T. 1, № 11. C.1500 - 1516. Исследуется проблема малых выборок в задаче статистического распознавания образов на основе методов ближайших соседей, точность которых во многом определяется выбранной мерой близости, при этом их реализация в режиме реального времени может оказаться невозможной уже при наличии тысяч классов. Для преодоления указанных проблем предложен новый подход к разработке классификаторов с посегментным анализом однородности и быстрой последовательной иерархической обработкой на основе вероятностной модели кусочно-однородного объекта. Экспериментальные исследования в задаче распознавания лиц продемонстрировали повышение точности на 1-10% по сравнению с традиционными методами (SVM, SIFT, LBP, собственные лица). Вычислительная эффективность оказалась в 2-3 раза выше по сравнению с известным методом Pyramid HOG. Показано, что описанная методология посегментного анализа однородности характеризуется высокой точностью и приемлемой производительностью для случая малых выборок и большого числа классов.
Нижибицкий Е. А. Композиции признаков для видеотрекинга при помощи фильтра частиц // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1517 - 1528. В работе рассмотрены модели правдоподобия, основанные на композиции мер сходства извлекаемых из изображений признаков, которые широко используются для задачи отслеживания объектов на видео при помощи фильтра частиц. Предложены новые способы оптимального многократного извлечения признаков из различных регионов одного и того же изображения. Оптимизация при этом выполняется за счёт построения интегральных изображений, впервые применённых в компьютерном зрении для признаков Хаара в алгоритме Виолы–Джонса, для других исследуемых признаков. Экспериментально показана возможность эффективного использования композиций групп признаков при неэффективности использования каждой группы в отдельности. С помощью рассмотренных композиций достигнуто качество трекинга, сравнимое с более сложными по своей структуре методами, основанными на построении ансамблей с помощью бустинга, и превышающее результаты схожей работы с применением метода каскадов.
Зюзин В. В., Поршнев С. В., Бобкова А. О., Мухтаров А. А., Бобков В. В. Анализ результатов оконтуривания левого желудочка сердца на эхографических изображениях у здоровых пациентов с помощью автоматического алгоритма // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1529 - 1538. В статье приведены результаты, подтверждающие работоспособность автоматического оконтуривания левого желудочка на эхографическом изображении апикальной четырехкамерной проекции сердца человека. Описан алгоритм автоматического оконтуривания левого желудочка. Продемонстрирована работоспособность алгоритма для пациентов без патологий сердечной мышцы. Исследованы качества оконтутирвания. Предложен критерий по определению контуров неправильной формы. Определены направления дальнейших исследований для улучшения качества оконтуривания.
Петров Г. Е., Чехович Ю. В. Идентификация имитационных моделей транспортных потоков с помощью разнородных источников прецедентной информации // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1539 - 1554. Рассматривается задача вычисления плотности транспортных потоков с использованием данных из разнородных источников: транспортные детекторы и GPS-трекеры. Строится имитационная модель, позволяющая изучить способы и определить границы данных и качества данных, необходимых для восстановления характеристик транспортного потока, и предлагается схема эксперимента возможности комплексирования данных. Ключевую роль играют модели восстановления плотности транспортного потока по его скорости. На основе вычислительных экспериментов получены границы доли транспортных средств и точности определения местоположения для определения параметров транспортного потока.
Дюкова Е. В., Журавлёв Ю. И., Прокофьев П. А. Методы повышения эффективности логических корректоров // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1555 - 1583. Рассматривается алгебро-логический подход к корректному распознаванию по прецедентам для задач с целочисленными признаками. Исследуются вопросы повышения распознающей способности и скорости обучения логических корректоров — процедур распознавания, основанных на голосовании по семействам корректных наборов элементарных классификаторов. Вводится понятие корректного набора элементарных классификаторов общего вида и на этой основе строится модель логического корректора, в которой голосующие семейства наборов элементарных классификаторов формируются итеративно. Рассматривается более широкий, чем в ранее построенных моделях, класс корректирующих функций. Качество работы построенной модели логического корректора тестируется на прикладных задачах.
Айсина Р. М.Обзор средств визуализации тематических моделей коллекций текстовых документов // Машинное обучение и анализ данных. 2015. T. 1, № 11. C.1584 - 1618. Тематическое моделирование является важным инструментом статистического анализа текстовых коллекций. Наглядное представление тематической модели позволяет лучше изучить кластерную структуру коллекции и оценить качество тематической модели. Средства визуализации являются неотъемлемой частью графических пользовательских интерфейсов, облегчающих тематический поиск и навигацию по коллекции. В обзоре описываются средства визуализации тематических моделей, включая иерархические, динамические и мультимодальные. Приводятся примеры визуализации графов и сетей, предлагается систематизация средств визуализации тематических моделей по их функциональным возможностям.
Двоенко С.Д., Пшеничный Д.О.О метрических свойствах медианы Кемени // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1619 - 1631. Рассмотрена новая задача построения медианы Кемени с метрическими свойствами. При согласовании экспертных мнений требуется получить ранжирование, наименее отличающееся от остальных и имеющее смысл группового мнения. Медиана Кемени является эквивалентом среднего в шкалах (квази)порядков и свободна от противоречий, связанных с выявлением групповых мнений по правилу большинства (парадокс Эрроу). Известный локально-оптимальный алгоритм построения медианы Кемени основан на вычислении матрицы штрафов. Считая, что ранжирования, представленные парными расстояниями, погружены в евклидово метрическое пространство, мы можем определить средний элемент как центр такого множества. Такой центральный элемент также является ранжированием и должен иметь такой же смысл, как и медиана Кемени. Разработана процедура формирования скорректированной матрицы штрафов для построения метрической медианы Кемени, совпадающей со средним элементом данного множества.
Борисова И.А., Кутненко О.А. Цензурирование ошибочно классифицированных объектов выборки // Машинное обучение и анализ данных. 2015. T. 1, № 11. C.1632- 1641. Рассматривается задача цензурирования выборок, изначально содержащих значительное число неверно классифицированных объектов. Предложен алгоритм цензурирования, ориентированый только на локальные характеристики объектов выборки. Для оценки вероятности принадлежности объекта к одному из двух образов используется тернарная относительная мера - функция конкурентного сходства (FRiS-функция). В фиксированном признаковом пространстве цензурирование состоит в последовательном удалении объектов, максимально ухудшающих качество описания выборки (или оценку разделимости классов). Результаты тестирования алгоритма на широком спектре модельных задач позволили сделать вывод, что объекты, удаленные до точки перегиба функции, описывающей разделимость классов, как правило, являются выбросами, искажающими структуру данных.
Т. 1, №12, 2015
Флоринский И.В., Панкратов А. Н. Цифровое моделирование рельефа с использованием ортогональных полиномов // Машинное обучение и анализ данных. 2015. T. 1, № 12. C. 1647 - 1659. doi:10.21469/22233792.1.12.01 Математические аспекты цифрового моделирования рельефа включают интерполяцию цифровых моделей высот (ЦМВ), генерализацию и подавление шума в ЦМВ, а также расчет морфометрических характеристик на основе вычисления частных производных высоты. Эти процедуры традиционно основаны на численной обработке ЦМВ – дискретных функций двух переменных. Авторы разработали спектрально-аналитический метод и алгоритм на основе ортогональных разложений высокого порядка с использованием многочленов Чебышёва I рода с последующим суммированием Фейера. Метод и алгоритм предназначены для аналитической обработки ЦМВ, включая глобальную аппроксимацию регулярных ЦМВ, генерализацию и подавление шума в ЦМВ, а также расчет морфометрических характеристик на основе аналитического вычисления частных производных. Для тестирования метода и алгоритма использовалась ЦМВ Северных Анд, включающая 230,880 точек (матрица высот 480x481). Цифровые модели высот были восстановлены с использованием 480, 240, 120, 60 и 30 коэффициентов разложения. Первые и вторые частные производные высоты были аналитически рассчитаны по восстановленным ЦМВ. Производные были использованы для расчета моделей горизонтальной кривизны (k_h). Серия карт высоты и k_h, полученных для различного числа коэффициентов разложения, хорошо иллюстрирует генерализацию данных, подавление шума и удаление артефактов, присутствующих в исходной ЦМВ. Результаты тестирования показали высокую работоспособность предлагаемого метода и алгоритма. Они могут применяться как универсальное средство для аналитической обработки данных в цифровом моделировании рельефа.
Чочиа П. А. Двумерные вариации как средство оценивания сложности изображений // Машинное обучение и анализ данных. 2015. T. 1, № 12. C. 1660 - 1676. doi:10.21469/22233792.1.12.02 Исследуются вопросы оценки сложности изображения, которая интерпретируется как характеристика, отражающая число, размеры и заметность его деталей. Исследуются возможности использования для этого двумерных вариаций. Рассматриваются модификации известных двумерных вариаций в применении к дискретным изображениям. Предложена оценка, названная показатель размеров объектов. Теоретические выводы подтверждаются экспериментальными исследованиями. Проведен анализ изменения значений двумерных вариаций изображения при увеличении шума, а также при сглаживании и декомпозиции. Показано, что предложенная комбинация двумерных вариаций отражает морфологическую структуру изображения и может служить оценкой его сложности.
Грачева И. А., Копылов А. В. Быстрые алгоритмы обработки изображений на основе гамма-нормальной модели скрытого поля // Машинное обучение и анализ данных. 2015. T. 1, № 12. C. 1677 - 1685. doi:10.21469/22233792.1.12.03 В рамках байесовского подхода к проблеме обработки изображений задача восстановления может быть выражена как задача поиска скрытой марковской компоненты двухкомпонентного случайного поля, роль наблюдаемой компоненты которого играет анализируемое изображение. Однако для некоторых типов задач обработки изображений, таких как удаление тумана на изображении, сжатие контраста HDR изображений, восстановление структуры изображения, такая постановка задачи не подходит. В данной работе предлагается расширение постановки задач при байесовском подходе к проблеме обработки изображений.
Корнилов Ф. А. Исследование влияния рассинхронизации входных изображений на качество работы алгоритмов поиска структурных различий // Машинное обучение и анализ данных. 2015. T. 1, № 12. C. 1686 - 1695. doi:10.21469/22233792.1.12.04 В работе рассматривается влияние рассинхронизации входных изображений на качество работы алгоритмов поиска структурных различий, под которыми понимаются появившиеся или исчезнувшие объекты местности, для разновременных космических снимков земной поверхности. Работа алгоритмов оценивается на паре изображений, представляющих собой смещенные относительно друг друга копии одного и того же снимка, что позволяет выяснить степень устойчивости методов к геометрическому несоответствию входных данных с исключением влияния структурных различий или случайного шума. Приводится описание нового метода сравнения структур изображений, использование которого совместно с алгоритмами поиска структурных различий позволяет уменьшить количество ложных тревог при рассинхронизации входных изображений. Эксперименты на данных, подготовленных путем взаимного сдвига пары изначально геометрически выровненных космоснимков, показывают, что предложенная модификация алгоритмов подходит для прикладного применения.
Медведева Е. В., Карлушин К. А., Курбатова Е. Е. Метод выделения движущихся объектов в видеопотоке на основе оценки их границ // Машинное обучение и анализ данных. 2015. T. 1, № 12. C. 1696 - 1705. doi:10.21469/22233792.1.12.05 Предложен метод выделения движущихся объектов в видеопотоке. Метод основан на представлении последовательности изображений трехмерной цепью Маркова и оценки контуров движущихся объектов по вычисленной величине количества информации в~элементах изображения. Для решения задачи выделения объекта интереса по~полученным контурным точкам использован плотностный алгоритм кластеризации DBSCAN. Проведена оценка точности определения координат движущихся объектов. Разработанный метод требует небольших вычислительных ресурсов, что делает возможным его применение при обработке данных в~реальном масштабе времени.
Шибзухов З.М., Чередников Д.Ю. О моделях нейронов агрегирующего типа // Машинное обучение и анализ данных. 2015. T. 1, № 12. C. 1706 - 1716. doi:10.21469/22233792.1.12.06 В настоящей работе описывается новый класс моделей искусственных нейронов агрегирующего типа. Модели агрегирующих нейронов строятся на основе следующих принципов: 1) все вклады синапсов суммируются при помощи агрегирующей операции; 2) вклады простых синапсов, которые образуют сложный синапс или синаптический кластер, преобразуются также при помощи некоторой другой агрегирующей операции. Они охватывают большую часть моделей искусственных нейронов функционального типа. Для класса агрегирующих нейронов, обобщающих модель SigmaPi-нейрона показано, что они могут быть корректно обучены по~конечным наборам прецедентов.
Трекин А.Н., Матвеев И.А.,Мурынин А.Б., Бочкарева В.Г. Метод повышения разрешения космических изображений с использованием априорной информации в векторной форме для сохранения границ // Машинное обучение и анализ данных. 2015. T. 1, № 12. C. 1717 - 1730. doi:10.21469/22233792.1.12.07 Разработан метод повышения разрешения изображений, использующий векторную информацию о геометрических свойствах объектов, содержащихся на изображениях. Априорная информация о контрастных границах разнородных областей позволяет сохранить резкий переход яркости при повышении разрешения. Произведена апробация метода на наборе космических изображений с использованием карты водоемов в векторной форме.
Чепрасов Д. Н., Маленичев А. А., Сулимова В. В., Красоткина О. В., Моттль В. В., Марков А. A. Восстановление пропущенных данных на ультразвуковых дефектограммах рельсового пути на основе локально-глобального выравнивания// Машинное обучение и анализ данных. 2015. T. 1, № 12. C. 1731 - 1751. doi:10.21469/22233792.1.12.08 Статья посвящена актуальной проблеме автоматического восстановления пропущенных данных при ультразвуковом контроле рельсового пути, например, из-за плохих погодных условий. Предлагаемый подход основывается на извлечении пропущенных данных из дефектограммы, соответствующей предыдущему проходу по тому же участку рельсового пути. В данной работе мы усовершенствуем предложенный нами ранее метод, делая его более точным и существенно более быстрым. Разработанная трехоконная модель болтового соединения совместно с процедурой локально-глобального выравнивания и специальной мерой несходства элементов дефектограмм позволяют достаточно быстро обнаружить местоположение искомой области на предыдущей дефектограмме с точностью около 3.5 см, что обеспечивает возможность успешного восстановления по ней пропущенных данных.
Новиков Е. А., Ваколюк И. А., Ахапкин Р. Д., Варчак И. А., Шалагинова И. Г., Швайко Д. А., Буденкова Е. А. Автоматизация метода компьютерной окулографии для исследований центральной нервной системы на основе пассивного анализа видеоизображения // Машинное обучение и анализ данных. 2015. T. 1, № 12. C. 1752 - 1761. doi:10.21469/22233792.1.12.09 Данные, описывающие изменения положения центров зрачков во времени, называются окулограммами. Анализ окулограмм позволяет судить о функциональном состоянии определенных отделов головного мозга, вовлеченных в процесс программирования и регуляции движений глаз. Данная статья рассматривает новый вариант автоматизации процесса регистрации и последующего анализа произвольных и спровоцированных движений глаз, что в общем случае называется компьютерной окулографией. В основном, системы компьютерной окулографии опираются на активное инфракрасное сканирование глаз при жесткой фиксации головы, что является дорогостоящим и не доступным для простых пользователей. Однако благодаря развитию технологий регистрации цифровых изображений и общему росту вычислительной мощности персональных компьютеров и портативных устройств, методы пассивного сканирования изображений начинают набирать популярность. Предлагаемый в данной статье метод рассчитан на использование вместе со стандартными цифровыми камерами. Метод может быть применен для получения и анализа качественных окулограмм на основе видеоизображения, полученного с частотой не менее 30 кадров в секунду.
Петров Е. П., Харина Н. Л., Сухих П. Н. Метод быстрого сжатия изображений без потерь // Машинное обучение и анализ данных. 2015. T. 1, № 12. C. 1762 - 1770. doi:10.21469/22233792.1.12.10 Предложен метод сжатия цифровых изображений, отличающийся простотой реализации и отсутствием вычислительных операций на этапе предсказания. Метод включает процедуру предсказания пикселов изображения на основе теории условных марковких процессов и процедуру кодирования. Представлены результаты апробации алгоритма на реальных изображениях различных классов.
Т. 1, №13, 2015
Крымова Е. А. Агрегация упорядоченных оценок в цветном шуме // Машинное обучение и анализ данных. 2015. T. 1, № 13. C. 1775 - 1785. doi:10.21469/22233792.1.13.01 Рассматривается задача восстановления функции регрессии по конечному числу наблюдений функции в гауссовским шуме, заданных в конечном числе детерминированных точек. Предположим, что помимо наблюдений функции исследователю заранее известен фиксированный набор из конечного числа оценок функции. На основе этого набора оценок требуется построить новую оценку, качество которой было бы сравнимо с наилучшей (в смысле средне квадратичного риска) оценкой из заданного множества (c так называемым «оракулом»). В работе получены новые оракульные неравенства для экспоненциальной агрегации упорядоченных оценок функции регрессии в предположении гетероскедастичного шума, а именно шум предполагается коррелированным (ковариационная матрица известна) и дисперсия его различна в каждой точке наблюдения.
Медведева Е. В., Трубин И. С.,Устюжанина Е. А.,Лалетин А. В. Нелинейная многомерная фильтрация многокомпонентных изображений // Машинное обучение и анализ данных. 2015. T. 1, № 13. C. 1786 - 1795. doi:10.21469/22233792.1.13.02 Предложен метод нелинейной многомерной фильтрации многокомпонентных изображений, искаженных аддитивным белым гауссовским шумом. Повышение качества зашумленных изображений обеспечивается за счет эффективного использования статистической избыточности многокомпонентных изображений. Рассмотрен частный случай многокомпонентных изображений — цветные RGB изображения, каждая из цветовых компонент которого представляет собой g-разрядное цифровое полутоновое изображение (ЦПИ). Метод основан на представлении многокомпонентных g-разрядных ЦПИ набором разрядных двоичных изображений, аппроксимации их трехмерной цепью Маркова и применении теории фильтрации условных марковских процессов. Предложено улучшить качество восстановленных изображений за счет повышения точности вычисления статистических характеристик для каждой локальной области внутри изображений и между цветовыми компонентами. Для оценки статистических характеристик использовано скользящее окно. Приведены результаты моделирования, подтверждающие эффективность разработанного метода.
Федотов Н. Г., Сёмов А. А., Моисеев А. В. Минимизация признакового пространства распознавания 3D изображения на основе стохастической геометрии и функционального анализа // Машинное обучение и анализ данных. 2015. T. 1, № 13. C. 1796 - 1814. doi:10.21469/22233792.1.13.03 В настоящей статье предлагается новый подход к распознаванию 3D изображений, основанный на современных методах стохастической геометрии и функционального анализа. Данный метод обладает рядом преимуществ, в частности, позволяет описывать метрические свойства 3D объектов. Так, благодаря построению строгой математической модели, аналитик может строить признаки не интуитивно, а аналитически, описывая форму объектов и их особенности (в частности, конструирование геометрических признаков). Гипертрейс-преобразование позволяет создавать инвариантное описание пространственного объекта, которое является более устойчивым к искажениям и координатным шумам, чем описание, получаемое в результате процедуры нормализации объекта. Достоверность и эффективность предлагаемого метода подтверждается как адекватно построенной математической моделью с применением современных подходов анализа и распознавания 3D изображений, так и результатами практических экспериментов, а также регистрацией разработанного программного пакета. В статье даётся подробное описание техники сканирования гипертрейс-преобразования и его математической модели. Анализируются основные подходы к построению и выделению информативных признаков. Предлагается собственная методика минимизации признакового пространства и соответствующая ей решающая процедура. Приводятся результаты практического эксперимента сравнения стохастического и детерминированного способов сканирования.
Бекларян Л.А., Хачатрян Н.К. Динамическая модель организации грузоперевозок// Машинное обучение и анализ данных. 2015. T. 1, № 13. C. 1815 - 1826. doi:10.21469/22233792.1.13.04 Исследуется модель, описывающая процесс грузоперевозок, реализуемый в рамках ряда технологий. Рассматриваются четыре варианта модели. Первый вариант описывает транснациональные транспортные перевозки, т.е. перевозки без выделенных начальной станции отправления и конечной станции распределения грузов. Второй вариант описывает транспортные перевозки с выделенной начальной станцией отправления грузов. Третий вариант описывает транспортные перевозки с выделенными начальной станцией отправления и конечной станцией распределения грузов. Четвертый вариант описывает транспортные перевозки по круговой цепочке станций. Для всех вариантов модели изучаются режимы грузоперевозок, удовлетворяющие заданной системе контроля. Такие режимы описываются решениями типа бегущей волны для нелинейного конечно-разностного аналога уравнения параболического типа. Описаны возможные режимы грузоперевозок, исследован вопрос устойчивости стационарных режимов.
Новиков Е. А, Падалко М. А. Использование Радон и Фурье преобразований растровых изображений для описания и отслеживания заданных объектов // Машинное обучение и анализ данных. 2015. T. 1, № 13. C. 1827 - 1843. doi:10.21469/22233792.1.13.05 Как правило, существующие на сегодняшний день алгоритмы описания и идентификации объектов нацелены на решение задач распознавания определенного типа объектов в заданных условиях. Однако поиск универсального или более обобщенного подхода к решению данной задачи остается интересной проблемой с точки зрения академических исследований и перспективным с точки зрения практической реализации. Предлагаемый в данной статье подход позволяет производить идентификацию изображений объектов по широкому спектру признаков. Метод представлен в виде общего описания алгоритма и результатов экспериментальной проверки его эффективности. Основная задача разработки метода — быстрая и качественная обработка графических данных в виде динамических изображений или видеопотоков. Доступные для сравнения методы используются преимущественно для поиска объектов в статических изображениях, в то время как авторский метод в первую очередь нацелен на работу с видеопотоками. Общедоступных видеоматериалов и данных по их обработке аналогичными методами для сравнительного анализа на момент написания статьи не найдено. Рассматриваемый метод предлагает новый способ получения набора ключевых признаков образа и функцию для их сравнения. Он основывается на применении комбинации классических методов прямого преобразования Радона к матрице изображения, одномерного преобразования Фурье к полученным интегральным проекциям и статистического анализа интегральных коэффициентов Фурье, рассматриваемых в качестве основных дескрипторов объектов изображения.
Петров Е. П., Харина Н. Л., Ржаникова Е. Д. Комбинированная нелинейная фильтрация цифровых изображений большой разрядности // Машинное обучение и анализ данных. 2015. T. 1, № 13. C. 1844 - 1852. doi:10.21469/22233792.1.13.06 Синтезирован алгоритм нелинейной фильтрации многоразрядных цифровых изображений (ЦИ), передаваемых многопозиционными ФМ импульсными сигналами, что позволяет сократить время передачи ЦИ. Синтезированный алгоритм реализует пространственную и межразрядную статистическую избыточность многоразрядных ЦИ для компенсации потерь помехоустойчивости при переходе от двухпозиционных ФМ сигналов к многопозиционным ФМ сигналам. В комбинации с медианной фильтрацией алгоритм нелинейной фильтрации многоразрядных ЦИ может подавлять не только белый гауссовский шум, но и импульсные помехи, борьба с которыми медианной фильтрацией при наличии белого гауссовского шума неэффективна.
Дюкова Е. В., Никифоров А. Г. Об эффективном распараллеливании алгоритмов для дискретных перечислительных задач // Машинное обучение и анализ данных. 2015. T. 1, № 13. C. 1853 - 1865. doi:10.21469/22233792.1.13.07 Разработана новая статическая схема распараллеливания асимптотически оптимальных алгоритмов для задачи дуализации. Данная задача относится к числу труднорешаемых перечислительных задач. Предлагаемая схема основана на предварительной статистической обработке входных данных с целью установления вида распределения случайно величины, определяющей объемы подзадач. Статья является развитием ранней работы авторов, в которой при получении указанных оценок использовалась менее эффективная методика, учитывающая только размер задачи. Выявлены условия, при которых обеспечиваются достаточно равномерная загрузка процессоров и ускорение, близкое к максимальному.
Бахмутова И. В., Гусев В. Д., Мирошниченко Л. А., Титкова Т. Н. Параллельные тексты в задаче дешифровки древнерусских знаменных песнопений // Машинное обучение и анализ данных. 2015. T. 1, № 13. C. 1866 - 1876. doi:10.21469/22233792.1.13.08 Предложен новый компьютерно-ориентированный подход к проблеме нотолинейной реконструкции (дешифровки) древнерусских церковных песнопений XVI–XVII вв., представленных в знаменной форме записи. В основе подхода лежит анализ двознаменников — певческих книг, записанных в виде трех параллельных (синхронизованных между собой) текстов: знаменного, нотолинейного и стихотворного (старославянского). Введено понятие инвариантов и квазиинвариантов знаменного распева. Разработан алгоритм выделения их из обучающего материала (двознаменники) и использования для целей дешифровки. Получены оценки эффективности подхода на независимом контрольном материале. Основным достоинствам подхода является ориентация его на общий случай беспометной нотации.
Молчанов Д. А., Кондрашкин Д. А., Ветров Д. П. Машина релевантных тегов // Машинное обучение и анализ данных. 2015. T. 1, № 13. C. 1877 - 1887. doi:10.21469/22233792.1.13.09 При решении многих задач классификации или регрессии зачастую приходится сталкиваться с большим количеством нерелевантных признаков. Одним из известных способов решения задачи отбора признаков является метод, основанный на Байесовском подходе к выбору модели. Этот метод получил широкое распространение, однако область его применения была ограничена. В данной работе этот метод применяется для более широкого класса моделей и исследуется на примере задачи бинарной классификации с бинарны- ми признаками. Также предложена новая модель для бинарной классификации данных и метод обучения этой модели, позволяющий автоматически убирать нерелевантные признаки.
Т. 1, №14, 2015
Черных В. Ю., Стенина М. М. Прогнозирование нестационарных временных рядов при несимметричных функциях потерь // Машинное обучение и анализ данных, 2015. T. 1. № 14. C. 1893-1909. doi:10.21469/22233792.1.14.01 Рассматривается задача прогнозирования временных рядов при несимметричных функциях потерь. Предлагается двухэтапный алгоритм прогнозирования ARIMA + Hist. На первом этапе используется авторегрессионное интегрированное скользящее среднее ARIMA с сезонной компонентой в случае необходимости. Параметры модели подбираются согласно методологии Бокса–Дженкинса. На втором этапе проводится анализ регрессионных остатков и находится оптимальная добавка к прогнозу, полученному на первом шаге, минимизирующая математическое ожидание потерь. Для оценки ожидаемых потерь используется свертка функции потерь с гистограммой регрессионных остатков. Работа предлагаемого двухэтапного алгоритма иллюстрируется на временных рядах различными элементами нестационарности (тренд, сезонность) и для различных симметричных и несимметричных функций потерь. Демонстрируется, что качество прогнозов двухэтапного алгоритма превосходит качество прогнозов модели ARIMA в случае несимметричных функций потерь.
Рязанов В. В., Виноградов А. П., Лаптин Ю. П. Использование обобщенных прецедентов для сжатия больших выборок при обучении // Машинное обучение и анализ данных, 2015. T. 1. № 14. C. 1910-1918. doi:10.21469/22233792.1.14.02 В работе анализируется роль внутренние присущих и привнесённых структур данных при построении эффективных алгоритмов распознавания. Исследуется понятие обобщенного прецедента как способа представления устойчивой локальной закономерности в данных, и методы снижения размерности задач на основе его использования. Предложены два новых подхода к проблеме, основанные на позиционном представлении и на средних по кластерам элементарных логических закономерностей. Представлены результаты вычислительного эксперимента по сжатию данных в параметрических пространствах для нескольких практических задач.
Соломатин И. А., Матвеев И. А. Определение видимой области радужки классификатором локальных текстурных признаков // Машинное обучение и анализ данных, 2015. T. 1. № 14. C. 1919-1929. doi:10.21469/22233792.1.14.03 Распознавание человека по изображению радужной оболочки — актуальная задача в биометрических системах. Помимо выделения радужки, как кольцевой области, для повышения точности распознавания определяют области затенения (блики, веки, ресницы и т.д.). Задача выделения затенений радужки может быть поставлена как классификация пикселей кольцевой области на два класса: «радужка» и «затенение». В кольцевой области определяется сектор с минимальной дисперсией яркости, который, как правило, не содержит затенений (в данной работе этот сектор не вычисляется, а рассматривается, как часть входных данных алгоритма). Далее строится классификатор на основе многомерного гауссиана, который обучается на выборке, которая задаётся по пикселям этого сектора. Параметры классификатора были оптимизированы с помощью генетического алгоритма. Проблема шума и ошибок с классификацией некоторых участков изображения решается с помощью применения морфологической постобработки. Был проведён вычислительный эксперимент и получено распределение функционала качества алгоритма.
Янковская А. Е., Ямшанов А. В., Кривдюк Н. М. 2-симплекс призма — когнитивное средство принятия и обоснования решений в интеллектуальных динамических системах // Машинное обучение и анализ данных, 2015. T. 1. № 14. C. 1930-1938. doi:10.21469/22233792.1.14.04 Для ряда проблемных и междисциплинарных областей таких как медицина, биомедицина, экогеология, образование, дорожное строительство, впервые в интеллектуальных динамических системах предлагается для принятия и обоснования решений применять оригинальное когнитивное средство 2-симплекс призму. Идея применения n-симплексов, теорема для принятия и обоснования решений на основе n-симплексов и использование её в интеллектуальных системах впервые предложены А.Е. Янковской в 1990 году. Описывается применение 2-симплекс призмы для принятия и обоснования решений в интеллектуальных динамических системах, основанных на тестовых методах распознавания образов, нечёткой и пороговой логиках.
Бахтеев О. Ю. Восстановление панельной матрицы и ранжирующей модели по метризованной выборке в разнородных шкалах // Машинное обучение и анализ данных, 2015. T. 1. № 14. C. 1939-1960. doi:10.21469/22233792.1.14.05 Работа посвящена восстановлению ежегодных изменений рейтингов студентов при собеседовании в учебный центр. Рассматривается выборка, состоящая из экспертных оценок студентов, проходивших собеседование в учебный центр в течение нескольких лет и итоговых рейтингов студентов. Шкалы экспертных оценок меняются из года в год, но шкала рейтингов остается неизменной. Требуется восстановить ранжирующую модель, не зависящую от времени. Задача сводится к восстановлению панельной матрицы (то есть матрицы объект–признак–год), ставящей во взаимное соответствие некоторого студента (или усредненный “портрет” студента) и его предполагаемую оценку на собеседованиях за каждый год, и исследованию ранжирующей модели, полученной на основе этой матрицы, а так же анализу ее устойчивости на протяжении нескольких лет. Предлагается метод восстановления панельной матрицы, основанный на решении многомерной задачи о назначениях. В качестве метода восстановления ранжирующей модели используется алгоритм многоклассовой классификации с отношением полного порядка на классах.
Сологуб Р. А. Методы трансформации моделей в задачах нелинейной регрессии // Машинное обучение и анализ данных, 2015. T. 1. № 14. C. 1961 - 1976. doi:10.21469/22233792.1.14.06 Решается проблема автоматического построения и упрощения нелинейных регрессионных моделей. Модели предназначены для описания результатов измерений и прогнозирования экспериментов, составляющих неотъемлемую часть естественно-научных исследований. Порождаемые модели предназначены для аппроксимации, анализа и прогнозирования результатов измерений. При порождении учитываются требования, предъявляемые экспертами-специалистами в предметной области к порождаемым моделям. Это дает возможность получения экспертно-интерпретируемых моделей, адекватно описывающих результат измерения.
Власова К. В., Пахотин В. А., Клионский Д. М., Каплун Д. И. Оценивание параметров радиоимпульса с использованием метода максимального правдоподобия // Машинное обучение и анализ данных, 2015. T. 1. № 14. C. 1977 - 1990. doi:10.21469/22233792.1.14.07 Статья посвящена разработке алгоритма для разрешения и оценивания параметров радиоимпульсов с частично перекрывающимися спектрами в области их неортогональности (коэффициент корреляции изменяется в пределах от 0 до 0,9). Предложенный алгоритм позволяет проектировать фильтры для разрешения частотно-зависимых сигналов и, как следствие, появляется возможность повышения пропускной способности канала связи. В статье использован метод максимального правдоподобия для получения аналитических выражений и проведения модельных исследований для частотного разрешения неортогональных сигналов. Динамический диапазон оценок параметров сигналов был определен как функция отношения сигнал/шум и коэффициента корреляции. Показано, что значения функционала правдоподобия в точке глобального минимума позволяют оценить дисперсию шума и количество радиоимпульсов в принятом сигнале.
Ефимов Ю. С., Матвеев И. А. Поиск внешней и внутренней границ радужной оболочки на изображении глаза методом парных градиентов // Машинное обучение и анализ данных, 2015. T. 1. № 14. C. 1991 - 2002. doi:10.21469/22233792.1.14.08 Рассматривается задача выделения области радужной оболочки на изображении глаза. Внешняя и внутренняя границы радужной оболочки аппроксимируются окружностями. Для отбора точек, принадлежащих предполагаемым окружностям, предлагается использовать модификацию преобразования Хафа, использующую пары градиентов яркости. Вводятся вероятностные коэффициенты подобия для построения изображения-аккумулятора. Для анализа эффективности алгоритма и демонстрации его работы используются материалы открытой базы изображений радужки.