2012

 

Т. 1, №3, 2012

Кушнир О.А. Сравнение формы бинарных растровых изображений на основе скелетизации // Машинное обучение и анализ данных. 2012. T. 1, № 3. C. 252-263. Данная работа посвящена проблеме сравнения формы бинарных растровых изображений на основе скелетных графов. Проводится анализ существующих подходов к сравнению скелетных графов, заключающихся в применении к этим графам различных методов классификации на основе векторов признаков, мер, метрик. Также ставится задача нахождения метрики, заданной в пространстве скелетных графов, которая позволила бы эффективно сравнивать формы произвольных объектов в реальном времени путем применения универсального классификатора, построенного на методе опорных векторов.

Belomestny D., Panov V., Spokoiny V. Semiparametric estimation of the signal subspace // Journal of Machine Learning and Data Analysis. 2012. T. 1, № 3. C. 264-271. Let a high-dimensional random vector X be represented as a sum of two components - a signal S that belongs to some low-dimensional linear subspace S, and a noise component N. This paper presents a new approach for estimating the subspace S based on the ideas of the Non-Gaussian Component Analysis. Our approach avoids the technical difficulties that usually appear in similar methods - it requires neither the estimation of the inverse covariance matrix of X nor the estimation of the covariance matrix of N.

Целых В.Р. Многомерные адаптивные регрессионные сплайны // Машинное обучение и анализ данных. 2012. T. 1, № 3. C. 272-278. В работе рассматриваются многомерные адаптивные регрессионные сплайны. Метод позволяет получить модели, дающие достаточно точную аппроксимацию, даже в тех случаях, когда связи между предикторными и зависимыми переменными имеют немонотонный характер и сложны для приближения параметрическими моделями. Экспериментально исследуется зависимость ошибки аппроксимации от сложности модели. Для иллюстрации работы метода используются тестовые данные, данные ЭКГ и данные из области финансовой математики.

Адуенко А.А. Выбор признаков и шаговая логистическая регрессия для задачи кредитного скоринга // Машинное обучение и анализ данных. 2012. T. 1, № 3. C. 279-291. Работа посвящена выбору оптимального набора признаков для определения уровня надежности заемщиков, подавших заявку на банковский кредит. Для ответа на поставленный вопрос оценивается вероятность невозврата кредита. Для отбора признаков используется шаговая регрессия, исследуется зависимость информативности отобранных признаков от параметров шаговой регрессии. В вычислительном эксперименте алгоритм тестируется на данных потребителей, подававших заявки на кредиты в определенный банк, а также на данных об отклике клиентов на маркетинговую кампанию банка.

Медведникова М.М. Использование метода главных компонент при построении интегральных индикаторов // Машинное обучение и анализ данных. 2012. T. 1, № 3. C. 292-304. В данной работе рассматривается использование метода главных компонент при построении интегральных индикаторов. Полученные результаты сравниваются с результатами, даваемыми методом расслоения Парето. Строится интегральный индикатор для российских вузов. Для этого используются биографии 30 богатейших бизнесменов России по версии журнала "Forbes" за 2011 год.

Романенко А.А. Кластеризация коллекции текстов // Машинное обучение и анализ данных. 2012. T. 1, № 3. C. 305-310. В работе предлагается метод кластеризации текстовой коллекции с помощью стандартных метрических алгоритмов, например, K-means. Для этого вводится функция расстояния между текстами, учитывающая "схожесть" лексики используемой в тексте. В работе также исследуется соответствие между введенным расстоянием на множестве реальных текстов и близостью тематик этих текстов. Возможность кластеризации и соответствие ее результатов с заранее известным распределением текстов по тематике исследована в вычислительном эксперименте на синтетической коллекции текстов.

Цыганова С.В. Локальные методы прогнозирования с выбором преобразования // Машинное обучение и анализ данных. 2012. T. 1, № 3. C. 311-317. В работе описан алгоритм локального прогнозирования с учетом преобразований, позволяющий выявить похожие во введеной метрике интервалы временного ряда. Рассмотренно понятие инвариантных преобразований, их обнаружение и выбор наиболее подходящих для решения задачи прогнозирования. Работа алгоритма проиллюстрирована на данных потребления электроэнергии и на синтетических данных.

Кузьмин А.А. Многоуровневая классификация при обнаружении движения цен // Машинное обучение и анализ данных. 2012. T. 1, № 3. C. 318-327. В данной работе рассматривается один из возможных методов прогнозирования, основанный на модели логистической регрессии. Предлагается способ разметки пучка временных рядов и построения матрицы объект- признак. Алгоритм проверяется на синтетических пучках временных рядов вида зашумленных синусов и периодических трапеций. Как вариант практического применения, алгоритм тестируется на данных о потреблении электроэнергии.

Клочков Е.Ю. Прогноз квазипериодических временных рядов непараметрическими методами // Машинное обучение и анализ данных. 2012. T. 1, № 3. C. 328-334. В работе рассматривается непараметрический метод прогнозирования квазипериодических временных рядов. В качестве метода используется квантильная регрессия. Его преимущества в том что, несмотря на его простоту, он хорошо приближает многие из известных распределений. Предлагаемый метод тестируется на данных о продажах продуктов.

Леонтьева Л.Н. Последовательный выбор признаков при восстановлении регрессии // Машинное обучение и анализ данных. 2012. T. 1, № 3. C. 335-346. Исследуется проблема оптимальной сложности модели в связи с ее точностью и устойчивостью. Задача состоит в нахождении наиболее информативного набора признаков в условиях их высокой мультиколлинеарности. Для выбора оптимальной модели используется модифицированный алгоритм шаговой регрессии, являющийся одним из алгоритмов добавления и удаления признаков. Для описания работы пошагового алгоритма предложена модель n-мерного куба. Проанализированы величины матожидания и дисперсии функции ошибки.

Зайцев А.А., Токмакова А.А. Оценка гиперпараметров линейных регрессионных моделей методом максимального правдоподобия при отборе шумовых и коррелирующих признаков // Машинное обучение и анализ данных. 2012. T. 1, № 3. C. 347-353. Рассматривается задача выбора регрессионной модели. Предполагается, что вектор параметров модели -- многомерная случайная величина с независимо распределёнными компонентами. В работе предложен способ оптимизации параметров и гиперпараметров. Приведены явные оценки гиперпараметров для случая линейных и нелинейных моделей. Показано как полученные оценки используются для отбора признаков. Предложенный подход сравнивается с подходом, использующим для оценки гиперпараметров аппроксимацию Лапласа.

Мотренко А.П. Оценка необходимого объема выборки пациентов при прогнозировании сердечно-сосудистых заболеваний // Машинное обучение и анализ данных. 2012. T. 1, № 3. C. 354-366. В работе описан алгоритм классификации пациентов, перенесших инфаркт и имеющих предрасположенность к инфаркту. Признаками для определения состояния пациента служат измерения концентрации белков в крови. Решается задача оценки параметров функции регрессии и выбора признаков в логистической регрессии. Предполагается, что объем данных недостаточен, поэтому в работе предлагается способ оценки необходимого объема выборки.

Варфоломеева А.А. Локальные методы прогнозирования с выбором метрики // Машинное обучение и анализ данных. 2012. T. 1, № 3. C. 367-375. В данной работе рассматривается локальный метод прогнозирования временных рядов. Исследуется вопрос выбора функции близости для нахождения похожих участков ряда. Проводится сравнение эффективности алгоритма построения прогноза при использовании различных метрик на модельных данных и временных рядах потребления электроэнергии и цен на сахар.

Будников Е.А. Оценивание вероятностей появления строк в естественном языке // Машинное обучение и анализ данных. 2012. T. 1, № 3. C. 376-386. В работе рассматривается задача оценивания вероятностей появления строк в естественном языке. Для решения задачи используется модель n-грамм. Для решения проблемы большого числа параметров предлагается использовать модель n-грамм на классах. Для решения проблемы нулевых вероятностей строк предлагается использовать три дисконтные модели: Гуда-Тьюринга, Катца и абсолютного дисконтирования.

Т. 1, №4, 2012

Жукова К.В., Рейер И.А. Параметрическое семейство базовых скелетов многоугольной фигуры // Машинное обучение и анализ данных. 2012. T. 1, № 4. C. 391-410. В работе рассматривается базовый скелет - устойчивое скелетное представление формы, строящееся на основе скелета аппроксимирующей объект многоугольной фигуры. Исследуются свойства монотонности и непрерывности изменения базового скелета при увеличении величины точности аппроксимации. Вводится понятие разметки скелета - множества точек скелета многоугольной фигуры, описывающего процесс изменения базового скелета и позволяющего строить базовые скелеты для заданного набора или интервала значений точности аппроксимации.

Кузнецов М.П. Построение интегрального индикатора в ранговых шкалах с использованием копул для анализа совместного распределения критериев // Машинное обучение и анализ данных. 2012. T. 1, № 4. C. 411-419. Предложен метод построения интегрального индикатора на основе критериев, выставленных в ранговых шкалах. Для анализа совместного распределения критериев предложено использовать копулы. Предложен алгоритм выбора признаков, основанный на выборе копулы с наибольшим параметром. Работа проиллюстрирована задачей определения статуса редких видов, включенных в Красную книгу РФ.

Бурмистров М.О., Сандуляну Л.Н. Вероятностная модель одноклассовой классификации // Машинное обучение и анализ данных. 2012. T. 1, № 4. C. 420-427. Решается задача одноклассовой классификации электронных писем на предмет наличия в них спама. В работе вводится квазивероятностная модель для классической эмпирической постановки задачи одноклассовой классификации и производится сведение классического подхода к новой модели. Построенные методы классификации проверяются вычислительными экспериментами на модельных и реальных данных.

Мотренко А.П. Оценка плотности совместного распределения // Машинное обучение и анализ данных. 2012. T. 1, № 4. C. 428-436. В задачах классификации часто возникает ситуация, когда часть переменных распределена непрерывно, а часть --- дискретно. Например, в логистической регрессии признаки непрерывны, а переменная отклика подчиняется распределению Бернулли. В работе описан способ оценки плотности совместного неоднородного распределения, включающего дискретные и непрерывные величины. Рассмотрен случай, когда вероятностные предположения о распределении случайных величин сделать не удается. В этом случае применяются методы ядерного сглаживания. В работе также приводится их сравнение с классическими методами теории вероятностей. Эксперимент проводится на реальных и синтетических данных.

Целых В.Р., Воронцов К.В. Критерии согласия для разреженных дискретных распределений и их применение в тематическом моделировании // Машинное обучение и анализ данных. 2012. T. 1, № 4. C. 437-447. Критерий согласия Пирсона неприменим к сильно разреженным распределениям, так как в этих случаях распределение статистики плохо описывается асимптотическим законом хи-квадрат, зависит от объёма выборки и вида исходного распределения. Вданной работе предлагаются статистические критерии, основанные на вычислении эмпирических распределений статистик путём сэмплирования. Рассматривается их применение в задачах анализа текстов, в частности, для проверки гипотезы условной независимости при построении и оценивании вероятностных тематических моделей.

Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. 2012. T. 1, № 4. C. 448-465. Предложен алгоритм непараметрического прогнозирования загруженности железнодорожных узлов РЖД по историческим данным. Алгоритм основан на свертке эмпирической плотности распределения значений временного ряда с функцией потерь. В работе исследуются свойства авторегрессионной прогностической модели. Алгоритм проиллюстрирован данными загруженности железнодорожных узлов Омской области за 2007 и 2008 годы.

Животовский Н.К. Комбинированный порождающий и разделяющий подход в задачах классификации с малой выборкой // Машинное обучение и анализ данных. 2012. T. 1, № 4. C. 466-472. В работе рассмотрены два статистических подхода к решению задачи классификации и способ их комбинации, предназначенный для оценки параметров классификатора по выборкам различной мощности. Для случая, когда объекты в классах имеют многомерное нормальное распределение, построена комбинированная модель, сочетающая в себе порождающий и разделяющие подходы к задачам классификации. В серии экспериментов показано, что при ограничениях на длину обучающей выборки использование этой модели может приводить к уменьшению вероятности ошибки получаемого классификатора по сравнению с чисто порождающими или разделяющими моделями.

Василейский А.С., Карацуба Е.А., Карелов А.И., Кузнецов М.П., Рейер И.А. Алгоритм выделения устойчивых отражателей на спутниковых радиолокационных снимках земной поверхности // Машинное обучение и анализ данных. 2012. T. 1, № 4. C. 473-484. Исследуется проблема выделения устойчивых отражателей радиолокационного сигнала, расположенных на поверхности земли. Устойчивые отражатели определяются по данным радиолокационных спутниковых снимков, содержащих амплитудную и фазовую составляющие. Определение координат отражателей происходит по амплитудной составляющей. Фазовая составляющая используется для определения движения отражателей с течением времени вследствие сдвига земной поверхности. Предложен алгоритм выделения отражателей как ярких пятен на амплитудной составляющей. Алгоритм проиллюстрирован синтетическими и реальными данными. В работе описан метод обработки спутниковых снимков, построения и проверки адекватности синтетических данных и процедура построения системы устойчивых отражателей.