2011

 

Т. 1, №1, 2011

Леонтьева Л.Н. Многомерная гусеница, выбор длины и числа компонент // Машинное обучение и анализ данных. 2011. T. 1, № 1. C. 5-15. В работе описывается метод гусеницы (SSA) и его применение для прогнозирования временных рядов. Алгоритм основан на выделении из изучаемого временного ряда некоторого набора его главных компонент и последующего построения прогноза по выбранному набору. Исследуется зависимость точности прогноза от выбора длины гусеницы и числа ее компонент. В вычислительном эксперименте приводятся результаты работы алгоритма на периодических рядах с разным рисунком внутри периода, на рядах с нарушением периодичности, а так же на реальных рядах почасовой температуры в Москве.

Рудой Г.И. Выбор функции активации при прогнозировании нейронными сетями // Машинное обучение и анализ данных. 2011. T. 1, № 1. C. 16-39. Целью работы является исследование зависимости качества прогнозирования временных рядов нейронными сетями от параметров нейронной сети. В частности, анализируется зависимость от выбранной функции активации нейронов в сети, а также от параметров этой функции. Функция активации описывает выходное значение нейрона в зависимости от взвешенной суммы его входов и порогового значения срабатывания.Рассматриваются сети с прямым распространением сигналов (без обратной связи). Приводятся результаты вычислительного эксперимента по прогнозированию нейронными сетями различных временных рядов и анализируется качество прогнозов при различных функциях активации и прочих параметрах сети.

Токмакова А.А. Выделение периодической компоненты из временного ряда // Машинное обучение и анализ данных. 2011. T. 1, № 1. C. 40-50. В проекте исследуется временной ряд на наличие периодической компоненты. На основе теории о рядах Фурье строится тригонометрическая интерполяция предложенных временных рядов методом наименьших квадратов. Также производится оценка параметров функции метода наименьших квадратов в зависимости от качества прогнозирования. В вычислительном эксперименте приводятся результаты работы корреляционной функции и метода наименьших квадратов на зашумлённом модельном синусе и реальном временном ряде электрокардиограммы.

Мотренко А.П. Использование теста Гренджера при прогнозировании временных рядов // Машинное обучение и анализ данных. 2011. T. 1, № 1. C. 51-60. Работа посвящена исследованию возможностей применения теста Гренджера в прогнозировании временных рядов. В основе теста Гренджера лежат статистические тесты и использование линейных регрессионных моделей. Исследуется зависимость качества прогноза от порядка модели, способа обработки данных. В вычислительном эксперименте приводятся результаты работы алгоритма на различных временных рядах: стационарных, нестационарных, с обратной связью, независимых по Гренджеру.

Балдин Н.П. Исследование сходимости при прогнозировании нейронными сетями с обратной связью // Машинное обучение и анализ данных. 2011. T. 1, № 1. C. 61-76. Исследуется зависимость скорости сходимости при прогнозировании временных рядов от параметров нейронной сети с обратной связью. В качестве модели нейронной сети используется сеть Джордана. Предлагается проанализировать скорость сходимости в зависимости от выбора функции активации (сигмоидной, гиперболического тангенса), от числа нейронов в промежуточном слое и от ширины скользящего окна. Также разбирается способ повышения скорости сходимости при использовании обобщенного дельта-правила.

Романенко А.А. Выравнивание временных рядов: прогнозирование с использованием DTW // Машинное обучение и анализ данных. 2011. T. 1, № 1. C. 77-85. Временной ряд- это повсеместно встечающаяся форма представления данных во многих научных дисциплинах. Задача, сопутствующая появлению временных рядов, - сравнение одной последовательности данных с другой. Dynamic time warping (DTW) представляет собой технику эффективного выравнивая временных рядов. Методы DTW используются при распознавании речи, при анализе информации в робототехнике, в промышленности, в медицине и других сферах. Предлагается классический алгоритм DTW и упоминаются его возможные модификации. В работе описывается алгоритм поиска в последовательности подпоследовательности, "больше всего похожей" на данную последовательность. Приведены результаты работы алгоритма.

Будников Е.А. Прогнозирование функциями дискретного аргумента // Машинное обучение и анализ данных. 2011. T. 1, № 1. C. 86-91. В работе исследуются короткие временные ряды на примере монофонических музыкальных мелодий. Происходит прогнозирование одной ноты экспоненциальным сглаживанием, локальным методом, а также методом поиска постоянных закономерностей. Вычислительный эксперимент проводится на двух мелодиях, одна из которых имеет точно повторяющиеся фрагменты.

Фадеев И.В., Ивкин Н.П., Савинов Н.А., Корниенко А.И., Кононенко Д.С., Джамтырова Р.Б. Авторегрессионные алгоритмы прогнозирования // Машинное обучение и анализ данных. 2011. T. 1, № 1. C. 92-103.Работа посвящена исследованию свойств авторегрессионных алгоритмов прогнозирования и включает ряд кратких описаний и вычислительных экспериментов. В работу включены следующие алгоритмы: сингулярный структурный анализ (алгоритм «Гусеница»), авторе грессионное интегрированное скользящее среднее, метод гибких наименьших квадратов, локальное прогнозирование временных рядов, авторегрессионное прогнозирование событий и многомерная авторегрессия.

Кузнецов М.П., Мафусалов А.А., Животовский Н.К., Зайцев Е., Сунгуров Д.С. Сглаживающие алгоритмы прогнозирования // Машинное обучение и анализ данных. 2011. T. 1, № 1. C. 104-112. Работа посвящена исследованию свойств сглаживающих алгоритмов прогнозирования и включает ряд кратких описаний и вычислительных экспериментов. В работу включены следующие алгоритмы: ядерное сглаживание, экспоненциальное сглаживание и непараметрическое сглаживание.

Фирстенко А.Н., Кононенко Д.С., Кузнецов М.П., Морозов А.А., Сунгуров Д.С., Савинов Н.А., Корниенко А.И., Джамтырова Р.Б., Ивкин Н.П., Зайцев Е., Животовский Н.К., Кононенко Д.С., Быстрый Р.Б. Технологические карты разработки библиотеки алгоритмов прогноза временных рядов // Машинное обучение и анализ данных. 2011. T. 1, № 1. C. 113-121. В нижеприведенном документы приведены технологическое рекомендации по созданию программных систем интеллектуального анализа данных. Рекомендации были собраны при разработке библиотеки алгоритмов прогнозирования временных рядов. В частности, вошли рекомендации по созданию метаописаний временных рядов, визуализации прогноза, стилевой правке кода, созданию базы временных рядов, unit-тестированию,системному тестированию и профилироваанию.

Т. 1, №2, 2011

Леонтьева Л.Н. Выбор моделей прогнозирования цен на электроэнергию // Машинное обучение и анализ данных. 2011. T. 1, № 2. C. 127-137. Исследуется проблема оптимальной сложности модели в связи с ее точностью и устойчивостью. Задача состоит в нахождении наиболее информативного набора признаков в условиях их высокой мультиколлинеарности. Для выбора оптимальной модели используется модифицированный алгоритм шаговой регрессии, являющийся одним из алгоритмов добавления и удаления признаков. В работе предложен метод поиска оптимальной модели прогнозирования цен на электроэнергию. В вычислительном эксперименте приведены результаты работы алгоритмов на временных рядах почасовых цен на электроэнергию.

Токмакова А.А. Получение устойчивых оценок гиперпараметров линейных регрессионных моделей // Машинное обучение и анализ данных. 2011. T. 1, № 2. C. 138-153. В работе решается задача отбора признаков при восстановлении линейной регрессии. Принята гипотеза о нормальном распределении вектора зависимой переменной и параметров модели. Для оценки ковариационной матрицы параметров используется аппроксимация Лапласа: логарифм функции ошибки приближается функцией нормального распределения. Исследуется проблема присутствия в выборке шумовых и коррелирующих признаков, так как при их наличии матрица ковариаций параметров модели становится вырожденной. Предлагается алгоритм, производящий отбор информативных признаков. В вычислительном эксперименте приводятся результаты исследования на временном ряде.

Кузнецов М.П. Уточнение ранговых экспертных оценок с использованием монотонной интерполяции // Машинное обучение и анализ данных. 2011. T. 1, № 2. C. 154-162. Описан способ построения интегральных индикаторов качества объектов с использованием экспертных оценок и измеряемых данных. Каждый объект описан набором признаков в линейных шкалах. Используются экспертные оценки качества объектов и важности признаков, которые корректируются в процессе вычисления. Предполагается, что оценки выставлены в ранговых шкалах. Рассматривается задача получения таких интегральных индикаторов, которые не противоречили бы экспертным оценкам. Предложено два подхода к уточнению экспертных оценок. При первом подходе вектор экспертных оценок рассматривается как выпуклый многогранный конус. Для уточнения экспертных оценок минимизируется расстояние между векторами в конусах. При втором подходе используется задача монотонной интерполяции с гиперпараметром. Проведен вычислительный эксперимент на следующих данных: экспертами оценивался фактор экологического воздействия на окружающую среду хорватских электростанций. Проведена процедура уточнения экспертных оценок.

Зайцев А.А. Исследование устойчивости оценок ковариационной матрицы признаков // Машинное обучение и анализ данных. 2011. T. 1, № 2. C. 163-171. В данной работе исследуется устойчивость оценок ковариационной матрицы параметров модели. Рассматриваются модели линейной и существенно нелинейной регрессии. Тогда вектор параметров модели соответствует набору признаков модели. Ковариационная матрица параметров строится в предположении о вероятностном распределении вектора параметров. Исследуется, зависит ли оценка ковариационной матрицы признаков от того, являются ли признаки мультикоррелирующими и шумовыми. Для такой матрицы плана получаем расширенный вектор параметров модели и оценку матрицы ковариации параметров модели. Сравнивается ковариационная матрица для нерасширенного и расширенного вектора параметров модели. Исследуется пространство параметров для информативных признаков. Эксперименты проводятся на реальных и модельных данных.

Сологуб Р.А. Восстановление поверхности волатильности биржевых опционов помощью индуктивно-порождаемых моделей // Машинное обучение и анализ данных. 2011. T. 1, № 2. C. 172-182. В работе решается задача отбора признаков при восстановлении линейной регрессии. Принята гипотеза о нормальном распределении вектора зависимой переменной и параметров модели. Для оценки ковариационной матрицы параметров используется аппроксимация Лапласа: логарифм функции ошибки приближается функцией нормального распределения. Исследуется проблема присутствия в выборке шумовых и коррелирующих признаков, так как при их наличии матрица ковариаций параметров модели становится вырожденной. Предлагается алгоритм, производящий отбор информативных признаков. В вычислительном эксперименте приводятся результаты исследования на временном ряде.

Рудой Г.И. Индуктивное порождение суперпозиций в задачах нелинейной регрессии // Машинное обучение и анализ данных. 2011. T. 1, № 2. C. 183-197. При восстановлении нелинейной регрессии рассматривается набор индуктивно порожденных моделей с целью выбора оптимальной. В работе исследуется алгоритм индуктивного порождения допустимых существенно нелинейных моделей. Предлагается алгоритм, порождающий все возможные суперпозиции заданной сложности за конечное число шагов, и приводится его теоретическое обоснование. Приводятся результаты вычислительного эксперимента по моделированию волатильности опционов.

Панов М.Е. Аппроксимация функции ошибки // Машинное обучение и анализ данных. 2011. T. 1, № 2. C. 198-202.

Скипор К.С. Выбор признаков в задачах логистической регрессии // Машинное обучение и анализ данных. 2011. T. 1, № 2. C. 203-219. Предлагается и исследуется алгоритм отбора признаков для решения задач восстановления логистической регрессии. Алгоритм основан на методе наименьших углов для модели линейной регрессии с использованием дополнительно линеаризации функционала качества. Приводится математическое обоснование предложенного алгоритма. Работа алгоритма проиллюстрирована задачей изучения факторов риска ишемических заболеваний сердца.

Павлов К.В. Оценка параметров смеси распределений // Машинное обучение и анализ данных. 2011. T. 1, № 2. C. 220-224. В работе рассматриваются способы построения смеси моделей и экспертов. Предлагается EM-алгоритм для совместного нахождения параметров моделей и их весов в смеси, а так же для нахождения параметров смеси обобщенных линейных моделей.

Мотренко А.П. Многоклассовый прогноз вероятности наступления инфаркта // Машинное обучение и анализ данных. 2011. T. 1, № 2. C. 225-235. В работе описан алгоритм, позволяющий классифицировать четыре группы пациентов: перенесших инфаркт; больных, имеющих предрасположенность к инфаркту и здоровых пациентов двух групп. Признаками для определения состояния пациента служат измерения концентрации белков в крови. Одной из задач работы является выбор набора маркеров, оптимального для разделения между собой соответствующих групп. Классификация осуществляется по принципу "каждый против каждого", то есть решаются задачи классификации всевозможных пар групп. В силу высокой стоимости анализа крови, объемы данных невелики, поэтому одним из результатов исследования является оценка необходимого объема выборки пациентов.

Романенко А.А. Событийное моделирование и прогноз финансовых временных рядов // Машинное обучение и анализ данных. 2011. T. 1, № 2. C. 236-242. Финансовые временные ряды обычно сильно зашумлены и зависят от других временных рядов (например, курс доллара или пошлины на таможне). Но насколько сильна эта зависимость, какие факторы учитывать при их прогнозировании, однозначно определить непросто. В работе для прогнозирования поведения целевого ряда используется разметка временных рядов. Предлагается алгоритм порождения признаков из размеченных временных рядов и генетический алгоритм отбора признаков на размеченных временных рядах.

Будников Е.А. Обзор некоторых статистических моделей естественных языков // Машинное обучение и анализ данных. 2011. T. 1, № 2. C. 243-248. В работе производится обзор и сравнение следующих моделей натурального языка: n-граммы, n-граммы на классах, дисконтная модель. В первой части работы будет проведён обзор основной литературы по данной тематике, во второй части будут введены основные понятия и описаны сами методы.