3.1. Обзор существующих методов и средств моделирования
Основным элементом моделирования любых процессов является анализ данных. Сегодня существует широкий спектр отработанных методов, применение которых зависит от конкретных условий, требований и множества иных факторов.
В качестве примера достаточно привести такие методы как регрессионный анализ, корреляционный анализ, ковариационный анализ, экспоненциальное сглаживание, гистограммы, дисперсионный анализ, описательная статистика, анализ Фурье и т.д.Регрессионный анализ. Вид статистического анализа, используемый для качественной оценки степени зависимости переменных, а также для проведения прогнозов их возможных изменений. Регрессия позволяет анализировать воздействие на отдельную зависимую переменную значений одной или нескольких других переменных. Регрессионный анализ позволяет оценить степень связи между переменными, предлагая механизм вычисления предполагаемого значения переменной из нескольких уже известных значений. Основным инструментом регрессионного анализа являются линии тренда. Линии тренда на диаграмме позволяют графически отображать тенденции изменения данных и прогно- зировать данные. Существуют различные типы регрессии: линейная, степенная, экспоненциальная и др., которые отличаются видом функций, применяемых для аппроксимации регрессии. Наиболее часто используется линейная регрессия, когда для аппроксимации используется линейная функция.
Корреляционный анализ. Используется для количественной оценки взаимосвязи двух наборов данных, представленных в безразмерном виде. Коэффициент корреляции выборки представляет собой корреляционный момент или ковариацию двух наборов данных, разделенную на произведение их стандартных отклонений (дисперсий). Корреляционный анализ дает возможность . установить, ассоциированы ли наборы данных по величине, то есть, большие значения из одного набора данных связаны с большими значениями другого набора (положительная корреляция), или, наоборот, малые значения одного набора связаны с большими значениями другого (отрицательная корреляция), или данные двух диапазонов мало или никак не связаны (корреляция близка к нулю).
Для независимых наборов данных коэффициент корреляции равен нулю. Для абсолютно зависимых наборов (например, два полностью идентичных набора данных) коэффициент корреляции равен единице.Экспоненциальное сглаживание. Предназначается для предсказания значения на основе прогноза для предыдущего периода, скорректированного с учётом погрешностей в этом прогнозе. Использует константу сглаживания, по величине которой определяет, насколько сильно влияют на прогнозы погрешности в предыдущем прогнозе. Для константы сглаживания наиболее подходящими являются значения от 0,2 до 0,3. Эти значения показывают, что ошибка текущего прогноза установлена на уровне от 20 до 30 процентов ошибки предыдущего прогноза. Более высокие значения- константы ускоряют отклик, но могут привести к непредсказуемым выбросам. Низкие значения константы могут привести к сдвигу аргумента для предсказанных значений.
Гистограммы. Используются для вычисления выборочных и интеграль- - ных частот попадания данных в указанные интервалы значений, при этом генерируются числа попаданий для заданного диапазона ячеек. Например, необхо- димо выявить тип распределения успеваемости в группе из 20 студентов. Таблица гистограммы состоит из границ шкалы оценок и количеств студентов, уровень успеваемости которых находится между самой нижней границей и текущей границей. Наиболее часто повторяемый уровень является модой интервала данных.
Основное предназначение любого из методов анализа состоит в том, чтобы провести качественные, либо количественные оценки степени зависимости значений различных совокупностей данных.
Другой класс методов ориентирован на решение задач прогнозирования изменения тех или иных совокупностей данных. Прогнозирование осуществляется с применением аппарата экстраполяции тенденций изменения данных и в качестве наиболее распространенного использует метод построения трендов к так называемым рядам данных. Одним из важных факторов, который следует иметь в виду при построении трендов, является снижение точности получаемого прогноза из-за уменьшения временной базы исследования, которая может выбираться в качестве опорной для составления прогноза (очевидно, что чем больший период времени охватывают исходные показатели, тем более достоверным является прогноз, т.е. точность прогнозирования тем выше, чем большую длительность имеет период, предшествующему начальной точке прогноза).
Существует большое число разных типов линий тренда для проведения экстраполяции и последующего прогнозирования с приемлемой точностью. При этом экстраполяция производится по методу наименьших квадратов в соответствии с тем или иным математическим уравнением. В число наиболее часто используемых математических уравнений для расчета линий тренда входят следующие виды аппроксимаций: арифметическая (линейная); полиномиальная; логарифмическая; экспоненциальная; степенная; величина R-квадрат (примечание: отображаемое вместе с линией тренда значение величины R- квадрат не является корректным. Для логарифмической, степенной и экспоненциальной линий тренда в Microsoft Excel используется несколько видоизмененная модель регрессии); скользящее среднее (примечание: число точек, обра- зующих линию скользящего среднего, равно числу точек в исходном ряде минус значение периода).Арифметическая (линейная) аппроксимация используется для линейной аппроксимации данных по методу наименьших квадратов в соответствии с уравнением:
у=тх + Ь
(1)
где т — угол наклона и Ъ — координата пересечения оси абсцисс.
Полиномиальная аппроксимация используется для аппроксимации данных по методу наименьших квадратов в соответствии с уравнением:
У -С lfl X + А (2)
где b и С#—Се — константы.
Логарифмическая аппроксимация используется для полиномиальной или криволинейной аппроксимации данных по методу наименьших квадратов в соответствии с уравнением:
где си b — константы, In — функция натурального логарифма. •
Экспоненциальная аппроксимация используется для экспоненциальной аппроксимации данных по методу наименьших квадратов в соответствии с уравнением:
У - (4)
где с и b — константы, е — основание натурального логарифма.
Степенная аппроксимация используется для степенной аппроксимации данных по методу наименьших квадратов в соответствии с уравнением:
У - га* (5)
где с и b — константы.
Все эти методы поддержаны прикладными инструментальными средствами: существует широкий спектр прикладных пакетов (например, пакет Математика, Статистика и много других).
В настоящее время для большинства возникающих задач наиболее распространенным и часто используемым для целей прогнозирования является Microsoft Excel.В состав Microsoft Excel входит набор средств анализа данных (так называемый пакет анализа), предназначенный для решения сложных статистических и инженерных задач. Для проведения анализа данных с помощью этих инструментов следует указать входные данные и выбрать параметры; анализ будет проведен с помощью подходящей статистической или инженерной макрофункции, а результат будет помещен в выходной диапазон. Другие средства позволяют представить результаты анализа в графическом виде. Для успешного применения процедур анализа необходимы начальные знания в области статистических и инженерных расчетов, для которых эти инструменты были разработаны.
В Microsoft Excel представлено большое число статистических, финансовых и инженерных функций. Некоторые из них являются встроенными, другие доступны только после установки пакета анализа. В Microsoft Excel, наряду со средствами анализа данных предусмотрена развития система прогнозирования и выполнения регрессионного анализа на основе построения трендов для рядов данных. Наиболее часто прогнозируются линейные и экспоненциальные зависимости. В обоих случаях необходимо указать не менее двух ячеек, содержащих начальные значения, а для того, чтобы повысить точность прогноза, укажите дополнительные начальные значения.
Помимо этого, в Microsoft Excel предусмотрена возможность проводить прогнозирование значений с помощью исключительно эффективного анализа «что-если».