2.1 Методы классификации данных.
Огромное количество научных задач сводится к решению задачи классификации данных. Основная задача классификации заключается в разбиении множества элементов данных на категории или классы так, чтобы все элементы внутри каждого класса имели достаточное количество общих признаков, позволяющее пренебречь их индивидуальными отличиями.
В зависимости от того, порождены ли классы, и сформулированы ли критерии классификации, задачи классификации могут быть разделены на следующие три типа:
1) Отнесение данных (совокупности объектов, записей из информационных файлов) к заданным классам;
При этом должны быть явно заданы характеристики данных и классов, а также принципы отнесения данных к тому или иному классу, В классическом виде задачи такого типа формулируются следующим образом.
Пусть М- множество объектов Si, S2, S3,.Sq, а К1,К2,К$; •••* К[ - множество классов и
та
м = [к} ик2 икз и,
Пусть задана информация о классах lj (К},К2,Кз,...,, К1) и информация об объектах I(S). Задача состоит в том, чтобы по информации о классах I(Ki,K2,K3, Кi) и по описанию объектов I(S) вычислить значения предикатов G/S)->S^Kj.
Иначе говоря, необходимо построить алгоритм, в результате применения которого можно было бы утверждать, принадлежит ли данный объект одному из классов или нет.
Практически важным случаем задач первого типа в системах обработки данных является случай, когда классификация в соответствии с заданными критериями уже произведена, порождены классы, и необходимо на основании известной информации о мощности классов, их количестве и об атрибутах входящих в них объектов вычислить статистические характеристики классов и выявить связи между объектами класса.
Тогда под вторым типом задач классификации будем подразумевать следующее: Извлечение характеристик классов из данных классов и включение в них объектов;
В задачах классификации первого из рассмотренных типов были даны характеристики классов, к которым причислялись объекты в процессе классификации. Существуют задачи классификации, которые предполагают заданными описания (атрибуты, характеристики) исходных данных и критерии классификации., При этом количество классов (или категорий), к которым будут отнесены исходные данные в соответствии с заданными критериями классификации, заранее неизвестно.
Тогда приходим к третьему типу задач классификации:
Порождение классов (категорий) на основе заданного множества объектов и некоторой информации о них. В научных исследованиях одной из основных является задача обработки записей по категориям, т.е. отнесение записей категориям (классам) (а иногда одновременно к нескольким) в соответствии с заранее известными (заданными) принципами (критериями).
Приведем краткий обзор существующих методов классификации.