Факторный анализ 139

Новости
Просмотров: 353







Неиз-





33





 





 





 









вестные





10





27





4







где tie — число правильно классифицированных объектов, а р,- — априорная вероятность принадлежности к классу. g

Выражение 2 Р*Пг представляет собой число объектов, ко-

г=1

торые будут правильно предсказаны при случайной классификации их по классам пропорционально априорным вероятностям. Если все классы считаются равноправными, то априорные вероятности полагаются равными единице, деленной на число классов. Максимальное значение т-статистики равно 1 и оно достигается в случае безошибочного предсказания. Нулевое значение указывает на неэффективность процедуры, т-статистика может принимать и отрицательные значения, что свидетельствует о плохом различении или вырожденном случае. Поскольку пс должно быть целым числом, числитель может стать отрицательным чисто случайно, когда нет различий между классами.

Для данных Бардес каждая группа имеет априорную вероятность, равную 0,25. Следовательно, сумма в т-статистике равна (0,25-9)+ (0,25-2)+ (0,25-5)+ (0,25-3) =4,75. Для 18 правильных предсказаний из 19 возможных т-статистика составит:

18-4,75 13,25

т=---=0,93.

19-4,75 14,25

Это означает, что классификация с помощью дискриминантных функций делает на 93% ошибок меньше, чем ожидалось при случайной классификации (т. е. одна действительная ошибка на 14,25 ожидаемых).

ОБОСНОВАНИЕ С ПОМОЩЬЮ РАЗБИЕНИЯ ВЫБОРКИ

Как и все методы вывода, основанные на выборочных данных, процент правильных предсказаний и т-статистика имеют тенденцию к переоценке эффективности процедуры классификации. Это происходит потому, что обоснование решения производится по той же выборке, которая применялась для получения классифицирующих функций. Выражения, использованные при создании этих функций, чувствительны к выборочным погрешностям. Таким образом, функции отражают свойства конкретной выборки более точно, чем свойства всей генеральной совокупности24.

Если выборка достаточно велика, то мы можем при обосновании процедуры классификации взять случайное разбиение выборки на два подмножества. Одно подмножество необходимо для получения функций, а другое — только для проверки классификаций. Поскольку подмножества имеют различные выборочные ошибки, тестовое подмножество даст лучшую оценку способности предсказания свойств генеральной совокупности.

Другие новости по теме:

  • Факторный анализ 138
  • Факторный анализ 137
  • Факторный анализ 134
  • Факторный анализ 153
  • Факторный анализ 125

  •  (голосов: 0)

    Комментарии (0)