Факторный анализ 228

Новости
Просмотров: 368



Шаг 3. Сравнение кластерных решений. Последний шаг заключается в сравнении выходных статистик кластерных решений, полученных по реальному и искусственному наборам данных. В этом случае мы воспользуемся мерой достоверности, основанной на /•"-отношении, которая имеется в пакете программ BMDPKM. Значения F-отношения, вычисленные с помощью однофакторной AN OVA по кластерам для всех 13 признаков, приводятся ниже:

Обратите внимание, что большинство значений довольно велико. Действительно, за исключением значения признака Mf, F-отно-шение принимает значения от 9,4 до 69,7. Если применить тесты значимости к этим 13 признакам, то 12 из них окажутся значимыми. Однако, как было показано выше, такое использование тестов значимости неправомерно.

Следующее множество значений представляет собой соответствующие F-отношения трехкластерного решения в случае рандомизированных данных. Поскольку в рандомизированных данных кластеров нет, то эти значения являются одноточечными оценками нулевых значений F-отношений. Вообще говоря, значения F-отношений трехкластерного решения не меньше значений F-отношений реальных данных. Действительно, эти F-отношения имеют значения от 11,9 до 77,4 (опять, исключая признак Mf):

L

F

К

Hs

D

9,4 69,7 10,6 47,7 27,6 21,1 38,5

Mf

Pa

Pt

Sc

Ma

Si

1,5 63,7 26,4 59,3 27,7 27,9

L

F D

13,7 22,6 55,7 11,9 14,9 0,1 36,4

К

Hs

Pt

Sc

Ma

Si

52,4 18,8 77,4 67,4 19,8 31,2

О чем же говорит результат сравнения? F-отношение, вычисленное с помощью программы BMDPKM, дает пользователю представление об однородности кластеров. Когда рассматриваются абсолютные значения первого множества F-отношений, они кажутся разумно большими и, по всей видимости, говорят о том, что кластеры в какой-то степени однородны. Однако F-отношения для данных, не имеющих кластеров, столь же велики. Это доказывает, что первое множество -отношений недостаточно велико для того, чтобы пользователь мог отвергать нулевую гипотезу об отсутствии кластеров.

Графический вывод программы BMDPKM можно использовать для наглядного представления структуры результатов. На 10 показана схема расположения трех кластеров, представленных в двумерном пространстве основных компонент. На этой схеме очень хорошо видны три кластера. Однако если также изобразить кластеры рандомизированных данных ( 11), то три «кластера» кажутся непересекающимися, но не столь плотными, как реальные кластеры. Заметьте, что на схемах между кластерами нет очевидных границ. Вместо этого графическое отображение обоих решений показывает, что кластеры могут быть просто произвольным разбиением полного набора данных. Сравнивая графическое изображение реальных данных с изображением рандомизированных данных, видно, что пользователю будет трудно отбросить нулевую гипотезу об отсутствии кластеров.

Другие новости по теме:

  • Факторный анализ 229
  • Факторный анализ 231
  • Факторный анализ 215
  • Факторный анализ 230
  • Факторный анализ 227

  •  (голосов: 0)

    Комментарии (0)