Факторный анализ 227

Новости
Просмотров: 375



Шаг 1. Создание рандомизированного набора данных. С помощью генератора случайных чисел создается множество искусственных данных, которое не имеет кластеров, но обладает теми же характеиками, что и реальный набор данных. Чтобы сделать это, мы вычислили общие средние, стандартные отклонения и матрицу корреляций между признаками для исходного множества данных MMPI-теста о 90 больных. Далее для создания рандомизированного набора данных мы написали короткую программу на Фортране, которая использует генератор случайных чисел из пакета программ IMSL. Этот генератор порождает данные, являющиеся выборкой из генеральной совокупности с многомерным нормальным распределением с заданным вектором средних и заданной ковариационной матрицей. Первый шаг может показаться труднопреодолимым для пользователя, но в действительности такую программу довольно легко написать: требуется лишь 36 операторов Фортрана. В результате получаем рандомизированное множество данных о 90 гипотетических больных, которое не содержит кластеров.

Шаг 2. Применение одного и того же метода кластерного ана-

лиза к обоим наборам данных. Для сравнения результатов кластерного анализа каждый из наборов данных подвергся обработке по итерационному методу -средних (мы воспользовались процедурой BMDPKM). Программа начала свою работу с создания начального разбиения, а затем последовательно применяла метод fc-средних, описанный в разд. III, для формирования заданного числа кластеров. Поскольку известно, что реальные данные состоят из трех групп, то мы решили рассмотреть только решение, в которое входят три кластера.

Средние, найденные по рандомизированным данным, сильно отличаются от средних, найденных по реальным данным. Кроме того, отметим, что средние этих групп можно упорядочить по возрастанию. Другими словами, один кластер содержит сильно приподнятые профили, другой — умеренно приподнятые, а средние третьего кластера довольно малы. Наш опыт применения кластерного анализа к рандомизированным данным свидетельствует, что многие методы кластеризации формируют такие кластеры из случайных данных, которые можно упорядочить по возрастанию их средних.

Другие новости по теме:

  • Факторный анализ 229
  • Факторный анализ 205
  • Факторный анализ 204
  • Факторный анализ 215
  • Факторный анализ 226

  •  (голосов: 0)

    Комментарии (0)