Факторный анализ 194

Новости
Просмотров: 381



БИБЛИОГРАФИЧЕСКИЕ ЗАМЕЧАНИЯ

Обсуждение коэффициентов сходства, используемых в кластерном анализе, проводится в работах Снита и Сокэла (1973), Клиффорда и Стефенсона (1975). Там же можно найти формулы для вычисления некоторых обсуждаемых мер.

Более широко теоретические вопросы, связанные со сходством, рассматриваются в работах Хартигана (1967) и Тверски (1977). Обсуждение Скиннером (1978) формы, поднятия и рассеяния очень важно для многих применений мер сходства в социальных исследованиях. Последние три работы важны потому, что понятие сходства играет главную роль в формировании кластеров. Обычно кластеры определяются как группы сходных объектов. Хотя во многих приложениях кластерного анализа особое значение придается процедуре формирования кластеров, все же выбор меры сходства является решающим моментом в исследованиях, использующих кластерный анализ.

III. ОБЗОР МЕТОДОВ КЛАСТЕРНОГО АНАЛИЗА

О ПРИРОДЕ КЛАСТЕРОВ

Главная цель кластерного анализа — нахождение групп схожих объектов в выборке данных. Эти группы удобно называть кластерами. Не существует общепринятого или просто полезного определения термина «кластер», и многие исследователи считают что уже слишком поздно либо вовсе незачем пытаться найти такое определение (Bonner, 1964). Несмотря на отсутствие определения, ясно, что кластеры обладают некоторыми свойствами, наиболее важными из которых являются плотность, дисперсия, размеры, форма и отделимость. Хотя Снит и Сокэл рассматривают эти свойства для случая метрического пространства, очевидно (как они признают), что эти свойства можно логически распространить и на неметрические пространства.

Плотность — это свойство, которое позволяет определить кластер, как скопление точек в пространстве данных, относительно плотное по сравнению с другими областями пространства, содержащими либо мало точек, либо не содержащих их вовсе. Хотя четко определенной меры плотности нет, это понятие очевидно. Дисперсия характеризует степень рассеяния точек в пространстве относительно центра кластера. Несмотря на то, что между этим свойством и тем, которое используется в теории статистических выводов, есть аналогия, кластеры не всегда представляют многомерные нормальные популяции. Поэтому лучше всего рассматривать дисперсию как характеику того, насколько близко друг к другу расположены в пространстве точки кластера. Следовательно, кластер можно назвать «плотным», если все точки находятся вблизи его центра тяжести, и «неплотным», если они разбросаны вокруг центра. Свойство кластеров — размеры — тесно связано с дисперсией; если кластер можно идентифицировать, то можно и измерить его «радиус». Это свойство полезно лишь в том случае, если рассматриваемые кластеры являются гиперсферами (т. е. имеют круглую форму) в многомерном пространстве, описываемом признаками.

Другие новости по теме:

  • Факторный анализ 195
  • Факторный анализ 204
  • Факторный анализ 219
  • Факторный анализ 174
  • Факторный анализ 207

  •  (голосов: 0)

    Комментарии (0)