Факторный анализ 218

Новости
Просмотров: 359



СРАВНЕНИЕ МЕТОДОВ КЛАСТЕРИЗАЦИИ

Как мы уже говорили, с помощью разных методов кластеризации можно получить различные результаты для одних и тех же данных. Теперь попробуем разобраться, почему так происходит. Мы постоянно отмечали, что некоторые методы имеют пщие только им особенности и свойства. Например, метод одиночной связи имеет тенденцию к образованию длинных цепочек кластеров, в то время как метод Уорда склонен к образованию плотных гиперсферических кластеров. Понимание того, что различные методы кластеризации будут порождать заметно различающиеся результаты, имеет более чем просто академический интерес, поскольку эти методы применяются к исследованию реальных данных без особых раздумий, рутинно. Лучше еще до исчерпывающего анализа данных знать сильные и слабые стороны различных методов, чем

внезапно обнаружить, что результаты анализа во многом обязаны свойствам самого метода, а не внутренней структуре данных.

Многие сравнения кластерных методов сводятся к оценке, насколько хорошо различные методы кластеризации восстанавливают известную структуру данных. Хотя в некоторых из этих исследований были использованы реальные данные с такими же характеиками, в большинстве случаев применялись искусственные данные, полученные с помощью моделирования методом Монте-Карло и выборочного метода, которые специально создавались для имитации особенностей реальных данных (например, данные, имитирующие результаты MMPI-теста (Blashfield and Могеу, 1980). Чаще всего наборы данных подбирались в соответствии со свойствами важных видов распределений, таких, как двумерное нормальное, многомерное нормальное и многомерное гамма-распределения. В зависимости от цели сравнения эти наборы данных изменялись в размерах (число объектов на кластер), форме кластеров, числе кластеров в данных, степени перекрытия кластеров, наличии выбросов и степени полноты классификации (должна ли классификация быть исчерпывающей). Некоторые сравнения проводились на наборах данных, удовлетворяющих ультраметрическому неравенству — более строгому варианту неравенства треугольника, описанному в разд. II (Mulligan and Issac, 1980). Внимание было уделено последствиям использования различных мер сходства.

Другие новости по теме:

  • Факторный анализ 219
  • Факторный анализ 220
  • Факторный анализ 214
  • Факторный анализ 229
  • Факторный анализ 175

  •  (голосов: 0)

    Комментарии (0)