Факторный анализ 220

Новости
Просмотров: 393



Наличие выбросов и степень полноты классификации, требуемая при кластеризации, — важные факторы, влияющие на работу метода. Полная классификация является исчерпывающей: все рассматриваемые объекты должны быть размещены по группам. Основанное на методе Монте-Карло исследование влияния этого фактора показывает, что, если требуется полная классификация и данные имеют мало выбросов, то метод Уорда дает превосходное восстановление известной кластерной структуры (Kuiper and Fisher, 1975; Mojena, 1977). Однако в работах (Blashfield and Morey, 1980; Edelbrock, 1979; Edelbrock and McLaughlin, 1979; Milligan, 1980) показано, что если степень полноты классификации уменьшается, то кластеризация по методу средней связи дает восстановление такое же, что и по методу Уорда. Миллиган и Иссак (1980), воспользовавшись данными с ультраметрикой, доказали, что в действительности метод средней связи может работать лучше метода Уорда даже в случае полной классификации. Вообще может показаться, что на работе расширяющих пространство методов неблагоприятно сказывается птствие большого числа выбросов, но это утверждение еще требует проверки. Важно помнить, что выбросы — это не просто обособленные объекты; на самом деле они могут быть представителями подгрупп, о которых в выборке содержится мало данных. Следовательно, очевидное решение проблемы выбросов (отбросить эти данные) должно быть хорошо продуманным. Независимо от их интерпретации выбросы необходимо тщательно исследовать еще до применения кластерного анализа. Для каждого выброса необходимо определить, почему он так отличен от других объектов.

Проблема перекрытия кластеров аналогична проблемам степени полноты классификации и наличия выбросов в выборке данных. Перекрытие кластеров — это просто степень, с которой кластеры занимают одно и то же пространство. Кластеры могут быть хорошо разделенными, но могут находиться и близко один к дру-

гому. Кроме того, могут птствовать шумовые точки, т. е. точки данных, лежащие между границами кластеров. Как было показано, все эти факторы оказывают сильное влияние на работу методов кластеризации, а также, в случае перекрытия кластеров метод Уорда работает лучше большинства других методов кластеризации (Bayne et. al., 1980), тогда как метод средней связи работает плохо (Bayne et. al., 1980; Milligan, 1980). Однако при прочих равных условиях метод средней связи дает классификацию такой же полноты, что и метод Уорда для хорошо разделенных кластеров. Если же требования к полноте классификации ослаблены и допускаются перекрытия кластеров, то этот метод опять будет эквивалентен методу Уорда (Edelbrock, 1979; Edel-brock and McLaughlin, 1979; Milligan, 1980).

Другие новости по теме:

  • Факторный анализ 219
  • Факторный анализ 203
  • Факторный анализ 218
  • Факторный анализ 221
  • Факторный анализ 235

  •  (голосов: 0)

    Комментарии (0)