Факторный анализ 179

Новости
Просмотров: 376



ВЫБОР ПЕРЕМЕННЫХ

Прежде чем пупить к описанию весьма распространенных коэффициентов, используемых при оценке сходства, необходимо сделать небольшое отступление и рассказать о выборе переменных и преобразовании данных, предшествующих оцениванию. Выбор переменных в кластерном анализе является одним из наиболее важных шагов в исследовательском процессе, но, к сожалению, и одним из наименее разработанных. Основная проблема состоит в том, чтобы найти ту совокупность переменных, которая наилучшим образом отражает понятие сходства. В идеале переменные должны выбираться в соответствии с ясно сформулированной теорией, которая лежит в основе классификации. Теория является базисом для разумного выбора переменных, необходимых в исследовании. На практике, однако, теория, обосновывающая классификационные исследования, часто не сформулирована, и поэтому бывает трудно оценить, насколько выбор переменных соответствует поставленной задаче.

Важность наличия теории для руководства выбором переменных нельзя недооценивать. Искушение скатиться к наивному эмпиризму в использовании кластерного анализа очень сильно, так как метод специально создан для получения «объективной» группировки объектов. Под «наивным эмпиризмом» мы понимаем отбор и последующий анализ как можно большего количества переменных в надежде на то, что «структура» проявится, как только будет собрано достаточное количество данных. Хотя эмпирические исследования важны для любой науки, те из них, в основе которых лежит наивный эмпиризм, опасны при применении кластерного анализа ввиду эвической природы метода и большого числа нерешенных проблем, которые компрометируют приложения (Everitt, 1979).

В большинстве видов статистического анализа данные обычно подвергаются нормировке некоторым подходящим способом. При проверке, имеет ли переменная нормальное распределение, часто производится логарифмическое или какое-нибудь другое преобразование. В том случае, если данные измерены в разных масштабах, нормировка обычно проводится таким образом, чтобы среднее равнялось нулю, а дисперсия — единице. Имеются, однако, некоторые разногласия относительно того, должна ли нормировка быть стандартной процедурой в кластерном анализе. Как указывает Эверитт (1980), нормировка к единичной дисперсии и нулевому среднему уменьшает различия между группами по тем переменным, по которым наилучшим образом обнаруживались групповые различия. Более целесообразно проводить нормировку переменных внутри групп (т. е. внутри кластеров), но, очевидно, этого нельзя сделать, пока объекты не разнесены по группам.

Другие новости по теме:

  • Факторный анализ 180
  • Факторный анализ 194
  • Факторный анализ 185
  • Факторный анализ 182
  • Факторный анализ 187

  •  (голосов: 0)

    Комментарии (0)