Другие новости по теме:
Комментарии (0) Факторный анализ 143
У-статистика Рао
Рао (1952; 257), применяя расстояние Махаланобиса, построил статистику, которая является мерой общего разделения классов. Это обобщенная мера расстояния, известная как К-статистика Рао, допустима при любом количестве классов. Она измеряет разделение центроидов классов и не касается когезивности внутри классов. Таким образом, переменная, отобранная с помощью У-статис-тики, может уменьшить внутригрупповую когезию и в то же время увеличить разделение всех классов. У-статистика измеряет расстояния от каждого центроида класса до главного центроида с весами, равными размеру соответствующего класса. Следовательно, -статистика не обеспечивает максимального разделения между всеми парами классов. (Это верно и для Л-статистики Уилкса.) Формула для F-статистики имеет вид
V= (n.-g) £ £агзХ п,(Х,к-Хг)(Х,ь -ХК), (13)
г=1 j=l h—l
где р'— число отобранных переменных (включая отобранную на текущем шаге).
Когда рассматривается большое число объектов, У-статистика имеет выборочное распределение, приблизительно совпадающее с распределением хи-квадрат с p'(g—1) степенями свободы. Кроме того, изменение У-статистики, вызванное добавлением (или удалением) переменных, также имеет распределение хи-квадрат с числом степеней свободы, равным (g—1), умноженное на число переменных, добавленных (удаленных) на этом шаге. Мы можем использовать это свойство при проверке статистической зна-
чимости изменения общего разделения. Если изменение не является значимым, переменную можно не включать. При добавлении переменных изменение V-статистики может оказаться отрицательным, что означает ухудшение разделения центроидов.