PCA след get_dummies()
Колеги, според вас правилно ли е да се прилага PCA след като сме използвали get_dummies()?
Колеги, според вас правилно ли е да се прилага PCA след като сме използвали get_dummies()?
Здрасти,
Аз не мога да ти отговоря със 100% убеденост, но направих малко research. Очевидно има разделение на мненията. Част от хората смятат, че PCA не работи добре с binary дата, т.е. с категорийни променливи само с 2 стойности, върху които вече сме изпълнили get_dummies, защото PCA ще се опита да ги направи на един feature. Но съдейки по няколко добре обяснени notebook-а, които намерих, според мен би могъл да използваш PCA след get_dummies (дано Данчо не ме убие, ако говоря големи глупости):
https://www.kaggle.com/tilii7/dimensionality-reduction-pca-tsne
https://www.kaggle.com/sudeep88/titanic-survivors-classification-using-pca
http://mlreference.com/pca-logistic-regression-sklearn
И разбира се според мен най-добре да го пробваш и да видиш какво ще направи с dataset-a ти. Можеш и да print-неш матрицата на корелациите преди това.