Софтуерно Инженерство
Loading...
mysho avatar mysho 28 Точки
Best Answer

Здрасти,

Аз не мога да ти отговоря със 100% убеденост, но направих малко research. Очевидно има разделение на мненията. Част от хората смятат, че PCA не работи добре с binary дата, т.е. с категорийни променливи само с 2 стойности, върху които вече сме изпълнили get_dummies, защото PCA ще се опита да ги направи на един feature. Но съдейки по няколко добре обяснени notebook-а, които намерих, според мен би могъл да използваш PCA след get_dummies (дано Данчо не ме убие, ако говоря големи глупости):

https://www.kaggle.com/tilii7/dimensionality-reduction-pca-tsne

https://www.kaggle.com/sudeep88/titanic-survivors-classification-using-pca

http://mlreference.com/pca-logistic-regression-sklearn

И разбира се според мен най-добре да го пробваш и да видиш какво ще направи с dataset-a ти. Можеш и да print-неш матрицата на корелациите преди това.

0
18/10/2018 10:56:34