Dummy variables в bank датабазата от лабове Linear and Logistic Regression и Model Training and Improvement

Здравейте, колеги,

Един въпрос относно преобразуването на categorical в dummy variables в първите два лаба. На теория, когато имам Х на брой променливи, които трябва да преобразувам, dummy променливите ми трябва да са Х-1 на брой. Но в лабовете ако махна по една dummy променлива от всяка categorical, матрицата ми става с размер (4521, 42), а според теста трябва да е (4521,51), т.е. оставам със силно корелирани dummy променливи (aka dummy varibale trap). В Linear and Logistic Regression лаба това е оправено накрая с MinMaxScaler(), но в Model Training and Improvement лаба не видях този проблем да е адресиран по някакъв начин. Ще се радвам, ако някой ми обясни къде бъркам, или дали има нещо, което пропускам!

Благодаря!

Ако една колонка има стойности само 0 или 1, каквото и да е скалиране, не променя нищо. Конкретно в случая на MinMaxScaler, стойностите ще останат 0 и 1.

Всеки алгоритъм с регуляризация "потиска" теглата на корелираните променливи. Още по-добре, ако се използва техника за намаляване на размерността, например PCA: така корелацията (особено ако е линейна), изчезва напълно.

Реално, на всяка dummy променлива трябва да се съпоставят n - 1 колонки, където n са уникалните ѝ стойности (последната колонка реално може да се разбере от другите: там където всички са 0, тя ще е 1). На практика, не е необходимо.

Dummy variable trap е свързан с математиката на матрици с корелирани features. Във scikit-learn и всяка друга библиотека за ML, тези неща са взети предвид и много рядко ще се случи някой алгоритъм да не converge-не. Дори това да стане, няма как да не се разбере (дава warning / error).