Loading...
Petat avatar Petat 2 Точки

Dummy variables в bank датабазата от лабове Linear and Logistic Regression и Model Training and Improvement

Здравейте, колеги,

Един въпрос относно преобразуването на categorical в dummy variables в първите два лаба. На теория, когато имам Х на брой променливи, които трябва да преобразувам, dummy променливите ми трябва да са Х-1 на брой. Но в лабовете ако махна по една dummy променлива от всяка categorical, матрицата ми става с размер (4521, 42), а според теста трябва да е (4521,51), т.е. оставам със силно корелирани dummy променливи (aka dummy varibale trap). В Linear and Logistic Regression лаба това е оправено накрая с MinMaxScaler(), но в  Model Training and Improvement лаба не видях този проблем да е адресиран по някакъв начин. Ще се радвам, ако някой ми обясни къде бъркам, или дали има нещо, което пропускам!

Благодаря!

Тагове:
1
Machine Learning
iordan_93 avatar iordan_93 Trainer 407 Точки

Ако една колонка има стойности само 0 или 1, каквото и да е скалиране, не променя нищо. Конкретно в случая на MinMaxScaler, стойностите ще останат 0 и 1.

Всеки алгоритъм с регуляризация "потиска" теглата на корелираните променливи. Още по-добре, ако се използва техника за намаляване на размерността, например PCA: така корелацията (особено ако е линейна), изчезва напълно.

Реално, на всяка dummy променлива трябва да се съпоставят n - 1 колонки, където n са уникалните ѝ стойности (последната колонка реално може да се разбере от другите: там където всички са 0, тя ще е 1). На практика, не е необходимо.

Dummy variable trap е свързан с математиката на матрици с корелирани features. Във scikit-learn и всяка друга библиотека за ML, тези неща са взети предвид и много рядко ще се случи някой алгоритъм да не converge-не. Дори това да стане, няма как да не се разбере (дава warning / error).

1
Можем ли да използваме бисквитки?
Ние използваме бисквитки и подобни технологии, за да предоставим нашите услуги. Можете да се съгласите с всички или част от тях.
Назад
Функционални
Използваме бисквитки и подобни технологии, за да предоставим нашите услуги. Използваме „сесийни“ бисквитки, за да Ви идентифицираме временно. Те се пазят само по време на активната употреба на услугите ни. След излизане от приложението, затваряне на браузъра или мобилното устройство, данните се трият. Използваме бисквитки, за да предоставим опцията „Запомни Ме“, която Ви позволява да използвате нашите услуги без да предоставяте потребителско име и парола. Допълнително е възможно да използваме бисквитки за да съхраняваме различни малки настройки, като избор на езика, позиции на менюта и персонализирано съдържание. Използваме бисквитки и за измерване на маркетинговите ни усилия.
Рекламни
Използваме бисквитки, за да измерваме маркетинг ефективността ни, броене на посещения, както и за проследяването дали дадено електронно писмо е било отворено.