DS Project Architecture Lab - Problem 7 and 8
Здравейте колеги,
Имам един въпрос относно изречението Add the columns:
["Class", "Sex", "Embarked"]
to the dataframe в задача 7. Защо изобщо са ни необходими отново тези колони след като вече сме извикали
pd.get_dummies(titanic_data)
и сме генерирали от тях новите категории? Първо, колоната "Class" си е числова и си остава същата без да се разделя. След това, за да могат да се използват добавените колони "Sex" и "Embarked" трябва да се превърнат в числови за да минат при моделирането - още при нормализацията. За целта замених стойностите в колоните използвайки следните речници и така успях да премина през теста за очакван брой колони и да си изтренирам модела -
emb_num_dict = {'Southampton':0, 'Cherbourg':1, 'Queenstown':2}
sex_num_dict = {'male':0, 'female':1}
Според мен тези колони са излишни за моделирането и не доставят някаква нова информация и така броя features спокойно може да е 9 вместо 11 и броя колони да е 10 вместо 12, но тестовете така го изискват. Или е възможно и аз да съм объркал някъде при почистването на данните и да не получавам верен брой колони?
Моят score e 79.44%. Иначе си прав да, твоето решение изглежда по-добро понеже не добавяш излишни колони като мен.