Loading...
mysho avatar mysho 28 Точки

Здрасти,

Може ли да обясниш какво имаш предвид под скалиране на променливите? Аз доколкото разбрах в задача 6 се изисква само да се оцени модела, който сме създали в задача 5. Ако имаш предвид регуляризацията, която се прави при логистичната регресия, Данчо е казал в задача 5 точно колко трябва да е за нашите цели (1 000 000).

0
rumyana.tsoneva avatar rumyana.tsoneva 2 Точки

Здрасти, 

По-скоро се чудя дали разделям добре сета за модела. 

Правя го така и 

bank_features, bank_labels = bank_data.drop("y", axis = 1), bank_data["y"].map({'yes': 1, 'no': 0})
 

После:

bank_features = pd.get_dummies(bank_features)

Разделям данните и тук имам съмнението, че нещо ми липсва след стратифицирането:

bank_features_train, bank_features_test, bank_labels_train, bank_labels_test = train_test_split(bank_features, bank_labels, 
                                                                                        test_size = 0.7, stratify = bank_labels)

 

Защото при повторния опит за резултат в задача 6:

baseline_score = f1_score(bank_labels_train, bank_labels_test, average=None)
 

ми гърми: 

ValueError: Found arrays with inconsistent numbers of samples: [1131 3390]

И не мога да разбера защо shape-ът не е точен.. При модела в задача 5 всичко е точно.

0
21/09/2018 18:48:38
mysho avatar mysho 28 Точки

Ахааа, по-скоро при оценяването на модела не са така нещата. f1_score очаква параметри y_true и y_predicted. Така че първият параметър трябва да са реалните категории bank_labels_test, a вторият трябва да са предсказаните от модела bank_model.predict(bank_features_test). Дано не бъркам името на променливата на модела, защото нямам компютър пред себе си.

0
rumyana.tsoneva avatar rumyana.tsoneva 2 Точки

Много благодаря! Това беше очевидна грешка от моя страна, но пак измеренията ми не съвпадат. Можеш ли да ми кажеш с какви измерения са ти променливите bank_labels_train и bank_labels_test?

0
mysho avatar mysho 28 Точки
print(bank_labels_train.shape)
print(bank_labels_test.shape)
(3164,)
(1357,)

Иначе е странно, че не ти съвпадат. Ти нали оценяваш модела само върху тестовите данни? train данните са само за трениране на модела.

baseline_score = f1_score(bank_labels_test, model.predict(bank_features_test))

От по-предния ти коментар виждам и че праивлно си присвоила стойности на променливите при train_test_split. Друго не ми идва на ум.

0
rumyana.tsoneva avatar rumyana.tsoneva 2 Точки

Благодаря за помощта!

Грешката ми беше именно това - използвала съм данните за трениране в комбинация с това, че не зададох train & test_size.

 

0
Можем ли да използваме бисквитки?
Ние използваме бисквитки и подобни технологии, за да предоставим нашите услуги. Можете да се съгласите с всички или част от тях.
Назад
Функционални
Използваме бисквитки и подобни технологии, за да предоставим нашите услуги. Използваме „сесийни“ бисквитки, за да Ви идентифицираме временно. Те се пазят само по време на активната употреба на услугите ни. След излизане от приложението, затваряне на браузъра или мобилното устройство, данните се трият. Използваме бисквитки, за да предоставим опцията „Запомни Ме“, която Ви позволява да използвате нашите услуги без да предоставяте потребителско име и парола. Допълнително е възможно да използваме бисквитки за да съхраняваме различни малки настройки, като избор на езика, позиции на менюта и персонализирано съдържание. Използваме бисквитки и за измерване на маркетинговите ни усилия.
Рекламни
Използваме бисквитки, за да измерваме маркетинг ефективността ни, броене на посещения, както и за проследяването дали дадено електронно писмо е било отворено.