Model Training and Improvement Lab

rumyana.tsoneva 2 Точки

Model Training and Improvement Lab

За задача 6 - избиране на по-добър резултат, трябва ли да се скалират променливите?

Тагове:

19/09/2018 21:50:38 Machine Learning

Виж всички отговори

mysho 28 Точки

Здрасти,

Може ли да обясниш какво имаш предвид под скалиране на променливите? Аз доколкото разбрах в задача 6 се изисква само да се оцени модела, който сме създали в задача 5. Ако имаш предвид регуляризацията, която се прави при логистичната регресия, Данчо е казал в задача 5 точно колко трябва да е за нашите цели (1 000 000).

21/09/2018 16:04:40

rumyana.tsoneva 2 Точки

Здрасти,

По-скоро се чудя дали разделям добре сета за модела.

Правя го така и

bank_features, bank_labels = bank_data.drop("y", axis = 1), bank_data["y"].map({'yes': 1, 'no': 0})

После:

bank_features = pd.get_dummies(bank_features)

Разделям данните и тук имам съмнението, че нещо ми липсва след стратифицирането:

bank_features_train, bank_features_test, bank_labels_train, bank_labels_test = train_test_split(bank_features, bank_labels,
test_size = 0.7, stratify = bank_labels)

Защото при повторния опит за резултат в задача 6:

baseline_score = f1_score(bank_labels_train, bank_labels_test, average=None)

ми гърми:

ValueError: Found arrays with inconsistent numbers of samples: [1131 3390]

И не мога да разбера защо shape-ът не е точен.. При модела в задача 5 всичко е точно.

21/09/2018 18:47:53 21/09/2018 18:48:38

mysho 28 Точки

Ахааа, по-скоро при оценяването на модела не са така нещата. f1_score очаква параметри y_true и y_predicted. Така че първият параметър трябва да са реалните категории bank_labels_test, a вторият трябва да са предсказаните от модела bank_model.predict(bank_features_test). Дано не бъркам името на променливата на модела, защото нямам компютър пред себе си.

22/09/2018 19:33:17

rumyana.tsoneva 2 Точки

Много благодаря! Това беше очевидна грешка от моя страна, но пак измеренията ми не съвпадат. Можеш ли да ми кажеш с какви измерения са ти променливите bank_labels_train и bank_labels_test?

24/09/2018 23:14:39

mysho 28 Точки

print(bank_labels_train.shape)
print(bank_labels_test.shape)

(3164,)
(1357,)

Иначе е странно, че не ти съвпадат. Ти нали оценяваш модела само върху тестовите данни? train данните са само за трениране на модела.

baseline_score = f1_score(bank_labels_test, model.predict(bank_features_test))

От по-предния ти коментар виждам и че праивлно си присвоила стойности на променливите при train_test_split. Друго не ми идва на ум.

25/09/2018 12:13:34

rumyana.tsoneva 2 Точки

Благодаря за помощта!

Грешката ми беше именно това - използвала съм данните за трениране в комбинация с това, че не зададох train & test_size.

27/09/2018 06:22:48

Виж всички отговори