Софтуерно Инженерство
Loading...
+ Нов въпрос
nzihi avatar nzihi 2 Точки

Data Visualization and Exploratory Data Analysis Lab - Problem 2

Здравейте, колеги,

нещо зациклих доста с втората задача. Пиша:

def get_num_people_with_high_income(dataframe):

          result = dataframe[dataframe["income"] == ">50K"].shape[0]

          return result

Но после връща 0 и не мога да разбера защо...

Предварително ви благодаря :)

Тагове:
0
Data Science
vanio_x avatar vanio_x 1 Точки

Здравей,

Аз също се мъчех докато открих, че всички стойности в стринговите полета на дейтасета започват с интервал. Дай .unique() на колоната и ще видиш.

0
Dimitar_Petkov_Petkov avatar Dimitar_Petkov_Petkov 169 Точки

препоръчвам при четенето :

income_data = pd.read_csv(url, names = col_names, sep = ', ', header = None, na_values=['?'], engine = 'python')

0
g.stoyanov avatar g.stoyanov 775 Точки

Привет,

за да отстраниш паразитните интервали още при четенето може да използваш параметъра skipinitialspace:

income_data = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data", header=None, skipinitialspace=True)

По този начин ще се парснат стойностите още при четене! Поне при мен се получи :)

Поздрави!!!

0
nzihi avatar nzihi 2 Точки

Много ви благодаря, колеги!

0