Въведение в Data Science
Събитието е вече изминало, но все още може да го гледаш на запис.
Науката за данните (data science) е една от най-търсените професии в чужбина. Тази тенденция бързо навлиза и у нас. Компаниите генерират огромни обеми данни. Те наемат специалисти, чиято цел е да извлекат полезна информация и да отговорят на важни въпроси. Професията комбинира умения в много области – математическа логика, анализ на данни, програмиране.
Въпросите, на които може да отговори един data scientist, са от всички сфери на живота. Това прави работата изключително динамична. Някои от многобройните въпроси, на които може да се отговори с помощта на данни, са:
- Кои клиенти на дадена компания са най-склонни да сменят продукта с конкурентен?
- Кои филми да препоръчаме на един потребител на базата на историята му?
- Каква цена ще има даден продукт след шест месеца?
- Колко вероятно е един конкретен тумор да е злокачествен?
- Къде върху една снимка има лица? Какви емоции са изписани върху тях?
- Как да отсеем спам имейлите от „нормалните“ такива автоматично?
- В семинара ще разгледаме основните принципи за работа с данни: 1) какво е научният метод и как се прилага; 2) какви техники се използват за анализ на данни и 3) каква информация може да извлечем от данните и как да я представим.
Ще въведем някои от често използваните инструменти за анализ на данни:
- Регресия (regression)
- Класификация (classification)
- Групиране на данни (clustering)
- Машинно (само)обучение (machine learning)
Ще ги разгледаме както от концептуална гледна точка, така и като компютърни алгоритми. Ще направим демонстрации за анализ на реални данни, като за целта ще използваме Python – най-използваният език в съвременната наука.
Препоръчва се участниците в семинара да имат базови познания по програмиране (без значение на какъв език).