Loading...

Четири разпространени заблуди, свързани с Data Science

avatar Георги Кацаров 3 минути
Четири разпространени заблуди, свързани с Data Science

Когато говорим за "Наука за данните" (или "Data Science") ние визираме област, която съчетава в себе си множество дисциплини. Тази мултидисциплинарност често води до някои погрешни схващания свързани с естеството на Data Science. Поради тази причина ви представяме четири от по-разпространените заблуди свързани с това научно поле:

1. Data scientist и Data analyst са едно и също нещо

Схващането, че двете понятия са синоними на едно и също нещо е погрешно и, уви, е доста популярно. В действителност обаче двете са напълно различни. Data analyst-ът е специалист, който се занимава с намирането на шаблони/модели, анализирайки масивите от данни. Data scientist-ът е специалист, който изследва причините за различните модели, които открива при обработката на данни и на база резултатите до които достига, той се опитва да прогнозира бъдещи модели. Двете специалности се допълват отлично, тъй като са двете съставни части на едно цяло, но трябва да се има предвид, че все пак са различни дейности. Разбира се, в предвид, че Data Science е сравнително млада научна сфера, е разбираемо да съществуват погрешни схващания за различни нейни аспекти.

2. Данните никога не са "чисти"

Данните в дадена колекция никога не са "чисти", дори ако се въоръжите с търпение и прегледате всичко "под лупа". Опитният data scientist обаче не се плаши от хаотични и разнородни данни, и знае как да подходи към тях. Нека най-напред обаче уточним какво означава дадена колекция от данни да не е "чиста". Когато този термин се използва, това означава, че данните в даден масив:

• Са непълни;
• Се дублират;
• Са нерелевантни;
• Са неточни;
• Са неправилни;
• Неправилно нанесени;

Това, че данните не са "чисти" е само част от проблема. Много често може да ви се налага да сливате две или повече колекции в една нова колекция. Това означава, че боравите с данни, които са събирани от различни източници, от различни хора, различни софтуерни, устройства и т.н. Това ви изправя пред реалната възможност данните да са некохерентни. Ролята на data scientist-ът е да "почисти" всички колекции, с които ще работи, да ги ре-форматира, да ги организира и т.н.

3. Трябва ми висока образователна квалификация за да се занимавам с тази дисциплина

"Data Science" може да ви звучи като поле за хора, с висока образователна квалификация в сферата на точните науки, като например докторска степен по математика. Това е изцяло погрешно схващане. Разбира се основни познания по математика са необходими, както и аналитична мисъл, но те не идват с докторската степен, а много преди нея. Да инвестирате в Data Science си заслужава, защото ще ви позволи да развиете умения в следните направления:

• Статистическо моделиране /Statistical modelling/;
• Предиктивно моделиране /Predictive modelling/;
• Машинно обучение /machine learning/;
• Програмиране;
• Работа с алгоритми;
• Анализиране;

Казано накратко Data Science не е толкова трудна, колкото изглежда. Достатъчен е интерес към извличане на данни и прогнозиране на вероятности, всичко останало ще падне от само себе си на мястото си.

4. Data Science не е просто таблици в Excel

Когато говорим за "данни" и още повече за "подреждане на данни" и "анализ" - неизбежно е изникването на асоциацията с таблици и популярното приложение на Microsoft за работа с тях. Това обаче е всичко друго, но не и вярно. Data science е доста широкообхватно поле, чийто базов фокус е върху сравнението на очаквания и получения резултат при обобщение. За да получат въпросния резултат, data scientist специалистите използват всички възможни средства - различни аналитични подходи, статистически анализ, различни системи за управление на бази данни, различни софтуерни решения (да, в това число може да се използва и Excel, но той далеч не изчерпва цялата тази материя).

В миналото Excel в действителност е играл много по-ключова роля при съхранението и обработката на данни, но днес съществуват много други решения, като за Data Scientist специалистите е изключително лесно да напишат персонализирано приложение за отделния случай, с помощта на "Python" или "R".

Ако този кратък материал успя да разсее някои от по-популярните заблуди относно Data Science и искате да се докоснете сами до материята - специално за вас сме подготвили курса "Data Science - юни 2020". Запишете се ще днес, очакваме ви!