Широкиот опсег на Data Science примена што моментално се случува во скоро сите индустрии е најчесто заснован на Machine Learning и Artificial Intelligence. Дискусиите секогаш кружат околу импресивните можности на овие технологии, нивната сестраност и непотрошлив потенцијал, но ретко разговараме за тоа што всушност стои зад нив. Од што е сочинет темелот на кој што се потпира целата комплексност на Data Science?

За тоа што стои зад кулисите поразговаравме со Филип Николовски, професор по математика и статистика со над 10 годишно предавачко искуство и инструктор на Академијата за Data Science на модулот по Статистика.

Уписите за следната група на Академијата за Data Science се во тек. Резервирај го твоето место сега и почни веднаш со подготвителната програма!

Филип, првата група неодамна го заврши модулот Stats & Maths, кој, патем, е еден од најинтензивните и најобемните на Академијата. Какви се твоите впечатоци по тие 6 недели и како си задоволен од прогресот на студентите? 

Целосно се согласувам со тврдењето дека овој модул е еден од најинтензивните. Она што го изучуваме во текот на предвидените шест недели воообичаено се работи во многу подолг период. Откако сѐ се заврши, можам да кажам дека и јас и студентите поминавме одлично! Имав одредени стравувања за тоа колку успешно една група луѓе ќе може да ѝ се наврати на математиката откако долго време немала допир со неа, згора на тоа па и на доста високо ниво и со конкретна примена. Искрено ми олесна кога сфатив дека сум погрешил и дека немало основа за сомневање во мотивираноста на кандидатите и нивната желба да научат повеќе. Особено задоволство ми претставуваше и работната атмосфера и „хемијата“ на групата — двете се на ниво кое некако природно го поттикнува човека на креативност.

Твојата група моментално слуша Python и наскоро ќе почнат со Machine Learning. Колку ќе им помогне знаењето стекнато на модулот по статистика во предизвиците што произлегуваат од ML?

Во суштина, статистиката лежи во основата на ML. Имајќи го ова предвид, можам да кажам дека статистиката по дефиниција е корисна во оваа област. Сепак, како најкорисен од рамките на статистиката би го издвоил начинот на размислување и толкување на добиените резултатите. За разлика од остатокот од математиката, во статистиката најголем дел од резултатите се проследени со одредена веројатност и не се сигурни. Ова, на пример, значи дека ако има многу мала, дури и навидум занемарлива веројатност нешто да се случи, тогаш при огромен број набљудувања ова нешто секако ќе се случи. Ако е човек, пак, вистински баксуз — ќе се случи можеби веќе при следното набљудување!

Кога се зборува за Data Science, најзвучни термини се Machine Learning, Python, AI и Business Intelligence, додека статистика… е некако домен што ѕирка од сенка. Поради тоа кај нас Data Science се уште повеќе се поврзува со програмирање отколку со анализа на статистички модели. Како да се сопре оваа мисконцепција?

Мислам дека ваквото разбирање на поимот Data Science доаѓа од фактот што сите набројани термини се од доменот на примената, додека статистиката лежи во теоретските основи. Кај нас и самото формално образование по статистика е на ниско ниво споредено со други делови на математиката. Сметам дека, ако на статистиката во рамките на формалното образование ѝ се даде местото кое ѝ следува според современите трендови, тогаш ваквото недоразбирање ќе се исправи за релативно кратко време.

Да се надоврзам на претходното прашање. Eкспертите велат дека Data Science во својата срж е “glorified statistics“. Но, поради горенаведениот мит, многу луѓе што имаат цврста основа во статистика се плашат да се впуштат во обука поради страв од од Python и “програмирање“. Кој би бил твојот совет за нив?

Прашањето е сосема на место и во целост сфаќам колку Data Science изгледа како да е преголем залак. Но, секој кој што има здрава основа во математика и/или статистика, многу лесно може да се снајде со програмирање, главно поради две работи: прво, поради тоа што има способност за аналитичко размислување и, второ, поради тоа што е навикнат на „работа со ограничувања“ — во математиката тоа се системите од аксиоми и теореми, а во програмирањето тоа се структурата и синтаксата на програмскиот јазик. Како последен коментар би сакал само да додадам дека Python е забележително поинтуитивен од повеќето програмски јазици со кои сум се сретнал, што е секако голем плус за него!

Статистиката отсекогаш била важна, но сега бележи зенит во популарноста поради развојот на Data Science. Но, Data Science како термин се појави во 2001, а “експлозијата“ беше во 2010. Што правевме сите овие години? Зошто ни требаше толку време време да се свестиме дека сите одговори лежат во податоците? 

Би рекол дека професионалците отсекогаш биле свесни за можноста да се извлечат информации од некое податочно множество. Мислам дека оваа статистичка „револуција“ во голема мера се должи на фактот што од релативно скоро имаме можност за лесно и брзо прибирање на огромно количество податоци. Никогаш досега не сме имале и податоци и моќ за нивна обработка, а и идеја што да правиме со нив. Ако вака ги гледаме работите, мислам дека е јасно зошто трендот наречен Data Science изгледа вака.

Со оглед на тоа што си стручен статистичар, дали користиш статистика во секојдневниот живот, покрај работата? На пример, за сопствени потреби, менаџирање на финансии итн…?

Морам да бидам искрен, освен некои најелементарни „анализи“, не користам премногу статистика. Веќе ни даночната пријава не ја пополнуваме „пешки“, така што ни тоа задоволство веќе го немам. Можеби кога би имал повеќе податоци за себе… 🙂

Кои се твоите предвидувања и очекувања за Data Science во 2020?

Неодамна излезе вест дека со помош на AI е откриен нов, многу ефикасен антибиотик. Се надевам на повеќе вакви и слични вести.

Што сметаш дека е клучно за квалитетна обука во Data Science?

Би рекол баланс помеѓу теоретска поткованост и hands-on искуство. Без разлика на личните предиспозиции, сметам дека секој оној што би се впуштил во изучување на Data Science треба да знае не само како да применува одредени методи и алгоритми, туку и да има барем основни сфаќања од теоретските основи врз кои почиваат методите кои би ги применувал.

Која е твојата порака за идните студенти на Академијата и сите што размислуваат за кариера во Data Science?

Напорно е, тешко е, ама па затоа е многу забавно! На Академијата искуството е одлично — научувате нови работи, работите во тимови, учествувате во дискусии, работите на практични задачи. А кариерата во Data Science? Епа сѐ ова, ама како професија!

 Аплицирај за слената група на Академијата за Data Science што почнува во ноември!