Во денешно време, податоците станаа критична компонента на нашиот професионален, но и личен-секојдневен живот. Сферата на Data Science е со голема побарувачка и објаснува како дигиталните податоци ги трансформираат бизнисите и им помагаат да донесуваат поостри и ризични одлуки. Оваа побарувачка настана како резултат на тоа што се потребни сѐ повеќе професионалци кои би се занимавале со податоците и би ја имале моќта да изнаоѓаат нови откритија и да вршат приспособувања на организациите, со цел да донесуваат одлуки кои се базираат на податоците.
Со цел да ја комплетираат програмата, студентите од Академијата за Data Science имаа задача да го изработат нивниот завршен проект. Проектот на којшто работеше тимот 2.2 е Term Deposit.
Целта на овој проект е да се направи модел што ќе предвидува дали одреден, веќе постоечки клиент на самата банка ќе орочи долгорочен депозит или не, базирано на неговите лични информации, некои други социо-економски атрибути и дополнително дали претходно банката била во некаква комуникација со клиентот.
За успешно завршување на овој проект, задолжен беше тим 2.2 со членовите: Марија Ефтимова, Љупчо Прошев и Александар Клашниновски.
Во продолжение си поразговаравме со Марија, Љупчо и Александар за искуството на Академијата и нивниот завршен проект.
One goal achieved! Александар, Марија и Љупчо, честитки за успешно завршената 12 месечна програма проследена со многу труд и работа! Како се чувствувате сега со сите нови вештини и знаења стекнати од изминатите 12 месеци?
Да, Академијата за Data Science беше доста едукативна, научивме многу нови работи во сосема нова област за нас, на моменти беше напорна ама се исплатеше трудот. Во моментов сме возбудени за завршувањето, но сепак учењето и осознавањето на дејноста не застануваaт тука, со надеж тоа да биде со практично искуство и работа во конкретната област.
За да ве запознаеме подобро, кој беше вашиот кариерен пат до почетокот на Академијата за Data Science?
Марија: Јас сум од банкарскиот сектор и досега немам работено во областа на Data Science. Двете дејности се сродни затоа што суштината е анализа на податоците и носењето на одредени заклучоци, одлуки и сл., но сепак имаат големи разлики. Делот на машинско учење и програмирање целосно беше непознат за мене, ама секако совладлив со повеќе труд.
Александар: Јас имам малку нестандарден пат, иако мојот едукативен background е правнички, а исто имам и МБА, сум работел и како бизнис аналитичар, instructional designer, развој на продукти и проект менаџмент, HR консалтинг, како и менаџерски позиции во овие делови.
Љупчо: При крајот на додипломските студии се вработив во една од поголемите банки во државата. Во меѓувреме, завршив магистерски студии по маркетинг на Економскиот факултет во Љубљана и во моментов работам на менаџерска позиција во банкарскиот сектор.
Колку ви беше тешко совладувањето на техничките алатки во делот на Machine Learning модулот од Академијата и колку работата на проектот ви помогна да бидете посигурни во работата со овие алатки?
Делот на Machine Learning беше најобемниот сегмент од Академијата, исполнет со многу технички и теоретски предизвици. Да, имаше напорни моменти, но како и целата Академија се совладуваат со многу труд, континуитет, постојано учење и повторување, а секако и со практична примена. Проектот беше супер начин да се повтори, донаучи и примени тоа што беше учено. Проектите се важни за учење, но во исто време создаваат чувство за цел, дека теоријата и техниките може да помогнат да се реши или осознае некој проблем, да се открие некоја можност од реалниот сектор.
Работевте на проектот Term Deposit чија цел беше да се направи модел што ќе предвидува дали одреден клиент (постоечки) на самата банка ќе орочи долгорочен депозит или не, базирано на неговите лични информации, некои други социо-економски атрибути и дополнително дали претходно банката била во некаква комуникација со клиентот. Раскажете ни малку повеќе за целиот процес.
Да, како што спомнавте, идејата на проектот беше да се направи модел кој ќе може да предвиди однесување на конкретен клиент базирано на историските податоци за карактеристиките и однесувањето на клиенти на банката. Целта на проектот беше, не само да се направи предвидување, туку преку анализа на податоците да се откријат некои однесувања, можности, нешто што ќе создаде дополнителна вредност за менаџментот, маркетинг тимот и сите засегнати во банката, во делот на носење на одлуки, креирање продукти, понуди и сл. Моделот кој го изработивме зема предвид повеќе од 40 илјади податоци од кампања на банката за орочени депозити и успева да предвиди идни депозитарни клиенти со 95% прецизност.
Како што знаеме, за ваков вид на податоци, круцијално е да се направи суштинска анализа и да се истражат самите атрибути. Како се снајдовте во делот на EDA (Exploratory Data Analysis)?
EDA е можеби еден од поважните сегменти од креирањето на моделот, пред сѐ, поради тоа што е начин да се запознае и разбере дата сетот со кој располагаме, а тоа е неопходно за да се продолжи кон препроцесирањето. Освен тоа EDA е начин со кој аналитичарот успева да открие некои трендови, движења, поврзаности кои може да помогнат во носење на одлуки од страна на засегнатите страни. Не можеш да работиш во оваа дејност, а да не уживаш во анализата, ние секако уживавме.
Што е она што ви претставуваше предизвик при препроцесирање на самите податоци?
Најголем предизвик во препроцесирањето во овој датасет беше небалансираноста на податоците. Најголем дел од податоците од датасетот беа за клиенти кои не се одлучиле да орочат депозит, па оттука користевме одредени техники за генерирање на податоци со цел надминување на овој проблем. Дополнителен предизвик секако беше и справувањето со податоците кои недостасуваа, селекција на карактеристиките кои се најважни за овој дата сет и сл. Препроцесирањето е процес кој е голем дел од целокупната работа посебно кога практичното искуство е помало, но сепак со повеќе труд и помош од менторот успеавме успешно да се справиме со податоците и да ги припремиме за тренирање.
Изборот на модел е клучен фактор во секој Data Science проект. Базирано на самите податоци и како тие се испрепроцесирани, различни модели даваат различни резултати. За кој модел вие се одлучивте да оди во продукција и зошто?
По сите анализи што ги направивме моделот XGBClassifier покажа најдобри резултати во делот на accuracy, precision и recall. XGBoost се базира на gradient boosted decision trees, што обично се применува за проблеми со класификација кога базата на податоци е поголема од 1000-2000 редови и има категорични и нумерички вредности што недостасуваат. XGBoost може добро да се справи со вредностите што недостасуваат и нескалираните податоци, а воедно може да се примени за подобрување на перформансите и целокупната брзина на извршување на моделот.
Со какви подобрувањa го завршивте проектот и кој беше вашиот финален збор?
Моделот успева да предвиди со 95% прецизност кои од клиентите или потенцијалните клиенти би орочиле депозит, дополнително на тоа правилно идентификува 88% од предвидените потенцијални орочувања на депозити. Освен предвидувањата, проектот го завршивме со препораки и извлечени заклучоци од анализите за тоа како во иднина да се подобрат вакви кампањи, и секако процентот на успех на истите да биде што повисок.
Во процесот на изработка на проектот дали нешто ви создаде потешкотии?
Па, би спомнале уште еднаш, можеби препроцесирањето, пред сѐ поради тоа што ова е многу важен дел пред изборот на моделот и изборот на самиот модел може да зависи од истиот. Во препроцесирањето има премногу комбинации кои може да се направат за да се најде правилната што некогаш знае да е трудоинтензивно.
Тука би направиле и корелација со Академијата. Кој модул неочекувано „ве измори“, а каде поминавте полесно од очекувањата?
Дефинитивно Python и Machine Learning, посебно вториот модул беше нај-challenging бидејќи има многу модели и многу типови на податоци кои треба да се поминат и совладаат, а за сите нив, иако користиме многу библиотеки, клучно е познавањето на Python. Mодулот на Power BI беше малку полесен во споредба со другите, бидејќи engine-от на овој софтвер/апликација е базиран на excel, така што е малку поинтуитивен.
Од оваа перспектива, што би ги советувале поновите студенти на Академијата за Data Science? Дали има рецепт за успешно совладување на програмата и ако има, кој е?
Генерално, редовно следење на предавањата и работилниците, целосно решавање на задачите и домашните, како и доста трпение при решавањето на истите. За колегите кои немаат background во програмирање, топло препорачуваме да вежбаат и на своја рака да побараат од инструкторите дополнителни задачи или сајтови коишто имаат задачи, со цел да навлезат во логиката на кодирањето. Ова е посебно важно за SQL и Python модулите.
Kоја е вашата порака за сите оние кои размислуваат за обука и кариера во Data Science?
Оваа област е up and coming, и во наредниот период мислам дека нема да можеме да замислиме компанија без експертиза и посебен департман за data analysis. Ако сте аналитички настроени и не се плашите од бројки, топло ја препорачуваме Академијата за Data Science бидејќи ќе ви ги отвори очите и вратите во една професија која е на самиот почеток кај нас, а во светот е веќе доста развиена.
Уписите за следната група на Академијата за Data Science се во тек! Интересот е преголем и бројот на места – ограничен, затоа резервирај го твоето навреме!
Закажи средба со нашиот student success manager за повеќе насоки и детали за програмата!