По стотици апликации, интервјуа и запишани студенти, нашата база на податоци го вели следново. Во Македонија најголем интерес за Data Science има кај економистите и оние што активно работат во секторот на финансии. Тука и нема ништо чудно ако се земе предвид со колкава количина на податоци располагаат денешните бизниси и колкав е потенцијалот за оптимизација врз основа на истите. Затоа, банкарите и финансиските аналитичари предничат како профил на кандидати на нашата Академија за Data Science.
Тим 4 од првата група на Академијата е составен од токму ваков крој на индивидуалци. Аналитични, љубопитни, добро потковани во статистика и математика, а сега и со силно изразен технички скилсет во полето на Machine Learning. Ивона, Ристе, Доне, Јасмина и Марија стојат зад завршниот проект “Банкарски маркетинг со социоекономски контекст“ кој е спој на софистицирани финансиски техники и напредно машинско учење.
Следната група на Академијата за Data Science почнува наскоро. Резервирај си едно од двете останати слободни места и почни обука за најбараната професија во моментов!
Колеги, најпрво честитки на комплетирањето на програмата и успешно завршениот проект! Ајде да почнеме од почеток, со оглед на вашиот бекграунд во финансии, каков беше преминот од тој “свет“ во напредните технологии што произлегуваат од Data Science?
Пред да започнеме со програмата бевме спремни и знаевме дека нè очекува една долга и интересна година исполнета со многу учење. Секако дека преминот во оваа област е еден голем предизвик за нас, да може аналитичките способности кои со години ги развиваме низ долгодишното работно искуство да ги интерпретираме на еден модерен и софистициран начин.
Вашиот тим работеше на проект со назив “Банкарски маркетинг со социо-економски контекст“ кој се заснова на Machine Learning. Објаснете ни го подетално мотивот зад овој проект и придобивките од истиот?
Датасетот се засноваше на историски податоци од контактирани клиенти преку телемаркетинг со цел да склучат договори за депонирање на нивните средства.
Целта на проектот беше да се направи модел со кој ќе се предвиди дали одреден клиент ќе склучи договор за депонирање средства или не. (Тоа го добивме со користење на повеќе алгоритми.)
Од друга страна, пак, доколку би се вовела повторно телемаркетинг кампања таа би таргетирала клиенти кои најверојатно би депонирале средства, а и самата кампања би се одвивала во оние временски периоди најповолни за депонирање, според историските податоци од претходната кампања.
За разлика од другите тимови во групата, вие немавте задолжение да креирате сопствено податочно множество туку работевте на готов датасет од португалска банка што содржи податоци за контактирани клиенти во периодот од 2008 до 2010. Кажете ни повеќе за feature анализата на овие податоци, нивното прочистување, визуелизација и останатите процеси.
Feature engineering е многу важен дел за понатамошната обработка на податоците и секако за крајниот резултат. Со анализата на карактеристиките на клиентите и податоците за одвивањето на повиците добивме резултати: што и како влијаело на склучувањето на договорот за депонирање.
Во датасетот немаше податоци што недостасуваа, туку имаше само нецелосни податоци кои беа помалку од 5% и ние не ги избришавме туку ја баравме нивната корелација за да ги пополниме и тие податоци. Во врска со outliers исто така одлучивме да не ги тргнеме бидејќи се работеше за реални карактеристики на клиентите.
Направивме многу визуeлизации кои ни помогнаа да добиеме пореална слика на дадените карактеристики, нивната застапеност и влијанието врз таргет варијаблата.
Можеби куртуливте од макотрпната работа на креирање датасет, но верувам се соочивте со потешкотии од друг вид во текот на работата? Во документацијата споменувате проблем со неизбалансирани датасетови. Како се справивте со ова?
Точно дека дистрибуцијата на таргет варијаблата во датасетот беше 88% наспроти 12% во корист на непотпишување на договор за депозит. Тука искористивме различни техники, со цел како би добиле најдобри резултати, со што на крај се одлучивме дека најповолно е од небалансиран да направиме балансиран датасет секако со помош на различни техники кои веќе постојат во областа. За ваков тип на проблеми постојат голем број на студии и трудови кои секако ни беа од помош за да може да знаеме во која насока треба да се движиме согласно веќе направените истражувања.
Од друга страна, како го поднесовте притисокот и временскиот теснец со кој се соочивте за изработка на проектот? Тимската работа носи многу предности, но бара и доста синхронизација и еднаква посветеност на сите членови.
Тимската работа беше хармонична. Секој учествуваше со она што му е појака страна и придонесуваше да се изработи што поквалитетно проектот, впрочем така се работи и во професионалните Data Science тимови.
Изработката на проектот дојде непосредно по модулите за Machine Learning и Big Data. Како професионалци што работат во финансии и економија, колку е навистина тешко за економисти да совладаат Machine Learning и Data Science во генерала?
Имаше моменти на воодушевување и моменти на фрустрација, некои работи полесно ги совладавме , а за други ни требаше повеќе време, меѓутоа желбата да се научат и совладаат новите вештини беше секогаш присутна и не водеше низ целата година додека траеше Академијата.
Со оглед на побарувачката на кадри за работа со податоци, дали новостекнатиот скилсет ви ја буди љубопитноста да се пробате во друг сектор или останувате во финансии и економија? И дали имате некој конкретен домен во Data Science кон кој што би се насочиле како BI, Data Analysis, ML Engineering итн?
Спектарот на домени на Data Science е широк, меѓутоа мора да се започне некаде па да се навлегува подлабоко, и тоа само со работа во конкретната област. Дефинитивно планираме да започнаме со работа и да ги усовршуваме стекнатите вештини како Data Analyst, BI specialist и ML, секој од нас во своето поле впрочем како и за самиот проект.
Најчесто наративот за програмата се сведува на тоа колку е тешка. Но, тоа веќе го знаеме. 🙂 Дали имаше модул кој очекувавте да ве “исцрпи“, за на крај да испадне поприлично полесен од очекувањата?
Сите модули имаат своја тежина, но еве ако треба да избераме, Power BI ни беше полесен затоа штo преку визуелизација полесно знаеме кој е очекуваниот излез. Во делот на Machine Learnng се постигна очекуваниот момент на заклучоци, каде сето претходно знаење и учење си доби своја тежина. Овде дојде таканаречениот “аха” момент, бидејќи целата мака низ која поминавме на статистика и бази на податоци си доби своја вредност.
Знаејќи го целиот процес, од оваа перспектива, што би смениле во приодот на изучување Data Science? Што би ги советувале сегашните и идните студенти на Академијата за Data Science?
Сите студенти кои веќе се запишале ја имаат нашата визија и порив да го совладаат она што почнале да го учат. Потенцијалните студенти би ги охрабриле да се одлучат, нема што да изгубат, можат само да добијат знаења и вештини кои во моментов, а уште повеќе во наредните години, ќе бидат многу барани на пазарот на трудот.
На Академијата за Data Science ќе креираш портфолио уште пред да почнеш активно да работиш. Уписите се при крај, затоа фати си едно од последните слободни места. ⬇️