Живееме во ново време каде што на бизнисите повеќе не им е од корист само да наоѓаат нови клиенти туку треба да се грижат да ги задржат постоечките клиенти. Една многу битна причина за тоа е што секоја акција, стратегија за наоѓање на клиенти е многу голем трошок за фирмата и не е добар план еден бизнис да се стреми само кон наоѓање нови клиенти туку да се стреми и да ги задржи своите постоечки клиенти.
Токму затоа, вториот тим од Академијата за Data Science за завршен проект го земаа проектот Bank churn prediction, модел што ќе предвидува дали одреден постоечки клиент на самата банка ќе ја напушти банката и ќе се премести во друга банка базирано на неговите демографски карактеристики на однесување и трансакциите.
По 12 месеци исполнети со многу работа, предавања, задачи и вежби, тим 2: Елена, Давид, Софија, Александар и Тони го креираа овој завршен проект и успешно ја завршија најинтензивната програма во Brainster.
Ако сакаш да работиш на вакви проекти кои ќе влезат во твоето Data Science портфолио и ќе ти обезбедат голема предност на пазарот на труд, аплицирај за октомврискиот термин на Академијата за Data Science!
Тим, 12 месеци многу учење и напорна работа ги заокруживте со еден успешно креиран завршен проект за Data Science. Честитки за вашата истрајност и посветеност изминатиот период! Како се чувствувате сега со сите нови вештини и знаења стекнати изминатите 12 месеци?
Успеавме во еден голем предизвик. Поминавме 12 месеци богати со многу нов материјал кој бараше многу посветеност за да се совлада, поготово што почнавме од нула. Секој личен развој бара посветеност, да се работи и учи истовремено бараше големи одрекувања и упорност, но кога целта е јасна и низ самиот процес те води искусен тим на предавачи и организатори успехот е неизбежен. Најбитно е што не се откажавме кога беше тешко и со самото тоа чувството на постигнати знаење и успех е неминовно.
Работевте на проект кој може да ја промени иднината на банките! Креиравте модел што ќе предвидува дали одреден клиент на самата банка ќе ја напушти банката и ќе се премести во друга банка базирано на неговите демографски карактеристики на однесување. Кoја е целта и мотивот на овој проект?
Да се биде конкурентен на пазарот е клучно за да се остане во бизнисот. Сите фирми, не само банките, мораат да се грижат и да се трудат да ги задржат клиентите. Добрата анализа на базата на клиенти е клучна за задржување на истите, но и таргетирање на нови клиенти. Се се менува па и потребите на клиентите, да се биде конкурентен на пазарот подразбира добра анализа на истиот. Затоа овој проект и изградениот модел можат да најдат примена кај фирми од било која сфера на делување. Главната цел е да се спречи губитокот на клиенти и да се мотивира клиентот да остане.
Проучувањето на податоците е клучно кога станува збор за табуларни податоци и разбирање на самиот проблем за понатамошни подобрувања. Кажете ни повеќе за Exploratory Data Analysis (EDA) и како дојдовте до вакви добри заклучоци?
Утврдивме дека всушност предпроцесирачкиот дел на податоците всушност зема најголем дел од проектот во однос на време. Клучно е да се разберат податоците со кои се располага: колку се на број, кој тип се, дали недостасуваат податоци, како да се заменат, дали да се бришат воопшто податоци. По средувањето на податоците следи нивно енкодирање со цел тие да бидат сведени во форма во која ќе можат понатаму да бидат процесирани. Секој различен тип на податоци има свои начини на кои соодветно се енкодира и тоа со повеќе начини на располагање. И така обработените податоци можат да се искористат за EDA и во тестирање на различни модели.
Конкретно за делот за EDA, ние направивме Univariate и Bivariate анализи. Целта беше да се прикаже учеството на секој feature во вкупниот датасет со цел да се согледа неговата генерална важност, но и нивната поврзаност и зависнот со таргет варијаблата. Приказите се преку графикони, но и со текстуален опис.
Дали ви беше тешко да ги испрепроцесирате податоците бидејќи сепак тој е еден од најбитните моменти, да имате средени податоци за да може моделот да се истренира и да ви даде подобри резултати?
Предпроцесирачкиот дел е клучен. На самиот старт одлучивме дека податоци нема да се бришат и доколку има исклучоци тие ќе останат такви какви што се за да се добие што е можно подетална слика. Олеснителна околност беше дека немаше податоци што недостасуваат (празни полиња), бидејќи во тој случај ќе мораше да се користат техники за нивно пополнување, на пр.: KNN, most_frequent, mean/mode/media.
Настојувавме да примениме што е можно поголем дел од техниките во предпроцесирачкиот дел. Така, употребени беа следните енкодери: One-hot-encoding, Category encoding, Count encoding и CatBoost encoding.
Исто така, употребивме и различни методи на Feature engineering: SMOTE, Log_transform and Feature generation. Во нашиот проект добитна комбинација беа следните техники на енкодирање: StandardScaler за нумеричките податоци, LabelEncoder и CatBoost encoding за категориските податоци и Feature generation за да се креираат нови feature-и.
Дали имавте не избалансиран датасет и како се соочивте со истото ?
Се соочивме со прилично небалансиран датасет, каде што имаше мнозинство обсервации 83,93% во класата на Постоечки клиенти и само 16,07% во класата на Незадоволни клиенти (кои би си заминале). Со оваа ситуација се справивме со тоа што во секој тестиран модел вметнавме classification_report кој вклучува precision, recall и f1-score, правевме confusion матрици и на крај roc curve за секој модел поединечно, како и споредба помеѓу roc_curves на сите модели во еден приказ. На овие начини може да се спореди точноста на сите модели и да се утврди кој е нјдобар.
Кои алгоритми ги пробавте и кој алгоритам ви даде најдобар резултат при тренирањето на моделот ?
Пробани се следните алгоритми: Naïve Bayes, Support Vector Machine, Decision Tree, Random Forest, K-Nearest Neighbor, Gradient Boosting Tree и XGBoost. Најдобар резултат е остварен со XGBoost и тоа со точност од 98.42%.
За успешно завршен проект потребна е тимска работа, доста синхронизација, еднаква посветеност на сите членови, работа под притисок и почитување на дедлајн. Како се соочивте со овие предизвици?
Успешно се синхронизиравме, вклучувајќи ги и приватните и работните обврски на секој од нас. Ги поделивме задачите, си помагавме еден со друг и бевме во контакт. Постигнавме тимска работа на високо ниво.
Знаеме дека програмата е супер-интензивна, но кој модул ви претставуваше најголем предизвик?
Елена: За мене се беше предизвик, сите модули ги поминав со многу вложено време и труд. Можеби за Power BI би ми било потребно уште малку повеќе време или вежбање, но ML & Big Data се предизвик сами по себе.
Софија: Со повеќето модули се срекавав за прв пат и се беше предизвик. Можан да ги издвојам SQL и Python како модули што најмногу ми го задржаа вниманието и како нешто што би го работела во иднина.
Давид: Дефинитивно ML & Big Data.
Знаејќи го целиот процес, од оваа перспектива, што би смениле во приодот на изучување Data Science? Што би ги советувале сегашните и идните студенти на Академијата за Data Science?
Да бидат активни на самите часови и да прашуваат се што ќе им дојде да ум, се што имаат нејасно да не го чуваат за себе туку да ги прашуваат инструкторите. Да соработуваат меѓу себе, да се консултираат за задачите и да бидат упорни кога ќе се соочуваат со грешки. И што е најважно, да оддржуваат континуитет со материјалот и часовите поради богатата содржина и брзото темпо, кои тешко потоа се надокнадуваат. Секако навремено да ги пишуваат домашните бидејќи тоа е клучот за успех. Максимално да се вложат и сериозно да ја сфатат академијата.