Живееме во време на податоци кои играат значајна улога и се од голема важност за резултатите кои ги постигнуваат компаниите. Податоците и нивната анализа можат да му помогнат на бизнисот да го предвиди однесувањето на потрошувачите, трендовите на пазарот, да го подобри донесувањето на одлуките, да заклучи дали одреден клиент ќе го напушти бизнисот или не. При анализирање на податоците за да ги разберете вашите потрошувачи, а исто така, пазарот и конкуренцијата, круцијално е податоците да бидат релевантни.
Загубата на клиенти е еден од најголемите предизвици на секоја организација. Во овој случај, станува збор за загуба на клиент од банка. Банките се добро информирани дека трошоците за стекнување нови клиенти се 7% поголеми од задржувањето на постоечките, што значи дека губењето клиенти може да предизвика финансиска штета. Преку податоците понудени од самата банка, во овој проект нашите студенти изготвија анализа и добија резултати зошто клиентот заминува, а тоа води до изготвување на стратегија со цел задржување на веќе постоечките клиенти.
Со цел да ја комплетираат програмата, студентите од Академијата за Data Science имаа задача да го изработат нивниот завршен проект. Проектот на кој тие работеа е Bank Customer Churn.
Целта на овој проект е да се направи робусен модел што ќе предвидува дали одреден постоечки клиент на самата банка ќе ја напушти банката или не.
За успешно завршување на овој проект, задолжен беше тим 2.1 со членовите: Моника Младеновска и Влатко Здравевски.
Во продолжение си поразговаравме со Моника и Влатко за искуството на Академијата и нивниот завршен проект
Тим, 12 месеци многу учење и напорна работа ги заокруживте со еден успешно креиран завршен проект за Data Science. Честитки за вашата истрајност и посветеност изминатиот период! Како се чувствувате сега со сите нови вештини и знаења стекнати изминатите 12 месеци?
Одлично! 🙂 Се стекнавме со вештини и знаења кои на почетокот ни изгледаа невозможни. Дефинитивно достигнавме едно ново ниво за кое вредеше целокупниот труд, време и енергија во изминатата година.
Што беше потребно да направите со податоците за да ги доведете во соодветна форма со цел да може самиот модел да се тренира и дали се соочивте со неизбалансиран датасет?
На почетокот детално ја разгледавме базата на податоци за подобро разбирање на влезните податоци. Можевме да увидиме дека базата на податоци содржи неколку нумерички и категорични варијабли кои даваат различни информации за однесувањето на клиентот. Применивме одредни техники како што се основна статистика за идентификација на осцилациите во самите податоци, проверка на единствени вредности, справување со податоци кои недостасуваат или се со непознати информации.
Исто така, алгоритмите за машинско учење обично можат да имаат само нумерички вредности како нивни независни варијабли, така што, беше потребно нашите категорични променливи да ги обработиме и да ги доведеме во соодветна форма. Дополнителен предизвик со кој се соочивме беше неурамнотежена класификација. Алгоритмите за машинско учење работат добро кога имаме избалансиран датасет, па затоа ја користевме техниката SMOTE при креирање на модели со балансирана класификација.
Како успеавте да се справите со сите предизвици кои ви застанаа на патот додека да стигнете до финалното решение?
Со долги часови поминати во тестирање и работа, истражување на проблемот, меѓусебни конслутации во тимот, како и неизмерна поддршка од менторите.
Изборот на модел е клучен фактор во секој Data Science проект. Базирано на самите податоци и како тие се испроцесирани, различни модели даваат различни резултати. За кој модел се одлучивте да оди во продукција и зошто?
Тестиравме шест различни модели на машинско учење за да го предвидиме однесувањето на клиентите. Како најдобар модел за кој се одлучивме беше XGBoost бидејќи даде највисоки резултати во однос на сите метрики.
Покрај тоа што изборот на моделот е од голема важност, тука огромна улога игра и тунирањето на самиот модел. Дали правевте тунирање и со колкава точност успеавте на крај да ги доведете предикциите од вашиот модел ?
Направивме тунирање на најдобриот модел преку мануелно подесување на одредени параметри и постигнавме точност од 98%.
Кои беа фазите кои требаше да ги поминете за да го завршите вашиот проект? Со какви подобрувања го завршивте проектот и кој беше вашиот финален избор ?
Проектот беше составен од неколку фази: вчитување и обработка на податоци, истражувачка анализа на податоци (ЕДА), изградба на предвидливи модели и евалуација. Врз основа на евалуцијата што ја направивме сметаме дека целта на нашиот проект е постигната. Создадовме класификатор кој со голема точност ќе препознае дали одреден клиент ќе ја напушти банката.
Меѓутоа, подеднакво е важно не само да се има точен, туку и интерпретабилен модел. Освен градење на модел кој може успешно да предвиди кои клиенти се склони кон заминување, многу е корисно да се идентификуваат кои карактеристики се важни што можат да ни помогнат во раното откривање, па дури и во подобрувањето на услугата.
И за крај, како си поминавте на Академијата за Data Science? Што би ни споделиле за вашите студентски денови? Дали Академијата ги исполни вашите очекувања?
Како студенти кои Акадeмијата ја посетуваа исклучиво онлајн, е многу задоволувачки кога за време на глобална пандемија продуктивно ќе го искористите времето и после една година ќе излезете како junior data scientists. Голема благодарност до целиот тим на Brainster кои несебично го споделија своето знаење и максимално и квалитетно се потрудија да го пренесат. Ни покажаа дека со труд и упорност сѐ може да се научи. 🙂
Уписите за следната група на Академијата за Data Science се во тек! Интересот е преголем и бројот на места – ограничен, затоа резервирај го твоето навреме!
Закажи средба со нашиот student success manager за повеќе насоки и детали за програмата!