Natural Language Processing. Едно од најпопуларните полиња во Data Science и AI со кое, како интернет корисници, имаме допирни точки секој ден. NLP е секаде околу нас, авто-корекција, преведување и предвидување на текст, email филтри, паметни асистенти, дигитални телефонски повици, резултати од пребарување итн. Опсегот на можности е огромен затоа што оваа технологија веќе на големо се користи за E-commerce, e-governance, образование и здравство.
Од тука, NLP е Data Science домен што нуди огромна перспектива и кариерни можности. Токму затоа вториот тим на студенти од Академијата на Data Science за завршен проект го земаа Рубик – новиот NLP виртуелен асистент на Brainster. Со Рубик ќе имате прилика да се запознаете наскоро, во моментов е посветен на учење за да излезе што поспремен да одговори на сите ваши прашања, но денес ќе поразговараме со тимот што стои зад неговата креација. Овој пат во мешана комбинација од ментори и студенти ги имаме Александар, Филип, Мартина и Габи.
Направи портфолио во Data Science уште пред да почнеш активно да работиш. Уписите за следната група на Академијата за Data Science се во тек. Резервирај си го твоето место сега.
Колеги, зад вас е една година напорна работа која резултираше со овој доста напреден проект во доменот на Natural Language Processing. Можеби најдобар индикатор за остварениот прогрес ќе биде да ни кажете дали и какви предзнаења имавте пред да се запишете на Академијата за Data Science?
Од оваа временска дистанца, прогресот кој што го остваривме ги надмина сите наши очекувања. Основни познавања од SQL, афинитет кон математика и големо искуство во анализа на податоци беше основата со која тргнавме во оваа приказна.
NLP е доста модерна технологија во моментов која доста се применува во бизнисот за Sentiment Analysis и Chatbot – виртуелни асистенти. Вашата задача беше да го изработите Рубик, односно новиот виртуелен асистент на Brainster. Што точно беше мотивот зад овој проект и каде се ја гледате неговата примена?
Мотивот за развој на Рубик е потребата да се обезбеди повисоко ниво на услуга за потенцијалните клиенти на Brainster. Успешната имплементација ќе значи одговор на прашањата на потенцијалните клиенти автоматски во реално време што ќе ослободи време на вработените да се посветат на поквалитетни работни задачи. Преку усвојувањето на модерни технологии во работењето Brainster ќе се потврди во улога на ”early adopter” и добар пример за компаниите кои работат на македонскиот пазар.
Исто како и Тим 1, и вие се соочивте со макотрпната работа на креирање сопствено податочно множество (dataset). Како успеа тим од 4-ца да стигне до бројка од 3000+ прашања и како се одвиваше овој процес?
-Чекор по чекор, со поставување на конкретни и остварливи цели и ефикасен feedback од членовите на тимот. Прво се ставивме во улога на потенцијален кандидат, направивме сегментација, ги евалуиравме генерираните прашања, креиравме соодветни одговори, дискутиравме, модифициравме, дополнувавме.
-Првата цел беше база од 300 прашања, завршивме со 10 пати поголема и “не сакам никој да ми постави прашање :)”.
Рубик е се уште во тест-фаза, но напорно тренира за што побрзо да им биде на располагање на сите што се заинтересирани за обуките и Академиите во Brainster. Интересно е што на негово континуирано подобрување ќе работат и идните студенти на Академијата. Што очекувате од неговиот развој понатаму?
Подобрен “response time” и инстант решение на вообичаени прашања. Потенцијалните кандидати да добијат конкретен одговор уште на првото прашање без дополнителни под-прашања. Проширување на опфатот и повторно тренирање на моделот на веќе поставени прашања за зголемување на неговата прецизност.
Google една од компаниите што имплементира NLP во голем дел од своите продукти како Google Assistant, Google Translate, Search, Autocorrect и Targeted advertising. Од тука, оваа технологија е многу перспективна за секој што има интерес за кариера во Data Science. Колку се чувствувате компетентни да работите во овој домен по завршувањето на Академијата?
Учеството на овој проект дефинитивно ни даде солидна основа за натамошна работа во овој домен, и веќе ни ја пробуди љубопитноста за понатамошно истражување. Добро развиениот chatbot е извор на податоци за понатамошна анализа, што е поле во кое се чуствуваме комфорни имајќи го во предвид нашето претходно искуство.
Каде го гледате тој таканаречен end-game на овие технологии за автоматизирање на процеси? Дали NLP може целосно да го исфрли човечкиот фактор од сервиси како поддршка и однос со клиенти, преведување и hiring & recruitment?
Целосниот потенцијал на chatbots допрва ќе се открива и очекувано идниот развој ќе биде во насока – софтвер да извршува операции кои вообичаено ги извршува човекот. По масовната примена во customer care сигурно горе споменатите се областите во кои интензивно ќе најдат примена софистицираните NLP алгоритми.
Дали овој подем на автоматизација уште повеќе ќе ја зголеми побарувачката на Data Scientists и Machine Learning инженери?
Веќе неколку години наназад Data Scientists и Machine Learning инженери се високо на листата на најбарани професии. Овој тренд се очекува да продолжи со оглед на тоа што процесите на автоматизација во некои индустрии не се ни отпочнати. Така на пример, за развој на интелигентен chatbot неопходно е разбирање на машинското учење, AI и NLP технологии, познавање на back-end програмирање и различни програмски јазици и технологии.
Мартина и Габи, со вас веќе еднаш разговаравме на почетокот на годинава кога го привршувавте модулот по Статистика. Со оглед на тоа што доаѓате од финансискиот сектор, како би го резимирале вториот дел од програмата што е посветен на Python, Machine Learning и Big Data?
Вториот дел од програма беше вистинскиот предизвик за нас бидејќи во првиот дел можеме да кажеме дека чекоревме на ‘познат терен’. Од испишан прв код, преку обработка на податоци, градење на предиктивни модели до работа со Big Data и сето тоа комплетирано со проект кој ќе најде своја практична примена.
Во моментов вие, заедно со новите студенти од Академијата, работите на проекти како дел од нашиот Data Science Hub. Што би ги советувале колегите за тоа како полесно да се справат со обврските и предизвиците што вие веќе ги поминавте во програмата?
Пресудно за успех на академијата беше огромната желба за надградување и отворен ум за нови предизвици како и макотрпната работа и посветеност во изминатата година. Останете фокусирани и преку тимска работа направете го неделниот workshop уживање.
На крај, прашање до менторите. Со оглед на тоа што веќе се комплетира 5-тата група за Академијата, како гледате на еволуцијата што ја поминавме изминатава година? Конкретно, во поглед на програмата и искуството на студентите на онлајн предавањата?
-Со секој поминат час секој од студентите стекнуваа поголема самодоверба во решавање на задачите и во модулите кои се слушаа последователно. Можам да кажам дека секој до еден од нив нетрпеливо чекаше да започне предавањето како и некој од вежбите предвидени во тековната недела и да согледа дали е возможно задачата да биде решена. Задоволството секогаш доаѓање со одличен резултат и натпреварувачкиот дух помеѓу колегите. Со помината една година и решени 41 работилница, околу 80тина домашни задачи, неколку прочитани книги и 4 решени проекти немаше ниту еден дел од студентите кој не беше посветен за овој предизвик.
Програмата сама по себе знае да биде исцрпувачка и на моменти потребна е мотивација која се врши два пати во годината со секој студент посебно и се дава акцент на секој од нив каде има недостаток и на што да се посвети. На истите мотивациони разговори даваме и насоки кој од студентите е добар за традиционални анализи на податоци, компјутерска визија, работа со текст или предвидување.
-Стравот кој сите на почеток го имаат се претвара во комплетна позитива затоа што сите предавањата се снимени и може да се прегледаат. Исто така некое поставено прашање од колегите е детално објаснето и доколку се испушти некој дел може да се потсетиме. Нормално, секој од нас е заморен во одреден дел од година, сепак учиме без да престанеме 365 дена :), затоа онлајн предавањата даваат можност да може предавањето да го преслушаме и подоцна. Сепак инсистираме да се биде присутен во моментот затоа што дискусијата го прави богатството на еден иден Data Scientist
Одлично е чувството кога гледате како студентите ги „победуваат своите стравови“, како им расте интересот и љубопитноста, и колку се подготвени да вложат време и труд за да излезат на крај со она што го работат. Колегите успеаја да создадат една позитивна атмосфера на креативност, тимска работа и соработка и мислам дека и ние менторите научивме многу од Академијата.
Подетални информации за проектот на кој работеше Тим 2, на следниов линк: https://github.com/filipgd1/NLP-Chatbot
Приклучи се на петтата група на Академијата за Data Science и почни веднаш со подготвителна програма. Останати се само уште неколку слободни места!