This is the big one.
Сите што го следат динамичниот свет на Data Science, добро знаат што е ICCV. За другите, ICCV e една од најголемите научни конференции од областа на Computer Vision што оваа година ќе се одржи во Сеул, Јужна Кореја.
Но, зошто е тоа важно за нас?
На ICCV 2019 се поднесени 4303 трудови, од кои се примени 1040, а само 187 се одбрани за усна презентација пред аудиториумот во Сеул. Овој пат, меѓу тие 187 е и трудот “Task Routing“ на Ѓорѓи Стрезоски – еден од најнадежните Data Science умови од Македонија.
Ѓорѓи е дел од тимот на престижниот University Of Amsterdam, каде покрај докторските студии и предава Fundamentals of Data Science, веќе 5 години се занимава со Computer Vision и Machine Learning, работи како Computer Vision истражувач во Rijksmuseum и како консултант за AI powered Art во Paradox StudiosNL.
На 26.09.2019 ќе имаме Бесплатно онлајн предавање на кое претпремиерно ќе нé запознае со неговото истражување од областа на Computer Vision и Multitask Learning. Но, пред тоа обезбедивме прилика да се запознаеме и да дознаеме од прва рака како изгледа животот на еден современ Data Scientist.
На самиот почеток, да знаеме на што сме? Python или R?
Реално гледано, опсегот на можности во смисла на анализа на податоци е еднакво широк и во двата случаи. Моја лична определба е Python. Причините за тоа се надвор од било каква синтактичка или оперативна природа, Python е едноставно индустриски стандард за функционални системи.
Пример: лесната интерграција со веќе постоечки веб платформи се подразбира од почеток, целата научна литература нуди Python код за тестирање на bleeding-edge технологии во информациските науки, основа за работа со популарните Deep Learning платформи како PyTorch, Keras, Lasagne и супер-платформите под нив како Caffe, Torch или Tensorflow.
R од друга страна е поедноставен кога станува збор за статичка анализа и нуди по математичко-статистички транспрентен пристап кон анализа на податоци. Добро е да се знаат и двата секако, но функционално Python веќе звучи попривлечно, а не сме ни допреле до GPU подршката и активната развојна маса која работи на него.
На 26.09.2019 ќе се дружиме онлајн и ќе ни го претставиш истражувањето што ќе го презентираш на ICCV 2019 во Сеул. Опиши ни во кратки црти што може да очекуваме од ова предавање?
Тема на вебинарот ќе биде Computer Vision и Multitask Learning. Тука станува збор за тоа како еден компјутер резонира со визуелни стимули, а во Multitask Learning делот ќе зборуваме за вид на партиционирање на параметрите во длабоки модели за да можат да поддржат повеќе од еден таск.
Ќе почнеме со вовед во Computer vision и Machine learning за да стигнеме до новиот тип на Мultitask learning што го дефиниравме ние и го нарековме Many Task Learning.
На кратко, Many Task Learning се случува секогаш кога моделот може да поддржи повеќе од 20 таскови во исто време. Ова е и главниот предмет на трудот на ICCV 2019 – една од најголемите научни конференции во областа на Computer vision во светот што годинава ќе се одржи во Сеул и ќе треба да го презентираме на главениот трек пред аудиториум од 6000 луѓе.
Како софтверски инжинер, што те натера да се префрлиш на Data Science и дали очекуваше дека ќе достигне ваков степен на потреба и побарувачка?
Софтверски инжинер бев по струка додека студирав на додипломски на ФИНКИ. На додипломски студии имавме предмети кои нудеа интро во анализа на податоци и нивно структурирање, но не беа најпопуларниот избор меѓу студентите. Конкретно за Data Science, немав момент на определба. Во ниеден момент не знаев со сигурност дека во моето време би била толку потребна и барана вештина. Едноставно тоа се бараше од мене на проектите на кои што работев.
Сепак би рекол дека моментот кога почнав да работам на МАЕСТРА (европски проект за анализа на неструктурирани масивни податоци) се случи Boom во светот на машинско учење и вештачка интелигенција (~2014). Се појавија интересни архитектури на невронски мрежи со уште поинтересни принципи за оптимизација. За прв пат имав реална шанса да истражувам и ова го сметам за конкретниот push forward во мојот случај.
Предаваш Fundamentals of Data Science на престижниот UVA. Колку Македонија го следи чекорот со развој на Data Science во споредба со земјите од Западна Европа и САД?
Тешко прашање. Сметам дека локалното ниво на познавање на Data Science во моментов е диктирано од локалната индустрија. Што не е случај само кај нас, напротив ова е тренд во повеќето земји во светот. Конкретно во Македонија, со погодната outsourcing клима, влијанието на странските компании и проблемите со кои се соочуваат се чувствува. Прво, за Data Science треба data :), ресурс кој во Македонија ретко е соодветно структуриран или одржуван. На тој начин и дојдовме до потребата од Data Scientists – преку потребите на странските компании.
Сепак нашиот инженерски капацитет е на завидно ниво,. Имаме навистина квалитетни инижинери, но образовниот систем сеуште не е прилагоден за соодветна подготовка за работа на реални индустриски проблеми во Data Science доменот. Луѓето кои сакаат да достигнат повисоко ниво на познавање најчесто се обраќаат кон онлајн платформи или барат близок извор во секторот на неформално образование. Во секој случај, се разбира дека 4 години математичко размислување и стекнување на инженерска перспектива има драстично влијание кога станува збор за стекнување нови вештини. Би рекол дека комбинацијата од формално и неформално образование е најдобра.
Но, оваа тема во областа на Data Science ми буди измешани чувства. Делумно поради огромниот наплив на курсеви од буквално секој ќош на интернет. Преку личен блог, секој може да биде инструктор по било што.
Сметам дека за квалитетно неформално образование потребна е висока контрола на квалитет на инструкторите, транспарентен доказ за соодветната квалификација и соодветно модерирана наставна програма. Дополнително, моето искуство покажува дека физичко присуство во училница, каде може да се дискутираат идеи, решенија и да се расчистат нејаснотии и недоречености е клучен фактор за стекнување сигурно знаење наспроти информирана интуиција.
Затоа ја поздравувам иницијативата на Brainster да бидат пионери за обука во Data Science во Македонија. Имав шанса да ја разгледам програмата на Академијата и можам да потврдам дека ги опфаќа круцијалните аспекти од тоа што значи да си Data Scientist денес.
*Датасет OmniArt
Како изгледа еден твој работен ден? На што точно работиш во UVA?
Јас работам на модели кои извршуваат повеќе задачи во исто време и формализираат заеднички примитиви меѓу задачите што ги извршуваат. Ова е процес кој е целосно воден од дистрибуцијата на различни фактори во податоците кои ги обработувам. Поради тоа што главен партнер во мојот проект е Rijksmuseum во Амстердам, алгоритмите и моделите кои ги развивам се користат за анализа на уметнички дела и се користат за приватни потреби на музејот и Холанија.
Инаку имам 4 прототипови на работни денови.
Прв прототип е класичен работен ден на институтот – прво проверка на литературата (што има ново денес што го немало вчера). Моето поле се менува на дневно ниво и секој пропуштен ден додава куп литература за читање. Првите саат-два ми поминуваат во тоа.
Втор прототип е ден во музејот. Многу порелаксиран од ден на институтот. Опкружен со уметност, интересни идеи и за мене фасцинантни муабети. Почнува со кафе со историчари на уметност, фотографи и уметници за тоа што им се случува во животот. За мене важна дискусија која што ми раѓа идеи.
Трет прототип е ден со партнерите. Многу стресно сценарио каде сите кои инвестирале некаков ресурс во моето истражување сега пробуваат да разберат што точно сум сработил и како. Овој ден е полн со презентации, разгорени дискусии и Еурека моменти. Ако заврши добро, ги задржуваш ресурсите и продолжуваш понатаму… 🙂
Четврт прототип е ден кога предавам. Овој ден подразбира одење во амфитеатар и 4 саати константо зборување проследено со 3 саати консултации и решавање на проблеми. Моите предавања се интерактивни и прашања може да се поставуваат во секој момент. Во последните 3 години изработивме 6 успешни проекти од идеи стекнати во вакви дискусии на час со групи од студенти.
Поведен од досегашното искуство, како би изгледал идеалниот пат до кариера во Data Science?
Конкретно за кариера во Data Science како поле, мислам дека пред се потребно е да се има интуиција за тоа што се податоци. За ова формална диплома секако дека не е неопходна, ама е многу корисна. Познавањата стекнати на технички факлутет помагаат во совладување на концептите за работа со податоци, бидејќи на крајот на краиштата Data Science е статистика и статистичка анализа на дело. Проширена со веројатност, калкулус, теорија на групи, геометрија и когнитивни науки станува нешто многу повеќе.
Затоа сметам дека идеалниот пат до Data Science кариера подразбира старт со солидна математичка основа, продолжува со детално разглобување на основните концепти за основните алгоритми кои се користат, попатна пауза за интересни проекти кои ја задоволуваат љубопитноста, константно обновување на вештините и завршува со лично резонирање на ниво на податоци.
Ништо во животот не е совршено, па така е и со Data Science. Што според тебе е главниот проблем со оваа вештина?
Мислам дека најголем проблем во моментот е самата дефиниција на што значи Data Scientist. Во Македонија како да не постои разлика меѓу Data Scientist, Data Analyst, Data Engineer или во некои случаи Researcher и Research Engineer, а улогите на секоја од овие титули е различна и предизвиците ортогонални. Ова е чест проблем со млади области како Data Science. Побарувачката на кадар значително го нагласува јазот меѓу улогиве.
Прво, Data Science не е гаранција за профитабилна кариера. Добар Data Analyst заработува многу подобро и има поквалитетен професионален живот од просечен Data Scientist.
Второ, и останатите две се еднакво барани. Ако не постои Data Engineer да ги структурира податоците соодветно и да креира соодветна инфраструктура за Data Scientist да повлече податоци и анализира, нема да постои Data Science. На крајот на денот потребен е Data Analyst, некој кој ја познава бизнис логиката на доменот на употреба. Некој кој ги разбира потребите на бизнисите и нивните клиенти. На тој начин, добро познавање на Excel и пивот табели е супериорно над маргинално познавање на статистичка анализа.
Потребна е јасна дистинкција помеѓу што подразбира секоја од овие улоги и каде му е местото на професионалецот во продуктивниот појас. Тогаш може да се градат соодветни вештини.
Што би им порачал на сите што размислуваат за кариера во Data Science?
Дека никогаш не е доцна да се инвестира во добро образование. Времето поминато во разбирање на тоа што се работи е добро потрошено и се исплатува на крај. Доколку сте љубопитни за Data Science, пробајте! Во најмала рака барем ќе ви се подобри разбирањето на светот во кој живеете. Ќе се изненадите колку податоци всушност генерира просечниот човек и колку контрола имаат вашите податоци над вас и вашиот живот.
Не го испуштај бесплатното онлајн предавање со Ѓорѓи на тема Вовед во Computer Vision & Multitask Learning на 26.09.2019. Резервирај си место тука.
Ако имаш интерес за кариера во Data Science, провери ја Академијата за Data Science.