Нашата мисија да обезбедиме највисоко ниво на едукација во Data Science често вклучува колаборации со еминентни имиња, како од странство, така и од домашната сцена. Овој пат, тој логичен чекор беше да се видиме со д-р Милош Јовановиќ – доцент на ФИНКИ и експерт од областа на Knowledge Graphs и Linked Data со долгогодишно искуство во академија и индустрија. Затоа, пред гостинското предавање на тема Вовед во Data Science: Knowledge Graphs што ќе го одржи на 11-ти декември, поразговаравме околу неговиот домен на работа и направивме краток осврт на денешната Data Science сцена.

 

На 11-ти декември ќе имаме имаме предавање на тема Вовед во Data Science: Knowledge Graphs. Но, што е Knowledge Graphs во најопшта форма и зошто е hot-topic моментално?

Knowledge Graphs е модел на организација на податоци што постои одамна, но сега почна да се реактуализира. Во овој модел покрај сирови податоци во “базата” имаме и експлицитно и имплицитно доменско знаење, внесено во самиот граф. Поради тоа наместо обичен database во кој што имаме податоци, тука имаме Knowledge Base односно Knowledge Graph во кој што покрај сирови податоци имаме и некое поексплицитно знаење внесено за нив. Зошто терминот не e Knowledge Base туку Knowledge Graph иако се однесува на исто? Затоа што организацијата и моделот на податоци е граф-базиран, за разлика од табеларниот начин на организација во релациони бази на податоци.

 

Како се вклопува овде Linked Data?

Идејата за Knowledge Graphs стартува со идејата за Semantic Web од 1999 и вели дека податоците на Web би требало да бидат малку попрецизно организирани, за да не треба да правиме кролери, односно софтвери кои што со Machine Learning ќе треба да препознаат што авторот на содржината на одреден веб сајт сакал да каже и како е тоа во релација со некоја друга содржина на друг сајт, од друг автор.

За оваа цел се развиени неколку стандарди. RDF е основниот модел на податоци за градење на такви графови од знаење во RDF тројки што овозможуват граф-базирано организирање на податоци. 10 години по почетокот на идејата за семантички граф, она што се разви е нешто што го знаеме како Linked Data, а тоа е само сменет назив за истиот концепт на семантички веб.

Што може да очекуваме на предавањето? Што ќе биде опфатено, што ќе научиме?

Да се изведе вакво гостинско предавање е голем предизвик бидејќи треба голема содржина да се спакува во релативно кратко време. Но, ќе почнеме со идејата и почетоците на Knowledge Graphs, односно податочниот модел што овозможува различни луѓе да генерираат знаење за исти ентитети, а тоа да не е во колизија на ниво на самиот податочен модел. Значи ќе зборуваме за таков граф-базиран модел, кои се предностите и зошто всушност семантичкиот веб одлучува да го користи RDF на почеток за денес да дојдеме до терминот knowledge graphs.

Низ примери ќе рагледаме какви knowledge graphs постојат на вебот, во облик на јавно достапни Linked Data податоци. Ќе го опфатиме Linked Open Data cloud-от на којшто има околу 1200 Knowledge graphs поврзани меѓу себе каде што во секој од нив има по десетици или стотици милиони факти. 

Ќе дадеме и осврт на Linked Data “in the wild” или неорганизирани knowledge graphs што ги има на мали островчиња, односно независни веб страни. Google вели дека ако сакаш добар SEO, тогаш мора подетално да си ги опишеш податоците на твојот сајт, а притоа секој креатор на вебсајт создава RDF содржина која што е практично мини knowledge graph. На пример ако пребараш Металика на Google, ќе добиеш информации за tour dates, посебни линкови за тоа кој ден каде свират и плус едно копче за директно да купиш карта. Тоа не е поради тоа што Google ги анализирал детално сите страни и нашол кај им е тоа buy tickets копче туку затоа што провајдерот на таа содржина веќе ги опишал податоците со RDF и (несвесно) креирал мини knowledge graph за да овозможи добар SEO и добра интеграција со Google Search.

Во третиот дел, ќе видиме како Knowledge Graphs функционираат во приватен домен и како големите компаниии ги организираат големите количини на сопствени податоци.  На крај, ќе поминеме секако и на практичниот дел, и ќе дознаеме како идејата на Knowledge Graphs се поврзува со Machine Learning, односно ќе ја видиме коегзистенцијата од двете перспективи.

 

Што мислиш за Data Science ситуацијата во Македонија? Добри и лоши страни?

Прво, не мислам дека сме зад остатокот од светот во Data Science. Сметам дека нашата IТ индустрија е на доста високо ниво за да ги фаќа сите бранови што се случуваат на Запад. Во таканаречени “IT disruption” ситуации можно е да касниме поради легислатива, навики или мал пазар. Таков беше случајот со e-commerce бидејќи требаше да помине време за да стигне кај нас. Истото се случува моментално со крипто-валутите.

Но, за среќа тоа не е случај во Data Science. Data Science не е нешто што бара нова легислатива. На пример, не постојат обуки на запад што треба да те квалификуваат за Data Science, а ги нема кај нас. Едукативната основа кај нас и во поразвиените држави е иста.

Појавата на Data Science како категорија на работа или професија е всушност пресек од повеќе вештини што најчесто го имаат луѓе што работат со математика, статистика или девелопмент. Ние ги имаме тие луѓе и затоа не сметам дека доцниме во ниеден аспект.

Важно ми е да потенцирам дека Data Science не е една clear-cut дисциплина туку е амалгам од многу вештини и опфаќа многу домени. Бидејќи моментално е buzzword, се почесто забележувам како термини од типот на Machine Learning, AI и слични на нив, се користат со некарактеристична леснотија, а често технологијата зад одреден продукт или услуга, нема врска со Data Science. Затоа чувајте се од snakeoil salesmen. 🙂

Со секој одминат ден, дигиталната трансформација станува се понеопходна, како за секој индивидуалец, така и за секој бизнис. Data Science има најголем удел во водечките технологии моментално и следствено на тоа, создава голем број на работни места. Која е твојата порака за оние што размислуваат за кариера во оваа насока?

Денешната индустрија е подинамична од било кога. Времето на нашите родители и нивните родители пред тоа кога се вработувале во една фирма и работеле таму до пензионирање… тоа време е минато. Нашиве генерации мора да се свесни дека во текот на нивниот живот, не само што ќе променат неколку работни места, туку ќе променат и неколку кариери! Со големите промени во општеството и во IT индустријата, мора да сфатиме дека концептот на доживотно учење е реален. Затоа, ако размислувате за future-proof кариера, Data Science и сродните вештини се вистинскиот избор. 

За да стигнеш до успешна кариера, буквално не смееш да се опуштиш ни за миг за тоа што се случува во околината. Најголема грешка што можеш да ја направиш е да престанеш да вложуваш во себе.

Кога станува збор за Data Science би сакал да не ве обесхрабрува самиот термин. Како што кажав претходно, ова е амалгам од вештини како математика, статистика, програмирање, решавање на проблеми итн. Овие вештини биле потребни и ќе бидат, и сега се клучни за Data Science и можеби за 5 години ќе бидат потребни за нешто друго. Тоа што е апсолутно сигурно е дека нема да исчезнат и нема да застарат, но најверојатно ќе се препакуваат. Затоа, при промена на кариера или работна позиција, сè што имаме научено претходно, може само да ни помогне. 

Мој искрен совет е ако имате предиспозиции, да се насочите кон кариера во Data Science, но не само на хајпот што владее околу неа, туку да навлезете подлабоко во проблематиката – тоа и ќе ви донесе гарантиран успех.

Уписите на Академијата за Data Science се во тек! Резервирај го твоето место овде.