Што ако постои начин да се одреди кој напишал одреден текст и да се откријат авторите кои стојат зад текстовите? Дали online review-то е лажно и напишано од некој spam профил?
Одговорите на овие прашања се главна тема во областа на Natural Language Processing (NLP). NLP ни овозможува да го идентификуваме најверојатниот автор на артикли, вести или пораки.
Овој проект е дел од завршните проекти на Академијата за Data Science, кој има примарна цел студентите практично да го прикажат целокупното знаење стекнато од предавањата.
Целта на проектот беше студентите да дознаат дали одреден код може со леснотија да ја натера машината да препознае и да научи одреден стил на група автори, за кои подоцна преку одредени параграфи од книги ќе може да го каже името на авторот.
Тимот кој успешно ја заврши оваа задача и ја комплетираше Академијата за Data Science се состои од членовите: Катерина Димевска, Кристијан Спасовски и Далибор Стоилковски.
Дознајте повеќе што ни раскажаа тие за искуството на овој реален проект
Колеги, зад вас е една година напорна работа која резултираше со овој доста напреден проект во доменот на Natural Language Processing. Можеби најдобар индикатор за остварениот прогрес ќе биде да ни кажете дали и какви предзнаења имавте пред да се запишете на Академијата за Data Science?
Катерина: Како дипломиран биохемичар, моето предзнаење за Академијата беше речиси непостоечко. Меѓутоа анализите, статистиката и веројатностите секогаш ме фацинирале, така што одлуката да запишам ваква Академија и без предзнаење не беше воопшто тешка.
Далибор: Како некој што цел живот, приватно и професионално, е опкружен со бројки, табели и шеми, предизвикот да се запишам на Академијата за Data Science беше совладан со желбата да ги искористам моите знаења и искуства од математика и физика, сметководство и статистика, веб дизајн и програмски јазици, во други сфери на кариерен план.
Кристијан: Предзнања што највеќе ми помогнаа на оваа Академија е мојата кариера како софтверски инженер.
NLP е доста модерна технологија во моментов која доста се применува во бизнисот за Sentiment Analysis и Chatbot – виртуелни асистенти. Вашата задача беше да го изработите Author Detection. Што точно беше мотивот зад овој проект и каде сé ја гледате неговата примена?
Катерина: Основниот мотив беше да дознаеме дали парче искуцан код може со леснотија да ја натера машината да препознае и научи одреден стил на група автори, за подоцна да може за одредени параграфи од книга да ни го каже името на авторот. Успеавме да изготвиме датасет од неколку книги по автор, и моделите на наше големо задоволство и изненадување, се покажаа со висока точност.
Сметаме дека препознавање и т.н. учење на текст има многу поголема примена отколку што би можело да се претпостави. Почнете со можеби најголемата примена, како што е препознавање дали одреден мејл е спам или не, дали во одреден текст или мејл има говор со вознемирувачка содржина, дали одреден текст носи позитивна или негативна критика итн. Секако, доколку би ги прошириле можностите за унапредување на применетите модели за учење, можеме да изградиме модел кој одредени реченици би ги довршувал сам според претходно научени примери.
Како успеавте да се справите со сите предизвици кои ви застанаа на патот додека да стигнете до финалното решение?
Кристијан: Бидејќи имавме мало искуство со NLP, и податоците за проектот требаше да ги обезбедиме сами, предизвици имаше постојано. Со нив, најчесто се справувавме со обемно истражување за проблемот и поделба на работата.
Каде го гледате тој таканаречен end-game на овие технологии за автоматизирање на процеси? Дали NLP може целосно да го исфрли човечкиот фактор од сервиси како поддршка и однос со клиенти, преведување и hiring & recruitment?
Далибор: Фасцинира фактот што вештачката интелигенција (AI) станува сé поусовршена да ја разбере човечката комуникација, а со тоа и сé поголем број на бизниси ја прифаќаат оваа технологија во којашто Natural Language Processing (NLP) допринесува многу. NLP како брзорастечка гранка од AI е особено важна во делот на HR.
Всушност, го револуционаризира квалитетот на преглед, анализа, точност и продуктивност, имајќи го предвид обемот на податоци и информации со коишто се соочува. Придобивките несомнено се од особено значење во делот на recruitment и employee feedback. Поентата не е NLP во целост да го исклучи HR и човечкиот фактор, туку напротив да го поедностави и зајакне истиот во поглед на ефективноста.
Во однос на сервисите за преведување, како и за поддршка и однос со клиенти, автоматизацијата секако е на многу повисоко ниво. Во некои делови човечкиот фактор дури во целост е исфрлен, меѓутоа предизвикот на NLP е да се истренира машината што подобро да ги разбира нијансите на природниот јазик.
Дали овој подем на автоматизација уште повеќе ќе ја зголеми побарувачката на Data Scientists и Machine Learning инженери?
Далибор: Дефинитивно да, гледано од аспект на тоа дека живееме во време на big data, со огромен потенцијал и можности за користење во сите сфери на животот и науката.
Кристијан: Со оглед на тоа што скоро сите индустрии наоѓаат примена на Machine Learning и Data Science, побарувачката дефинитивно ќе продолжи да расте.
Катерина: Верувам дека да. Сé пообемното користење на разни сервиси за комуникација, автоматизација на возила, скенирање и препознавање на лица, текстови, дефинитивно сé повеќе ќе ја зголемува побарувачката.
И за крај, како си поминавте на Академијата за Data Science? Што би ни споделиле за вашите студентски денови? Дали Академијата ги исполни вашите очекувања?
Далибор: Самата програма што ја добивме при запишувањето, за мене значеше дека треба да очекувам добро координирање со останатите обрврски и жртвување на малото слободно време, но самата организација, тек и темелност на Академијата покажаа дека тоа „жртвување“ било квалитетно искористено време и огромен влог на личен и професионален план.
Кристијан: Моето искуство на Академијата ги надмина моите очекувања, модулите беа одлично објаснети, и на крајот се стекнав со одлична основа за почеток во оваа индустрија.
Катерина: Планот за учење и вежби како и самите инструктори покажаа квалитет дури и над моите лични очекувања, презадоволна сум. Свесна бев дека материјалот е преобемен, data science опфаќа многу сфери, но и покрај тоа сметам дека ни беше дадена солидна основа за сите. Студентските денови секојдневно беа исполнети со нови работи, честа несоница и големо задоволство по успешно решена задача.
Уписите за следната група на Академијата за Data Science се во тек! Интересот е преголем и бројот на места – ограничен, затоа резервирај го твоето навреме!
Закажи средба со нашиот student success manager за повеќе насоки и детали за програмата!