Microsoft Word CS20 37 NguyÅn ThË HÙi Báo cáo DaSua05052021 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC THƯƠNG MẠI BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG NGHIÊN CỨU MỘT SỐ THUẬT TOÁN HỌC MÁY[.]
TÍNHCẤPTHIẾTCỦAĐỀTÀI NGHIÊNCỨU
Cácphươngtiệntruyềnthôngxãhội(socialmedia)xuấthiệnvàonhữngnămc u ố i t hếkỷ20đãtạođiềukiệnthuậnlợichohàngtriệungườitrênthếgiớikếtnối,thiếtl ậ p vàduytrìcácmố iquanhệcũngnhưtiếpcậnvàchiasẻthôngtinvớinhau.Sựảnhhưởngcủacácphươngtiệntruyềnt hôngxãhộiđếnmọimặttrongđờisốngxãhộiđangn g à y càngkhẳngđịnhrõvaitròcủachúngt rongnhiềulĩnhvựcđặcbiệtlàgiáodục,kin h doanh,vàcácvấnđềxãhộinhưpháthiệnlừađảo,p háthiệntâmlýtộiphạmtrongn g h i ê n cứucủaZafaraniRezaetal.,
[24]vàD.M.Boydetal[9].Bêncạnhnhữngkháchh à n g cánhân,cáctổchức,doanhnghiệp,cácnhàquả nlýcũngsửdụngcácphươngtiệnt r u y ề n thôngxãhộinhưmộtkênhtruyềnthôngmới,vớinhi ềuưuthếnhưchiphítiếtk i ệ m , cóhiệuquảlantruyềncaotrongcáchoạtđộngsảnxuấtki nhdoanhcủacáctổc h ứ c , doanhnghiệpA.Abdul-Rahimetal.,[1],AmedieJacobetal.,
Thêmnữa,vớisựpháttriểnkhôngngừngcủacácthiếtbịdiđộngnhưđiệnthoạit hô ngminh(s martphones),thiếtbịcầmtaythôngminh(tablet),máytínhbảng(Ipad), v.v cùngvớihạtầngcơ sởviễnthônglantỏarộng khắp,hệthốngmạngInternetcôngc ộ n g phủsóngmiễnphíởcácthànhphốlớnđãgiúpcho cácmạngxãhộingàycàngph ổbiếnvàlanrộng.Dođó,cáccánhânvàcáctổchức,doanhnghiệp ngàycàngchúýn h i ề u hơnđếncácứngdụngcủamạngxãhộivàohỗtrợcáchoạtđộngkinhdoanh,ho ạtđ ộn ggiáodục,cácbiệnphápquảnlývàđiềuhànhtronghoạtđộngcủacáctổchức,do anhnghiệp.
Mộtchiếnlượckinhdoanhdựatrênquảntrịquanhệkháchhàngvìvậycầncós ự đốixửkh ácnhauvớinhữngkháchhàngkhácnhau.Mộtdoanhnghiệpphảicókhản ă n g nhậndiệnvàn hậnranhữngkháchhàngcánhânkhácnhauvàphảibiếtđiềugìk h i ế n k h á c h hàngnàykháckháchhàngkia.Cầncó tươngtáccánhânvớibấtkìkháchh à n g nào,đôikhiphảithayđổihànhviđểđápứngnhucầuc ụthểcủakháchhàngđóh ay pháthiệnđượcnhucầu,vàquantrọnglàphảiđemlạilợinhuậnt ốiđachokháchh à n g cũngnhưdoanhnghiệp,việcứngdụngphântíchdữliệu(DataAnalysis)đóng vait r òquantrọngtrongviệcxácđịnhđượcđịnhhướngvàmụctiêu kinhdoanh,khámpháý nghĩađằngsaucácconsốvàsốliệutrongdữliệucủakháchhàngvàcóđóngg ópvàoviệcraquyếtđịnhkinhdoanhcủacáctổchức,doanhnghiệp[1][2].
Thôngtinkháchhàng c ũ n g cungcấpcho d o a n h nghiệpkhảnăng p h â n biệ tkhách hàng củamình vớinhững ngườikhác.Thôngtinkháchhànglàmộttài sản kinht ế , tựanhưmộtphầncủathiếtbị,nhàmáyhaybằngsángchế,giúpdoanhnghiệpcảit h i ện sảnxuất,giảmchiphíbìnhquân.Mộtkhicôngtybắtđầucóquanđiểmkinhdoanhcụthểvềkháchhà ng,côngtysẽbắtđầuxemkháchhàngnhưtàisảncầnđượcquảntrịc h u đáonhưnhữngtàisảnkhác.Ở khíacạnhtàichính,chiếnlượckiểunàysẽcókhuynhhướngtậptrungnhiềunguồnlựccủatổchứch ơnnhằmthỏamãnnhucầucủanhững
9 khách hàngđóđểđemlạigiátrịdàihạn chodoanhnghiệp,trongkhiđógiớihạnhoặcg i ả m nguồnlựcvớinhữngkháchhàngcógiátrịthấ phơn[2].
Tạoravàquảntrịquanhệkháchhàngcánhâncóthểthấtbạinếukhôngcóbốnt h à n h tốbao gồm:Nhậndiệnkháchhàng;Phânbiệtkháchhàng;Tươngtácvớikháchh à n g vàĐốixửtùybi ến.Đểđạtđược
4yếutốnàythìcáctổchứckinhdoanh,cácnhànghiêncứuđãđưararấtnhiềuphươngphápv àhướngtiếpcậnkhácnhau,tuynhiênt r o n g nhữngnămgầnđây,kếthợphọcmáytrongphântích dữliệukinhdoanhnóichungv à dữ liệuvề kháchhàngnóiriêngđãđượcsửdụngvàđược coi làmộthướngtiếpcậncó nhiềukếtquảtốt.Đặcbiệttrongbốicảnhcáchmạngcôngnghệlầnth ứ4đanglanrộngthìhọcmáykếthợpphântíchdữliệutrựctuyếnđượccoilàxuhướngmớitron gứngdụngcôngnghệthôngtinvàocáchoạtđộngkinhdoanh.
Dođó,phanhómnghiêncứulựachọnđềtài“Nghiêncứumộtsốthuậttoánhọ cm á y ( m a c h i n e learning)ứngd ụ n g chob à i t o á n x á c đ ị n h c á c chủđ ề q u a n t â m c ủ a kháchhàngtrựctuyến”nhằmđưaramộtbáocáotổngquanvềhọcmáyvàcácthuậtt oánhọcmáyphổbiếnđượcứngdụngchobàitoánxácđịnhcácchủđềquantâmv ề sảnphẩmvàdịch vụcủakháchhàngtrựctuyếntrêncácphươngtiệntruyềnthôngxãh ộ i Bêncạnhđó,đềtàicũnglàtà iliệuhỗtrợquátrìnhhọctậpvàgiảngdạynộidungv ề hệthốngphântíchdữliệukháchhàng,khaithá cdữliệutrựctuyếnvànhưmộthướngtiếpcậntrongmarketingcánhânhóakháchhàng.
Kếtquảcủađềtàinghiêncứucóthểsửdụnglàmtàiliệuthamkhảochogiảngviênvàsinh viêntrongquátrìnhgiảngdạyvàhọctậpcáchọcphần“Hệthốngthôngtinquảnlý”,“Marketingthư ơngmạiđiệntử”và“Khaiphádữliệutrongkinhdoanh”
TỔNGQUAN VỀĐỀ TÀINGHIÊNCỨU
Tìnhhìnhnghiêncứutrongnước
Bàitoánphânloạikháchhàngđóngvaitròquantrọngtronghoạtđộngkinhd oanhcủacáctổchức,doanhnghiệp.Phântíchdữliệuvềkháchhàngkhôngchỉđơnt h u ầ n l àtrìnhbàycácconsốvàcácsốliệuđểquảnlýmàcònđòihỏimộtcáchtiếpcậnsâusắchơntrongviệcg hilại,phântíchvàtrìnhbàycácpháthiệntheocáchdễhiểuhơnnhằmhỗtrợtổchức,doanhnghiệptro nghoạtđộngquảntrịchămsóckháchhàng,hoạtđ ộ n g bánhàngvàmarketing.
Cùngvớisựpháttriểncủacôngnghệthôngtinvàsựlantỏacủacuộccáchmạngcôn gnghệlầnt hứ4,họcmáy(Machinelearning)cùngvớicácthuậttoánhọcmáyngàyc à n g đượcứngdụngnhiề uhơntrongcácbàitoánkinhtế.Đặcbiệtcácbàitoánứngd ụ n gdựatrênviệckhaiphád ữliệu(Datamining)haylàcácbàitoánrúttrích,khámp h á racácthôngtincógiátrịhoặcđưa racácdựđoántừdữliệuđãcó.
Nhưcácbàitoánứngdụngtrongpháthiệnbấtthường(Anomalydetection),p háthiệncácngoạilệ,vídụnhưpháthiệngianlậnthẻtíndụng;CácbàitoánPháthiệncácquyluật(As sociationrules),vídụ,trongmộtsiêuthịhaymộttrangthươngmạiđiệnt ử hayviệcpháthiệncácquylu ậtcủakháchhàngnhưkhikháchhàngmuamónhàngAthườngmuakèmmónhàngnào?Cácthôngtinnàyrấthữuíchchoviệctiếpthịsản
10 phẩmvàhỗtrợcácchiếnlượcquảngbásảnphẩm;CácbàitoánGomnhómhayphânl o ạ i (Gr oupingorClassification),vídụ,kháchhàngđượcphânnhómtheohànhvihoặcthôngtinhồsơcủah ọ,kháchhàngthườngcónhữngthóiquenvàhànhvidựatrênsựyê u thíchthìcũngcóthểnhó mvàocáclớp,… vàcácbàitoándựđoán(Predictions)dự atrêndữliệucủakháchhàng,chẳnghạnnhưcóthểdự đoángiácủacănhộdựatrênc á c dữliệulàgiácáccănhộmàkháchhàngđãtừngmuahoặcđãtừ ngquantâmtheodõitrướcđó.
Các thuậttoánhọcmáyđượcgiới thiệuvàứngdụngtrong nhiềubàitoánkinht ế nhưứngdụngtrongmộtsốhoạtđộngkinhdoanhchotổchứcnhưNguyễnA nhDuyvàNguyễnPhúcQuỳnhNhư[8]đãgiớithiệucácứngdụngcủaamazone.combaogồm:Hệthố nggiớithiệucánhân(PersonalizedRecommendationSystem);cóthểdùngbộmáylọc kháchhàng(ComprehensivecollaborativeFilteringEngine)hoặcgiớithiệuvềC á c từkhóatrongKi ndleBook(RecommendationsfromKindleHighlighting)hayphânlo ại kháchhàngdựatrênhành viClickchuột(One-
ClickOrdering).Hoặcứngdụngt r o n g Môhìnhgiaohàngdựđoán(AnticipatoryShipping Model).
TrongnghiêncứucủaPhanThanhĐứcvàcáctácgiả[8]cũngđềcậpđếncácứngdụng củaphântíchdữliệukháchhàngtronghoạtđộngquảntrịchămsóckháchh à n g củacácng ânhàngthươngmạiViệtNam.Trongnghiêncứucũngthấyrõnhữngl ợ i íchmàphântíchdữli ệukháchhàngtrựctuyến(BigData)tạora chocácngânhàngthươngmại.Bằngviệcthu thậpdữliệutừcácnguồnnhưcácwebsitethươngmạiđiệnt ử , mạngxãhộizalo,cácnềntảng dịchvụkhácđểthuthập,phântíchvàđềxuấthệt h ố n g CRMhỗtrợtronghoạtđộngchămsó ckháchhàng.
Phương[3]cũngđềc ậ p đếnmộttronghaihướngtiếpcậnkhiphânloạibàiviếtcủakháchhàngbằn gTiếngV i ệt , sửdụngphươngpháphọckhônggiámsát(Unsupervizedlearning)kếthợptrong họccógiámsát(Supervised learning).Đâylàmộttrongcáckỹthuậtquantrọngtrongb à i toánphânlớpvănbảndùngchoTiế ngViệt.Phươngphápnàycóthểápdụngtrongc á c bàitoándựđoánmộtkếtquả đầuratừdữliệuđầuvàohoặccácbàitoánphâncụm(tựgánnhãnchocáccụdữliệucócấutrúctươn gtựnhau,giảmchiềudữliệuđểhỗtrợcáchìnhthứchọckhác,…).
Bàitoángánnhãnvăn bảnTiếngViệtcònđượcĐỗTrungThành,ĐỗPhúc[4]tr ìn h bàytheo môhìnhchủđề(Topic Model), đâycũnglàmộthướngtiếpcậnđượcápd ụ n g k h á nhiều trongbàitoánphâncụm, vớisốlượng cácchủđề trêncácphương tiệntr u y ền t h ô n g x ã h ộ i rất rộngthì phương phápnàycũng thươngđượcáp dụngtrongcáct r a n g tintứcđiệntửvàcácdiễnđànkhiphânloạibàiviết.Nócũngcóthểápdụngtrongb à i toánphân loạikháchhàng dựatrêncácnhómsảnphẩmhoặccácbàiviếtgiớithiệus ả n phẩmcủakháchhàng.
11Bêncạnhcácđề xuấtvềmặtphươngphápthì ĐỗThanhNghị[6]cũngđề xuấtsửdụngcácthưviệntrongRđểphântíchvàthựchiệncácthựcnghiệm,mặcdùchưa
Tínhhìnhnghiêncứungoàinước
Việcxácđịnhcáchànhvivàxuhướngquantâmđếncácsảnphẩm,dịchvụcủangườisửdụng haykháchhàngtrêncácphươngtiệntruyềnthôngxãhộinhưcácwebsite,c á c mạngxãhội,cáccổngthô ngtin,v.v.ngàycàngđượcchúývàđóngvaitròquantrọngtrongcácứngdụngthựctiễnvìđiều nàycóthểgiúpcáctổchức,doanhnghiệpvàngườibánhàngrútngắnthờigianphânnhómkháchhàng, xácđịnhtốthơnnhómkháchh à n g mụctiêuchotronghoạtđộngkinhdoanhcủahọnhưcácnghi êncứucủaAbdul-R ah im etal.,[1],EzgivàS.Mardikyan[2],AmedieJacobetal.,[5],… Bêncạnhđó,d ự a trêncácphươngtiệntruyềnthôngxãhộivàcácmạngxãhội,cácchiếndịchquản gc á o củacáctổchức,doanhnghiệpcũngdầnchuyểnsangphươngthứctươngtác,traođ ổ i g iữangườibánvàngườimuahơnlàcácchươngtrìnhchạyquảngbá,khôngtậptrungvà ocácmụctiêucụthểnhưtrướcđây.Hànhvivà xuhướngquantâmcủangườisửdụngtrêncácmạngxãhộithườngđượcthểhiệnthôngquacáctwe et,cácstatus,cácc â u lệnhtìmkiếm(searchqueries),cácbàiđánhgiá(reviews),v.v.củakháchhàngtr ênc á c mạngxãhội[1][2][5][15],…
Cácnghiêncứunhằmpháthiệncácchủđềquantâmvềsảnphẩm,dịchvụcủak h á c h hà nghaykháchhàngtrêncácphươngtiệntruyềnthôngxãhộigầnđâythườngđit h e o haihướngtiếp cậnchính:Hướngthứnhấtlàtậptrungphântíchvềcáckếtnối,q u a n hệbạnbè,danhs áchnhững ngườiđược theodõi,… củakháchhàng trêncácphươngtiệntruyềnthôngxãhộinhưtrong[2][4][10],
…;Hướngthứhailàtậptrungp h â n tíchcácbàiđăng(status),cácthẻđánhdấu,cácbàichiasẻ ,cácbìnhluậnvàcácđố itượngđượcsinhratrongquátrìnhhoạtđộng củakhách hàngtrêncácphươngtiệntr u y ền thôngxãhội[3][5][12][13][17],
…,hướngtiếpcậnthứhaisẽloạibỏđượcvấnđ ề vềcấutrúcm ạn g, haysựkhókhăntr on g ti ếpcậnthôngtincá n hân kháchhàng(profile),vìvậy,xuhướngcủacácnghiêncứuhiện nayđềutheocáchtiếpcậnnày.
Cáchướngtiếpcậnđểphântíchtrongcácbàitoánnghiêncứuphânloạikháchh à n g theoc ácchủđềquantâmtrêncácphươngtiệntruyềnthôngxãhộiđượcchiathanht h à n h haihướngtiếpcậ n:hướngtiếpcậnngữnghĩavàhướngtiếpcậnthốngkê.Vớihướngtiếpcậnngữnghĩa,cácnghiê ncứuthườngdựatrêncáchệthốngtừđiển,hệthốngm ạ n g t ừ ( W o r d N e t ) vàh ệ t h ố n g b ả n t h ể h ọ c ( O n t o l o g y ) n h ư c á c n g h i ê n c ứ u c ủ a A ll ahy ari Mehdietal.,
[4],D.M.Boydetal.,[9],FarisKatebandJugalKalita[12];V ớ i h ư ớ n g tiếpcậnthốngkêthườngdựatrênđốisánh, thốngkê từloạidựatrênđộđok ho ản g cáchhoặccácphươngphápđốichiếuđãđượcxâydựng,hư ớngtiếpcậnnàythườngđượcsửdụngnhiềuđốivớicáckiểudữliệukhôngtheoquychuẩnvà rờirạc, nhiềunhiễunhưcácnghiêncứucủaA.EzgivàS.Mardikyan[2],B.Parantapaetal.,
Cáckỹthuậtthườngdùngđểướclượng,nghiêncứutrongbàitoánpháthiệnqu an tâmcủakháchhàngthườngsửdụngcácthuậttoánkhai phádữliệunhưkỹthuậtkhaipháquanđiểmkháchhàngdựatrênphươngpháphọccógiámsátbằngmạ ngBayest r o n g nghiêncứucủaSmeureanuetal[19];H.Maetal.,
[14]lạisửdụngmôhìnhxácsuấtđểphânloạivàứngdụngtronghệthốngkhuyếnnghịkháchh àng.Z.Yongzhenga n d P.Marco[22]sửdụngkỹthuậtthốngkêdựatrênN- gramđểtríchchọncácđặctr ư n g củakháchhàng,v.v
TrongcáctiếpcậnsửdụngchotiếngViệtchủyếulàcácbàitoánphânloạivănbản,baogồ m:phânloạivớimáyhọcvectơhỗtrợ[1],cáchtiếpcậnsửdụnglýthuyếtt ậ p thô[2],cáchtiếpc ậnthốngkêhìnhvị[3],cáchtiếpcậnsửdụngphươngpháphọckhônggiámsátvàđánhchỉmụ c[4],cáchtiếpcậntheoluậtkếthợp[5].Theocáckếtq u ả trìnhbàytrongcáccôngtrìnhđóthìn hữngcáchtiếpcậnnêutrênđềuchokếtquảkhátốt.Tuynhiênkhócóthểsosánhcáckếtquảở trênvớinhauvìtậpdữliệuthựcng hi ệm củamỗiphươngpháplàkhácnhau.
MỤCTIÊUNGHIÊNCỨU
Thứnhấtlàhệthốnghóacáckháiniệmvềhọcmáy,cácthuậttoánsửdụngtrongph ân tíchdữliệ udựatrênhọcmáyvàcácứngdụngcủahọcmáytrongcácbàitoánkinhtế.
Thứhailà trình bàythựctrạng ứngdụngphân tíchdữliệu kháchhàngvà kháchhàngtrựctuyếnbằngcáccôngcụcôngnghệmới,sauđótrìnhbàybàitoánphântíchdữl i ệ u kh áchhàngphụcvụdựbáocũngnhưxácđịnhcácchủđềquantâmcủakháchhàngdựatrênhọcmáy.
Thứba,đềtàitrìnhbàymộtsốthuậttoánhọcmáyphổbiếnứngdụngtrongphânt í ch dữliệukh áchhàngtrựctuyếnvàsosánhmứcđộphùhợpcủacácthuậttoánđốidữliệulịchsửcủakháchhàngth uthậpđượctrêncácphươngtiệntruyềnthôngxãhộihiệnna y
Cuốicùng,dựatrênthựctrạngvàkếtquảthựcnghiệm,đềtàiđưaramộtsốthảol u ậ n vàhàm ýchocáccáctổchức,doanhnghiệpđặcbiệtcáctổchức,doanhnghiệpcótươngtácvớikháchhàngt rêncácphươngtiệntruyềnthôngxãhộinhưwebsite,cổngt h ô n g tingiảitrí,cácmạngxãhộih aycácmáytìmkiếm.
Kếtquảcủađềtàinghiêncứucóthểsửdụnglàmtàiliệuthamkhảochogiảngviênvàsin hviêntrongquátrìnhgiảngdạyvàhọctậpcáchọcphần“Hệthốngthôngtinquảnlý”,“Marketingt hươngmạiđiệntử”và“Khaiphádữliệutrongkinhdoanh”
ĐỐITƯỢNGVÀPHẠMVINGHIÊNCỨU
Đốitượngnghiêncứu
Các thuậttoán họcmáyứngdụngtrongnhậndiệnvà phânloạikháchhàng trựct u y ế n , cácphươngtiệntruyềnthôngxãhộicóứngdụngtrongdịchvụbánhàngtrự ct u y ế n
Phạmvi nghiêncứu
Các thuật toánhọc máy ứngdụng trongbài toánphânloạiđược ứng dụngtrongcácbàitoán:Phânloạikháchhàngtrongứngdụnghệthốngkhuyếnnghị sảnphẩm(Recommendation System),Phânloạikháchhàngtrongbàitoántiếpthịc ómụctiêu(TargettedM a r k e t i n g ) v à P h â n l o ạ i k h á c h h à n g theoc á c p h â n k h ú c ( C u s t o m m e r Segmentation)
PHƯƠNGPHÁPNGHIÊNCỨU
Cáchtiếpcận
Nhìnnhậntừthựctiễnvềứngdụngcủahọcmáyvàcáckỹthuậtphântíchdữliệukh ách hàngtrongcácbàitoán kinhtếtrongbốicảnh cáchmạngcôngnghệ lầnthứ
4.Sựlantỏacủacáchmạngcôngnghệvàsựkếthợpgiữa côngnghệ thôngtinvàocácbàikinhtế,khảnăngthuthậpdữliệukháchhàngtựđộngvàcáccôngcụphântí chdữliệutrựctuyếnhỗtrợtrongMarketingvàBánhàng
Tiếpcậntừcácthuậttoánhọcmáyvàcáccôngcụhỗtrợcóứngdụnghọcmáyt ro ngcácb àitoánthựctếnhưR,Python,…
Phươngphápnghiêncứu
Nghiêncứuđịnhtính: Đềtàisửdụngnghiêncứuđịnhtínhtrongphântích,chứngminh,nghiêncứucáctàiliệu(quản trịquanhệkháchhàng,môhìnhhọcmáy,cácthuậttoánhọcmáyứngd ụ n g chophânloại) nhằmđưaramộtsốkiếnthứctổngquanvềcácthuậttoánhọcmáyđượcứngdụngtrongbàitoánphâ n loạikháchhànhtheocácchủ đềvềsảnphẩmhoặcd ị c h vụmàhọquantâmtrêncácphươngtiệntruyềnthôngxãhội
Nghiêncứuđịnhlượng: Đểcóthểsosánhvàđưaracácthảoluậncũngnhưkhuyếnnghịchocáctổchức,doanhnghiệ p.Đềtàicósửdụngbộdữliệuchuẩn20Newsgroups,cùng01bộdữliệuth ực thuthậptrêncácp hươngtiệntruyềnthôngxãhộiđểthựcnghiệmvàsosánhgiữac á c thuậttoántrongphânnhậndiệ nvàphânloạikháchhàngtrựctuyếntheocácchủđềv ề sảnphẩmvàdịchvụquantâmcủahọ.
Cácbộdữliệuthựcnghiệmtrongđềtàibaogồm:Bộdữliệu20Newsgroupsđư ợcc h ú n g tôilấy từt h ư việndữl iệ uthựcnghiệm củ a Đạihọc St an df or d (https:// library.stanford.edu/science/ databases)và01bộdữliệuthựctếchúngtôithuthậptừ02nguồnlàtựđộngbằngứngd ụngAPIvàmộtsốdữliệuđượcthuthậpthủcôn gđểxâydựngcácbộdữliệuthựcnghiệm
(1) nghiêncứusơbộcácthuậttoánđượcứngdụngtrongbàitoánphântíchdữl i ệ u kh áchhàngtrựctuyếnvà(2)nghiêncứuchínhthứcvớiphươngphápthựcnghiệmd ự a trênbộcơsởd ữliệuchuẩn.
Từcơsởlýthuyếtvàcácnghiêncứuliênquan,hìnhthànhbảngsosánhhiệusuấtd ự a trênđộđ ochínhxáccủacáckếtquảthuđược.Kếtiếp,thảoluậntìmhiểuthôngtinv ề thươngmạiđiệntử,mu abánhàngtrựctuyếnvàđặcbiệtlàviệcsửdụngcácthuậtt o á n ứngdụngtrongcácbàitoánph ântíchdữliệukháchhàngtrựctuyếnđểđưaralựac h ọ n tốiưuchocáctổchức,cánhânkhimuốnứng dụngcáccôngcụkhácnhauđểphântíchdữliệukháchhàng.
Phươngphápđánhgiá:Córấtnhiềuđộđođượcdùngđểđánhgiáhiệusuấthoặcđ ộ chínhxác củacácmôhìnhkhikiểmnghiệmtrongcácnghiêncứukhoahọc,trongbáocáocủađề tàinày,việcthựchiệnđánhgiáhiệusuấthoặcđộchínhxáccủacácmôhìnhđềxuấtđượctínhtoán dựatheomộtsốphươngphápnhưsau: Đánhg i á d ự a t r ê n đ ộ c h í n h x á c ( A c c u r a c y ) , đ ộ n h ạ y ( R e c a l l ) A c c u r a c y v à Recallđượctínhtoándựatrênmatrậnnhầmlẫn(confusionmatrix),đâylàmộttrong c á c độđophổbiếntrongđánhgiámôhìnhcủacácnghiêncứuvềdữliệutrêncáctrangmạng xãhội nhưcácnghiêncứuvềhệthốngkhuyếnnghịsảnphẩm,tưvấnkháchhàng.T r o n g đó,đánhgiádựatrê nđộchínhxác( )đượctínhbằng:
Báoc á o c ủ a đ ề tàic ò n s ử d ụ n g F1-m e a s u r e h a y F1-s c o r e v à đ ộ c h í n h x á c Accuracy đểđánhgiávàsosánh các kếtquảthực nghiệm.Giátrịcủachúngđượctínhtheocáccôngthức:
KẾTCẤUBÁOCÁONGHIÊNCỨU
Báocáongoàimụcmởđầu,kếtluận,phụlụcvàtàiliệuthamkhảothìcó04chươn gbaogồm:
TỔNGQUANVỀHỌCMÁY
Họcmáy(MachineLearning)làmộtlĩnhvựcconcủatrítuệnhântạo(ArtificialI n t e l l i g e n c e ) sửdụngcácthuậttoánchophépmáytínhcóthểhọctừdữliệuđểthựch i ện các côngviệcthayvìđượclậptrìnhmộtcáchrõràng.
”tựđộngtừdữliệuđểgiảiquyếtnhữngvấnđềcụthể.Vídụnhưcácmáyc ó thể“học”cáchph ânloạithưđiệntửxemcóphảithưrác(spam)haykhôngvàtựđ ộ n g xếpthưvàothưmụctươ ngứng.Họcmáyrấtgầnvớisuydiễnthốngkê(statisticalinference) tuycókhácnhauvềthuậtngữ. Họcmáycóliênquanlớnđếnthốngkê,vìcảhailĩnhvựcđềunghiêncứuviệcp h ân tíchdữliệu,nhưngkhácvớithốngkê,họcmáytậptrungvàosự phứctạpcủacácg i ả i thuậttrongviệcthựcthitínhtoán.Nhiềubàitoánsuyluậnđượcxếpvà oloạibàit o á n NP- khó,vìthếmộtphầncủahọcmáylànghiêncứusựpháttriểncácgiảithuậtsuyluậnxấpxỉmàcóthểxửl ýđược.
Họcmáycóhiệnnayđượcápdụngrộngrãibaogồmmáytruytìmdữliệu,chẩnđoánykh oa,pháthiệnthẻtíndụnggiả,phântíchthịtrườngchứngkhoán,phânloạicácc h u ỗ i DNA,nhậndạngt iếngnóivàchữviết,dịchtựđộng,chơitròchơivàcửđộngrô-b ố t (Robotlocomotion).
Thứnhấtlàtrongbàitoánxửlýảnh(ImageProcessing):Bàitoánxửlýảnhgiảiquyếtc ácvấnđềphântíchthôngtintừhìnhảnhhaythựchiệnmộtsốphépbiếnđổin h ư : bàitoá ngắnthẻh ì n h ảnh(ImageTagging);bàitoánnhận dạngkýtự (Optical Charact erRecognition);bàitoánứngdụngtrongôtôtựlái(Self- drivingcars),mộtphầnc ơ chếsửdụngtrongbàitoáncủaôtôtựláilàxửlýảnh.
Thứhailàtrongbàitoánphântíchvănbản(Textanalysis):Phântíchvănbảnlàcô ng vi ệctríchxuấthoặcphânloạithôngtintừcáctàiliệuhoặcdữliệuvănbản.Cácv ă n bảnởđâycót hểlàcácbàiđăngtrêncácmạngxãhội,cácnộidungtrongemail,cácđoạn trao đổi giữakhách hàng vàdoanh nghiệphoặc các tàiliệu vănbản khác,… hoặcứ n g dụngtrongcácbàitoánlọcspam(Spamfiltering).Phânloạivănbảnlàxácđịnhc h ủ đề chomộtvănbản,dựa trêncácchủđềđểphânloạihayxếplớpsauđólọcthànhcá cn h ó m ; n g o à i r a P h â n t í c h q u a n điểm( S e n t i m e n t A n a l y s i s ) ; K h a i thácthôngt i n ( I n f o r m a t i o n
E x t r a c t i o n ) , từmột vănbản,họccách đểtríchxuất cácthông tin hữu ích.Chẳnghạnnhưtríchxuấtđịachỉ,tênngười,từkhóa,…
Thứbalàtrongbàitoánkhaiphádữliệu:Khaiphádữliệu(Datamining)làquátr ì nh kh ámpháracácthôngtincógiátrịhoặcđưaracácdựđoántừdữliệunhưbàit o á n : Pháthiệnb ấtthường(Anomalydetection);Pháthiệncácquyluật(Associationr u l e s ) ; Gomn hóm(Grouping)vàDựđoán(Predictions),
Thứtưlàtrongbài toánứngdụngchotròchơi điệntửvàRobot:Tròchơiđiệntử(Video games)vàrobot(Robotics)làlĩnhvựclớncósựgópmặt củamachinelearning.M ộtk ỹ t h u ậ t p h ổ biếnđượcá p d ụ n g t r o n g t r ư ờ n g h ợ p n à y làH ọ c t ă n g cường( R e i n f o r c e m e n t learning).
QUY TRÌNHPHÂNTÍCHDỮLIỆU BẰNGHỌCMÁY
Thứnhấtlàchọnmôhình:Chọn mộtmôhìnhthốngkêchotậpdữliệu,vídụnhưmôhìnhthốngkêBec-nu- li,môhìnhphânphốichuẩn.
Thứhailàtìmthamsố:Cácmôhìnhthốngkêcócácthamsốtươngứng,nhiệmv ụ lúcnà ylàtìmcácthamsốnàysaochophùhợpvớitậpdữliệunhấtcóthể.
Thứ balàsuyluậnhaydựđoán:Saukhicóđượcmôhìnhvàthamsố, cóthểdựav ào chúngđểđưarasuyluậnchomộtđầuvàomớinàođó.
Tậpdữliệuhuấnluyện (Trainingset): Chiếm60%,dùngđểmáyh ọ c khihuấnluy ện;Tậpkiểmchứng(Crossvalidationset):Chiếm20%.Dùngđểkiểmchứngmôh ì n h khihuấnluyện;Tậpkiểmtra(Testset):Chiếm20%.Dùngđểkiểmtraxemmôhìnhđãph ùhợpchưasaukhihuấnluyện.
MỘTSỐTHUẬTTOÁNHỌCMÁYPHỔBIẾN
Phânloạidựatrênphươngthức học
Họccógiámsát:Họccógiámsáthaycòngọilàhọccóthầylàthuậttoándựđ o á n nhãn(lab el)/ đầura(output)củamộtdữliệumớidựatrêntậpdữliệuhuấnluyệnmàtrongđómỗimẫudữliệ uđềuđãđượcgánnhãn.Khiđó,thôngquamộtquátrìnhh u ấ n luyện,mộtmôhìnhsẽđượcxây dựngđểchoracácdựđoánvàkhicácdựđoánbịsaithìmôhìnhnàysẽđượctinhchỉnhlại.Việchuấ nluyệnsẽtiếptụcchođếnkhimôh ì n h đạtđượcmứcđộchínhxácmongmuốntrêndữliệuhu ấnluyện.Điềunàycũngg i ố n g nhưkhichúngtađihọctrênlớp,tabiếtcâutrảlờichínhxáctừ giáoviên(tậpdữl i ệu cónhãn)vàtừđótasẽsửachữanếulàmsai.
Vídụnhưtrongnhậndạngchữsốviếttay,tacóảnhcủahàngnghìntrườnghợpứ n g với mỗichữsốđượcviếtbởinhiềungườikhácnhau.HoặcngườisửdụngmạngxãhộiFacebookthìkhá quenthuộcvớitínhnăngpháthiệnkhuônmặttrongmộtbứcảnh,bảnchấtcủathuậttoándòtìmcác khuônmặtnàylàmộtthuậttoánhọccógiámsátvớit ậ p huấnluyệnlàvôsốảnhđãđượcgánnhãnlà mặtngườihaykhôngphảimặtngười.
Các thuậttoánhọccógiámsátcònđượcphânra thànhhailoạichínhlàphânlớp(Classification)vàhồiquy(Regression).
+Phânlớp:Mộtbàitoánđượcgọilàphânlớpnếucácnhãncủadữliệuđầuvàođượcchiat hànhmộtsốhữuhạnlớp(miềngiátrịlàrờirạc).Chẳnghạnnhưtínhnăngx á c địnhxemmộtem ailcó phảilàspamhaykhôngcủa Gmail;xácđịnhxemhìnhảnhcủ a co n vật làchóhaymèo.Hoặcvídụnhậndạngkýsốviếttayởtrêncũngthuộcbàitoánphânlớp,baogồm mườilớpứngvớicácsốtừ0đến9.Tươngtựchovídụnhậnd ạn g khuônmặtvớihailớplàphải vàkhôngphảikhuônmặt,…Cácthuậttoánphânl ớ p phổbiếnnhưK-
+Hồiquy:Mộtbàitoánđượcxemlàhồiquynếunhãnkhôngđượcchiathànhc á c n hómmàlàmộtgiátrịthựccụthể(miềngiátrịlàliêntục).Hầuhếtcácbàitoándựb á o (giácổphiếu,giá nhà,…)thườngđượcxếpvàobàitoánhồiquy,…
19 thuậttoándựđoánnhãncủamộtdữliệumớidựatrêntậpdữliệuhuấnl u y ệ n màtrongđótấtcả cácmẫudữliệuđềuchưa đượcgánnhãnhaynóicáchkháclàt a khôngbiếtcâutrảlờichínhxácchomỗidữliệuđầuvào.Đ iềunàycũnggiốngnhư khitahọc màkhôngcóthầycô,sẽkhôngtrítuệnhântạochotabiếtđápánđúnglàgì.Khiđó,mụctiêucủath uậttoánunsupervisedlearningkhôngphảilàtìmđầurachínhx á c mà sẽhướngtớiviệctìmracấutrúchoặcsựliênhệtrongdữliệuđểthựchiệnmộtcôngv i ệ c n à o đ ó , v í n h ư g o m c ụ m ( c l u s t e r i n g ) h o ặ c g i ả m s ố c h i ề u c ủ a d ữ l i ệ u (di mensionreduction)đểthuậntiệntrongviệclưutrữvàtínhtoán.
CácbàitoánUnsupervisedLearningtiếptụcđượcchianhỏthànhhailoạilàphâncụm (Clus tering)vàluậtkếthợp(AssociationRule).
+Phâncụm:Mộtbàitoánphâncụm/ phânnhómtoànbộdữliệuXthànhcácnhóm/cụmnhỏ dựa trên sựliênquan giữa cácdữliệutrongmỗinhóm Chẳnghạn nhưphânnhómkháchhàngdựavàođộtuổi,giớitính.Điềunàycũnggiốngnhưviệctađưach omộ tđứatrẻrấtnhiềumảnhghépvớicáchìnhdạngvàmàusắckhácnhau,cóthểlàtamgiác,vuông,trònv ớimàuxanh,đỏ,tím,vàng,sauđóyêucầutrẻphânchúngthànht ừn g nh óm.Mặcdùtakhôngdạytrẻmảnhnàotươngứng vớihìnhnàohoặcmàunào,nhưng nhiềukhảnăngtrẻvẫncóthểphânloạicácmảnhghéptheomàusắchoặchìnhd ạ n g
+Luậtkếthợp:Làbàitoán màkhichúng tamuốnkhámpháramộtquy luậtdựatrênnhiềudữliệuchotrước.Vínhưnhữngkháchhàngmuamặthàngnàysẽmuathêmmặ thàngkia;hoặckhangiảxemphimnàysẽcóxuhướngthíchxemphimkia,dựavàođótacóthểxâyd ựngnhữnghệthốnggợiýkháchhàng(RecommendationSystem)n h ằ m thúcđẩynhu cầumuasắmhoặcxemphim….
- Họcbángiámsát:Là bàitoánmàkhitậpdữliệuđầu vào Xlà hỗn hợpcácmẫucó nhãnvàkhôngcónhãn,trongđósốlượngcónhãnchỉchiếmmộtphầnnhỏ.Phầnlớnc á c bàitoánthựctếcủahọcmáythuộcnhómnàyvìviệcthuthậpdữliệucónhãntốnr ấ t nhiềuthờ igianvàcóchiphícao.Rấtnhiềuloạidữliệuthậmchícầnphảicóchuyêngiamớigánnhãnđược,chẳn ghạnnhưảnhyhọchoặccáccặpcâusongngữ.Ngượclại,d ữ liệuchưacónhãncóthểđượcthuthậpvớ ichiphíthấptừInternet.
Vớibàitoánnày,môhìnhphảitìmhiểucáccấutrúcđểtổchứcdữliệucũngnhưđưaradựđo án.VìđặcđiểmtrunggiannêntacóthểsửdụngUnsupervisedLearningđểkhámphávàtìmhiểucấ utrúctrongdữliệuđầuvào,đồngthờisửdụngSupervisedLearningđểdựđoánchodữli ệukhôngđượcgánnhãn.Sauđóđưadữliệuvừadựđoánt r ở lạilàmdữliệuhuấnluyệnchosupervise dlearningvàsửdụngmôhìnhsaukhihuấnl uy ện đểđưaradựđoánvềdữliệumới.Mộtsốthu ậttoánhọctăngcườngnhư:SelfTraining,G e n e r a t i v e M o d e l s , S 3 V M s , G r a p h - B a s e d A l g o r i t h m s , M u l t i v i e w A l g o r i t h m s , …
- Họctăngcường:Họctăngtườnghayhọccủngcốlàbàitoángiúpchomộthệthố ng tựđộngxácđịnhhànhvidựatrênhoàncảnhđểđạtđượclợiíchcaonhất.Hiệntại,R e i n f o r c e m e n t L e a r n i n g c h ủ y ế u đượcá p d ụ n g v à o l ý t h u y ế t t r ò c h ơ i (GameT h e o r y ) , cácthuậttoáncầnxácđịnhnướcđitiếptheođểđạtđượcđiểmsốcaonhất.
Bài toán dựa trên cây quyết định
Bài toán dựa trên xác suất Bài toán dựa trên luật kết hợp Bài toán dựa trên mạng nơ-ron
Bài toán dựa trên mẫu Bài toán dựa trên học sâu Bài toán giảm chiều dữ liệu
Bài toán chuẩn hóa Bài toán phân cụm
Phânloạidựa trênsựtươngđồngvềcáchhoạtđộng
Cácthuậttoánhọcmáythườngđượcphânnhómdựatrênsựtươngđồngvềchứcn ă n g hayc áchthứchoạtđộnghoặcứngdụngvàocácbàitoánmàchúngđượcgomn h ó m vớinh au,trongnghiêncứunàychúngtôiphânchiadựatrênsựtươngđồngvềcácbàitoánứngdụ ngnhưsau:
Thứnhấtlàcácthuậttoántrongbàitoánhồiquy(RegressionAlgorithms).Hồiqu ylà quátrìnhtìmmốiquanhệphụthuộccủamộtbiến(đượcgọilàbiếnphụthuộchay biếnđượcg iảithích,biếnđược dựbáo,biếnđượchồiquy,biếnphảnứng,biếnnộisinh)vàomộthoặcnhiềubiếnkhác(đượcgọi làbiếnđộclập,biếngiảithích,biếndựb á o , biếnhồiquy,biếntácnhânhaybiếnkiểmsoát,b iếnngoạisinh)nhằmmụcđíchướclượnghoặctiênđoángiátrịkỳvọngcủabiếnphụthuộck hibiếttrướcgiátrịcủab i ế n độclập.CácthuậttoánhồiquyphổbiếnnhấtnhưLinear
Regression,Logistic Regression,LocallyEstimatedScatterplotSmoothing(LOESS),
Thứh a i làc á c t h u ậ t t o á n giảic á c b à i t o á n d ự a t r ê n m ẫ u ( I n s t a n c e BasedAlgorithms).Môhìnhhọctậpdựatrênmẫuhaythựcthểlàbàitoánraquyếtđịnhdự avào cáctrườnghợphoặccácmẫudữliệuhuấnluyệnđượccoilàquantrọnghaybắtb u ộ c đốivớimôhình.Nhómthuậttoánnàythườngxâydựngcơsởdữliệuvềdữliệumẫuvàsosán hdữliệumớivớicơsởdữliệubằngcáchsửdụngthướcđotươngtựđểt ì m kếtquảphùhợpnhấtv àđưaradựđoán.Cácthuậttoándựatrênthựcthểphổbiếnn h ư : K-NearestNeighbor(KNN–
Klánggiềnggầnnhất),LearningVectorQuantization( L V Q ) , LocallyWeightedLearning(LWL),Sel f-OrganizingMap(SOM),
Thứbalàcácthuậttoánứngdụngchocácbàitoánchuẩnhóa(RegularizationAlg o r it h ms ) Cácthuậttoánchuẩnhoárađờitừsựmởrộngcácphươngphápđãcó(điển hìnhlàcácphươngpháphồiquy)bằngcáchxửphạtcácmôhìnhdựatrênmứcđộp hứ ctạpcủachúng.C ácthuậttoánchuẩnhóaphổbiếnnhư:ElasticNet,LeastAbsolute
Shrinkage andSelectionOperator (LASSO),Least-Angle
Thứtưlàcácthuậttoándựatrêncâyquyếtđịnh(DecisionTreeAlgorithms). Đâylàphươngphápxâydựngmôhìnhraquyếtđịnhdựatrêncácgiátrịthựccủanhữngthuộctínhtro ngdữliệu.Sựquyếtđịnhđượcrẽnhánhtrongcấutrúccâychođếnkhiquyếtđịnhdựđoánđ ượcđưarachomộtmẫunhấtđịnh.Phươngphápnàyđượcsửdụngt r o n g việchuấnluyệndữliệuc hobàitoánphânlớpvàhồiquy.Vìsựnhanhchóng,chí nh xácnênphươngphápnàyrấtđ ượcưachuộngtronghọcmáy.Mộtsốthuậttoándựatrêncâyquyếtđịnhphổbiếnnhư:Chi- squaredAutomaticInteractionDetection( C H A I D ) , ClassificationvàRegressionTree– CART,ConditionalDecisionTrees,C4.5v à C5.0,DecisionStump,IterativeDichotomiser3(ID3),…
ThứnămlàcácthuậttoándựatrênđịnhlýBayes(BayesianAlgorithms).Đâylàn hómcácthuậttoánápdụngĐịnhlýBayeschobàitoánphânloạivàhồiquy.Cáct h u ậ t t o á n p h ổ biếnnhư:A v e r a g e d O n e -
D e p e n d e n c e E s t i m a t o r s ( A O D E ) , B a y e s i a n Belief Network(BBN),Bayesian Network(BN),GaussianNaiveBayes,MultinomialN a i v e Bayes,NaiveBayes,…
Thứsáulàcácthuậttoánphâncụm(ClusteringAlgorithms).Tấtcảcácphươngp h á p đều sửdụngcáccấutrúcvốncótrongdữliệuđểtổchứctốtnhấtdữliệuthànhcácnh ómcó mứcđộphổbiếntốiđadựa vàotrọngtâm (Centroid)và thứbậc(Hierarchal).Cácthuậttoánphâncụmphổbiếnnhư:ExpectationMaximisation(E M–cựcđạihoák ỳ vọng),HierarchicalClustering,K-Means,K-Medians,…
Thứb ả y l à c á c t h u ậ t t o á n d ự a trênl u ậ t k ế t hợp( A s s o c i a t i o n R u l e Learni ngA l g or i t h m s) Đâylànhữngthuậttoánsẽrúttríchra cácquytắcgiảithíchtốtnhấtmốiq u a n hệgiữacácbiếntrongdữliệu.Cácquytắcnàycóthểgiú pkhámpháracáctínhc h ấ t quantrọngvàhữuíchtrongcáctậpphântíchdữliệukháchhàngtrựctu yếnvàcaoc h i ề u trongthươngmạicùngcáclĩnhvựckhác.Cácthuậttoánluậtkếthợpphổ biếnn h ư : AprioriAlgorithm,Eclatalgorithm,FP-GrowthAlgorithm,
N e u r a l Network Algorithms).Mạngnơron nhântạolàcácmôhìnhđượclấycảmhứngtừcấutrú c và chứcnăng củamạng lướithầnkinh sinhhọc.Nhómthuậttoánnày cóthểđượcs ử d ụ n g chobàitoánphânlớpvà hồiquyvớirấtnhiềubiếnthểkhácnhauchohầuhếtc á c vấnđề.Cácthuậttoánphổbiếnlà: Back-
Propagation(mạnglantruyềnngược),Perceptron (Mạnglantruyềnthẳng),Mu lti-
Layerperceptron(Mạngtruyềnthẳngđal ớ p ) , HopfieldNetwork,RadialBasisFunction Network(RBFN)
D e e p L e a r n i n g làmộtp h i ê n b ả n c ậ p n h ậ t hiệnđ ạ i c h o m ạ n g nơ- ronn h â n t ạ o ( A r t i f i c i a l NeuralNetworks)nhằmkhaitháckhảnăngtínhtoáncủamáytính,tu ynhiênv ì sựphát triểnlớnmạnhcủachúng nênmìnhtáchrathànhmộtnhómriên g.DeepLearningquantâmđếnviệcxâydựngcácmạngthầnkinhlớnhơn,phứctạphơnnhiều,v à làmsaođểkhaitháchiệuquảcácbộphântíchdữliệukháchhàngtrựctuyếnchứa rấtítdữliệuđãđượcgánnhãn.Cácthuậttoánhọcsâuphổbiếnlà:ConvolutionalNeuralN e t w o r k ( C
N N ) , D e e p BeliefN e t w o r k s ( D B N ) , D e e p B o l t z m a n n M a c h i n e ( D B M ) , St a ck edAuto-Encoders
Cuốicùngl à n h ó m c á c t h u ậ t t o á n l à m giảmchiềud ữ liệu( D i m e n s i o n a l i t y R e d u c t i o n Algorithms).Giốngnhưcácphươngphápphâncụm,giảmkhônggiant ìmk i ế m vàkhaitháccấutrúcvốncótrongdữliệunhưngtheocáchkhônggiámsáthoặcđ ể tó mtắthaymôtảdữliệusửdụngítthôngtinhơnlàmụctiêucủanhómphươngphápnày.Điềunàycóthểh ữuíchđểtrựcquanhóadữliệuhoặcđơngiảnhóadữliệumàsauđó cóthểđượcsửdụngtrongphương pháphọccógiámsát.Nhiềutrongsốcácphươngp h á p n à y cóthểđượcđiềuchỉnhđểsửdụngtrongphânlớpvàhồiquy.Cácthuậttoángiảm chiềusâudữliệub a o gồm:FlexibleDiscriminantAnalysis
(FDA),L i n e a r D i s c r i m i n a n t Analysis(LDA),MixtureDiscriminantAnalysis( MDA),Multidimensional Scaling(MDS),PartialLeastSquaresRegression(PLSR),Pr incipalC o m p o n e n t Analysis(PCA),PrincipalComponentRegression(PCR),…
Ngoàira,còncócácthuậttoándànhchotậphợp(EnsembleAlgorithms)vàmộtsố thuậttoá nkhácnhằmkếthợpcácmôhìnhyếuhơnđượchuấnluyệnđộclậpvàphầnd ự đoáncủachúngsẽđư ợckếthợptheomộtcáchnàođóđểđưaradựđoántổngthể.Nhómthuậttoánnàykhámạnhv àđượcnghiêncứunhiều,đặcbiệtlàvềcáchđểkếth ợ p c á c m ô h ì n h v ớ i n h a u M ộ t s ố t h u ậ t t o á n p h ổ biếnn h ư : A d a B o o s t , B o o s t i n g , B o o t s t r a p p e d Aggregatio n(Bagging),GradientBoostingMachines(GBM),GradientB o o s t e d RegressionT rees(GBRT),RandomForest,…
ỨNGDỤNGHỌCMÁYTRONGCÁCBÀITOÁNKINHTẾ
Họcmáyứngdụngtrongtàichính
Tronglĩnhvựctàichính,ngânhàng,họcmáykhiđượckếthợp vớicácmôhìnhp h â n tíchđịnhlượng,pháthuyhiệuquảđặcbiệttrongviệctìmkiếmcácbộmẫudữliệu,đ ư a ranhữngdựđoán,hỗtrợhiệuquảraquyếtđịnhgiúpđảmbảohoạtđộngkinhdoanhliêntụcvàkiểms oátrủiro.Trênthếgiới,cuộcchạyđuatrongngànhNgânhàngdiễnr a đặcbiệtsôiđộng.Từcác côngtycôngnghệmớithànhlậpnhưFeedzai(trongmảngth an h toán),ShiftTechnology(trongmả ngbảohiểm),tớicáctậpđoàncôngnghệkhổnglồ nhưIBMvànhómdẫnđầuvềcôngnghệhiệntạinhưG oogle,AlibabavàcácFintech,đ a n g dựavàoưuthếcôngnghệđểcạnhtranh,lấnsânsanglĩnhvựcngânhà ng,tàichính.
Thứ nhất,cácmôhìnhdựbáotàichính:Bằngviệcthuthậpdữliệukinh doanh,dữ liệugiácảlịchsửvàmộtsốdữliệuliênquantrênthịtrường,mộttổchứctàichínhh a y ngânhàng cóthểxâydựngmôhìnhdựbáogiácổphiếucủatổchứcmìnhtrênthịtrườngchứngkhoán,từđó đưaracácquyếtđịnh,chínhsáchkinhdoanhphùhợpvớinhucầu pháttriển.Việcdựbáođược xuthếlênxuốngcủathịtrườngcũngsẽgiúpchoc á c tổchứcsửdụngtốthơncáckhoảnđầutưcủam ình.
Thứhai,cácmôhìnhkhuyếnnghịkhuyếncáo:Hiệnnaycáctổchứctàichính,n gân h àngcóthểthuthậpdữliệucủakháchhàngtừnhiềunguồn,nhiềucáchkhácnhaun h ư từứngdụng điệnthoại,Internetbankinghaycácsảnphẩmtàichínhcánhân.Việch u ấ n luyệntrítuệnhântạot rêncácdữliệunàycóthểgiúptổchứchiểurõhơnvàdựđ o án đượchànhvicủakháchhàng,từđó đưaracáckhuyếnnghị,khuyếncáosảnphẩmd ị c h vụphùhợphơn.Điềunàycũnggiúplàmtăngtrảin ghiệmcánhâncủakháchhàng.Mộtứngdụngnữacủaloạimôhìnhnàylàpháthiệnracáchànhvi,t hóiquenthaotácc ủ a kháchhàngtrênứngdụng,sảnphẩmcủamình,từđóđưaracácchỉnhsử a,tốiưuđ ố i vớisảnphẩm.
Thứba,nhậndạnggiọngnói:Mộtứngdụngmàđượcítcáctổchứcchúýđếnlàv iệc nhậndạ nggiọngnóicủakháchhàngthuthậpđượcquakênhđiệnthoạihỗtrợ.Việcn h ậ n biếtđượcgiọngnóikh áchhàngsẽgiúptăngcườngbảomậtkhiápdụngcôngnghệp h á t sinhgiaodịch/ xácthựcgiaodịchthôngquagiọngnóihayxâydựngcácbottrênđ iện thoạithôngminhcókh ảnăngtươngtác,tưvấnvàgiảiquyếtcácvấnđềchokháchhàngthôngquagiọngnói.
Thứtưlàphântíchvănbản:Cáctổchứctàichính,ngânhànghiệnnaysởhữum ộ t sốl ượnggiấytờrấtlớndomôhìnhhoạtđộngtruyềnthốngđòihỏicácnghiệpvụp hảicóvănbản. Ứngdụngtrítuệnhântạovàonhậndiệnvàphântíchvănbảncóthểg iú p cáctổchức đàođượccáckiếnthứcẩnbêntrongkhốilượngvănbản,từđóđưaracácquyếtđịnhnhưtốiưuhóaq uytrìnhnghiệpvụ,tựđộngphảnhồiemailvàcáckhiếunại , yêucầuhỗtrợcủakháchhàng.Điềun àygiúplàmgiảmđángkểchiphívậnhànhvàhoạtđộngcủacáctổchức.
Thứnămlàphântíchhìnhảnh:Vớihệthốngcameracàiđặttrongcácphònggiaod ị c h , điểmti ếpđónkháchhànghaysửdụngcamerađiệnthoại,trítuệnhântạocóthểđượcứngdụngđểnhận diệnkhuônmặt,địnhdanhkháchhàng.Kếthợpvớicôngnghệnhậndiệngiọngnóivàdữliệugiọn gnói,ngânhàngcóthểpháttriểncácdịchvụthanht o á n , phátsinhgiaodịchbằnghìnhảnhhayâmt hanhthôngquađiệnthoạithôngminh.N g o à i ra,việcsửdụngtrítuệnhântạonhậndiệnco nngườicũngcóthểdùngđểđolường,đánhgiáhoạtđộngcủanhânviênngânhàng.
Thứsáulàpháthiệngianlậnvàchốngrửatiền:TheobáocáoMcAfeevừađượccôngbốgầ nđâychothấy,trongnăm2018,nhiềuvụviệcgianlậntronglĩnhvựctàichính, ngânhàngđãđượcpháthiệntrên toàncầuvớitổngsốtiềnlênđến600 tỷUSD.Đ ể ngănchặncáchànhvigianlậnvàrửatiền,cácngânhàngđanggấprútchuyểnđổiv à thíchứngcôngnghệđểchốnglạicácmốiđedọa,gianlậntừbênngoài.Cácgiảip h á p k íchhoạtcôngnghệtrítuệnhântạovàcácmôhìnhtàichínhtiêntiếnmớisẽgiúp
24 các ngânhàngxácđịnh,phântíchdòngtiềntrongthờigianthựcvàpháthiện cácgiaod ị c h gianlận.Hiệnnay,côngnghệtrítuệnhântạođượcứngdụngtrongviệcphântíchd ữ liệucủacácgiaodịchtrongquákhứvàhiệntại,dựatrêncáchànhviđiểnhìnhcủak h á c h hàngcó thểđược“lọc”để pháthiệnranhữngvấnđềbấtthường.Từđó,dễdàngn g ă n ngừađượccácgiaodịchphạmpháp hoặccóthêmxácnhậntừkháchhàngđượcyêu cầutrướckhigiaodịchcóthểtiếnhànhhaykhôn g.
Thứbảylàcácứngdụngtrongtăngcườngtuânthủ:Đikèmvớitiếnbộcôngn g h ệ làcáchoạtđộngtộiphạmtronggiớitàichính,ngânhàngngàymộttăngcao.Cáctổchứctàichí nhcũngphảitậptrungnguồnlực,côngnghệngàymộtnhiềuvàoviệcp hò ngchốngcá choạtđộngphipháptrongngànhcủamìnhnhưrửatiềnhaytàitrợk h ủ n gbố.Kếthợ pcùngvớicáckỹthuậtnhưhọcmáy,họcsâu(Deeplearning),khait h á c dữliệu(datamining)v àphântíchsẽgiúpcácnhàquảntrịngânhàngpháthiệnsớmv à n g ă n chặntốthơncácgiaodịchbấthợpphápphátsinhtronghệthốngcủamình,từđ ó tránhđượ cnguycơbịphạttừphíangânhàngtrungương.
Cuốicùnglàđánhgiárủiro:Sửdụngnguồnphântíchdữliệukháchhàngtrựctuyếnk ếthợpvớicácthuậttoánhọcmáy,trítuệnhântạo,cácngânhàngcóthểcảithiệnq u y trìnhraquyếtđịnh, tăngcườngviệcphòngngừavàđánhgiárủirotronghoạtđộngcủ amình.Vớixuthếpháttriểncủa ngànhngânhàngngàynay,rấtkhóđểcácchuyêng i a d ự đ oá n đ ư ợ c cácxuhướngrủi rocủangành Thêmnữa,thịtrườngtài chính,côngng h ệ cũngnhưkháchhàngngàynaycũngbịtácđộngbởichínhcácthuậntoánhọcmáyv àtrítuệnhântạo,điềunàykhiếnchoviệcđánhgiárủirotrởnênkhókhănhơntrướcr ấ t nhiều.
Mỹđượcđánhgiálàcườngquốcsốmộtthếgiớivềnănglựcpháttriểntrítuệnhânt ạovàhọcmáytrongmọilĩnhvựctừnghiêncứucơbảnđếnứngdụng.Nhữngnămgầnđây, ChínhphủMỹđãcórấtnhiềuđầutưchonghiêncứupháttriểncôngnghệl i ê n quanđếntrítuệnhântạ ovàhọcmáy.Vàongày10/5/2018,TổngthốngTrumpcóc u ộ c gặpgỡvớinhiềucôngty,nhà khoahọctrítuệnhântạohàngđầucủaMỹvàđãtuyênbốthànhlậpỦyban(thuộcHộiđồngK hoahọc và Công nghệ Quốcgia)về thúcđ ẩ y pháttriểntrítuệnhântạotheophươngchâm“nướcMỹtrênhết”,trongđótrọngt â m làgiảiquyếtmấtviệclàmvìtựđộnghóa,chínhphủtăngđầutưứngdụngtrítuện h â n tạo.
N h ữ n g thànhtựuvượtbậccủatrítuệnhântạođãtácđộng đếnmọilĩnhvực,k ể cảngânhàng,trítuệnhântạotrongngânhàngđangngàycàngđượcquantâmvàc hútrọng.
+NgânhàngJPMorganChase:Gầnđâyđãgiớithiệumộtnềntảnghợpđồngt hô ngminh(COiN)đượcthiếtkếđểphântíchcáctàiliệupháplývàtríchxuấtcácđiểmv à điềukhoảndữliệuquantrọng.Hướngdẫn xemxét12.000thỏathuậntíndụngthương mạihàngnămthôngthườngcầnkhoảng360.000giờ.Kếtquảtừviệctriểnkhaibanđầucô n g nghệmá yhọcnàychothấycùngmộtlượngthỏathuậncóthểđượcxemxéttrongv à i giây.EmergingOppo rtunitiesEngineđượcgiớithiệuvàonăm
2015,sửdụngphântíchtựđộngđểgiúpxácđịnhkháchhàngcóvịtrítốtnhấtđểcungcấpvốncổphầ ntiếpt h eo Côngnghệnàyđãđượcchứngminhthànhcôngtrongthịtrườngvốncổphầnvàhi ệnđượcmởrộngsangthị trườngkháclĩnhvực bao gồmthịtrườngvốn nợ.Ngoài rangânhàngdựđịnhsẽchínhthứcgiớithiệucôngnghệtrợlýảotíchhợpgiaodiệnngônn g ữ tựnh iên(đãđượcthửnghiệmthànhcônglầnđầutiênvàonăm2016),đểđápứngcácyêucầucủabànd ịchvụcôngnghệnhânviên.Theobáocáotừphíangânhàng,vàon ă m 2016,ngânhàngđãđầutưhơn 9,5tỷđôlavàocôngnghệ,với3tỷđôladànhchocácsángkiếnmới,vàmộtphần600triệuđôla dànhchocácgiảiphápcôngnghệtàichí nh (Fintech)mớinổi.
+NgânhàngWellsFargo:Trongnỗlựcthúcđẩycáccôngnghệmớinổivàgiúpth ú c đẩysựt ăngcườngcơcấutổchứccủamình,WellsFargođãcôngbốthànhlậpmộtn h ó m giảiphápdoanhn ghiệptrítuệnhântạomới.Nhómtrítuệnhântạodướisựbảot r ợ củanhómthanhtoán,giảipháp ảovà đổimới,cóbamụctiêuchính:tăngkhả năngk ế t nốithanhtoáncủangânhàng,tăngtốccơhộivớitrítuệnhântạovàgiaodiệnlậpt r ì n h ứngdụngtiêntiếnchokháchhànglàngânhàngvàdoanhnghiệp.Sauđó,ngânh àn gđãb ắtđầuthửnghiệmChatbotdotrítuệnhântạođiềukhiểnthôngquanềntảngFacebo ok Messe ngervớivàitrămnhânviên.Trợ lýảonàyliênlạcvớikháchhàngđểcu ng cấpthôngtintàikhoảnvàgiúpkháchhàngđặtlạimật khẩu.Ngânhàngnóirằngh ọ cókếhoạchmởrộnggiaiđoạnthửnghiệmsauđó,tớivàinghìnkhách hàng.
+NgânhàngBankofAmerica: Hướngđếnkỷniệmmộtthậpkỷcủa MobileBa nk in g, tậpđoànngânhàngBankofAmericađãcómộtbướctiếntáobạovàocôngn g h ệ trít uệnhântạovớisựramắtcủamộttrợlýảothôngminhcótênErica.Chínhthứccôngbốtại hộinghịMoney20/20/2016tạiLasVegas,đượcmôtảlàsựkiệnđổimớidịchvụtàichínhvàth anhtoánlớnnhấtthếgiới,Ericalàmộtchatbottậndụngcácp h â n tíchdựđoánvànhắntinnhậnthứ ccủa
Nottđểcungcấphướngdẫntàichínhchohơn45triệukháchhàngcủangânhàng.Làmộtthà nhphầntíchhợpcủatrảinghiệmM o b i l e Banking,Ericađượcthiếtkếđểkháchhàngcót hểtruycập24/7vàthựchiệnc á c giaodịchhàngngày,ngoàiviệcdựđoán nhucầutàichínhduynhấtcủamỗikháchh à n g vàgiúphọđạtđượcmụctiêutàichínhbằngcáchcu ngcấpcáckhuyếnnghịthôngm i n h Năm2016,ngânhàngchi3tỷđôchocảitiếncôngnghệvàđâycũ nglànămngânhàngcólợinhuậncaothứhaitronglịchsử.Vớisựđầutưliêntụcvàchiếnlư ợcvàoc ô n g nghệ,trítuệnhântạo,ngânhàngđãsẵnsàngđểtiếptụctăngtrưởngkỷlục.
+Ngânh à n g C i t i B a n k : Nhằmđạtđ ư ợ c lợit h ế c ạ n h tranht r ê n thịtrường,
C i t i b a n k đ ã thiếtlậpthànhcôngcácmốiquanhệđốitácsángtạovớicáccôngtycôngnghệtiêntiếnđểmởr ộngvàcảithiệndịchvụcủamình.Thôngquacáchđầutưvàmual ại , CitiVentures,ngânhàngc ómộtmạnglướitoàncầugồmcáccôngtycôngnghệt h a m giavào6phòngthínghiệmđổimớ itoàncầucủaCiti.Trongdanhmụcđầutưkhởinghiệp,sựchúýđặcbiệtđãđượcdànhchothươngmại điệntửvàanninhmạng.Thông
26 quaCitiVentures,CitiBankđãđầu tưchiếnlượcvàoFeedzai,mộtdoanhnghiệpkhoah ọ c dữliệuhàngđầutoàncầuhoạtđộngtrongt hờigianthựcđểxácđịnhvàxóabỏgianl ậ n trongtấtcảcácconđườngthươngmạibaogồmngânh àngtrựctuyếnvàtrựctiếp.T h ô n g quaviệcđánhgiáliêntụcvànhanhchóngmộtlượnglớndữliệu ,Feedzaicóthểtiếnhànhphântíchquymôlớn.
Hoạtđộnggianlậnhoặcnghivấnđượcxácđịnhvàkháchhàngnhanhchóngđư ợccảnhbáo.Dịchvụnàycũnghỗtrợcácnhàcungcấpthanhtoánvànhàbánlẻtrongv i ệ c giámsátvàbả ovệhoạtđộngtàichínhliênquanđếncáccôngtycủahọ.Đểngănchặngianlậnvàgiámsátcácmố iđedọatiềmẩnđốivớikháchhàngtrongthươngmại,F e e d z a i sửdụnghệthốnghọctậpdựatrê nmáycủaGoogleđểđánhgiáphântíchdữliệukháchhàngtrựctuyếntrênmạngvàcáchoạtđộ nglừađảo.Các khoảnđầutưkháccủ a CitiVenturesvàocáclĩnhvựctrítuệnhântạobaogồmClarityMoney,gần đâyđãc ô n g bốvòngcấpvốnSeriesBtrịgiá
11triệuUSDdoRREVenturesvàCitiVenturesd ẫ n đầu.ỨngdụngClarityMoneythúcđẩyk háchhàngthamgiacácdịchvụcủabênt h ứb a c ó t h ể c ả i t h i ệ n s ứ c k h ỏ e t à i chính.L u i s V a l d i c h , Giámđ ố c đ i ề u h à n h C i t i Ventures,đãtuyênbốhợptácvàotháng1/2017.
+NgânhàngBankofNYMellonCorp:Tổchứctàichính233tuổinàyđangcungc ấ p dịchvụngâ nhàngtrêncácrobot,hệthốngtựđộnghóaquytrìnhrobot(RPA)đặcb i ệ t làrobot,đểcảithiện hiệuquảcủahoạtđộngvàgiảmchiphí.RPAtíchhợptrítuện h â n tạovàđượcthựchiệnkhôn gphảibởirobotvậtlýmàbằngcácứngdụngphầnm ề m Các ứngdụngnày,đượcgọilàrobotwebhoặcbotInternet,đượclậptrìnhđểxửl ý cáctácvụtựđộng.V àotháng5/2017,ngânhàngthôngbáorằngtrong15thángqua,c ô n g tyđãtungrahơn220botđư ợcpháttriểnbởiBluePrismđểxửlýcácnhiệmvụthườnglặpđilặp lạitrongtựnhiênvàthườngđượcnhânviênxửlý.BNYMellonbáoc á o rằngviệctriển khaiRPAđã dẫnđếncáckếtquả sau:độchínhxác100%trongxácn h ậ n đóngtàikhoảntrên5hệthống;cảithiện88%thờigianxửlý
;cảithiện66%trongt h ời gianquay vòng thươngmại;sựhòa giải chomộtgiaodịchthất bạiđượcthựchiện ẳgiõybởirobotsovới5-
10phútdomộtconngườithựchiện.Từgócđộtàichính,tậpđ o àn ướctínhrằnghoạtđộngcủac ácbotchuyểntiềncủamình,mộtmìnhchịutráchn h i ệ m cho300.000USDtiềntiếtkiệmhà ngnăm.Nhữngrobotnàycắtgiảmthờigiann h â n viêndànhxửlýthanhtoánvàgiảiquyếtcáclỗ idữ liệu.Ngoàiviệctănghiệuquảv à giảmchiphí,trongbáocáothườngniênnăm2016củahọ,cạ nhtranhtrongngànhđượcnhấnmạnhlàmộtlýdokhácđằngsauviệcngânhàngtăngcườngtíc h hợpcôngn g h ệ AI.
Tại Nhật Bản,mộttrong nhữngquốcgialuônđi đầutrongứngdụngcôngnghệm ới,đãquyếtđịnhdùngtrítuệnhântạođểgiámsáthoạtđộng củathịtrườngtừnăm2 0 1 6 SàngiaodịchchứngkhoánTokyođangcó15nhânviênchuyê nlàmnhiệmvụg i á m sátthịtrường.Tuynhiênsốlượngcácgiaodịchchứngkhoánngàycàngtăngkhiến c h o việcgiámsát nàycàngtrởnênkhó khănhơn.Sốlượngcác giaodịchchứngkhoánđ ã lêntới95triệugiaodịch/ngày,gấp10lầnsovớicáchđây5năm.V
27 iệcđưatrítuện h â n tạovàohỗtrợcôngtácgiámsátthịtrườngsẽgiúpchotốcđộxửlýcô ngviệc nhanhhơngấp20lầnsovớihiệnnay.SàngiaodịchchứngkhoánTokyosẽtrởthànhs àn chứn gkhoánđầutiêntrênthếgiớiứngdụngtrítuệnhântạo.
TrítuệnhântạocũngđượcNhậtBảnứngdụngtrongngànhbảohiểmvàngânh àn g NgânhàngTokyoramắtứngdụngtrênđiệnthoạithôngminhcótênlàMAI,mộtt r ợ lýảosẵnsànggiải đápthắcmắcchokháchhàng.TạingânhàngMizuho,100robotP e p e r cótrítuệnhântạođểchăms óckháchhàng.Việctrảlờiđiệnthoạiởtổngđàitrongtươnglaisẽđượcgiaohếtchotrítuệnhântạokhin gân hàngSumitomoMitsuibắtđầus ử dụngtrítuệnhântạotronglĩnhvựcnày.CôngtybảohiểmSo mpobắtđầusửdụngt r í tuệnhântạotạitổngđàihỗtrợkháchhàngtronglĩnhvựcbảohi ểmôtô.Thôngthườngmỗicuộcgọisẽmấttừ15-20phútđểgiảiquyết,nhưng vớitrítuệnhântạochỉm ấ t 2-
3phút.Trongtươnglai,toànbộtổngđàichămsóckháchhàngcủacôngtynàys ẽ dotrítuệnhân tạođảmnhiệm.
TạicácnướcchâuÂu,phầnlớncáccôngtykhởinghiệptrítuệnhântạovàcáccô n g tyđ ượcthànhlậpdườngnhưtậptrungquanhVươngquốcAnh,Đức,PhápvàHàL a n Ngànhtàichí nhmạnhmẽtronglịchsửởAnhvàsựtồntạicủacáctrườngtrítuện h â n tạocóuytínđãbiếnnót hànhmộttrungtâmchocácứngdụngtrítuệnhântạotrongngânhàngvàtài chính.ChínhphủcácnướcchâuÂucũngđangđầutưpháttriểnhệ sinhtháitrítuệnhântạovàđà otạonhântàivậnhànhcôngnghệnày.Chẳnghạn,c h í n h phủAnhđãcôngbốThỏathuậ nlĩnhvựctrítuệnhântạo,trongđókhoảng50d o a n h nghiệpcôngnghệhàngđầuđãđón ggópvàoquỹ1tỷbảngAnh(1,3tỷUSD),baogồm300triệubảngđầutưkhuvựctưnhânmớiv àđàotạohơn8000nhàkhoahọcm á y tínhvà1.000tiếnsĩvềtrítuệnhântạo.
HọcmáyứngdụngtrongMarketing
Cánhânhóadịchvụkháchhàng:Sựủnghộnhiệttìnhvàhiệuquảtừkháchhàngs ẽ củngcốuytí nthươnghiệucũngnhưsựhàilòngcủahọ.Dođócònđiềugìtuyệtvờih ơ n cơhộicảithiệndịchvụk háchhàngtrongkhicắtgiảmđángkểchiphí?
CôngnghệCh at b o t rađờidựatrênnhữngtiếnbộgầnđâytrongxửlýngônngữtựnhiênvàthu ậtto án đãcókhảnăngvậnhànhtốthơnsovớiconngười.TheodữliệuđượcbiếttừAspectC o n su m er ExperienceIndexvàonăm2016,nhữngtiếnbộtrongcôngnghệChatbotđãc h u y ể n sựưutiên của44%ngườitiêudùngởMỹsangsửdụngnhữngtrợlíảo.Cácd o an h nghiệpnhưDigital Geniusđãtăngcườngcácthôngtinhỗtrợkháchhànghiệncóbằng mộtphầnmềmthôngminhđềxuất nhữngcâutrảlờimàngườitacóthểchấpnhậnhoặcchỉnhsửanótrướckhigửi.Cácứngdụngđượctă ngcườngtríthôngminhnàychop h é p ngườitagiảmthiểuđượcnhữngrủirophátsinhlỗiđồngthờiđ ượcsửdụngtạicáccôn g tydosựnhạybéncủanóđốivớichiphíphátsinhlỗitrongquátrìnhgiảiđápt hắcmắctừkháchhàng.
Tăngt ố c d ữ l i ệ u v à dựđ oá n p h â n t í c h c á c môhình:N h ữ n g lãnhđ ạ o d o a n h n gh iệp thườngnhấnmạnhtầmquantrọngcủamarketing,doanhsốvàquyếtđịnhđầutư.Tu ynhiên,nhậnđượcthôngtinchitiếttừdữliệusửdụngcácphươngphápmôhình
28 hóadữliệutruyềnthốngthườngmấtkhoảngvàituần.Nhữnggiảiphápvềphântíchk i n h doanhvàdựđoánbằngcôngnghệtrítuệnhântạohiệntạiđãgiảiquyếtvấnđềnàythôngquagiaodi ệntựđộnghóachophépnhữngkháchhàngkhôngamhiểuvềcôngnghệcũngcóthểtiếpnh ậnđượcnhanhchóngcáchìnhmẫuvànhữngdữliệuhữuíchb ê n trong.NềntảngWatsonIBM dựatrênmáytrảlờicâuhỏicủaWatsonlàmộttrongnhữnggiảipháphữu hiệunhấtcho phépkhách hàngcóthể nhậnnhữngcâutrảlờidựat r ê n nhữngdữliệucâuhỏivềmọikhíacạnhtronglĩnhvựckinhdo anhnhưdoanhsố,tà i chính,nguồnnhânlựcvàmarketing.Tíchhợptiênđoánphântíchcóth ểgiúpchon h ữ n g nhàquảnlýtậndụngtốtcácsiêudữliệutronghoạtđộngkinhdoanh.
Nângcaochấtlượngquảnlýnhânlực:Mộtvấnđề nangiảinếuphảiphâncôngđú ngngườivàovịtrícôngviệcphùhợpvớihọđặcbiệtlàvớin hữngngườiquảnlýn gu ồnnhânlựckhihọphảitiếpnhậnhàngngànhồsơxinviệc.Đôilúcvẫnc ósựthiênvịngầmxảyratrongquátrìnhphỏngvấnxinviệcvàdođónhữngứngviêncótiề mn ă n g cóthểkhôngđượccácnhàtuyểndụngđểmắtđến.TácgiảcủaquyểnsáchRobotIsTheB oss,ArturKiulian,chobiết:“Nhữnggiảiphápvềhọcmáyvàkhaithácdữliệut ự độngcóthểgópphầ nthúcđẩychiếnlượctuyểndụngquaviệchỗtrợcácchuyêngiavềnhânsựnhậnxácđịnhđượcnhữn gứngcửviêntiềmnăngchobịtrícôngviệcvàdođ ó làmgiảmđitínhchủquancũngnhưnhữngquyết địnhsai”.
Tựđộnghóaquytrìnhmarketing:Nhữnggiảiphápvềcôngnghệtrítuệnhântạoh ứ a hẹnsẽt ựđộnghóacácchiếndịchmarketingchẳnghạnnhưkiểmsoátcácemailquảngbá.Cácn hàtiếpthịcóthểchútrọngđềxuấtthêmnhữngýtưởngsángtạothayv ì thựchiệnnhữngtácvụđơ nhoặclặplại.Nhữngcôngtyvềcôngnghệtrítuệnhântạon h ư Marketođãchàobánhệthốnghỗtr ợtrítuệnhântạophụcvụchocácchiếndịchmarketingthuhútkháchhànghữuhiệuhơnnhờvào hệthốngphântíchtiênđoán,cungc ấ p dựbáodoanh số,nhậndiệnkháchhàngtiềm năngcũngnhưdựđoán vềhoạtđộngngườitiêudùng.NhữngtiệníchđựatrênnềntảngđiệntoánđámmâynhưLUCYcóthểh ỗ trợthựchiệnnghiêncứumarketingchuyênsâunhờvàothuậttoánhọcmáytruyxuấtranhữngchiếnl ượcmarketinglinhhoạtvàhìnhmẫuchocácthịtrườngđích.
Nhanhchóngtìmrahànhvigianlận:Gianlậntronggiaodịchcóthểdẫnđếnnh ữn gtổnthấttolớnchohoạtđộngkinhdoanh.Nhữngphươngphápbảomậttruyềnt h ố n g vẫn hữuíchvềbảovệmạnglướivàcáckênhthôngtinliênlạcnhưngvềviệcp h ò n g chốnggi anlậnvàcáchànhvimờámnhưthếnào?
Nhữngthuậttoánnhậnbiếth i ệ n đạiđãtậndụngsứcmạnhcủamachinelearningnhằmnhậndạng đượccáchànhvig i an l ận tronggiaodịchmuabán.Giảipháp bảomậtbằng thuậttoánnàychophépcácd o an h nghiệpnhậnbiếtđượcnhữngthươngvụgiaodịchđángngờgiữac áccánhânhayc á c doanhnghiệpliêndoanhliênkếtđểkịpthờingănchặntaytrongtạicôngty cũngn h ư kinhdoanhnộibộ.
HọcmáyứngdụngtrongThươngmạiđiệntử
Thứnhất,ứngdụngtrongcôngcụtìmkiếm:Cácdịchvụtìmkiếmcóthểứngd ụ n g t rítuệnhântạođể“dựđoán”mục đíchcủangườisử
29 dụngkhithựchiệntìmkiếmvớimộtcụmtừkhóalạ.MộthệthốngphổbiếnđangđượcGoogleđan gtriểnkhaihiện naylàRankBrain.Thôngquahọcmáy,RankBraincóthểdịchtừvàchuyểnthểcụmtừchưabaogi ờnhìnthấyđósangmộttừquenthuộccóýnghĩatươngtự.
Thứhai,ứngdụngtrongxácđịnhkháchhàng mục tiêu:Vớitrítuệnhântạovàhọcmáy,cáccôngtycóthểdựavàophântíchdữliệukháchhàngtrựctuyế nvớidữliệul ớn (BigData)đểphânloạikháchhàngvàocácnhómkhácnhaudựatrênthôngtinnhânk h ẩ u học,sảnphẩmtừngmua,hànhvingoạituyếnvàlịchsửduyệtwebtrựctuyến.Vớitrí tuệnhântạo,c ácchuyêngiamarketingcóthểxácđịnhđượcthờiđiểmmàkháchhàngsẽtrảiquanhữn gsựkiệnlớntrongcuộcsống,thờigianmàhọcóthểsẽthayđổithóiquenmuasắmcủamình.
Thứba,ứngdụngtrongxâydựngvàpháttriểnmốiquanhệvớikháchhàngtiềmn ăn g Mộtứ ngdụngkháccủatrítuệnhântạotronghoạtđộngmarketingđólàviệcsửd ụ n g h ệ thốngbánhàngtựđộngứngdụngtrítuệnhântạođểgiaotiếpvớikháchhàngti ềm năngcủac ôngty.Cáccôngtycóthểthuthậpđượcthôngtinliênlạc,giớithiệut í n h năngcủasảnphẩmv àbỏquanhữngkháchhàngkhôngtiềmnăng.
Vídụ,Conversicavớihệthốngbánhàngtựđộngsửdụngngônngữ tựnhiênđểg ử i emailvàtròchuyện,tạocảmgiácnhưconngườiđíchthực.Khihệthốngn àyđãcungcấpthôngtinchokháchhàngvàxácđịnhlàkháchhàngtiềmnăng,nósẽkếtnốiđ ến nhânviênbánhàngđểchốtgiaodịch.Cáccungcấpgiảiphápsốcungcấpchocáckháchhàngtrả inghiệmcánhânhóathôngquamộtdạngtrítuệnhântạođượcgọilàg i a o diệnkháchhàn gthụđộng.Phươngphápnàythuthậpliêntụcdữliệuhànhvitừthiết bịcủakháchhàng,sử dụnghọcmáyvàtrítuệnhântạođểchọntrảinghiệmphùh ợ p vớinhucầuvàmongmuốncủa kháchhàng.Spotify’sRunning,làứngdụngđiểnhìnhchogiaodiệnkháchhàngthụđộng Ứngdụngnàythuthậpdữliệutheodõitậpluyệntừđiệnthoạikháchhàngđểchọnnhạccónhịp phùhợpvớitốcđộngườichạy.
Thứtư,ứngdụngtronghoạtđộngbánhàng:Trítuệnhântạovàhọcmáycóthểchophépcá cwebsite gợiýcácsảnphẩmphùhợpvớinhucầuhoặcchophéptìmkiếmsản phẩmbằnggiaotiếphaybằ nghìnhảnhgiốngnhưgiaotiếpvớingườibánhàngt r o n g thựctế.Theothốngkêvàdựb áocủaAccenture,ứngdụngcủatrítuệnhântạotr on gngànhbánbuônvàbánlẻsẽchạmmức 59%vàonăm2035
Thứn ă m , ứ n g d ụ n g t r o n g chươngtrìnhq u ả n g c á o t ự đ ộ n g ( P r o g r a m m a t i c A d v e r t i s i n g ) Bêncạnhứngdụngtronghoạtđộngnghiêncứukháchhàng,bánhàng vàcông cụtìmkiếm,cáccôngtycóthểsửdụngnhữngthếmạnhcủaquảngcáocómáyt í n h h ỗ trợ( c o m p u t a t i o n a l advertising) – c h u ỗ i t h u ậ t t o á n ch o p h é p cá c c h u y ê n giamarketingcungcấpquảngcáovàođúngthờiđi ểm,dựavàonhữngyếutốnhưthôngtinn h â n khẩuhọc,thóiquentronghoạtđộngtrựctuyếnvànhữ ngnộidungmàkháchhàngx e m khiquảngcáoxuấthiện.
ImageAdvertising)vàlọccộngtác (collaborativefiltering).Trítuệnhântạovàhọcmáyđược ứngdụngtrongquảngc á o hìnhảnhđểmangđếnnhữngmẫuquảngcáophùhợptrongtừngtrư ờnghợpcụthểd ự a t r ê n côngnghệhọcmáyvớimộtchuỗithuậttoánthôngminhxửlýthôngtintheoc á c h tươngt ựnhưnãobộcủacon người.Vídụ:GumGum, côngtyquảngcáocủaMỹ
30 đãthiếtlậpcôngnghệtrítuệnhântạocủamìnhnhậnbiếttấtcảcácloạivậtthể,conngười, màusắc,chủđề vàlogonhãnhàngbằngcáchđưahàngtriệuhìnhảnhđượcdánnhãnvàohệthốngthầnkinh.Vớ icáchlàmnày,côngnghệnàycóthểđặtmộtquảngc á o thíchhợpvàomỗibứcảnh.Bêncạnhđ ó,cácnhàbánlẻtrựctuyếncóthểứngdụngtrí tuệnhântạoquaviệccungcấpcácsảnphẩmđềnghịthôn gquahệthốnglọccộngtác(collaborative filtering)đểliênkếtnhữngkháchghéthămwebsitevới kháchhàngkháccócùngnhucầu.
Thứbảy,ứngdụngtronghoạtđộngđịnhgiásảnphẩm.Bêncạnhviệcứngdụngt r o n g các hoạtđộngxâydựngvàpháttriểnmốiquanhệkháchhàng,tronghoạtđộngquảng cáo vàxácđịnhkháchhàng mụctiêu.Cácchuyên giamarketing còncóthểứngdụngtrítuệnhântạotronghoạtđộngđịnhgiá.Cụthể,dựavàonhữnggìkháchhàngsẵns à n g trảchosảnphẩmtronghoàncảnhtươngtựởquákhứ,cácdoanhnghiệpvàcácch uy ên giamarketingcóthểsửdụnghọcmáyđể đặtgiátốtnhấtchohànghóavàdịchvụcủangườibánởbấtkìthờiđiểmnào.Mộttrongnhữngvídụđi ểnhìnhcủaứngdụngc ủ a trítuệnhântạotrongđịnhgiátựđộngchocáctrườnghợpthayđổilàt rườnghợpđ i ề u chỉnhgiábántrênAmazonMarketplacechongườibánđảmbảoviệctốiưuhóalợin h u ậ n nhưngvẫnduytrìsứcmạnhcạnhtranhvớicácđốithủ.Googlecũnglàmộttrườngh ợp điểnhìnhkhá ctrongviệcsửdụngtrítuệnhântạotrongđịnhgiábằngviệctựđộngđ i ều chỉnhsốtiềnnhỏnhấtmột nhàxuấtbảnđồngýchitrảchomộtlượttruycậpquảngcáo , dựavàochiphíngườimuađãtrảchomộts ảnphẩmtươngtự.
VAITRÒCỦAPHÂNTÍCH DỮLIỆUKHÁCH HÀNG
Quanhệ kháchhàngtrongkinhdoanh
Tạoravàquảntrịquanhệkháchhàngcánhâncóthểthấtbạinếukhôngcócáct h à n h tốk hôngthểthiếulànhậndiệnkháchhàng,phânbiệtkháchhàng,đảmbảoanto àn thôngtink háchhàng.Nhữngthànhtốnàydựatrênsựduynhất,cábiệtkháchhàngv à đặcđiểmlặplạicủaquanhệ vớikháchhàng.
Nhậndiệnkháchhàng:Quanhệchỉhìnhthànhvớikháchhàngcánhân,khôngph ải th ịtrường,bộphậnhaytậpthể.Dođó,nhiệmvụđầutiêntrongviệcthiếtlậpmộtquanhệlànhận diệntừngkháchhàng.
Phânbiệtkháchhàng:Biếtđượcsựkhácnhaucủakháchhàngchophépdoanhnghiệ ptậptrungcácnguồnlựcvàokháchhàngnàomanglạigiátrịnhiềunhất,vạchrach i ến lượccábiệt kháchhàngcụthểhoànchỉnhnhằmthỏamãnnhucầukhácnhaucủak h á ch hàng.Phânbiệtkhách hàngliênquanđếnviệcphân loạikhách hàng theogiátrịv à theonhucầu.
Tươngtácvớikháchhàng:Doanhnghiệpphảicảithiệnhiệuquảcủatươngtácv ớ i khá chhàng.Mỗitươngtácthànhcôngnênđặttrongbốicảnhtấtcảnhữngtươngtácl ị c h sửđãxảyra.Tươ ngtáchiệuquảgiúpdoanhnghiệpnhìnthấunhucầucủakháchh à n g
- Xácđịnh:Quyếtđịnhthôngtinnhậndiệnkháchhànghiệntại(tên,địachỉ,sốđiệntho ại,sốtàikhoản,thôngtinhộgiađình).Kháchhàngcóthể dùngnhiềutênkhácn h a u , cóthểlàhọ,tênlót,têntàikhoảnnênvấnđềlàxácđịnhđượctàikhoảndu ynhất.
- Thuthập:Cơchếthuthậpnhữngđặcđiểmnhậndạngcóthểthôngquamỗik h á c h hàngthườngxuyên,dữliệuthẻtíndụng,đơntừ,tươngtáctrênweb,bảngcâuh ỏ i ,
- Liênkết:Liênkếtcácđặcđiểmnhậndạngcủakháchhàngvớitấtcảcácgiaod ị ch , tư ơngtáckháchhàngđểthựchiệntạitấtcảcácđiểmtiếpxúcởcácđơnvị,bộphậnkhácnha ucủadoanhnghiệp.
- Hộinhập(Tíchhợp):Nhậndạngkháchhàngkhôngchỉcầnđượcliênkếtvớitấtcảc áctươngtác,giaodịchmàcònphảiđượctíchhợpvàohệthốngthôngtindoanhnghiệpsửdụngđể điềuhànhhoạtđộngkinhdoanh.Chẳnghạnnhữngđặcđiểmnhậnd i ệ n kháchhàngthườn gxuyêncủamộtkháchhàngkhôngcầnđượctíchhợpvàohệthốngdữliệuđặtchỗbay
- Nhậnra:Kháchhàngmualạicầnđượcnhậnratạimọiđiểmtiếpxúc.Chẳngh ạ n kh áchhàngdạotrênwebsite,tớicửahàng,gọiđếntrungtâmdịchvụkháchhàngv à o nhữngthờ iđiểmkhácnhaucầnđượcnhậnralàcùngmộtngười chứkhôngphảilàn hữ n g sựkiệnhaycánhânriêngrẽ.
- Cập nhật:Mọidữliệukhách hàngbao gồmdữliệu nhậndiện là đốitượng cầnphảiđượckiểmduyệt,cậpnhật,hoànthiệnhoặcxemlạithườngxuyên.
- Phântích:Cácđặcđiểmnhậndiệnkháchhàngphảilàyếutốchínhđểphântíchnhữngkhác biệtgiữakháchhàngcánhân.Dựavàonhữngthôngtinđóđểnhậnđịnhn h u cầuvàhànhvi kháchhàngtrongtươnglai.
- Tạosựsẵnsàng:Dữliệucácđặcđiểmnhậndiệnkháchhàngtrêncơsởdữliệuphảisẵncóc honhânviên,cácbộphậnchứcnăngtrongdoanhnghiệpkhicầntruycập. Đặcbiệttrongtổchứcdịchvụ,nhữngthôngtinnhậndạngkháchhàngcánhâns ẵ n cóc hobộphậntuyếnđầurấtquantrọng.Máytínhgiúpdoanhnghiệpmãhóa,tậph ợ p , lọcvàphânl oạithôngtinkháchhàng.Lưutrữthôngtinnhậndiệndướidạngdễt i ếp cậnlàcốtyếuđểthành công. Đảmbảoantoàn:Thôngtinkháchhàngcánhânrấtnhạycảmmangtínhcạnht r a n h vàảnhhưởngđếnsựriêngtưcủakháchhàngnêncầnđượcbảovệnghiêmngặtn h ằ m ngăncả nviệcsửdụngtráiphép.
Vaitròcủabàitoánphântíchdữliệukháchhàng
Đểthànhcôngvàpháttriển,mộttổchức,doanhnghiệpcầncókhảnăngtiếpthu,g i ữ chân,thỏ amãnvàthuhútkháchhàngcủahọmộtcáchhiệuquả.Phântíchdữliệukhách hàng(Customer Analytics)rấtquantrọng đểđánhgiátổchức,doanhnghiệpđãt h ự c hiệnviệcnàyvàcókhảnăngpháttriểncũngnhưhỗtr ợcácchiếndịchkhácnhưt h ế nào.Thôngthườngbàitoánphântíchdữliệukháchhàngbaogồm:
Thứn h ấ t l à p h â n t í c h đ ể p h á t h i ệ n s ự h à i l ò n g c ủ a k h á c h h à n g ( C u s t o m e r satisfactionanalysis).Nhữngkháchhànghàilòngvớisảnphẩmhoặcdịchvụ củatổc h ứ c , doanhnghiệpcónhiềukhảnăngsẽmualạihaytrởthànhkháchhàngthânthiết.P h â n tíchsựhàilòngcủakháchhànglàquátrìnhđánhgiáxemkháchhàngcónhậnđược nhữnggìhọmuốnvàmongđợitừtổchức,doanhnghiệp,sản phẩmhoặcdịchvụh a y không? Kháchhàngcóhàilònghaykhônghàilòng.
Thứhai là phân tích đểđánh giá giá trịtrọnđờicủa khách hàng đối vớitổchức,d o an h nghiệp(Customerlifetimevalueanalytics).Phântíchgiátrịtrọnđờicủa kháchhànglàquátrìnhphântíchgiátrịcủakháchhàngđốivớidoanhnghiệptrongtoànbột h ờ i giancủamốiquanhệgiữakháchhàngvàtổchức,doanhnghiệp.Thayvìnhìnvàolợinhuậngi aodịch,thìtổchức,doanhnghiệpsẽnhìnvàothờigiankháchhàngcókhản ă n g ởlạicủakháchh àng,tầnsuấthọcóthểmuatrongkhoảngthờigianđóvàdođóh ọ cógiátrịnhưthếnàotrongkhu ngthờigianđó.Điềunàychophéptậptrungchúýt i ế p thịvàocáckháchhàngcógiátrịnhất.H oànthànhtốt,phântíchnàycũngcókhản ă n g xácđịnhcáccáchđểtăngthờigiancủamốiquanh ệvàgiátrịcủakháchhàng.
Thứbalàphântíchđểphânloạihoặ c phânnhómkháchhàngtheomụcđích (Customersegmentationanalytics)hayphân khúc kháchhàng Phântíchphânkh úc kháchhànglàquátrìnhtìmkiếmcácnhómhoặcphânkhúctrongthịtrườngtổngthể.C ó thểđá nhgiákháchhàngcủatổchức,doanhnghiệpvàchiahọthànhnhiềuphânkhúck h ác nhaucóthểmuanhi ềusảnphẩmhơnmộtsảnphẩmkháchoặcmuathườngxuyênh ơ n chophéptổchức,doanhnghiệpcó thểđiềuchỉnhcácnỗlựctiếpthịvàtruyềnthôngc ủ a mình.MạngInternetlàmộtnguồndữliệuk háchhànghữuích,giúpcáctổchức,d o a n h nghiệpxácđịnhcácphânkhúcrõràngbằngcác hkhai thácdữliệu vàphân tíchv ă n bảnlànhữngcôngcụhữuíchchoviệcnày.
Thứtưlàphântíchdữliệutừkênhbánhàngkhácnhaunhằmlựachọnthịtrườngvàđưarachiến lượckinh doanhchotổchức(Saleschannelanalytics).Phântíchkênhb á n hànglàxemxéttấtcảcáccách khácnhaumàtổchức,doanhnghiệpphânphốisảnphẩmchothịtrườngcủamìnhđểxemkên hnàohiệuquảnhất,chophépsửdụngtốtn h ất cáctàinguyêncủamình.Đểphântíchnày,tổch ức,doanhnghiệpcầnxácđịnhtấtcảcáckênhbánhàngmàhọhiệnđangsửdụnghoặccóthểsửd ụng,sauđóquytừngd o a n h sốchomộtkênhvàtrừchiphíbánhàngcóliênquanchomỗikênh.
Thứnăm,phântíchdữliệutừcácphươngtiệntruyềnthôngxãhộinhằmhỗtrợcácchiế nlượckinhdoanhvàmarketing(Socialmediaanalytics)củatổchức,doanhn g h i ệ p Phântíchphươngtiệntruyềnthôngxãhộilàquátrìnhthuthậpvàphântíchdữliệutừphươngtiệ ntruyềnthôngxãhộiđểxemkháchhàngđangnóigìvềsảnphẩm,dịchvụ,thươnghiệuhoặcc ôngty.Trongphântíchphươngtiệntruyềnthôngxãhội,dữl i ệ u vănbảntừcácbàiđăngvàblogtrênph ươngtiệntruyềnthôngxãhộiđượcthuthậpvà khaithácchonhữnghiểubiếtcóliênquanvềm ặtthươngmạibằngcáchsửdụngp h â n tíchvănbảnvàphântíchtìnhcảm.
Thứsáu,phântíchsựthamgiacủakháchhàngvàocácchươngtrình,chiếnlượcc ủ a tổchức,doanhnghiệpđểđánhgiásựthànhcôngcủacácchiếndịch(Customerengageme ntanalytics).Phântíchsựthamgiacủakháchhànglàmộtlĩnhvựcpháttriểnn h a n h chóng,nơicáct ổchức,doanhnghiệpđangcốgắnglậpbảnđồtoànbộhànhtrìnhtươngtáccủakháchhàngtrựctuyếnv àngoạituyến.Vềcơbản,đólàquátrìnhđánhgiám ứ c độ(hoặcnóicáchkhác)thuhútkháchhàngcủa tổchức,doanhnghiệpvớicácsảnphẩm,dịchvụhoặcthươnghiệuthôngquacáctươngtáckh ácnhaunày.Cáccáchđolườngsựthamgiacủakháchhàngbaogồmkhảosátvàphântíchph ươngtiệntruyềnt h ô n g xãhội.
Dữliệukháchhàng
Dữliệukháchhànglàbấtkỳloạidữliệunàomàtổchức,doanhnghiệpsởhữuchobiết kháchhàngđangsửdụngsảnphẩmhoặcdịchvụnhưthếnào? tươngtácvớithươnghiệucủatổchức,doanhnghiệprasao?
Cácdữliệuvềkháchhàngcóthểcungc ấ p cácthôngtinhữuíchvềnhucầu,mongmuốn,cảmxúc,tr ảinghiệmcủakháchhàngđ ố i vớitừngsảnphẩm,dịchvụmà tổchức,doanhnghiệpcungcấp.
Thứnhấtlàdữliệugiaodịch:Đâylàdữliệuthuđượctrongquátrìnhtraođổig i ữ a tổ chức,doanhnghiệpvàkháchhàng,thườngthuthậpđượctừcácgiaodịchbán lẻ,giaodịchtrựctuyến,thôngtinvềsảnphẩm,hànghóa,dịchvụmàkháchhàngđãmua, sửdụngvàquantâm.Thườngmôtảvềtênsảnphẩm,tầnsuấtsửdụng,khốilượng,m ứ c độ,…
Thứhailàdữliệuvềthôngtinkháchhàng:nhưcácthôngtincánhân củakháchh àn g , t ìn h trạng hônnhân, độtuổi,giới tính,thunhập,nghềnghiệp, …cácdữ liệunàythườngthuthậpđượctừcácbiểumẫuđăngký,cácđợtphỏngvấn,khuyếnmãi,… hoặcc á c điềutravềkháchhàngđểhọđưaracảmnhận,đánhgiá,suynghĩvềsảnphẩm,dịchv ụ củatổ chức,doanhnghiệp
Thứtưlàdữliệuvềsảnphẩm,dịchvụhoặcloạihànghóamàkháchhàngđãmua,đãtrảinghiệmn hưthôngtinvềkháchhàngđãsửdụngsảnphẩmđó,cảmnhậncủahọ,đánhgiácủahọ,trảinghiệmn hưthếnào?…
Thứnămlàdữliệuhànhvicủakháchhàngtrêncácphươngtiệntruyềnthôngxãh ộ i nhưmạ ngxãhội,cácwebsitebánhàng,cáccổngthươngmạiđiệntử,cáckênht r u y ề n thông điệntử.Dựatrênhọcmáyvàtrítuệnhântạo,cáctổchức,doanhnghiệpc ó thểtheodõihànhvik háchhàngnhưlượtghéthăm,sốlầnnhấpchuột,cácýkiếnvàq u a n đ i ể m vềsảnphẩmdựa trêncácwebsitehoặccácnềntảngxãhội,cácchủđề,cáct i ntức,…
Cuốicùnglàdữliệutraođổiphảnhồicủakháchhàngthôngthườngdướidạngcácem ail,cácvănbản,cácđoạnphântíchnhưbìnhluậntrêncácdiễnđàn,cácphảnhồit r ê n w e b s i t e , c á c email gửi chotổchức,doanhnghiệp,cácbiểumẫukhảosátđánh giácủ a tổchức,doanhnghiệp,…
Cácdữliệucủakháchhàngsaukhiphântíchcóthểđưarađượccácthôngtinh ữ u íchn hưthôngtincánhâncủakháchhàng,chitiếtliênhệcủakháchhàng,tìnhhìnhcu ộ c sống,thunhậpc ủakháchhàng,sởthíchcủakháchhàng,quanđiểmvàphảnhồicủakháchhàngvềsảnphẩm,dị chvụ,giátrịmàkháchhàngđemlạichotổchức,doanhn g h i ệp , …
BÀITOÁNPHÂNLOẠIKHÁCHHÀNGTRỰCTUYẾNTHEOCHỦĐỀ.343 3 CÁ CHƯỚNGTIẾPCẬNCỦABÀITOÁN
Phântíchdữliệukháchhànglàcácquytrình,cácphươngpháp,cáccôngnghệđượcứn gdụngđểnắmbắt,tríchxuấtnhữngtrithức,nhữngthôngtinhữuíchtiềmẩnt r o n g dữliệukhá chhàngcủatổchức,doanhnghiệp.
Mụcđíchchínhcủaphântíchdữliệukháchhànglàtạoracáinhìnchitiếtvàchín hxácvềkháchhàngđểtổchức,doanhnghiệpứngdụngvàocáckếhoạch,cácchiếnlượckinhdoanhngắn hạnvàdàihạnphùhợp,hiệuquảnhằmthuhútnhiềukháchhàngv à giữchânkháchhànglâudài.
Mộtquytrìnhphântíchdữliệukháchhàngthườngcóbagiaiđoạngồm:Tìmhiểu kháchhàngcủatổchức,doanhnghiệp;Phântíchdữliệuvàphânkhúckháchhàngv àcuốicùnglàxá cđịnhcác chiếndịchmarketing,cácchiếnlượcbánhàng,cácchiếnlượcgiớithiệusảnphẩmmớiđếntừngp hânkhúckháchhàng.
Bàitoánphântíchdữliệukháchhàngtrựctuyếnlàmộtbàitoáncontrongbàit o á n p hântíchdữliệukháchhàng,tuynhiên,vớisựpháttriểnnhanhchóngcủacôngnghệthôngt invàcácphươngtiệntruyềnthôngxãhội,bàitoánphântíchdữliệukháchh à n g trựctuyếnđãtrởt hànhmộtbàitoánđượcrấtnhiềutổchức,doanhnghiệpquant â m Trongbáocáocủađềtàin ày,chúngtôitậptrungmôphỏngviệcsửdụngcácthuậtto án họcmáytrongứngdụngphântíchdữli ệukháchhàngđểphânnhómkháchhàng.
Trongcácbàitoánphântíchdữliệukháchhàngởtrên,chúngtôitậptrungvàp h ân t ích dữliệukhách hàngtrựctuyếnđượcthuthậptừcácphươngtiệntruyềnthôngx ã hội(socialmedia),cáckênhbán hàngtrựctuyến(onlinesalechannels),cácwebsite,
… dựatrêncácbàiđăng(post),cácbìnhluận(comment),cácđánh giá(review),cácýkiến(sentiment)củacáckháchhàngtrựctuyếnvềcácsảnphẩmvàdịchvục ủacáctổc h ứ c , danhnghiệpbằngcáchứngdụngmộtsốthuậttoánhọcmáyvàophântích,sauđóđ á n h giádựatrênkếtquảthuđược.
Dữliệukháchhàngtrựctuyếnđượcsử dụnglàcáckiểudữliệuvănbản,vìvậy,b à i toánphântíchdữliệukháchhàngtrựctuyếnđượcquyv ềbàitoánphântíchdữliệuv ăn bảnsauđógomnhómhayphânnhómdựatrêncácnhãnđánhdấu.
TheoAdedoyinetal.,Fattaneetal.vàGuyIdoetal.thìbàitoánpháthiệnchủđềq u a n tâmcủ akháchhàngtrựctuyếntrêncácphươngtiệntruyềnthôngxãhộithườngđượcxemxétdựa trênnguồn thôngtinđượcphântích,cách thứcbiểudiễncácchủđềđượcsosánh,cáckỹthuậtđượcsửdụngđểkhaitháccácmôhìnhvà cácphươngphápđểđánhgiá:
- Cácnguồnthôngtin(informationsources):Nguồnthôngtinlàcácnguồnđượcsử dụngđểt ríchchọnthôngtinnhằmtìmkiếmchủđềquantâmcủakháchhàng.Chẳngh ạ n nhưnộidungvăn bản(poststext,comments,tags),cấutrúcmạngxãhội(socialn e t w o r k structures),ả nhvàvideo(imagesandvideo) Cácnguồnthông tinthườngđượcc h i a t h à n h n g u ồ n thôngtinb ê n t r o n g (internal)v à n g u ồ n t h ô n g t i n b ê n n g o à i ( e x t e r n a l ) Nguồ nthôngtinbêntrongthườnglàcácmạngxãhộiđơn(single–OSN) nhưLinkedIn,Facebook,Twitter vàcácmạngxãhộiliênkếtchéo(cross- system)nhưc ác trangGoogle+,cáctrangcóthôngtinkếtnốiliênquan Nguồnthôngtinbênngoàit hườnglàcácbàiđăngtrêncácwebsite,cácmạngtrithức,cáctừđiểntrithức
- Cácht h ứ c b i ể u diễnc á c c h ủ đ ề q u a n t â m c ủ a k h á c h h à n g ( u s e r i n t e r e s t representationunits):Làcáchthứcdùngđểbiểudiễncácchủđềquantâmcủa kháchh à n g đượclàmcơsởđểpháthiện,ướclượnghoặcsosánh.Thườngcácchủđềqua nt âmcủakháchhàngcóthểbiểudiễndựatrêntừkhóa(keywords),hoặcbiểudiễndựat r ê n nhómtừkhóa(groupofkeywords),cóthểbiểudiễndựatrênkháiniệm(concepts)h o ặ c biểudiễn dựatrênnhómcáckháiniệm(groupofconcepts)dựatrênmạngtrithứcn h ư thôngquathựcthểhoặ ccácthểloại.
- Cáckỹthuậtkhaithácvàphântíchcơsởdữliệuliênquanđếnkháchhàng(un derlyingtechniques):Hiệnnaycókhánhiềukỹthuậtđượcsửdụngtrongkhaithácv à phântích đểpháthiệncácchủđềquantâmcủakháchhàng.Điểnhìnhnhưcácmạngn ơronnhúng(embedding sneuron); cáchệthốnglọccộngtác(collaborativefiltering);mô hìnhchủđề(topicmodelling);dựđoánliên kết(linkprediction);hồiquytuyếntính(regression); cácphươngphápdựatrênđồthị(graph methods);cáckỹthuậtkhaithácw e b ngữnghĩa.Bêncạnhđó,hiệnnaycáccơsởdữliệuchuẩnđểp háthiệnvàphântíchv ề chủđềquantâmcủakháchhàngvẫnchưacómộtbộdữliệuchuẩn,cáccơsởdữli ệuph ân tíchhầuhếtđượccácnghiêncứutựthuthậpdựatrêncácAPIhoặcdựatrênphươngp h á p thủcông.
- Cácphươngthứcđểđánhgiá(evaluationmethodology):Đánhgiábêntrongvàđánhgiáb ênngoài(intrinsicvàextrinsic)làcácphươngphápđượcsửdụngtrongđánhgiácáckỹthuậtvàphư ơngpháppháthiệnchủđềquantâmcủakháchhàng.Đánhgiábêntronglàphươngphápđánh giávềchấtlượngcủacấutrúccácthôngtinquantâmc ủ a kháchhàngdựatrênnghiêncứukhác hhànghaydựatrênđánhgiácủachínhkháchhàn g Đánhgiábênngoàilàphươngphápđán hgiácấutrúcthôngtinquantâmcủakh ách hàngdựatrênxemxétảnhhưởngcủacácchủđềqu antâmđếncácứngdụngnhưcáchệthốngkhuyếnnghịkháchhàng,cáchệthốngdựbáo
Theokhảosátcủa nhómnghiên cứu,bàitoánphântíchkháchhàngtheochủđềq uan tâmtrêncácphươngtiệntruyềnthôngxãhội cóhaihướngtiếpcậnchính:
Mộtlà,tậptrungvàocácmốiliênkếtcủakháchhàngbaogồmtheocấutrúccủam ạ n g xãhội, theocáckếtnối,cácliênkếtcủakháchhàngcòngọilàtậptrungvàokháchhàng(user-centric)
Hai làtậptrungvàocácđốitượng đượcsinhra bởikháchhàngcácphương tiệntruy ền thôngxãhộinhưcácbàiviết,cácbàichiasẻ,cáchànhvinhưthích,bìnhluậncò ngọilàhướngđốitượng(object-centric).
Vớihướngtiếpcậnuser- centric,cácnghiêncứutậptrungpháthiệnchủđềquant âmcủakháchhàngbằngcáchphântích cácmốiliênkết,cáccấutrúcmạng,cácđặctrưngítthayđổicủakháchhàngtrêncácmạngxãh ộinhư thôngtincánhâncủakháchh à n g (profile’suser),vịtríđịa lý(locality),các tương tácvàc áchànhvidichuyển(mobilityandsocialinteractions),cáckếtnốibạnbè,hàngxóm (friends,neighbors),
37 cácliênkếtđượctheodõi(followsexperts,followfamouspeople),cáckếtnốivàtươngt á c thôngq uacácứngdụng(internetconnections),cáckếtnốicủakháchhàng(nodeinsocialnetwork),cácc ộngđồng(communityextraction)
Vớihướngtiếpcậnobject- centric,cácnghiêncứutậptrungpháthiệnquantâmc ủ a kháchhàngbằngcáchphântíchcácđốit ượngđượctạoratrongquátrìnhtươngtácc ủ a kháchhàngtrêncácmạngxãhộinhưnộidungcácbàiđă ng(post,tweets…),cácthẻđ á n h dấu(tags),cácbìnhluận(comment),cácthôngtintrongcácbàichi asẻ(contentofsharing),cáchànhvithích(like),thảcảmxúc(emotions)
ỨNGDỤNGCỦABÀITOÁN
Ứngdụngtronghệthốngkhuyếnnghị
RS),haycòngọilàhệthốngtưvấnlàmộthệthốnglọcthôngtinnhằmdựđoánđánhgiásởthích, mốiquantâm,nhuc ầu củangườidùngđểđưaramộthoặcnhiềumục,sảnphẩm,dịchvụmàng ườidùngc ó thểsẽquantâmvớixácsuấtlớnnhất.Trongnhữngnămgầnđây,hệthốngkhuyến n g h ĩ đãtrởlênphổbiếnvàđượcsửdụngtrongnhiềulĩnhvựckhácnhaunhưtruyềnh ì n h , tintức,dịchvụtàichính,viễnthông,thươngmạiđiệntửvàmạngxãhội,…
MộtvàivídụphổbiếnvàdễgặpnhấtnhưlàgợiýkếtbạntrênFacebookdựav ào các đặcđiểmnhưsinhsốngcùngvịtrí,họccùngtrường,làmcùngcơquan,hayđ ơ n giảnlàcóc ùngsởthích,quantâmvớimộtlĩnhvựcnàođótrênFacebook.Amazonecóhệthốngkhuyếnnghịcácsả n phẩmchongườidùng.Mộttrongnhữngmôhìnhđơng i ả n n h ấ t của hệthốngkhuyếnnghịđóchínhlàbảngxếphạng: bài hátcó nhiềungườin g h enhất,cácbộphimnhiềungườixemnhất,cácsảnphẩmcónhiềungườimuanhất
. Hệthốngkhôngcóthôngtingìcủangườisửdụng,nósẽdựđoánởmứcđơngiảnnhất làcónhiềungườimuasảnphẩmnàynhấtthìxác suấtngườidùngnóđangtưvấns ẽ muasảnphầmnàycũngcaonhất.Ýtưởngcủahệthốngkhuyến nghịcũngxuấtphátt ừ hànhvicủangườimuahàng:ngườimuahàngthườngsẽhỏibạnbè,chuyêng ia,haytừchínhngườibánhàngtưvấnchomìnhvềsảnphẩmhọcóýđịnhmua.Ngườiđượch ỏ i sẽtiếnhànhthutậpthôngtintừngườimuabaogồm:nhucầusửdụng,đặcđiểmsảnphẩm,màusắcch ứcnăngyêuthích,… kếthợpvớikiếnthứchiểubiếtcủamìnhvềsảnp h ẩ m đểđưarađềxuất,lờikhuyênsảnphẩmphùhợp nhấtchongườimua.Ởmộtmứcc a o hơn,ngườiđược hỏisẽliênhệ,liêntưởngnhữngngườiđãtừngmuasảnphẩmmàc ó đặcđiểmtươngđồngvớing ườimua,từđóhọdựđoánngườimuasẽcókhảnăngth ích sảnphẩmnàonhấtđểđưarakhuyến nghịchongườimua.
Hệthốngkhuyếnnghịlàmộtloạihìnhcụthểcủakỹthuậtlọc thôngtin(nhưtintứ c , phimảnh,âmnhạc,trangweb…)màngườidùng quan tâm.Nórấtquantrọngchos ự thànhcôngcủathươngmạiđiệntửvàngànhcôngnghệthôngti nhiệnnay,vàdầnd ầ n trởnênphổcậptrongcácứngdụngkhácnhau(vídụnhưNetflix,Goo gletintức,A m a z o n ) Cácthốngkêđãchỉrarằng,haiphầnba(⅔)sốphimtrênhệthốngNe
38 tflixđượcxemlànhờkếtquảgợiýcủahệkhuyếnnghị,38%lượngnhấpchuộttrênhệthốngt i n tứcG oogleNews và 35%sảnphẩmbánđược trênhệthốngthươngmạiđiệntử
Thôngtinvềngườisửdụngđượcdùngchoviệckhuyếnnghịtựđộngcóthểchiathànhhailo ại:thônginẩnvàthôngtinhiện.Cácthôngtinẩnbaogồmcácthôngtinnhưt h ờ i gianngườimuaxemsản phẩm,quátrìnhngườidùngduyệtquacácsảnphẩmtrướckhichọnsảnphẩmcuốiđểxem,nguồn màngườidùngtruycậpđếntranghiệntại,…
C á c nộidungnàyrấtdễthuthập,nhưngthườngcóđộnhiễucaovàkhôngcótươngtáct r ự c tiếpvới ngườidùng(hệthốngtựđộngghilạilịchsử).Cácthôngtinhiệnlàcáckếtquảnhậnđượckhingười dùngtrựctiếpđưarađánhgiávềsảnphẩmnhưthích/khôngthích,chấmđiểm,bình luận,… Cácthôngtinnàythườngkhóthuthậphơnrấtnhiềusov ới cácthôngtinẩn,nhưngđộchínhxáccao hơnvàrấthữuíchchoviệckhuyếnnghị.
Kếtquảcủamộthệtưvấnthườngdựđoán“đánhgiá”củangườidùngchomộtsảnphẩ mnhấtđịnh(vídụ,khảnăng80%ngườidùngsẽthíchsảnphẩmnày)vàdanhsáchnhữngsảnp hẩmngườidùngcóthểsẽthích.
Ứngdụngtrongphânnhómkháchhàng
Thịtrườngc ạ n h t r a n h , đ ờ i s ố n g c ả i thiện,s ả n p h ẩ m / d ị c h v ụ p h á t t r i ể n đ a d ạ n g , đ i ề u nàytạoranhữngsựkhácbiệttrongnhucầucủamỗingư ời.Chínhvìthếcầnhướngđếnphânloạiracácnhómkháchhàng,doanhnghiệpsẽdễdàngtrongkhâuq uảnl ý kháchhàngnhằmthỏamãnđượcsựhàilòngcủakháchhàng.
Phânloạikháchhàngchínhlànắmbắtnhữngđặcđiểmchungtrongdữliệukháchh àn g , thốngkê nhữngđặctínhtươngđồngcủanhữngkháchhàngtrướcvàsaukhimua/sửdụngdịchvụ/ sảnphẩmcủadoanhnghiệptừđóchiacácđốitượngkháchhàngthànhn h ữ n g nhómnhỏ.Phânloại kháchhàngkhôngchỉtạođiềukiệnthuậnlợipháttriểncácc h i ế n lượcMarketingmàgiúpdoanh nghiệptốiưuhóacáckhoảnđầutưvàodịchvục h ă m sóckháchhàng.Ứngdụngphântíchdữliệ ukháchhàngcóthểthựchiệntheocácmụctiêucủadoanhnghiệpnhư:
Phântíchdựat r ê n tâmlýmu a h à n g nh ư hìnhthức sảnphẩm:đối v ớ i những k háchhàngđặcbiệtquantâmđếnhìnhthức thìdoanhnghiệpcầnphântíchkỹđếnn hữngsởthíchchungcủanhómnàyđểpháttriểnsảnphẩmthíchhợpnhất;quantâmđ ế n các chínhsáchkhuyếnmãi:Nhómđốitượngnàytuykhôngmanglạinhiềulợinhuậnch o doanhnghiệpnhưn glạilànguồntiêudùngchonhữngsảnphẩmtồnkho/khóbán/ ítngườisửdụng.Nhómnàysẽlưuýnhiềuđếngiácảvàcácdịchvụkhuyếnmãilàchủyếu;khá chhàngquantâmđếntháiđộtư vấn,phụcvục ủ a doanhnghiệp:đâylà nhómk h á khóchiềunhưngkhinhằmtrúngtâmlýcủakháchhàngđểtưvấnthìlạidễdàngm an g lạilợiíchchodoanhnghiệphoặckháchhàngthíchđượcsửdụng/ trảinghiệmn h ữ n g sảnphẩmmớinhất: Nhómnàylànhómthíchchạy theoxuhướngmới nhất đâyl à n h ó m r ấ t dễkhaithác,doanh nghiệp hướngđếnthường xuyên thayđổisảnphẩmvàđầutưmộtsốdịchvụtrảinghiệmthửsảnphẩmmới.
Phântíchđểphânloạikháchhàngtheolợiíchmanglạichodoanhnghiệp(Nhómk h á c h hàngt iềmnăng):Kháchhàngtrungthành:đâylànhómmanglạigầnnhưtrên7 0 % doanhthucho doanhnghiệp.Nhómkháchhàngnàycầnvôcùngtintưởngsửdụngd ị c h vụcủadoanhnghiệp,vìvậ y,cầncónhữngchínhsáchđặcbiệtđểgiữchânnhómkh ách hàngnày;Kháchhàngtiềmnăn g:đâylànhómđốitượngđã/đangsửdụngsảnphẩm/ dịchvụcủadoanhnghiệphoặccóthểchỉlànhómđốitượngchuẩnbịtrởthànhkháchhàngc ủadoanhnghiệp.Nhómnàysẽmanglạilợiíchtrongtươnglainếucón h ữ n g chiếnlư ợcthúcđẩydoanhsốphùhợp,cầnnhữngchínhsáchthuhútđặcbiệt;Khách hàngmanglại giátrịlợiíchnhỏ:đâylànhómmanglạidoanhthuthấpchodoanhn g hi ệp Nhómnàyđaphầntậptru ngvàogiácảthấpvànhữngloạihàngcógiátrịnhỏc u ố i cùnglàkháchhàngtiêucực:Nhóm kháchhàngnàygồmnhữngđốitượngmuah àn g khótính,cóthểlàmộtsốkháchhàngmuahà ngmộtlần,
Phântíchđểphânloạikháchhàngtheođộtuổinhư:độtuổidưới15tuổi:chưacókhản ăngtựlựcvềtàichính,khôngcónhiềunhucầuthiếtthựcđaphầnlàmongmuốnđược đápứngthôngquangườiđạidiện;độtuổi15-
22tuổi:đâylànhómđốitượngmanglạilợiíchkhádễtrongviệcmuabán/sửdụngdịchvụ/ sảnphẩmcủadoanhnghiệp.Vì đaphầnnhómđốitượngnày sẽgồmnhững bạntrẻthíchtrảinghiệmthử sảnphẩm,n h ữ n g yêucầuvớisảnphẩm/dịchvụkhôngnhiềudễđápứng.Vànhómnàysẽsửdụng những sản phẩmphổthông(hìnhảnhmớimẻ,giácảổnđịnh…)vìtàichínhmộtphầnv ẫ n p h ụ thuộcvàogiađình;độtuổi22-50 tuổi:đâylànhómđượcquantâmnhấttrongc á c nhómđộtuổi,bởinhómkháchhàngnàycókiếnt hức,tàichínhvìthế sẽchỉhướngđếnnhữngsảnphẩm/dịchvụthậtcầnthiết,nhómnàyhướngđếncảgiácảsảnp hẩm;c h ấ t lượngsảnphẩmvàcácdịchvụchămsóckèmtheo.Đâylànhómtuổimanglại n h i ề u doanhthuchodoanhnghiệpdonhucầusửdụngsản phẩmkhánhiều;độtuổi50tuổitrởlên:đâylànhómcáckháchhàngcóthể nóilàkhákhótínhtrongviệc mua bánv ìnhómnàyviệcsửdụngsảnphẩmđềucósựchọnlọckhákỹtính.Cầnđưa ranhữngkếhoạchtiếnthẳngvàotâmlýcủanhómđộtuổinày,họsẽquantrọngnhiềuhơnđếnc hấtlượngsảnphẩm.
Phântíchđểphânloạinhómkháchhàngtheonhucầuthựctế:yếutốkhoảngcác h/địađiểmmuahàng;mứcđộyêucầu,tàichínhsẵncó;chấtlượngsảnphẩm/Giát h à n h /
D ị c h vụchămsóckháchhàng;thươnghiệu/ vịtrícủasảnphẩmtrênthịtrường;t hiết kếmẫumã/kiểudángcủasảnphẩm
MỤCĐÍCHVÀCHUẨNBỊCHOTHỰC NGHIỆM
Mụctiêucủa đềtàilàhệthốnghóacáckháiniệmvề họcmáy,cácthuậttoánsửd ụn g tron gphântíchdữliệudựa trênhọcmáyvàcácứngdụngcủahọcmáytrongcácbàitoánkinhtế;dựatrênthựctrạngứngdụ ngphântíchdữliệukháchhàngvàkháchh à n g trựctuyếnbằngcáccôngcụcôngnghệmớitừđ ótrìnhbàymộtsốthuậttoánhọcm á y phổbiếnứngdụngtrongphântíchdữliệukháchhàngtrựct uyếnvàsosánhmứcđ ộ phùhợpcủacácthuậttoánđốidữliệulịchsửcủakháchhàngthuthậpđượctr êncácphươngtiệntruyềnthôngxãhộihiệnnay.
Vìvậy,mụcđíchcủachương4làtrìnhbàymộtthựcnghiệmđểsosánhmứcđộp h ù hợpcủa cácthuậttoánhọcmáytrongứngdụngthựctếvàophântíchdữliệukháchh àn g t rự c tuyến.Từđóđưa racáckhuyếnnghịphùhợpđốivớicáckiểudữliệukháchh à n g phùhợptrongứngdụngphântích dữliệukháchhàngtrựctuyếnchocáctổchức,d o a n h nghiệp
Bộdữ liệuthứnhất làbộdữliệumẫu20NewsgroupbằngTiếngAnhlấytừđịach ỉ củaĐạihọcStandford(https:// library.stanford.edu/science/ databases).Đâylàbộdữl i ệ u mẫuđượcdùngtrongphântíchvàđánhgiácácthuậttoánhọcmá yrấtphổbiến.T h u thậptừcácphươngtiệntruyềnthôngxãhộivới20nhãn.Trongđócó11. 293tàil iệu trongtậphuấnluyện,có7.528trongtậpkiểmthử.
Bộdữliệuthứ2lànhómnghiêncứudướisựtrợgiúpcủasinhviênchuyênthut h ậ p trựct iếptừbìnhluậnvềcácsảnphẩmcủakháchhàngtrênmộtsốtrangthươngm ại điệntửnhưti ki.vn,sendo.vnvàshopee.vncùngmộtsốtrangbánhàngtrênmạngx ã hộiFacebook.com.Sauk hitinhchỉnhvàlọccácdữliệukhôngphùhợp,nhómnghiêncứuthuđượcmộtbộgồm2000tàiliệuvới20n hãnđểxâydựngbộdữliệuthựcnghiệm.C á c nộidungthuthậptrênthựctếcủabộdữliệuTiếngVi ệtgồmcácbàiviết,cácbìnhluậnvàcácđánhgiá,nhậnxétcủakháchhàngtrênmộtsốtrangthươngmạiđ i ệ n tử vàcổngthanhtoánminhhọatrongHình4.1vàHình4.2
Hình4.1:Dữliệuđánhgiásảnphẩmcủatranghttps://shopee.vn/vàsendo.vn
Thứhaixâydựngbộmẫudữliệuthựcnghiệm:Đểxâydựngbộdữliệuthựcn g h i ệm , nhómnghiêncứuthựchiệnlấyngẫunhiêntrong2bộdữliệu,mỗibộgồm1000t à i liệuđểchạythự cnghiệm.
Trongđó,TFlàtầnsuấtxuấthiệncủatừđótrongtổngsốtài liệu,IDFlànghịchđ ả o củatầnsốhaylàtừquantrọngcủatàiliệu.Saukhitiềnxửlý,mỗitàiliệuđượcbi ểudiễntrongmộtfilecsvđểthuậntiệnchothựcnghiệmvàtínhtoán.
Tổchứcnhânsựkémthìngườilàmđư ợ c việcrồicũngđihết Cònlại làmộtmớ bòngbongcầngiảiquyết.
Kinh doanh HÀNGRONGTHỜI@H ô m trước,lênphốcódịpngồinhậuvớimấyngườib ạ n ởnhàhà ngGócPhốtrênđườngLêQuangĐạo,(gầnKaraokeTáoĐỏ).Mà côngnhậnởkhu vựcnàypháttriển,quán xánhiềuvàđẹpthiệt.Haianhemvừ a ngồivào bàngọibia, mồinhậuthì cómộtchị đếnmờimua bánhlọc,tôi nóiđãgọimồirồinhưng chịcứnằnnìmãi(làemcòn1dĩabánh,anhmua giúpem)nên tôimua 1dĩabánh lọcgiá 20K(10cái) Mớiuống lybia,chưa kịpănbánhlọcthìcóthêmembékhoảng13tuổi,trêntaybồngthêmmộtcháunhỏkhoản ghơn01tuổi đếnmời,chúơimuachocon01bìđậuphụngluộc,tôinóilàkhôngmua,chúmuabánhrồi nhưngcháucứnằnnìmãi,cầmlòngkhôngđ ậ u nên tôimua01lonđậugiá10K.Quánchưakịpmangmồirathìcóthêmđứabé nhỏbồng
01đứaem,nhắcthêmđứaem khoảng 04tuổimờitôi mua đậuphụngda cá, tôi dứtkhoátkhông mua nhưngcháu nhỏ cứmờimãi "chú ơimuagiùmcon,chúơimuagiùmcon "thấymấyđứanhỏhoàncảnhquá,nghĩmấyđứ anàynhưconcủamìnhởnhàđanglàtuổiăn,tuổihọcnêntôimua02bìvớigiá
10K,vàtôinói:mua rồi,mấyđứabây đi bán chổkhácđểchúnóichuyện.
Cầntuyển1bạncontentmarketing.Tưduysángtạo,khùngkhùng.Kiểuviếtlinh tinhmà vẫnnhiềulượtlikecmt,sharethìcàngtốt.LàmviệctạiTimescity(Minhkhai) Thu nhập :6-8M(tuỳ thuộcthái độ cũng nhưđộkhùng) :))P / s:T ag mấybạnkhùngkhùngnhưthếđểgiớithiệu,vìnghebảokhùnghaychơiv ới nhau.
Thứbalựachọnmộtsốthuậttoánphùhợpvớidữliệuvănbản:Córấtnhiềuthuật toánhọcmáycóthểápdụngcho bàitoánphântíchdữliệukháchhàngtuynhiênt r o n g đềtài,nhómnghiêncứulựachọnmộtsốthu ậttoánđượcđánhgiálàphổbiếnvàcó kếtquảnghiêncứukhátốttrongnhữngnghiêncứugầnđây.C ácthuậttoánđượclựachọnđểthựcnghiệmđượcthốngkêtrongBảng4.3
ThuậttoánCNN:C o n v o l u t i o n a l NeuralNetwork(CNNs–Mạng nơ- rontíchc h ậ p ) làmộttrongnhữngmôhìnhDeepLearningtiêntiến,CNNđượcđánhgiálàthuậtt o á n ứngdụngtốtcho phântíchdữliệuvănbản.
MạngCNNgồmmộttậphợpcáclớptíchchập(convolution)chồnglênnhauvàsử dụngc áchàmkhởitạophituyến(nonlinearactivation)nhưReLUvàtanhđểkíchho ạt cáctrọng sốtrongcácnút(node).Mỗimộtlớpsaukhithôngquacáchàmkíchhoạtsẽtạoracácthôngtintrừutượn ghơnchocáclớptiếptheo.
Trongmôhìnhmạngtruyềnngược(feedforwardneuralnetwork)thìmỗinơronđầuvào(i nputnode)chomỗin ơ ronđầuratrongcáclớptiếptheo.Môhìnhnàygọilàmạngkếtnốiđầyđủ(full yconnectedlayer)haymạngtoànvẹn(affinelayer).Còntrongm ô hìnhCNNsthìngượclại.Cáclớpliê nkếtđượcvớinhauthôngquacơchếtíchchập.Lớptiếptheolàkếtquảtíchchậptừlớptrướcđó,nhờ vậymàcóđượccáckếtnốicụcb ộ.
Mỗimộtlớpđượcsửdụngcácbộlọckhácnhauthôngthườngcóhàngtrămhàngn g h ì n bộlọcn hưvậyvàkếthợpkếtquảcủachúnglại.Ngoàiracómộtsốlớpkhácnhưp o o li n g / su b s am p l i n g layerdùngđểchắtlọclạicácthôngtinhữuíchhơn(loạibỏcácth ôn gtinnhiễ u).
ThuậttoánWord2VechoặcWordEmbeddingbiểudiễncáctừdướidạngcác vectorsốthựcvớisốchiềuxácđịnh.Word2Veclàmộttrongnhữngmôhìnhđầutiênv ề Word Embeddingsửdụngmạngnơron,vẫnkháphổbiếnởthờiđiểmhiệntại,cók hảnăngvectorh óatừngtừdựatrêntậpcáctừchínhvàcáctừvăncảnh
Vềmặttoánhọc,thựcchấtWord2Veclàviệcánhxạtừmộttậpcáctừ(vocabulary) sangmộtkhônggianvector,mỗivectorđượcbiểudiễnbởinsốthực.Mỗitừứ n g v ớ i m ộ t v e c t o r c ố đ ị n h Sauq u á t r ì n h h u ấ n l u y ệ n môh ì n h b ằ n g t h u ậ t toánb a ck p r o b ag at i o n , t rọngsốcácvectorcủatừngtừđượccậpnhậtliêntục.
Từđó,cóthểthựchiệntínhtoán bằngcáckhoảngcáchquenthuộcnhưeuclide,c o si n e , mahattan,, ,nhữngtừcàng"gần"n hauvềmặtkhoảngcáchthườnglàcáctừhayxuấthiệncùngnhautrongvăncảnh,cáctừđồngng hĩa,cáctừ thuộccùng1trườngt ừ vừng,
Hình4.4:MinhhọathuậttoánWord2Vec(Allahyari,Mehdi,etal.(2017)
ThuậttoánMNB:ĐịnhlýBayeschophéptínhxácsuấtxảyracủamộtsựkiệnngẫu nhi ênAkhibiếtsựkiệnliênquanBđãxảyra.XácsuấtnàyđượckýhiệulàP(A|B),v à đọclà“xácsuấtcủa AnếucóB”.Đạilượngnàyđượcgọixácsuấtcóđiềukiệnhayxácsuấthậunghiệmvìnóđượcrútra từgiátrịđượcchocủaBhoặcphụthuộcvàogiát r ị đó.
- XácsuấtxảyraAcủa riêngnó,khôngquantâmđếnB.KíhiệulàP(A)vàđọclàxácsuấtcủaA.Đâyđượcgọilàxácsuấtb iênduyênhayxácsuấttiênnghiệm,nólà“ti ên nghiệm”theonghĩarằngnókhôngquantâmđếnb ấtkỳthôngtinnàovềB.
- XácsuấtxảyraBcủa riêngnó,khôngquantâmđếnA.KíhiệulàP(B)vàđọcl à“xácsuấtcủaB”.Đạilượngnàycòngọilàhằ ngsốchuẩnhóa(normalisingconstant),v ì nóluôngiốngnhau,khôngphụthuộcvàosựkiệnAđang muốnbiết.
A)vàđọclà“xácsuấtcủaB nếucóA”.Đạilượngnàygọilàkhảnăng(likelihood)xảyra
ThuậttoánSVM:SVMlàphươngphápphânlớprấthiệuquảđượcVapnikgiớithiệuvà onăm1995đểgiảiquyếtnhậndạngmẫuhailớpsửdụngnguyênlýCựctiểuhoáRủiroCấut rúc(StructuralRiskMinimization).Ýtưởngchínhcủathuậttoánnàyl à chotrướcmộttậphu ấnluyệnđượcbiểudiễntrongkhônggianvectortrongđómỗit à i liệulàmộtđiểm,phươngpháp nàytìmramộtmặtphẳnghquyếtđịnhtốtnhấtcóthểch i a cácđiểmtrênkhônggiannàythànhhai lớpriêngbiệttươngứnglớp+vàlớp-.C h ấ t lượngcủasiêumặtphẳngnày đượcquyếtđịnhbởikhoảngcách(gọilàbiên)củađ iểm dữliệugầnnhấtcủamỗilớpđếnmặtp hẳngnày.Khoảngcáchbiêncànglớnthìmặtphẳngquyếtđịnhcàngtốtđồngthờiviệcphânloại càngchínhxác.Mụcđíchthuậtt o á n SVMtìmrađượckhoảngcáchbiênlớnnhấtđểtạokếtquảphâ nlớptốt.
Hình4.6:MôphỏngthuậttoánSVM(Allahyari,Mehdi,etal.(2017)
ThuậttoánK-NN:cógiámsátđiểnhình,đólàk-nearestneighbor(kNNhayk- lánggiềnggầnnhất)kNNlàphươngpháptruyềnthốngkhánổitiếngtheohướngtiếpc ậ n thố ngkêđãđượcnghiêncứutrongnhiềunămqua.kNNđượcđánhgiálàmộttrong nhữngphươngpháptốtnhấtđượcsửdụngtừnhữngthờikỳđầutrongnghiêncứuvềp h ân loạivănbảnÝtưởngcủaphươngphápnàyđólàkhicầnphânloạimộtvănbảnm ớ i , thuậttoá nsẽxácđịnhkhoảngcách(cóthểápdụngcáccôngthức vềkhoảngcáchnhưEuclide,Cosine,Manhattan,
…)củatấtcảcácvănbảntrongtậphuấnluyệnđếnv ă n bảnnàyđểtìmrakvănbảngầnnhất,g ọilàknearestneighbor– klánggiềnggầnnhất,sauđódùngcáckhoảngcáchnàyđánhtrọngsốchotấtcảcácchủ đề.Khiđó,trọngsốcủamộtchủđềchínhlàtổngtấtcảcáckhoảngcáchởtrêncủacácvăn bảnt r o n g klánggiềngcócùngchủđề,chủđềnàokhôngxuấthiệntrongklánggiềngsẽcótr ọngs ốbằng0.Sauđócácchủđềsẽđượcsắpxếptheogiátrịtrọngsốgiảmdầnvàcácchủđềcótrọngsốcaos ẽđượcchọnlàmchủđềcủavănbảncầnphânloại.
ThuậttoánC4.5:C4.5làthuậttoánphânlớpdữliệudựatrêncâyquyếtđịnhh iệ uquảvàphổbiếntrongnhữngứngdụngkhaiphácơsởdữliệucókíchthướcnhỏ.C4 5 sửdụn gcơchếlưutrữdữliệuthườngtrútrongbộnhớ,chínhđặcđiểmnàylàmC 4 5 chỉthíchhợpv ớinhữngcơsởdữliệunhỏ,vàcơchếsắpxếplạidữliệutạimỗin od etrongquátrìnhpháttriể ncâyquyếtđịnh.C4.5cònchứamộtkỹthuậtchophépb i ể u diễnlạicâyquyếtđịnhdướid ạngmộtdanhsáchsắpthứtựcácluậtif- then(mộtd ạ n g quytắcphânlớpdễhiểu).Kỹthuậtnàychophéplàmgiảmbớtkíchthướctậpluậtv à đơngiảnhóacácluậtmàđộchínhxácsovớinhánhtươngứngcâyquyếtđịnhlàtươngđư ơng.Tưtưởng pháttriểncâyquyếtđịnhcủaC4.5làphươngphápHuntđãn g h i ê n cứ uởtrên.Chiếnlượcpháttriểntheođộsâu(depth-firststrategy)đượcápdụngchoC4.5.
KỊCHBẢNTHỰCNGHIỆMVÀTHAMSỐĐẦURA
Vớimỗithựcnghiệm(tươngứngvớimộtbộngữliệu),cácbướctiếnhànhtươngt ự phươngp hápOne-vs-Allnhưsau:
Chia1000mẫuvănbảnthành10nhómcon(10-foldscross-validation).Mỗilần, lấymộtnhómlàmbộkiểmtra(bộtest),9nhómcònlạilàmbộdữliệuhọc(bộtraining).
CoimẫucónhãntươngứngnhãnđangxétlàYES,cácmẫucónhãnkhácđềug á n thà nhnhãnNO.BàitoántrởthànhphânloạivănbảntheohainhãnYESvàNO.
Mỗithuậttoánthựchiệnchạy10lần,ghilạikếtquảsauđótínhkếtquảtrungbìnhcủ a10lầnlặp.Sosánhkếtquảđầurasau10lầnlặp.
Thamsốđầurachokịchbảnnàylà F1-scorevàPrecision Đánhgiádựatrênđộchínhxác(Accuracy),độnhạy(Recall).AccuracyvàRecallđượctínhtoánd ựatrênmatrậnnhầmlẫn(confusionmatrix),đâylàmộttrongcácđộđ o p h ổ biếntrongđánhgiámôhìnhcủacácnghiêncứuvềdữ liệutrêncáctrangmạngx ã hộinhưcácnghiêncứuvềhệthốngkhuyếnnghịsảnphẩm,tưvấnkhách hàng.
Báoc á o c ủ a đ ề tàic ò n s ử d ụ n g F1-m e a s u r e h a y F1-s c o r e v à đ ộ c h í n h x á c Accuracy đểđánhgiávàsosánh các kếtquảthực nghiệm.Giátrịcủachúngđượctínhtheocáccôngthức:
KẾT QUẢTHỰC NGHIỆM, ĐÁNHGIÁ VÀTHẢOLUẬN
Kếtquảđộchínhxác(Accuracy)trênbộngữliệu20NewsGroupsđượctrìnhbàyt r o n g Bảng4.4 ,đâylàkếtquảtrungbìnhcủa10lầnchạychomỗinhãntươngứngtrongb ộ mẫuthửnghiệm
TừkếtquảchothấythuậttoánC45đạtgiátrịAccuracycaonhấttrong19/20n hãn,thuậttoánSVMchogiátrịAccuracycaonhấttrênnhãn“talk.politics.mideast”.
XétkếtquảtrungbìnhtrêntấtcảcácnhãnthìthuậttoánC45chogiátrịAccuracyc ao nhất,tiếpthe olầnlượtlàcácthuậttoánRF,SVM,vàMNB.
TừkếtquảchothấythuậttoánC45đạtgiátrịAccuracycaonhấttrong19/20n hãn,thuậttoánSVMchogiátrịAccuracycaonhấttrênnhãn“talk.politics.mideast”.
XétkếtquảtrungbìnhtrêntấtcảcácnhãnthìthuậttoánC45chogiátrịAccuracyc a o nhất,tiếpth eolầnlượtlàcácthuậttoánRF,SVM,vàMNB.
Nhãn CNN W2V MNB NB SVM K-NN C4.5 RF alt.atheism 80.89 77.14 95.45 90.34 93.75 61.48 97.39 95.80 comp.graphics 81.48 67.33 90.00 83.86 87.73 56.93 97.73 86.70 comp.os.ms-windows.misc 81.14 65.91 87.16 87.95 94.20 58.07 99.89 92.27 comp.sys.ibm.pc.hardware 78.62 71.25 87.73 86.14 89.43 65.45 99.43 94.32 comp.sys.mac.hardware 73.52 72.37 90.57 82.05 91.82 63.07 98.98 94.66 comp.windows.x 80.97 73.25 92.73 81.25 90.68 58.30 97.05 91.70 misc.forsale 83.36 76.25 91.14 79.66 92.61 61.14 99.32 92.39 rec.autos 79.28 75.91 93.86 84.77 89.77 59.66 99.66 93.64 rec.motorcycles 84.32 80.42 95.45 91.93 93.18 62.16 99.77 97.16 rec.sport.baseball 82.81 70.57 96.82 93.41 93.75 63.18 99.43 96.02 rec.sport.hockey 87.27 70.84 97.95 94.66 97.27 66.14 99.66 97.39 sci.crypt 84.66 65.11 94.43 91.14 95.11 61.59 99.32 97.50 sci.electronics 78.72 75.91 91.36 85.68 91.93 57.84 98.30 90.23 sci.med 82.27 63.64 93.30 84.89 93.30 61.82 98.41 96.25 sci.space 81.93 72.27 95.91 87.05 94.09 66.48 99.20 97.95 soc.religion.christian 85.80 62.00 98.07 96.93 99.89 72.95 99.43 98.98 talk.politics.guns 79.98 71.02 94.43 86.02 93.98 76.14 98.30 94.43 talk.politics.mideast 80.57 69.08 96.82 90.68 97.84 65.23 97.05 97.05 talk.politics.misc 75.64 72.16 87.61 83.18 94.20 69.66 96.25 93.30 talk.religion.misc 79.25 75.10 93.07 83.75 93.86 70.57 98.41 92.95 Trungbìnhcácnhãn 81.12 71.38 93.19 87.27 93.42 63.89 98.65 94.53
Từkếtquảchothấy,thuậttoánC45đạtgiátrịF1- scorecaonhấttrên18/20n h ãn , thuậtt o á n SVMđạtgiátrịF1- s c o r e ca onhấtt rê nha in hã n cònlại:“s o c r e l ig i o n c h r i s t i a n ” v à “ t a l k p o l i t i c s m i d e a s t ”
Tổnghợpkếtquảthựcnghiệmtừbộdữliệu20NewsGroupschothấyrằngthuậtto án C45ch okếtquảtốtnhất,tiếptheolầnlượtlàcácthuậttoánRF,SVM,vàMNB.
Nhãn CNN W2V MNB NB SVM K-NN C4.5 RF alt.atheism 84.22 83.03 96.09 91.60 94.51 73.15 97.70 96.32 comp.graphics 82.73 76.60 91.69 86.33 89.96 67.35 97.99 89.50 comp.os.ms-windows.misc 84.15 55.35 87.44 89.68 95.08 72.65 99.90 93.68 comp.sys.ibm.pc.hardware 79.10 79.99 90.16 87.90 91.29 72.62 99.50 95.23 comp.sys.mac.hardware 71.50 80.77 92.20 84.48 93.08 71.84 99.10 95.52 comp.windows.x 81.55 80.65 93.76 81.55 92.14 62.03 97.43 95.23 misc.forsale 83.26 83.12 92.59 81.14 93.87 72.94 99.40 93.81 rec.autos 82.49 78.30 94.78 87.02 91.49 71.63 99.69 94.70 rec.motorcycles 86.26 84.77 96.12 92.89 94.20 70.20 99.80 97.58 rec.sport.baseball 82.76 79.76 97.28 94.27 94.74 74.78 99.50 96.64 rec.sport.hockey 88.68 79.66 98.24 95.32 97.66 70.14 99.70 97.76 sci.crypt 86.38 76.57 95.30 92.34 95.65 72.56 99.40 97.80 sci.electronics 82.82 83.03 92.74 87.65 93.29 65.59 98.51 92.13 sci.med 84.49 75.68 94.34 86.18 94.19 67.31 98.61 96.80 sci.space 83.50 80.26 96.46 88.46 94.73 70.97 99.30 98.23 soc.religion.christian 88.18 74.95 98.33 97.36 99.90 80.80 99.50 99.11 talk.politics.guns 83.50 78.88 95.24 87.89 94.71 77.73 98.50 95.25 talk.politics.mideast 81.36 77.85 97.26 91.91 98.08 75.64 97.44 97.46 talk.politics.misc 78.96 80.25 90.12 86.08 95.03 68.31 96.77 94.28 talk.religion.misc 82.91 82.07 94.15 85.68 94.64 68.83 98.63 94.07 Trungbìnhcácnhãn 82.94 78.58 94.21 88.79 94.41 71.35 98.82 95.45
Nhãn CNN W2V MNB NB SVM K-NN C4.5 RF
Chínhtrị 71.91 66.38 76.17 76.17 68.51 58.72 73.62 62.13 Đờisống– Xãhội 63.91 62.17 70.87 70.00 63.91 58.70 70.00 60.43 Giáodục 72.77 60.85 78.72 68.94 68.94 54.89 74.47 64.26 Khoa học –Côngnghệ 62.76 68.80 71.91 62.55 69.36 42.55 62.55 72.77 Kinhdoanh 71.91 68.09 66.38 71.06 66.81 58.30 65.53 69.79 Thời sự 56.52 56.35 57.39 49.13 56.09 57.83 56.96 59.13 Văn hóa –Giảitrí 69.36 60.85 77.02 61.70 65.53 58.72 71.06 59.15 Phápluật 73.62 77.02 87.66 65.96 84.26 45.96 70.64 74.04 Thểthao 67.83 76.65 86.09 70.00 68.70 40.87 80.43 69.13 Sứckhỏe 76.49 78.30 83.40 68.09 73.19 56.60 72.34 73.19 Trungbìnhcácnhãn 68.71 67.55 75.56 66.36 68.53 53.31 69.76 66.40
CNN T2V MNB NB SVM KNN C45 RF
Hình4.7:SosánhAccuracyvàF1- scoretrênbộ20NewsGroupsB ả n g 4.6:ĐộchínhxáccácthuậttoántrênbộngữliệuTiếng
TừkếtquảchothấythuậttoánMNBđạtgiátrịAccuracycaonhấttrong7/10nh ãn,thuậttoánRFchogiátrịAccuracycaonhấttrênhainhãn“Khoahọc–côngnghệ”v à “Thờisự”, cònthuậttoánCNNchokếtquảcaonhấttrên nhãn“Kinhdoanh”.
Xétkếtquảtrungbìnhtrêntấtcảcácnhãn,thuậttoánMNBchogiátrịAccuracyc a o nhất,tiế ptheolầnlượtlàcácthuậttoánC45,CNNvàSVM.
CNN T2V MNB NB SVM KNN C45 RF
ThuậttoánW2Vđạtgiá trịF1-scorecaonhấttrênhainhãnlà“Thờisự”và
Xétkếtquảtrungbìnhtrêntấtcảcácnhãncủabộngữliệuchủđềthìthuật toánMNBchogiátrịF1-scorecaonhất,tiếptheolàcácthuậttoánW2VvàC45.
Nhãn CNN W2V MNB NB SVM K-NN C4.5 RF
Chínhtrị 60.66 57.47 75.51 74.34 47.66 6.90 67.81 27.23 Đờisống– Xãhội 65.49 67.17 71.05 65.21 36.86 0.00 63.10 9.64 Giáodục 66.91 68.16 79.04 61.39 50.07 22.09 69.03 30.79 Khoa học –Côngnghệ 34.14 58.84 67.50 48.05 48.28 59.70 55.69 52.44 Kinhdoanh 65.62 59.53 48.05 70.46 69.04 8.87 60.22 69.38 Thời sự 52.57 54.58 43.65 45.71 16.86 0.00 48.88 2.00 Văn hóa –Giảitrí 47.07 63.73 72.12 58.18 36.10 5.71 68.75 7.45 Phápluật 57.09 77.05 84.86 63.75 80.53 49.42 66.25 63.74 Thểthao 69.89 68.77 79.82 70.17 71.03 58.02 76.64 68.40 Sứckhỏe 62.12 76.87 78.87 66.24 73.37 18.33 68.16 68.25 Trungbìnhcácnhãn 58.15 65.22 70.05 62.35 52.98 22.91 64.45 39.93
TổnghợpkếtquảtừbộdữliệuchủđềcủađềtàithìthuậttoánMNBchokếtquảcao nhất,tiếpthe olàcácthuậttoánchokếtquảxếpxỉnhaulàW2VvàC4.5.Thuậttoán
Tổnghợpcáckếtquảtừbộdữliệucảmxúc củađềtàichothấythuậttoánMNBchokếtcaonhất,tiếptheolàthuậttoánNBvàthuậttoánW2Vec.T ươngtựnhưkếtquảt r ê n bộdữliệuchủđềcủađềtài,thuậttoánC4.5vàSVMlầnlượtchokếtquảtốtt rongcác bộdữliệu20NewsGroupsvàSemEval-
2017nhưnglạikhôngchokếtquảcaotrongb ộ dữliệucảmxúccủađềtài.Sosánhkếtquảthựcnghiệmgi ữađộchínhxácAccuracyv à F1- scorecủacácthuậttoántrênbộngữliệucảmxúccủađềtàiđượcminhhọatrongH ì n h 4.8
Dựatrênkếtquảphântíchnày,nhómnghiêncứucósửdụngthuậttoánMNBđểt h ự c hiệnmộ tthựcnghiệmnhỏtrongphântíchvàphânnhómkháchhàngcủamộtdoanhnghiệp.Dựatrênthuậttoánp hânnhómđểthựchiệnvàchiakháchhàngthành03nhóml à kháchhàngVIP,kháchhàngthânthiết vàkháchhàngítviếngthăm.
Bảngdữliệukháchhànggồmcáccột:PRODUCT_CATE:Loạisảnphẩmgiaod ị c h ; P ROVINCE:tỉnhthànhgiaodịch;ORDER_COST:Giásảnphẩm;ORDER_DATE: Thờigianorder;ORDER_ID:mã ordervà CUST_ID: IDcủakháchh à n g ĐềtàidựatrênphântheomôhìnhRFMnhưsau:
TheoWikipediathì“RFMlàmộtphươngphápđượcsửdụngđểphântíchgiátrịkh ách hàn g.Nóthườngđượcsửdụngtrongmarketing cơsởdữliệu(kiểunhưdựavàodữliệuvềkháchhàngđểtiếpthịsảnphẩm)vàmarketingtrựctiếp vàđãnhậnđượcsựchúýđặcbiệttrongngànhbánlẻvàdịchvụ.”.RFMđịnhlượnggiátrịcủamộ tkháchh à n g dựatrên3thôngtinchính:
Recency:Khoảngthờigianmuahànggầnđâynhấtlàbaolâu.Chobiếtkháchh àn g có đangthựcsựhoạtđộnggầnthờiđiểmđánhgiá.Chỉsốnàycànglớncàngchothấy xuhướngr ờibỏcủakháchhàngcàngcao.Đólàmộtcảnhbáochodoanhnghiệpnênthayđổisảnphẩmđểđá pứngthịhiếukháchhànghoặcthayđổichínhsáchđểnângc a o chấtlượngphụcvụ.
Frequency:Tầnsuấtmuahàngcủakháchhàng.Nếukháchhàngmuacàngnhiềuđ ơn thìgiát rịvềdoanhsốmanglạichocôngtycàngcaovàtấtnhiêngiátrịcủahọcàngl ớn Tuynhiênnếuchỉxétd ựatrêntầnsuấtmuahàngthìcũngchưađánhgiáđượcđầyđủmứcđộtácđộnglêndoanhthubởibên cạnhđó,giátrịđơnhàngcũnglà yếutốtrựct i ếp chothấykháchhàngtiềmnăngnhưthếnào.
Monetary:Làsốtiềnchitiêucủakháchhàng.Đâylàyếutốtrựcquannhấtảnhhưởngtới doanhsố.Haynóicáchkhác,doanhnghiệpquantâmnhấtlàkháchhàngđãdànhbaonhiêutiền để muasắmsảnphẩmcủa côngty?Monetarysẽ tácđộngtrựctiếptới d o a n h thuv à b ị t á c đ ộ n g g i á n t i ế p t h ô n g q u a 2 y ế u t ố c ò n l ạ i l à R e c e n c y v à F r eq u en cy
Saukhiđãcóđầuvàolà3nhântốtrên.Cóthểsửdụnghọccógiámsáthoặcp hânl oại,phân cụmtrongcácthuậttoánđãnêuđểnhómcác khách hàngcócùng mứcđộvàomộtnhóm.KháchhàngVIP:ranktừ8-10;Kháchhàngthôngthường:ranktừ5-
Sửdụngthuậttoánhọcmáyđểphâncụmcáckháchhàngdựavàoinputlà3biếngiátrịrankscủ aRecency,Frequency,Monetary.
CÁCHÀMÝĐỀXUẤTỨNGDỤNGCHOTỔCHỨC,DOANHNGHIỆP 55KẾTLU ẬN
Họcmáylàsựgiaothoagiữathốngkê cổđiểnvớikhoa họcmáytính.Mộtmụctiêuquantrọngcủangànhhọcmáylàlàmsaođểmáytínhthôngminhhơn,cók hảnăngh ọ c hỏivàhìnhthànhtrithứcmộtcáchtựđộngtừkinhnghiệmvàtrởnênhữuíchhơnt r o n g giaotiếpvớiconngười.Đâycũnglàmộttrongnhữngmụctiêubanđầucủangànhhọcmáy,vàonhữn gnăm1950trongthếkỷtrước.Giờđây,saunhiềunămpháttriểnvàđ ặcbiệttrongquãng5-
Họcmáycómộtvaitròquantrọngvớimọichínhphủtrêntoàncầu,trongviệcp h â n tích vàdựbáodữliệuthôngtinquốcgia,từquốcphòng- anninhtớiytế,tàichính,kinhdoanh, Dữliệuluônđượcthuthậpliêntụcbằngrấtnhiềuphươngtiệntro ngtừngg i â y Nhữngbộdữ liệuquýgiánàysẽđược xửlýbởihệ thốnghọcmáy.Thôngtinsaukhixửlý,phântíchchínhxácvàđưaranhữngchỉbáohiệuquảsẽ manglạirấtnhiềug i á trịvàlợithếchoquốcgiađó.
Có thểnói,trongtươnglai,họcmáysẽphủkhắpmọilĩnhvựctrongcuộcsống,m i ễ n lànơiđócód ữliệu.Nhờcóhọcmáy,thờitiếtsẽđượcdựbáochínhxáchơn.T ro ngytế,thôngtinbệ nhnhânđượcquảnlýsâutớinguồngenevàhỗtrợbácsĩlênp h ác đồđiềutrịphùhợp.Cáckê nhđầutưsẽcóthêmnhiềugợiýchínhxáchơn.Tuy nhiên,đểmáytínhhọctốt,nóphảicókhảnăngxửlýdữliệutốthơn:dữliệuđếntừviệcgiaotiếpvớing ườivàgiaotiếpgiữanhữngloạithiếtbịmáymócvớinhau.Khimáyg i a o tiếpvớingười,n óphảitiếpnhậnđượcdữliệumàngườicungcấpchomáy,hiểun h ữ n g thôngtinmàconngườit ruyềnđạtchonó.
Cốtlõicủahọcmáycũngchínhlàvấnđềsuydiễntừdữliệu.Sovớithốngkêcổđiển,điềumớ ilàmáyphảithựchiệnmộtcáchhiệuquảcácphépsuydiễnvàhọctậptừdữliệubằngcácthuậttoánhi ệuquảvàcơsởquảnlýdữliệuđồsộcủamáytính.Dođóh ọ c m á y cũng đượcxemlàmộttrongnhững lĩnhvực tiênphongcủathốngkêhiệnđạinóiriêngvàkhoahọcdữliệunóichung. Đốivớicácdoanhnghiệpviệcthuthậpthôngtinvàxâydựnghệthốngdữliệukháchh àngsẽtạođiềukiệnđểdoanhnghiệpcánhânhóatươngtác,tăngđộhàilòngt r o n g cáchđá pứngnhucầungườidùng.Điềunàyđặtratháchthứcchodoanhnghiệpt ro ngviệcquảntrịdữl iệu,đồngthờicũnglàcơhộigiúpdoanhnghiệpcóđượcsựđad ạ n g vềthôngtinđểthựchiệnph ântíchvàđưarađánhgiávềkháchhàngcủamình.
Khicóđượckếtquảđánhgiá,tứclàdoanhnghiệpđãnắmđượcinsight- nhữngn h u cầusâuxanhấtcủakháchhàng.Nhưvậy,việctiếptheodoanhnghiệpcầnlàmsẽl à vạchramộtchiếnlượctiếpthị“đánhtrúng” vàoinsightđóđểcóthểchinh phụcn hữngđốitượngmìnhmuốntiếpcận.
Khôngthấuhiểukhách hàng,doanh nghiệpkhôngthểthànhcông. Mộthệthốngdữliệukháchhàngđượcdoanhnghiệpquan tâmđầutưsẽgiúpnângcaodoanhs ố , giúpdoanhnghiệppháttriểnbềnvữngvàcóthểpháttriểnsả nphẩmdựatheomongm u ố n củakháchhàng.
Sự kếthợpcácthuậttoánhọcmáyvàophântíchdữliệukháchhàngcóthểứngdụ ng vàocácbàitoán như:
Mộtlà,dựđoánhànhvimuasắmcủakháchhàng:Cácthuậttoánvềphântíchd ữ liệuc óthểdùngđểxửlýcáchànhvimuasắm,mốiquantâmđếncácloạisảnphẩmnào,từđódựđoánxu hướngmuasắmđểđưaracáckhuyếnnghị,quảngcáophùhợpv ới nhucầucủakháchhàng.Các kếtquảhiểnthịgợiýsảnphẩmkháchhàngquantâm,tố i ưuhóakếtquảhiểnthịtìmkiếmthaychoviệ ckháchhàngphảiđidạocácsảnphẩmmộ t cáchngẫunhiên.Chẳnghạnnhưkhikháchhàngchọn xemhoặclựachọnvào giỏhàngsảnphẩmđiệnthoại,websitesẽgợiýcácsảnphẩmnhưốplưng,pindựphòng,sạc đi ện th oại, tai nghe,… Kếtquảphân tíchhành vikháchhàng sẽgiúpdoanh nghiệpxácđịnhđượcnhữngyếutốtácđộngđếnviệckháchhàngchọnmuasảnphẩmhayđăngkýdịc hvụ.Dođó,khitậphợpđượcdữliệuvềsởthích,thóiquencủakháchhàngđồngn g h ĩ avớiviệcgiánti ếpgiúpdoanhnghiệpbánđượcnhiềuhànghóahơn.
Hailà,phântíchdữliệukháchhàngtrựctuyếnlànguồndữliệuchophầnmềmtự độngc hămsócvàlưutrữthôngtinkháchhàng24/7(chatbot): Phântíchdữliệukháchhà nghỗtrợviệchìnhthànhmộthệthốngchămsóckháchhànglinhhoạt,tạogiátr ị hữuhìnhtrongxâyd ựngmốiliênvớikháchhàngvàchămsóckháchhàng.Bêncạnhđó,hệthốngchatbotcòncóvaitrò cungcấptínhnăngthuthậpdữliệukháchhàngtừ
57 cácđoạn đốithoại,sauđó,dữliệuđược phântíchđểnắmbắtnhucầumongmuốncủakhách hàngđểcóthểđưaracácphảnhồiphùh ợp,làmthỏamãnnhucầucủakháchhàng,hìnhthànhvàxâydựngmốiliênhệvớikháchhàng, giữchânkháchhàng.
Balà,hỗtrợquảnlýchuỗicungứng:Quảnlýchuỗicungứnglàmộttrongnhữngv ấn đềphứctạ pcủamọidoanhnghiệp.Đốivớingànhbánlẻ,quảnlýchuỗicungứngc ò n cóvaitròsốngcòn Khikháchhàngđặtmộtsảnphẩmtrựctuyến,kháchhàngsẽcầnbiếtgiácảsảnphẩm,hiệntrạn g,môtảcủasảnphẩm,sảnphẩmcònhànghaykhông,s ả n phẩmđangởkhohàngnào,chiphígiaohàn g,…
Tấtcảnhữngđiềuđólànhiệmvụcủ a chuỗicungứng.Hệthốngquảnlýchuỗicungứngsẽxácđịnhchí nhxáclượnghàngt ồ n khoởtấtcảcáckhohàngtạithờiđiểmđómộtcáchnhanhchóng,chínhx ác.Bảnc h ấ t củabánlẻlàkháchhàngđặthàngsốlượngítvànhucầumuađượchàngtro ngkh o ả n g thờigiannhanhnhất.Nếukhôngđápứngđượcđiềunày, cơhộibánhàngsẽbịv u ộ t mất.Mộthệthốngquảnlýchuỗicungứngtốthỗtrợdoanhnghiệp khôngbịlưuk h o quánhiềuhànghóa,giảmgánhnặngvềchiphítồnkhovìđãcóhệthốngphânphốih àn ghợplý.
Phântíchdữliệukháchhàngcóthểhỗtrợdựbáoxuhướnggiúpdoanhnghiệpd ựđoánsả nphẩmsẽcháyhàng haythờiđiểmnàokháchhàngsẽmuanhiềuhàngnhấtđ ể tăngkhảnăngđiềuphốihànghóa,giaohàn gkịpthờiđếnkháchhàng.Dữliệukháchhàngđượcphântíchcũnghỗtrợxácđịnhcáctuyếnđườnggia ovậnngắnnhất,xácđịnhnh àcungcấpgầnnhấtvớingườimuađểgiảmchiphívậnchuyển.Ứngdụn gdựbáovàp h ân nhómkháchhànggiúpdoanhnghiệpđưaramạnglướicungcấpvớiđộchínhxác,r õ ràngvà chitiếtnhấtcóthể.Mọisảnphẩmđểđếnđược vớikháchhàngđềuphảitrảiquamộtchutrìnhcầncósựphốihợpđồngbộtừnhàcungcấpđếnđơ nvịvậnchuyển,rồimớiđếncáccửahàngbánlẻ.Mỗibướcđềucóthểxảyranhữngrủironhưthiếus ótvềhànghóa,khobãi,quátrìnhvậnchuyển.
Bốn là,phântíchhànhtrìnhcủakháchhàngthôngquabảnđồhànhtrìnhkháchh à n g : Sửdụngdữliệ uphântíchđểdiễntảquytrìnhkháchhàngtươngtácvớidoanhn g h i ệ p , kháchhàngsẽmuah ànghoặcgiatăngnhậnbiếtvềthươnghiệucửahàng.Việcphântíchquátrìnhtươngtácgiữakh áchhàngvàsảnphẩm,kháchhàngvàcửahàngg i ú p doanhnghiệpnhậnbiếtđượccácvấ nđềcủakháchhàng.Từđótốiưuhóatừnghoạtđộngcụthểđểgiảiquyếttậngốcvấnđềkháchh àngđanggặpphải,xâydựngmốiq u an hệlâubềnvớidoanhnghiệp.
Nămlà,xâydựngmôhìnhchitiêuchotừngkháchhàng:Đặcthùcủadịchvụbánl ẻ làcósốlượng lớnđốitượngkháchhàngcócùngđặcđiểm.Nếukhôngứngdụngphânt í c h dữliệukháchhàngtrựct uyếnthìviệcxâydựngmôhìnhchitiêuchotừngkháchhàng làviệc bấtkhả thi.Chămsóc từngkháchhàngthông quaviệcxây dựngkếhoạchchitiêuchotừngkháchhàngcụthểđemđếnhiệuquảcaochocácdoanhnghiệ ppháttr i ển mảngbánlẻ.Thôngthườngkháchhàngmualẻsẽcótầnsuấtchitiêucaotheotừngt uần , t ừngthánghoặctừngquý.Nắmbắtđượcnhucầuvàtầnsuấtchitiêucủakháchh à n g , d o a n h nghiệp sẽcóhiệu quảkinhdoanhcaovớilượnghànghóamuađềuđặntừkhách hànglẻ.
Sáulà,phântíchtậpcácphântíchdữliệukháchhàngtrựctuyếnđểxácđịnhs ả n p hẩmcungứng:Kếthợpphântíchcùngmộtlúccácdữliệuvềthờiđiểm,giaodịch,t r u y ề n thôngxãhộ i,dự báothờitiếtđểxácđịnhchínhxácsảnphẩmphùhợpnhằmkịpt hờicung ứngchokháchhàngđúng thờiđiểm,tránhxảyratìnhtrạngkhanhiếmhàngh ó a.
Bảylà,cảithiệnantoàngiaodịchtrênInternet:Phântíchdữliệukháchhàngt rự c tuyếnđượcápdụngrấtphổbiếntrongviệccảithiệnbảomậtcácgiaodịchtrênInternet,p háthiệncácgiaodịchkháclạcủakháchhàngtừdữliệutổnghợphànhvicủak h á c h hàng,pháthiệnrac ácvấnđềvềantoànbảomậttrênmạngtừnhữngdữliệuđượct ổ chứccócấutrúcnhưlịchsửgiaodịch,h ồsơkháchhàng,hoặcnhữngdữliệuphicấutrúcnhưhoạtđộngcủakháchhàngtrêntrangwe b,ứngdụngmobilebankinghaysửd ụ n g m ạ n g xãhội.Phântíchdữliệukháchhàngtrựctuyếnđemlạihiệuquảlớnvà lợithếcạnhtranhvềsựantoànchongườisửdụngvàdoanhnghiệpbánlẻ.
Kháchhànglàyếutốquantrọngquyếtđịnhsựtồntạivàpháttriểncủadoanhnghiệ p.Bởivậydoanhnghiệpcầnxâydựnghệthốngdữliệukháchhàngđểcóđượcsựthấuhiểungườidù ng,tạođiềukiệnthuậnlợitrongviệcchămsóckháchhàngcũvàtăngk h ả năngtiếpcậnkháchhàngmới.
Nghiêncứunàyđãgiớithiệusơlượccácthuậttoánhọcmáyđượcứngdụngt r o n g phântíchdữliệukháchhàngtrựctuyếnđược,vàsửdụng02bộngữliệuchuẩnp h ổ biếnđể sosánhvàphântíchhiệusuấtcủacácthuậttoánhọcmáyđangđượcđềcậpđếntrongthờigiangầnđ ây.Cácthuậttoánhọcmáyđượcsửdụngsosánhđượclựac h ọ n d ự a trêncáckếtquảphântíchvàcôngbốcủa cácnghiêncứuliênquanđếnphântíchdữliệutrêncácphươngtiệntruyềnthôngxãhội.
OnevsAll,cóthểt h ấ y rằng,mặcdùcónhiềuthuậttoánđượcđềcậpđếnnhưngkhôngphảithuậttoán nàocũngphùhợpứngdụngtrongbàitoánphântíchdữliệukháchhàng.Việclựachọnthuậttoánphù hợpmanglạikếtquảtốtkhôngnhữngnângcaohiệuquảmàcònphânloạichínhxáccác nhómkháchhàngđểđưaracácchiếnlượcpháttriểntrongcáchoạtđộngs ả n xuất,kinhdoanhcủatổ chức.
1 ĐỗThanhNghị,(2010),Khaimỏdữliệu– minhhọabằngngônngữR(chương4 ) , NXBĐạihọcCầnThơ,2010.
(2019),Ứngdụngphântíchdữliệukháchhàngtrựctuyếntronghoạtđộngquảntrịquan hệkháchhàngtạicácNgânhàngthươngm ạ i ViệtNam,TạpchíKhoahọc&ĐàotạoNgânhà ng,Số203-Tháng4.2019
TrườnghợpAmazon,Số46(56)-Tháng05-06/2019P h á t triển&Hộinhập
(2016),Quảntrịquanhệkháchhàng(Lýthuyếtv àtínhhuốngthựchànhứngdụngcủacá ccôngtyViệtNam),NXBTàichính,2 0 1 6
(2005),“Tiếpcậnphươngpháphọckh ôn ggiámsáttronghọccógiámsátvớibàitoánphâ nlớpvănbảntiếngViệtvàđ ề xuấtcảitiếncôngthứctínhđộliênquangiữahaivănbảntrongmô hìnhvectơ”,K ỷyếuHộithảoICT.rda’04,trang251-261,HàNội2005.
(2015),"Môhìnhtíchhợpkhámphávàgánnhãnchủđềtiếpcậntheomôhìnhchủđề,"Tạpchí KhoahọcCôngnghệĐHQGHCM,vol.4 ,no.17,2015.
(2014),"Phântíchtầmảnhhưởngđốitượngtheochủđềtrongmạngxãhội,"Tạp chíKhoahọcCôngnghệ,Vi ệ n HànlâmKhoahọcCôngnghệViệtNam,vol.1B,no.52,pp. 101-111,2014.
( 2 0 1 4 ) , " D e t e r m i n a n t s o f OnlineB u y i n g BehaviorofS o c i a l MediaUser sinSaudiArabia:AnExploratory Study,"SSRNElectronic Jou rn al, DOI: 10.2139/ssrn.2519254,India,2014.
(2014),"Analyzingfactorsaffectingusers'behaviori n t e n t i o n tousesocial media:Twittercase,"InternationalJournalofBusinessandS o c i a l Science,pp.5-
(2004),"MultinomialNaiveBayesforTextCategorizationRevisited,"inProceed ingsofthe17thAustralianJointConferenceonAdvancesinA r t i f i c i a l Intelligence,AI’04,S pringer-Verlag,Berlin,Heidelberg,2004
RecSys'14,2014,SiliconValley,California,USA,pp357-360,ACM,NewYork,2 0 1 4
15 BasitShahzad,IkramullahLali,M.SaqibNawaz,WaqarAslam,RazaMustafa,A t i f Mashkoor,
(2008),“IntroductiontoInformationRetrieval”,NewYork,USA:CambridgeU niversityPress,ISBN:0521865719,9780521865715,2008.
(2015),“Article:ClassifyingShortTextinSocialM e d i a : TwitterasCaseStu dy”.InternationalJournalofComputerApplications1 11 (9 ): 1-
(2015),"RecommendingUsersandCommunitiesinSocialMedia,"JournalACMTrans.Knowl. Discov.,vol.10,no.2,2015.
22 Ristoski,P.,P.,Mika,P.andPaulheim,H.,(2018),“Amachinelearningapproachf o r p r o d u c t matchingand categorization”,Semanticweb,(Preprint),pp.1-22.
(2012),"ApplyingSupervisedOpinionMiningTechniqueso n OnlineUserReviews,"I nformaticaEconomica,vol.16,no.2,pp.81-91,2012.
(2014),"ConvolutionalNeuralNetworksforSentenceClassification,"inProceedingsoft he2014ConferenceonEmpiricalMethodsinNaturalLanguagePr ocessin g(EMN LP-2014),Doha,Qatar,pp.1746-1751,2014
(2012),"IdentifyingImplicitRelationshipsBetweenS o c i a l M e d i a U s e r s t oS u p p o r t S o c i a l C o m m e r c e , "i n P r o c e e d i n g s o f t h e 1 4 t h AnnualInterna tionalConferenceonElectronicCommerce,ICEC'12,Singapore,2 0 1 2
( 2 0 1 5 ) , " O p t i m i z i n g D i s p l a y A d v e r t i s i n g i n O n l i n e S o c i a l N etwo rk s"inProceedingsofthe24thInternationalConferenceonWorldWid eWeb,WWW'15,Florence,Italy,2015.
(2013),"PredictingPurchaseBehaviorsfromSocialM ed ia, "inProceedingsofthe22ndInte rnationalConferenceonWorldWideWeb,WW W'13,RiodeJaneiro,Brazil,2013.
( 2 0 1 4 ) “SocialM e d i a M i n i n g : A n I n t r o d u c t i o n ” , 1 1 0 7 0 1 8 8 5 4 , 9781107018853ed.,NewYork,USA:CambridgeUniversityPress,2 0 1 4
Nghiénelmmotsothuatto:inhpcmay(machinelearning)Iigdgc h o b a i t o a n x : i c d i n h c a c c h i t d e q u a n t h cuak h a c h hgctuy én
3.TBOG I A N T H CUTC,N09th g(khfingqu:i10th:ing)
Titthéng07nam2020den30th:ing 03ném 2021 4.CNNO.MDETO
Diachiccquan:BomonCNTTDre nthoaiccquan: mail:hoint2002@amai1.com, ho int@tmu.edu.vn
Hpc vi:Thacst NOsinh:1980 Dienthoai dido(ng:0912366012Fax:
Doiiv)congt:ievél inhvircchuyénmfin Noidung nghiéncfrucu duiycgiao
1 ThsTranThi.Nhung BomonCNTT,C huyénngénhQu:i ntrikinhdoanh
2 ThsNguye'nnThiDao PhongQLSV,Chu ye’nngénhkétoan
-Thu th(ap,tiénxulydulieu -Vietve kh:ichhang,quantém cuakh:ichhéng
6.1.Trongniroc(phénttch,dénhgiétinhhinhnghiéneduthucicli‘nhweciiadetaid'Vic:Ham,lit k é danhninecéccéngtrinhnghiéncii'u,téiliu célienquandéndétaidircrctri"cldankhidétihgiét angquanj
Baitoiinphénloaikh:ichhiingdongvaitroquantrpngtronghoatdongkinhdoanhcu:cactfichtic,doa nhnghiep.Phéntichdirlieuvekh:ichhangkhongchidonthuénlatrinhbayc:icconsovacac solieudequ:inlymacondoihoimotc:ichtiépca)nsausachontrongviecghilai,phéntichvatrinhbayciic ph:ithientheocachdehiéuhonnhamhotrytochuc,doanlnghieptronghoatdongquéntrichainsockhachha ng,hoatdongbanhangvamarketing.
Nhuc a c bailointhigdungtrongphathienbatthuéng ( An o mal y d e t e c t i o n ) , p h a t hiercacngoaiIe,vidunhuphathiengianla)nthetindung;Cacbaito:inPhathiencacquylua(Associ ationrules),vidu,trongmotsiéuthihaymottrangthuongmaidrentuhayviecphahiencacquyluatcuakhiich héngnhukhikhiichhéngmuamonhéngAthuéngmuakémmé›r
'trocacchiénlu pcquiingbasituph:tin;CacbaitonGomnhé›mhayphnloai(GroupingorClassification),vidu„nguciidiingdupcphann homtheohénhvi hoacthongtin hosocuahp,khachhg thuéogccnhilrigthoiquenvahanhvidpa trénsiryéuthichthi
Cacthuattoiinhpcmaydupegi‹iithieuvaMsgdpngtrongnhiéubaito:inkinhIenhuMsgdg trongmotsohoatdon gkinhdoanhchotochucnhuNguyenAnhDuyvaNguyenPhucQuynhNhu[8]dagi‹iithieuciicungdu ngcuaamazone.combaogom:Hethonggiftthieuc:nhén(PersonalizedRecommendationS y s t e m ) ; cot h e dungb o maylpck h : i c h hang(ComprehensivecollaborativeFilteringEngine)hoacgic›ithie uveCactukhoatrongKindleBook(RecommendationsfromKindleHighlighting)hayphénloaikhiichhéngdiratrén viC l i c k c h u o t ( O n e - C l i c k Ordering).H o a c t h i g d u n g t r o n g M o h i n h g i a o h é n g d u d o r
Trongnghiéncti:ucuaPharrThanhDucvacactaegiii[8]clingdecapdenc:ictingdqngcuaphntichdulieukha chhéngtronghoatdongquéntrichainsé›ckhachhgciiaGacngarhiingthuongmaiVietNam.Trongnghién ctic i i n g thay ronhfmglpiichmadulieuIbn(BigData)taorachocacngiinhiingthuongmai.Bangviecthuthapdirlieutu’c:ie nguonnhuc:ic websitethuongmaidien ,in gxahoizalo,cacnénI:ingdichvukhiicdethutha)p,phéntichvadexu:ithethongCRMhotrptronghoatdongch émsockhachhéng.
Trongnghiéncl i i cuaHuynhQuyét Thang,DinhThiThuPhuong[ 3 ] cungdecapdenmo ttronghaihu6ngtiépcankhiphanloaibaiviétciiangu‹iidiingbangTiéngViet,sudpngphuongph:i ph p c k h o n g g i é m s a t (Unsupervizedl e a r n i n g ) k ét hppt r o n g hpc c é › giéms i i t (Super visedlearning).Daylamottrongcackythuatquantr pngtrongbaitoén phiin1éipvanb a n diingchoTiéngViet.Phuongph:ipnaycotheapdungtrongcacbaito:indrrdoénmotkét quadauratudlilieudauvaohoacc:ic baitoanphénc(g : i n n h a u chocaccudli 1i‹iucocautictuongtpnhau,giémchiéudirlieudehotrccachinhthuchpckhac, ).
BaitongrinnhvénbénTiéngVietcondupcDoTrungThénh,DoPhuc[4]trinhbaytheohinhchude( TopicModel),dayciinglamothuéingtiépc:jndupcapdpngkhanhiéu luonc a cchtidetréncacphuongtientruyénthongxahoiratroncthip huongphapnaycungthuongdiipcapdungtrongcactrangtinInc dienthvacacdiénd® khiphénloaibaiviét.Nociingcotheapdungtrongbaiton phdnl o a i khachhgdnatréncacnho msanphamhoacc:icbai viétgi‹ithieusénphémctianguciidung.Bencanhcacdexuatvema)tphuongphapthiDoThanhNghi[6] ciingdexuatsudpngcacthuvientrongRdephtichvathuchiencacthucnghiem,macdiichuadexuatthuvi enchongfinngirTiéngViet,tuynhiénRhoa)cPythondeulanhmgcfingcphieuqu:itrongtingdungpht i c h dulieutheohuénghpcmay.
[1].JillDy ch é,Hu ynh MinhE m ( d i c h ) ,C l i n uangq u a n Ijmoiquanhek h é c h hang,
[2].LuuDanThp,LuongVGQuoc,Qucintriquanhekh‹achhang(LQthuyétvatinh huongthuchanhkgdpngciiacaccfingtyVietNam),NXBTaichinh,2016
[3].HuynhQuyétThang,DinhThiThuPhuong,“Tiépcn phu:eng phéphpckhonggrams a t tr onghpccégrimsatvéibartoanphcinl é p vanbantiéngViet verdéxuI cciitiéncongthu:c tlnhdolién quan giii:ahaiveinbénirongmohinhvectd’,Kyyéu HoithiioICT.rda’04,trang251- 261,HaNfii2005.
[4].DoTrungThénh,DoPhuc,"Méhinhtichhppkhcimphévergénnhanchédétiépcan theomohinhchudé,"TapchiKhoahpcCfingngheDHQGHCM,vol.4,no.17,2015.
?dé trongmangxéhoi,”TapchiKhoahpcCongnghe,Vi‹:nHnlémKhoahpcC f i n g ngheVietNam,vol.IB, no.52,pp.101-111,2014.
[6].DoThanhNghi,Khaimodfilieu— minhhpabangngfinngitR(chirong4),NXBDaihpcCNThe,2010.
[7].PharrThanhDucv:icactaegia,Engdungdu:liéuléntronghoptdongquéntri’quanhékhachhcing taicécNgénh‹angthu:engmpiV i é t Nam,TapchiKhoahpc&D:totaoNganhéng,So203-
[8].NguyenAnhDuy&NguyenPhucQuynhNhu,Dii:lienlén.Céchthu:ckhaithéccchoiIDdiilie u?Tru:énghppAmazon,So46(56)-Théng05-06/2019P h : i t trién&Hoinhap
Ngoainufic(phantich,dénhp= iélinhhinhnghiéneduthucicl‘inhvir c ciiadétaitrénthégiéi ,lit kédanhni n e céccéngtrinhnghiénc i i : u , tailiu céliénquandéndt a i dvcrctrichdliiik h i dénhgiat é n g quan)
Viec x:icd(nhcach vivaxuhué›ngquantdmdencacsénpham,d(chvucuanguoisudunghaykhachh:ing trénc ac phuo ngt i e n truyént h o n g xahoinhuc : i e website,c : i e mangxahoi,caccfingthongtin,v.v.ngaycén gdupechuyvadongvaitroquantrpngtrongcacungdijngthpctienviJ‹ ằ n h ycộ›thegiupcactochu:c, doanhnghiepvarigc i banh gitngar.théigranphénnhomkhachhéng,xacdmhtot honnhomkhachh gmuctiéuchotronghoatdongkinhdoanhcuahpnhucacnghiéncfrucuaAbdul-Rahimetal.,
[1],EzgivaS.Mardikyan[2],AmedieJacobetal.,[5], B e n c dfi,duatréncacphuongtientruyénthongx5hoiva c:icin gxfihoi,c:iecchhiiéénn ddiicchhquuéénngccaaoo ccuuaacc::iiccttoo cchhuucc,,ddooaannhhnnghhii‹‹i:ppccl uinnggddéénncchhuuyyéénn sangphuongthuctuoogt:ie,traod fi i giuanguoibinvangufiimuahonlacacchuongtrinhch ayquiingba,khfingtaptrungvaocacmuctiéucuthénhutruccday.HPvivaxuhii‹ngquantaincua ngufiisudgtréncacmangx5hoithuéirigduocthehienthongquacactweet,cacstatus,cacc:iulenhtimkié m(searchqueries),cacbaid:inhgi:i(reviews),v.v.cuangirc›idiingnéncacing x5hoi[1][2][5][15],
Cacnghiénctiunhamphathiencacchitdequantémvesén pham,d i c h ctiangircridiinghaykh:ichhéngtréncacphuongtientruyénthongxahoig:indaythuéngd’ithe ohaichinh: Huéogthunhatlataptrungph:intlchvecackétnoi,quanhebanbe, danhsachnhfmg n guoidupetheodfii,v.v.ctianguéidiingtréncacphuongtientruyénthongxahoinhutrong[2] [4]
[10], ;Huéngthuhailat(aptrungphantlchcacbaidang(status),cacthediinhdau,ciicbaichiasé,cacbinhlu a)nvac:icdoitupngduccsinhratrongqu:itrinhhoatdong cfiangu6idung tréncacphuongtientruyénthongxahoi[3][5][12][13][17],huéngtiépca)n thirhaiseloaibodupcvandeveciiutrticin g,haysukhokhn trongtiépca)nthongtinciinhannguciidiing(profile),viv(ay,xuhuéngcuacacnghiénc ti:uhiennay déutheociichtiépca)nnay.
Cachuéingtiépca(ndephéntichtrongcacbaitoannghiénct:uphinloaikh:ichh gtheo cacchudequantémtréncitephuongtientruyenthongxahoiduocchiathanhthanhhaihuéng c:icnghiénctiuthuéngdnatrénc:ichethongtudién,hethongin gtit(WordNet)vahethong binthehpc(Ontology)nhuc:ienghiéncucuaAllahyariMehdietat.,[4],D.M.Boyde ta1.,
[9],FarrsKatebandJugalKalita[12];Vi huéingtiépcanthongkéthuéngdnatréndoisanh,thongkétit l o ai duatréndodokhoénge a c h ho(accacphuongphap d o i chiéu d a dupexaydijrig,huéng tiépca)nnaythu6ngduocstddgnhiéudoivciicackiéudulieukhong theoquychuanvarfiirac,nhiéunhiéunhuciicnghiénctciiaA.EzgivaS.Mardikyan[2],B.Parantapaeta1., [6],Editor,Ijcsis[ 1 1 ] , L i u HuanvaRezaZafarani[17],
Cackythuatthuéngdungdeuéclupng,nghiéncttrongbaitoanphathienquan tainct ianguciidungthuéngsudpngcacthuatton khaiph:idulieunhu thuatkhaiphaqudiemkhachhéngduatrénphuongphiiphpccé›giamsatbangmangBayestrongnghiénctii aSmeureanuetal[19];H Mactal.,
[14]laisudungmohinhx:icsuatdephanloaivaundqngtronghethongkhuyénnghingu‹idtlng.Z.Yongz hengandP.Marco[22]sudqng hua(tthongkédnatrénN-gramdetrichchpncacdactrungcuanguciidung,v.v
Tuyvay,cacnghiénclitvaBrigdungdfiivfiivénbantiéngVietconnhiéuhanchédookhanvet achtit vacau.Trongcactiépcansud gchotiéngVietchuyéulacacbaitoa vermayhpcvectohotrp[I],c:ichtiép thuyéttapthfi[ 2 ] , cachtiépc a n thongkéhinhvi[ 3 ] , cacht i é p ca(nsfidungphuongphaph p c k honggiamsatvad:inhchi muc[4],cachtiépca(ntheoluatkéthpp[ 5 ] Theoc:ickétqu:itrinhbaytrongcaccongtrinhdothinhfmg cachtiépca)nneutréndéuchokétqu:ikh:itot.Tuynhiénkhocothesosn h cackétqua‹t r é n voinhauvitap diilieuthucnghiemcuamoiphuongph:iplakhacnhau.
Rahim,et al.,"DeterminantsofOnlineBuyingBehaviorofSocialMediaUsersi n S a u d i A r a b i a : A n Ex p l o r a t o r y
"Analyzingf a c t o r s a f f e c t i n g u s e r s ' b e h a v i o r i n t e n t i o n t ousesocialmedia:Twitterc ase,"InternationalJ o u r n a l of BusinessandSocialScience,pp.5-11,2014.
[3].A.M.Kibriya,etal.,"MultinomialNaiveBayesforTextCategorizationRevisited,"i nProceedingsofthe17thAustralianJointConferenceonAdvancesinArtificialIntelligence,
AI’04,Springer-Verlag,Berlin,Heidelberg,2004
[4].Allahyari,M e h d i , e t at."A b r i e f s u r v e y o f textmining:C l a s s i f i c a t i o n , c l u s t e r i n g a n d extractiontechniques."arXivpreprintarXiv:1707.02919,2017.
[5].Amedie,Jacob,"TheImpactofSocialMediaonSociety".AdvancedWriting:Pop Culture Intersections.http://scholarcommons.scu.edu/engl1 7 6 / 2 , 2015
[6].B P a r a n t a p a , e t a l , " I n f e r r i n g U s e r I n t e r e s t s i n t h e T w i t t e r S o c i a l N e t w o r k ,Proceedingsofthe8thACMConferenceonRecommenderSystems,RecSys'14,2014,S iliconValley,California,USA,pp357-360,ACM,NewYork,2014.
[7].BasitShahzad,Ikramullah Lali,M.SaqibNawaz,Waqar
Aslam,RazaMustafa,AtilMashkoor,"Discovery andc l a s s i f i c a t i o n ofu s e r i n t e r e s t s ons o c i a l m e d i a " , InformationDiscoveryandDelivery,https://doi.org/10.1108/IDD-03-2017-0023
[8].Collin,P.,Rahilly,K.,Richardson,I.&Third,A.TheBenefitsofSocialNetworkingServices:Aliteraturere view.CooperativeResearchCentreforYoungPeople,TechnologyandWellbeing.Melbourne,2011 [9].D.M.Boyd,eta1., "SocialNetworkSites:Definition,History, andScholarship,"JournalofComputer-MediatedCommunication,vol.13,no.1,pp.210-230,2007.
[10].D.M a n n i n g , e t a 1 , I n t r o d u c t i o n t o I n f o r m a t i o n R e t r i e v a l , N e w Y o r k , U S A : CambridgeUniversityPress, ISBN:0521865719,9780521865715,2008. [H].Editor,Ijcsis.(2016).ANlethodforMiningSocialMediatoDiscoveringInfluentialUsers.10.6084/
[12].FarisKatebandJugalKalita.Article:C l a s s i f y i n g Sh or t TextinSocial4le dia:TwitterasCaseStudy.InternationalJournalofComputerApplications111(9):1-12,February2015.
[l3].G.SharadandG.Daniel,"PredictingIndividualBehaviorwithSocialNetworks,"MarketingSci ence,INFORMS,Linthicum,Maryland,USA,vol.33,no.1,p.8293,2014.
[lº].H.Ma,H.Yang,M.Lyu, a n d I.Ring.S o R e c : Social RecommendationU s i n g ProbabilisticMaPxFactorization.Proceedingsofthe17thACMConferenceonInformationandKnowl edgeManagement,page931 940.NewYork,NY,USA,ACM,(2008)
[16].LiLei,"RecommendingUsersandCommunitiesinSocialMedia,”JournalACDITrans.Knowl. Discov.,vol.10,no.2,2015.
[17].LiuHuanandRezaZafarani,"BehaviorAnalysisinSocialMedia,”ArizonaStateUniversity,A rizona,USA,2014.
[18].Ristoski,P.,Petrovski,P.,Mika,P.andPaulheim,H.,2018.Amachinelearningapproachf orproductmatchingandcategorization.Semanticweb,(Preprint),pp.1-22.
[19].SmeureanuIon,etal„"ApplyingSupervisedOpinionMiningTechniquesonOnlineUserReviews,"Informatica Economica,vol.16,no.2,pp.81-91,2012.
[20].Y K i m , "Convolutional NeuralN e t w o r k s for SentenceC l a s s i f i c a t i o n , " inProceedingsofthe2014ConferenceonEmpiricalMethodsin NaturalLanguageProcessing(EMNLP-2014),Doha,Qatar,pp.1746-1751,2014
[21].YangChristopherC,eta1.,"IdentifyingImplicitRelationshipsBetweenSocial MediaUserstoSupportSocialCommerce,"inProceedingsofthel41hAnnualInternationalConferenceonE lectronicCommerce,ICEC'12,Singapore,Singapore,2012.
[22].Z.Abbassi,etal.,”OptimizingDisplayAdvertisinginOnlineSocialNetworks„"inProceedingsofthe24thInt ernationalConferenceonWorldWideWeb,WWW'15,Florence,Italy,2015.
[23J.Z.YongzhengandP.Marco,"PredictingPurchaseBehaviorsfromSocialMedia,"inProceedingsofthe22ndInternationalConferenceonWorldWideWeb,WWW'13,RiodeJaneiro,Brazil,2013.
[24] Zafarani Reza, et at., Social Media Mining: An Introduction,1107018854, 9781107018853 ed., New York, USA: Cambridge University Press, 2014.
6.3 Danh muc c:ie cling trinh da cling be thuoc linh viyc ciia de‘ Hi ciia chit nhi(m va nhiiog thanh vién tham gIa nghién elm (hp va tén t:ie gia; bai b:in; an pham, c:ie yéu to vé xuat ban) a) Cfia chfi nhi(m de tai:
[1] Thi Hoi Nguyen, Dinh Que Tran, Gia Manh Dam, Manh Hung Nguyen, Estimating the similarit:y of social network users based on behaviors Vietnam Journal of Computer Science (2018) 5: 165—175, Springer Opens
[2] Nguyen Thi Hoi, Tran Dinh Que, Vdc lvpng quan tain ngu:ii d’ung trén mpng xa hoi du:a trén tu:eng tu: béi viét, Tap chi Khoa hpc va Cfing nghe - Dar hoc Da Nang (JST-UD), ISSN
1859-1531—So7(128).2018 [3].NguyenThiHfii,N g h i é n c t ticdongc i i a C M C N 4.0terHTTTq u é n t r i q u a n h e k h a c hr’cing,KyyenHoith:toQuoct
[4].NguyenT h i Hot,T r a n D i c h Q u e ,Estimating user’s i n t e r e s t onsocialn e t w o r k s b a s e d o nbehaviors,JournalofScienceandTech nologyon InformationandCommunications,Vol3,CS.01(2018).9-15,ISSN2525—2224 [5].D i n h QueT r a n , ThiH o i N g u y e n , PhuongThanhP h a m ,Modelinguser’si n t e r e s t s , similarit:yandt r u s t w o r t h i n e s s b a s e d o n vectors o f entries i n socialn e t w o r k s , SoutheastAsianJournalofSciences,Vol.09,No1(2020),pp.01—10 dhngtructuyénVietNam,TapchiKinhIeChauA—ThiiiBinhDuong—Soth:ing7/2016. b)Cfiac:iethanhviénthamgia nghiénelm
[1].TranThiNhung,3 7 chisodolironghieusuathoatdongmarketingso,TapchiKinhté Ch:iuATh:iiBinhDuong,So543-Thiing6,2019.
[2].TranThiNhung,Tiénso-Thachthucvac‹h o i doivciisuph:ittriéncachinhthfic thanhton t a i VietNam,TapchiKinhIeChauAThaiBinhDuong,So564-Thing5,2020
Cacphuongti(ntruyénthongxahoi(socialmedia)xuathienvaonhtingnémcuoithe 0d5taodiéukienthua)nloichohiingtrieunguciitrénthegiciikétriot,thiét1a(pvaduytrica ca)nvachiaséthongtinv6inhau.S u énhhu6ngctiacacphuon tentruyénthongxahoidenmpima)ttrongdcisong hoidang ocuachfingtrongnhiéu linh cda)cbietliigi:todpc,kinhdoanh,vacacvdndexa hoinhphathienliradiio,phiithienI:innlytoiphptrongnghiénermcuaZafaraniRezaetal.,[24]v:i
D.M.Boydetat[9].Bencanhnhfmgnguciidiingciinhén,cactfichuc,doanhnghiep,cacnhfiqu:inlyclingsudungc:iep huongtientruyénthongxahoinhumotkénhtruyénthongm‹ii,vfiinhiéuuuthe nhu chiphitiétkiem,cohieuqualantruyéncaotrongc:iehoatdongsanxuatkinhdoanhctiacactochuc,doanhnghi epA.Abdul-Rahimeta1.,[1],AmedieJacobeta1.,[5],HsinchunChenetla.,[15].
Themnua,v‹isuphattriénkhongngimgcuacacthiétbididongnhudienthoaithongminh(smartph ones),thiétbicémtaythongminh(tablet),maytinhbang(Ipad),v.v.cungvfiihatangccstviénthonglantfiarongkhap, hethongmangInternetcongcongphfisongmiénphicicacthénhpholéndagiupchoc:icmangxahpingaycang phobiénvalanrong.Dodo,caccanhanvacactochuc,doanhnghiepngayciirigchuynhiéuhondenc:ieihig dpngctiamangxahoivaohotrpcachoatdongkinhdoanh,hoatdonggiaoduc,cacbienph:ipqu:in1yvadiéuhanh tronghoatdongcuacactochuc,doanhnghiep.
Motchiénlupckinhdoanhduatrénquéntriquanhekhiichhiingvivayctcosudoixukh:ienhauvfiinhfmg khachhéngkhacnhau.Motdoanhnghiepph:iicokhanéngnha(ndrenvanha)nranhmgkh:ichh:ingcanh nkh:ienhauvaph:iibiétdiéugikhiénkhachhiingnaykhackhachhangkia.Cancotuongtaccanhdnvciibatkikhachhé ngnao,dfiikhiphaithaydoihanhvidedapthignhucaucpthecuakhachhangdohayphathiendwtcnhucau,maquant rpnglaphaidemlailpinhuantoidachokhachhangcungnhudoanhnghiep,viecMsgdungphanrichdulieu(DataAn alysis)déingvaitroquantrpngtrongviecxacdmhduocdmhhuéngvamuctiéukinhdoanh,khamph:iynghiada ngsaucacconsovasolieutrongdirlieucuakhachhangvacodonggopvaoviecraquyétdinhkinhdoanhcuacactochu c,doanhnghiep[1][2].
Thongtinkhiichh:ingcungcungcapchodoanhnghiepkhanéngphanbietkhachhangcuaminhv‹iinhiing nguciikhiic.ThongtinkhiichhénglamottaisénkinhIe,panhumotph:incuathiétbi,ohamiiyhaybangséngché,giupd oanhnghiepcarthiensénxuat,giamchiphibinhquén.Motkhicfingtybatdaucoquandiemkinhdoanhcuthev ekhachhang,congtysebatdauxemkhachh:ingnhuHisancandupcquiintrichudaonhunhtingHisénkhac.Clkhiac anht:iichinh,chiénlupckiéunaysécokhuynhhurigtaptrungnhiéunguonluccuatochuchonnhamthoamiinn hucauciianhfmgkhachhangdodedemlaigiatridaihancliodoanhnghiep,trongkhidogiérihanho)acgiiim ngufinlucvciinhiingkhachhéngcogi:itrithaphon.[2]
Taoravaqu:intriquanhekhiichhangcanhancé›thethatbainéukhongcobonthtobaogom:Nha)ndienk hachhéng;Phanbietkhachhéng;Tiiongt:icvfiikhachhéngvaDoixu:tuybién.Dedatdupc4yéuton:iythic:ietochi ickinhdoanh,c:icnhanghiénctiudadnararatnhiéuphuongph:ipvahuéngtiépca(nkhiicnhau,tuynhiéntrong nhiingnémganday,kéthpphpcmaytrongphantichdlilieukinhdoanhnoichungv:idirlieuvekhachhéngnoiriéng
“ conhiéu cénhciichmangcfingngh(lanthu4danglanrpngthihpcin:iykéthppphéntichdulieuc tuyénduciccoilitxuh uéngm‹iitrongKingdpngcfingnghethongtinvaoc:iehoatdongkinhdoanh.
Dod o , c h i i n g t o i c h p n d é t a i “Jg'6/ézicfiiim p f s f it h u n t t o a n / i p c m é y (machinelearning)Engdung chobiil loanxacd[nhcacchitdéquantainciiakhachhangtrpctuyén”nhamdnaramotbaocaotongquanve hpcmiiyvacacthuatton hpcmayphfibiéndupckgdungchobaitoanxacdinhcacchitdequantainve sanphv a dichvucuakhachhangtryctuyéntréncacphhiiiioonngtientruyéénnthongxfihoi.Bencd é › , d eLaiclinglaHilieuhotrpquuaatrinh t ctuyénvanhumpthuéngtiépcantrongmarketingcanhnhé›akhachhéng.
Thfrnhat1:ihethonghoacackh:iiniemv e hpcin:iy,c a cthuattoans i r dungtrongphéntich dlrlieuduatrénhpcmayv:ic:ickgdijngcila hpcmaytrongcacbaitonkinhté.Thuhailatrinhbaythuctrgringd u n g phéntichd i i lieukh:ichh: ingvakhachhéngIc tuyénbangcaccongcucongnghemoi,s a u dotrinhbaybaitoanphantichdiil ieukhachhéngphucd u baociingnhux:icdmhc:iechudequantémcuakhachhéngdrraa•énhpcin: iy.Thuba,det:ii hpcmayphobiéntinigdpngtrongphéntichdulieukh:ichhangctuyé nva sosénhmucdophuhppciiacacthu:ittondoidulieulichsucuakhachhangthuthapdupemencacphuong tientruyénthongxahoihiennay.Cuoic g, dnatrénthuctr gvakétquaihucnghiem,deHi dnaramotsoth:toluanvahémychocaccactochuc,doanhnghiepdacbietcactoché:c,doanhnghiepcotuon gI:ieverkh:ichhrigtrénc:iephuongtientruyénthongxahoinhuwebsite,congthongtingiaitri, cacin gxahoihayc:icmaytim kiem.
CacthuattoanhpcmiiyEngdungtrongnha(ndienvaphnloaikh:ichhéng ctuyén, c:icphirongtientruyénthongxahoicokgdungtrongdichvpbinhr i g t ctuyén.
C:iethuatton hpcin:iytingdungtrongbaitoanphénloaidupctingdgtrongc:iebaiton:Phnloaikhachhéng trongthigdghethonglchuyénright.s:inpham(RecommendationSystem),Phénloaikh:ichhangtron gbaiton tiépthicomuctiéu(TargettedMarketing)v aPhénloaikhach h:ingtheociicphénkhuc(CustommerSegmentation)
11.1 Noidungnghiéne l m (MfiI:ichitiétnhfrngnoidungnghie“nc f r u ciiadéHi)
3.3.1.XacdinhchudéquanI:innduatrénlichsirmuahéng 3.3.2.Xacdmhchudequantaindnatréncauticmangvacaclienkét 3.3.3.Xacdinhchfidequan trimdiratréncacdoitupngsinhrabéinguciidiing 3.4 Engdpngcuabaiton xacdmhchudequantaincuakhachhang
3.4.1 EngdungtrongcacheInv (Recommendationsystems) 3.4.2 Engdungtrongcacbaiton dpbao(Forecastingproblems) 3.4.3.Engd u n g Oongphéntichdiilieukhachh g(Customer d a t a analysis)
Chu:eng4.Thpcn g h i in,dénhgiév a théoluan
STT C:ienoid u n g , clingvi(cth;ychi(n
1 X:iydijngthuyétminhdetai Banthuy ét mi nh c h i t iétcuadetai
2 Thuthaptailieu,phantich,danhgia Danhsachtailieutham 30/05/2020- Hoi,
3 Nghiénelm tailieu,viétchuongI BaocanchuongI 30/05/2020- Hoi,Nhung
5 Nghiéncitutailieu,viétchuong2 Baocaochuong2 30/08/2020- Nhung,Dao
7 NghiénctiLai lieuviétchuong4 Baocao chuong4 30/11/2020- Hoi,Nhung
8 Vietb a o c a o to ng k é t d e tar( t h e o Banbaoc:totongkét 31/01/2021- Hoi m› ) 30/03/2021
Sénphamk h o ah p c ( C a c co n g trinhkhoah p c s éduocc f i n g bo:s a c h , baibaok ho a I
B:tocaodeHilamotHilieuhtmichchonhiirigaiquanthindenvandehpcmiiy,cacthuatton hpcmaydupcKingd gtrongphiintichdulieukinhté.Tailieucothesudungcho sinhviénvagi:ingviénchuyénnganhquantrihethongthongtinv a qu:intrithuong maidierInciiaTruéngDaihpcThuongmaitronghpcta(pvekhaith:iccc scdulieuctuyén,kg dgtrongqun trichi n sockh:ichh:ingviimarketingt ro ng thuongmaidientfr.
Kétquitdetaicotinhkgdpngtronggiiingdayvadaotaovequ:intri hethongthongtin,quiintrithuongmaidientovamarketingtctuyén.D(acbiet,baocaocuadeHinghi éncurlamottailieuhiiuichgiupnguoidayvanguoihpctrongcachocphan “(thongthong tinquénIj”,hpcphan“ M a r k e t i n g thirongmaidf? ?/é”va“Khaiphédvlieutrongkinhdoanh”. 14.2 Dfiivmilinhvidekhoahpcvacfingngh(coliénquan
Baocaokétqu:ideHilatailieuthamkhaokhongnhiingc h o sinhviénchuyénngénlqué ntrih‹:thongthongtinkinhIevachuyénng qu:intrithuongmaidientumaconlata’lieuthamkhaochocacchuyénng cfilienquandenIi g dunghpcmaytrongphéntichdlieukinhIenhumarketing ctuyén,cacbaitoéndybaotrorigkinhIe.
Baocaokétq ua detai1:itail ie u thamkhiiototcho giiingvién,s i n h viénc h u y é n ng qu:intri.hethong thongtin,qu:intrithuongmaidientuvaMarketingc tuyén
Ngirfii tién ng:iy thiyc
Ng:iy08théng07ném2020 Chfinhi(mdétai ( ,hpvaten)
0¿lk§£kIJiC O L L E G E 0FE£0FI0IKICS-
SOFIA8IIIYERSITY”ST.K L l l 4 E fl T 0 k R lD S
H6I0NGTOIKYNI§M60NAM THANHL§PTRI/0NGD§IH§CTH6/0NGM§I
Withtheexplosionofsocialmediaine- commercesuchasserviceportals,websites,socialnetworks,a n d onlineentertainmentchannels, i t h a s createda fertileg r o u n d f o r researcherstocustomerstudy.Moreover,withthespread ofthe4.0technologyrevolution,machinel e a r n i n g i s c o n s i d e r e d a veryusefult o o l f o r o n l i n e businessforecastinga n d a n a l y s i s problems.Basedo n t h e s e t w o t r e n d s , t hepaperp r o p o s e s a w a y t o detectt h e interesttopicso f onlinecustomerst o a p p l y t o cust omerd a t a analysisproblems,forecastingproblemsorapplicationinthe recommendationsyst em.Theapproach ofthe paperisbasedonanalyzingcustomerhistoricaldata.Thegoali stoanalyzeandclassifytopicsofinteresttocustomersbasedonanumberofsupervisedmac hinelearninga l g o r i t h m s
Keywords: interestofcustomer,machinelearning,topic discovering,textmining, socialme dia.
Vớisựbùngnổcủacácphươngtiệntruyềnthôngxãhộitrongthươngmạiđiệntửn h ư các cổngdịchvụ,cáctrangweb,mạngxãhội,vàcáckênhgiảitrítrựctuyếntạonênmảnhđấtmàumỡcho cácnhànghiêncứuvềkháchhàng.Hơnthếnữa,vớisựlantỏacủacáchmạngcôngnghệ4.0,thìhọ cmáyđượcxemlàcôngcụrấthữuíchchocácbàitoánd ựbáovàphântíchdữliệukinhdoanhtrựct uyến.Dựatrênhaixuhướngnày,bàibáođềxuấtmộtcáchthứcpháthiệncácchủđềquantâmcủakh áchhàngtrựctuyếnđểứngdụngvàocácbàitoánphântíchdữliệukháchhàng,bàitoándựbáo hoặcứngdụngtronghệth ốngkhuyếnnghịsảnphẩm.Hướngtiếpcậncủabàibáodựatrênviệcp hântíchdữliệulịchsửcủakháchhàng.Mụctiêulàphântíchvàphânloạicácchủđềquantâmcủakh áchh à n g d ựa trênmộtsốthuậttoán họccógiám sátcủahọcmáy.
Từkhóa: quan tâmcủakháchhàng,họcmáy,phát hiệnchủđề,khaiphávănbản,phươngtiệntruyềnthông xãhội
Int h e c o n t e x t o f t h e 4 t h industrialrevolutionandt h e spreado f s o c i a l media,machinelearningisconsideredausefultoolforforecastingproblemsanddataanalysisinbusin ess.So,w eproposeasocial interestdiscovery approachbasedo n customer history data suchascommentso n websites,s t a t u s o n socialnetworko r e n t r y o n portali n this paper.Discoveringcommoninterestssharedbycustomeronsocialmediaisafundamentalproble minsocialnetworkssinceitisthebread-and-butterfunctionofbuildinguser communitiesofthesameinterests,findingthedomainexpertsindifferentsubjects, identifyinghotsocialtopics,andrecommendingpersonalizedrelevantcontents.
Therearet w o k i n d s o f e x i s t i n g approachest o discoversharedinterestsi n socialmed ia.Oneisuser- centric,whichfocusesondetectingsocialinterestsbasedonthesocialconnectionsamong custo mersorcustomer;theoneother isobject- centric, whichdetectscommoninterestsb a s e d o n t h e commono b j e c t s fetchedbycustomers o r customersi n a socialcommunity.
Intheuser-centricapproach,Schwartzetal.,[14]andAli-Hasanetal.,
[3]analyzedcustomers’socialoronlineconnectionstodiscovercustomerswithparticular interestsore x p e r t i s e foragivenuser.Intheobject- centricapproach,Sripanidkulchaietal.,[15]andG u o etal.,
[ 9 ] exploredt h e commoninterestsamongcustomersb a s e d o n t h e commonobjectstheyfetc hedinpeer-to-peernetworks.However,withoutotherinformationofthe objects,itcannotdifferenthevarioussocialinterestsonthesameobject.Furthermore,in theInternetsocialnetworkssuchasdel.icio.us,baidu.commostofobjectsareunpopular. Thus,itisdifficulttodiscovercommoninteresttopicsofcustomersorusersonthem.Ourapproa chfocuseson directlydetectingsocialinterestsor topicsbytakingadvantageofusercontentswhichareproducedbycustomersorusersonsocialmedia
Inthispaper,wediscovercommonintereststopicsharedbygroupsofcustomeronsocial m e d i a byutilizingh i s t o r y d a t a s u c h ass t a t u s o n socialn e t w o r k s , commento n websites,opinions on portal orgroupscommunities onothers.Wefocusoncustomer’stextdatat o discovert h e i r interesto n socialmedia.Fourt e x t m i n i n g algorithmsi n machinelearningareusedtoprocessingbecausemachinelearningiscon sideredtheoptimalapproachinprocessingtextdata.CNN(Y.Kim,2014),MNB(L.Buiti nck,2015),W2V(Kowsari.K,2019)andK-
NN(Kowsari.K,2019),theyareratedasthelatestimprovedalgorithmsof machine learninginanalyzingandprocessingtextdata.
In(Alex Smola andS.V.N.Vishwanathan,2008)and(TangJiliang,etal.,2013),machi nelearningc a n appeari n manyguises.I n t h i s sectionw i l l discussa n u m b e r o f applicatio ns,thetypesofdatatheydealwith,andfinally,weintroductsomeofalgorithmswhichareu s e d t o classifyinginterestt o p i c o f o n l i n e customerso n socialmedia.T h e problemst h a t ares o l v e d bymachine l e a r n i n g i n businessinlcudes:pageranking,collaborativefiltering,a u t o m a t i c translationo f documents,s e c u r i t y a p p l i c a t ions,namede n t i t y recognition,s peechrecognition,problemsofclassification,etc.
Mostreadersw i l l befa mi li a rw it h t h econcepto f webp a g e ra nk in g.T h a t i s , t h e processofsubmitting aquerytoasearchengine,whichthenfindswebpagesrelevanttotheq u e r y andwhichreturnsthe mintheirorderofrelevance.Thatis,thesearchenginereturnsa sortedl i s t o f w e b p a g e s givena query.T o a c h i e v e t h i s goal,a searchengineneedst o ‘know’whichpagesarerelevantand whichpagesmatchthequery.
Aratherrelatedapplicationi scollaborativefi l t e r i n g.InternetbookstoressuchasAmaz on.comorvideorentalsitessuchasNetflix.comusedthisinformationextensivelytoenticeuserst opurchaseadditionalgoods.Theproblemisquitesimilartotheoneofwebpageranking.A s b e f o r e , i t wantst o o b t a i n a sortedl i s t T h e k e y differencei s t h a t ane x p l i c i t queryis missingandinsteaditcanonlyusepastpurchaseandviewingdecisionsoft h e usertopredictfuture viewingandpurchasehabits.
Ane q u a l l y ill- definedp r o b l e m i s t h a t o fa u t o m a t i c t r a n s l a t i o n o f d o c u m e n t s.A t o n e extreme,it couldaimatfullyunderstandingatextbeforetranslatingitusingacuratedsetofrulescraftedbyaco mputationallinguistwellversedinthetwolanguagesthatwouldl i k e to translate.T h i s i s a rath erarduoust a s k , i n particulargivent h a t t e x t is n o t alwaysgrammaticallycorrect,n o r i s t h e d ocumentunderstanding- partitselfa trivialone.T h i s machinelearningapproachprovedquitesuccessful.
Manysecurityapplications,suchasaccesscontrol,usefacerecognitionasoneofi t s components.Thatis,giventhephoto(orvideorecording)ofaperson,recognizewhot h i s p ersoni s Ino t h e r words,t h e systemneedst o c l a s s i f y t h e facesi n t o o n e o f manycategori esordecidethatit isanunknownface.
Anotherapplicationwheremachinelearninghelpsisthe problemofnamedentity recognition.Thati s , t h e problemofi d e n t i f y i n g entities,suchasplaces,titles,names,actio ns,etc.fromdocuments.Suchstepsarecrucialintheautomaticdigestionandu n d e r s t a n d i n g ofdocuments.
Otherapplicationsw h i c h t a k e advantageofl e a r n i n g ares p e e c h r e c o g n i t i o n ,t h e recognitionofhandwriting,trackpadsofcomputers,thedetectionoffailureinjetengines ,avatarbehavior in computergames,directmarketingandfloorcleaningrobots.
Weconcludethissectionbydiscussingtheproblemofclassification,sinceitwillse rveasaprototypicalproblemforasignificantpartofthispaper.Itoccursfrequentlyinpractice:f o r instance,w h e n p e r f o r m i n g discoveringt o p i c interesto f customers,w e areinterestedi n ayes/noanswerasto whether contentcontainsrelevantinformation or not.
Onsocialmedia,s u c h asFacebook,Google+andT w i t t e r a r e b e c o m i n g i n c r e a s i n g l y importantmethodsofcommunication andsocialinteractionbetweenpeople Socialmediaisalsoaprominenteconomicdomain,withsocialnetworksbecomingoneoft h e mostimportantadvertisingplatforms(CharlesSteinfield,etal.,2017),
(Z.e.a.Abbassi,2015).Thehugenumbersofpeopleusingsuchservicesandtheenormous volumeo f datareadilyavailablefromsuchnetworksmakethemaverycompellingresearchtarg etf o r socialscientistsanddata- miningexperts.Animportantpieceofinformationregardinga consumerforwhichwearetryin gtopersonalizeadvertisingcontentistheirinterestareas(Z.e.a.Abbassi,2015),
( G u y Ido,etal.,2013).Forexample,a p e r s o n interestedi n t e c h n o l o g y i s l i k e l y t o b e a bettera d v e r t i s i n g targetf o r a c o m p a n y s e l l i n g computergadgetsthanapers onwhohasnointerestintechnology.Unfortunately,informationregardingtheinterestsofauseri snotalwaysreadilyavailable,soitneedstobeinferredfromotherinformationregardingthecon sumer.
Itisusefultocharacterizelearningproblemsaccordingtothetypeofdatatheyuse.T h i s i s a greathelpw h e n encounteringnewchallenges,s i n c e q u i t e oftenproblemso n similardata typescanbesolvedwithverysimilartechniques.
Vectorsconstitutet h e m o s t basice n t i t y w e mightencounteri n o u r work.F o r i nstance,alifeinsurancecompanymightbeinterestinginobtainingthevectorofvariables( b l o o d pressure,heartrate, height,weight,cholesterollevel,smoker,gender)toinfer thel i f e ex pectancyofapotentialcustomer.
Lists:Ins o m e casest h e vectorsw e o b t a i n m a y c o n t a i n a variablen u m b e r o f features.Forinstance,aphysicianmightnotnecessarilydecidetoperformafullbatteryofdiag nostictestsif thepatientappearsto behealthy.
Setsmayappearinlearningproblemswheneverthere isalargenumberofpotential causesofaneffect,w h i c h a r e n o t w e l l determined.F o r instance,i t i s r e l a t i v e l y e a s y t o o b t a i n dataconcerningthetoxicityofmushrooms.Itwouldbedesirabletousesuchdatato inferthetoxicityof anewmushroomgiveninformation about itschemicalcompounds.
Matricesareaconvenient meansofrepresentingpairwiserelationships.Forinsta nce,incollaborativefilteringapplicationstherowsofthematrixmayrepresentuserswhereasthec olumnscorrespondtoproducts.
Imagescouldbethoughtofastwodimensionalarraysof numbers,thatis,matrices.T h i s representationisverycrude,though,sincetheye x h i b i t spati alcoherence(lines,shapes)and(naturalimagesexhibit) amultiresolutionstructure.
Videoaddsatemporaldimensiontoimages.Again,wecouldrepresentthemasathreedi mensionalarray.G o o d algorithms,h o w e v e r , t a k e t h e temporalcoherenceoft h e imageseq uenceinto account.
Compoundstructuresarethemostcommonly occurringobject.Thatis,inmost situationswewillhaveastructuredmix o f differentdatatypes.Forinstance,a webpagemightco ntainimages,text, tables,whichinturncontainnumbers,andlists,allofwhich mightconstitutenodesonagraphofwebpageslinkedamongeachother.Goodstatistical modellingtakessuchdependenciesandstructuresintoaccountin order to tailor sufficientlyflexiblemodels.
Inthissectionwebrieflyintroduce4algorithmsthatareratedasthemosteffectivei n anal yzingcustomerdatafromtext.Theyarealsousedinthepapertoempiricallydetectinteresttopics ofonlinecustomerdataine-commerce businesses.
- CNNalgorithms:AConvolutionalNeuralNetworks(CNN)-baseda u t o - e n c o d e r canbedividedinto twomainsteps(encodinganddecoding)(Kowsari,K.etal., 2019).Itiso n e ofdeeplearningalgorithms- isasetofmachinelearningalgorithmsbasedonmulti- layernetworksandinsupervisedapproaches.ConvolutionalNeuralNetworksisextensiono f t raditionalmulti- layerperceptron,basedon3ideas:localreceivefields,sharedweightsandspatial/temporalsub- sampling.C N N i s multi-layerneuralnetworksarchitectureincludes:Convolutional+Non- LinearLayer;Sub-samplingLayer;Convolutional+Non-
- MultinomialNaiveBayes:In(A.M.Kibriyaetal.,2004))presentedM u l t i n o m i a l N B implementstheNaiveBayesalgorithmformultinomiallydistributeddata,andisone of thetwo c l a s s i c Naive Bayesv a r i a n t s usedintext classification(wherethedataaretypicall yrepresentaswordvectorcounts,althoughTF.IDFvectorsarealsoknownt o workwellinpractice) Thedistributionisparametrizedbyvectorsforeachclasswherei s t h e n u m b e r o f features( i n t e x t classification,t h e s i z e o f t h e vocabulary)andi s t h e p r o b a b i l i t y offeatureap pearingin asamplebelongingtoclass
- Word2Vec:In( T M i k o l o v e t a l etal.,2 0 1 3 ) presented"Wordt o Vector"repres entationasanimprovedwordembeddingarchitecture.Word2Vecisashallow,two- layerneuralnetworkswhichistrainedtoreconstructlinguisticcontextsofwords.Ittakesasi t s i n p u t a largec o r p u s o f wordsandproducesa v e c t o r space,t y p i c a l l y ofseveralhundre ddimensions,witheachuniquewordinthecorpusbeingassignedacorrespondingvectorinth espace.Wordvectorsarepositionedinthevectorspacesuchthatwordsthatsharecommonco ntextsinthecorpusarelocatedincloseproximitytooneanotherinthespace.Word2Vecisapa rticularlycomputationally- efficientpredictivemodelforlearningwordembeddingsf r o m rawt e x t Itcomesi n t w o flavors ,t h e C o n t i n u o u s B a g - o f - W o r d s (CBOW)modelandtheSkip-Grammodel.
NNclassifierisbasedontheassumptionthattheclassificationofaninstanceismostsimilartothecla ssificationofotherinstancesthatarenearbyinthevectorspace(Kowsari,K eta l , 2019).KNN algorithmi s usedt o c l a s s i f y byf i n d i n g t h e K nearestmatchesintrainingdataandthenus ingthelabelofclosestmatchestopredict.Them a i n computationi s t h e s o r t i n g o f t r a i n i n g d o c u m e n t s i n ordert o f i n d t h ek -nearestneighborsforthetestdocument.
Inthepast,therehavebeenaplentyofmethodsindiscoveringorfindingcustomersw i t h c o m m o n interests.Havingmanystudieshavebeenconductedtoinvestigatecustomersinterestsi n W e b d o c u m e n t s f o r p r o v i d i n g personalizedsearchservices(QiuandC h o , 2 0 0
(Limametal.,2 0 1 0 ) consideredcustomersqueriesasa c o n t e x t informationo f customersand analyzedsemanticdistancebetweenqueriesbydevelopingquery taxonomies toextractuser interestsfromsearchenginequerylogs.Workdonein(Sugiyamaetal,2003;Zhangetal.,2 0 1 1 ) foranalyzingcustomersinterestin onlinedocuments isbasedon thefactthatcontextinformationo f customersinterestsappearsf r e q u e n t l y i n o n l i n e docum ents,w h i l e Term
Frequency(TF)isgenerallyusedtocheckcustomersinterests.However,onTwitter,sometermsa recloselyrelatedtocustomersinterestbutTFhastheweaknessthatitcannotfindinformationift heoccurrenceofsuchparticulartermsarelow.DataonTwitterandFacebookconsistso f customers relatedi n f o r m a t i o n Therefore,m a n y studieshaveproposedapproachesfordiscoveringtop icsfromcustomerspersonalwebpages(MichelsonandMacskassy,2 0 1 0 ; LimandDatta,2013).
Int o p i c modeling,o n e o f t h e earliestw o r k i s t h e probabilisticLatentSemanticInd exing(pLSI)
(Hoffman,1999).InpLSI,adocumentismodeledasamixtureoftopics.However,inpLSI,ther eisnogenerativeprocesstodeterminethedocument- topic d i s t r i b u t i o n This causesproblemswhenprobabilitiesareassignedt o document sthatare o u t s i d e thetrainingset.Intopicmodeling,recentworkisgenerallybasedonthetec hniquek n o w n asLatentDirichletAllocation(LDA)
(Bleietal.,2003).InLDA,pLSIweaknessesareovercomebyconsideringaBayesiandependencyi n-betweenthedocuments,topicsandwords.
(Wengetal.,2010)identifiedinfluentialcustomersinTwitterbycollectingcustomert w e e t s andusedLDAt o d i s c o v e r t h e latenttopicso f c u s t o m e r s interest.O n Twittertwodiffer entbag-of- wordsprofilesarecompared,observingthattheprofilebuiltbycustomerowntweetsperfor msbetterthantheprofilebuiltbytweetsofhis/ herfollows(Chenetal.,2010).Categorizingoftweets using Wikipedia asa knowledgeba seisalsod o n e (MichelsonandMacskassy,2010).T h e y d e v e l o p e d a t o p i c p r o f i l e o n t h o s e categories.
(Ahmedeta l , 2 0 1 1 ) d ev el op ed a statisticalframeworkbyusingavarianto f LDAforinferri nglongandshortterminterestsofcustomeroveraperiodoftimeinordert o defineinterestsoverh istories.
(Ramageeta l , 2 0 1 0 ) characterizedT w i t t e r usersandtweetsintofourdimensions(social, status,styleandsubstance)byusinglabeledLDA.Aprobabilisticgenerativem od el known as Micro-Blog-LatentDirichlet Allocation(MBLDA)i n M a p -
R e d u c e f r a m e w o r k c a n extracttopicsi n m i c r o - b l o g s (Zhang& S u n , 2012).AmodifiedauthortopicmodelknownasTwitter- usermodelisproposedtodiscoveru s e r interests( X u etal.,2011).T h e m o d e l i s basedo n a l a t e n t variablef o r determiningif it is related to its authorinterests.
Someresearchi s alsodoneo n m i n i n g topicsandcustomeri n t e r e s t s i n socialnetworks.Featureanalysisiscarriedoutonmicro-blogsfor usecustomerinterestdetection(Zhaoetal.,2012).Personalinformation,contenti n s i d e micro- bloga n d socialrelationfeaturesareusedtoinvestigateuserinterest.Amodelisdevelopedfor userinterestswithsocialtagging system(Liuetal.,2012).SimilarlyUserTopicModel(UTM)isproposedfordetermininguserintere stsonmicro-blogs(Lietal.,2014).Otherthanfindinguserinterests,UTMcanalsodiscoverre- tweetinterests.An approachisproposedtodiscoverlatentinterestsonmicro- blogs(Liuetal.,2013).Forextractionofinterestfeatures,LDAm e t h o d wasusedanditwasa ssumedthatwithcertainprobability,theinterestfeaturecanb e communicatedfromfollowstof ollowers.Amethodologyisbasedonsocialannotationsf o r deducingthetopicalexpertiseof popularTwitterusers(Batacharyaetal.,2014).Theyt r a n s i t i v e l y infertheinterestsofthose userswhofollowthem.Theirmethodshavedemonstratedani m p r o v e m e n t o f resultso v e r o t h e r techniquessuchasLabeledLDA.
Anotherapproachi s b a s e d o n c o n s i d e r i n g topicso f interestsasa c o n j u n c t i o n o f severalc oncepts,whichcorrelatetooneanothertemporally(Zarrinkalametal.,2015).Basedont h i s approachi s a c t i v e topicswhicha r e d e t e r m i n e d Effectivenesso f t h i s approachi s s h o w n i n personalizednewsrecommendationsystem.
‘Like’(Kimetal.,2013) Aprobabilisticgenerativemodelcancaptureboth Twitteruserinformationandn e t w o r k informationt o extractuserinterests( B u d a k etal.,2 0 1 4 ) T h i s modelconsiderstheinteractionamongusers,theirlevelofactivityandpropagationofin formationtowardst h e neighbors.A n o t h e r bi- relationalgraphm o d e l i s proposedf o r f i n d i n g userinterestso n T u m b l r - micro- bloggings i t e (Xuetal.,2015).T h e proposedgraphmodelcontainstwosub-graphs:onesub- graphcorrespondstocustomersandothercorrespondstotopics.Theproblemoffindingcustom erinterestsisformulatedasamulti- labellearningproblem.Themodelisvalidatedondatacollectedfromtwomicro- bloggingsites(TwitterandTumblr).
Differentfromtheir works,oursisbasedonthecustomerhistorydataonsocialmedia,suchasstatusonFacebook.com,tweet sonTweetter.com,commentsonsocialnetworks,etc.,thuscanidentifysharedinterestsandclustersim ilarpapermoreaccurately.Thispaperapproachisobject- centric,approachisbasedontheinsightfulstudyandobservationonthehistory’scustomerdatainsocia lmediasystemssuchasportals,socialnetworks,websites,etc.Inthesesystems,peopleusestatuses,co mments,orshort- textdataasadescriptivelabeltoannotatethecontentthattheyareinterestedinandtosharewithotheruse rs.
Supervisedlearningisthemachinelearningtaskoflearningafunctionthatmapsaninpu ttoanoutputbasedonexampleinput-outputpairs.Itinfersafunctionfromlabeledt r a i n i n g d a t aconsistingof aset oftraining examples.Insupervisedlearning,eachexamplei s apairconsistingofaninputobject(typicallya vector)andadesiredoutputvalue(alsocalledthesupervisorysignal).Asupervisedlearningalg orithmanalyzesthetrainingdataandproducesaninferredfunction,whichcanb e usedf o r m a p p i n g newexamples.A n o p t i m a l scenariow i l l allowf o r t h e algorithmt o c o r r e c t l y d e t e r m i n e t h e classlabelsf o r unseeninstances.Thisrequiresthelearningalgorithmtogeneral izefromthetrainingdatat o unseensituationsina"reasonable"way.Inordertosolveagivenprobl emofsupervisedlearning,onehasto perform thefollowingsteps:
- Determinet h e t y p e o f t r a i n i n g examples.Befored o i n g a n y t h i n g else,t h e us ers h o u l d decidewhatkindofdataistobeusedasatrainingset.Inthecaseofhandwritinganaly sis,forexample,thismightbeasinglehandwrittencharacter,anentire handwrittenword,oran entirelineofhandwriting.
- Gatheratrainingset.Thetrainingsetneedstoberepresentativeofthereal- worldu s e ofthefunction.Thus,asetofinputobjectsisgatheredandcorrespondingoutputsa realsogathered,eitherfromhumanexperts orfrommeasurements.
List interest topic of customers on social media
- Determinetheinputfeaturerepresentationofthelearnedfunction.Theaccuracyo f t h e learnedfunctiondepends stronglyon how theinputobjectisrepresented.
- Completet h e d e s i g n.R u n t h e learninga l g o r i t h m o n t h e gatheredt r a i n i n g set.S o m e supervisedlearningalgorithmsrequiret h e usert o determinecertaincontrolparame ters.T h e s e p a r a m e t e r s maybea d j u s t e d byo p t i m i z i n g performanceo n a s u b s e t
(calledavalidationset)ofthe trainingset,or viacross-validation.
- Evaluatetheaccuracy of the learnedfunction.Afterparameter adjustment a ndlearning,theperformanceoftheresultingfunctionshouldbemeasuredonatestsetthatissep arate fromthetrainingset.Trainingdata alreadytrained.
- Datacollectionstage:Datacollectedfromsocialmediasuchassocialnetworks,webs ites,entertainmentportals,e-commercewebsites,ect.
Theobjectiveofthisexperimentistofindoutthemostsuitableclassifiedforthesedatasets T h e f o u n d c l a s s i f y w i l l b e usedi n t h e n e x t experimentsandsusgesti n realecono mic problemsin thefuture.
Toexperimentthesealgorithms,thepapercollectedthedatasetsofcustomersonFac ebook.comand builtasampletest setasfollows:
Thetopic datasetis identifiedthat wasbuilt bylistingthetopicsof10domesticweb sitesand5 foreignwebsites,afterwhicht h e p a p e r t o o k o u t t h e l i s t o f 1 0 topicsappeari ngthe most in 15newspaperpagesto makelabelsforpaper on socialmedia;
Asetofto pi c datasa mp le s toidentify users'topic interestexpressedthrought h e p aper,this samplesetalsohas2000entries(statusorcommentonsocialmedia).
Besides,thepaperalsousedtwomorestandarddatasetstoidentifythetopicsasthe2 0 New sgroupsdatasetandt o i d e n t i f y e m o t i o n s ast h e S e m E v a l -
2 0 1 7 dataset( M H Nguyen,2018).The20Newsgroupscorpushad20differenttopics,defin edonthesamplet e x t Thislexiconisusedextensivelyincommontextclassificationprobl ems.TheSemEval-
Totalsamplet e st Totallabel Kind oflabe l
Thepapercarriesoutempiricalscenariobasedonthelabeling.Foreachexperiment(corresp ondingtoasetofdatasets),thestepsaresimilartotheOne-vs-Allmethod(A.M.Kibriya,2004), (AlexSmola andS.V.N.Vishwanathan,2008))asfollows:
1 Foreachtext in thedataset,removeallstop-words.
4 Usingt h e k - f o l d s crossed-validation:S p l i t t h e dataseti n t o t e n sets(10- folds).Eachtime,asetisusedfortesting(calledtestingset),andthenineremainsetsareusedfortrain ing(calledtrainingset).
7 Repeatthestepsfrom5to6intentimes(10- folds)andtakethemeanvaluesofeachoutputparametersforalltimes ofrunning.
Themeasures , usedto outputparametersofexpriments. and are
Forexperiments,weusedWEKA(Halletal.,2009).WEKAisapopularmachinelearni ngtoolthatofferstechniquesfortokenization,stopwordsremoval,attributionselection,featur eweighting,selectiono f f e a t u r e s i n data,r e g r e s s i o n , classification,clustering andmodelingalgorithms.
Theresultsof20NewsgroupwithAccuracyandF1- scoreintheTable3,inwhichsh o w s thattheMNBalgorithmreachesthehighestaccuracyval uein20/20labels,averageresultsonalllabels,MNBforthehighestaccuracyvalue,followedbyC NN,W2V,andK-N N on AccuracyandF1-score.
CNN W2V MNB K-NN CNN W2V MNB 73.15 alt.atheism 80.89 77.14 95.45 61.48 84.22 83.03 96.09 67.35 comp.graphics 81.48 67.33 90.00 56.93 82.73 76.60 91.69 72.65 comp.os.ms-windows.misc 81.14 65.91 87.16 58.07 84.15 55.35 87.44 72.62 comp.sys.ibm.pc.hardware 78.62 71.25 87.73 65.45 79.10 79.99 90.16 71.84 comp.sys.mac.hardware 73.52 72.37 90.57 63.07 71.50 80.77 92.20 62.03 comp.windows.x 80.97 73.25 92.73 58.30 81.55 80.65 93.76 72.94 misc.forsale 83.36 76.25 91.14 61.14 83.26 83.12 92.59 71.63 rec.autos 79.28 75.91 93.86 59.66 82.49 78.30 94.78 70.20 rec.motorcycles 84.32 80.42 95.45 62.16 86.26 84.77 96.12 74.78 rec.sport.baseball 82.81 70.57 96.82 63.18 82.76 79.76 97.28 70.14 rec.sport.hockey 87.27 70.84 97.95 66.14 88.68 79.66 98.24 72.56 sci.crypt 84.66 65.11 94.43 61.59 86.38 76.57 95.30 65.59 sci.electronics 78.72 75.91 91.36 57.84 82.82 83.03 92.74 67.31 sci.med 82.27 63.64 93.30 61.82 84.49 75.68 94.34 70.97 sci.space 81.93 72.27 95.91 66.48 83.50 80.26 96.46 80.80 soc.religion.christian 85.80 62.00 98.07 72.95 88.18 74.95 98.33 77.73 talk.politics.guns 79.98 71.02 94.43 76.14 83.50 78.88 95.24 75.64 talk.politics.mideast 80.57 69.08 96.82 65.23 81.36 77.85 97.26 68.31 talk.politics.misc 75.64 72.16 87.61 69.66 78.96 80.25 90.12 68.83 talk.religion.misc 79.25 75.10 93.07 70.57 82.91 82.07 94.15 71.35
TheresultsofSemeval2017withAccuracyandF1- scoreintheTable4,inwhichs h o w s thatthe MNBalgorithm reachesthehighest accu racy valuein4/4 labels,averageresultsonalllabels,MNBforthehighestaccuracyvalue,follow edbyW2V,CNNandK-N N on AccuracyandF1-score.
CNN W2V MNB K-NN CNN T2V MNB 67.94 anger 64.04 66.18 78.67 53.47 59.69 69.58 79.71 69.56 fear 59.69 66.36 76.12 56.22 54.05 66.99 77.27 40.70 joy 65.18 72.81 78.47 60.41 55.39 75.74 79.45 68.59 sadness 62.08 65.65 78.67 55.61 61.54 71.56 80.26 61.70
TheresultsofSampleVietnamese with Accuracy andF1- scoreintheTable5,in whichshowsthattheMNBalgorithmreachesthehighestaccuracyva luein10/10labels,averageresultsonalllabels,MNBforthehighestaccuracyvalue,followedby W2V,CNNandK-NNonAccuracyandF1-score.
CNN W2V MNB K-NN CNN T2V MNB K-NN
Useo f M a c h i n e Learningi s o n e oft h o s e changest h a t w i l l m a k e p e o p l e w o r k differentlyandwillmakebusinessenvironmentsdifferentinfuture.Besides,itisa notherb i g differencebetweenDataScienceandBusinessDataAnalytics,s o t h e conversationfl owsnicelyfromthe previous part.
Inthisarticle,textdatafromsocialmediatrendsareanalyzedforcustomerintheworl d.Collectedtextdatafromsocialmediaaremodeledwithtwoapproaches:use- centricbasedandobject- centricbased.T e x t datafromsocialm e d i a areusedi n m o d e l i n g ast e x t u a l informat ioncanoftenbenoisyandcoarse.FouralgorithmsinmachinelearningareCNN,MNB,W 2 V and
N N whicha r e s u p e r v i s e d learningalgorithmsistrainedi n W E K A t o checkt h e effect ivenesso f o u r representation.T e x t dataareanalyzedt o f i n d p o p u l a r customert o p i c s , whicharecategorized.Obtainedresultsindicatet h a t t h e m e t h o d o l o g y c a n beusedin thedevelopmentofinformationfilteringandpredictionsystems.Theproposedmethodologyca nalsobeusedtofindcustomerinterestsandapplyi n businessproblemssuchaspageranking,colla borativefilter,automatictranslationo f documents,security applications,namedentity recogni tion,speechrecognition, problemso f classify,etc.
Thef ol lo wi ng steps areallgoingto beus in g machine l e a r n i n g in yourbusiness:F irst,understandingwhatthedifferencebetweenArtificialIntelligenceandMachineLearning M a c h i n e Learningis a su bs et o f ArtificialIntelligencefield,i t i s a predefinedprogramming modelwhichistrainedbyahugenumberofdatatomakepredictions.MLcanhelpyoutoauto matedailyhumanprocessesandmakeadecision/ judgment.Seconds,s t u d y yourbusinessprocessesandi d e n t i f y w h i c h processescanb e