MƠ HÌNH NGƠI SAO (STAR SCHEMA)

Một phần của tài liệu Xây dựng hệ thống trí tuệ kinh doanh cho doanh nghiệp áp dụng vào công ty sản xuất hoặc thương mại (Trang 25)

M 影E"VKçW"A陰 TÀI

2.3.6 MƠ HÌNH NGƠI SAO (STAR SCHEMA)

O»"j·pj"pi»k"ucq"n "o»"j·pj"8挨p"ik違p"8逢嬰c s穎 d映ng cho Kho d英 li羽ụ C医u trúc c栄a nĩ bao g欝m b違ng S詠 th壱t n茨m 荏 v鵜 trí trung tâm, bao xung quanh nĩ là các b違ng Chi隠u, khi v胤 hình này t衣o cho ta c違m giác gi嘘pi"pj逢"j·pj"ucq"p‒p"p„"v‒p"i丑i là Mơ hình ngơi sao (H·nh 4). Các b違ng liên k院t v噂i nhau thơng qua khố ngo衣i c栄a b違ng S詠 th壱t 8逢嬰c n嘘i v噂i khố chính c栄a b違ng Chi隠w0"O»"j·pj"pi»k"ucq"e„"8k吋m m衣pj"n "8挨p"ik違n, h厩 tr嬰 kh違 p<pi"vtw{"x医n và gi違m th運i gian th詠c thị

M瓜t s嘘 bi院n th吋 c栄a mơ hình sao là mơ hình r院t (Centipede Schema), m瓜t b違pi"Hcev"8逢嬰c bao quanh b荏i quá nhi隠u b違ng Chi隠u, mơ hình bơng tuy院t (Snowflake Schema), b違ng Fact n嘘i v噂i b違ng Chi隠u và b違ng Chi隠u l衣i n嘘i v噂i các b違ng Chi隠u khác.

H·nh 4: Star Schema

TRÍ TU KINH DOANH

2.4.1A卯PJ"PIJ C

Nh茨m ph映c v映 cho doanh nghi羽p, h羽 th嘘ng h厩 tr嬰 ra quy院v"8鵜pj"8«"tc"8運i vào nh英pi"p<o" 1960s (D.J.Power, 2007) [11]. Trí tu羽mkpj"fqcpj"8逢嬰c sinh ra v噂i m映e"8 ej"8ƒr"泳ng nhu c亥u kh逸t khe c栄a nhà qu違n lý v隠 tính hi羽u qu違 trong vi羽c phân tích d英 li羽u c栄a doanh nghi羽p, t瑛8„" cĩ th吋 n逸m b逸v"8逢嬰c tình hình kinh doanh hi羽n t衣i c栄a h丑. và c違i thi羽n quy trình ra quy院v"8鵜nh (M Golfarelli, S Rizzi, I Cella, 2004) [12].

26

Kimball và Ross (2002) [10] 8鵜pj"pij c"vt "vw羽 mkpj"fqcpj"n "ÐA generic term to describe ngxgtcikpi" vjg" qticpk¦cvkqpĨu" kphqtocvkqp" cuugvu" hqt" ocmkpi" dgvvgt" dwukpguu" fgekukqpuĐ (T衣m d鵜ch: là m瓜t thu壱t ng英ejwpi"8吋 mơ t違 vi羽c t壱n d映ng các tài s違n thơng tin c栄a t鰻 ch泳c 8吋8逢c"tc" quy院v"8鵜nh t嘘v"j挨p+

M.Golfarelli 8鵜pj"pij a trí tu羽 mkpj"fqcpj"ÐBusiness Intelligence can be defined as the process of turing data into information and then into knowledgeĐ (T衣m d鵜ch: Trí tu羽 kinh doanh là quá trình bi院p"8鰻i d英 li羽w"vj pj"e»pi"vkp"8«"swc"z穎 lý r欝i bi院n nĩ thành ki院n th泳c).

Nhìn chung, Trí tu羽 kinh doanh (Business Intelligence) là quy trình và cơng ngh羽 mà các doanh nghi羽r"f́pi"8吋 ki吋m sốt kh嘘k"n逢嬰ng d英 li羽u kh鰻ng l欝, khai phá tri th泳c giúp cho các doanh nghi羽p cĩ th吋8逢c"eƒe"sw{院v"8鵜nh hi羽u qu違j挨p"vtqpi"jq衣v"8瓜ng kinh doanh c栄a mình. Trí tu羽 kinh doanh khơng ch雨 ik¿r"ejq"pi逢運i qu違n lý bi院v"8逢嬰e"8k隠w"i·"8«"z違y ra trong quá kh泳, tình tr衣ng doanh nghi羽p hi羽n t衣i, th壱m chí trí tu羽 mkpj"fqcpj"pi {"pc{"8«"rjƒv"vtk吋p"8院n m泳c cĩ th吋 8逢c"tc"f詠8qƒp"ejq"v逢挨pi"n衣ị Các b瓜 ph壱p"e挨"d違n c栄a m瓜t h羽 th嘘ng trí tu羽 kinh doanh cĩ th吋 k吋 8院n bao g欝m b瓜 thu th壱p d英 li羽u, e挨"ej院 ETL, kho d英 li羽u, kh嘘i d英 li羽u d衣ng OLAP và các h羽 th嘘ng h厩 tr嬰 giao di羽p"pi逢運i dùng pj逢"8欝 th鵜, bi吋w"8欝, d詠pi"dƒq"eƒqÈ

H·nh 5: Cách hiあw"8¬p"ikVn v BI (Jayanthi Ranjan 2005) [13]

T瑛 ki院n trúc Error! Reference source not found., quy trình c栄a m瓜t trí tu羽 kinh doanh c ĩ th吋 8逢嬰c hi吋w"pj逢"ucw<

‚ D英 li羽w"8逢嬰c trích xu医t t瑛 nhi隠u ngu欝n và m映e"8 ej"u穎 d映ng khác nhau mà cơng ty, doanh nghi羽r"8cpi"u荏 h英ụ

‚ Các d英 li羽w"p {"8逢嬰c bi院p"8鰻i, s逸p x院p, t鰻 ch泳c sao cho phù h嬰r"x "n逢w"vt英 t衣i kho d英 li羽ụ D英 li羽u 8逢嬰e"n逢w"vt英 trên kho d英 li羽u cĩ th吋8逢嬰c t鰻 ch泳c d衣ng kh嘘i OLAP.

‚ Sau khi trí tu羽 kinh doanh thu th壱p và bi院p"8鰻i thành các d英 li羽u h英u ích, cu嘘i cùng nĩ s胤 cung c医p các cơng c映 ph映c v映 ejq"pi逢運i dùng ch鰯ng h衣p"pj逢"eƒe"dk吋u 8欝, khai phá d英 li羽w"8吋8逢c"tc"eƒe#"v逢荏ng, c違nh báo ho員e"dƒq"eƒq.È

2.4.2TRÍ TU烏 KINH DOANH K蔭T H営P V閏I KHAI PHÁ D頴 LI烏U XÉ"M "VJW一T H窺C MÁY

V医p"8隠 c嘘t lõi trong h羽 th嘘ng trí tu羽 kinh doanh là kho d英 li羽u (Data Warehouse) và khai phá d英 li羽u (Data Mining) vì d英 li羽u dùng trong h羽 th嘘ng là d英 li羽u t鰻ng h嬰p (Nhi隠u ngu欝n, nhi隠w"8鵜nh d衣ng, phân tán và cĩ tính l鵜ch s穎+"8„"n "8員e"vt逢pi"e栄a kho d英 li羽w0"A欝ng th運i vi羽c phân tích d英 li羽u trong h羽 th嘘ng khơng ph違i là nh英pi"rj¤p"v ej"8挨p"ik違n (Query, Filtering) mà

27

là nh英ng k悦 thu壱t trong khai phá d英 li羽w"f́pi"8吋 phân lo衣i (Classification), gom c映m (Clustering), hay d詠 8qƒp"*Rtgfkevkqp+0"X·"x壱y h羽 th嘘ng trí tu羽 kinh doanh cĩ m嘘i quan h羽 r医t ch員t ch胤 v噂i kho d英 li羽u và khai phá d英 li羽ụ

雲 ph亥n này, nhĩm s胤8逢c"tc"o瓜t s嘘 k悦 thu壱t h丑c máy tìm hi吋w"8逢嬰c vtqpi"8隠 tài lu壱p"x<p0" Trong bài tốn gom c映m d英 li羽u, k-Ogcpu"8逢嬰c s穎 d映ng khá ph鰻 bi院n.

Thu壱t tốn phân c映m k-means là m瓜v"rj逢挨pi"rjƒr"8逢嬰c s穎 d映ng trong phân tích tính ch医t c映m c栄a d英 li羽w0"P„"8員c bi羽v"8逢嬰c s穎 d映ng nhi隠u trong khai phá d英 li羽u và th嘘ng kê. Nĩ phân vùng d英 li羽u thành k c映m khác nhaụ Gi違i thu壱v"p {"ik¿r"ej¿pi"vc"zƒe"8鵜pj"8逢嬰c d英 li羽u th詠c s詠 thu瓜c v隠 nhĩm nàọ

Trong các mơ hình kinh doanh, doanh nghi羽p s胤 chia nh臼 t羽p khách hàng ra thành nh英ng pj„o"8嘘k"v逢嬰pi"mjƒe"pjcw"8吋 cĩ th吋 áp d映ng nh英ng chi院p"n逢嬰c kinh doanh c映 th吋 cho t瑛ng nhĩm 8嘘k"v逢嬰pi0"Ak隠w"p {"ik¿r"ejq"mjƒej"j pi"8逢嬰c ti院p c壱n v噂i các s違n ph育m th壱t s詠 phù h嬰p v噂i b違n thân h丑. S詠 phù h嬰r"8„"u胤 kéo doanh s嘘 c栄a doanh nghi羽p v<pi"n‒p0"

""v逢荏ng c栄a thu壱t tốn k-means:

1. Kh荏i t衣q"M"8k吋m d英 li羽u trong b瓜 d英 li羽u và t衣m th運i coi nĩ là tâm c栄a các c映m d英 li羽ụ 2. V噂i m厩k"8k吋m d英 li羽u trong b瓜 d英 li羽u, tâm c映m c栄a nĩ s胤 8逢嬰e"zƒe"8鵜nh là 1 trong K

tâm c映m g亥n nĩ nh医t.

3. Sau khi t医t c違 eƒe"8k吋m d英 li羽w"8«"e„"v¤ọ"v pj"vqƒp"n衣i v鵜 trí c栄a tâm c映o"8吋 8違m b違o tâm c栄a c映m n茨m 荏 chính gi英a c映m.

4. D逢噂e"4"x "d逢噂c 3 s胤8逢嬰c l員r"8k"n員p l衣i cho t噂i khi v鵜 trí c栄a tâm c映o"mj»pi"vjc{"8鰻i ho員c tâm c栄a t医t c違eƒe"8k吋m d英 li羽w"mj»pi"vjc{"8鰻ị

ETL PIPELINE (EXTRACT TRANSFORM - LOAD)

2.5.1KHÁI NI烏M

Khi ta c亥n d英 li羽u c亥n thi院t cho quá trình phân tích và x穎 lý, các d英 li羽u này s胤 8逢嬰e"8逢c" vào kho d英 li羽ụ Tuy nhiên do b違n ch医t h亥w"pj逢"eƒe"f英 li羽u khơng cĩ cùng ngu欝n g嘘c, và 8逢嬰c c医u trúc khác nhau p‒p"sw{"vt·pj"GVN"8«"8逢嬰c phát tri吋n nh茨m gi違i quy院t v医p"8隠8„0

ETL là vi院t t逸t c栄a Extract - Transform - Load. Trong b嘘i c違nh trí tu羽 kinh doanh, trích xu医t - bi院p"8鰻i - t違k"*GVN+"8隠 c壱r"8院n quy trình trích xu医t d英 li羽u t瑛 m瓜t ho員c nhi隠u ngu欝n, bi院n 8鰻i d英 li羽u v隠8鵜nh d衣ng chu育n, và t違i k院t qu違 vào kho d英 li羽u nh茨m báo cáo, phân tích ho員c 8欝ng b瓜 hố d英 li羽uÈ0

2.5.2THÀNH PH井N CHÍNH TRONG TI蔭N TRÌNH ETL

Ki院n trúc ETL Pipeline g欝m 3 thành ph亥n chính:

Trích xu医t (Extract) n "swƒ"vt·pj"8丑c d英 li羽u t瑛 m瓜t ho員c nhi隠u ngu欝n khác nhau ch鰯ng h衣p"pj逢"File JSON, File CSV, thi院t b鵜 c違m bi院p"*Ugpuqt+."e挨"u荏 d英 li羽w"*Fcvcdcug+.000"A員e"8k吋m c栄a các d英 li羽u này cĩ th吋 n "8«"e„"u印n c医w"vt¿e"pj逢"eƒe"d違pi"vtqpi"e挨"u荏 d英 li羽u quan h羽 ho員c khơng cĩ c医u trúc, 8鵜nh d衣ng chu育p"pj逢"File Logs. Cơng vi羽c chính c栄a d逢噂c này là d英 li羽w"8逢嬰c truy xu医t t瑛 nhi隠u ngu欝n khác nhau x "8逢c"x隠 m瓜t khu n逢w"vt英 t壱p trung vj逢運pi"8逢嬰c g丑i là d逢噂c 8羽m ho員c m瓜t s嘘vt逢運ng h嬰p nh医v"8鵜nh s胤8逢嬰c g丑i là h欝 d英 li羽u (Datalake).

Bi院p"8鰻i (Transform) là c亥u n嘘i gi英a trích xu医t (Extract) và t違i (Load), t衣k"8¤{"f英 li羽u trích xu医v"8逢嬰c s胤8k"swc"ejw厩i các bi院p"8鰻i theo các d衣ng cơng th泳c khác nhau 8吋 ti院p"x q"d逢噂c t違i (Load) phía saụ Cơng vi羽c chính c栄c"d逢噂c bi院p"8鰻i là lo衣i b臼 d英 li羽u trùng l員p."8鵜nh d衣ng l衣i, làm s衣ch, xố b臼 f逢"vj瑛a, k院t h嬰p ho員c tách r運i d英 li羽u t瑛 nhi隠u ngu欝p"8吋 8逢嬰c d英 li羽u hồn ch雨nh,... Quá trình bi院p"8鰻i ph違k"8違m b違o k院t qu違 d英 li羽u cĩ s詠 8欝ng nh医t v隠 c医u trúc, tr壱t t詠 ho員c m瓜t chu育p"tk‒pi"p q"8„"ik¿r"v<pi"v pj"鰻p"8鵜nh cho qua trình t違i d英 li羽u cu嘘i cùng.

28

T違i (Load) là quá trình ghi chép d英 li羽u vào m瓜t ho員c nhi隠w" 8k吋o" 8 ej" pj逢" Fcvc" Warehousẹ T衣k"d逢噂c này vi羽c t違i cĩ th吋 th詠c hi羽n th栄 cơng ho員c cĩ chu k t詠 8瓜ng nh茨m c壱p nh壱v"ejq"8k吋o"8 ej0"Jq p"vj pj"xk羽c t違i d英 li羽u khơng nh医t thi院t ph違i k院t thúc dây chuy隠n trích xu医t - bi院p"8鰻i - t違i (ETL Pipeline) mà ta cĩ th吋 th詠c hi羽n các ch泳e"p<pi"mjƒe"ej鰯ng h衣p"pj逢" kích ho衣t m瓜t chu厩i ETL Pipeline khác.

S LIU HỐ (DIGITIZATION)

2.6.1A卯PJ"PIJ C

S嘘 li羽u hố (Digitization) là quá trình bi院p"8鰻i, mã hố thơng tin d衣ng Analog thành con s嘘 0, 1 mà máy tính cĩ th吋n逢w"vt英, x穎 lý và v壱n chuy吋n. Analog là m瓜t phép nĩi 育n d映 cho vi羽c n逢w"vt英 d英 li羽w"f逢噂i d衣ng gi医y0"Ak隠u quan tr丑ng c栄a s嘘 li羽u hố là d英 li羽w"8逢嬰c s嘘 hố và khơng bao g欝m quy trình(Process). [14]

S嘘 li羽u hĩa d英 li羽w"n逢w"vt英 là hình th泳c chuy吋p"8鰻i d英 li羽u t瑛 d衣pi"x<p"d違n h羽 th嘘ng bên ngồi thành nh英ng d英 li羽u d衣ng tín hi羽u s嘘8逢嬰c máy tính hi吋w"x "n逢w"vt英. [15]

S嘘 li羽u hố là m瓜v"d逢噂c chuy吋p"8鰻i t瑛 cách ghi chép truy隠n th嘘ng trên gi医{"vj pj"n逢w"vt英 trên các t壱p tin máy tính, s嘘 li羽u hố khơng thay th院 hồn tồn cách th泳c ghi chép truy隠n th嘘ng, vjc{"x q"8„."8¤{"n "o瓜t quy trình c亥n thi院t cho vi羽c áp d映ng cơng ngh羽 thơng tin vào cách th泳c v壱n hành c栄a cơng ty và doanh nghi羽p.

M瓜t s嘘 ví d映 8k吋n hình c栄a s嘘 li羽u hố là vi羽c chuy吋p"8鰻i t瑛 ch英 vi院v"jqƒ"8挨p"vt‒p"ik医y thành d衣ng t壱r"vkp"n逢w"vt英 trên máy tính f逢噂i d衣ng pdf và csv, ho員c chuy吋p"8鰻i âm nh衣c sang OR5."OR6"vjc{"ejq"f́pi"d<pi"8 c"XJU.

2.6.2S渦 LI烏U HỐ (DIGITIZATION) VÀ S渦 HỐ (DIGITALIZATION)

Khác v噂k"uw{"pij "e栄c"8衣k"8c"u嘘 m丑k"pi逢運i, các khái ni羽m v隠 S嘘 li羽u hố (Digitization), s嘘 hố (Digitalization) và Chuy吋p"8鰻i s嘘 (Digital Transformation) là khác nhaụ Chuy吋p"8鰻i s嘘 là m瓜t quy trình ph泳c t衣p, t嘘n kém c違 v隠 m員t th運i gian và ti隠n b衣c, th壱m chí chuy吋p"8鰻i s嘘 s胤 mj»pi"8go"n衣i quá nhi隠u l嬰k" ej"vt逢噂c m逸t cho doanh nghi羽r"8亥w"v逢0

Khác v噂i S嘘 li羽u hố, S嘘 hố mj»pi"e„"8鵜pj"pij c"t "t pị"ÐFkikvk¦cvkqp"x "Fkikvcnk¦cvkqp" là các thu壱t ng英 cĩ liên quan ch員t ch胤x "vj逢運pi"8逢嬰c s穎 dung thay th院 cho nhau trong nhi隠u tài li羽wĐ."ÐFkikvcnk¦cvkqp"n "o瓜t cách th泳c mà nhi隠w"n pj"x詠e"8運i s嘘ng xã h瓜k"8逢嬰c tái c医u trúc xung swcpj"e挨"u荏 h衣 t亥ng truy隠n thơng và giao ti院p k悦 thu壱t s嘘Đ [16]. S嘘 hố 荏 8¤{"8«"mj»pi"e”p"ej雨 8挨p"vjw亥n là chuy吋p"8鰻i hình th泳e"n逢w"vt英vj»pi"vkp"pj逢"u嘘 li羽u hố, S嘘 hố 8«"v瑛pi"d逢噂c ti院p c壱p"j挨p"x噂i cách th泳c v壱n hành, quy trình ho衣v"8瓜ng c栄a t瑛ng doanh nghi羽p.

S嘘 hố n "swƒ"vt·pj"8逢嬰c th詠c hi羽p"ucw"mjk"8«"u嘘 li羽u hố, b茨ng cách áp d映ng nh英ng thơng vkp"8«"8逢嬰c s嘘 li羽u hố vào m映e"8 ej t嘘k"逢w."8挨p"ik違n hố cách th泳c ho衣v"8瓜ng, giúp doanh nghi羽p 8衣v"8逢嬰c hi羽u qu違 ncq"8瓜pi"ecq"j挨p0"Vtqpi"mjƒk"pk羽m s嘘 hố mj»pi"8隠 c壱r"8院n vi羽e"vjc{"8鰻i cách doanh nghi羽p kinh doanh hay t衣o ra lo衣i hình kinh doanh m噂k."o "8¤{"ej雨 là vi羽c ti院p t映c mơ hình kinh doanh s印p"e„"pj逢pi"x噂i t嘘e"8瓜 v壱n hành nhanh, hi羽u qu違 ecq"j挨p"vt逢噂e"8¤{0

Thơng qua H·nh 6, m瓜t quá trình chuy吋p"8鰻i s嘘 tr違k"swc"5"ikck"8q衣n chính t瑛 S嘘 li羽u hố, s嘘 hố và cu嘘i cùng là chuy吋p"8鰻i s嘘. Trong khi s嘘 li羽u hố t壱p trung vào gi違i quy院t các v医p"8隠 trong quá kh泳 pij c"n "vjc{"8鰻i t瑛 rj逢挨pi"rjƒr"vtw{隠n th嘘ng sang s穎 d映ng cơng ngh羽 máy tính cho vi羽c ghi chép, qu違n lý và truy v医n, s嘘 hố t壱p trung vào c違i thi羽n các quy trình, ho衣v"8瓜ng trong cơng ty mà cĩ áp d映ng các cơng c映, k悦 thu壱t máy tính và d詠a trên d詠 li羽u s嘘 hố, v<pi"p<pi" xu医t và hi羽u qu違 c栄a t瑛ng quy trình, ho衣v"8瓜ng, cu嘘k"épi"n "d逢噂c chuy吋p"8鰻i s嘘."vjc{"8鰻i hồn tồn cách th泳e"o "e»pi"v{"8«"x壱n hành, t壱r"vtwpi"u¤w"j挨p"e違 x q"eqp"pi逢運i và cơng ngh羽 nh茨m 8go"n衣i giá tr鵜 c衣nh tranh m噂ị Nhìn chung, m厩i ikck"8q衣n trong quá trình chuy吋p"8鰻i s嘘 cĩ m嘘i quan h羽 ch員t ch胤 khơng tách r運i và 違pj"j逢荏ng tr詠c ti院r"8院n nhaụ

29

H·nh 6: Mơ hình Chuyあp"Aごi S [17]

NHN DNG KÝ T QUANG HC (OCR)

2.7.1KHÁI NI烏M

Nh壱n d衣ng ký t詠 quang h丑c là m瓜t cơng ngh羽ejw{‒p"f́pi"8吋8丑c các ký t詠 ch英 cĩ trên các t壱r"vkp"pj逢"違nh, Video và chuy吋n các ký t詠 8„"vj pj"eƒe"v壱p tin cĩ th吋 ch雨nh s穎c"8逢嬰c. OCR 8逢嬰c bi院v"8院n là m瓜t cơng c映 Scan k悦 thu壱t s嘘 chuyên nh壱n d衣ng các ký t詠, ch英 vi院t tay hau ch英 8ƒpj"oƒ{È Cơng ngh羽p {"vj逢運pi"8逢嬰c s穎 d映pi"8吋 truy隠n t違i và nh壱p li羽ụ

H·nh 7: Cơng Ngh OCR [18]

T瑛 H·nh 7, OCR khơng ch雨ejq"rjfir"8丑c d英 li羽u trên các t壱r"vkp"8逢嬰c vi院t b荏i máy tính, mà th壱m chí là các ch英 vi院v"vc{."8c"f衣ng v隠 ngơn ng英, b嘘 c映c e pi"8逢嬰c áp d映ng, nh運 vào s詠 phát tri吋n c栄a các mơ hình trí tu羽 nhân t衣o và h丑c sâu, t瑛 8„"vt ej"zw医t sang các t壱r"vkp"x<p"d違n và cĩ th吋n逢w"vt英 trên máy tính ho員c e挨"u荏 d英 li羽ụ

2.7.2A窺C JQè"A愛P"BÁN HÀNG B稲NG CƠNG NGH烏 OCR

Jqƒ"8挨p"ej泳a các thơng tin c亥n thi院t cho m瓜t giao d鵜ch gi英a cơng ty v噂i khách hàng ho員c v噂i cơng ty khác, h亥u h院v"eƒe"jqƒ"8挨p"8逢嬰c in ra gi医y t瑛 các máy POS, ho員c các t壱p tin PDFs và d英 li羽u t瑛 jqƒ"8挨p"8k羽n t穎.

Truy隠n th嘘pi"vt逢噂e"8¤{."eƒe"jqƒ"8挨p"kp"tc"ik医{"8逢嬰c áp d映ng 荏8衣k"8c"u嘘 các c穎a hàng bán l飲pj逢"các c穎a hàng ti羽n l嬰i, siêu th鵜, ch嬰 giao d鵜ch,È m瓜v"jqƒ"8挨p"u胤8逢嬰c g穎i cho khách hàng, m瓜v"jqƒ"8挨p"e”p"n衣i s胤 do c穎c"j pi"n逢w"vt英. Khi t鰻ng k院v"fqcpj"vjw."eƒe"jqƒ"8挨p"vtqpi" ngày ho員c tháng s胤8逢嬰c l医y ra và ghi chép vào s鰻 sách. V医p"8隠 phát sinh v噂i cách làm truy隠n th嘘ng này là các hố 8挨p"n逢w"vt英 th運i gian dài cĩ th吋 d磯p"8院n m医t mát, ch医v"n逢嬰ng ch英 vi院t gi違m, chi phí c亥n thi院t cho kho n逢w"vt英 eƒe"jqƒ"8挨p v<pi"ecq0"Xì v壱{"rj逢挨pi"rjƒr"ik違i quy院t hi羽u qu違 ngày nay mà m丑i c穎a hàng 8鰻i m噂i áp d映ng là s穎 d映ng các h羽 th嘘pi"n逢w"vt英 thơng minh nj逢"e挨" s荏 d英 li羽u máy tính, v瑛a gi違i quy院v"8逢嬰c bài tốn nh壱p li羽u, v瑛a gi違o"8逢嬰e"ejk"rj "vjw‒"mjq"n逢w" tr英."8ƒr"泳pi"8逢嬰c nhu c亥u truy v医p"eƒe"jqƒ"8挨p"o瓜t cách nhanh chĩng và chính xác.

30

A吋 vi羽c qu違n lý các d英 li羽u hi羽u qu違, cơng ty s胤 n逢w"vt英 các thơng tin hqƒ"8挨p"x q"o瓜t e挨"u荏 d英 li羽u máy tính, theo cách truy隠n th嘘ng các cơng ty s胤 s穎 d映ng nhân cơng cĩ nhi羽m v映 nh壱p li羽u t瑛pi"jqƒ"8挨p"tk‒pi"n飲x q"vtqpi"e挨"u荏 d英 li羽u c栄a cơng tỵ V噂k"rj逢挨pi"rjƒr"vt‒p."o瓜t s嘘 v医p"8隠 phát sinh pj逢"ejk"rj "fw{"vt·"8瓜k"pi "nhân cơng, th運i gian nh壱p li羽u dài và quan tr丑ng nh医v"n "eƒe"vt逢運ng h嬰p nh壱p li羽u saị Vì v壱y, c亥n cĩ m瓜t gi違i pháp v瑛a cĩ kh違 p<pi"ik違o"8逢嬰c th運i gian nh壱p li羽u."v逢挨pivƒe"8逢嬰c v噂i các h羽 th嘘ng thơng tin khác nhau, e pi"pj逢"ik違m thi吋u s詠 sai sĩt trong quá trình s嘘 li羽u hố.

S嘘 li羽u jqƒ"eƒe"jqƒ"8挨p"dƒp"j pi"nên là m瓜t quy trình cĩ trách nhi羽m t詠 8瓜ng hố vi羽c rút trích thơng tin t瑛 m瓜v"jqƒ"8挨p"ucw"8„"n逢w"vt英vj»pi"vkp"8„ trên m瓜v"e挨"u荏 d英 li羽u máy tính. T瑛 H·nh 8, v噂k"8亥u vào là m瓜t b泳c hình ch映p c栄a m瓜v"jqƒ"8挨p."b茨ng cách áp d映ng cơng ngh羽 OCR, 8亥u ra c栄a quá trình s嘘 li羽u hố là d英 li羽u cĩ c医u trúc JSON v噂i các n瓜i dung c亥n thi院t 8逢嬰c rút trích t瑛 違nh.

H·nh 8: Ví d minh ho OCR

Pj·p"ejwpị"sw{"vt·pj"8丑c thơng tin trên m瓜v"jqƒ"8挨p"u胤 e„"7"d逢噂c chính, H·nh 9:

‚ Ti院n x穎 lý 違pj"8亥u vàọ

‚ Phát hi羽p"x<p"d違n (Text Detection)

‚ Nh壱n di羽n x<p"d違n (Text Recognition)

‚ Trích xu医t thơng tin (Information Extract)

‚ Xu医t Thơng tin (Data Dumps)

31

CÁC NGHIÊN CU, SN PHM LIÊN QUAN

2.8.1CÁC NGHIÊN C永U

V噂i nhu c亥u qu違n lý d英 li羽u l噂n c栄a nhi隠w"e»pi"v{"pi {"e pi"v<pị"eƒe"pj "n«pj" 8衣o, nhà ra quy院v"8鵜nh g員r"mj„"mj<p"vtqpi"xk羽c phân tích ngu欝n d英 li羽u d欝k"f q"pj逢pi" v磯n cịn r運i r衣ẹ"mj»pi"8欝ng nh医t, các tác nhân gây ch壱m quá trình phân tích d英 li羽u vj逢運ng g員p ph違k"pj逢"zƒe"8鵜nh ngu欝n d英 li羽w"mj„"mj<p."d英 li羽u n逢w"vt英 r運i r衣ẹ"eƒe"8挨p"x鵜 8q"n逢運ng khác nhau, x穎 lý các d英 li羽u thơ và s嘘n逢嬰ng l噂n, khơng cĩ cách nhìn t鰻ng quan tồn c映eÈ"X·"x壱y c亥n cĩ m瓜t cơng c映 chuyên d映pi"8ƒr"泳pi"8逢嬰c nhu c亥u phân tích d英 li羽u c栄c"pj "n«pj"8衣o và nhà ra quy院v"8鵜nh. Nh茨m ph映c v映 cho nhu c亥w"8„."8«"e„"t医t nhi隠u nghiên c泳w."d k"dƒq"8隠 xu医t các gi違i pháp, cách thi院t k院 h羽 th嘘ng trí tu羽mkpj"fqcpj"8ƒr" 泳ng nhu c亥u th詠c ti宇n c栄a các cơng ty trong quá trình phân tích d英 li羽w"x "8逢c"tc"sw{院t 8鵜nh.

Fauziyah (2018) [20]<"8«"ƒr"f映pi"rj逢挨pi"rjƒr"Mkodcnn"8吋 xây d詠ng kho d英 li羽u cho các cơng ty s違n xu医v"8欝 8k羽n t穎. Bài vi院t t壱p trung xây d詠ng kho d英 li羽u d詠a trên rj逢挨pi"rjƒr"e栄a Kimball áp d映ng cho nghi羽p v映 c栄a cơng ty s違n xu医t chuyên v隠8k羽n t穎, các ho衣v"8瓜ng chính t瑛 khâu 8員t mua nguyên li羽u thơ, nh壱p kho, gia cơng ejq"8院n bán thành ph育oÈ"Mjq"f英 li羽w"8逢嬰c thi院t k院 cĩ th吋 n逸m b逸t tr丑n v姻n m丑i d英 li羽u trong quá trình ho衣v"8瓜ng c栄a cơng ty t瑛8„"8ƒpj"ikƒ"8逢嬰c hi羽u qu違."p<pi"su医t c栄a t瑛ng ikck"8q衣n trong ho衣v"8瓜ng cơng tỵ Bài vi院t s穎 d映pi"eƒej"8ƒpj"ikƒ"mk吋o"vtc"8瓜 ch医p nh壱p"pi逢運i f́pi"*Wugt"Ceegrvcpeg"Vguv+"x "8衣t k院t qu違 kh違 quan."x逢嬰t m泳c trung bình t瑛pi逢運i dùng h羽 th嘘ng.

Ari Yanuar Ridwan (2015) [21]: cung c医p m瓜t cách ti院p c壱n trong quá trình thi院t k院 và xây d詠ng m瓜t kho d英 li羽u h厩 tr嬰 vi羽c phân tích d英 li羽u cho nghi羽p v映 mua hàng cho cơng tỵ Ki院p"vt¿e"8逢嬰c tác gi違8隠 xu医t và hi羽n th詠c bao g欝m h羽 th嘘ng ngu欝n d英 li羽u 8亥u vào, máy ch栄 ETL, máy ch栄 OLAP, h羽 th嘘ng báo cáo, b瓜 nh噂 n逢w"vt英 trung tâm và giao di羽p"pi逢運i dùng. T瑛 các nhu c亥u ch泳e"p<pi"e栄a h羽 th嘘ng, ki院p"vt¿e"8逢嬰c hi羽n th詠c b茨ng h羽e挨"u荏 d英 li羽u SQL Server 2008 R2, Windows Server và ngơn ng英 l壱p trình Dotnet.

Một phần của tài liệu Xây dựng hệ thống trí tuệ kinh doanh cho doanh nghiệp áp dụng vào công ty sản xuất hoặc thương mại (Trang 25)

Tải bản đầy đủ (PDF)

(137 trang)