Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 137 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
137
Dung lượng
3,79 MB
Nội dung
I H C QU C GIA TP.HCM I H C BÁCH KHOA KHOA KHOA H C & K THU T MÁY TÍNH LU T NGHI IH C XÂY D NG H TH NG TRÍ TU KINH DOANH CHO DOANH NGHI P ÁP D NG VÀO CÔNG TY S N XU T HO I NGÀNH: KHOA H C MÁY TÍNH H NG : H NG KHOA H C MÁY TÍNH GVHD : PGS TS TR N MINH QUANG GVPB : THS NGUY N TH ÁI TH O -o0o - SVTH o (1710019) SVTH : Cao Nguy t Minh (1710188) SVTH : Nguy n Ng c Phát (1710228) TP H CHÍ MINH, 08/2021 Chúng u c a riêng is ng d n c a PGS TS Tr n Minh Quang N i dung nghiên c u k t qu u trung th c công b li c s d ng cho q trình phân tích, nh c thu th p t nhi u ngu n khác c ghi rõ ph n tài li u tham kh o Ngồi ra, chúng tơi d ng m t s nh li u c a tác gi ch c khác T t c u có trích d n thích ngu n g c N u phát hi n có b t kì s gian l n nào, chúng tơi xin hồn tồn ch u trách nhi m v n i dung Lu t nghi ih cc i h c Bách Khoa - i h c Qu c Gia TPHCM trình th c hi n n nh ng vi ph m tác quy n, b n quy n gây TP H Chí Minh, Ngày 26 tháng 07 Qua th i gian h c t p rèn luy n t i T i h c Bách Khoa - i h c Qu c Gia TP HCM, c s ch b o gi ng d y nhi t tình c a quý th c bi t quý th y cô khoa Khoa h t cho nh ng ki n th c v lý thuy t th c hành su t th i gian h c t p ng Chúng v i m i s n l c c a b Lu t nghi p c a Chúng tơi i h c Bách Khoa t cho nh ng ki n th c b ích th i gian qua Chúng tơi t lịng bi n PGS.TS Tr tình chúng tơi trình nghiên c u ng d n h tr t n Trong trình làm lu , ki n th c h n h p, chúng tơi khơng tránh kh i có nh ng thi u sót cách trình bày di t, nh ng công vi c yêu c u Chúng r t mong nh cs n c a quý th y cô báo cáo lu t nghi c k t qu t t nh t Cu i cùng, chúng tơi kính chúc q th y d i s c kho , thành công ng phát tri n s nghi p giáo d c cao quý Ngày nay, vi c áp d ng công ngh ng s n xu t thành ng h u h t doanh nghi p b u chuy i t t c b n ghi gi y sang t p máy tính k thu t s Qua th i gian, doanh nghi p xu t hi n nhu c u c p thi t phân tích t kho d li u kh ng l xem xét l i m i th h làm, t h th ng n i b a khách hàng T i quy trình c a theo cách cho phép quy nh t cao tr i nghi m khách hàng v i nhi a u qu p có th nâng Nhóm ch n tài "XÂY D NG H TH NG TRÍ TU KINH DOANH CHO DOANH NGHI P ÁP D NG VÀO CÔNG TY S N XU T HO M I" v i s ng d n c a th y PGS TS Tr n Minh Quang làm lu t nghi p i h c gi i quy t nh u c a doanh nghi p tài nghiên c u phát tri n ng d ng h tr doanh nghi p xây d ng kho d li u (Data Warehouse) trí tu kinh doanh (Business Intelligence) H th c kì v ng có kh tr doanh nghi p qu n lý ngu n d li ng l doanh nghi nh ng quy nh mang tính quy nh ng tr i nghi m t t nh t cho khách hàng H th ng có th tùy ch nh phù h p cho nhi u doanh nghi p v i tr ng tâm doanh nghi p s n xu t doanh nghi i tài lu n bi , nhóm tác gi tìm hi u v kho d li u, q trình trích xu t, i d li u tr c quan hố d li u trí tu xu xây d ng kho d li ETL công c phân tích d li u, hi n th xu t hóm xây d ng nh ng quy trình chung t ng quan nh t mà doanh nghi p s n xu t doanh nghi i mong mu n xây d ng s d ng m t h th ng kho d li u Nh ng quy trình c nhóm tác gi trích xu t t nghiên c u c a nhóm v doanh nghi i s n xu t Cu i cùng, quy trình mà nhóm tác gi s t p trung phát tri n bao g m quy trình bán hàng (Sales), Nh p hàng (Procurement), Kho hàng hoá (Product Inventory) qu n lý quan h khách hàng (Customer Relationship Management) L I L IC TÓM T TÀI M C L C DANH M C HÌNH 12 DANH M C B NG 14 DANH M C THU T NG -T VI T T T 15 I THI U 16 GI I THI U TÀI 16 M TÀI 16 GI I H TÀI 17 C U TRÚC LU 18 LÝ THUY T VÀ CÁC NGHIÊN C U LIÊN QUAN 19 NG DOANH NGHI P 19 2.1.1 DOANH NGHI I 19 2.1.2 DOANH NGHI P S N XU T 20 KHO D LI U (DATA WAREHOUSE) 20 20 2.2.2 CÁCH XÂY D NG KHO D LI U 20 2.2.3 CÁCH TI P C N KIMBALL (BOTTOM-UP) 21 CÁCH TI P C N C A KIMBALL 22 CÁC KHÁI NI M TRONG MƠ HÌNH CHI U D LI U 22 T K MƠ HÌNH CHI U D 2.3.2 B NG S LI U 22 TH T (FACT) 23 2.3.3 B NG CHI U (DIMENSION) 23 2.3.4 BUS MATRIX 23 2.3.5 SCD (SLOWLY CHANGE DIMENSION) 23 2.3.6 MƠ HÌNH NGƠI SAO (STAR SCHEMA) 25 TRÍ TU KINH DOANH 25 25 2.4.2 TRÍ TU KINH DOANH K T H P V I KHAI PHÁ D LI T H C MÁY 26 ETL PIPELINE (EXTRACT TRANSFORM - LOAD) 27 2.5.1 KHÁI NI M 27 2.5.2 THÀNH PH N CHÍNH TRONG TI N TRÌNH ETL 27 S LI U HOÁ (DIGITIZATION) 28 2.6 28 2.6.2 S LI U HOÁ (DIGITIZATION) VÀ S HOÁ (DIGITALIZATION) 28 NH N D NG KÝ T QUANG H C (OCR) 29 2.7.1 KHÁI NI M 29 BÁN HÀNG B NG CÔNG NGH OCR 29 CÁC NGHIÊN C U, S N PH M LIÊN QUAN 31 2.8.1 CÁC NGHIÊN C U 31 2.8.2 CÁC S N PH M 32 T K H TH NG 33 V C N GI I QUY T 33 33 GI I PHÁP 34 PHÂN TÍCH H TH NG 34 3.4.1 YÊU C U CH 34 3.4.2 YÊU C U PHI CH 35 UML VÀ MÔ T CH TH XU T 36 KI N TRÚC H TH NG 40 THI T K KHO D LI U 42 XU T 42 XU T 42 THI T K ETL 49 3.7.1 KI N TRÚC 49 3.7.2 PHÂN TÍCH CH ETL 51 I C U TRÚC B NG HI N CÓ 54 NH TH I 57 CƠNG C PHÂN TÍCH D 3.8.1 NH LI U 58 C C N PHÂN TÍCH 58 3.8.2 PHÂN TÍCH YÊU C U CHUNG C 3.8.3 I QU N LÝ 58 NG D NG MƠ HÌNH TRÍ TU NHÂN T O 62 3.8.4 CƠNG C TR C QUAN HỐ D Y M NH KH LI U 63 LI U HOÁ VÀ THU TH P THÔNG TIN 64 A DOANH NGHI P TRONG Q TRÌNH S HỐ 64 HỒ D LI U B NG CÔNG NGH OCR 65 N TH C H TH NG 67 XÂY D NG KHO D LI U 67 4.1.1 CÁC LO I MƠ HÌNH D LI U VÀO 67 4.1.2 M I QUAN H (RELATIONSHIPS) 68 I CÁC B NG TRONG MƠ HÌNH CHI U 68 4.1.4 CÁC THU C TÍNH C A B NG TRONG MƠ HÌNH CHI U 69 HI N TH ETL 70 4.2.1 TRÍCH XU T D 4.2.2 CÁC PHÉP BI 4.2.3 T I D LI U (EXTRACT DATA, DATA INGESTION) 70 ID LI U (DATA TRANSFORM) 72 LI U VÀO KHO D LI U (LOAD DATA) 76 NH TH I 77 CƠNG C PHÂN TÍCH D LI U 78 4.3.1 MƠ HÌNH AI PHÂN TÍCH PHÂN KHÚC KHÁCH HÀNG 78 4.3.2 TR C QUAN HỐ D 4.3.3 PHÂN TÍCH D LI U 78 LI U B NG CÁC CÔNG C BÊN TH BA 80 HỐ B NG CƠNG NGH OCR 81 NG K T VÀ CÔNG VI K T QU 87 C 87 XU T 87 M 87 5.2.2 H N CH 88 5.2.3 GI I PHÁP C I TI N 88 NG M R 89 NH GIÁ 89 I DÙNG 89 U XU T T I TRANG GIAO DI I DÙNG 91 I GIAN TH C HI N ETL CHO CÁC FACT MODEL 92 CHI PHÍ 94 NG H P C TH 97 TÀI LI U THAM KH O 100 L C 104 LÝ THUY T LIÊN QUAN 104 6.1.1 KHÁI NI M DATA WAREHOUSE THEO INMON (TOP-DOWN) 104 CÁCH TI P C N XÂY D NG KHO D LI U 104 MÔ T CÁC B NG CHI U DÙNG CHUNG 106 6.2.1 DATE DIMENSION 106 6.2.2 PRODUCT DIMENSION 106 6.2.3 STORE DIMENSION 107 10 c th c hi n t o Fact Model theo cách khác c 1.1: T o Fact-model r ng, b m vào l a ch c 1.1.2 t tên cho Fact-model mô t n u c n thi t, sau c 1.1.3: Nh , sau n Next Submit hoàn thành tác v c 1.2: T o Fact-model b ng Template có s n, nh n l a ch n Next fact c 1.2.1: Ch n m t Fact model mu n t o danh sách template có s n c 1.2.2: Ch n b ng mu 123 n Next c 1.2 ng s xu t hi n b n Next 6.6.6 THÊM / XOÁ B NG S TH T i dùng có th t o b ng s th t (fact) trang Fact Model c 1: Vào trang c a Fact Model, ch n thông tin c hi t o m t b ng Fact Fact Model: - T o th công D a vào bi u m u có s n h th ng D a c u trúc c a b h th ng Liên k t b h th ng h th ng Cách 1: T o th công 124 o b ng Fact s c 2: n thông tin c a b ng Fact c 3: hoàn thành t o b ng Fact Cách 2: D a vào bi u m u có s n h th ng c 2: Ch c 3: Ch n b c 4: Cách 3: D a c u trúc c a b n ng d li u gi l i cho b ng Fact m i hoàn thành t o b ng Fact h th ng c 2: Ch c 3: Ch n b c 4: Cách 4: Liên k t b c 2: Ch 125 hoàn thành t o b ng Fact h th ng c 3: Ch n b c 4: hoàn thành t o b ng Fact Cách 5: th ng c 2: Ch c 3: Ch n b source fields, settings) c 4: Duplicate Fact Table with full settings (structure fields, hoàn thành t o b ng Fact i dùng có th xóa b ng s th t n s xóa b ng Fact 6.6.7 THÊM / XOÁ B NG B NG CHI U i dùng có th t o b ng chi u (dimension) c hi 126 c 1: Vào trang c a Fact Model, ch n thông tin trang Fact Model o b ng Fact s Có t o m t b ng Dimension Fact Model: - T o th cơng D a vào bi u m u có s n h th ng D a c u trúc c a b th ng Liên k t b h th ng th ng T o b ng Date Dimension Cách 1: T o th công n thông tin c a b ng Dimension c 3: hoàn thành t o b ng Dimension Cách 2: D a vào bi u m u có s n h th ng c 2: Ch dimension c 3: Ch n b ng Dimension Dimension m i 127 ng d li u gi l i cho b ng c 4: hoàn thành t o b ng Dimension Cách 3: D a c u trúc c a b ng Dimension c 2: Ch dimension c 3: Ch n b ng Dimension c 4: Dimension hoàn thành t o b ng Dimension Cách 4: Liên k t b ng Dimension c 2: Ch h th ng dimension c 3: Ch n b ng Dimension c 4: Cách 5: 128 Dimension hoàn thành t o b ng Dimension ng Dimension c 2: Ch th ng dimension th ng c 3: Ch n b ng Dimension c 4: Dimension Table with full settings hoàn thành t o b ng Dimension Cách 6: T o b ng Date Dimension c 2: Ch Import Date Dimension c 3: i n tên c a b ng Dimension ch n tháng b t c 4: hoàn thành t o b ng Dimension i dùng có th xóa b ng chi u 6.6.8 THÊM / XOÁ M n s xóa b ng chi u NG TRONG B NG i dùng có th 6.6.9 C U HÌNH uc t o ETL CHO B NG 6.6.10 TÁC V CRUD LIÊN K T GI A CÁC B NG TRONG NGU N D LI U Khi thêm ngu n d li u t s d li u Các quan h h m i b ng cách 129 d li u, h th t o m i t quan h c i dùng có th t o thêm quan u tiên c a kho d li i dùng có th nhìn th y t t c quan h c a ngu n d li u i dùng có th ch nh s a xóa quan h kho d li u cu i m i dòng 6.6.11 TÁC V CRUD LIÊN K T GI A CÁC B NG TRONG FACT-MODEL Các quan h gi a b ng Fact b i dùng n vào tên c a Fact Model n m i dùng có th Fact Model 130 Fact Model có th nhìn th y quan h c a nh ng b ng t o m i quan h ch m ) i dùng có th xóa ch nh s a quan h m t cách d dàng b ng cách n vào nút cu i m i quan h 6.6.12 C U HÌNH NH TH I ETL i dùng t o m t Factmodel m i, m nh DAGs Transform Load cho c t o ra, m t khác m m nhi m Extract c t o m t kho d li u m c t o i dùng có th i th i gian th c thi ti n trình ETL t m t DAGs b t k , th c hi c: c 1: Ch ng, danh sách DAGs s c 2: T i m t DAGs b t k , nh n ch n Edit c 3: Thi t l p th i gian ch y DAGs c 4: G t button sang ph i kh ng DAGs c 5: Nh n nút Submit, hoàn thành tác v 131 c hi n 6.6.13 THÊM / XOÁ M T BI thêm m t bi TH i dùng th c hi c 1: T i dùng nh c 2: Ch n D li u ngu n (Data Source) c n s d ng c 3: Ch 132 ng có tính g th c sau: c 4: Ch n chi c 5: S p x p giá tr 133 th th c 6: Ch n lo th c 7: th thêm vào dashboard i dùng có th ch n nút "Cancel" h y 6.6.14 CH NH S A M T BI ch nh s a m t bi c 1: T i s d ng th c hi i s d ng ch n bi i 134 TH c n ch nh s a nh n nút c 2: i dùng có th px p lo i bi c 3: thêm vào l i trang Dashboard 6.6.15 CH NH S ng d li i dùng có th i tên c a bi T GOOGLE CLOUD PLATFORM Ch nh s a c t Google Cloud Platform bao g m ch nh s a v Project, c u hình Dataflow, Kho d li u Bigquery Cloud Storage Ch nh s a GCP Project g c: c 1: Ch nh s a Project GCP, nh 135 ng c 2: Nh n vào Tab Google Account/Project c 3: Ch nh s cách b ng d u ; Location ch y GCP (m Ch nh s a GCP Dataflow bao g dùng cho Airflow liên h nh US) c: c 1: Trong trang Setting, nh n vào Tab Dataflow c 2: Nh p thông tin, s ng Worker t u lúc b vi c, lo i máy y Máy t tên cho job Name (t ch n) u công c 3: Nh n nút Save Ch nh s a GCP Bigquery trình th c hi n ETL bao g nh s c: ng m c s d ng c 1: Trong trang Setting, nh n vào Tab Bigquery c 2: Nh ETL, h th cho b ng m t tên tu c sinh sau c p nh t c sinh qua trình th c hi n áp d ng c 3: Nh n nút Save Ch nh s a GCP Cloud Storage: c 1: Trong Setting, nh n vào tab Cloud Storage 136 c 2: Nh p thơng tin, Main_bucket Bucket ch c Stage Temp trình ch y Dataflow, CSV_Bucket Bucket ch a t p tin CSV load t bên vào c 3: Nh n nút Save 137 ... báo trí tu kinh doanh tài t p trung phát tri n h th ng trí tu kinh doanh áp d ng vào công ty i ho c s n xu t, quy trình nghi p v tài t p trung phát tri n ch m t ph n s quy trình c a lo i công ty. .. trình c a theo cách cho phép quy nh t cao tr i nghi m khách hàng v i nhi a u qu p có th nâng Nhóm ch n tài "XÂY D NG H TH NG TRÍ TU KINH DOANH CHO DOANH NGHI P ÁP D NG VÀO CÔNG TY S N XU T HO M... nghi p kinh doanh t ng h p: kinh doanh nhi u lo m tính ch t khác Doanh nghi ng hóa: kinh doanh c s n xu t c kinh doanh hàng hóa th c hi n ho i Các doanh nghi c thành l p qu n lý b c Các doanh