Đồ án tốt nghiệp đại họcDANH MỤC TU VIET TAT Viết tắt Ý nghĩa DB Database: Co sở dir liệu EER Extended Entity Relationship: Mô hình thực thé liên kết mở rộng TEER Integrated Extended Ent
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG
KHOA CÔNG NGHỆ THÔNG TIN
v
aIA HNIS N&L VA OHv
ĐÔ ÁN TOT NGHIỆP ĐẠI HỌC
Đề tài: “XÂY DUNG HE THONG HO TRỢ QUYET ĐỊNH
CHO CHUOI CUA HANG BAN XE DAP”
Giảng viên hướng dẫn: THS NGUYÊN QUỲNH CHI
Sinh viên thực hiện: HOÀNG HỮU PHƯỚC
Mã sinh viên: BI9DCCNS07
Lớp: DI9HTTTI
Niên khóa: 2019-2024
Hệ đào tạo: ĐẠI HỌC CHÍNH QUY
Trang 2HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG
KHOA CÔNG NGHỆ THÔNG TIN
Đề tài: “XÂY DUNG HE THONG HO TRỢ QUYET ĐỊNH
CHO CHUOI CUA HANG BAN XE DAP”
Giảng viên hướng dẫn: THS NGUYEN QUYNH CHI
Sinh viên thực hiện: HOÀNG HỮU PHƯỚC
Mã sinh viên: BI9DCCNS07
Lớp: DI9HTTTI
Niên khóa: 2019-2024
Hệ đào tạo: ĐẠI HỌC CHÍNH QUY
HÀ NỘI 2024
Trang 3Đồ án tốt nghiệp đại học
LỜI CẢM ƠN
Trước hết, xin phép em được bay tỏ lòng biết ơn chân thành nhất đến quý thay cô là
những người hướng dẫn tận tâm tại Khoa Công nghệ Thông tin, Học viện Công nghệ Bưu
chính Viễn thông Tâm huyết và sự dạy dỗ của các thầy cô không chỉ giúp em luôn luôn
khắc ghi cau "Nhất tự vi sư, bán tự vi su" mà còn trang bị cho em một kho tảng kiến thức
quý báu trong suốt chặng đường học tập kéo dai hơn bốn năm qua Em chân thành biết ơn
quý thầy cô đã làm cho hành trang kiến thức của em trở nên phong phú và đa dạng, là nền
tảng quan trọng vững chắc cho sự phát triển sự nghiệp sắp tới
Dé hoàn thành đồ án với sự thành công như ngày hôm nay, em muốn bay tỏ lòngbiết on đặc biệt tới Thạc sĩ Nguyễn Quỳnh Chi — Khoa Công nghệ Thông tin là người
hướng dẫn em trực tiếp trong đồ án tốt nghiệp này Lời cảm ơn sâu sắc nhất em xin dành
cho cô vì sự quan tâm, tận tình Cô đã dành cho em rất nhiều thời gian, công sức dé
hướng dan, chi bảo em trong suốt quá trình thực hiện đồ án tốt nghiệp Em biết ơn vì co
hội được làm việc cùng cô, học hỏi nhiều kinh nghiệm quý bau và giúp em nhận ra được
rất nhiều điều về kiến thức cũng như mở rộng khả năng tư duy của mình Em vô cùng trân
trọng và cảm kích vì điều đó
Trong quá trình nỗ lực học tập, do khả năng tiếp thu kiến thức còn nhiều hạn chế,
em không tránh khỏi những sai sót xuất phát từ sự thiếu sót của bản thân Mong muốn
nhận được sự góp ý, phản hồi xây dựng từ quý thầy cô dé đồ án tốt nghiệp trở nên hoàn
thiện hơn Em xin chân thành cảm ơn vì sự hỗ trợ và đóng góp quý báu của mọi người.
Cuối cùng, em xin bày
những thành tựu và kinh nghiệm tích lũy từ chặng đường học tập nay sẽ là động lực mạnh
mẽ giúp em rèn luyện dé trở thành người có ích cho xã hội trong hành trình tương lai phía
trước của bản thân.
Hà Nội, tháng 12 năm 2023
Sinh viên thực hiện
Hoàng Hữu Phước
Hoàng Hữu Phước — DI9HTTTI 1
Trang 4Đồ án tốt nghiệp đại học
NHAN XÉT, ĐÁNH GIÁ, CHO DIEM
(Của người hướng dẫn)
Điểm: (bằng chữ: eo )
Đồng ý/ Không đồng ý cho sinh viên bảo vệ trước hội đồng chấm đồ án tốt nghiệp?
Hà Nội, ngày tháng năm 2024
CÁN BỘ GIẢNG VIÊN HƯỚNG DẪN
(ky và ghi rõ họ tên)
Hoàng Hữu Phước — DI9HTTTI il
Trang 5Đồ án tốt nghiệp đại học
NHAN XÉT, ĐÁNH GIÁ, CHO DIEM
(Của người phản biện)
Điểm: (bằng chữ: - cccccscerei )
Đồng ý/ Không đồng ý cho sinh viên bảo vệ trước hội đồng chấm đồ án tốt nghiệp?
Hà Nội, ngày tháng năm 2024
CAN BỘ GIANG VIÊN PHAN BIEN
(ky và ghi rõ ho tên)
MỤC LỤC
Hoàng Hữu Phước — DI9HTTTI 11
Trang 6Đồ án tốt nghiệp đại học
LOT CAM ƠN 5 2522222 221222112711222121122T 1221 T1 1 re i
DANH MỤC TU VIET TẮTT 22-22 ©2+2EE+2EEE22EE2EEE22512221127112731271127112211 221.271 21.cr cre.vi DANH MỤC BANG BIEU J o cccccccsscssssssessessessessecsecsvessesscssessesssssssssassssessessessesatsevsnsseseseseeeees vii DANH MỤC HÌNH ANH ooo ccccccssscsssesssssssssesssesssesssscssscsssecssessusssssstssecssesssisesseessecsseessecsesaseess viii
LOT MO DAU ccc cesscssscssssesssesssesssecssessssessseessessssessssssessssesssesssecssserssesssesssuesaseessesssetiesssesseeaseeses 1 CHUONG 1: GIỚI THIEU VE HE THÓNG 2© 2SE2EE£2EE2EE£2EEEEEE2EE2EE2E12E12E222 xe.3
1.1 Co sở lý thuyẾết: -222222-2222211222222111222221122 2220222221 22221 eee 3
1.1.1 Giới thiệu hệ thống hỗ trợ quyết định: - 2 2 s+E+EE£EE2EE2EE2EEEEEEEErrrrrrree 3 1.1.2 Giới thiệu về kho dữ liệu: -22- 222 Ec2EEE2 E22 1221127121111 reo 4 1.1.3 Mô hình dữ liệu đa chiểu: -2- 2 SSSSEE2EE2 12 1E7127171121121121121171 211 re 7 1.1.4 Kiến trúc đa tầng của công nghệ kho dữ liệu: 2-2 52 2+Sz+£z+EzzEzzzzes 9
1.5.2 Cơ sở dữ liệu Bán hàng - DIB2: Sc 321121111 1151121111111 11111111 ky 15
1.6 Kết luận chương l 2-2+2222+22222152227111227111227.11 22.1122.2122 18
CHUONG 2: PHAN TÍCH THIẾT KE HỆ THÓNG 2: 2+22E2EEEt2EEt2EEeeEErrxrred 19
2.1 Phan tích yêu cầu, thu thập dữ liệu cho kho dit W@W: 0 0 0 cccccccceccsseeecssstessssessseeseee 19
2.1.1 Phan tích yêu cầu kho dữ liỆu: 2-22 222SEt2EE£EEESEE2EEE2112212E1221211 2e xe, 19
2.1.2 Thu thập dữ liệu cho kho dữ liệu: - 2222112112315 EkErrkrerkrree 20
2.3 Tích hợp dữ liệu nguồn sử dụng cho kho dữ liệu: -©2¿222E222EEzt2EEztzxxerrred 26
2.3.1 Chuyển déi ngược lược đồ quan hệ sang mô hình thực thé liên kết mở rộng 26
2.3.2 _ Tích hợp lược đồ thực thé liên kết mở rộng EER1, EER2 thành thực thể liên kết mở rộng tích hợp IEEER - 2 2¿ ® + £SE2EE£EEEEEE22E121127112712112711211211211 21121 1e 30
2.3.3 Xây dựng cơ sở dữ liệu tích hợp (IDB) từ IEER - 222cc vccrrrxeee 31
Hoàng Hữu Phước — DI9HTTTI iv
Trang 7Đồ án tốt nghiệp đại học
2.4 Thiết kế Data Mart: 2222222222222222222 0.0 rrrie 33
2.4.1 Thiết kế mô hình cho Dafamar: 2 225222222 22EEYE22EEEtEEExvrrrrrrrrrrrrrrkeg 33 2.4.2 Đặc tả chỉ tiết DatamiaF: - - S525 2 2E322127127171711211121111111 11211 xe 34 2.4.3 Quy tắc chuyền đối, ánh xạ dữ liệu từ cơ sở dữ liệu tích hợp - IDB sang
001 5 36
2.5 Kết luận chương 2: 222-2222122222112221122211222211 22 EEerererree 39
CHƯƠNG 3: XÂY DỰNG KHO DU LIEU CHỦ ĐÈ - DATA MART - 2: +- 40
3.1 Tao các bang dữ liệu cho cơ sở dữ liệu tích hợp - IDB va Data mart: 40
3.1.1 Tao các bảng dữ liệu cho cơ sở dữ liệu tích hợp DATN_IDB: - 40
3.1.2 Tao các bảng dữ liệu cho kho dữ liệu DATN_DM: Ặ.ĂcSekeeeike 40
3.2 Chèn dữ liệu vào IDB, đỗ dữ liệu từ IDB vào Data mart: 22 z2 zstzxe2 40
3.2.1 Chèn dữ liệu từ các cơ sé dữ liệu nguồn vào cơ sở dữ liệu tích hợp - IDB: 41
3.2.2 D6 dữ liệu từ cơ sở dữ liệu tích hợp - IDB vào kho dữ liệu - Datamart: 41 3.3 Cài đặt kho dữ liệu, xây dựng các khối dữ QUE cece ccccccccccccssssseeeseeessssseeeseseeee 47
3.3.1 Kết nối nguồn dữ liệu cho kho dữ liệu: -2- 2-22 2S£+S£2Ez+E£+EzEzEzzezrvee 47
3.3.2 Tao phân cấp dé tính các khối dữ liệu: 2© 2+E2EEc£EEeEEzExerErerkrrree 49 3.3.3 _ Xây dựng các khối dữ liệu: -2-2-©2+222+22Ext2EE+S2EEE2E1 22122121 crkrrei 50 3.3.4 Trién khai các khối dữ liệu lên OLAP SerYer: - 22 2+x+xczEezEerxerxez 53 3.4 Kết luận chương ẩ: 2 222E2222222111122271112227.111122201112 2 re 56 CHUONG 4: PHAN TÍCH VÀ TRUC QUAN DU LIEU HE THÓNG 5¿ 57
4.1 Kết nối nguồn đữ liệu -2 222222+222E1111222211112271111.2211111222 22c Eeree 57
4.2 Lựa chọn các biểu đồ phân tích 2-©22++++2EEEE+2+2222211127211122277112111.121 211 ee 57 4.3 Giao diện hệ thống 22-222 222211222711122711122111221112.22 Eerererree 62
4.4 Kich ban ngw6i 0600) 2 63
4.5 Kết luận chương 42.00 eco cecccccecccsesecssssessssvecssssecssssecesssevssssuvessssvesssssvecssuvessssesssecaseesseeanecass 66
KẾT LUẬN - ©5255 212212E122112711211 211 T1 11 1 11 1111212101111 eee 67 DANH MỤC TÀI LIEU THAM KHẢO 22 25c S12 EEE2E112211122211211E211 211211 68
Hoàng Hữu Phước — DI9HTTTI V
Trang 8Đồ án tốt nghiệp đại học
DANH MỤC TU VIET TAT
Viết tắt Ý nghĩa
DB Database: Co sở dir liệu
EER Extended Entity Relationship: Mô hình thực thé liên kết mở rộng
TEER Integrated Extended Entity Relationship: Mô hình thực thé liên kết mở
rộng tích hợp IDB Integrated Database: Cơ sở đữ liệu tích hợp
HRM Human Resource Management: Quản trị nguồn nhân lực
OLAP Online Analytical Processing: Xử lý phân tích trực tuyên
OLTP Online Transactional Processing: Xử lý giao dịch trực tuyên
CSDL Cơ sở dữ liệu
PK Primary Key: Khóa chính trong CSDL
FK Foreign Key: Khóa ngoại trong CSDL
DSS Decision Support System: Hệ thông hỗ trợ quyết định
DM Data Mart: Kho dữ liệu con chủ đề
DW Data Warehouse: Kho dữ liệu
ETL Extract/Transform/Load: Trích xuất/ Chuyên d6i/Tai
SQL Structured Query Language: Ngôn ngữ truy van có câu trúc
SSIS SQL Server Integration Services
SSAS SQL Server Analysis Services
SSRS SQL Server Reporting Services
PR Primary Relation: Quan hé chinh
SR Second Relation: Quan hé phu
KAP Thuộc tính khóa (KAP): Là một thuộc tinh trong khóa chính của một
quan hệ và cũng là khóa ngoại của quan hệ khác.
KAG Thuộc tính khóa chung (KAG): Tat cả thuộc tính khóa chính khác
trong quan hệ SR mà không phải loại KAP.
FKA Thuộc tính khóa ngoại (FKA): đây là thuộc tính khóa không chính của
một quan hệ chính (PR) va đồng thời là khóa ngoại của một quan hệkhác.
NKA Thuộc tính không khóa (NKA): Những thuộc tính khóa không chính
mà không phải là FKA thì là NKA.
BI Business Intelligence: Kinh doanh thông minh
Hoàng Hữu Phước — DI9HTTTI vi
Trang 9Đồ án tốt nghiệp đại học
Hoàng Hữu Phước — DI9HTTTI vil
Trang 10Đồ án tốt nghiệp đại học
DANH MỤC BANG BIEU
Bảng 1 1: Mô ta các bang đữ liệu nguồn cơ sở dit liệu quản trị nguồn lực 13
Bảng 1 2: Mô tả thông tin các thuộc tính bảng Jobs - - 55 32c *+£+svssersserssers 13 Bang 1 3: Mô tả thông tin các thuộc tính bảng Employ€es - s5 5s s+++ss2 14 Bảng 1 4: Mô tả thông tin các thuộc tính bảng S†OT€sS - - 25 2c skssersseers 14 Bảng 1 5: Mô tả thông tin các thuộc tính bang Representative_Offices - 14
Bang 1 6: Mô ta thông tin các thuộc tính bang Counifr1S - 555 << **++ssc+ssex2 15 Bang 1 7: Mô tả thông tin các thuộc tính bảng Reglons - - - c5 5-5 s+S+s++sssssesrs 15 Bang 1 8: Mô tả các bang dif liệu nguồn cơ sở dit liệu bán hàng 5-5252 5¿ 16 Bang 1 9: Mô tả thông tin các thuộc tính bảng CateBOTI€S 5555555 *++s*++s++sss2 16 Bang 1 10: Mô ta thông tin các thuộc tinh bang CusfoImers 555555 s*+++<s+2 16 Bang 1 11: Mô ta thong tin các thuộc tinh bang InVenfOTI€S - 5555 s<*++<s+2 16 Bang 1 12: Mô ta thông tin các thuộc tính bang Orders eee eeceeseeeceeeeeeeeeeeeeeeaes 17 Bang 1 13: Mô ta thong tin các thuộc tinh bang Order_Ïfems - ‹5 555555 <s 52 17 Bảng 1 14: Mô tả thông tin các thuộc tính bảng Producfs - - 5-5555 s<ssss++ss2 17 Bảng 1 15: Mô tả thông tin các thuộc tinh bảng Sfores c5 +2 sssvxssvrsssevrs 17 Bang 1 16: Mô tả thông tin các thuộc tính bảng SuppÏIers 555 ss++sss+ss++sss2 17 Bang 2 1: Thiết kế bảng Dim Times - 2-2522 £+E‡SE£EE2EE2EEEEEEEEEEEEEEEEEEEErErrrrkee 21 Bảng 2 2: Cách ánh xạ các bang chiều cho bang Fact Sales - 5-2-5552 22552 23 Bảng 2 3: Cách ánh xạ các bảng chiều cho bảng Fact_InventoryCosts 23
Bang 2 4: Bang phân loại các quan hệ và thuộc tính DBI - +5 «+ ++c+sx+ssx2 27 Bang 2 6: Bang phân loại các quan hệ và thuộc tính DB2 - - 5 52s *+++*vcx+sss2 29 Bảng 2 8: Bảng giải quyết xung đột đồng âm 2 2-52 S2 ‡2E2EE2EEEE2ECEEEErkrrrred 30 Bang 2 9: Đặc tả chỉ tiết bảng chiều Dim_ Times 2-52-5255 222S22E22EEEeEEzErxzrrrx 34 Bang 2 10: Đặc ta chi tiết bảng chiều Dim_ CusfOmers - 5-52-5252 v£+z£zzzzcez 34 Bang 2 11: Đặc tả chi tiết bảng chiều Dim_Produets -2-52-5c5sc*2£22£zEc£zzzzcrs 35 Bảng 2 12: Đặc tả chỉ tiết bang chiều Dim_Employees -2- 55c 52cccxz£zxezzed 35 Bảng 2 13: Đặc tả chỉ tiết bảng chiều Dim Stores 2-5-5525 522E2E22EEeExerxrrred 35 Bảng 2 14: Đặc ta chỉ tiết bảng chiều Dim Cities 5-55- 522222 cEzEcrerrrerxred 35 Bảng 2 15: Đặc tả chỉ tiết bảng chiều Dim_ Suppliers - 2-2222 5222s2xczxczzcrszes 35 Bảng 2 16: Đặc tả chỉ tiết bang sự kiện Fact_Sales - 55-55 c2 222EeExerkerrrred 36 Bảng 2 17: Đặc tả chỉ tiết bảng sự kiện Fact_InventoryCosts —— 36 Bang 2 18: Quy tắc chuyên đối, ánh xạ dit liệu bảng chiều Dim_Times 37
Bang 2 19: Quy tắc chuyên đối, ánh xạ dit liệu bảng chiều Dim_ Customers 37
Bảng 2 20: Quy tắc chuyên đổi, ánh xạ dữ liệu bảng chiều Dim_Produets 37
Bảng 2 21: : Quy tắc chuyên đổi, ánh xạ dit liệu bảng chiều Dim_Employees 37
Bảng 2 22: Quy tắc chuyên đổi, ánh xạ dit liệu bảng chiều Dim_Stores 37
Bảng 2 23: Quy tắc chuyên đối, ánh xa dit liệu bảng chiều Dim_ Cities 38
Bảng 2 24: Quy tắc chuyên đổi, ánh xa dit liệu bảng chiều Dim_Suppliers 38
Bảng 2 25: Quy tắc chuyên đổi, ánh xa đữ liệu bảng sự kiện Fact_Sales 38
Bang 2 26: Quy tắc chuyền đổi, ánh xạ dit liệu bảng sự kiện Fact_InventoryCosts 38
Hoàng Hữu Phước — DI9HTTTI Vili
Trang 11Đồ án tốt nghiệp đại học
Trang 123: Lược đồ hình bông tuyết — Snowflake schema [4] - 52 ©5¿+s+cs+£+zs+e+ 8
4: Lược đỗ dai thiên hà — Galaxy schema [4] ccccccccsscessessessesstsssessessessessessteseseees 95: Kiến trúc đa tầng công nghệ kho dữ liệu [2] -. -¿©2 2 x+sz+x+zzx+zszsz 9
6: Lược đồ cơ sở dit liệu quan tri nguén nhân lực — DBI -+ 13
7: Lược đồ cơ sở dữ liệu bán 2017 151: Kiến trúc vật lý hệ thống 2 2© E+EE+EE2E2EEEEEEE2E12121712121121 21212 cre 244: DBI — Mô hình thực thể liên kết mở rộng EER I - 2 2+s+5z+s+z+zs+2 289: DB2 — Mô hình thực thể liên kết mở rộng EER2 - 22 2+s+5++s+£zzS+2 30 14: Lược đồ thực thể liên kết mở rộng tích hợp — IEER 2 2s: 31 15: Lược đồ cơ sở dữ liệu tích i09) 1115 32
16: Lược đồ hình bông tuyết cho bang Fact_Sales 2-2: 5525z+cczxss+2 33
17: Lược đồ hình bông tuyết cho bảng Fact_InventoryCosts - +: 33
18: Lược đồ dai thiên hà cho kho dữ liệu 2-52 2522522 2+Ee£E+EEzEzEerszxrree 34 3: Lược đồ cơ sở dit liệu tích hợp — IDB -2- ¿2 s+2<+£++E££E+£EeEzEerxzxrree 40 4: Lược đồ cơ sở dữ liệu cho kho dữ liệu - - 5+ s+E+E+EvEEEEzE+EvEEererererrree 40 5: Bảng dit liệu Dim CuSOIN€TS G2 322%311391 135113511111 1EEEkke 41 6: Bang dữ liệu Dim _ TIime€S - G2 3221223183511 1151151111111 ke 42 7: Bảng dữ liệu Dim PTOdÌUCS G0 0322132113211 39111 11191119111 ng vn vếp 42 8: Bang dữ liệu Dim SuPpÏI€TS - 4 G5 5 2212311313911 11 11 vn kg 43 9: Bang dữ liệu Dim CItiS - 2c 2+ 3211231 *EE SE rr H Hiệp 43 10: Bảng dữ liệu Dim SfOr€S G2 2 321112111211 211 1111118111181 1 E8 ke 44 11: Bang dữ liệu Dim_EmpÏOY€€S - - c0 2c 2221823111351 rre+ 44 12: Bang o0) i80: 45 13: Bang dữ liệu Fact_InventOTYCOSfS - n1 HH kg re 46 14: Tao dự an Analysis Services Multidimensional mới với visual studio 4715: Tao moi nguồn dữ liỆU 2G Q11 1122111112111 1110111111901 111g 2 1111k k kg 4716: Kết nối tới nguồn dit liệu kho đữ liệu 2-5 2 2+x+S2+E+£zEezxzxerxesez 4817: Kết nối khung nhìn dit liệu nguồàn 2- 2 2 +SE+EE+EE+E£EeEEEEEzEerxzreree 4818: Thêm các bảng liên quan cho khung nhìn dif liệu nguôồn 4919: Tạo thành công khung nhìn dữ liệu nguồn -2- 2 2+s+2s+£z£zzEzEezezxez 49
20: Tạo phân cap cho chiều DimTimes cccceccscessessessesessessesessssessessesesssseseeees 50 21: Tao phan cap cho chiều DimProducts c cccccsscsscessessessessessesstessssessesessesees 50 22: Tạo phan cấp cho chiều DimCities c.cccccccscsscsssessessessesseessessessessessessenseees 50 23: Khối dữ liệu Cubel DtimForSales c.ccccsccsescssessesessssesecsesessesecsessucecscecececeees 5024: Khối dữ liệu Cube2DProTimForSales - 2 5s ‡EEEE£E‡E+Eekexererererx 5125: Khối đữ liệu Cube3DProCusTimForSales ccccccccsesesssssseseseseeseececeseeeeesvevees 5126: Khối dit liệu Cube4DProCusTimEmpForSales - 2-52 s22 +2 5227: Khối dit liệu Cube] DSupForlnven c.ccccsccesessesessesessessessesesesseesesseseseeseeees 52
Hoàng Hữu Phước — DI9HTTTI x
Trang 13Đồ án tốt nghiệp đại học
Hình 3 28: Khối dit liệu Cube2DProSupForlnven 2-5-2 s+522S£+E+E££E+E+Eerzxzxers 52Hình 3 29: Khối đữ liệu Cube3DProTimSupForlnven 2-2 5s s+5£2££+Ee£xezsze+ 33Hình 3 30: Khối dữ liệu Cube4DProTimSupStoForlnven -2- 5s +x+szzzezzed 53Hình 3 31: Triển khai kho dữ liệu cùng các khối dit liệu lên OLAP Server - 54Hình 3 32: Kết nối tới Analysis SerViCeS - 2-2-5 St SE 9E 211211211221 2121 1111 re 54Hình 3 33: Kho đữ liệu sau khi triển khai và được tải vào cơ sở dit liệu - 5SHình 3 34: Xây dung báo cáo dang bảng biểu với SSRS 2-52 222cc cxzzzed 56Hình 4 1: Kết nói tới cơ sở dữ liệu kho đữ liệu ¿-5cc:cvcccecxrirrrrrrrrrrrrrrrree 57Hình 4 2: Biểu đồ dang Card tổng doanh thu 2-52-5252 E+EE+EE2EE2EE£EeEESEEzEerxrxrrrrs 57Hình 4 3: Biểu đồ tròn tổng doanh thu theo vùng địa lý - - 252 +££z+x+E+zszxzed 58Hình 4 4: Biểu đồ tròn tổng doanh thu theo đất nước - 2+ + 2+s+£+££z+x+xezzxze+ 58Hình 4 5: Biéu đồ tron tổng doanh thu theo thành phó 2 - 5 + s+£z+x+£zE+zszed 59Hình 4 6: Biéu đồ tổng doanh thu theo năm - 2 2 2+SE+EE+£E££E2E2EE2EEeExerxerrered 59Hình 4 7: Biểu đồ tổng doanh thu theo QUÝ c 2211312111111 111111551111 1xx ky 60Hình 4 8: Biéu đồ tong doanh thu theo tháng 2-2 2 5s+2E+2E2E2EE2EEEEEerxerkerrrered 60Hình 4 9: Biéu đồ tong doanh thu theo cửa hàng 2 25s 2x+2Et2E£EzEzEezxzrerxzed 61Hình 4 10: Biéu đồ tổng doanh thu theo nhân viên - ¿2-2 22 2+E+£E+££E+EzEezszxzrs 61Hình 4 11: Biểu đồ tong doanh thu theo danh mục sản phẩm -2- 52 2+2 =z£+ 61Hình 4 12: Biéu đồ tổng doanh thu theo sản phâm - - 2 52 +22S+£+££EzE££zzzEczz 62Hình 4 13: Biểu đồ tổng doanh thu theo khách hàng - 2-2 522 2 +E+E+E+£zEezsze2 62Hinh 4 14: Giao dién hé thống sau khi được đây lên dịch vụ trực tuyến HH k HH ng 1x xz 63Hình 4 15: Chọn bộ lọc theo nam va QU - 2 2321111211113 1151151111111 11 re 63Hinh 4 16: Giao dién hé thống báo cáo doanh thu sau bước Ï -<<<« 64Hình 4 17: Giao diện hệ thong báo cáo doanh thu sau bước 2 - << «««<=<+ 64Hình 4 18: Giao diện hệ thong báo cáo doanh thu sau bước 3 -. -««««<<<+ 65Hình 4 19: Giao diện hệ thống báo cáo doanh thu sau bước 4 << «««<=<+ 65Hình 4 20: Giao diện hệ thống báo cáo doanh thu sau bước 5 - c scz+s+c+2 66
Hoàng Hữu Phước — DI9HTTTI xI
Trang 14Đồ án tốt nghiệp đại học
LỜI MỞ ĐẦU
Trong thời đại ngày nay, với sự tiến bộ của công nghệ thông tin đã làm thay đôibức tranh doanh nghiệp, mở ra những cánh cửa mới, tạo ra những biến đổi đáng kê trongviệc tiếp nhận và xử lý thông tin Thực tế, thông tin không chỉ là một khía cạnh quantrọng, ma nó là trụ cột hang đầu trên bảng ưu tiên của các doanh nghiệp và tổ chức Việc
năm bắt được thông tin được gọi là cơ sở của mọi hoạt động sản xuất, kinh doanh Các
nhân lực hoặc tổ chức nào thu thập, hiểu được thông tin tốt và hành động dựa trên cácthông tin được kết xuất từ đữ liệu đã có sẽ đạt được thành công trong mọi hoạt động Tuynhiên, dé duy trì hệ thống thông tin hiệu quả trở nên gặp rất nhiều khó khăn khi thông tin
ngày càng trở nên phức tạp và phong phú.
Thách thức trước mắt được đặt ra là lượng dir liệu hiện nay dang là một đại dương
đồ sộ, được sinh ra từ các hệ thống công nghệ thông tin và được máy tính lưu trữ trong
các hệ thống co sở dit liệu đa dạng và không ngừng bùng nổ mỗi ngày Nhiệm vụ củachúng ta không chỉ là quản lý thông tin, mà còn đối mặt với vấn đề đánh bại nguồn gốcrủi ro xuất phát từ việc duy trì nhiều hệ thống cơ sở đữ liệu riêng biệt đễ dàng gặp sai sótkhi đồng bộ thông tin Sự phân tách này không chỉ làm tăng khả năng làm nảy sinh sựnhằm lẫn, mà còn tạo nên mê cung thông tin mâu thuẫn, đe dọa sự rõ ràng, ồn định và gâytác động tiêu cực trong quá trình đưa ra quyết định kinh doanh
Tuy nhiên, nếu quan sát bức tranh một cách rộng lớn hơn, thách thức này khôngchỉ là một khó khăn mà còn là một cơ hội lớn dé chúng ta mở rộng khả năng sáng tạo vàkhai thác tối đa tiềm năng của dit liệu Mặc dù việc kết hợp nhiều nguồn đữ liệu khácnhau vào một hệ thống thông tin có thể gặp nhiều khó khăn, nhưng đây cũng là cơ hội đểchúng ta định hình một hệ thống linh hoạt và đa chiều Điều quan trọng là tìm ra giải pháptích hợp thông tin một cách hiệu quả, mở ra một nguồn lực quý giá dé định hình quyếtđịnh kinh doanh và tạo ra giá trị trong việc hiểu biết và sử dụng dit liệu một cách đồngnhất và linh hoạt hơn
Một giải pháp tối ưu cho thách thức này chính là sử dụng kho đữ liệu, hay cònđược gọi là Data Warehouse/Data Mart — một hệ thống linh hoạt và tích hợp nhiều chứcnăng, hứa hen mang lại thông tin cần thiết và có tổ chức cho người sử dụng Việc xâydựng và triển khai kho dit liệu không chỉ tạo ra kiến trúc mạnh mẽ mà còn cung cấp các
công cụ quan trọng cho các nhà lãnh đạo doanh nghiệp Họ sẽ có khả năng hiểu và sử dụng dữ liệu một cách có hệ thống, đồng thời hỗ trợ quá trình đưa ra những quyết định
chiến lược thông tin
Hệ thống kho đữ liệu trở thành một nguồn lực quý giá trong thực tế đầy cạnh tranh
và không ngừng phát triển ngày nay Trong vài năm gần đây, các công ty đã và đang đầu
tư hàng triệu đô vào việc xây dựng kho dữ liệu không chỉ là một xu hướng mà còn là một
Hoàng Hữu Phước — DI9HTTTI 1
Trang 15Mục đích chính của đồ án là tập trung xây dựng kho dữ liệu nhằm tập hợp các
thông tin về bán hàng và nhập hàng của một công ty quản lý chuỗi cửa hàng bán sảnphẩm xe đạp dé xây dựng nên kho dir liệu tạo co sở xây dung một ứng dung tạo báo cáo
tài chính động dựa trên kho dir liệu đó Giúp hỗ trợ những nhà quản lý đưa ra những
quyết định sáng suốt nhất
Cấu trúc của đồ án nghiên cứu gồm 4 chương được trình bày như sau:
Chương 1: Giới thiệu về hệ thống
Chương 1 sẽ giới thiệu tổng quát một số cơ sở lý thuyết thực hiện đồ án, giới thiệu
mục tiêu và phạm vi của hệ thống, các yêu cầu nghiệp vụ, đặc tả chức năng của hệ thống
và mô tả dữ liệu nguồn
Chương 2: Phân tích thiết kế hệ thống
Chương 2 sẽ trình bày về phân tích yêu cầu của hệ thống, phân tích yêu cầu kho dit
liệu, thu thập dữ liệu nguồn cho kho, thiết kế kiến trúc hệ thống, tích hợp các nguồn dữ
liệu cho kho, thiết kế lược đồ dùng cho kho dữ liệu cũng như các quy tắc chuyển đồi, ánh
xạ dữ liệu cho kho.
Chương 3: Xây dựng kho dữ liệu
Chương 3 sẽ trình bày quá trình tạo cơ sở dữ liệu tích hợp, kho dữ liệu, chèn dữ
liệu vào cơ sở dữ liệu tích hợp sau đó đồ đữ liệu vào kho cũng như là cài đặt kho dữ liệu,
xây dựng các khối dữ liệu cũng như là triển khai chúng lên máy chủ phân tích trực tuyến.Chương 4: Phân tích và trực quan dữ liệu hệ thống
Chương 4 sẽ trình bày quá trình sử dụng nguồn dit liệu đã xây dựng dé phục vụ
cho công việc phân tích và trực quan dữ liệu, làm cơ sở cho việc xây dựng giao diện
người dùng cho hệ thống
Hoàng Hữu Phước — DI9HTTTI 2
Trang 16Đồ án tốt nghiệp đại học
CHUONG 1: GIỚI THIỆU VE HE THONG
Chương 1 giới thiệu tổng quát một số cơ sở lý thuyết thực hiện đồ án, giới thiệu
mục tiêu và phạm vi của hệ thông, các yêu câu nghiệp vụ, đặc ta chức năng của hệ thông
và mô tả dữ liệu nguôn.
1.1 Cơ sở lý thuyết:
1.1.1 Giới thiệu hệ thống hỗ trợ quyết định:
Hệ thống hỗ trợ quyết định (Decision Support System - DSS) là một hệ thốngthông tin được sử dụng dé trợ giúp các hoạt động ra quyết định trong một tổ chức hoặcdoanh nghiệp bang cách phân tích các tập dữ liệu lớn và tong hợp thông tin có thé được
sử dụng dé giải quyết van đề và đưa ra quyết định tốt hon [1]
Hệ thống hỗ trợ quyết định thường được sử dụng bởi các nhà quản lý cấp trung và
cấp cao đề hỗ trợ các quyết định chiến lược, chăng hạn như đầu tư, tiếp thị, sản xuất, và
tài chính Hệ thống hỗ trợ quyết định cũng có thể được sử dụng bởi các nhân viên cấpthấp hơn nhưng rất ít dé hỗ trợ các quyết định hàng ngày, chẳng hạn như lập kế hoạch sản
xuất, quản lý dự án, và dịch vụ khách hàng.
» - Hệ thống hỗ trợ quyết định tập hop dit liệu và kiến thức từ các lĩnh vực và nguồn
khác nhau dé cung cấp cho người dùng thông tin nhờ các báo cáo và tóm tắt thông
thường.
» - Mục đích của hệ thống hỗ trợ quyết định là giúp các nhà quản lý đưa ra quyết định
tốt hơn bang cách cung cấp cho họ thông tin và công cụ phân tích cần thiết Hệthống hỗ trợ quyết định có thé giúp các nhà quản lý:
o Nhận thức được các van dé và cơ hội.
Thu thập va phân tích dữ liệu.
Xác định các giải pháp kha thi.
Đánh giá các giải pháp.
Oo 0 Go 0 Thuc hién cac quyét dinh.
Nhìn chung, hệ thống hỗ trợ quyết định là một ứng dụng thông tin trái ngược với ứngdụng vận hành Cung cấp cho người dùng thông tin liên quan dựa trên nhiều nguồn dữ
liệu khác nhau dé hỗ trợ việc ra quyết định sáng suốt hơn Ngược lại, các ứng dụng vận
hành ghi lại chi tiết các giao dịch kinh doanh, bao gồm cả đữ liệu cần thiết cho nhu cầu hỗtrợ quyết định của doanh nghiệp
Hệ thống hỗ trợ quyết định thường bao gồm các thành phần sau:
© Co sở dữ liệu: Cơ sở dit liệu chứa thông tin cần thiết cho quá trình ra quyết định.
s - Mô hình: Mô hình là các công cụ phân tích được sử dụng dé xử lý thông tin từ cơ
sở đữ liệu.
Hoàng Hữu Phước — DI9HTTTI 3
Trang 17Đồ án tốt nghiệp đại học
e - Giao diện người dùng: Giao diện người dùng cho phép người dùng tương tác với
hệ thống hỗ trợ quyết định
1.1.2 Giới thiệu về kho dữ liệu:
Kho đữ liệu được định nghĩa theo nhiều cách khác nhau, nhưng không chặt chẽ:
se C6 thé được coi như một cơ sở đữ liệu hỗ trợ quyết định mà được duy trì một cách
riêng biệt từ cơ sở đữ liệu tác nghiệp của một tô chức
» H6 trợ xử lý thông tin bằng cách cung cấp một nền tảng vững chắc dữ liệu lich sử
và hợp nhất cho việc phân tích [2]
Một trong những định nghĩa hay gặp của kho dit liệu của W.H Inmon được phát biểu nhưsau: "Một kho đữ liệu là một bộ dữ liệu hướng chủ đề, tích hợp, biến động theo thờigian, và không mat đi được sử dụng dé hỗ trợ quá trình ra quyết định quản ly”
Khái niệm công nghệ kho dit liệu được dùng dé chỉ quá trình xây dung và sử dụng kho dit
liệu Chúng ta cùng phân tích kỹ hơn các đặc điểm của kho dữ liệu được nêu ra trong định
o_ Tích hợp liên quan đến khả năng kết hợp dữ liệu từ nhiều nguồn khác nhau dé
tạo ra một nguồn dữ liệu toàn diện và đa chiều
o Ví dụ: Kho dữ liệu tích hợp có thé kết hợp thông tin từ các bộ phận khác nhau
như kế toán, nhân sự va sản xuất dé cung cấp cái nhìn toàn diện về hoạt động
của một doanh nghiệp.
¢ Bién động theo thời gian:
o Đặc tính này chỉ ra khả năng của kho dữ liệu theo dõi và ghi lai sự biến động
của đữ liệu theo thời gian.
o Ví dụ: Một kho dé liệu về doanh số bán hang hàng ngày có tinh năng biến động
theo thời gian, cho phép doanh nghiệp theo dõi xu hướng bán hàng lịch sử và
dự đoán nhu cầu trong tương lai.
¢ Khong mat di:
Hoàng Hữu Phước — DI9HTTTI 4
Trang 18Đồ án tốt nghiệp đại học
o_ Đặc tính này liên quan đến bảo đảm tính toàn vẹn và không mat mat dit liệu
trong quá trình thu thập, lưu trữ va xử lý.
o V7 đu: Một kho dữ liệu có biện pháp bảo mật mạnh mẽ và hệ thống sao lưu định
kỳ dé dam bảo rằng dit liệu không bi mat mát, đồng thời có khả năng phục hồikhi có sự cố và thường chi đòi hỏi có hai thao tác truy xuất dữ liệu là tải dữ liệu
vào kho lúc khởi tạo và truy nhập dữ liệu có sẵn trong kho
Kho đữ liệu thường được dùng cho hệ thống hỗ trợ quyết định dé giúp hệ thống cảithiện chất lượng ra quyết định theo các cách sau:
e Kho dt liệu cung cap cho người dùng một cái nhìn toàn diện vê dữ liệu từ nhiêu
nguôn khác nhau Điêu nay có thê giúp người dùng nhận thức được các vân dé và
cơ hội ma họ có thê không nhận thay nêu chi xem dữ liệu từ một nguôn duy nhất.
s Kho dit liệu được tổ chức và chuẩn hóa dé hỗ trợ phân tích và khai thác dữ liệu.
Điều này có thể giúp người dùng tiết kiệm thời gian và công sức trong quá trìnhphân tích dữ liệu.
¢ Kho dữ liệu được cập nhật thường xuyên với dữ liệu mới Điều này có thé giúp
người dùng đưa ra quyết định dựa trên dir liệu hiện tại và chính xác
Tóm lại, kho dữ liệu là một thành phần quan trọng của hệ thống hỗ trợ quyết định.Kho dữ liệu có thể giúp hệ thống hỗ trợ quyết định cải thiện chất lượng ra quyết địnhbang cách cung cấp cho người dùng thông tin từ nhiều nguồn khác nhau, được tô chức vachuẩn hóa đề hỗ trợ phân tích và khai thác dữ liệu
So sánh kho dữ liệu với cơ sở dữ liệu hỗn tạp
Chúng ta dé nhằm lẫn kho dit liệu với cơ sở dit liệu hỗn tạp bởi cả hai đều chứa nhiều loại
dữ liệu khác nhau và các dữ liệu nay được tích hợp lại trong một thé thống nhất Tuynhiên kho dữ liệu khác hăn cơ sở đữ liệu hỗn tạp về bản chất:
- Việc tích hợp cơ sở dit liệu hỗn tạp truyền thống cần:
e Xây dựng một thành phan đóng gói (trung gian, bao bọc) cho toàn bộ các dữ liệu
hỗn tạp khác nhau
© (6 cách tiếp cận hướng truy van có nghĩa là một truy van do người dùng yêu cầu
được dich sang các câu truy van tương ứng với từng thành phan hỗn tạp, kết quảtrả về sẽ được tích hợp thành một tập câu trả lời toàn cục
e Lién quan tới việc lọc thông tin phức tạp.
® - Cạnh tranh tải nguyên tại các nguồn cục bộ địa phương
- Kho dir liệu có xu hướng chỉ thực hiện các thao tác cập nhật với hiệu năng cao
Hoàng Hữu Phước — DI9HTTTI 5
Trang 19Đồ án tốt nghiệp đại học
Thông tin từ các nguồn hỗn tạp được tích hợp trước và được lưu trữ trong kho déphân tích và truy vẫn trực tiếp [2
So sánh kho đữ liệu với cơ sở dữ liệu tác nghiệp
Hai loại này khác nhau chủ yếu về cách sử dụng dữ liệu được lưu trữ trong chúng:
Nhiệm vụ của cơ sở dữ liệu quan hệ truyền thống là thực hiện xử lý giao dịch trực
tuyến, chủ yếu thực hiện các hoạt động hàng ngày như mua ban, thống kê hàng tồn kho,
giao dich ngân hang, quản lý sản xuất, tiền lương, đăng ký, kế toán số sách, v.v
Nhiệm vụ của kho đữ liệu là thực hiện các phân tích trực tuyến, chủ yếu thực hiện
các công việc phân tích va hỗ trợ ra quyết định cho một tô chức nào đó.
Đặc điềm phân biệt phân tích trực tuyến (OLAP) và xử lý trực tuyến (OLTP) chính
là sự khác nhau cơ bản của kho dữ liệu và cơ sở dữ liệu truyền thống, được thê hiện ở
Các mẫu truy cập dữ liệu: OLTP cần các truy vấn cập nhật đơn giản là chính trong
khi OLAP sử dụng các truy vấn chỉ đọc nhưng phức tạp [2]
Tách rời kho dữ liệu khỏi cơ sở dữ liệu tác nghiệp
Cần thực hiện việc này bởi những lý do sau:
- Hiệu suât cao cho cả hai hệ thông:
Hệ quản tri cơ sở dữ liệu đã được thiết kế tốt dé phục vụ cho các hoạt động xử lý
trực tuyến về các phương pháp truy cập dữ liệu, đánh chỉ mục, kiểm soát xử lý
đồng thời, phục hồi dữ liệu
Kho đữ liệu được thiết kế tốt phục vụ các hoạt động xử lý phân tích trực tuyến bao
gồm xử lý các truy van OLAP, tạo khung nhìn đa chiều và củng cố dữ liệu.
- Chức năng khác nhau và dữ liệu khác nhau:
e - Hệ hỗ trợ quyết định có kho dữ liệu cung cấp yêu cau dit liệu lịch sử trong khi đó
cơ sở dữ liệu tác nghiệp thường không duy trì.
Hoàng Hữu Phước — DI9HTTTI 6
Trang 20Đồ án tốt nghiệp đại học
s - Hệ hỗ trợ quyết định cần củng cố dữ liệu (tích hợp, tổng hợp) từ các nguồn dữ liệu
hỗn tạp khác nhau.
® Cac nguồn khác nhau thường sử dung dit liệu không nhất quán, mã số và các định
dạng của chúng cần phải được đối chiếu [2]
1.1.3 Mô hình dữ liệu đa chiều:
© M6 hình dữ liệu đa chiều (Multidimensional data model) là một cách tổ chức va
biểu diễn đữ liệu trong không gian có nhiều chiều Trong mô hình này, mỗi quansát hay bản ghi dữ liệu không chỉ có giá trị cho mỗi biến (như trong mô hình ditliệu hai chiều), mà còn có giá trị tương ứng với một hoặc nhiều biến khác, tạothành một không gian đa chiều
¢ Ở mức đơn giản, một mô hình dữ liệu đa chiều thường được biểu diễn dưới dạng
ma trận, trong đó mỗi hàng của ma trận tương ứng với một quan sát và mỗi cột
tương ứng với một biến Tuy nhiên, trong mô hình đa chiều, có thể có nhiều hơn
một giá trị cho mỗi quan sát, vì mỗi giá trị có thé được liên kết với một số lượng
biến
¢ Trong các khái niệm về kho dit liệu thì điển hình về mô hình dit liệu đa chiều là hệ
thống OLAP (Online Analytical Processing) Trong các hệ thống nay, dữ liệu
thường được tổ chức dưới dạng các "cube" đa chiều, trong đó mỗi kích thước của cube tương ứng với một chiều trong không gian đa chiều Mỗi ô của cube chứa giá
trị tương ứng với các biến trong không gian đa chiều
Hình 1 1: Khối dữ liệu — Data cube [3]
Mô hình dữ liệu đa chiều bao gồm hai thành phan chính:
e Bang sự kiện (Fact table): Bang sự kiện lưu trữ dữ liệu đo lường, chăng hạn như
doanh sé, lợi nhuận, hoặc số lượng khách hàng.
se - Các bảng chiều (Dimension tables): Các bảng chiều lưu trữ dit liệu mô ta, chang
hạn như thời gian, sản phẩm, hoặc khu vực.
Các bảng chiều được kết nối với bảng sự kiện bằng các khóa ngoại Điều này cho phép người dùng truy vấn dữ liệu theo nhiều chiều khác nhau Ví dụ, người dùng có thể
truy vấn đữ liệu doanh số theo thời gian, san pham, hoặc khu vực.
Hoàng Hữu Phước — DI9HTTTI 7
Trang 21Đồ án tốt nghiệp đại học
Mô hình hóa dữ liệu cho kho dữ liệu
Bao gồm 3 loại lược đồ: hình sao, hình bông tuyết và dai thiên hà
Lược đồ hình sao: Một bảng sự kiện (Fact) ở giữa kết nối với nhiều bảng theochiều (Dimension)
Lược đồ hình bông tuyết: La một dạng chuẩn hóa của mô hình hình sao trong đó
sự phân cấp của các chiều được chuẩn hóa thành một tập hợp các bảng theo chiều
có kích thước nhỏ hơn, tạo thành một hình dạng tương tự như bông tuyết.
Lược đồ dải thiên hà: gồm nhiều bảng sự kiện (Fact) có chung các bảng theo chiều,
mà mỗi bảng sự kiện cùng các bảng theo chiều là mô hình hình sao, được coi nhưmột ngôi sao vì thế mô hình này được xem như là một bộ sưu tập của các ngôi sao,
và được gọi là lược đồ dải thiên hà hay một dải các bảng sự kiện.
Dimension Dimension Table Table
Dealer Date Dim
Branch_ID Product_ID
Name Product_Name Address Model_ID
Location Dealer Date Dim
Location_ID Dealer_ID Date_ID
Region Location_ID Year
Branch_ID Date_ID Units_Sold
Revenue Variant
Branch Dim Product Variant_ID
Branch_ID Product_ID Variant Name
Name Product_Name Fuel Type
Country
Country_ID
Dimension Table
Dimension
Table
Dimension
Table
Hình 1 3: Lược đồ hình bông tuyết — Snowflake schema [4]
Hoàng Hữu Phước — DI9HTTTI 8
Trang 22Đồ án tốt nghiệp đại học
Dimension
Table
Branch Dim Branch_ID
Name
Dealer Address
Dealer_ID Country
Location_ID Revenue Product
Country_ID Dealer_ID Product_ID
Dealer_NM Model_ID Product_Name
Dealer_CNTCT Branch_ID Variant_ID Product
Date_ID Dimension Product_ID
Units_Sold Table Product_Name
Revenue wren Model_ID
are nim Variant_ID
Date_ID
Year
Month Quarter
Date
Dimension
Table
Dimension Table
Hình 1 4: Lược do dải thiên hà — Galaxy schema [4]
1.1.4 Kiến trúc da tang của công nghệ kho dữ liệu:
Other
sources
>
Operational DBs
eeeata Marts
Hình 1 5: Kiến trúc da tang công nghệ kho dữ liệu [2]
Ba loại mô hình kho dữ liệu
© Kho dit liệu doanh nghiệp (Enterprise warehouse): Thu thập tat cả thông tin về chủ
thé bao trùm toàn bộ tổ chức.
© Kho dữ liệu con theo chủ đề (Data mart): Một tập hợp con dữ liệu của toàn doanh
nghiệp có giá trị cho một nhóm người sử dung cụ thé Phạm vi của nó có giới han
cho một nhóm người sử dụng được lựa chọn trước, ví dụ như quảng cáo doanh
nghiệp
Hoàng Hữu Phước — DI9HTTTI 9
Trang 23Đồ án tốt nghiệp đại học
1.2.
1.2.1.
1.2.2.
o_ Có ba loại kho đữ liệu chủ đề: Data mart độc lập (Dependent Data Mart), Data
mart phụ thuộc (Independent Data Mart) và Data mart kết hợp (Hybrid DataMart — được kết hợp từ 2 kiêu Datamart trước)
Kho dir liệu ảo:
o Bao gồm một tập hợp các khung nhìn của cơ sở dữ liệu tác nghiệp
o Chỉ một số khung nhìn có khả năng tông hợp dữ liệu lên mức cao
Giới thiệu: Mục tiêu và phạm vi của hệ thống:
Mục tiêu:
Mục tiêu của bài toán là xây dựng một hệ thống hỗ trợ quyết định quản lý bằngcách tích hợp các nguồn đữ liệu tác nghiệp hiện tại của doanh nghiệp, lấy nó làmnơi khai thác, tận dụng tối đa giá trị của lượng dir liệu được sinh ra
Hệ thống giúp tạo lập các bảng biểu chỉ tiết, biểu đồ, báo cáo kinh doanh động
giúp cho nhà quản lý dé dàng nắm bắt được bức tranh tông quan về khía cạnh công
ty quan tâm, cũng như là mức độ chỉ tiết nhỏ hơn nữa nhằm tìm kiếm được hiểubiết sâu sắc từ đó đưa ra quyết định, chiến lược phát triển cho công ty
Giao diện thân thiện dễ sử dụng, hiệu năng nhanh đảm bảo tốc độ yêu cầu, báo cáo
dễ nhìn, trực quan tạo điều kiện thuận lợi cho việc xem xét đữ liệu với hệ thống đểphân tích kinh doanh và ra quyết định sáng suốt
Phạm vi:
Doanh nghiệp cần xây dựng hệ thống bao gồm các cửa hàng năm rải rác ở nhiềuthành phố thuộc nhiều bang khác nhau, đặt tại nhiều quốc gia và vùng địa lý.Thông tin về sản phẩm, cửa hàng và nhà cung cấp cũng được lưu lại Mỗi cửa hàngkhi nhập thêm hàng vào kho sẽ được lưu thông tin chỉ tiết về ngày nhập, mặt hàng,cửa hàng, và nhà cung cấp cùng với số lượng mỗi sản phẩm tương ứng được nhậpvào Mỗi khách hàng được lưu trữ thông tin cá nhân và ngày mua hàng đầu tiên
Mỗi đơn hàng của khách có thé đặt thoải mái về các sản phẩm và số lượng của
chúng, mỗi sản phẩm chỉ thuộc một loại danh mục sản phẩm Mỗi đơn hàng đượcxác định bởi một mã số đơn hàng
Doanh nghiệp cũng có hệ thống HRM để quản lý nguồn lực, lưu trữ thông tin mỗinhân viên chỉ với một vi trí công việc duy nhất và thuộc một cửa hàng duy nhất Vị
trí của các cửa hàng cũng được lưu trữ Một nhân viên chỉ thuộc một cửa hàng.
Mỗi cửa hàng nằm tại một thành phố và có nhiều cửa hàng trong một thành phó.Mỗi thành phố có một văn phòng đại diện dé quan ly tất cả các cửa hàng của thành
phố đó Mỗi văn phòng đại diện được xác định bằng mã thành phố (city_id) Mỗi
quốc gia sẽ có nhiều văn phòng đại diện và mỗi một vùng địa lý sẽ bao gồm nhiều
quốc gia.
Doanh nghiệp đang gặp phải khó khăn trong việc có một hệ thống chung để xem
các thông tin về hoạt động của doanh nghiệp và nguồn lực hiện tại của họ Muốn xây dựng một hệ thống báo cáo hỗ trợ những người quản lý dé dang nắm bắt nhanh
Hoàng Hữu Phước — DI9HTTTI 10
Trang 24Đồ án tốt nghiệp đại học
chóng, sớm nhất được tình hình hiện tại của doanh nghiệp Làm cơ sở để đưa ranhững quyết định nhanh chóng, đúng đắn
¢ - Nguồn dữ liệu: Từ các hệ thống cơ sở dữ liệu quan hệ tác nghiệp của doanh nghiệp
ở thời điểm hiện tại Hệ thống sẽ sử dụng MS SQL Server dé tích hợp dit liệu và
xây dựng kho dir liệu cho doanh nghiệp.
1.3 Yêu cầu nghiệp vu:
» Dé đáp ứng được nhu cầu của “Hệ thống hỗ trợ quyết định” cho những nhà quan lý
muốn biết được những vấn đề quan tâm của doanh nghiệp cần xem xét tổng quát
và chỉ tiết với các thao tác cuộn lên, khoan xuống, chọn và chiếu theo các chiều
khác nhau dựa trên những yêu cầu của người sử dụng Thiết lập một chiều thờigian, hệ thống sẽ sinh những báo cáo phân tích trực tuyến với những yêu cầu sau:
se Xem các biểu đồ thống kê báo cáo về số lượng sản phẩm đã bán, doanh thu, lợi
nhuận theo các chiều khác nhau bao gồm: thời gian bán (tháng, quý, năm), sảnphẩm, danh mục sản pham, khách hàng, nhân viên, cửa hàng, thành phó, đấtnước và vùng địa lý có đặt cửa hàng Một số chiều báo cáo của những độ đonày được miêu tả chỉ tiết như một vài thông tin đưới đây:
o Doanh thu của sản phâm, danh mục sản phẩm nào đó trong một quý, năm là
bao nhiêu.
o Lợi nhuận tại thành phó, quốc gia nao đó là bao nhiêu và chủ yếu đến từ
danh mục sản pham, sản phẩm nao
o Sản phẩm được nhân viên nào đó bán nhiều nhất
o Những khách hàng mang lại nhiều doanh thu nhất từ trước đến nay tại cửa
hàng nao đó.
o_ Thành phố mà sản phẩm nào đó bán chạy (nhiều nhất) trong năm
o_ Khách hàng ở đất nước nào đó ưu chuộng sản phẩm nào nhất.
© Xem các biểu đồ thống kê báo cáo về số lượng hàng nhập, chi phí hàng nhập
theo các chiều khác nhau bao gồm: thời gian nhập (tháng, quý, năm), sản phẩm,danh mục sản phẩm, nhà cung cấp, cửa hàng, thành phố, đất nước và vùng dia
lý có đặt cửa hàng Một số chiều báo cáo của những độ đo này được miêu tả chỉtiết như thông tin dưới đây:
o Số lượng sản pham nhập trong | tháng, quý, năm tại cửa hàng nào đó là bao
s_ Đầu vào của hệ thong:
Hoàng Hữu Phước — DI9HTTTI 11
Trang 25Đồ án tốt nghiệp đại học
s* Lược đồ quan hệ của các hệ thống cơ sở dữ liệu quan hệ tác nghiệp hiện tại của
doanh nghiệp gồm:
© Co sở dữ liệu Quan trị nguồn nhân lực (HRM - Human Resources Management)
gồm những quan hệ với lược đồ như sau:
o Jobs (1ob_1d, job_name, job_desc, min_salary, max_salary, date)
o Employees (employee_id, emp_name, date of birth, emp_gender,
emp_ phone, emp email, emp_address, date, salary, manager_id, *store_id,
*job_id)
© Stores (store_id, store name, store_phone, store_email, store_address, date,
*city_id)
o Representative Offices (city_id, office name, office desc, office_address,
city_name, date, state, *country_id)
o Coutries (country_id, country_name, *region_id)
o Regions (region_id, region name, region_desc)
® Co sở đữ liệu Ban hàng gồm những quan hệ với lược đồ như sau:
© Customers (customer_ 1d, cus name, cus gender, cus phone, cus email,
date, cus_address)
o Orders (order_id, date, employee_id, *customer_id)
o Order_Items (*order_id, *product_id, quantity)
© Products (product_id, product_name, date, standard_cost, unit_price,
*category_id)
o Categories (category_id, category_name, category_desc)
o Inventories (inventory date, *store_id, *supplier_id, *product_id, quantity)
o Stores (store_id, store name, store phone, store email, store address, date,
city_id)
o Suppliers (supplier_id, supplier_name, supplier_phone, supplier_email)
" Trong đó những thuộc tính được gạch chân là khóa chính và thuộc tinh đánh
dấu (*) phía trước là khóa ngoại
s- Đầu ra của hệ thong:
o_ Các báo cáo động gồm đồ thị, biểu đồ, bang dit liệu có giao diện cho phép
người dùng thực hiện các thao tac roll up, drill down, slice, dice cung
cấp thông tin tong quan đến chỉ tiết dé hỗ trợ người quan lý ra quyết định
1.5 Mô tả dữ liệu nguồn:
1.5.1 Cơ sé dữ liệu Quan trị nguồn nhân lực - DBI:
® - Lược đồ cơ sở dữ liệu Quản trị nguồn nhân lực gồm 6 bảng như dưới đây:
Hoàng Hữu Phước — DI9HTTTI 12
Trang 26Đồ án tốt nghiệp đại học
region_id region_name region_desc
employee_id jobuid Countries
job_name
Sate oF Tình job_desc country_id
emp_gender min_salary country_name
emp_phone max_salary region_id
emp_email date
emp_address date
nan = Representative_Offices
* liệu gerd store_id P =
*inh id sftore name city_id
Job_id store_phone office name
Hình 1 6: Lược đề co sở dit liệu quản trị nguôn nhân lực — DBI
e Thong tin các bang dữ liệu của cơ sở dữ liệu Quan tri nguồn nhân lực:
Bang 1 1: Mô ta các bảng dữ liệu nguồn cơ sở đữ liệu quan trị nguồn lực
STT Tên bảng Ý nghĩa
1 Jobs Lưu thông tin vi trí công việc của nhân viên
2_ | Employees Lưu thông tin nhân viên của cửa hàng
3 | Stores Luu thông tin các cửa hàng
4 | Representative Offices Lưu thông tin văn phòng đại diện mỗi thành phố
5 | Countries Lưu thông tin các quốc gia
6 | Regions Luu thông tin các vùng dia lý chứa các quốc gia
e _ Thông tin chi tiết của từng bảng:
Bang 1 2: Mô tả thông tin các thuộc tính bang Jobs
STT | Tên thuộctính | Kiểu dữliệu | Rang buộc Ý nghĩa
1 job_id int PK Mã cong việc
2 Job_name varchar Tên vi trí công việc
3 Job_ desc varchar Mô tả công việc
4 min salary decimal Mức lương tôi thiêu
5 max _salary decimal Mức lương tôi da
Hoàng Hữu Phước — DI9HTTTI 13
Trang 27Đồ án tốt nghiệp đại học
6 date date Ngày bat dau có vi tri công việc
Bang 1 3: Mô tả thông tin các thuộc tính bang Employees
STT Tên thuộc tinh Kiéu dữ liệu | Rang buộc Y nghĩa
1 employee_id int PK Mã nhân viên
2 emp_ name varchar Tên nhân viên
3 đate of birth date Ngày sinh nhân viên
4 emp_ gender varchar Giới tính nhân viên
5 emp_ phone varchar Sô điện thoại nhân viên
6 emp_ email varchar Email nhân viên
7 emp_address varchar Dia chi nhan vién
8 date date Ngày thuê nhân viên
9 salary decimal Tiên lương nhân viên
10 | manager_id int Mã quan lý của nhân viên
11 store_id int FK Mã cửa hang
12 | job_id int FK Mã vi tri công việc
Bảng 1 4: Mô tả thông tin các thuộc tính bang Stores
STT Tên thuộc tính Kiêu dữ liệu Ràng buộc Ý nghĩa
1 store_id int PK Mã cửa hang
2 store_name varchar Tên cửa hang
3 store_phone varchar Sô điện thoại cửa hàng
4 store_email varchar Email cửa hang
5 store_address varchar Dia chi cửa hang
6 date date Ngày thành lập cửa hang
7 city 1d int FK Mã vi trí
Bang 1 5: Mô tả thông tin các thuộc tính bảng Representative_ Offices
STT | Tên thuộc tính Kiéu dữ liệu Ràng buộc Y nghĩa
1 city_id int PK Ma thanh pho
2 office_name varchar Tén van phong
3 office_desc varchar M6 ta van phong
4 office_address varchar Dia chi van phong
Trang 28Đồ án tốt nghiệp đại học
5 city_name varchar Tén thanh pho
6 date date Ngày thành lập van phòng
7 state varchar Tén bang
8 country_id int FK Mã quôc gia
Bang 1 6: Mô tả thông tin các thuộc tinh bang Countries
STT | Tên thuộc tính Kiêu dữ liệu Ràng buộc Ý nghĩa
I | country_id int PK Mã quôc gia
2_ | country name varchar Tên quôc gia
3 | region_id int FK Mã vùng dia lý
Bang 1 7: Mô tả thông tin các thuộc tính bang Regions
STT | Tên thuộc tính Kiêu dữ liệu | Ràng buộc Y nghĩa
I | region_id int PK Mã vùng dia lý
2_ |region name varchar Tên vùng địa ly
3 |reglon desc varchar Mô tả vùng địa lý
1.5.2 Cơ sở dữ liệu Bán hàng - DB2:
© Lược đồ cơ sở dữ liệu bán hàng gồm 8 bảng như dưới đây:
Trang 29employee_id cus_gender
* customer_id cus_phone
cus_email date
Suppliers
supplier_id
supplier_name suplier_phone
suplier_email
Hình 1 7: Lược đồ cơ sở dữ liệu ban hang
Thông tin các bảng dữ liệu của cơ sở dữ liệu Bán hàng:
Bang 1 8: Mô tả các bang dữ liệu nguồn cơ sở dữ liệu bán hàng
STT Tên bảng Ý nghĩa
1 Categories Luu thông tin các danh mục san phâm
2 Customers Lưu thông tin khách hàng mua hàng
3 Inventories Luu thông tin sản phâm nhập ở các cửa hang
4 Orders Lưu thông tin đơn đặt hàng của khách hàng
5 Order_Items Lưu thông tin chi tiét các san phâm được đặt của moi don hang
6 Products Luu thông tin các san pham của cửa hang
7 Stores Luu thông tin các cửa hàng
8 Suppliers Luu thông tin nhà cung cap các mặt hàng
e Thong tin chi tiệt của từng bang:
Bang 1 9: Mô ta thông tin các thuộc tính bảng Categories
STT | Tên thuộctính | Kiếu dữliệu | Rang buộc | Ý nghĩa
1 category_id int PK | Mã danh mục san phầm
2 category_name varchar | Tén danh muc san pham
Hoàng Hữu Phước — DI9HTTTI 16
Trang 30Đồ án tốt nghiệp đại học
3 category_desc varchar M6 ta danh muc san pham
Bang 1 10: Mô ta thông tin các thuộc tính bang Customers
STT | Tên thuộc tính Kiéu dữ liệu | Rang buộc Y nghĩa
1 customer_id int PK Mã khách hang
2 cus_name varchar Tén khach hang
3 cus_ gender varchar Giới tính khách hang
4 cus_phone varchar Sô điện thoại khách hàng
5 cus_email varchar Email khach hang
6 date date Ngay khach hang mua hang dau
tiên
7 cus_address varchar Dia chi khach hang
Bang 1 11: Mô tả thông tin các thuộc tinh bang Inventories
STT Tên thuộc tinh Kiêu dữ liệu Ràng buộc Y nghĩa
1 inventory_date date PK Ngày nhập san pham
2 store_id int PK, FK Mã cửa hang
3 supplier_id int PK, FK Ma nha cung cap
4 product_id int PK, FK Ma san pham
5 quatity int So lượng san phâm
Bang 1 12: Mô tả thông tin các thuộc tính bang Orders
STT | Tên thuộc tính Kiêu dữ liệu Ràng buộc Y nghĩa
1 order _Id int PK Ma don hang
2 date date Ngày mua hàng
3 employee_id int FK Ma nhan vién
4 customer_id int FK Mã khách hang
Bang 1 13: Mô tả thông tin các thuộc tính bảng Order_Items
STT | Tên thuộc tính Kiêu dữ liệu Ràng buộc Y nghĩa
1 order_id int PK, FK Mã đơn hang
2 product_id int PK, FK Mã san pham
3 quantity int So lượng san pham
Trang 31Đồ án tốt nghiệp đại học
Bang 1 14: Mô tả thông tin các thuộc tính bảng Products
STT | Tên thuộc tính Kiéu dit liệu Rang buộc Y nghia
1 product_id int PK Mã san phâm
2 product_name varchar Tên sản phâm
3 date date Ngày bán sản phâm đâu tiên
4 standard_cost decimal Chi phi nhap vao san pham
5 unit_price decimal Giá bán ra của san pham
6 category_id int FK Ma danh muc san pham
Bang 1 15: Mô tả thông tin các thuộc tinh bang Stores
STT | Tên thuộc tinh Kiéu dữ liệu Ràng buộc Ý nghĩa
2_ | store name varchar Tên cửa hàng
3 store_phone varchar Sô điện thoại cửa hang
4 |store email varchar Email cửa hàng
5_ | store_address varchar Địa chỉ cửa hàng
6 | date date Ngày thành lập cửa hàng
Bang 1 16: Mô ta thông tin các thuộc tính bang Suppliers
STT | Tên thuộc tính Kiéu dir liệu Rang buộc Y nghia
1 | supplier_id int PK Mã cửa hang
2_ | supplier name varchar Tên cửa hàng
3 | supplierphone varchar Sô điện thoại cửa hàng
4 |suppller email varchar Email cửa hàng
¢ Một số thông tin nhận thấy trong dữ liệu nguồn:
Hoàng Hữu Phước — DI9HTTTI
o_ Cơ sở dit liệu DBI và DB2 đều có bảng Stores và ở cả hai cơ sở dữ liệu nguồn
được lưu với tên thé hiện là giống nhau Chúng ta xem xét về kiểu dit liệu và
các giá trị trong mỗi trường dữ liệu nhận thấy chúng giống nhau và là một
nhưng sẽ có thể có trường hợp xảy ra là dữ liệu không giống nhau hoàn toàn có
nghĩa là có thể ở cơ sở dữ liệu DBI có dong dữ liệu nao đó ma cơ sở dữ liệu
DB2 không có hoặc ngược lại hoặc là đều xảy ra cả hai điều trên Vì thế, khi
18
Trang 32Đồ án tốt nghiệp đại học
tích hợp ta có thé gộp chúng thành một bang Stores sau khi ánh xạ các thuộctính và lấy dữ liệu từ cả hai bảng lại với nhau
o Ở bang Orders (DB2) có thuộc tính employee_¡d, thuộc tính nay là khóa chính
ở bảng Employees (DBI), ta xem xét ngữ nghĩa dữ liệu thì thuộc tính employec_ id này đều thể hiện là của Mã nhân viên, giá trị và kiểu dữ liệu cũng giống nhau Vì thế nên khi tích hợp lại, ta sẽ có mối quan hệ giữa bảng Orders
và Employees.
o Hai nguồn dit liệu này có 1 thuộc tinh là “date” xuất hiện ở rất nhiều bảng bao
gồm: Jobs (DB1), Employees (DB1), Stores (DB1), Representative Offices
(DB1), Customer (DB2), Orders (DB2), Products (DB2), Stores (DB2) nhung
nhận thấy ý nghĩa của chúng là hoàn toàn khác nhau Khi tích hợp 2 nguồn dữ
liệu, ta cần phải giải quyết các xung đột về mặt đồng âm này, các thuộc tính cần
Hoàng Hữu Phước — DI9HTTTI 19
Trang 33DO án tốt nghiệp đại học
CHUONG 2: PHAN TÍCH THIET KE HE THONG
Chương 2 sé trình bày về phân tích yêu cầu của hệ thống, phân tích yêu cầu kho ditliệu, thu thập dữ liệu nguồn cho kho, thiết kế kiến trúc hệ thống, tích hợp các nguồn dữ
liệu cho kho, thiết kế lược đồ dùng cho kho dữ liệu cũng như các quy tắc chuyền đổi, ánh
xạ dir liệu cho kho.
2.1.
2.1
Phân tích yêu cầu, thu thập dữ liệu cho kho dữ liệu:
.1 Phân tích yêu cầu kho dữ liệu:
Dé tìm kiếm được các bang dữ liệu cần thiết cho việc xây dựng kho dit liệu chủ đề,đầu tiên, cần xem xét ngữ nghĩa và ngữ cảnh trong các yêu cầu nhận được ở chương 1,
ta nhận thấy sẽ xây dựng hai báo cáo như sau:
o_ Báo cáo về số lượng sản phẩm đã bán, doanh thu, lợi nhuận theo các chiều khác
nhau bao gồm: thời gian bán (tháng, quý, năm), sản phẩm, danh mục sản phẩm,khách hàng, nhân viên, cửa hàng, thành phó, dat nước và vùng dia lý có đặt cửahàng.
o_ Báo cáo về số lượng hàng nhập, chi phí hàng nhập theo các chiều khác nhau bao
gồm: thời gian nhập (tháng, quý, năm), sản phẩm, danh mục sản phâm, nhà cung
cấp, cửa hàng, thành phó, đất nước và vùng địa lý có đặt cửa hàng.
Các yêu cầu nghiệp vụ xoay quanh việc xem báo cáo sẽ có những độ đo như sau: sốlượng sản phẩm đã bán, doanh thu, lợi nhuận, số lượng hàng nhập, chi phí hàng nhập
sẽ nằm trong bảng sự kiện Vì vậy, đây sẽ là 5 độ đo ta lựa chọn để thiết kế cho kho dữliệu.
Kho dữ liệu cần xây dựng sẽ gồm các chiều cơ sở (bảng dimension) được trích như
sau theo yêu cầu nghiệp vụ đã nêu rõ trong việc các chiều sẽ hiển thị trong biểu đô, do
trong kho dit liệu việc dư thừa dữ liệu ở những bảng chiều (Dimension) là không dang
kể, nên ta có thể gộp một số bảng dé khi thiết kế mô hình cho kho dữ liệu tránh đượcviệc nhiều bảng gây lẫn lộn và nhiều cấp, số lượng dư thừa là do mỗi bài toán khácnhau tùy thuộc hoàn toàn độ lớn cũng như yêu cầu bài toán, ở đây ta sẽ thiết kế hệthống có những chiều như sau:
o_ Thời gian bao gồm: thời gian bán (tháng, quý, năm) và thời gian nhập (tháng,
Thành phố gồm tên của đất nước và vùng địa lý
Hoàng Hữu Phước — DI9HTTTI 20
Trang 34Đồ án tốt nghiệp đại học
Như vậy, ta sẽ có 5 độ đo được dùng cho 7 bảng theo chiều được thiết kế như phía trên
cho kho dữ liệu.
2.1.2 Thu thập dữ liệu cho kho dữ liệu:
e Thu thập dữ liệu cho các độ do:
o_ Độ đo số lượng sản phẩm đã bán: Trong cơ sở dữ liệu bán hàng (DB2) có bảng
Order_Items trong đó có cột lưu lại 36 luong mỗi mat hàng ban được.
=> Độ đo số lượng sản phẩm sẽ được tính toán từ bang Order_Items.
o Độ đo doanh thu: Trong cơ sở dữ liệu bán hàng (DB2) có bang Order_Items
trong đó có cột lưu lại số lượng mỗi mặt hàng (product_id) bán được, bảng
Orders có thông tin của từng đơn hàng (order 1d), bảng Products có thông tin
giá bán (unit_price) của từng sản phẩm (product_id)
> Độ đo sd lượng sản pham sẽ được tính toán từ bang Orders, Order_Items,
Products
o Độ do lợi nhuận: Trong cơ sở dữ liệu bán hàng (DB2) có bang Order_Items
trong đó có cột lưu lại số lượng (quantity) mỗi mặt hàng (product_id) bán được,
bang Orders có thông tin của từng đơn hàng (order_id), bang Products có thông
tin giá bán (unitprice) và chi phí (standard cost) của từng sản phẩm
(product_id).
> Độ do số lượng sản phẩm sẽ được tính toán từ bang Orders, Order_Items,
Products
© Độ đo số lượng hàng nhập: Trong cơ sở dữ liệu bán hàng (DB2) có bảng
Inventories trong đó có cột lưu lại số lượng mỗi mặt hàng được nhập
=> Độ do số lượng sản phẩm sẽ được tính toán từ bang Inventories.
o Độ do chi phí nhập hàng: Trong co sở dữ liệu ban hàng (DB2) có bảng
Inventories trong đó có cột lưu lại số lượng (quantity) mỗi mặt hàng
(product_id) được nhập, bảng Products có thông tin chi phí (standard_cost) của
từng sản phẩm (product_id)
> Độ đo số lượng sản pham sẽ được tính toán từ bang Inventories, Products
© Thu thập dữ liệu cho các chiều:
o Thời gian: Trong cơ sở dir liệu bán hang (DB2) bang Orders có cột lưu lại ngày
bán hàng (order date), bang Inventories có cột lưu lại ngày nhập (inventory_ date)
=> Bảng chiều thời gian sé được anh xạ từ bang Orders (DB2) va Inventories
(DB2).
o Sản phẩm: Trong cơ sở dit liệu bán hàng (DB2) bang Products lưu thông tin
sản pham và bang Categories lưu thông tin danh mục sản phẩm
=> Bảng chiều sản phẩm sẽ được ánh xa từ bảng Products (DB2) và Categories
(DB2).
Hoàng Hữu Phước — DI9HTTTI 21
Trang 35Đồ án tốt nghiệp đại học
° Khách hàng: Trong cơ sở dữ liệu bán hang (DB2) bang Customers lưu thông
tin sản phẩm
=> Bảng chiều khách hàng sẽ được ánh xạ từ bảng Customers (DB2)
Nhân viên: Trong cơ sở đữ liệu quản lý nguồn nhân lực (DBI) bảng Employeelưu thông tin nhân viên.
=> Bảng chiều nhân viên sẽ được ánh xạ từ bảng Employee (DB1)
Cửa hàng: Trong cơ sở dir liệu bán hàng (DB2) bang Stores và cơ sở dữ liệuquản trị nguồn nhân lực (DB1) bang Stores có lưu thông tin cửa hàng
f> Bảng chiều cửa hàng sẽ được ánh xạ từ bang Stores (DB2) va Stores
(DBI).
Thành phó: Trong cơ sở dữ liệu quan trị nguồn nhân lực (DBI) bang Cities cólưu thông tin thành phố, bảng Countries có lưu thông tin quốc gia, bảng
Regions có lưu thông tin vùng dia lý.
=> Bảng chiều thành phố sẽ được ánh xạ từ bang Cities (DBI), Countries
(DB1) và Regions (DB1)
Nha cung cap: Trong cơ sở dữ liệu ban hang (DB2) bang Suppliers có lưu
thông tin nhà cung cấp
=> Bảng chiều nhà cung cấp sẽ được ánh xạ từ bang Suppliers (DB2)
Ta nhận thấy, chiều thời gian bán (Dim_ Times) cần đầy đủ các trường dé đáp ứng
nhu cầu xem báo cáo theo tháng, quý, năm Mỗi dòng trong bảng thời gian sẽ thểhiện cho một tháng Vì vậy ta sẽ thiết kế bảng Dim_ Times như sau:
Bang 2 1: Thiết kế bảng Dim_ Times
Tên thuộc tính | Kiểu dữ liệu | Rang buộc | Ý nghĩa
time _1d varchar PK Chuỗi gồm năm và tháng đầy đủ (VD:
202307 có nghĩa là time_id của tháng
07 năm 2023) month int Tháng trong năm
quater int Quy trong nam
year int Năm
Phân chia độ đo ra thành các bảng sự kiện (Fact)
°
°
Những độ do nào có chung những chiều báo cáo ta sé dé chúng ở chung một
bảng sự kiện — Fact
Do đó, ta thiết kế có 2 bảng sự kiện ở kho dữ liệu như sau:
Hoàng Hữu Phước — DI9HTTTI 22
Trang 36Đồ án tốt nghiệp đại học
- Bang Fact Sales là bảng sự kiện về bán hàng, gồm các độ đo là số lượng
sản phẩm bán (units sold), doanh thu (sale revenue), lợi nhuận
(sale_profit).
- Bang Fact_InventoryCosts là bảng sự kiện về chi phi hang nhập gồm các độ
đo là số lượng hàng nhập (inventory quantity) và chỉ phí hàng nhập
o Dim Employees <= Dim_Stores <= Dim_Cities
> Ngữ nghĩa cấp thấp nhất (1 dòng dữ liệu trong bang) của mô hình dữ liệu đa
chiều có Fact Sales: Trong tháng (Dim Timess) sản phẩm này
(Dim Products) với khách hàng này (Dim Customers) và nhân viên này
(Dim _Employees) thì ta có tong Số lượng sản phẩm đã bán với doanh thu, lợinhuận như thế này
e Bang sự kiện FactInventoryCosts sẽ có và các bảng chiều (dimension) xung
> Ngữ nghĩa cấp thấp nhất (1 dòng dữ liệu trong bang) của mô hình dữ liệu đa
chiều có Fact_InventoryCosts: Trong tháng (Dim Timess) sản pham này
(Dim Products) tại cửa hang này (Dim Stores) với nhà cung cấp này(Dim Suppliers) thì ta có tổng Số lượng sản phẩm nhập với chỉ phí như thếnày.
=> Dựa vào những yêu cầu về chiều báo cáo trên Kho dữ liệu sẽ được thiết kế
theo lược đồ dai thiên hà Với từng bang sự kiện sẽ có lược đồ hình bông tuyết
e Xây dựng các trường của bảng Fact_Sales:
© time 1d (cột date của bang Orders thuộc DB2)
customer_id (customer_id từ bảng Customers thuộc DB2) product_id (product_id của bang Products thuộc DB2)
employee_ 1d (employee_id từ bang Employees thuộc DB1)
units_sold (measure) sale_revenue (measure)
" Công thức nghiệp vụ dé tính độ đo Số lượng sản phẩm đã ban (units sold),
Doanh thu (sale_revenue) và Lợi nhuận (sale_profit)
Hoàng Hữu Phước — DI9HTTTI 23
Trang 37Đồ án tốt nghiệp đại học
o units sold= SUM(quantity)
© sale revenue = quantity * unit_price
© sale profit = sale revenue — quantity * standard_cost(*) Mô tả các trường thuộc tinh dé tinh độ đo cái bang như sau:
- units sold: quantity thuộc bảng Order_Items.
- sale revenue: quantity thuộc bang Order Items, unit_price thuộc bảng Products.
- sale_profit: sale revenue tinh như trên, quantity thuộc bang Order_ Items, standard_cost thudc bang Products.
f> Vậy các bang cần sử dung dé xây dựng bảng Fact_Sales gồm: Orders (DB2),
Order_Items (DB2), Products (DB2), Customers (DB2), Employees (DB1)
e Xay dung các trường của bang Fact_InventoryCosts:
© time_id (cột date của bang Inventories thuộc DB2)
product_id (product_id của bang Products thuộc DB2) store_id (store_id của bang Stores thuộc DB1)
supplier_id (supplier_id từ bang Suppliers thuộc DB2)
inventory_quantity (measure)
" Công thức nghiệp vu dé tính độ đo số lượng sản phẩm nhập
(inventory_quantity), chi phí nhập (inventory_cost).
© inventory_quantity = SUM(quantity)
© inventory_cost = quantity * standard_cost
(*) Mô tả các trường thuộc tinh dé tính độ đo cái bảng như sau:
- inventory_quantity: quantity thuộc bang Inventories.
- inventory_cost: quantity thuộc bang Inventories, standard_cost thuộc bảng Products.
<> Vậy các bang cần sử dụng để xây dựng bang Fact_InventoryCosts gồm:
Inventories (DB2), Products (DB2), Stores (DB1), Supplier (DB2)
Bang 2 2: Cách ánh xa các bảng chiều cho bang Fact Sales
Bang dimension | Bảng được ánh xạ Kiểu Bảng cấp trước
Dim_ Times Orders, Inventories So cap
Dim_Customers | Customers So cap
Dim_ Products Products, Categories So cap
Hoàng Hữu Phước — DI9HTTTI 24
Trang 38Đồ án tốt nghiệp đại học
Countries, Reglons
Dim Employees | Employees Sơ cấp
Dim_Stores Stores Thứ cap Dim_Employees
Dim_Cities Representative Offices, Thứ cap Dim_Stores
Bang 2 3: Cách ánh xạ các bảng chiều cho bang Fact_InventoryCosts
Bảng dimension | Bảng được ánh xạ Kiểu Bảng cấp trước
Dim_ Times Orders, Inventories So cap
Dim_Products Products, Categories So cap
Dim_ Stores Stores So cap
Dim_Cities Representative Offices, Thứ cap Dim_Stores
Countries, Regions
Dim_Suppliers Suppliers So cap
e - Nhận xét về việc thu thập dữ liệu và tích hợp dữ liệu từ các nguồn:
o_ Ta nhận thấy, Datamart yêu cầu xem theo chiều và các độ đo bảng Fact được
tính lẫn lộn từ hầu hết các bảng của cả hai cơ sở dữ liệu Vì thế bước tiếp theochúng ta sẽ lựa chọn cách tích hợp dữ liệu nguồn ở DBI và DB2 thành một
Lược đồ tích hợp dữ liệu thống nhất.
o Từ một nguồn cơ sở dữ liệu thống nhất đó, chúng ta sẽ xây dựng Datamart theo
yêu cầu Datamart này thuộc loại Datamart phụ thuộc (Independent Data Mart)
vì các tích hợp toàn bộ dữ liệu từ các nguồn hiện có thành một lược đồ tích hopthống nhất giống với cách xây dựng kho dữ liệu chính (Data warehouse)
2.2 Kiến trúc hệ thống:
Trang 39Data Mart Server
Nguồn dữ liệu sẽ bao gồm các hệ thống cơ sở dit liệu tác nghiệp của công ty
Các nguồn dữ liệu có thể được lay từ các hệ thống có hệ quản trị cơ sở dữ liệukhác nhau như MySQL, ORACLE, SQL Server, hoặc cũng có thé từ các flat filenhư excel, csv,
ETL Server:
ETL Server đảm nhận công việc lưu trữ co sở dt liệu tích hợp từ đó trích xuất, chuyên
đổi và tai dit liệu vào kho dữ liệu (Data Mart Server) Sẽ được đặt lich làm tự động vàongày cuối cùng của tháng Mỗi tháng kho dữ liệu sẽ được đồ dữ liệu vào một lần, đáp ứng
nhu cầu xem báo cáo theo tháng Ở đây, ta sử dụng công cụ SQL Server Integration
Services (SSIS) sử dụng cho các tác vụ trên.
® Công cụ sử dụng:
© SQL Server Integration Services (SSIS) là một phan của bộ sản pham SQL Server
của Microsoft, được thiết kế để hỗ trợ quá trình tích hợp dữ liệu từ nhiều nguồnkhác nhau vào cơ sở dữ liệu SQL Server hoặc các hệ thống lưu trữ dữ liệu khác
Day là một công cụ mạnh mẽ cho việc xử lý và chuyền đổi dữ liệu, cũng như triển
khai các quá trình tích hop di liệu phức tạp.
SSIS sử dụng môi trường phát triển Visual Studio dé thiết kế các gói tích hợp dữ
liệu Người phát triển có dùng dé xây dựng luồng công việc tích hợp dữ liệu SSIS
hỗ trợ quản lý các gói tích hợp đữ liệu, cho phép người phát triển lưu trữ, xuất,nhập và triển khai các gói này giữa các môi trường khác nhau
Hoàng Hữu Phước — DI9HTTTI 26
Trang 40Đồ án tốt nghiệp đại học
s® Cac công việc chính cua SSIS trong hệ thống hiện tại:
o Trích Xuất (Extraction): SSIS giúp kết hợp đữ liệu từ nguồn dit liệu ở phan trên
như cơ sở dữ liệu, file phăng, hoặc các ứng dụng khác
o_ Biến Đổi (Transformation): Cung cấp các công cụ dé xử lý và biến đổi dit liệu theo
các quy tắc cụ thé theo yêu cầu dé tải vào cơ sở dữ liệu tích hợp và kho đữ liệu.
o_ Tải (Loading): Dua dữ liệu đã biến đổi vào đích, SSIS còn có nhiệm vụ lên lịch
thực hiện các gói làm việc và quản lý chúng qua SQL Server Agent.
2.2.3 Data Mart Server:
Ở Data Mart Server sẽ lưu trữ dữ liệu chuẩn bị cho kho đữ liệu và tải đữ liệu của
kho vào các khối dữ liệu.
® Công cụ sử dụng:
o SQL Server 2022: Sẽ được sử dung để quản lý, lưu trữ dữ liệu cho cơ sở dữ liệu
tích hợp, kho dit liệu Sử dụng ngôn ngữ truy van SQL dé thao tác với dữ liệu
o SQL Server Analysis Services (SSAS): SQL Server Analysis Services (SSAS) là
một thành phan của nền tang Microsoft SQL Server chuyên cung cấp dich vụ phântích dữ liệu đa chiều và khai thác dữ liệu SSAS cho phép bạn tạo các khối OLAP(cube) lưu trữ dir liệu tóm tắt theo nhiều chiều khác nhau, giúp phân tích nhanhchóng và hiệu quả các xu hướng, mẫu hình và mối quan hệ trong dữ liệu
o Lựa chọn sử dụng SSAS trong hệ thống với các tac vụ xây dựng, cai đặt kho dữ
liệu và tải dữ liệu vào các khối đữ liệu ở chương 3 xây dựng đồ án sẽ nêu rõ hơn về
cách thức thực hiện.
2.2.4 OLAP Server:
OLAP server có trách nhiệm lưu trữ dữ liệu dưới dạng các khối đữ liệu đa chiềuđược xây dựng sẵn qua việc kết nối nguồn dit liệu đã lưu ở Data Mart Server Đồng thờixây dựng công cụ phân tích trực quan, xây dựng giao diện người dùng hệ thống Hệ thống
lựa chon sử dụng công cụ Power BI cùng hệ sinh thai Microsoft với các nền tảng khác.
® Công cụ sử dụng:
Power BI là một công cụ kinh doanh thông minh - Business Intelligence (BJ), cũng
như một nền tảng phân tích dữ liệu trực quan được phát triển bởi Microsoft Power BI cho
phép người dùng kết nối với đữ liệu từ nhiều nguồn khác nhau, bao gồm cơ sở đữ liệu,
tệp, ứng dụng và dịch vụ web Sau đó, Power BI có thể được sử dụng để phân tích dữ
liệu, tạo báo cáo và dashboard trực quan Power BI được thiết kế dé giúp người dùng hiểu
rõ đữ liệu kinh doanh của họ và đưa ra quyết định thông minh dựa trên thông tin đó Dưới
đây là một giới thiệu chỉ tiết về Power BI:
- Power BI ho trợ chia sẻ và xuât báo cao
o Publish to Web: Cho phép chia sẻ bao cáo với người không sử dụng Power BI.
Hoàng Hữu Phước — DI9HTTTI 27