Hình 6 Biểu đồ bông tuyết cho bảng ReviewFact 10Hình 7 Sơ đồ bông tuyết cho Bảng sự kiện bán hàng 10Hình 33 Định dạng báo cáo Số lượng theo tháng, quý 28Hình 34 Báo cáo kết quả Số lượng
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ
TRUYỀN THÔNG VIỆT NAM - HÀN QUỐC
KHOA KHOA HỌC MÁY TÍNH
KHO DỮ LIỆU
XÂY DỰNG KHO DỮ LIỆU ĐỂ QUẢN
LÝ CÁC DOANH NGHIỆP THU THẬP
SẢN PHẨM MỸ PHẨM
Học sinh : NGUYỄN ĐẠI CƯỜNG ID: 21IT007
Lớp học : 21GIT
GVHD : ThS TRẦN THANH LIÊM
Đà Nẵng, tháng 11 năm 2024
Trang 2LỜI CẢM ƠN
Trước hết, nhóm xin gửi lời cảm ơn chân thành đến TS Trần Thanh Liêm (Giảngviên bộ môn Data Warehouse) đã giúp nhóm có được những kiến thức cơ bản cầnthiết làm nền tảng để thực hiện luận văn này Thầy đã trực tiếp hướng dẫn nhómnhiệt tình, sửa lỗi sai và đóng góp nhiều ý kiến quý báu giúp nhóm hoàn thành tốtbáo cáo chuyên đề Trong suốt một học kỳ thực hiện đồ án, nhóm đã vận dụngnhững kiến thức nền đã tích lũy được và kết hợp với việc học hỏi, nghiên cứukiến thức mới Từ đó, nhóm đã vận dụng những kiến thức đã thu thập được đểhoàn thành báo cáo đồ án tốt nhất Tuy nhiên, trong quá trình thực hiện, nhómkhông tránh khỏi những thiếu sót Vì vậy, nhóm rất mong nhận được những góp ýcủa các thầy cô để nâng cao kiến thức đã tiếp thu được và chuẩn bị cho nhóm giảiquyết những chủ đề khác trong tương lai
Xin chân thành cảm ơn!
Học sinh,Nguyễn Đại CườngNguyễn Bùi Nam Phúc
Trang 3NHẬN XÉT CỦA GIẢNG VIÊN
………
……….……… ……… ……….……… ……… ………
……… ……… ……….……… ……… ……….………
……… ……….……… ……… ……….……… ……… ………
……… ……… ……….……… ……… ……….………
……… ……….……… ……… ……….……… ……… ………
……… ……… ……….……… ……… ……….………
……… ……….……… ……… ……….……… ……… ………
……… ……… ……….……… ……… ……….………
……… ……….……… ……… ……….……… ……… ………
……… ……… ……….……… ……… ……….………
……… ………
Trang 52.3 Câu hỏi truy vấn 11
5.4 Top 5 sản phẩm có tổng lợi nhuận lớn nhất 26
6.3 Tổng số tiền, lợi nhuận của một sản phẩm tăng dần, giảm dần 286.4 Đánh giá trung bình của một sản phẩm theo thứ tự tăng dần, giảm dần 29
6.8 Top 5 sản phẩm có tổng lợi nhuận lớn nhất 32
Trang 8Hình 6 Biểu đồ bông tuyết cho bảng ReviewFact 10Hình 7 Sơ đồ bông tuyết cho Bảng sự kiện bán hàng 10
Hình 33 Định dạng báo cáo Số lượng theo tháng, quý 28Hình 34 Báo cáo kết quả Số lượng theo tháng, quý 28Hình 35 Định dạng báo cáo tổng số tiền, lợi nhuận của một sản phẩm 28
Hình 37 Định dạng báo cáo Xếp hạng trung bình 29Hình 38 Định dạng báo cáo Đánh giá trung bình của sản phẩm 30Biểu đồ 39 Tổng lợi nhuận của tất cả các cửa hàng 31
Hình 42 Top 5 sản phẩm có tổng lợi nhuận lớn nhất 32
Trang 9DANH SÁCH CÁC TỪ VIẾT TẮT
Con số Cụm từ Viết tắt
1 Môi trường phát triển tích hợp Ý TƯỞNG
Chapter 1
Trang 10Chapter 2 Giới thiệu
2.1 Mục tiêu của dự án
Mục tiêu chính trong việc xây dựng kho dữ liệu cho các doanh nghiệp thuthập sản phẩm mỹ phẩm là thiết lập một trung tâm tập trung để quản lý dữliệu toàn diện Điều này bao gồm việc tổng hợp và lưu trữ các tập dữ liệu
đa dạng, từ các giao dịch bán hàng và mức tồn kho đến phản hồi của kháchhàng và thông tin chuỗi cung ứng Mục đích là tích hợp các nguồn dữ liệukhác nhau này, đảm bảo chất lượng và tính nhất quán của dữ liệu thôngqua các quy trình làm sạch và chuyển đổi Bằng cách bảo quản dữ liệu lịch
sử, kho dữ liệu tạo điều kiện cho việc phân tích xu hướng và hỗ trợ raquyết định Việc triển khai các công cụ thông minh kinh doanh mạnh mẽcho phép người dùng thực hiện các truy vấn tùy ý và tạo báo cáo, cung cấpthông tin chi tiết có giá trị về hiệu suất của sản phẩm mỹ phẩm Cơ chếgiám sát theo dõi các chỉ số hiệu suất chính, tối ưu hóa các quy trình chuỗicung ứng và nâng cao hiệu suất kinh doanh tổng thể Tận dụng thông tinchi tiết về khách hàng có được từ dữ liệu cho phép đưa ra các chiến lượctiếp thị và khuyến nghị sản phẩm được cá nhân hóa Hơn nữa, kho dữ liệuđảm bảo tuân thủ quy định và được thiết kế để có khả năng mở rộng vàlinh hoạt, đáp ứng nhu cầu kinh doanh đang thay đổi trong ngành mỹphẩm năng động Cuối cùng, mục tiêu là trao quyền cho các tổ chức đưa raquyết định sáng suốt, cải thiện hiệu quả hoạt động và duy trì khả năngcạnh tranh trên thị trường mỹ phẩm
2.2 Yêu cầu
Mục tiêu của việc thiết lập kho dữ liệu cho các doanh nghiệp tham gia vào
bộ sưu tập sản phẩm mỹ phẩm là lưu trữ và quản lý hiệu quả cả dữ liệu lịch
sử và hiện tại liên quan đến thông tin sản phẩm Điều này bao gồm dữ liệu
về đặc điểm sản phẩm, giao dịch bán hàng, phản hồi của khách hàng vàthông tin chi tiết về chuỗi cung ứng Kho dữ liệu được thiết kế để hỗ trợnhiều truy vấn phân tích khác nhau và tạo báo cáo về dữ liệu sản phẩm mỹphẩm, chẳng hạn như xu hướng về mức độ phổ biến của sản phẩm, phânphối doanh số theo khu vực (kho, quận, tỉnh) và mối tương quan với nhiềuyếu tố thị trường khác nhau Kho dữ liệu phải có khả năng mở rộng, đángtin cậy và hiệu quả để xử lý khối lượng dữ liệu lớn và đáp ứng các tương tácđồng thời của người dùng Các phân tích cụ thể bao gồm theo dõi tần suất
và nguyên nhân thay đổi mức độ phổ biến của sản phẩm, đánh giá tác độngđến xu hướng thị trường và đánh giá các tác động kinh tế của việc thay đổi
sở thích của người tiêu dùng Thông tin chi tiết về thống kê sẽ bao gồm hiệusuất sản phẩm theo thời gian, nguyên nhân thay đổi mức độ phổ biến và xácđịnh các sản phẩm có hiệu suất cao và kém hiệu quả Kho dữ liệu tạo điềukiện thuận lợi cho việc trích xuất thông tin có giá trị, trao quyền cho cácdoanh nghiệp đưa ra quyết định sáng suốt và duy trì khả năng cạnh tranhtrên thị trường mỹ phẩm
Trang 112.3 Các khái niệm trong kho dữ liệu
2.3.1 Thiết kế hợp lý
Mô hình hóa logic trong bối cảnh kho dữ liệu liên quan đến việc thiết kếmột cấu trúc biểu diễn và tổ chức dữ liệu hiệu quả cho mục đích phân tích.Không giống như cơ sở dữ liệu giao dịch được tối ưu hóa cho xử lý giaodịch, kho dữ liệu được thiết kế để hỗ trợ các truy vấn và báo cáo phức tạp,làm cho mô hình hóa logic trong môi trường này trở nên khác biệt
Kết hợp với Snowflake Schema với Dimension, Sub-dimension và Facttables
2.3.2 Sơ đồ bông tuyết
Sơ đồ bông tuyết là một loại sơ đồ cơ sở dữ liệu trong đó một bảng dữ kiệntrung tâm được kết nối với nhiều bảng chiều thông qua một tập hợp cácmối quan hệ được chuẩn hóa Trong sơ đồ bông tuyết, các chiều thườngđược chuẩn hóa thêm thành các chiều phụ Điều này tạo ra một cấu trúcgiống như một bông tuyết khi được hình dung, với bảng dữ kiện trung tâm
là trung tâm và các bảng chiều phân nhánh ra như cánh tay
Snowflake Schema cung cấp một số lợi ích trong lĩnh vực kho dữ liệu.Một trong những lợi thế chính của nó là truy xuất dữ liệu nhanh Bằngcách chuẩn hóa các bảng chiều và sắp xếp dữ liệu thành một cấu trúc phâncấp, lược đồ giảm thiểu sự dư thừa dữ liệu, tạo điều kiện cho việc truy vấn
và truy xuất thông tin hiệu quả Ngoài ra, Snowflake Schema áp dụng cáctiêu chuẩn cao về chất lượng dữ liệu Thiết kế chuẩn hóa giúp ngăn ngừa
sự không nhất quán và bất thường, đảm bảo dữ liệu vẫn chính xác và đángtin cậy Một lợi thế khác nằm ở việc cung cấp một mô hình dữ liệu đơngiản và chung cho kho dữ liệu Cấu trúc chuẩn hóa này đơn giản hóa việc
tổ chức và quản lý dữ liệu, thúc đẩy một khuôn khổ gắn kết và dễ hiểu chongười dùng
Tuy nhiên, Snowflake Schema không phải là không có nhược điểm Việcthiết lập ban đầu của lược đồ này phát sinh một lượng chi phí đáng kể.Quá trình chia nhỏ các bảng chiều thành các chiều con được chuẩn hóa vàthiết lập các mối quan hệ phức tạp đòi hỏi phải lập kế hoạch và thực hiện tỉ
mỉ, có khả năng kéo dài giai đoạn thiết lập Mô hình dữ liệu cứng nhắc củaSnowflake Schema đặt ra một thách thức khác Mặc dù nó tăng cường tínhtoàn vẹn của dữ liệu, nhưng cấu trúc được chuẩn hóa có thể dẫn đến cáctruy vấn phức tạp hơn và ngược lại, cản trở tính linh hoạt trong một số tìnhhuống phân tích nhất định Hơn nữa, chi phí bảo trì cao liên quan đến cácbản cập nhật và sửa đổi liên tục đối với lược đồ có thể là một cân nhắcđáng kể Bất chấp những lợi ích của nó, những nhược điểm này làm nổibật nhu cầu đánh giá và cân nhắc cẩn thận các trường hợp sử dụng cụ thểkhi lựa chọn Snowflake Schema trong môi trường kho dữ liệu
2.3.3 Bảng dữ kiện
Một sự kiện trong kho dữ liệu mô tả dữ liệu giao dịch định lượng như phép
đo, số liệu hoặc giá trị sẵn sàng để phân tích Bao gồm số tiêu đề, số đơnhàng, số vé, số giao dịch, tiền tệ giao dịch, v.v Số lượng đã bán là mộtphép đo sự kiện hoặc chỉ số hiệu suất chính (KPI)
Trang 12là chiều phụ Ví dụ, hãy xem xét chiều thời gian Chiều chính có thể là
"Ngày", nhưng bạn có thể có các chiều phụ như "Năm", "Quý", "Tháng"
và "Ngày" Mỗi chiều phụ này biểu thị một mức độ chi tiết khác nhautrong chiều thời gian tổng thể
Tương tự như vậy, trong một chiều địa lý, bạn có thể có một chiều chính là
"Vị trí" với các chiều phụ như "Quốc gia", "Khu vực" và "Thành phố", thểhiện các mức độ chi tiết khác nhau trong bối cảnh địa lý
Việc sử dụng các chiều phụ cho phép người dùng phân tích dữ liệu ở nhiềucấp độ chi tiết khác nhau, mang lại sự linh hoạt trong việc báo cáo và phântích trong môi trường kho dữ liệu
2.4.2 Dịch vụ tích hợp SQL Server
SQL Server Integration Services là nền tảng để xây dựng các giải pháptích hợp dữ liệu và chuyển đổi dữ liệu cấp doanh nghiệp Sử dụngIntegration Services để giải quyết các vấn đề kinh doanh phức tạp bằngcách sao chép hoặc tải xuống tệp, tải kho dữ liệu, làm sạch và khai thác dữliệu, cũng như quản lý các đối tượng và dữ liệu SQL Server
Dịch vụ tích hợp có thể trích xuất và chuyển đổi dữ liệu từ nhiều nguồnkhác nhau như tệp dữ liệu XML, tệp phẳng và nguồn dữ liệu quan hệ, sau
đó tải dữ liệu vào một hoặc nhiều đích
Dịch vụ tích hợp bao gồm:
- Một bộ tác vụ và chuyển đổi tích hợp phong phú
Trang 13- Công cụ đồ họa để xây dựng gói.
- Cơ sở dữ liệu SSIS Catalog để lưu trữ, chạy và quản lý các gói
2.4.3 Studio quản lý SQL Server
Hình 2 SQL Server Management Studio
SQL Server Management Studio (SSMS) là một môi trường tích hợp để quản
lý bất kỳ cơ sở hạ tầng SQL nào Sử dụng SSMS để truy cập, cấu hình, quản
lý, quản trị và phát triển tất cả các thành phần của SQL Server, Azure SQLDatabase , Azure SQL Managed Instance, SQL Server trên Azure VM vàAzure Synapse Analytics SSMS cung cấp một tiện ích toàn diện duy nhất kếthợp một nhóm lớn các công cụ đồ họa với nhiều trình soạn thảo tập lệnhphong phú để cung cấp quyền truy cập vào SQL Server cho các nhà phát triển
và quản trị viên cơ sở dữ liệu ở mọi cấp độ kỹ năng Phân tích và thiết kế kho
dữ liệu
Trang 14Chapter 3 Phân tích và thiết kế kho dữ liệu
3.1 Mô hình khái niệm
Mô hình dữ liệu khái niệm là một biểu diễn cấp cao của dữ liệu tổ chức và các mối quan hệ giữa các thực thể dữ liệu khác nhau trong một doanh nghiệp hoặc hệ thống Nó cung cấp một cái nhìn trừu tượng và đơn giản về các thành phần dữ liệu thiết yếu và các kết nối của chúng mà không đi sâu vào các chi tiết cụ thể về triển khai cơ sở dữ liệu hoặc các chi tiết kỹ thuật
3.1.1 Đo lường và kích thước các thực thể
3.1.1.1 Đo lường
- Số lượng: Số lượng mặt hàng được bán trong một lần bán
- Tổng lợi nhuận: Lợi nhuận của một lần bán
Trang 15Hình 4 Kích thước sản phẩm
3.1.3 Sơ đồ mô hình khái niệm
Hình 5 Sơ đồ mô hình khái niệm
Trang 16Số lượng Số lượng mặt hàng được bán
Tên trường Sự miêu tả Kiểu
Đánh giáID ID của đánh giá Int
Mã sản phẩm ID của sản phẩm Int
ID khách hàng ID của khách hàng Int
Xếp hạng thước đo cho một đánh
Bảng 2 Xem lại sự kiện
Trang 173.2.1.3 Bảng chiều ngày
Tên trường Sự miêu tả Kiểu
Ngày hóa đơn Ngày lập hóa đơn Ngày
Mã danh mục ID của một danh mục Int
Tên sản phẩm Tên sản phẩm nvarchar(50)Giá sản phẩm Giá sản phẩm Trôi nổi
Bảng 5Kích thước sản phẩm
Trang 183.2.1.6 Bảng kích thước cửa hàng
Tên trường Sự miêu tả Kiểu
Mã cửa hàng ID của một cửa hàng Int
ID vùng ID của một thành phố Int
Mã quốc gia ID của quốc gia Int
Tên Tên của một cửa hàng nvarchar(50)
Bảng 6 Lưu trữ Dim
3.2.1.7 Bảng phân loại kích thước
Tên trường Sự miêu tả Kiểu
Mã danh mục ID của một danh mục Int
Tên danh mục Tên của một danh mục nvarchar(50)
Bảng 7 Thể loại Sub-dim
3.2.1.8 Bảng phụ vùng
Tên trường Sự miêu tả Kiểu
ID_khu_vực ID của một vùng Int
Tên_khu_vực Tên của một vùng nvarchar(50)
Bảng 8 Thành phố Sub-dim
3.2.1.9 Bảng phụ kích thước quốc gia
Tên trường Sự miêu tả Kiểu
Mã quốc gia ID của một quốc gia Int
Tên_quốc_gia Tên của một quốc gia nvarchar(50)
Bảng 9 Quốc gia Tiểu mục
3.2.2 Bông tuyết
Sơ đồ bông tuyết ở đây bao gồm các sơ đồ cho bảng dữ kiện Bán và Đánh giá
Trang 193.2.2.1 Sơ đồ bông tuyết cho bảng dữ kiện đánh giá
Hình 6 Sơ đồ bông tuyết cho bảng ReviewFact
3.2.2.2 Sơ đồ bông tuyết cho bảng dữ liệu bán hàng
Hình 7 Sơ đồ bông tuyết cho Bảng sự kiện bán hàng
Trang 203.3 Câu hỏi truy vấn
Câu hỏi Sự miêu tả
1 Tổng lợi nhuận theo tháng, quý
2 Tổng số tiền theo tháng, quý
3 Tổng số tiền, lợi nhuận của một sản phẩm tăng dần, giảm dần
4 Xếp hạng trung bình của một sản phẩm theo thứ tự tăng dần, giảm
dần
Bảng 10 Câu hỏi truy vấn
Trang 21Chapter 4 Phát triển kho dữ liệu
4.1 Mô hình vật lý
4.1.1 Bảng dữ liệu bán hàng
Tên cột Kiểu dữ liệu Cho phép null
Bảng 11 Bảng bán Bảng dữ liệu
4.1.2 Bảng cho bảng dữ kiện đánh giá
Tên cột Kiểu dữ liệu Cho phép null
Bảng 12 Bảng để xem xét bảng dữ kiện
4.1.3 Bảng cho bảng chiều ngày
Tên cột Kiểu dữ liệu Cho phép null
Bảng 13 Bảng cho bảng chiều Ngày
Trang 224.1.4 Bảng cho bảng kích thước khách hàng
Tên cột Kiểu dữ liệu Cho phép null
Tên cột Kiểu dữ liệu Cho phép null
Tên sản phẩm Nvarchar(50)
Bảng 15 Bảng cho bảng kích thước sản phẩm
4.1.6 Bảng cho bảng kích thước cửa hàng
Tên cột Kiểu dữ liệu Cho phép null
Tên cửa hàng Nvarchar(50)
Bảng 16 Bảng cho bảng kích thước Cửa hàng
4.1.7 Bảng cho bảng kích thước phụ của Danh mục
Tên cột Kiểu dữ liệu Cho phép null
Tên danh mục Nvarchar(50)
Bảng 17 Bảng cho bảng phụ chiều Danh mục
Trang 234.1.8 Bảng cho bảng phụ chiều của Vùng
Tên cột Kiểu dữ liệu Cho phép null
Tên_khu_vực Nvarchar(50)
Bảng 18 Bảng cho bảng phụ chiều Vùng
4.1.9 Bảng cho bảng phụ chiều Quốc gia
Tên cột Kiểu dữ liệu Cho phép null
Tên_quốc_gia Nvarchar(50)
Bảng 19 Bảng cho bảng phụ chiều Quốc gia
Trang 24Chapter 5 Quy trình ETL
5.1 Thiết kế ETL khái niệm
Hình 8 Thiết kế ETL khái niệm
Luồng điều khiển: Dim_Customer, Dim_Product, Dim_Store, Dim_Date, Dim_Category, Dim_Region, Dim_Country, Fact_Sale, Fact_Review
5.2 Phát triển ETL bằng cách sử dụng SSIS
5.2.1 Sự thật bán hàng
Luồng dữ liệu:
Hình 9 Luồng dữ liệu Fact_Sale
Kết quả sau khi thực hiện quy trình ETL:
Trang 25Hình 10 Kết quả Fact_Sale
5.2.2 Xem lại sự thật
Luồng dữ liệu:
Hình 11 Luồng dữ liệu Fact_Review
Kết quả sau khi thực hiện quy trình ETL:
Hình 12 Kết quả Fact_Review
5.2.3 Ngày mờ
Luồng dữ liệu:
Trang 26Hình 13 Luồng dữ liệu ngày Dim
Kết quả sau khi thực hiện quy trình ETL:
Hình 14 Ngày Dim Kết quả ETL
5.2.4 Khách hàng mờ
Luồng dữ liệu:
Hình 15 Luồng dữ liệu Dim của khách hàng
Kết quả sau khi thực hiện quy trình ETL:
Trang 27Hình 16 Kết quả DimETL của khách hàng
5.2.5 Sản phẩm mờ
Hình 17 Luồng dữ liệu Dim sản phẩm
Kết quả sau khi thực hiện quy trình ETL:
Trang 28Hình 18 Kết quả ETL Dim sản phẩm
5.2.6 Lưu trữ mờ
Hình 19 Lưu trữ luồng dữ liệu Dim
Kết quả sau khi thực hiện quy trình ETL:
Trang 29Hình 20 Lưu trữ kết quả ETL Dim
5.2.7 Thể loại phụ
Hình 21 Thể loại Dim Luồng dữ liệu
Kết quả sau khi thực hiện quy trình ETL:
Hình 22 Kết quả ETL loại Dim
Trang 305.2.8 Vùng phụ
Hình 23 Vùng Dim Luồng dữ liệu
Kết quả sau khi thực hiện quy trình ETL:
Hình 24 Kết quả ETL vùng Dim
5.2.9 Quốc gia phụ
Hình 25 Luồng dữ liệu Dim của quốc gia