1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Kho dữ liệu xây dựng kho dữ liệu Để quản lý các doanh nghiệp thu thập sản phẩm mỹ phẩm

46 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Kho Dữ Liệu Xây Dựng Kho Dữ Liệu Để Quản Lý Các Doanh Nghiệp Thu Thập Sản Phẩm Mỹ Phẩm
Tác giả Nguyễn Đại Cường, Nguyễn Bùi Nam Phúc
Người hướng dẫn ThS. Trần Thanh Liêm
Trường học Trường Đại Học Công Nghệ Thông Tin Và Truyền Thông Việt Nam - Hàn Quốc
Thể loại đồ án
Năm xuất bản 2024
Thành phố Đà Nẵng
Định dạng
Số trang 46
Dung lượng 0,91 MB

Nội dung

Hình 6 Biểu đồ bông tuyết cho bảng ReviewFact 10Hình 7 Sơ đồ bông tuyết cho Bảng sự kiện bán hàng 10Hình 33 Định dạng báo cáo Số lượng theo tháng, quý 28Hình 34 Báo cáo kết quả Số lượng

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ

TRUYỀN THÔNG VIỆT NAM - HÀN QUỐC

KHOA KHOA HỌC MÁY TÍNH

KHO DỮ LIỆU

XÂY DỰNG KHO DỮ LIỆU ĐỂ QUẢN

LÝ CÁC DOANH NGHIỆP THU THẬP

SẢN PHẨM MỸ PHẨM

Học sinh : NGUYỄN ĐẠI CƯỜNG ID: 21IT007

Lớp học : 21GIT

GVHD : ThS TRẦN THANH LIÊM

Đà Nẵng, tháng 11 năm 2024

Trang 2

LỜI CẢM ƠN

Trước hết, nhóm xin gửi lời cảm ơn chân thành đến TS Trần Thanh Liêm (Giảngviên bộ môn Data Warehouse) đã giúp nhóm có được những kiến thức cơ bản cầnthiết làm nền tảng để thực hiện luận văn này Thầy đã trực tiếp hướng dẫn nhómnhiệt tình, sửa lỗi sai và đóng góp nhiều ý kiến quý báu giúp nhóm hoàn thành tốtbáo cáo chuyên đề Trong suốt một học kỳ thực hiện đồ án, nhóm đã vận dụngnhững kiến thức nền đã tích lũy được và kết hợp với việc học hỏi, nghiên cứukiến thức mới Từ đó, nhóm đã vận dụng những kiến thức đã thu thập được đểhoàn thành báo cáo đồ án tốt nhất Tuy nhiên, trong quá trình thực hiện, nhómkhông tránh khỏi những thiếu sót Vì vậy, nhóm rất mong nhận được những góp ýcủa các thầy cô để nâng cao kiến thức đã tiếp thu được và chuẩn bị cho nhóm giảiquyết những chủ đề khác trong tương lai

Xin chân thành cảm ơn!

Học sinh,Nguyễn Đại CườngNguyễn Bùi Nam Phúc

Trang 3

NHẬN XÉT CỦA GIẢNG VIÊN

………

……….……… ……… ……….……… ……… ………

……… ……… ……….……… ……… ……….………

……… ……….……… ……… ……….……… ……… ………

……… ……… ……….……… ……… ……….………

……… ……….……… ……… ……….……… ……… ………

……… ……… ……….……… ……… ……….………

……… ……….……… ……… ……….……… ……… ………

……… ……… ……….……… ……… ……….………

……… ……….……… ……… ……….……… ……… ………

……… ……… ……….……… ……… ……….………

……… ………

Trang 5

2.3 Câu hỏi truy vấn 11

5.4 Top 5 sản phẩm có tổng lợi nhuận lớn nhất 26

6.3 Tổng số tiền, lợi nhuận của một sản phẩm tăng dần, giảm dần 286.4 Đánh giá trung bình của một sản phẩm theo thứ tự tăng dần, giảm dần 29

6.8 Top 5 sản phẩm có tổng lợi nhuận lớn nhất 32

Trang 8

Hình 6 Biểu đồ bông tuyết cho bảng ReviewFact 10Hình 7 Sơ đồ bông tuyết cho Bảng sự kiện bán hàng 10

Hình 33 Định dạng báo cáo Số lượng theo tháng, quý 28Hình 34 Báo cáo kết quả Số lượng theo tháng, quý 28Hình 35 Định dạng báo cáo tổng số tiền, lợi nhuận của một sản phẩm 28

Hình 37 Định dạng báo cáo Xếp hạng trung bình 29Hình 38 Định dạng báo cáo Đánh giá trung bình của sản phẩm 30Biểu đồ 39 Tổng lợi nhuận của tất cả các cửa hàng 31

Hình 42 Top 5 sản phẩm có tổng lợi nhuận lớn nhất 32

Trang 9

DANH SÁCH CÁC TỪ VIẾT TẮT

Con số Cụm từ Viết tắt

1 Môi trường phát triển tích hợp Ý TƯỞNG

Chapter 1

Trang 10

Chapter 2 Giới thiệu

2.1 Mục tiêu của dự án

Mục tiêu chính trong việc xây dựng kho dữ liệu cho các doanh nghiệp thuthập sản phẩm mỹ phẩm là thiết lập một trung tâm tập trung để quản lý dữliệu toàn diện Điều này bao gồm việc tổng hợp và lưu trữ các tập dữ liệu

đa dạng, từ các giao dịch bán hàng và mức tồn kho đến phản hồi của kháchhàng và thông tin chuỗi cung ứng Mục đích là tích hợp các nguồn dữ liệukhác nhau này, đảm bảo chất lượng và tính nhất quán của dữ liệu thôngqua các quy trình làm sạch và chuyển đổi Bằng cách bảo quản dữ liệu lịch

sử, kho dữ liệu tạo điều kiện cho việc phân tích xu hướng và hỗ trợ raquyết định Việc triển khai các công cụ thông minh kinh doanh mạnh mẽcho phép người dùng thực hiện các truy vấn tùy ý và tạo báo cáo, cung cấpthông tin chi tiết có giá trị về hiệu suất của sản phẩm mỹ phẩm Cơ chếgiám sát theo dõi các chỉ số hiệu suất chính, tối ưu hóa các quy trình chuỗicung ứng và nâng cao hiệu suất kinh doanh tổng thể Tận dụng thông tinchi tiết về khách hàng có được từ dữ liệu cho phép đưa ra các chiến lượctiếp thị và khuyến nghị sản phẩm được cá nhân hóa Hơn nữa, kho dữ liệuđảm bảo tuân thủ quy định và được thiết kế để có khả năng mở rộng vàlinh hoạt, đáp ứng nhu cầu kinh doanh đang thay đổi trong ngành mỹphẩm năng động Cuối cùng, mục tiêu là trao quyền cho các tổ chức đưa raquyết định sáng suốt, cải thiện hiệu quả hoạt động và duy trì khả năngcạnh tranh trên thị trường mỹ phẩm

2.2 Yêu cầu

Mục tiêu của việc thiết lập kho dữ liệu cho các doanh nghiệp tham gia vào

bộ sưu tập sản phẩm mỹ phẩm là lưu trữ và quản lý hiệu quả cả dữ liệu lịch

sử và hiện tại liên quan đến thông tin sản phẩm Điều này bao gồm dữ liệu

về đặc điểm sản phẩm, giao dịch bán hàng, phản hồi của khách hàng vàthông tin chi tiết về chuỗi cung ứng Kho dữ liệu được thiết kế để hỗ trợnhiều truy vấn phân tích khác nhau và tạo báo cáo về dữ liệu sản phẩm mỹphẩm, chẳng hạn như xu hướng về mức độ phổ biến của sản phẩm, phânphối doanh số theo khu vực (kho, quận, tỉnh) và mối tương quan với nhiềuyếu tố thị trường khác nhau Kho dữ liệu phải có khả năng mở rộng, đángtin cậy và hiệu quả để xử lý khối lượng dữ liệu lớn và đáp ứng các tương tácđồng thời của người dùng Các phân tích cụ thể bao gồm theo dõi tần suất

và nguyên nhân thay đổi mức độ phổ biến của sản phẩm, đánh giá tác độngđến xu hướng thị trường và đánh giá các tác động kinh tế của việc thay đổi

sở thích của người tiêu dùng Thông tin chi tiết về thống kê sẽ bao gồm hiệusuất sản phẩm theo thời gian, nguyên nhân thay đổi mức độ phổ biến và xácđịnh các sản phẩm có hiệu suất cao và kém hiệu quả Kho dữ liệu tạo điềukiện thuận lợi cho việc trích xuất thông tin có giá trị, trao quyền cho cácdoanh nghiệp đưa ra quyết định sáng suốt và duy trì khả năng cạnh tranhtrên thị trường mỹ phẩm

Trang 11

2.3 Các khái niệm trong kho dữ liệu

2.3.1 Thiết kế hợp lý

Mô hình hóa logic trong bối cảnh kho dữ liệu liên quan đến việc thiết kếmột cấu trúc biểu diễn và tổ chức dữ liệu hiệu quả cho mục đích phân tích.Không giống như cơ sở dữ liệu giao dịch được tối ưu hóa cho xử lý giaodịch, kho dữ liệu được thiết kế để hỗ trợ các truy vấn và báo cáo phức tạp,làm cho mô hình hóa logic trong môi trường này trở nên khác biệt

Kết hợp với Snowflake Schema với Dimension, Sub-dimension và Facttables

2.3.2 Sơ đồ bông tuyết

Sơ đồ bông tuyết là một loại sơ đồ cơ sở dữ liệu trong đó một bảng dữ kiệntrung tâm được kết nối với nhiều bảng chiều thông qua một tập hợp cácmối quan hệ được chuẩn hóa Trong sơ đồ bông tuyết, các chiều thườngđược chuẩn hóa thêm thành các chiều phụ Điều này tạo ra một cấu trúcgiống như một bông tuyết khi được hình dung, với bảng dữ kiện trung tâm

là trung tâm và các bảng chiều phân nhánh ra như cánh tay

Snowflake Schema cung cấp một số lợi ích trong lĩnh vực kho dữ liệu.Một trong những lợi thế chính của nó là truy xuất dữ liệu nhanh Bằngcách chuẩn hóa các bảng chiều và sắp xếp dữ liệu thành một cấu trúc phâncấp, lược đồ giảm thiểu sự dư thừa dữ liệu, tạo điều kiện cho việc truy vấn

và truy xuất thông tin hiệu quả Ngoài ra, Snowflake Schema áp dụng cáctiêu chuẩn cao về chất lượng dữ liệu Thiết kế chuẩn hóa giúp ngăn ngừa

sự không nhất quán và bất thường, đảm bảo dữ liệu vẫn chính xác và đángtin cậy Một lợi thế khác nằm ở việc cung cấp một mô hình dữ liệu đơngiản và chung cho kho dữ liệu Cấu trúc chuẩn hóa này đơn giản hóa việc

tổ chức và quản lý dữ liệu, thúc đẩy một khuôn khổ gắn kết và dễ hiểu chongười dùng

Tuy nhiên, Snowflake Schema không phải là không có nhược điểm Việcthiết lập ban đầu của lược đồ này phát sinh một lượng chi phí đáng kể.Quá trình chia nhỏ các bảng chiều thành các chiều con được chuẩn hóa vàthiết lập các mối quan hệ phức tạp đòi hỏi phải lập kế hoạch và thực hiện tỉ

mỉ, có khả năng kéo dài giai đoạn thiết lập Mô hình dữ liệu cứng nhắc củaSnowflake Schema đặt ra một thách thức khác Mặc dù nó tăng cường tínhtoàn vẹn của dữ liệu, nhưng cấu trúc được chuẩn hóa có thể dẫn đến cáctruy vấn phức tạp hơn và ngược lại, cản trở tính linh hoạt trong một số tìnhhuống phân tích nhất định Hơn nữa, chi phí bảo trì cao liên quan đến cácbản cập nhật và sửa đổi liên tục đối với lược đồ có thể là một cân nhắcđáng kể Bất chấp những lợi ích của nó, những nhược điểm này làm nổibật nhu cầu đánh giá và cân nhắc cẩn thận các trường hợp sử dụng cụ thểkhi lựa chọn Snowflake Schema trong môi trường kho dữ liệu

2.3.3 Bảng dữ kiện

Một sự kiện trong kho dữ liệu mô tả dữ liệu giao dịch định lượng như phép

đo, số liệu hoặc giá trị sẵn sàng để phân tích Bao gồm số tiêu đề, số đơnhàng, số vé, số giao dịch, tiền tệ giao dịch, v.v Số lượng đã bán là mộtphép đo sự kiện hoặc chỉ số hiệu suất chính (KPI)

Trang 12

là chiều phụ Ví dụ, hãy xem xét chiều thời gian Chiều chính có thể là

"Ngày", nhưng bạn có thể có các chiều phụ như "Năm", "Quý", "Tháng"

và "Ngày" Mỗi chiều phụ này biểu thị một mức độ chi tiết khác nhautrong chiều thời gian tổng thể

Tương tự như vậy, trong một chiều địa lý, bạn có thể có một chiều chính là

"Vị trí" với các chiều phụ như "Quốc gia", "Khu vực" và "Thành phố", thểhiện các mức độ chi tiết khác nhau trong bối cảnh địa lý

Việc sử dụng các chiều phụ cho phép người dùng phân tích dữ liệu ở nhiềucấp độ chi tiết khác nhau, mang lại sự linh hoạt trong việc báo cáo và phântích trong môi trường kho dữ liệu

2.4.2 Dịch vụ tích hợp SQL Server

SQL Server Integration Services là nền tảng để xây dựng các giải pháptích hợp dữ liệu và chuyển đổi dữ liệu cấp doanh nghiệp Sử dụngIntegration Services để giải quyết các vấn đề kinh doanh phức tạp bằngcách sao chép hoặc tải xuống tệp, tải kho dữ liệu, làm sạch và khai thác dữliệu, cũng như quản lý các đối tượng và dữ liệu SQL Server

Dịch vụ tích hợp có thể trích xuất và chuyển đổi dữ liệu từ nhiều nguồnkhác nhau như tệp dữ liệu XML, tệp phẳng và nguồn dữ liệu quan hệ, sau

đó tải dữ liệu vào một hoặc nhiều đích

Dịch vụ tích hợp bao gồm:

- Một bộ tác vụ và chuyển đổi tích hợp phong phú

Trang 13

- Công cụ đồ họa để xây dựng gói.

- Cơ sở dữ liệu SSIS Catalog để lưu trữ, chạy và quản lý các gói

2.4.3 Studio quản lý SQL Server

Hình 2 SQL Server Management Studio

SQL Server Management Studio (SSMS) là một môi trường tích hợp để quản

lý bất kỳ cơ sở hạ tầng SQL nào Sử dụng SSMS để truy cập, cấu hình, quản

lý, quản trị và phát triển tất cả các thành phần của SQL Server, Azure SQLDatabase , Azure SQL Managed Instance, SQL Server trên Azure VM vàAzure Synapse Analytics SSMS cung cấp một tiện ích toàn diện duy nhất kếthợp một nhóm lớn các công cụ đồ họa với nhiều trình soạn thảo tập lệnhphong phú để cung cấp quyền truy cập vào SQL Server cho các nhà phát triển

và quản trị viên cơ sở dữ liệu ở mọi cấp độ kỹ năng Phân tích và thiết kế kho

dữ liệu

Trang 14

Chapter 3 Phân tích và thiết kế kho dữ liệu

3.1 Mô hình khái niệm

Mô hình dữ liệu khái niệm là một biểu diễn cấp cao của dữ liệu tổ chức và các mối quan hệ giữa các thực thể dữ liệu khác nhau trong một doanh nghiệp hoặc hệ thống Nó cung cấp một cái nhìn trừu tượng và đơn giản về các thành phần dữ liệu thiết yếu và các kết nối của chúng mà không đi sâu vào các chi tiết cụ thể về triển khai cơ sở dữ liệu hoặc các chi tiết kỹ thuật

3.1.1 Đo lường và kích thước các thực thể

3.1.1.1 Đo lường

- Số lượng: Số lượng mặt hàng được bán trong một lần bán

- Tổng lợi nhuận: Lợi nhuận của một lần bán

Trang 15

Hình 4 Kích thước sản phẩm

3.1.3 Sơ đồ mô hình khái niệm

Hình 5 Sơ đồ mô hình khái niệm

Trang 16

Số lượng Số lượng mặt hàng được bán

Tên trường Sự miêu tả Kiểu

Đánh giáID ID của đánh giá Int

Mã sản phẩm ID của sản phẩm Int

ID khách hàng ID của khách hàng Int

Xếp hạng thước đo cho một đánh

Bảng 2 Xem lại sự kiện

Trang 17

3.2.1.3 Bảng chiều ngày

Tên trường Sự miêu tả Kiểu

Ngày hóa đơn Ngày lập hóa đơn Ngày

Mã danh mục ID của một danh mục Int

Tên sản phẩm Tên sản phẩm nvarchar(50)Giá sản phẩm Giá sản phẩm Trôi nổi

Bảng 5Kích thước sản phẩm

Trang 18

3.2.1.6 Bảng kích thước cửa hàng

Tên trường Sự miêu tả Kiểu

Mã cửa hàng ID của một cửa hàng Int

ID vùng ID của một thành phố Int

Mã quốc gia ID của quốc gia Int

Tên Tên của một cửa hàng nvarchar(50)

Bảng 6 Lưu trữ Dim

3.2.1.7 Bảng phân loại kích thước

Tên trường Sự miêu tả Kiểu

Mã danh mục ID của một danh mục Int

Tên danh mục Tên của một danh mục nvarchar(50)

Bảng 7 Thể loại Sub-dim

3.2.1.8 Bảng phụ vùng

Tên trường Sự miêu tả Kiểu

ID_khu_vực ID của một vùng Int

Tên_khu_vực Tên của một vùng nvarchar(50)

Bảng 8 Thành phố Sub-dim

3.2.1.9 Bảng phụ kích thước quốc gia

Tên trường Sự miêu tả Kiểu

Mã quốc gia ID của một quốc gia Int

Tên_quốc_gia Tên của một quốc gia nvarchar(50)

Bảng 9 Quốc gia Tiểu mục

3.2.2 Bông tuyết

Sơ đồ bông tuyết ở đây bao gồm các sơ đồ cho bảng dữ kiện Bán và Đánh giá

Trang 19

3.2.2.1 Sơ đồ bông tuyết cho bảng dữ kiện đánh giá

Hình 6 Sơ đồ bông tuyết cho bảng ReviewFact

3.2.2.2 Sơ đồ bông tuyết cho bảng dữ liệu bán hàng

Hình 7 Sơ đồ bông tuyết cho Bảng sự kiện bán hàng

Trang 20

3.3 Câu hỏi truy vấn

Câu hỏi Sự miêu tả

1 Tổng lợi nhuận theo tháng, quý

2 Tổng số tiền theo tháng, quý

3 Tổng số tiền, lợi nhuận của một sản phẩm tăng dần, giảm dần

4 Xếp hạng trung bình của một sản phẩm theo thứ tự tăng dần, giảm

dần

Bảng 10 Câu hỏi truy vấn

Trang 21

Chapter 4 Phát triển kho dữ liệu

4.1 Mô hình vật lý

4.1.1 Bảng dữ liệu bán hàng

Tên cột Kiểu dữ liệu Cho phép null

Bảng 11 Bảng bán Bảng dữ liệu

4.1.2 Bảng cho bảng dữ kiện đánh giá

Tên cột Kiểu dữ liệu Cho phép null

Bảng 12 Bảng để xem xét bảng dữ kiện

4.1.3 Bảng cho bảng chiều ngày

Tên cột Kiểu dữ liệu Cho phép null

Bảng 13 Bảng cho bảng chiều Ngày

Trang 22

4.1.4 Bảng cho bảng kích thước khách hàng

Tên cột Kiểu dữ liệu Cho phép null

Tên cột Kiểu dữ liệu Cho phép null

Tên sản phẩm Nvarchar(50)

Bảng 15 Bảng cho bảng kích thước sản phẩm

4.1.6 Bảng cho bảng kích thước cửa hàng

Tên cột Kiểu dữ liệu Cho phép null

Tên cửa hàng Nvarchar(50)

Bảng 16 Bảng cho bảng kích thước Cửa hàng

4.1.7 Bảng cho bảng kích thước phụ của Danh mục

Tên cột Kiểu dữ liệu Cho phép null

Tên danh mục Nvarchar(50)

Bảng 17 Bảng cho bảng phụ chiều Danh mục

Trang 23

4.1.8 Bảng cho bảng phụ chiều của Vùng

Tên cột Kiểu dữ liệu Cho phép null

Tên_khu_vực Nvarchar(50)

Bảng 18 Bảng cho bảng phụ chiều Vùng

4.1.9 Bảng cho bảng phụ chiều Quốc gia

Tên cột Kiểu dữ liệu Cho phép null

Tên_quốc_gia Nvarchar(50)

Bảng 19 Bảng cho bảng phụ chiều Quốc gia

Trang 24

Chapter 5 Quy trình ETL

5.1 Thiết kế ETL khái niệm

Hình 8 Thiết kế ETL khái niệm

Luồng điều khiển: Dim_Customer, Dim_Product, Dim_Store, Dim_Date, Dim_Category, Dim_Region, Dim_Country, Fact_Sale, Fact_Review

5.2 Phát triển ETL bằng cách sử dụng SSIS

5.2.1 Sự thật bán hàng

Luồng dữ liệu:

Hình 9 Luồng dữ liệu Fact_Sale

Kết quả sau khi thực hiện quy trình ETL:

Trang 25

Hình 10 Kết quả Fact_Sale

5.2.2 Xem lại sự thật

Luồng dữ liệu:

Hình 11 Luồng dữ liệu Fact_Review

Kết quả sau khi thực hiện quy trình ETL:

Hình 12 Kết quả Fact_Review

5.2.3 Ngày mờ

Luồng dữ liệu:

Trang 26

Hình 13 Luồng dữ liệu ngày Dim

Kết quả sau khi thực hiện quy trình ETL:

Hình 14 Ngày Dim Kết quả ETL

5.2.4 Khách hàng mờ

Luồng dữ liệu:

Hình 15 Luồng dữ liệu Dim của khách hàng

Kết quả sau khi thực hiện quy trình ETL:

Trang 27

Hình 16 Kết quả DimETL của khách hàng

5.2.5 Sản phẩm mờ

Hình 17 Luồng dữ liệu Dim sản phẩm

Kết quả sau khi thực hiện quy trình ETL:

Trang 28

Hình 18 Kết quả ETL Dim sản phẩm

5.2.6 Lưu trữ mờ

Hình 19 Lưu trữ luồng dữ liệu Dim

Kết quả sau khi thực hiện quy trình ETL:

Trang 29

Hình 20 Lưu trữ kết quả ETL Dim

5.2.7 Thể loại phụ

Hình 21 Thể loại Dim Luồng dữ liệu

Kết quả sau khi thực hiện quy trình ETL:

Hình 22 Kết quả ETL loại Dim

Trang 30

5.2.8 Vùng phụ

Hình 23 Vùng Dim Luồng dữ liệu

Kết quả sau khi thực hiện quy trình ETL:

Hình 24 Kết quả ETL vùng Dim

5.2.9 Quốc gia phụ

Hình 25 Luồng dữ liệu Dim của quốc gia

Ngày đăng: 13/11/2024, 21:10

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w