Trước khi thực hiện xử lý dữ liệu ta thực hiện đưa đữ liệu từ file Excel vào SQL, Server để thuận lợi cho việc ETL đữ liệu.. source view for the Excel source, Then, select After selectin
Trang 1TRƯỜNG ĐẠI HỌC KINH TẾ
KHOA THONG KE — TIN HOC
BAO CAO CUOI KY
NGANH HE THONG THONG TIN QUAN LY CHUYEN NGANH QUAN TRI HE THONG THONG TIN
XAY DUNG DATA WAREHOUSE VA PHAN TICH DU LIEU
Sinh viên thực hiện
Lớp
Giảng viên
Trang 2
Da Nang, 12/2023
Trang 3MUC LUC
DANH MỤC HÌNH ẢNH - su cm mm mm nan iii
2 Cấu trúc và ý nghĩa dữ liệu 2 52 S2 1 1121121121121 1111212111211 x2 1
1 Đưa dữ liệu nguồn vào SQL, S€rV€F L2 1 0111101111111 11121 11211 k2 2
2 Xây dựng kho đữ liệu (Data Warehouse) -.- cành se 7
3 _ Đưa đữ liệu vào Data WareHouse 00 n2 nnn ng ky se 7
4 _ Xây dựng mô hình OLAP - 2 2212221121 1211121 15511111 11111211 1 11111 xe2 15
5 Trực quan hóa đữ liệu :- 2 2 122112211211 151 1211121111111 1211821 cay 19
li
Trang 4
DANH MUC HINH ANH
Hình 2: Đưa dữ liệu từ Excel vào SQL, SGTVÊF c LH cHHn TH HH HH 111 1111k ky kg 2 Hình 3: Taoh Database DLNguon BT(K à SH HH TH HH HH ru ray 3 Hinh 4: Két noi dit nã 2 8N ố.ẽ.ẽ 3 Hinh 5: Tao ma dinh danh bang Script COMpoOneNt c cccccccccccccscsscescsscescsssssessessesesesesesees 4
Hình 15: Chon Retailer ID vat Retailer cccccccccceccceceeceteeetteesctnetetaeeneecneeeneeenneenneeens 9 Hinh 16: Két noi dén kho dit liu dG Auoc tao tre (L)eicccccccccccccsccsvescssessesessevsvssesesvsvsseees 9
Hinh 17: Chuyén doi dit liéu cột date tle string qua đAte cac SE xe 10
0, /805809.(02(0 (00 0n nổ ốốốốố.ố.ee H Hình 19: Kết nối đến kho đữ liệu ssccShnHH HH re II
Hình 20: Kết nói đến dữ liệu nguôn trong SÓL, SerV€F c1 12 1/1920 0 ,.0.N)001,.NNN (ẢẢẢẢẢẢẢẮẼÝẼÝẼỶÝỶÃỶÃ 13
Hình 22: Kết nối đến kho dữ liệu sscc SH HH re 13 Hinh 23: Noi kha ngoai dén cdc khoa Chinh ccccccccccccccccccsscsscessesscssesssesvesvssesctseseetessesees 14
Hình 24: Dữ liệu sau khi chạy quai trinh ETL (QD) coccccccccccccccceccsccssetecetecnteeteccneenssensestsenseess 14 Hình 25: Dữ liệu sau khi chạy quá trình E TÌ, (2) c se cà SH TH TH ng H111 111tr cay 15 Hình 26: Xây dựng mô hình OLAP bằng Analysis S€F'ViC&S scs cS c2 c 15 '0./.8/09.()0 0 08 0 n nh ốốốốố.ố.ố.ốố.ốe 16
Trang 5[102.5912060 NNN - ăĂă 16 Hình 29: Đưa giá trị của Data source view qua AIIHrIĐUHCS ác HH 17 [ )/8100N/, 58.,/.7.09.)23 00m 19
0/8000 09 ) nan nốnốố.ố ố e 19
IV
Trang 6
L
1 Nguồn gốc dữ liệu
Bộ dữ liệu Adidas Sales được sử dụng trong bài báo cáo này được thu thập từ https://www.kagele.com/datasets/heemalichaudhari/adidas-sales-dataset/data BO dtr liệu bao gồm thông tin về doanh số bán các sản phẩm của Adidas, cùng với các chỉ tiết như - số lượng đơn vị đã bán, tong doanh thu ban hang, dia diém ban hang, loại sản
phẩm đã bán
Bộ dữ liệu sưu tâm bao gôm:
dưới dạng xÌxs
me X cut Paste Format Pointer es dgboxd
TRIEN KHAI DỰ ÁN
13 cột và 9648 dòng Đây là hình ảnh đữ liệu được tải về
os 3E EZiMergefi(emer ~ Aigtrnert 5 Number
Conditions! Format as Cet rreert Delete Formst Sert & Find &
Formatting ~ Table Styles ~ oe # Cleer~— giler~ Seec ©
5 Stes celts Edtng
21/01/2020 23/01/2020 25/01/2020 27/01/2020 29/01/2020 31/01/2020 01/02/2020 3/02/2020
05/02/2020 07/02/2020 (9/02/2020 Northeast New York New Yor Women's Athieth $50.00
L perating Profft
Hình l: Bộ dữ liệu Adidas Sales
2 Cấu trúc và ý nghĩa dữ liệu
Bảng dưới đây là các cột dữ liệu trong bộ dữ liệu Adidas chưa qua xử lý:
Trang 7
3 | Invoice Date String Ngày mua hàng
6 | City String Tên thành phố
8 | Price per Unit String Gia trung binh cua | san pham
9 | Units Sold String Doanh số bán hàng theo đơn vị
10 | Total Sales String Téng doanh thu
11 | Operating Profit String Lợi nhuận trước thuế
12 | Operating Margin String Tý suất lợi nhuận
H XỬ LÝ VÀ PHẦN TÍCH DỮ LIỆU
1 Đưa dữ liệu nguồn vào SQL Server
Vi
Trang 8
Trước khi thực hiện xử lý dữ liệu ta thực hiện đưa đữ liệu từ file Excel vào SQL,
Server để thuận lợi cho việc ETL đữ liệu
Packags.đtsx [Design] ©
"N7 Nha lo
slueT/pe Iwt32 Data Flow Tssk Data Flow Tssk
Hinh 2: Dua dit liéu te Excel vao SOL Server
Đầu tiên vào SQL Server tao Database tên là DLNguon_BTCK
Trang 9source view for the Excel source, Then, select After selecting the data access mode, select from Excel conection manager
Table oF view Name of the Excel sheet
eR
Hình 4: Kết nối dữ liệu nguồn Sau khi kiểm tra dữ liệu nguồn thì thây cột Retailer_ID có mã định danh trùng nhau
nên không chọn cột Retailer_ID ma tao cho nó một mã định danh mới bằng cách sử
dung Script Component
n Toots for Applications (VSTA) to write sexipts using Microsoft Visual Basic 2022 or Microsoft
LocaleiO Engiith (United Kingdom
Component Name
ValdateExterns2Metadats
¥ Custom Properties Read le
Specifies the name ot the comporent
Trang 10Tiếp theo tạo các mã định đanh cho các cột Product, Invoice_Date và Region dé phục
vụ cho mục đích Merger join các bảng lại với nhau
SeriptComponent 3 Data Fiơu
DT script trseete Access Micros for Applications (VSTA) to write scr
ties Visual C# 2022, and configure component proper Specity column properties of the script component
Ade Output ‘Aad Colume Remove Column sme KG
Hình 7: Nối các bảng lại với nhau (2)
Trang 11Colum 0 Product JD Data Type Properties
fn Script Component 1 Dsta flow Compooent
A0g Outout
nited K
L 4 Kingdom Script Component 1 Cancel
Hình 8: Nối các bảng lại với nhau (3)
Sử dụng Sort để sắp xếp và Merger Join các bảng lại voi nhau théng qua Merger join
Trang 12Su dung OLE Destination dé chon noi dwa dé liéu vao la DLNguon BTCK
ih OLE D2 Destination Editor Conigure the properties used to insert data into a relational database using an OLE DB provider Specify an OLE DB connection manager, 3 data source, or a dats source view, and select the dats the query oF by using Query Builder, For fast-load data access set the table update options OLE DB conection manager:
DESKTO?-51K2295\SOLEXPRESS.DLNQUON
Dota acces: mode:
Table or view - fast load Name of the table or the view:
BD [01 Nguen!
] Keep identity A] Table tock Keep ruts Check constraints Rows per batch: Oe H Maximum insert comenit size
Hinh 11: Kiém tra dữ liệu trong SQL Server
2 Xây dựng kho dữ liệu (Data Warehouse)
Trang 13BICKsal - ax
freate Database DNH_BTCK use DlH_BTCK CREATE TABLE Retailers Retailer_IO INT PRIMARY KEY Retailertame NVARCHAR(255), Sale_Method NVARCHAR(255 CREATE TABLE Invoice_Date Invoice_Date_ID INT PRIMARY KEY Invoice_Date Date
CREATE TABLE Region Region_ID INT PRIMARY KEY
Region NVARCHAR(255 CT_State NVARCHAR(255 City NVARCHAR(255 CREATE TABLE Fact_table ( Retailer_I0 INT Invoice_Date_ID INT Product_ID INT
Region_ID INT
Price_per_unit money
Unit_sold money
Total_Sale money Operating_profit money
Hình 12: Xây dựng kho dữ liệu
3 Đưa dữ liệu vào Data WareHouse
Sử dụng Sequence Container để chứa 4 data flow task tương ứng với 4 dimesion là product, retailer, date va region Sequence sé thye hién néi đến bảng Fact và nối tiếp dén Excute SQL Task để thực hiện công việc tạo khóa ngoại cho bảng Fact
Ù eer
co
Hình I3: Tạo khóa ngoại cho bang Fact
xH
Trang 14
Trong data flow task cua Retailer, str dung OLE DB Souces dé chon dữ liệu nguồn đã được đưa vào SQL thực hiện ở bước trên
MÃ
Configure the properties used by 3 data flow to obtain data from any OLE DB provider
agi acd @ Preview Query Rests Query resutt (up to the first DESKTO?-S1
Osta access mode:
Table or view Name of the table or the view
Hình 14: Chọn đữ liệu nguồn đã được đưa vào SQL
Ở mục column chọn các column tương ứng với cột Retailer là Retailer_ID và Retailer
Output Retailer ID Retailer
re}
©OLE DB Source
Hinh 15: Chon Retailer ID va Retailer
Su dung OLE Destination kết nối đến kho dữ liệu đã được tạo trước để đưa đữ liệu vào
Trang 15Hình 16: Kết nối đến kho dữ liệu đã được tạo trước (Ù
Tương tự với các column Product, Date và Region
Trang 16n
Configure Error Output
Hinh 18: Derived Column
Su dung OLE Destination kết nối đến kho dữ liệu
Trang 17Keep identity Table lock Keep nulls A] Check constraints Rows per bate
Maximum insert commet size
View Existing
Hình 19: Kết nỗi đến kho dữ liệu
Tiếp theo các cột Product, Region làm tương tự Retailer
Thực hiện đưa dữ liệu vào bảng Fact, chọn OLE DB Sources kết nối đến đữ liệu nguồn trong SQL Server
XVI
Trang 18of 8 data cource view, and select the dats specify the SQL command either by typing
Name ofthe table or the ve
BB 400} 01 Nquont
c1 od
Hinh 20: Két noi đến dữ liệu nguôn trong SQL Server
Ở column chon cac cac khéa 1a Product_ID, Retailer ID, Date ID, Region ID va cac measure la Operating Profit, Operating Margin, Total Sales, Units Sold, Price per Unit
r2
Retailer ID Region ID Date sD Prodkct ID Product JD
Hình 21: Chọn từ khỏa
Sử dụng OLE Destination kết nối đến kho dữ liệu
Trang 19SM etree OLS D2 Destination Ecitce
Configure the properties used to insert data into a relational database using an OLE DB provider
OLE DB con DESKTOP-S1 Data access mode:
Table or view - fast load
OLE DB Destinatien Data Fiow Componest Pa}
L
C1 D
Hình 22: Kết nối đến kho dữ liệu
Sử dụng SQL Excute Task đề thực hiện viết khóa ngoại kết nối đến các khóa chính
&
SQL statements
Y General (Enter SOL Query
Xviil
Trang 20
®% sai = Microsoft SQL 3uick Launch (Cte P= @ *
Hi @ System Databases Unit_sold mor
2 Batapian2 | Operating profit money,
5 @ Bstapien2 Test! Sale_Mothod NVAPCHAR(25S
bt]
6 0Nguon +: M@ Database Diagrams Tables 3) Systom Tables
st Synonyms '8 Programability Service Broker Storage
Hình 24: Dữ liệu sau khi chạy qua trinh ETL (1)
“rile | Edit ew Query Project Tools Window Help
©@-© (f3~ o~ Mạ @NeGey DRL AA AAD S|9-c -|B -|w -Ìin~am-,
*#Í mực mrcc - Ìb beos s v ÏSfS|H|TĐEESP ABO see we
KT tan Sale_Method WVARCHA® (255
ct * From Ri ` select * from #egicn select * from Products ¬
100% +
BB Reaite Wl Massages Reuie.JD Irvice One JD Predict © Fagen © Phce.perant Unt acid Total Sale Operating proit Sale Matnod a
Hình 25: Dữ liệu sau khi chạy qua trinh ETL (2)
4 Xây dựng mô hình OLAP
Đề thực hiện công việc truy vấn và phân tích dữ liệu một cách nhanh chóng thực hiện xây dựng mô hình OLAP Đầu tiên sử dụng Analysis Services để tạo 1 project mới sau
đó kết nối đến với SQL Server để xây dựng mô hình
Trang 21Connect t0 a database
@ Select cr enter s database name:
DWH_BICK Attach a éstabace file
eed mee
XX
Trang 25
Sum of Total Sale by RetailerName ‘Sum of Total_Sale by ProductName
7 Add data lds here D
Ad drit-through fields here Product JD
£B Region RetalerName
Biểu đồ cho thấy rằng các sản phẩm của Adidas vào năm 2021 được bản trực tiếp tại cửa hàng West Gear ở khu vực MidWest có tông doanh thu là 20 triệu so với 57,72 triệu của tất cả các khu vực khác cộng lại với tỉ lệ chiếm khoảng hơn 30% doanh số Ngoài ra, ta cũng có thế biết được Top 3 sản phẩm có tông doanh thu cao nhất là Men street Footwear , WomeAppreal, MenAppreal với hơn 60% doanh số
XXIV