1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng data warehouse và phân tích dữ liệu

25 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 25
Dung lượng 3,77 MB

Nội dung

Trước khi thực hiện xử lý dữ liệu ta thực hiện đưa đữ liệu từ file Excel vào SQL, Server để thuận lợi cho việc ETL đữ liệu.. source view for the Excel source, Then, select After selectin

Trang 1

TRƯỜNG ĐẠI HỌC KINH TẾ

KHOA THONG KE — TIN HOC

BAO CAO CUOI KY

NGANH HE THONG THONG TIN QUAN LY CHUYEN NGANH QUAN TRI HE THONG THONG TIN

XAY DUNG DATA WAREHOUSE VA PHAN TICH DU LIEU

Sinh viên thực hiện

Lớp

Giảng viên

Trang 2

Da Nang, 12/2023

Trang 3

MUC LUC

DANH MỤC HÌNH ẢNH - su cm mm mm nan iii

2 Cấu trúc và ý nghĩa dữ liệu 2 52 S2 1 1121121121121 1111212111211 x2 1

1 Đưa dữ liệu nguồn vào SQL, S€rV€F L2 1 0111101111111 11121 11211 k2 2

2 Xây dựng kho đữ liệu (Data Warehouse) -.- cành se 7

3 _ Đưa đữ liệu vào Data WareHouse 00 n2 nnn ng ky se 7

4 _ Xây dựng mô hình OLAP - 2 2212221121 1211121 15511111 11111211 1 11111 xe2 15

5 Trực quan hóa đữ liệu :- 2 2 122112211211 151 1211121111111 1211821 cay 19

li

Trang 4

DANH MUC HINH ANH

Hình 2: Đưa dữ liệu từ Excel vào SQL, SGTVÊF c LH cHHn TH HH HH 111 1111k ky kg 2 Hình 3: Taoh Database DLNguon BT(K à SH HH TH HH HH ru ray 3 Hinh 4: Két noi dit nã 2 8N ố.ẽ.ẽ 3 Hinh 5: Tao ma dinh danh bang Script COMpoOneNt c cccccccccccccscsscescsscescsssssessessesesesesesees 4

Hình 15: Chon Retailer ID vat Retailer cccccccccceccceceeceteeetteesctnetetaeeneecneeeneeenneenneeens 9 Hinh 16: Két noi dén kho dit liu dG Auoc tao tre (L)eicccccccccccccsccsvescssessesessevsvssesesvsvsseees 9

Hinh 17: Chuyén doi dit liéu cột date tle string qua đAte cac SE xe 10

0, /805809.(02(0 (00 0n nổ ốốốốố.ố.ee H Hình 19: Kết nối đến kho đữ liệu ssccShnHH HH re II

Hình 20: Kết nói đến dữ liệu nguôn trong SÓL, SerV€F c1 12 1/1920 0 ,.0.N)001,.NNN (ẢẢẢẢẢẢẢẮẼÝẼÝẼỶÝỶÃỶÃ 13

Hình 22: Kết nối đến kho dữ liệu sscc SH HH re 13 Hinh 23: Noi kha ngoai dén cdc khoa Chinh ccccccccccccccccccsscsscessesscssesssesvesvssesctseseetessesees 14

Hình 24: Dữ liệu sau khi chạy quai trinh ETL (QD) coccccccccccccccceccsccssetecetecnteeteccneenssensestsenseess 14 Hình 25: Dữ liệu sau khi chạy quá trình E TÌ, (2) c se cà SH TH TH ng H111 111tr cay 15 Hình 26: Xây dựng mô hình OLAP bằng Analysis S€F'ViC&S scs cS c2 c 15 '0./.8/09.()0 0 08 0 n nh ốốốốố.ố.ố.ốố.ốe 16

Trang 5

[102.5912060 NNN - ăĂă 16 Hình 29: Đưa giá trị của Data source view qua AIIHrIĐUHCS ác HH 17 [ )/8100N/, 58.,/.7.09.)23 00m 19

0/8000 09 ) nan nốnốố.ố ố e 19

IV

Trang 6

L

1 Nguồn gốc dữ liệu

Bộ dữ liệu Adidas Sales được sử dụng trong bài báo cáo này được thu thập từ https://www.kagele.com/datasets/heemalichaudhari/adidas-sales-dataset/data BO dtr liệu bao gồm thông tin về doanh số bán các sản phẩm của Adidas, cùng với các chỉ tiết như - số lượng đơn vị đã bán, tong doanh thu ban hang, dia diém ban hang, loại sản

phẩm đã bán

Bộ dữ liệu sưu tâm bao gôm:

dưới dạng xÌxs

me X cut Paste Format Pointer es dgboxd

TRIEN KHAI DỰ ÁN

13 cột và 9648 dòng Đây là hình ảnh đữ liệu được tải về

os 3E EZiMergefi(emer ~ Aigtrnert 5 Number

Conditions! Format as Cet rreert Delete Formst Sert & Find &

Formatting ~ Table Styles ~ oe # Cleer~— giler~ Seec ©

5 Stes celts Edtng

21/01/2020 23/01/2020 25/01/2020 27/01/2020 29/01/2020 31/01/2020 01/02/2020 3/02/2020

05/02/2020 07/02/2020 (9/02/2020 Northeast New York New Yor Women's Athieth $50.00

L perating Profft

Hình l: Bộ dữ liệu Adidas Sales

2 Cấu trúc và ý nghĩa dữ liệu

Bảng dưới đây là các cột dữ liệu trong bộ dữ liệu Adidas chưa qua xử lý:

Trang 7

3 | Invoice Date String Ngày mua hàng

6 | City String Tên thành phố

8 | Price per Unit String Gia trung binh cua | san pham

9 | Units Sold String Doanh số bán hàng theo đơn vị

10 | Total Sales String Téng doanh thu

11 | Operating Profit String Lợi nhuận trước thuế

12 | Operating Margin String Tý suất lợi nhuận

H XỬ LÝ VÀ PHẦN TÍCH DỮ LIỆU

1 Đưa dữ liệu nguồn vào SQL Server

Vi

Trang 8

Trước khi thực hiện xử lý dữ liệu ta thực hiện đưa đữ liệu từ file Excel vào SQL,

Server để thuận lợi cho việc ETL đữ liệu

Packags.đtsx [Design] ©

"N7 Nha lo

slueT/pe Iwt32 Data Flow Tssk Data Flow Tssk

Hinh 2: Dua dit liéu te Excel vao SOL Server

Đầu tiên vào SQL Server tao Database tên là DLNguon_BTCK

Trang 9

source view for the Excel source, Then, select After selecting the data access mode, select from Excel conection manager

Table oF view Name of the Excel sheet

eR

Hình 4: Kết nối dữ liệu nguồn Sau khi kiểm tra dữ liệu nguồn thì thây cột Retailer_ID có mã định danh trùng nhau

nên không chọn cột Retailer_ID ma tao cho nó một mã định danh mới bằng cách sử

dung Script Component

n Toots for Applications (VSTA) to write sexipts using Microsoft Visual Basic 2022 or Microsoft

LocaleiO Engiith (United Kingdom

Component Name

ValdateExterns2Metadats

¥ Custom Properties Read le

Specifies the name ot the comporent

Trang 10

Tiếp theo tạo các mã định đanh cho các cột Product, Invoice_Date và Region dé phục

vụ cho mục đích Merger join các bảng lại với nhau

SeriptComponent 3 Data Fiơu

DT script trseete Access Micros for Applications (VSTA) to write scr

ties Visual C# 2022, and configure component proper Specity column properties of the script component

Ade Output ‘Aad Colume Remove Column sme KG

Hình 7: Nối các bảng lại với nhau (2)

Trang 11

Colum 0 Product JD Data Type Properties

fn Script Component 1 Dsta flow Compooent

A0g Outout

nited K

L 4 Kingdom Script Component 1 Cancel

Hình 8: Nối các bảng lại với nhau (3)

Sử dụng Sort để sắp xếp và Merger Join các bảng lại voi nhau théng qua Merger join

Trang 12

Su dung OLE Destination dé chon noi dwa dé liéu vao la DLNguon BTCK

ih OLE D2 Destination Editor Conigure the properties used to insert data into a relational database using an OLE DB provider Specify an OLE DB connection manager, 3 data source, or a dats source view, and select the dats the query oF by using Query Builder, For fast-load data access set the table update options OLE DB conection manager:

DESKTO?-51K2295\SOLEXPRESS.DLNQUON

Dota acces: mode:

Table or view - fast load Name of the table or the view:

BD [01 Nguen!

] Keep identity A] Table tock Keep ruts Check constraints Rows per batch: Oe H Maximum insert comenit size

Hinh 11: Kiém tra dữ liệu trong SQL Server

2 Xây dựng kho dữ liệu (Data Warehouse)

Trang 13

BICKsal - ax

freate Database DNH_BTCK use DlH_BTCK CREATE TABLE Retailers Retailer_IO INT PRIMARY KEY Retailertame NVARCHAR(255), Sale_Method NVARCHAR(255 CREATE TABLE Invoice_Date Invoice_Date_ID INT PRIMARY KEY Invoice_Date Date

CREATE TABLE Region Region_ID INT PRIMARY KEY

Region NVARCHAR(255 CT_State NVARCHAR(255 City NVARCHAR(255 CREATE TABLE Fact_table ( Retailer_I0 INT Invoice_Date_ID INT Product_ID INT

Region_ID INT

Price_per_unit money

Unit_sold money

Total_Sale money Operating_profit money

Hình 12: Xây dựng kho dữ liệu

3 Đưa dữ liệu vào Data WareHouse

Sử dụng Sequence Container để chứa 4 data flow task tương ứng với 4 dimesion là product, retailer, date va region Sequence sé thye hién néi đến bảng Fact và nối tiếp dén Excute SQL Task để thực hiện công việc tạo khóa ngoại cho bảng Fact

Ù eer

co

Hình I3: Tạo khóa ngoại cho bang Fact

xH

Trang 14

Trong data flow task cua Retailer, str dung OLE DB Souces dé chon dữ liệu nguồn đã được đưa vào SQL thực hiện ở bước trên

Configure the properties used by 3 data flow to obtain data from any OLE DB provider

agi acd @ Preview Query Rests Query resutt (up to the first DESKTO?-S1

Osta access mode:

Table or view Name of the table or the view

Hình 14: Chọn đữ liệu nguồn đã được đưa vào SQL

Ở mục column chọn các column tương ứng với cột Retailer là Retailer_ID và Retailer

Output Retailer ID Retailer

re}

©OLE DB Source

Hinh 15: Chon Retailer ID va Retailer

Su dung OLE Destination kết nối đến kho dữ liệu đã được tạo trước để đưa đữ liệu vào

Trang 15

Hình 16: Kết nối đến kho dữ liệu đã được tạo trước (Ù

Tương tự với các column Product, Date và Region

Trang 16

n

Configure Error Output

Hinh 18: Derived Column

Su dung OLE Destination kết nối đến kho dữ liệu

Trang 17

Keep identity Table lock Keep nulls A] Check constraints Rows per bate

Maximum insert commet size

View Existing

Hình 19: Kết nỗi đến kho dữ liệu

Tiếp theo các cột Product, Region làm tương tự Retailer

Thực hiện đưa dữ liệu vào bảng Fact, chọn OLE DB Sources kết nối đến đữ liệu nguồn trong SQL Server

XVI

Trang 18

of 8 data cource view, and select the dats specify the SQL command either by typing

Name ofthe table or the ve

BB 400} 01 Nquont

c1 od

Hinh 20: Két noi đến dữ liệu nguôn trong SQL Server

Ở column chon cac cac khéa 1a Product_ID, Retailer ID, Date ID, Region ID va cac measure la Operating Profit, Operating Margin, Total Sales, Units Sold, Price per Unit

r2

Retailer ID Region ID Date sD Prodkct ID Product JD

Hình 21: Chọn từ khỏa

Sử dụng OLE Destination kết nối đến kho dữ liệu

Trang 19

SM etree OLS D2 Destination Ecitce

Configure the properties used to insert data into a relational database using an OLE DB provider

OLE DB con DESKTOP-S1 Data access mode:

Table or view - fast load

OLE DB Destinatien Data Fiow Componest Pa}

L

C1 D

Hình 22: Kết nối đến kho dữ liệu

Sử dụng SQL Excute Task đề thực hiện viết khóa ngoại kết nối đến các khóa chính

&

SQL statements

Y General (Enter SOL Query

Xviil

Trang 20

®% sai = Microsoft SQL 3uick Launch (Cte P= @ *

Hi @ System Databases Unit_sold mor

2 Batapian2 | Operating profit money,

5 @ Bstapien2 Test! Sale_Mothod NVAPCHAR(25S

bt]

6 0Nguon +: M@ Database Diagrams Tables 3) Systom Tables

st Synonyms '8 Programability Service Broker Storage

Hình 24: Dữ liệu sau khi chạy qua trinh ETL (1)

“rile | Edit ew Query Project Tools Window Help

©@-© (f3~ o~ Mạ @NeGey DRL AA AAD S|9-c -|B -|w -Ìin~am-,

*#Í mực mrcc - Ìb beos s v ÏSfS|H|TĐEESP ABO see we

KT tan Sale_Method WVARCHA® (255

ct * From Ri ` select * from #egicn select * from Products ¬

100% +

BB Reaite Wl Massages Reuie.JD Irvice One JD Predict © Fagen © Phce.perant Unt acid Total Sale Operating proit Sale Matnod a

Hình 25: Dữ liệu sau khi chạy qua trinh ETL (2)

4 Xây dựng mô hình OLAP

Đề thực hiện công việc truy vấn và phân tích dữ liệu một cách nhanh chóng thực hiện xây dựng mô hình OLAP Đầu tiên sử dụng Analysis Services để tạo 1 project mới sau

đó kết nối đến với SQL Server để xây dựng mô hình

Trang 21

Connect t0 a database

@ Select cr enter s database name:

DWH_BICK Attach a éstabace file

eed mee

XX

Trang 25

Sum of Total Sale by RetailerName ‘Sum of Total_Sale by ProductName

7 Add data lds here D

Ad drit-through fields here Product JD

£B Region RetalerName

Biểu đồ cho thấy rằng các sản phẩm của Adidas vào năm 2021 được bản trực tiếp tại cửa hàng West Gear ở khu vực MidWest có tông doanh thu là 20 triệu so với 57,72 triệu của tất cả các khu vực khác cộng lại với tỉ lệ chiếm khoảng hơn 30% doanh số Ngoài ra, ta cũng có thế biết được Top 3 sản phẩm có tông doanh thu cao nhất là Men street Footwear , WomeAppreal, MenAppreal với hơn 60% doanh số

XXIV

Ngày đăng: 11/12/2024, 09:52

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w