Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 24 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
24
Dung lượng
704,68 KB
Nội dung
1
H
Ọ
C
VI
Ệ
N
CÔNG
NGH
Ệ
BƯU
CHÍNH
VIỄ
N
THÔNG
NGUY
Ễ
N
ANH
NGUYÊN
ĐỀ TÀI:
NGHIÊN
C
Ứ
U
QUY
TRÌNH
ETL
TRONG
KHO
D
Ữ
LI
Ệ
U
Ứ
NG
D
Ụ
NG
VÀO
H
Ệ
TH
Ố
NG
D
Ữ
LI
Ệ
U
KINH
DOANH
TRONG
DOANH
NGHI
Ệ
P
VI
Ễ
N
THÔNG
Chuyên
ngành:
Khoa
h
ọ
c
máy
tính
Mã
s
ố
:
60.48.01
TÓM
T
Ắ
T
LU
ẬN
VĂN
THẠC
SĨ
HÀ NỘI -2012
2
Lu
ận văn đượ
c
hoàn
thành
t
ạ
i:
HỌC
VIỆN
CÔNG
NGHỆ
BƯU
CHÍNH
VIỄN
THÔNG
Người hướng dẫn khoa học:
TS PHẠM THẾ QUẾ
Phản biện
1:………………………………………………………………………….
………………………………………………………………………….
………………………………………………………………………….
Phản biện 2:…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Côngnghệ
Bưu chính Viễn thông
Vào
lúc:
giờ ngày tháng năm
Có thể tìm hiểu luận văn tại:
-
Thư việ
n
c
ủ
a
H
ọ
c
vi
ệ
n
Công
ngh
ệ Bưu chính Viễ
n
thông
3
M
Ở
ĐẦ
U
1.
Lý
do
ch
ọn
đề
tài
Ngành
công
nghi
ệ
p
vi
ễ
n
thông
sau
nh
ững năm phát triển đang lưu trữ
m
ộ
t
kh
ối lượ
ng
d
ữ
li
ệ
u
kh
ổ
ng
l
ồ
,
bao
g
ồ
m
các
d
ữ
li
ệu như thông tin về
khách
hàng,
chi
ti
ế
t
cu
ộ
c
g
ọ
i,
các
d
ị
ch
v
ụ
thuê
bao,
thông
tin
c
ả
nh
b
ả
o
tình
tr
ạ
ng
h
ệ
th
ố
ng
m
ạ
ng
vi
ễ
n
thông,
d
ữ
li
ệ
u
v
ề
h
ệ
th
ố
ng
cáp
vi
ễn thông v.v Lượ
ng
d
ữ
li
ệ
u
kh
ổ
ng
l
ồ
này
n
ếu đượ
c
khai thác đúng cách sẽ
là
m
ộ
t
l
ợ
i
th
ế
cho
các
doanh
nghi
ệ
p
vi
ễ
n
thông
trong
vi
ệ
c
tung
ra
các
d
ị
ch
v
ụ chăm sóc khách hàng
hay
các
ứ
ng
d
ụ
ng
mang
tính
th
ự
c
ti
ễn cao,
đồng nghĩa vớ
i
vi
ệc tăng cơ hộ
i
c
ạnh tranh đố
i
v
ớ
i
các
doanh
nghi
ệ
p
khác.
T
ừ đó yêu cầu đặ
t
ra
vi
ệ
c
xây
d
ự
ng
kho
d
ữ
li
ệ
u
t
ừ
nh
ữ
ng
ngu
ồ
n
d
ữ
li
ệ
u
trên
ph
ụ
c
v
ụ
cho
vi
ệ
c
phân
tích
kinh
doanh
t
ại các đơn vị
vi
ễ
n
thông.
Tuy
nhiên
vi
ệ
c
xây
d
ự
ng
m
ộ
t
h
ệ
th
ố
ng
nh
ư
th
ế
v
ấ
p
ph
ả
i
m
ộ
t
s
ố
h
ạ
n
ch
ế
v
ề
m
ặ
t
k
ỹ
thu
ậ
t,
đặ
c
bi
ệ
t
là
khi
kích
th
ướ
c
cũn
g
nh
ư
độ
ph
ứ
c
t
ạ
p
c
ủ
a
môi
tr
ườ
ng
thông
tin
tă
ng
lên.
L
ư
u
tr
ữ
phân
tán
ở
nhi
ề
u
d
ạ
ng
không
t
ươ
ng
thích
v
ớ
i
nhau,
th
ậ
m
chí
còn
ở
nh
ữ
ng
d
ạ
ng
phi
c
ấ
u
trúc.
Nhi
ề
u
h
ệ
CSDL
đ
ã
đượ
c
xây
d
ự
ng
không
t
ươ
ng
thích
v
ớ
i
nhau
và
không
t
ươ
ng
thích
v
ớ
i
nh
ữ
ng
h
ệ
thông
tin
m
ớ
i
đượ
c
xây
d
ự
ng.
Nhi
ề
u
khách
hàng
không
tho
ả
mãn
v
ớ
i
nh
ữ
ng
h
ệ
th
ố
ng
thông
tin
hi
ệ
n
th
ờ
i.
Kho
d
ữ
li
ệu thườ
ng
bao
g
ồ
m
các
thành
ph
ầ
n
khác
nhau,
m
ỗ
i
thành
ph
ầ
n
có
thi
ế
t
k
ế
,
kĩ thuậ
t
và
công
c
ụ riêng [6]. Trong đó hệ
th
ố
ng
ETL
là
m
ộ
t
thành
ph
ầ
n
chính
ch
ị
u
trách
nhi
ệ
m
cho
quá
trình
ETL
(
Extract,
Transform,
Load)
trong
kho
kho
d
ữ
li
ệ
u;
cho
phép
trích
rút
các
d
ữ
li
ệ
u
t
ừ
nhi
ề
u
ngu
ồ
n
khác
nhau,
làm
s
ạ
ch,
tùy
ch
ỉ
nh
và
chuy
ển đổ
i,
và
cu
ố
i
cùng
t
ả
i
vào
kho
d
ữ
li
ệ
u[1].
Vi
ệ
c
xây
d
ự
ng
ETL
chi
ếm đế
n
80%
phát
tri
ể
n
d
ự
án
và
55%
th
ờ
i
gian
c
ủ
a
kho
d
ữ
li
ệ
u
[4].
Vì
v
ậ
y
vi
ệc đánh giá đúng vai trò củ
a
quá
trình
ETL
t
ừ đó có thể
th
ể
mô
hình
hóa,
thi
ế
t
k
ế
và
t
ối ưu ETLtrong việ
c
xây
d
ự
ng
kho
d
ữ
li
ệ
u
s
ẽ
quy
ết đị
nh
s
ự
thành
b
ạ
i
c
ủ
a
kho
d
ữ
li
ệ
u
[6].
Với mục đích nghiêncứu về
các
quá
trình
ETL
trong việc xây dựngkhodữ liệu, tôi chọn đề
tài
“Nghiên
cứu
qu
y
trình
ETL
trong
kho
dữ
liệu
ứng
dụng
vào
hệ
thống
dữ
liệu
kinh
doanh
trong
doanh
nghiệp
viễn
thông
”
.
1.
Mụ
c
đ
ích
c
ủ
a
đề
tài:
Ti
ế
p
c
ậ
n
các
ph
ươ
ng
pháp
tìm hiểu các bước trong một quytrinh
xây
dựng một hệthống ETL, các phương án xử lý trong từng trường hợp cụ thể để có thể áp
dụng trong các bài toán thực tế.
2.
Đố
i
t
ượ
ng
và
ph
ạ
m
vi
nghiên
c
ứ
u:
Vi
ệ
c
nghiên
c
ứ
u
s
ẽ
t
ậ
p
trung
vào
lý
thuy
ế
t
xây
d
ự
ng
h
ệ
th
ố
ng
ETL,
áp
d
ụ
ng
vào
xây
d
ự
ng
ch
ức năng trích xuấ
t
v
ớ
i
ngu
ồ
n
d
ữ
li
ệ
u
t
ừ
h
ệ
4
th
ố
ng
d
ữ
li
ệ
u
Vinaphone.
3.
Ph
ươ
ng
pháp
nghiên
c
ứ
u:
Tìm
hi
ể
u
các
tài
li
ệ
u
liên
quan
đế
n
các
k
ỹ
thu
ậ
t
ELT
trong
kho
d
ữ
li
ệu, các phương pháp xây dự
ng
h
ệ
th
ố
ng
ETL.
4.
K
ế
t
c
ấ
u
c
ủ
a
lu
ậ
n
v
ă
n
Lu
ận văn gồm 3 chương
Chương
1:
T
ổ
ng
quan
v
ề
ETL
trong
kho
d
ữ
li
ệ
u
Chương này trình bày các khái niệ
m,
các
thành
ph
ầ
n,
ch
ức năng trongkhodữ
li
ệ
u,
các
ứ
ng
d
ụng cũng như nhữ
ng
mô
hình
kho
d
ữ
li
ệ
u.
T
ổ
ng
quan
v
ề
ETL,
các
thành
ph
ầ
n
và
vai
trò
ETL
trong
kho
d
ữ
li
ệ
u
Chương
2:
Ki
ế
n
trúc
và
các
thành
ph
ầ
n
ETL
Chương này tậ
p
trung
vào
chi
ti
ế
t
các
thành
ph
ầ
n
c
ủa ETL, các bướ
c
th
ự
c
hi
ệ
n
c
ủ
a
m
ộ
t
h
ệ
th
ố
ng
ETL,
nh
ữ
ng
v
ấn đề
g
ặ
p
ph
ả
i
v
ớ
i
m
ỗ
i
thành
ph
ầ
n
c
ụ
th
ể
trong
m
ộ
t
h
ệ
th
ố
ng
ETL.
Các
bi
ệ
n
pháp
gi
ả
i
quy
ế
t
v
ớ
i
m
ỗ
i
tình
hu
ố
ng
trong
nh
ữ
ng
bài
toán
c
ụ
th
ể
.
Chương
3:
Xây
d
ự
ng
modul
trích
xu
ấ
t
d
ữ
li
ệ
u
trong
ETL.
Chương cuố
i
cùng
c
ủ
a
lu
ận văn trình bày mộ
t
th
ử
nghi
ệ
m
nh
ỏ
áp
d
ụ
ng
ph
ầ
n
lý
thuy
ết đã nêu ở
2
chương trước. Đó là áp dụ
ng
th
ử
nghi
ệm phương pháp trích xuất đã
nghiên
c
ứ
u
trong
ph
ầ
n
lý
thuy
ế
t
vào
bài
toán
trích
xu
ấ
t
d
ữ
li
ệ
u
t
ừ
h
ệ
th
ố
ng
d
ữ
li
ệ
u
chi
ti
ế
t
cướ
c
và
d
ữ
li
ệ
u
c
ủ
a
h
ệ
th
ố
ng
tr
ả trướ
c.
5
CHƯƠNG
1.
TỔNG
QUAN
VỀ
ETL
TRONG
KHO
DỮ
LIỆU
1.
Kho
d
ữ
li
ệ
u
1.1.
Khái
ni
ệ
m
kho
d
ữ
li
ệ
u
Định nghĩa
do W.H.Inmon đưa ra :
Kho
d
ữ
li
ệ
u
(Data
Warehouse)
là
t
ậ
p
h
ợ
p
d
ữ
li
ệ
u
tích
h
ợp theo hướ
ng
ch
ủ đề
,
tương đố
i
ổn đị
nh,c
ậ
p
nh
ậ
t
đị
nh
k
ỳ
nh
ằ
m
h
ỗ
tr
ợ
quá
trình
t
ạ
o
quy
ế
t
đị
nh.[2]
Như vậ
y,
có
th
ể
th
ấ
y
r
ằng thông thườ
ng
m
ộ
t
kho
d
ữ
li
ệu được xem như một cơ sở
d
ữ
li
ệ
u
đượ
c
duy
trì
riêng
bi
ệ
t
trên cơ sở
d
ữ
li
ệ
u
t
ừ
nhi
ề
u
ngu
ồ
n
cơ sở
d
ữ
li
ệ
u
tác
nghi
ệ
p.
1.1.2.
Các
đặc
trưng
của
kho
dữ
liệu
M
ộ
t
kho
d
ữ
li
ệ
u
đượ
c
xác
đị
nh
là
m
ộ
t
c
ơ
s
ở
d
ữ
li
ệ
u
trong
đ
ó
có
ch
ứ
a
b
ố
n
đặ
c
tính
sau:
h
ướ
ng
ch
ủ đề
,
tính
ổ
n
đị
nh,
đượ
c
tích
h
ợ
p,
g
ắ
n
v
ớ
i
th
ờ
i
gian.
1.1.3.
Kiến
trúc
kho
dữ
liệu
Mô
hình
ki
ế
n
trúc
c
ủ
a
h
ệ
th
ố
ng
kho
d
ữ
li
ệu cơ bả
n
g
ồ
m
có
ba
thành
ph
ầ
n:
D
ữ
li
ệ
u
ngu
ồ
n,
vùng
d
ữ
li
ệ
u
trung
gian
và
kho
d
ữ
li
ệ
u
.
Hình
1.1.
Ki
ế
n
trúc
kho
d
ữ
li
ệ
u
1.1.3.1.
Kho
d
ữ
li
ệ
u
ch
ủ
đề
(Datamart)
Kho
d
ữ
li
ệ
u
ch
ủ đề
(Data
Mart)
c
ũ
ng
là
m
ộ
t
cơ
s
ở
d
ữ
li
ệ
u
có
nh
ữ
ng
đặ
c
đ
i
ể
m
gi
ố
ng
v
ớ
i
kho
d
ữ
li
ệ
u
nh
ư
ng
quy
mô
c
ủ
a
nó
nh
ỏ
h
ơ
n
và
l
ư
u
tr
ữ
d
ữ
li
ệ
u
v
ề
m
ộ
t
lĩn
h
v
ự
c,
m
ộ
t
chuyên
ngành
c
ụ
th
ể
.
Có
2
lo
ạ
i
-
Datamart
ph
ụ
thu
ộ
c.
6
-
Datamart độ
c
l
ậ
p.
1.1.3.2.
Siêu
d
ữ
li
ệ
u
(MetaData)
Metadata
là
m
ộ
t
lo
ạ
i
“d
ữ
li
ệ
u
v
ề
d
ữ
li
ệ
u”,
nó
đượ
c
xây
d
ự
ng
nh
ằ
m
m
ụ
c
đ
ích
mô
t
ả
c
ấ
u
trúc
n
ộ
i
dung
v
ề
d
ữ
li
ệ
u
bên
trong
c
ơ
s
ở
d
ữ
li
ệ
u.
Metadata
có
ý
ngh
ĩ
a
đặ
c
bi
ệ
t
quan
tr
ọ
ng
trong
vi
ệ
c
xây
d
ự
ng
và
t
ổ
ch
ứ
c
l
ư
u
tr
ữ
d
ữ
li
ệ
u
c
ủ
a
Data
Warehouse.
1.1.3.3.
Cơ
sở
d
ữ
li
ệ
u
kho
d
ữ
li
ệ
u
Cơ sở
d
ữ
li
ệ
u
t
ậ
p
trung
là
m
ộ
t
n
ề
n
t
ảng cơ bả
n
c
ủa môi trườ
ng
kho
d
ữ
li
ệu. Cơ sở
d
ữ
li
ệ
u
này
h
ầ
u
h
ết được cài đặ
t
d
ự
a
trên
công
ngh
ệ
c
ủ
a
H
ệ
th
ố
ng
qu
ả
n
tr
ị cơ sở
d
ữ
li
ệ
u
quan
h
ệ
(RDBMS).
1.1.4.
Các
ứng
dụng
của
kho
dữ
liệu
Kho
d
ữ
li
ệu đượ
c
s
ử
d
ụ
ng
theo
ba
cách
chính:
Cách
s
ử
d
ụ
ng
truy
ề
n
th
ố
ng
Trong
cách
s
ử
d
ụ
ng
này
vi
ệ
c
khai
thác
thông
tin
d
ự
a
trên
các
công
c
ụ
truy
v
ấ
n
và
báo
cáo.
Nh
ờ
có
vi
ệ
c
trích
l
ọ
c,
tích
h
ợ
p
và
chuy
ể
n
đổ
i
các
d
ữ
li
ệ
u
thô
sang
d
ạ
ng
d
ữ
li
ệ
u
có
ch
ấ
t
l
ượ
ng
cao
và
có
tính
ổ
n
đị
nh.
H
ỗ
tr
ợ
tr
ự
c
tuy
ế
n
(OLAP)
N
ế
u
ngôn
ng
ữ
truy
v
ấ
n
chu
ẩ
n
SQL
và
các
công
c
ụ
làm
báo
cáo
truy
ề
n
th
ố
ng
ch
ỉ
có
th
ể
miêu
t
ả
nh
ữ
ng
gì
có
trong
c
ơ
s
ở
d
ữ
li
ệ
u
thì
phân
tích
tr
ự
c
tuy
ế
n
có
kh
ả
nă
ng
phân
tích
d
ữ
li
ệ
u,
xem
xét
xem
gi
ả
thuy
ế
t
là
đún
g
hay
sai.
Tuy
nhiên
phân
tích
tr
ự
c
tuy
ế
n
l
ạ
i
không
có
kh
ả
nă
ng
đư
a
ra
gi
ả
thuy
ế
t.
Do
kích
th
ướ
c
quá
l
ớ
n
và
có
tính
ch
ấ
t
ph
ứ
c
t
ạ
p
nên
khó
có
th
ể
s
ử
d
ụ
ng
Data
Warehouse
cho
m
ụ
c
đ
ích
này.
Công
ngh
ệ
khai
phá
d
ữ
li
ệ
u
(Data
mining)
Trong
hoàn
c
ả
nh
hi
ệ
n
nay
s
ự
phát
tri
ể
n
c
ủ
a
d
ữ
li
ệ
u
đặ
t
ra
yêu
c
ầ
u
ph
ả
i
l
ư
u
tr
ữ
d
ữ
li
ệ
u
ph
ứ
c
t
ạ
p
và
có
kích
th
ướ
c
l
ớ
n.
Vi
ệ
c
khai
phá
d
ữ
li
ệ
u
tr
ở
thành
m
ộ
t
nhu
c
ầ
u
khoa
h
ọ
c
và
trong
ho
ạ
t
độ
ng
th
ự
c
ti
ễ
n.
1.1.5.
Thiết
k
ế
CSDL
cho
kho
dữ
li
ệ
u
1.1.5.1.
Gi
ả
n
đồ
hình
sao
7
Gi
ả
n
đồ
hình
sao
đượ
c
đưa
ra
l
ần đầ
u
tiên
b
ở
i
Raph
Kimball
như
là
m
ộ
t
l
ự
a
ch
ọ
n
thi
ế
t
k
ế
CSDL
cho
kho
d
ữ
li
ệ
u.
Trong
gi
ả
n
đồ
hình
sao,
d
ữ
li
ệ
u
đượ
c
xác
đị
nh
và
phân
lo
ạ
i
theo
2
ki
ể
u:
s
ự
ki
ệ
n
(b
ả
ng
Fact)
và
chi
ề
u
(các
b
ả
ng
Dimension:
các
b
ả
ng
liên
k
ế
t).
1.1.5.2.
Gi
ả
n
đồ
hình
tuy
ế
t
r
ơ
i
Gi
ả
n
đồ
hình
tuy
ế
t
r
ơ
i
là
m
ộ
t
s
ự
m
ở
r
ộ
ng
c
ủ
a
gi
ả
n
đồ
hình
sao,
t
ạ
i
đó
m
ỗ
i
cánh
sao
không
ph
ả
i
là
m
ộ
t
b
ả
ng
Chi
ề
u
mà
là
nhi
ề
u
b
ả
ng.
Trong
d
ạ
ng
gi
ả
n
đồ
này,
m
ỗ
i
b
ả
ng
theo
chi
ề
u
c
ủ
a
gi
ả
n
đồ
hình
sao
đượ
c
chu
ẩ
n
hóa
hơn.
Gi
ả
n
đồ
hình
tuy
ế
t
r
ơ
i
c
ả
i
thi
ệ
n
năng
su
ấ
t
truy
v
ấ
n,
t
ố
i
thi
ể
u
không
gian
đĩa
c
ầ
n
thi
ế
t
để
lưu
tr
ữ
d
ữ
li
ệ
u
và
c
ả
i
thi
ệ
n
năng
su
ấ
t
nh
ờ
vi
ệ
c
ch
ỉ
ph
ả
i
k
ế
t
h
ợ
p
nh
ữ
ng
b
ả
ng
có
kích
th
ướ
c
nh
ỏ
hơn
thay
vì
ph
ả
i
k
ế
t
h
ợ
p
nh
ữ
ng
b
ả
ng
có
kích
thướ
c
l
ớ
n
l
ạ
i
không
chu
ẩ
n
hóa.
1.1.5.3.
Gi
ả
n
đồ
k
ế
t
h
ợ
p
Là
k
ế
t
h
ợ
p
gi
ữ
a
gi
ả
n
đồ
hình
sao
d
ự
a
trên
b
ả
ng
S
ự
ki
ệ
n
và
nh
ữ
ng
b
ả
ng
Chi
ề
u
không
chu
ẩ
n
hóa
theo
các
chu
ẩ
n
1,
2,
3
và
gi
ả
n
đồ
hình
tuy
ế
t
r
ơ
i
trong
đ
ó
t
ấ
t
c
ả
các
b
ả
ng
Chi
ề
u
đề
u
đã
đượ
c
chu
ẩ
n
hóa.
1.2.
ETL
và
vai
trò
ETL
trong
kho
dữ
liệu
1.2.1.
Khái
niệm
ETL
H
ệ
th
ố
ng
ETL
(Extract-Transform-Load)
là
n
ề
n
t
ả
ng
c
ủ
a
kho
d
ữ
li
ệ
u.
M
ộ
t
h
ệ
th
ố
ng
ETL đượ
c
thi
ế
t
k
ế
cho
vi
ệ
c
trích
xu
ấ
t
d
ữ
li
ệ
u
t
ừ
các
h
ệ
th
ố
ng
ngu
ồ
n,
chuy
ển
đổ
i
d
ữ
li
ệ
u
đả
m
b
ả
o
các
ngu
ồn độ
c
l
ậ
p
có
th
ể
tích
h
ợ
p,
và
cu
ố
i
cùng
d
ữ
li
ệ
u
sau
chuy
ển đổi được đưa
vào
kho
d
ữ
li
ệ
u
ph
ụ
c
v
ụ
m
ục đích phát triể
n
ứ
ng
d
ụ
ng
hay
ph
ụ
c
v
ụ
các
m
ục đích khodữ
li
ệ
u.
[7,
tr.xii]
1.2.1
Vai
trò
của
ETL
trong
kho
dữ
liệu
H
ệ
th
ố
ng
ETL
ph
ải
đ
óng
m
ộ
t
vai
trò
quan
tr
ọ
ng
trong
vi
ệ
c
cung
c
ấ
p
cho
các
ứ
ng
d
ụ
ng
ngườ
i
s
ử
d
ụ
ng
m
ộ
t
khuôn
d
ạ
ng
d
ữ
li
ệ
u
phù
h
ợ
p.
B
ả
n
ch
ấ
t
Kho
d
ữ
li
ệ
u
là
quá
trình
l
ấ
y
d
ữ
li
ệ
u
t
ừ
các
h
ệ
th
ố
ng
LS
và
h
ệ
th
ống cơ sở
d
ữ
li
ệ
u
tác
nghi
ệ
p
và
chuy
ển đổ
i
thành
thông
tin
có
t
ổ
ch
ứ
c
trong
m
ột đị
nh
d
ạ
ng
thân
thi
ệ
n
v
ới ngườ
i
s
ử
d
ụng; trên cơ sở đó có thể
phân
tích
d
ữ
li
ệ
u
và
h
ỗ
tr
ợ
quy
ết đị
nh
kinh
doanh.
Quá
b
ắt đầ
u
t
ừ
các
h
ệ
th
ố
ng
ngu
ồn đế
n
khi
d
ữ
li
ệ
u
được đưa vào các bả
ng
chi
ề
u
hay
b
ả
ng
s
ự
ki
ệ
n
s
ẽ
chi
phí
ít
nh
ấ
t
70%
th
ờ
i
gian,
n
ỗ
l
ự
c
c
ủ
a
h
ầ
u
h
ế
t
các
d
ự
án
kho
d
ữ
li
ệ
u.
Trong
tài
li
ệu [7, tr.23] có đưa ra một định nghĩa về
kho
d
ữ
li
ệ
u
nói
lên
vai
trò
c
ủ
a
ETL
trong
kho
d
ữ
li
ệ
u
8
1.2.2
Các
thành
phần
của
ETL
.
Trích
xu
ấ
t:
D
ữ
li
ệ
u
ngu
ồ
n
t
ừ
r
ấ
t
nhi
ề
u
ngu
ồ
n
khác
nhau
và
có
th
ể
có
r
ấ
t
nhi
ề
u
c
ấ
u
trúc
d
ữ
li
ệu khác nhau như nhiề
u
lo
ại cơ sở
d
ữ
li
ệ
u,
t
ừ
t
ệ
p
d
ữ
li
ệ
u
excel
hay
t
ừ
t
ệ
p
d
ữ
li
ệ
u
thô.
Vì
th
ế
nhi
ệ
m
v
ụ
chính
c
ủa bướ
c
này
là
trích
xu
ấ
t
d
ữ
li
ệ
u
t
ừ
h
ệ
th
ố
ng
ngu
ồn để
x
ử
lý.
Chuy
ển đổ
i
:
Đây là quá trình rấ
t
ph
ứ
c
t
ạp
dùng để
chuy
ển đổ
i
d
ữ
li
ệ
u
ngu
ồ
n
m
ộ
t
mô
hình
khác
phù
h
ợ
p
và
chuy
ển vào cơ sở
d
ữ
li
ệu đích.
T
ả
i
d
ữ
li
ệ
u
:
Đây là quá trình
đẩ
y
d
ữ
li
ệu sau khi đã đượ
c
chuy
ển đổ
i
vào
kho
d
ữ
li
ệ
u.
D
ữ
li
ệu sau khi đã đượ
c
chuy
ển đổ
i
s
ẽ đượ
c
t
ả
i
vào
kho
d
ữ
li
ệ
u.
9
CHƯƠNG
2.
KIẾN
TRÚC
VÀ
CÁC
THÀNH
PHẦN
CỦA
ETL.
2.1.
Tổng
quan
ETL
2.1.1.
Những
đặc
điểm
chính
của
ETL
M
ỗ
i
ch
ức năng ETL thự
c
hi
ệ
n
m
ộ
t
m
ục đích quan trọ
ng.
Khi
mu
ố
n
chuy
ể
n
d
ữ
li
ệ
u
t
ừ
h
ệ
th
ố
ng
ngu
ồ
n
vào
h
ệ
th
ống thông tin được lưu trữ
trong
kho
d
ữ
li
ệ
u,
vi
ệ
c
th
ự
c
hi
ệ
n
các
ch
ức năng này đề
u
c
ầ
n
thi
ết. Để thay đổ
i
d
ữ
li
ệu thành thông tin, trướ
c
tiên
ph
ả
i
xác đị
nh
các
d
ữ
li
ệ
u.
Sau
khi
xác đị
nh
d
ữ
li
ệ
u,
không
th
ể đơn giản là đổ
d
ữ
li
ệ
u
vào
kho.
D
ữ
li
ệ
u
ph
ải đượ
c
trích
xu
ấ
t
và
qua
các
bi
ến đổ
i
phù
h
ợp để đượ
c
chuy
ển đổ
i
thành
thông
tin.
Sau
khi đã c
huy
ển đổ
i
d
ữ
li
ệ
u,
nó
v
ẫ
n
không
h
ữ
u
ích
v
ới ngườ
i
s
ử
d
ụ
ng
cu
ối cùng cho đế
n
khi
nó đượ
c
chuy
ể
n
vào
kho
d
ữ
li
ệ
u.
T
ả
i
d
ữ
li
ệ
u
là
m
ộ
t
ch
ức năng
cu
ố
i
cùng
. Như vậ
y
ta
ph
ả
i
th
ự
c
hi
ệ
n
c
ả
3
ch
ức năng của ETL để
chuy
ển đổ
i
d
ữ
li
ệ
u
thành
thông
tin.
2.1.2.
Các
chi
phí
cho
h
ệ
th
ố
ng
ETL
Nói
chung
ta
s
ẽ
tiêu
t
ố
n
kho
ả
ng
50-70%
công
s
ứ
c
c
ủ
a
d
ự
án
vào
các
ch
ức năng ETL.
2.1.3.
Yêu
cầu
với
ETL
và
các
bước
ETL
Cho
bảng
sự
kiện
ETL
cho
bảng
chiều
Viết
các
thủ
tục
cho
tải
tất
cả
dữ
liệu
Tổ
chức
vùng
xử
lý
dữ
liệu
và
công
cụ
kiểm
thử
Kế
hoạch
cho
các
bảng
tổng
hợp
Xác
định
các
dữ
liệu
chuyển
đổi
và
các
luật
làm
sạch
Thiết
lập
các
luật
trích
xuất
dữ
liệu
Chuẩn
bị
cho
việc
ánh
xạ
giữa
các
thành
phần
dữ
liệu
đích
với
dữ
liệu
nguồn
Xác
định
nguồn
dữ
liệu,
cả
dữ
liệu
trong
và
ngoài
Xác
định
các
dữ
liệu
đích
cần
thiết
trong
kho
dữ
liệu
Hình
2.1.
Các
bướ
c
chính
c
ủ
a
m
ộ
t
quy
trình
ETL.
2.1.4.
Các
yếu
tố
quan
trọng
đối
với
ETL
-
Xác định được độ
ph
ứ
c
t
ạp và đa dạ
ng
c
ủ
a
các
h
ệ
th
ố
ng
ngu
ồ
n
d
ữ
li
ệu để
có
th
ể
xây
d
ự
ng
đượ
c
các
ch
ức năng trích xuấ
t
và
chuy
ển đổ
i
phù
h
ợ
p.
-
Xác định đượ
c
các
ki
ể
u
t
ả
i
và
th
ờ
i
gian
t
ả
i
cho
các
lo
ạ
i
d
ữ
li
ệu để có phương án phù hợ
p.
10
2.2.
Vùng
dữ
liệu
trung
gian
Trong
t
ấ
t
c
ả
các
ki
ế
n
trúc
kho
d
ữ
li
ệ
u,
luôn
có
m
ộ
t
vùng
ch
ứ
a
d
ữ
li
ệ
u
g
ọ
i
là
vùng
trung
gian
hay
còn
g
ọ
i
là
vùng
x
ử
lý.
D
ữ
li
ệ
u
đượ
c
chuy
ể
n
t
ừ
nhi
ề
u
ngu
ồ
n
vào
vùng
x
ử
lí
mà
không
thông
qua
(ho
ặ
c
r
ấ
t
ít)
công
đ
o
ạ
n
x
ử
lí
nào.
2.3.
Trích
xuất
dữ
liệu
2.3.1.
Xác
định
nguồn
dữ
liệu
Xác đị
nh
ngu
ồ
n
d
ữ
li
ệ
u
bao
g
ồ
m
vi
ệc xác đị
nh
t
ấ
t
c
ả
các
ngu
ồ
n
d
ữ
li
ệ
u
thích
h
ợ
p,
các
d
ữ
li
ệ
u
c
ầ
n
thi
ết để đưa vàokhodữ
li
ệ
u.
Hình
2.2.
Các
bước
xác
đị
nh
ngu
ồ
n
d
ữ
li
ệ
u
2.3.2.
Các
k
ỹ
thuật
trích
xuất
dữ
liệu
2.3.2.1
Các
lo
ạ
i
k
ỹ
thu
ậ
t
trích
xu
ấ
t
D
ữ
li
ệ
u
trong
h
ệ
th
ố
ng
ngu
ồ
n
có
th
ể rơi vào hai loạ
i.
Giá
tr
ị
hi
ệ
n
t
ạ
i.
H
ầ
u
h
ế
t
các
thu
ộ
c
tính
trong
các
h
ệ
th
ố
ng
ngu
ồn rơi vào loạ
i
này.
Ở
đây giá trị được lưu trữ
c
ủ
a
m
ộ
t
thu
ộ
c
tính
mô
t
ả
giá
tr
ị
c
ủ
a
thu
ộ
c
tính
ngay
th
ời điể
m
này
c
ủ
a
th
ờ
i
gian.
Các
giá
tr
ị
t
ạ
m
th
ờ
i
ho
ặ
c
nh
ấ
t
th
ờ
i.
Khi
các
giao
d
ị
ch
x
ả
y
ra,
các
giá
tr
ị
thay
đổi. Không có cách nào để
bi
ế
t
bao
lâu
giá
tr
ị
hi
ệ
n
t
ạ
i
s
ẽ
gi
ữ
nguyên
hay
s
ẽ thay đổ
i.
[...]... Mô hình khodữliệu chuyên đề DATA_CALL Hình 3.3 Khodữliệu chuyên đề DATA_CALL Chiều dữliệu LAC_CELL_DIM: Chiều dữliệuthông tin về vị trí của các cell BTS Chiều dữliệu CALL_TYPE_DIM: Chiều dữliệuthông tin về kiểu Chiều dữliệu OWNER_DIM: Chiều dữliệuthông tin về nhà mạng Chiều dữliệu PROVINCE_DIM: Chiều dữliệuthông tin về tỉnh thành Chiều dữliệu ACTIVITY_TYPE_DIM: Chiều dữliệuthông tin... thông tin kiểu giao dịch Chiều dữliệu TIME_CALENDAR_DIM: Chiều dữliệu thời gian Mô hình khodữliệu chuyên đề DATA_MTA Mô hình khodữliệu chuyên đề CDR 18 3.2.3.Nguồn dữliệu 3.2.2.1 Dữliệu từ hệthống trả trước Nguồn dữ liệu: Dữliệu được lưu trữ trong bảng dữliệu DATA_CALL_HISTORY, DATA_MTA của hệthống cơ sở dữliệu của Vinaphone sử dụnghệ quản trị cơ sở dữliệu ORACLE Tần xuất trích xuất:... Qua đó, có thể khẳng định xây dựnghệthốngETL cho việc xây dựnghệthốngdữliệukinhdoanh của doanhnghiệp là hết sức cần thiết đối với các doanhnghiệp Việc hiểu được tầm quan trọng và phương pháp xây dựnghệthốngETL đóng vai trò quy t định trong việc xây dựng cho hệthốngkhodữliệu nói riêng và các hệthống dựa trên nền tảng khodữliệu nói chung 24 TÀI LIỆU THAM KHẢO [1] Arktos : towards... tươi dữliệu và cập nhât dữliệu Sau tải ban đầu, ta có thể duy trì khodữliệu và cập nhật nó với 2 phương thức: Cập nhật - ứngdụng cho dữliệu thay đổi trong hệthống nguồn Làm tươi – tải lại toàn bộ theo chu kỳ 2.5.3 Phương pháp tải với các bảng chiều Trongkhodữ liệu, ta sử dụng khóa sinh bởi hệthống Bản ghi trong hệthống nguồn có khóa của chúng Vì vậy, trước khi dữliệu nguồn có thể đưa vào. .. việc trích rút dữliệu - Ứngdụng phải đảm bảo tính mềm dẻo và linh động đối với các nguồn dữliệu khác nhau - Cho phép theo dõi và cảnh báo về các thay đổi trong hệthống dữ liệu nguồn cũng như vấn đề xảy ra trong quá trình khai thác 3.1.2 Phạm vi nguồn dữliệu Hình 3.1 Mô hình hệ thố ng dữliệu 16 - Dữliệu tiêu thụ cuộc gọi và SMS - Dữliệu tiêu thụ Data ( 3G+GPRS) - Dữliệu CDR - Dữliệu LACCELL... vào một tệp độc lập và sẽ được sử dụng để trích xuất dữliệu cho khodữliệu việc tạo và duy trì trigger trong suốt các quá trình của hệthống nguồn sẽ tăng thêm các chi phí tài nguyên và thời gian của hệthống nguồn Nắm bắt trong các ứngdụng nguồn Kỹ thuật này được xem như nắm bắt dữliệuứngdụng hỗ trợ Nói cách khác, các ứngdụng nguồn được thực hiện để hỗ trợ cho việc nắm bắt dữliệu cho kho dữ. .. các module chuyển đổi và tải dữliệu để có thể tạo ra một bộ công cụ ETL hoàn chỉnh 23 KẾT LUẬN Luận văn nghiên cứu “NGHIÊN C ỨU QUY TRÌNHETL TRONG KHO D Ữ LI Ệ U ỨNG D Ụ NG VÀOHỆ TH Ố NG D Ữ LI Ệ U KINHDOANHTRONGDOANH NGHIỆ P VI Ễ N THÔNG” đã được hoàn thành Phân tích công nghệ, cấu trúc, kiến trúc, và công cụ để xây dựng công cụ ETL phục vụ cho việc xây dựngkhodữliệu Tìm hiểu các phương pháp,... trích xuất dữliệu từ các nguồn dữliệu với khuôn dạng khác nhau như Oracle, FoxPro, Excel Kết quả này cho thấy có thể áp dụnghệthống cho hệthống thực tế đang trong quá trình triển khai Trong tương tai học viên đề xuất phát triển tiếp các module chuyển đổi và module tải dữliệu để tạo ra môt hệthốngETL hoàn chỉnh phục vụ cho việc xây dựngkhodữliệu không chỉ trong lĩnh vực viễnthông mà trong nhiều... trúc ứngdụng Hình 3.2 Kiến trúc ứngdụng Với yêu cầu cho phép mở rộng để đưa dữliệu từ các nguồn khác nhau vàokhodữliệuhệthống trích xuất dữliệu được thiết kế để việc mở rộng l thuận tiện nhất Ở đây các phương thức kết nối bao gồm - Kết nối dữliệu từ hệthống nguồn qua FTP, các tệp có định dạng Excel và FoxPro - Kết nối với dữliệu Oracle qua kết nối cơ sở dữliệu (ODBC, OCI) 17 3.2.2 Dữ liệu. .. trongdữliệu gắn liền với thời gian như vậy đây là kiểu trích xuất định kỳ Nắm bắt thay đổi dữ liệu: Ở đây ta sử dụng phương pháp nắm bắt dữliệu chậm sử dụng ngày tháng và nhãn thời gian Các luật trích xuất dữ liệu: *) Nguồn dữliệu DATA_CALL_HISTORY - Chỉ lấy dữliệu thuộc dạng thoại hay SMS - Các bản ghi dữliệu lấy về phải có thông tin về dữliệu trên các loại tài kho n khác rỗng *) Nguồn dữliệu .
cứu
qu
y
trình
ETL
trong
kho
dữ
liệu
ứng
dụng
vào
hệ
thống
dữ
liệu
kinh
doanh
trong
doanh
nghiệp
viễn
thông
”
.
.
c
ủ
a
kho
d
ữ
li
ệ
u
[6].
Với mục đích nghiên cứu về
các
quá
trình
ETL
trong việc xây dựng kho dữ liệu, tôi chọn đề
tài
Nghiên
cứu