1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo kho dữ liệu xây dựng kho dữ tiếp thị ngân hàng

36 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 36
Dung lượng 3,24 MB

Nội dung

Từ đó nhóm chúng em quyết định xây dựng một kho dữ liệu khách hàng sử dụng ETL để trích xuất dữ liệu từ Excel, sau đó sử dụng Transform của ETL để lọc, sắp xếp và xoá đi những đữ liệu tr

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

VA TRUYEN THONG VIET HAN

VKU

BAO CAO KHO DU LIEU

XÂY DỰNG KHO DỮ TIẾP THỊ NGÂN HÀNG

Sinh viên: NGUYÊN Văn Hoàng Anh 201T742

Lê Diễn Trung Dũng 2011257

Giảng viên hướng dẫn: ThS.Trần Thanh Liêm

Đà Nẵng, ngày 07 tháng 06 năm 2023

Trang 2

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

VA TRUYEN THONG VIET HAN

VKU

BAO CAO KHO DU LIEU

XÂY DỰNG KHO DỮ TIẾP THỊ NGÂN HÀNG

Sinh viên: Nguyễn Văn Hoàng Anh 20IT742

Lê Diễn Trung Dũng 2011257

Giảng viên hướng dẫn: ThS.Trần Thanh Liêm

Đà Nẵng, ngày 07 tháng 06 năm 2023

Trang 3

Cuộc cách mạng khoa học kỹ thuật phát triển như vũ bão ngày nay là cuộc cách

mạng công nghệ Khoa học phát triển với sự gia tăng 25% / năm đã thu hút một bộ phận lớn nhân lực vào lĩnh vực này làm cho đội ngũ những người làm khoa học gia

tăng nhanh chóng Lực lượng những người làm khoa học tăng lên theo cấp số cộng kéo theo tài liệu khoa học và những sản phâm nghiên cứu của họ tăng lên theo cấp số

nhân Tất cả đã tạo nên một khối lượng thông tin không lồ và không ngừng phát triển, dẫn đến bùng nỗ thông tin

Nhà quản lý, các nhà nghiên cứu, các nhà công nghệ, các nhà gido duc, các nhà sản xuất kinh doanh không chỉ là người dùng tin mà còn là những người sản xuất ra thông tin mới Sự gia tăng nhanh chóng khối lượng trí thức khoa học tác động mạnh

mẽ tới các hoạt động của các cơ quan thông tin - thư viện như cơ cấu của kho tải liệu, làm cho số lượng và chúng loại tải liệu tăng lên gấp bội

Thêm vào đó, nhu cầu đòi hỏi rút ngắn đáng kê thời gian hữu ích của tài liệu làm

cho các nhả quản lý phải thường xuyên bổ sung vốn tải liệu và không ngừng phải xử

lý chúng, hoặc bằng thủ công, hoặc bằng tự động hóa Sự bùng nô thông tin gắn liền voi su bung nỗ của công nehệ đặc biệt trên ba lĩnh vực có mối liên hệ chặt chẽ với công tác thông tín — thư viện là: Tin học — Viễn thông và vi xử lý — hạt nhân của công nghệ thông tin hiện đại

Trang 4

Em xin gửi lời cảm ơn chân thành đến quý thầy cô Trường Đại học Công nghệ Thông tin và Truyền thông Việt - Hàn đã truyền đạt cho em những kiến thức và bài học quy báu trong những học kỳ vừa qua

Em xin trân trọng gửi lời cảm ơn đến thầy giáo Trần Thanh Liêm giảng viên Trường Đại học Công nghệ Thông tin và Truyền thông Việt - Hàn đã tận tình hướng dẫn và giúp đỡ em trong suốt quá trình làm đỗ án, giúp em có thêm nhiều kiến thức bồ ích, và hiểu rõ hơn vẫn đề mình nghiên cứu

Dưới đây là kết quả của quá trình tìm hiểu và nghiên cứu mả em đã đạt

được trong học kỳ vừa qua Tuy có nhiều cô gắng học hỏi trau dồi để nâng cao

kiến thức nhưng không thê tránh khỏi những sai sót

Em rất mong được những sự góp ý quý báu của các thầy giáo, cô giáo cũng như tất cả các bạn để đồ án của em được hoàn thiện hơn Em xin chân thành cảm on!

Trang 5

Đà Nẵng, ngày 07 tháng 06 năm 2023

Giảng viên hướng dân

ThS Tran Thanh Liêm

Trang 6

CHUONG 1: CƠ SỞ LÝ THUYT 225: 222221122221221122212221 2.2.2 l

1.1.1 Lý do chọn đề tài s6 s11 11111111 1111 11 1 1 121 11 1112111 111gr 1 1.2 Cac chire mang d@ tabi ccccccccccccceseesessessesesseesessssvsstssssesessessesesevsnseres 1

1.3 Tìm hiểu chung về Data Warehouse - 2s T122 211 11 11222 1g 1

1.3.2 Lợi ich cha Data warchouse ccccccccececcccccsccccccccesceseececesaauseecececeraustteneess 2 1.4 Tìm hiểu về kiến trúc Snowflake Schema 2 ST re re 3 1.4.1 Snowflake Schema là gÌ 2 22 22112 111211211 12111211111 11111 1118211 ng 3

1.4.2 Ưu điểm của Snowflake Schema 2 ST SE1EE111211 11211212 1E 5

1.5 Tổng quan về công cụ sử dụng + 2s SE 2112112112112 11121 rteg 6 1.5.1 Tìm hiểu SQL SeTV€T 5 S1 2 E12211122111211111111111111 1111210121 11a 6

ái án 0) 1 ốố 8 1.5.4 Tìm hiểu SAS c2 t0 2.1220 10 1.5.5 Tìm hiểu QLAP :-222:2221112221122221122111.221 11.11.1 ke 12 CHUONG 2: PHAN TICH VA THIET KỂ -2-2222222222222z22zxce2 15

2.1 Lý do chọn đề tài - ST TỰ 12 121 1 21g re 15

2.2 Phân tích và thiết kế -.222:22222111222211112211111122111112201110.21111 e6 15

CHUONG 3: XAY DUNG DE TAL o.oo cccccccccccsccscescssessessesststssessnsseeteeee 18

3.1 Thực hiện quá trình E'T'L - 0 2211211211151 155112 1118111811111 1111 11111 xe 18

3.1.1 Dữ Liệu Nguồằn 2 s12 111121111211 222 2111121212121 cg rung 18

SN: guỶ“šaiii 20 3.1.3 Campaign IHÍO - 12c 211211121 11211211 111111111111 11011 H1 E111 111kg 22

Trang 7

3 Hướng phát triển của đề tài 5 c1 n0 1111222 ea 27

TAIT LIEU THAM KHẢO 5 212211 21112112111112121 211gr re 28

Trang 8

1 Sơ đỗ của data warelhouse - 5+ 2221 2212212211222112112.212212 e6 2

2 Sơ đỗ mô hình Snowflake Schema 2 222212221 1252212222222 6 5

3 SQL server 202 L2 1 1112111111211 1 191111101111 111121 11kg 21x xkg 7

A COng CUSMSS ẻ ^“11Ạäã=— 8

5 Giao diện SISS - EÏÏL Q0 0000000123115 10351 111111111 1k1 151511111111 x2 9

6 Giao dién SASS ccc ceeeeeeeceeeteescaecaeeecneceeceeeeeeesneeneeeneeneees 11 l4 00190 0 13

15 0® l6

2 Bang Bank InfÍo - c0 1211211121111 1 12111011151 1011 1111111111111 kg 16

3 Bảng Campalgn_ IHÍO - 2c 122122211211 1211123 1211111121111 1 19811182 xe 17

4 Bang OLE DB SOc 1ä 17

1 Sơ đỗ control flow ETL của để tải 225212 S22 1221212112122 2e 18

4 Quá trình ETL thành công - 2 22222221211 12112 2212811181 2111 181 x2 19

5 Bảng bank_ InÍO G2 2012111211121 151 111111 2120111811011 10111111111 1x de 20

6 Control flow của bank_ InÍO 2 22 222112111222 1115511118212 xe 21

7 Quá trình sau khi ETL, 2 22 2221222211223 1 121 11511115111 1811 15211112 21

8 Bảng campaløn_ InÍO - 2221221121111 11 2110111812111 1011 11281111 gk re 22

9 control flow của campalgn_ InÍO -. 2 2: 221122112112 12222 xe2 22

10 Bảng Person_ InÍO - c1 2112111211111 111 121111011181 1111 1111111111 re 23

11 Control fow của bảng Person_ IrnÍD 2c c c2 23

12 Kết quả sau khi ETL - - 5+ sSE9E1 521221111211 111 1111811021 ra 24

13 Bang OLE DB Sie di 25

14 Control flow của OLE DB Šfc - S2 2121112111211 12111212, 25

15 Sao khi thực hiện Xong EÏL, - 5 2 212221122221 1152111182111 E2xe2 26

Trang 9

tích, thiết kế một kho đữ liệu quản lý tất cả dữ liệu cho khách hàng Từ đó nhóm

chúng em quyết định xây dựng một kho dữ liệu khách hàng sử dụng ETL để trích xuất

dữ liệu từ Excel, sau đó sử dụng Transform của ETL để lọc, sắp xếp và xoá đi những

đữ liệu trùng lặp và tải nó vào trong cơ sở đữ liệu đã xây dựng sẵn, từ đó sử dụng OLAP biến đổi cơ sở dữ liệu thành cube tiến hành trích xuất đữ liệu, phân tích dữ liệu theo một cấu trúc đa chiều, siúp cho người sử đụng đễ dàng nắm bắt được dữ liệu, triển khai cho đoanh nghiệp và sử dụng tableau đề trực quan hoá đữ liệu cho người dùng

1.2 Các chức năng đề tài

1 Xây dựng kho dữ liệu với kién tric 1a Snowflake Schema

2 Xây dựng chức năng ETL để thực hiện việc đọc dữ liệu từ một file Excel,

xử lý đữ liệu bị trùng nhau, sắp xếp đữ liệu sau đó chuyên dữ liệu vào hệ thong data warehouse cua minh

3 Sử dụng OLAP để truy xuất dữ liệu và phân tích dữ liệu theo cau tric da

chiều đã được xây dựng theo cầu tric Snowflake Schema

4 Sử dụng Tableau để trực hoá đữ liệu giúp cho người dùng có thể đễ dàng nhìn thấy được dữ liệu, phân tích đữ liệu để đưa ra được các quyết định đúng đắn

1.3 Tìm hiểu chung về Data Warehouse

1.3.1 Data warehouse là gì ?

- Data warehouse hay Kho đữ liệu là một loại hệ thống quan lý lưu trữ dữ liệu được thiết kế đề kích hoạt và hỗ trợ các hoạt động kinh doanh thông minh (B]), đặc biệt là phân tích Data warehouse chỉ nhằm mục đích thực hiện các truy vấn và phân tích và thường chứa một lượng lớn dữ liệu lịch sử

Trang 10

- Khả năng phân tích của nó cho phép các tô chức thu được những hiểu biết kinh doanh có giá trị từ dữ liệu của họ để cải thiện việc ra quyết định Theo thời ø1an, nó xây dựng một hỗ sơ lịch sử có thể là vô giá đối với các nhà khoa học đữ liệu và nhà

phân tích kinh doanh

- Data Warehouse hoạt động như một kho lưu trữ trung tâm Dữ liệu đi vào kho

đữ liệu từ hệ thống giao dich va cac cơ sở đữ liệu liên quan khác Sau đó, dữ liệu được

xử lý, chuyển đôi dé người dùng có thê truy cập những đữ liệu này thông qua công cụ Business Intelligence, SQL client hay bảng tính

- Một Data Warehouse thường bao gồm các yếu tố như:

® Một cơ sở đữ liệu quan hệ để lưu trữ và quản lý đữ liệu

® - Giải pháp trích xuất, tải và biến đôi ELT để chuẩn bị đữ liệu cho phân tích

e Kha nang phan tich thong ké, báo cáo và khai thác dữ liệu

e - Các công cụ phân tích khách hàng đề trực quan hoá và trình bảy đữ liệu cho người dùng doanh nghiệp

e Các ứng dụng phân tích khác, phức tạp hơn tạo ra thông tin có thể hành động bằng cach áp dụng khoa học đữ liệu và thuật toán trí tuệ nhân tao Al hoặc các tính năng đồ thị và không gian cho phép nhiều loại phân tích dữ

Trang 11

1.3.2 Lợi ích của Data warehouse

- Sự xuất hiện của kho dữ liệu nhằm mục đích đáp ứng lượng đữ liệu ngày cảng tăng cần được xử lý Nhu cầu lưu trữ dữ liệu tăng lên đi kèm với đó là sự phức tạp của

hệ thống máy tính Từ đó, ta thấy được những lợi ích mà kho dữ liệu mang lại cho

doanh nghiệp như:

® - Tích hợp dữ liệu vào một nguồn, ở cùng một định dang, giai quyết sự phân mảnh và mắt cân băng đữ liệu đề đáp ứng nhu cầu thông tin của tat

cả người dùng

e _ Tiết kiệm thời gian và hiệu quả trong việc tìm kiếm đữ liệu cần thiết

® Thông qua xử lý và phân tích dữ liệu Data Warehouse ø1úp cho dữ liệu của doanh nghiệp hiệu quả hơn

e - Giúp người dùng đưa ra các quyết định hợp lý, nhanh chóng và hiệu quả,

đem lại nhiều lợi nhuận hơn,

® Giúp tô chức, xác định, quản lý và thực hiện các dự án/hoạt động một cách hiệu quả và chính xác

© Tăng đáng kế lượng dữ liệu cần được tông hợp, lưu trữ và xử lý

1.4 Tìm hiểu về kiến trúc Snowflake Schema

hóa bảng đimension trong lược đồ Snowflake Khi chúng tôi chuẩn hoá hoàn toàn tat

cả các bảng kích thước, cấu trúc kết quả giống như một Snowflake với bảng đữ kiện ở gitra

- Snow flaking duoc su dung dé phat triển hiệu suất của các truy vấn cụ thể Lược đồ được lập sơ đề với mỗi dữ kiện được bao quanh bởi các dimension lién quan của nó và những dimension đó có liên quan đến các dimension khác, phân nhánh thành một mô hình Snowflake

Trang 12

- Snowflake Schema bao gom một bảng đữ kiện được liên kết với nhiều bảng dimension, có thê được liên kết với các bảng dimension khác thông qua mỗi quan hệ nhiều đối một Các bảng trong Saowflake Schema thường được chuẩn hóa thành dạng

chuẩn thứ ba Mỗi bảng dimension thực hiện chính xác một cấp trong hệ thống phân cấp

- Sơ đồ sau đây cho thấy một giản đồ Snowflake có hai chiều, mỗi chiều có ba mức Snowflake Schema có thê có bất kỳ số đimension nào và mỗi dimension có thế

có bất kỳ số cấp độ nào

- Snowflake schema là một mô hình thiết kế cơ sở dữ liệu dạng khối (data

warehouse) trong đó đữ liệu được phân cấp thành các bảng chỉ tiết và bảng kết nối, tạo thành một cấu trúc tương tự như cầu trúc tuyết tuyệt đối Câu trúc nảy bao gồm các thành phần sau:

oBang chi tiét (Dimension Tables): Day là các bảng chứa các thuộc tính mô tả các đối tượng, sự kiện hoặc quá trình trong hệ thống Bảng chi tiết chứa các thuộc tính

cơ bản và dữ liệu không thay đổi theo thời gian Ví dụ, trone một cơ sở đữ liệu bán lẻ, bảng chỉ tiết có thê bao gồm bảng sản phẩm, bảng khách hàng, bảng địa điểm, v.v oBang két néi (Fact Table): Day là bảng chứa các dữ liệu số liệu, số liệu định lượng hoặc sự kiện kinh doanh Bảng kết nối chứa các khóa ngoat (foreign keys) dé kết nối với các bảng chỉ tiết và các thông tin liên quan khác Ví dụ, trong cơ sở dữ liệu

bán lẻ, bảng kết nối có thé là bảng bán hàng, chứa thông tin về đơn hàng, khách hàng,

sản phẩm và các số liệu liên quan

oBảng kết néi kich hoat (Bridge Table): Day là một bảng tạo mối quan hệ nhiều- nhiều giữa các bảng chỉ tiết Nó chứa các cặp khóa ngoại của các bảng chí tiết liên quan đến một mối quan hệ nhiều-nhiều Ví dụ, trong cơ sở dữ liệu bán lẻ, bảng kết nỗi kích hoạt có thể kết nối khách hàng với các chương trình khuyến mãi mà họ đã tham gia

oSu két néi (Relationships): Snowflake schema cé sw két nối giữa các bảng chi

tiết và bảng kết nối thông qua các khoá chính và khoá ngoại Sự kết nỗi này cho phép truy vấn dữ liệu từ các bảng khác nhau trong mô hình và tông hợp thông tin theo cách phù hợp

Trang 13

- Tom lai, Snowflake schema bao gồm bảng chỉ tiết, bảng kết nối, bảng kết nối kích hoạt và các quan hệ giữa chúng để tạo ra một cấu trúc đữ liệu phân cấp và hiệu quả cho việc phân tích đữ liệu trong một cơ sở đữ liệu dạng khối

= =

os

Hinh 1 2 So dé mé hinh Snowflake Schema

1.4.2 Uu diém ciia Snowflake Schema

- Hiéu suat truy van: Snowflake schema duoc téi wu hoa dé cung cap hiệu suất truy vấn cao Với cấu trúc phân cấp, truy vấn dữ liệu tir bang chi tiết đến bảng kết nối

có thể được thực hiện nhanh chóng và hiệu quả

- Tính nhất quán và dễ dàng duy trì: Snowflake schema giữ cho dữ liệu trong

cơ sở dữ liệu của bạn đồng nhất và đễ dàng duy trì Với việc phân tách đữ liệu thành các bảng chỉ tiết và bảng kết nói, thay đổi dữ liệu chỉ ảnh hưởng đến các bảng cụ thể

mà nó liên quan đến, giảm thiểu rủi ro và tác động đến toàn bộ hệ thống

- Tính mở rộng và linh hoạt: Snowflake schema cho phép mở rộng cơ sở đữ liệu theo nhu cầu của bạn Bạn có thể thêm các bang chi tiết mới hoặc bảng kết nối mới mà không ảnh hướng đến cấu trúc hiện có Điều này cung cấp khả năng linh hoạt trong việc thay đôi và mở rộng hệ thống theo thời gian

- Tiết kiệm không gian lưu trữ: Snowflake schema tiết kiệm không gian lưu trữ bằng cach chia sẻ các thuộc tính chung giữa các bảng chỉ tiết Thay vì lưu trữ dữ liệu trùng lặp trong mỗi bảng, dữ liệu chỉ cần được lưu trữ một lần trong bảng chi tiết

và các bảng kêt nồi tham chiều đền nó

Trang 14

- Dễ dàng tích hợp: Snowflake schema cho phép tích hợp dữ liệu từ nhiều nguồn khác nhau Bạn có thể kết hợp đữ liệu từ các bảng chỉ tiết và bảng kết nối dé tạo ra các truy vấn phức tạp và phân tích dữ liệu toàn diện

- Tổng quan, Snowflake schema cung cấp hiệu suất truy vấn cao, tính nhất quán,

khả năng mở rộng và linh hoạt, tiết kiệm không gian lưu trữ và dễ dàng tích hợp, làm

cho nó trở thành một lựa chọn phổ biến trong việc thiết kế cơ sở đữ liệu dạng khối 1.5 Tổng quan về công cụ sử dụng

1.5.1 Tìm hiểu SQL server

- SQL Server là một hệ quản trị cơ sở đữ liệu quan hệ (RDBMS) được phát triển bởi Microsoft Nó cung cấp các công cụ và dịch vụ để quản lý và lưu trữ dữ liệu trong các hệ thống thông tin doanh nghiệp SQL Server cho phép bạn tạo, quản lý và truy vấn cơ sở đữ liệu, cũng như thực hiện các tác vụ quản lý dữ liệu như sao lưu và khôi phục

- SQL Server hỗ trợ ngôn ngữ truy vấn SQL (Structured Query Language), được

sử dụng để tương tác với cơ sở đữ liệu Nó cung cấp một loạt các tính năng và chức

năng quan trọng như:

® - Quản lý cơ sở dữ liệu: SQL Server cho phép tạo và quản lý cơ sở dữ liệu quan hệ, bao gồm việc tạo bảng, chỉnh sửa cầu trúc dữ liệu, quản lý quyền truy cập, và thực hiện các tác vụ liên quan đến cơ sở dữ liệu

e _ Truy vấn dữ liệu: SQL Server hỗ trợ ngôn ngữ truy van SQL dé truy van dit liệu từ cơ sở dữ liệu Bằng cách sử dụng câu lệnh SELECT, bạn có thé truy xuất đữ liệu từ bảng, thực hiện các phép toán trên đữ liệu và lọc đữ liệu theo

Trang 15

- SQL Server có nhiều phiên bản và công cụ phụ trợ như SQL Server

Management Studio (SSMS) dé quan ly co so đữ liệu và SQL Server Integration Services (SSIS) để thực hiện tích hợp đữ liệu và quá trình ETL (Extract, Transform, Load)

và xử lý các tác vụ liên quan đến SQL Server

- Dưới đây là mét sé chire nang va tinh nang chinh cua SQL Server Management

e _ Thiết kế cơ sở dữ liệu: SSMS cung cấp các công cụ và trình thiết kế dé tạo

và quản ly cầu trúc của cơ sở dữ liệu, bao gồm việc tạo bảng, chỉnh sửa cầu trúc bảng, xác định quan hệ khóa ngoại, và thiết kế các đối tượng cơ sở dữ

liệu khác

Trang 16

® Sao lưu và khôi phục: SSMS cho phép bạn tạo sao lưu và khôi phục cơ sở dit ligu SQL Server Bạn có thé sao lưu toàn bộ cơ sở dữ liệu hoặc chỉ những phần cụ thể, và khôi phục dữ liệu từ các bản sao lưu trước đó

e _ Xem và quản lý hiệu suất: SSMS cung cấp các báo cáo và công cụ theo dõi hiệu suất để giúp bạn xem và quản lý hiệu suất của cơ sở dữ liệu Bạn có thể theo đối hoạt động của cơ sở dữ liệu, tối ưu hóa truy vấn, và xem các chỉ số hiệu suất

- 5SMS là một công cụ mạnh mẽ và phổ biến được sử dụng rộng rãi trong việc quản lý cơ sở dữ liệu SQL Server va thực hiện các tác vụ liên quan đến SQL Server

để phục vụ cho nhụ cầu của hệ thông

- Các chức năng chính của SSIS bao gồm:

e Extract (Trich xuat): SSIS cho phép ban trích xuất đữ liệu từ các nguồn khác nhau như cơ sở dữ liệu, tệp văn bản, Excel, các dịch vụ web, va nhiều nguồn khác Nó cung cấp các công cụ để xác định và lựa chọn đữ liệu cần trích xuât từ các nguôn này

Trang 17

e _ Transform (Chuyởn đừi): SSIS cung cấp cõc cừng cụ đề thực hiện cõc phờp biến đừi vỏ chuyởn đổi đữ liệu Bạn cụ thể õp dụng cõc quy tắc kinh doanh, lọc, sắp xếp, gộp, tõch vỏ chuyởn đổi đữ liệu để đõp ứng yởu cầu của hệ thống

Ẽ Load (Tải dữ liệu): SSIS cho phờp bạn tải đữ liệu đọ được chuyền đổi vỏo

cơ sở dữ liệu hoặc hệ thống đợch Bạn cụ thở tải dữ liệu vỏo SQL Server, cac

cơ sở dữ liệu khõc, hoặc cõc hệ thống khõc như Data Warehouse hoặc hệ thừng Business Intelligence

Ẫ Quản lý quõ trớnh ETL: SSIS cung cấp cõc cừng cụ quản lý quõ trớnh ETL,

bao gồm lập lịch, giõm sõt, gỡ lỗi vỏ xử lý lỗi Bạn cụ thở lập lịch thực hiện

cõc gụi SSIS theo cõc lịch trớnh cụ thể, giõm sõt quõ trớnh thực hiện, vỏ xử

ly cõc lỗi phõt sinh trong qua trinh ETL

- SSIS la mờt cờng cu manh mờ dờ xóy dựng vỏ quản lý quõ trớnh ETL Nụ được

sử dụng rộng rọi trong việc tợch hợp dữ liệu vỏ xử lý đữ liệu trong mừi trường SQL Server vỏ cõc hệ thống dựa trởn SQL Server

ẹ ADMINPCIKHOOULIEU Ÿ ADMIN-PCWKHOOULIEU.Bank infe Sec Ÿ ADMIN-PC\KHODULIEU.Bank taget Gi Excel Connection Manager

Hớnh L 5 Giao diờn SISS - ETL

- Trong ETL (Extract, Transform, Load), "Lookup" la mờt khai niđờm được sử dụng đở õm chỉ việc tớm kiởm thừng tin từ một nguồn dữ liệu vỏ kết hợp nụ với đữ liệu

Trang 18

khác Thông thường, quá trình lookup được thực hiện để tìm các 214 trị tham chiếu hoặc thực hiện ánh xạ g1ữa các bảng dữ liệu khác nhau

- Trong quá trình ETL, một tác vụ lookup thường gồm các bước sau:

e _ Trích xuất (Extract): Dữ liệu được trích xuất từ nguồn dữ liệu gốc

° Chuyển đôi (Transform): Dữ liệu trích xuất được chuyền đổi và tiêu chuẩn hóa để phủ hợp với cấu trúc và định dạng của hệ thông đích

¢ Lookup: Dt ligu da được chuyén đổi được so sánh với một nguồn đữ liệu tham chiếu (thường là một bảng đữ liệu chứa thông tin cần tìm kiếm) Các giá trị từ dữ liệu đầu vào được tìm thấy va anh xạ với các giá trị tham chiếu tương ứng

e Tai (Load): Cac két quả của quá trình lookup được tải vào hệ thống đích, thường là vào một bảng hoặc cơ sở dữ liệu mới

- Quá trình lookup giúp tạo ra các liên kết và quan hệ giữa các tập dữ liệu khác nhau, làm cho dữ liệu trở nên tổ chức vả có y nghia hơn Công cụ hoặc phần mềm ETL thường cung cấp tính năng lookup đề thực hiện quá trình này một cách tự động

và hiệu quả

1.5.4 Tìm hiểu SASS

- SSAS là viết tắt của SQL Server Analysis Services, một thành phần quan trọng

trong hệ thống quản lý cơ sở đữ liệu SQL Server của Microsoft SQL Server Analysis Services cung cap các dịch vụ vả công cụ cho việc xây dựng, quản ly va triển khai các

mô hình phân tích dit liéu da chiéu (multidimensional) va mé hinh phan tich dit liệu tabular (tabular) trone môi trường đữ liệu doanh nghiệp

- SSAS cho phép các nhà phân tích dữ liệu và các nhà phát triển ứng dụng tạo ra các cube dữ liệu và bảng đữ liệu tabular để thực hiện các phân tích, truy vấn và báo cáo phức tạp trên dữ liệu trong cơ sở dữ liệu Cube dữ liệu là một cầu trúc đa chiều lưu trữ đữ liệu được tổ chức thành các chiều (dimensions) và các chỉ số (measures), cho phép truy vấn và phân tích đữ liệu theo nhiều góc độ khác nhau

- Bảng dữ liệu tabular là một cấu trúc đữ liệu được tổ chức thành các bảng liên

hệ, tương tự như cầu trúc của cơ sở đữ liệu quan hé (relational database) SSAS cung cấp các tính năng như tối ưu hóa truy vấn, khai thác đữ liệu (data mining), xác thực (authentication), phân quyền (authorization), và tích hợp với các công cụ phân tích dữ

10

Ngày đăng: 19/12/2024, 15:32

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN