TỔNG QUAN VỀ KHO DỮ LIỆU

Một phần của tài liệu Xây dựng quy trình tích hợp dữ liệu ETL và xuất báo cáo cho hệ thống e banking tại NH TMCP công thương việt nam 758 (Trang 29)

2.1. Định nghĩa kho dữ liệu

Kho dữ liệu đã được biết đến từ những năm 90 của thập kỉ 20. Người đầu tiên khởi xướng công nghệ kho dữ liệu là William H. Inmon đã đưa ra định nghĩa về khái niệm kho dữ liệu như sau: “Kho dữ liệu là tập hợp dữ liệu hướng chủ đề

(subject-oriented), được tích hợp (integrated), gắn với thời gian (time-variant) và ổn định (nonvolatile), được thiết kế cho việc hỗ trợ quá trình ra quyết định của người quản lý ”. Đây là định nghĩa ngắn gọn bao hàm 4 đặc điểm chính của kho dữ

liệu.

Cịn theo Devlin kho dữ liệu được định nghĩa như sau: “Kho dữ liệu là một

kho lưu trữ đầy đủ và thống nhất dữ liệu thu được từ nhiều nguồn khác nhau và có sẵn để người dùng theo cách của họ có thể hiểu và sử dụng trong bối cảnh kinh doanh”

Kho dữ liệu chứa đựng thông tin quan trọng hỗ trợ cho việc ra quyết định hiện tại và quá khứ, được thiết kế riêng biệt cho từng mục đích khác nhau. Khác với cơ sở dữ liệu tác nghiệp, các kho dữ liệu thường quản trị lượng thông tin rất lớn, được lưu trữ dưới dạng đa phương tiện, gồm cả thơng tin có cấu trúc, thơng tin từ nhiều nguồn, thơng tin dưới dạng gộp hoặc đã qua tổng hợp nhằm hướng tới chủ thể quản lí để trợ giúp q trình ra quyết định. Chính vì vậy kho dữ liệu cung cấp những thơng tin khó có thể truy vấn hay biểu diễn trong CSDL tác nghiệp truyền thống, cung cấp cái nhìn sâu sắc hơn về hiệu suất của một công ty bằng cách so sánh dữ liệu được hợp nhất từ nhiều nguồn không đồng nhất [2].

Thơng qua q trình ETL dữ liệu từ các nguồn khác nhau được chuyển đổi đồng nhất về cấu trúc và lưu tại kho dữ liệu. Khi được lưu trữ trong kho, dữ liệu sẽ được sắp xếp, hợp nhất và tổng kết,... để nó được điều phối và dễ sử dụng hơn. Theo thời gian, nhiều dữ liệu được thêm vào kho khi nhiều nguồn dữ liệu được cập nhật [2].

2.2. Đặc điểm kho dữ liệu

appl A appl B appl C encoding m,f ----------------------------------------------------------------------------------—■ m,f 1,0 -------------------------------------------► □-----------------7 zzɪɪ x,y ------------------------------------------»□ ’ male, female ------------------------------ - O ^ ^ appl A appl B appl C appl attribute measurement pipeline—cm - . :., I—I_______________________pipeline—cm pipeline—inches ------------------------» I I _______ _______». pipeline—mcf ----------------------------► O — ^ ——" ' pipeline—yds -----------------------------*■ □ ■— ' appl A appl B appl C multiple sources description ------------- description-------------------------------> /,n∖ _ .__________ ____________ < r > ------------------------------------* description description ------------------------------ ∖/ description "

- Tính hướng chủ đề (subject-oriented): Dữ liệu được tổ chức xung quanh

các chủ đề chính, như khách hàng, sản phẩm, bán hàng,...Cung cấp một khung nhìn đơn giản và ngắn gọn về các đề tài thuộc cùng chủ đề [2].

ứng dụng tác nghiệp

Hình 2.1. Tính hướng chủ đề củaDWH

- Tính tích hợp (integrated): Dữ liệu trong kho dữ liệu được thu thập từ nhiều

nguồn dữ liệu khác nhau và không đồng nhất.Thông qua các kỹ thuật làm sạch dữ liệu và tích hợp dữ liệu giúp dữ liệu trữ trong kho thành một thể thống nhất về định dạng cũng như cấu trúc.Việc hợp nhất các dữ liệu này trở thành một tập hợp dữ liệu có nghĩa cho việc phân tích là rất khó khăn. Vì vậy dữ liệu được tích hợp phải đảm bảo tính nhất quán, đôi khi chấp nhận sự dư thừa dữ liệu để tăng hiệu quả của các truy vấn [2].

integration

conflicting keys appl A key char(10) -----------------------------* lɪ

appl B key dec fixed(9,2)----------------------»

LZI

apple key pic∙9≡∙--------------------------------->■ t key char<12>

Hình 2.2. Tính tích hợp trong DWH

- Tính ổn định, khơng biến động (nonvolatile): Dữ liệu trong DWH cho phép

thực hiện hai thao tác cơ bản: nạp dữ liệu vào kho và truy cập vào vào các vùng trong DWH. Tính ổn định, khơng biến động được thể hiện ở chỗ: Dữ liệu được lưu trữ lâu dài trong kho dữ liệu.Cho dù có thêm dữ liệu mới nhưng dữ liệu cũ trong kho vẫn khơng bị xố nên DWH cho phép cung cấp thông tin về một khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho các mơ hình nghiệp vụ phân tích, dự báo, từ đó có được những quyết định hợp lý, phù hợp với các qui luật tiến hố của tự nhiên [2].

Hình 2.3. Tính ổn định, khơng biến động củaDWH

- Tính thời gian cụ thể: Một kho dữ liệu bao hàm một khối lượng lớn dữ liệu

lịch sử. Dữ liệu được lưu trữ thành một loạt các bản sao, mỗi bản sao phản ánh những giá trị của dữ liệu tại một thời điểm nhất định, thể hiện một khung nhìn của một vùng chủ đề trong một giai đoạn. Do vậy, DW cho phép khôi phục lại dữ liệu lịch sử và so sánh một cách chính xác các giai đoạn khác nhau. Yeu tố thời gian đóng vai trị như một phần của khóa để đảm bảo tính đon nhất của mỗi bản ghi và cung cấp đặc trưng về thời gian cho dữ liệu [2].

Dữ liệu trong kho dữ liệu tác nghiệp cần phải chính xác ở chính thời điểm truy cập, cịn ở DW chỉ cần có hiệu lực trong khoảng thời gian nào đó, trong khoảng 5 đến 10 năm hoặc lâu hon. Dữ liệu của CSDL tác nghiệp thường sau một khoảng thời gian nhất định thì sẽ trở thành dữ liệu lịch sử và chúng sẽ được chuyển thành kho dữ liệu. Đó chính là những dữ liệu hợp lý về những chủ điểm cần lưu trữ [2].

- Chiểu thời gian 5-10 năm - Chiều thời gian hiện thời tới 60 - 90 ngày

- Cập nhật hô sơ - Album ánh chụp dừ liệu

Câu trúc chính chúa / khơng chứa u - Câu trúc chính chúa u tổ thời gian

tơ thời gian

Hình 2.4. Tính thời gian cụ thể củaDWH

2.3. Kiến trúc Kho dữ liệu

Tùy vào tình trạng của tổ chức thì kho dữ liệu được thiết kế theo nhiều cách khác nhau. Dưới đây sẽ trình bày 3 kiến trúc phổ biến trong kho dữ liệu:

2.3.1. Kiến trúc kho dữ liệu căn bản

Kiến trúc kho dữ liệu cơ bản không phải là một cách thiết kế được sử dụng thường xuyên trong Data warehouse. Mục tiêu chính của kiến trúc là tạo ra một tập dữ liệu nhỏ gọn và giảm thiểu dữ liệu được lưu trữ [2].

Kiến trúc cơ bản của hệ thống Data Warehouse gồm 3 phần:

• Data Source: Là nơi dữ liệu từ nhiều nguồn khác nhau được thu thập.

• Warehouse: Đây là nơi lưu trữ dữ liệu đã được xử lý bao gồm Metadata, Raw Data và Summary Data.

• User: Gồm các hệ thống phân tích, báo cáo và data mining.

Đây là một kiến trúc đơn giản với phần ETL (extraction, transformation, and loading) đã bị lược bỏ, người dùng cuối truy xuất dữ liệu trực tiếp từ các hệ thống xử lý nghiệp vụ thông qua data warehouse [2].

2.3.2. Kiến trúc kho dữ liệu với staging area

Hình 2.6. Kiến trúc kho dữ liệu với staging area

Tại kiến trúc, hệ thống nguồn được tách khỏi DW thêm vào đó là vùng lưu trữ trung gian Staging Area. Dữ liệu trước khi đưa vào Data Warehouse, được tích hợp từ nhiều nguồn, chuyển đổi và lưu trữ tại vùng dữ liệu Staging Area, người dùng cuối truy xuất dữ liệu trực tiếp từ các hệ thống xử lý nghiệp vụ thông qua Data Warehouse. Việc thêm Staging area đảm bảo tất cả dữ liệu tải vào kho được làm sạch và ở định dạng thích hợp [2].

2.3.3. Kiến trúc kho dữ liệu với staging area và data marts

Hình 2.7. Kiến trúc kho dữ liệu với staging area và data marts

Đây là kiến trúc kho dữ liệu phổ biến nhất thường được sử dụng cho các hệ thống kho dữ liệu. Kiến trúc này bổ sung thêm bước ETL, giúp phân Warehouse ra thành các chủ đề nhỏ hon (Data mart)

Tại kiến trúc kho dữ liệu với staging area và data marts có 3 tầng chính như sau: • Bottom tier: Tầng dưới chủ yếu nhằm trích rút thơng tin từ nhiều nguồn

khác nhau, sau đó sử dụng các tool ETL thực hiện các thao tác chuyển đổi, làm sạch, load hay refresh.

Bottom-up - Cung cấp góc nhìn dữ liệu

theo

chiều nhất quán trên các data

mart( vì

cùng từ một nguồn là data warehouse

mà ra)

- Đây là mơ hình được nhiều

công ty

lớn lựa chọn

- Báo cáo có thể được tạo dễ dàng vì

Data mart được tạo trước và việc

tương tác với data mart là tương đối

dễ dàng.

- Khơng tốt bằng Top-down nhưng

kho dữ liệu có thể được mở

Middler tier: Tầng giữa gồm máy chủ OLAP, chuyển đổi dữ liệu thành 1

cấu trúc phù hợp cho các phân tích và truy vấn phức tạp

Top tier: Tầng trên cùng gồm các tool cho phân tích, thống kê, lập báo

cáo... ở phía client.

2.3.4. Cách tiếp cận kho dữ liệu

Theo cách tiếp cận của Ralph Kimball nhấn mạnh tầm quan trọng của data mart, là kho lưu trữ dữ liệu thuộc các lĩnh vực kinh doanh cụ thể. Kho dữ liệu chỉ đơn giản là sự kết hợp của các kho dữ liệu khác nhau tạo điều kiện thuận lợi cho việc báo cáo và phân tích. Thiết kế kho dữ liệu Kimball sử dụng phương pháp tiếp cận “Bottom-up”. Khi ETL tải dữ liệu vào data mart sau đó tải dữ liệu vào DW, thơng tin được lưu trữ trong DW. Cách tiếp cận này gọi là Bottom-up.

Hình 2.8. Cách tiếp cận Bottom-up

Cịn theo Bill Inmon thì kho dữ liệu là kho lưu trữ tập trung cho tất cả dữ liệu doanh nghiệp. Trong cách tiếp cận này, trước tiên một tổ chức tạo ra một mơ hình kho dữ liệu chuẩn hóa. Dimensional data marts sau đó được tạo dựa trên mơ hình DW. Đây được gọi là cách tiếp cận từ trên xuống. Phương pháp mà ETL tải thông tin trực tiếp đến DW sau đó tải dữ liệu vào data mart được gọi là Top-down

Hình 2.9. Cách tiếp cận Top-down

2.4. Thành phần của kho dữ liệu

Với các hệ thống kho dữ liệu khác nhau sẽ có cấu trúc khác nhau. Nhưng một DW về cơ bản sẽ có 4 lớp sau:

+ Source Layer + Staging Layer + Storage Layer + Presentation Layer

Data Warehouse Architecture

Hình 2.10. Kiến trúc DWH

Source Layer (Lớp dữ liệu nguồn):

- Lớp dữ liệu nguồn bao gồm dữ liệu từ nhiều nguồn khác nhau như:

o Dữ liệu hệ thống tác nghiệp như dữ liệu bán hàng, dữ liệu nhân sự, dữ

liệu sản phẩm, dữ liệu hàng tồn kho, dữ liệu tiếp thị,...

o Dữ liệu nhật ký máy chủ web với dữ liệu duyệt web của người dùng. o Dữ liệu nghiên cứu thị trường nội bộ.

o Dữ liệu của bên thứ ba, chẳng hạn như dữ liệu điều tra dân số, dữ liệu

nhân khẩu học hoặc dữ liệu khảo sát.

- Dữ liệu nguồn có thể là bất cứ hệ quản trị cơ sở dữ liệu nào như MySQL, Oracle, MSSQL, DB2, ...Hoặc ở bất cứ định dạng file text, file xml, file excel,.

Staging Layer (Lớp staging):

- Staging là khu vực lưu trữ dữ liệu tạm thời, dữ liệu từ Source layer thơng qua q trình ETL dữ liệu được làm sạch và tải vào khu vực STG với mục đích lưu trữ dữ liệu nguồn tại STG.

Storage Layer:

- Data mart (Kho dữ liệu chủ đề): DM là khu vực lưu trữ dữ liệu về một lĩnh

vực, một chun mơn. Các DM có thể được xây dựng trước khi xây dựng DWH sau đó kết nối tích hợp lại với nhau tạo thành DWH. Hoặc DWH được xây dựng trước sau đó tạo ra các DM [2].

- Meta data (Siêu dữ liệu): Trong việc tổ chức kho dữ liệu, không chỉ những

người dùng đầu cuối mà ngay cả những nhân viên quản trị đều cần truy nhập tồn bộ thơng tin trong bảng gồm các đối tượng cũng như các thuộc tính. Do đó họ muốn biết một số vấn đề [2]:

o Có thể tìm thấy dữ liệu ở đâu?

o Tồn tại những loại thông tin, dữ liệu nào? o Dữ liệu thuộc loại nào, có dạng ra sao?

o Trong các cơ sở dữ liệu khác nhau thì dữ liệu có liên quan với nhau

như thế nào?

o Dữ liệu được lấy từ đâu và thuộc ai quản lý?

Vì vậy hình thành một dạng cơ sở dữ liệu khác được gọi là siêu dữ liệu nhằm mô tả cấu trúc nội dung của cơ sở dữ liệu chính [2].

Presentation Layer:

- OLAP: là một hệ thống được dùng để phân tích dữ liệu một cách hiệu quả.

OLAP cho phép người sử dụng phân tích dữ liệu qua việc cắt lát (slice) dữ liệu theo nhiều khía cạnh khác nhau, khoan xuống (Drill-Down) mức chi tiết hơn hay cuộn lên (Roll-Up) mức tổng hợp hơn của dữ liệu. Bản chất cốt lõi của OLAP là dữ liệu được lấy ra từ kho dữ liệu sau đó được chuyển thành mơ hình đa chiều và được lưu trữ trong một kho dữ liệu đa chiều [2].

- Data mining: Người sử dụng biện pháp phân tích dữ liệu tìm ra những quy

luật và quy tắc để đưa ra, các quyết định kinh doanh. Data Mining không dùng những câu truy vấn mà dùng những thuật tốn đặc, biệt để phân tích dữ liệu (Mơ hình thống kê, tốn học,...) [2].

2.5. Tổ chức dữ liệu logic trongDWH

2.5.1. Lược đồ kho dữ liệu

2.5.1.1. Lược đồ hình sao

Lược đồ hình sao là lược đồ cơ bản trong số các lược đồ của kho dữ liệu và đây là giản đồ đơn giản nhất. Lược đồ này được sử dụng rộng rãi để phát triển hoặc xây dựng DW và data mart. Lược đồ hình sao là một trường hợp cần thiết của lược

Một phần của tài liệu Xây dựng quy trình tích hợp dữ liệu ETL và xuất báo cáo cho hệ thống e banking tại NH TMCP công thương việt nam 758 (Trang 29)

Tải bản đầy đủ (DOCX)

(92 trang)
w