Khóa lu n t t nghi pậ ố ệ
Trên thực tế, kho dữ liệu khơng nhất thiết phải có đầy đủ các thành phần trên. Dưới đây là mơ hình kho dữ liệu đơn giản nhất.
Hình 2.2: Kiến trúc đơn giản nhất của kho dữ liệu
2.2 Đặc điểm kho dữ liệu
2.2.1 Dữ liệu hướng đối tượng
Dữ liệu trong kho dữ liệu không được lưu trữ trong các bảng riêng biệt mà được lưu trữ dựa theo các thực thể quan trọng trong mỗi tổ chức ở cùng một hệ thống. Lĩnh vực hoạt động của các doanh nghiệp khác nhau nên các đối tượng thực thể cũng vì vậy mà khác nhau.
Ví dụ:
- Với các ngân hàng, các thực thể chính của họ có thể: Khách hàng, Các loại khoản vay, tỷ giá chuyển đổi ngoại tệ, tài khoản ngân....
- Với các doanh nghiệp bán lẻ, các thực thể chính của họ có thể là: sản phẩm, khách hàng, nhà cung cấp.
2.2.2 Tích hợp dữ liệu
Dữ liệu trong kho dữ liệu được dùng để tạo báo cáo phục vụ cho các nhà quản trị cấp chiến lược đưa ra các quyết định vì vậy DWH là nơi lưu trữ tất cả các dữ liệu có liên quan đến nhau từ các nguồn khác nhau.
Do dữ liệu nguồn trong DWH được lấy từ các hệ thống khác nhau,trong các cơ sở dữ liệu riêng biệt... Nên các kiểu dữ liệu và quy ước đặt tên trường cũng sẽ khác nhau. Vì vậy trước khi dữ liệu được lưu trữ trong DWH,thì cần được trải qua q trình
Khóa lu n t t nghi pậ ố ệ
chuyển đổi, hợp nhất, tích hợp từ các nguồn khác nhau. Dưới đây là một số thuộc tính cần được chuẩn hóa khi tích hợp dữ liệu:
- Quy ước đặt tên
- Kí tự
- Thuộc tính dữ liệu
- Số đo
2.2.3 Dữ liệu biến đổi theo thời gian
Dữ liệu trong DWH phục vụ cho mục đích phân tích và tạo báo cáo, do đó tất cả kiến trúc dữ liệu trong DWH đều có thành phần thời gian. Đây là khía cạnh quan trong trông việc thiết kế và triển khái DWH. Dữ liệu về thời gian cho phép nhà phân tích, phân tích đươc dữ liệu trong quá khứ, hiện tại qua đó có thể dự đốn được các sự kiện có thể xảy ra trong tương lai.
Ví dụ: Khi nhà quản trị muốn đưa ra một chương trình khuyến mãi cho một mặt hàng cụ thể. Tuy nhiên, để tìm ra mức giảm giá đem lại lợi nhuận cao nhất thì cần phân tích dữ liệu liên quan đến các chương trình sale trong quá khứ của mặt hàng này để tìm được mức ưu đãi tối ưu nhất.
2.2.4 Dữ liệu không biến đổi
Dữ liệu được chuyển vào trong DWH theo các khoảng thời gian cụ thể. Tùy theo yêu cầu của tổ chức, dữ liệu trong DWH có thể được cập nhập theo ngày, theo tuần, tháng, quý, năm.Vì vậy dữ liệu trong DWH sẽ khơng được cập nhập và xóa theo thời gian thực. Bên cạnh đó, khi dữ liệu được thêm vào trong DWH thì chúng thường sẽ khơng bị xóa đi hoặc chỉnh sửa, điều đó cho phép DWH lưu trữ thơng tin biến đổi của của một đối tượng liên tục và đầy đủ, phục vụ cho việc phân tích và tạo báo cáo.
Khóa lu n t t nghi pậ ố ệ
2.2.5 Độ chi tiết của dữ liệu
Dữ liệu trong kho dữ liệu được lưu trữ theo cấp độ, từ tổng quát đến chi tiết. Phụ thuộc vào câu truy vấn,mà người dùng có thể lấy được các cấp độ chi tiết của dữ liệu tùy theo yêu cầu.
Ví dụ: Khi người dùng truy vấn kho dữ liệu để phân tích, họ thường bắt đầu bằng cách xem dữ liệu tóm tắt. Người dùng có thể bắt đầu với tổng số đơn vị bán sản phẩm trong toàn bộ khu vực. Sau đó, người dùng có thể muốn xem xét ở các cấp nhỏ hơn trong trong khu vực. Bước tiếp theo có thể là kiểm tra các đơn vị bán hàng theo cấp độ tiếp theo của các cửa hàng riêng lẻ. Thơng thường, phân tích bắt đầu ở mức cao và chuyển xuống mức độ chi tiết thấp hơn.
2.3 Các thành phần chính của mơ hình dữ liệu trong kho dữ liệu
Mơ hình dữ liệu trong kho dữ liệu gồm có 2 thành phần chính: Bảng Dimesion và Bảng Fact.
2.3.1 Bảng Dimesion
2.3.1.1 Khái niệm
Các bảng Demision cung cấp thông tin trả lời cho câu hỏi “ai, cái gì, ở đâu, khi nào, tại sao và như thế nào”, liên quan đến các sự kiện xảy ra trong doanh nghiệp. Các bảng demesion chứa các thuộc tính mơ tả các thực thể trong tổ chức và được tham chiếu tới bảng Fact. Dữ liệu trong bảng Dimesion là dữ liệu tĩnh và được sử dụng để giải thích cho các khóa chính tương ứng trong bảng Fact.
Dữ liệu trong các bảng Dimesion thông thường được thu thập ở cấp độ chi tiết nhất sau đó được tổng hợp lên cấp độ cao hơn để thuận tiện cho việc phân tích.
Các bảng Demision có thể được liên kết theo cấp bậc cha con hoặc dựa trên mối quan hệ thực tế giữa các bảng Dimesion. Ví dụ:
- Với chiều về thời gian, dữ liệu về thời gian có thể được tổng hợp từ cấp độ thấp
nhất là tháng đến quý và cấp cao nhất là đến năm.
Key ID Name Region
123 VA-13 ACME Products_____________ Northeast__________
234 PA-07_________ Ace Products & Sendees Northeast__________
Key ID Name Region
123 VA-13 ACME Products Mid-Atlantic________
234_______ PA-O7_________ Ace Products & Sendees Northeast__________
Khóa lu n t t nghi pậ ố ệ
Hình 2.3: Thiết kế chiều thời gian trongDWH
2.3.1.2 Các phương pháp đưa dữ liệu vào bảng Dimesion (Slowly Changing Dimensions)
- Phương pháp 1:
Người dùng chỉ cần ghi đè lên các giá trị dữ liệu hiện có bằng các giá trị dữ liệu mới. Điều này làm cho việc cập nhật bảng Dimesion dễ dàng. Hạn chế của điều này là mất dữ liệu cũ vì bảng Dimensions sẽ ln chứa các giá trị hiện tại cho mỗi thuộc tính. Chẳng hạn, bạn có bảng Dimension cửa hàng có thuộc tính khu vực địa lý. Một số cửa hàng có thể chuyển từ vùng này sang vùng khác. Theo phương pháp, bảng Dimesion về khu vực địa lý sẽ xóa dữ liệu về khu vực của cửa hàng cũ và cập nhập khu vực mới. Thay đổi này sẽ làm lệch các báo cáo lịch sử và các kết quả trước khi cập nhật sẽ khơng cịn phù hợp với kết quả sau khi cập nhật cho cùng một khung thời gian.
Lê Th Thu Trangị 27
Khóa lu n t t nghi pậ ố ệ
Original Record
Key ID
Name Region ACT
V RCR
ACTV
START ACTVEND
123 VA-13 ACME Products Northeast 1 2014032 9999999
234 PA-07 Ace Products Northeast 1 2014050
8 99999999
Key ID Name__________ Region_____ ACTVRCRD ACTVSTART ACTVEND
123 VA-13 ACME Products Nortlieast O______ 2014032
8 20160728
234 PA-07 Ace Products Northeast 1 2014050
8 99999999
784 VA-13 ACME Products Mid-Atlantic 1_______ 2016072
9 99999999
Key ID Name Region Previous Region
123 VA-13 Ace
Hardware Northeast_____________
234 PA-07 Ace Products Northeast_____________
Key ID Name Region Previous Region
123 VA-13 Ace Mid-AtIantic___________ Northeast____________
234 PA-07 Ace Products Northeast_____________
Hình 2.4: Kiến trúc đơn giản nhất của kho dữ liệu
- Phương pháp 2:
Đây là loại được sử dụng phổ biến nhất. Đối với loại này, sẽ thêm một bản ghi mới bao gồm thay đổi và đánh dấu bản ghi cũ là không hoạt động. Điều này cho phép bảng Fact tiếp tục sử dụng và phiên bản cũ của dữ liệu sẽ dùng cho mục đích báo cáo lịch sử. Dữ liệu đã thay đổi được lưu trữ trong bản ghi mới và chỉ tác động đến dữ liệu của bảng Fact từ thời điểm đó trở đi. Một số cột phải được thêm vào bảng Dimension (ngày bắt đầu / ngày kết thúc bản ghi hoạt động) để quản lý thay đổi và đảm bảo sử dụng tối ưu bản ghi đang hoạt động. Sử dụng cùng ví dụ từ Loại 1 ở trên. Bản ghi mới sẽ được sử dụng cho bảng Fact và khơng làm mất bản ghi cũ. Qua đó sẽ đảm bảo tính tồn vẹn cho dữ liệu.
Lê Th Thu Trangị 28
Khóa lu n t t nghi pậ ố ệ
Original Record
Inserted / Updated Records
Hình 2.5: Minh họa về phương pháp đưa dữ liệu vào bảng Dimesion
- Phương pháp 3:
Đây là loại ít được sử dụng. Trong loại này, sẽ thêm một cột để lưu trữ giá trị quá khứ của bản ghi được thay đổi. Khi dữ liệu được cập nhật, bản ghi mới sẽ được lưu trữ tại vị trí của bản ghi cũ và thêm một cột lưu trữ giá trị cũ. Điều này cho phép người dụng xem lại giá trị của dữ liệu trước đó. Đây có thể là một khó khăn khi cập nhật dữ liệu.
Original Record
Hình 2.6: Minh họa về phương pháp đưa dữ liệu vào bảng Dimesion
2.3.2 Bảng Fact
Bảng Fact là bảng chứa lượng dữ lớn trong kho dữ liệu và có hai loại cột chính: Khóa chính của các bảng Dimesion liên quan đến bảng Fact và dữ liệu số
facusupply_order product-ld Int PK FK ti me Jd Int PK FK Supplleuld Int PK FK em PI OyeeJd Int PK FK price dedmal{8,2 quantity dedmal(8,2 ) dim_time ti∣mejd Int PK —F
act IO Udate date
actlouweek Int
actloumonth Int
act Iouyear Int
act I Ouweekday Varchar(IC)
dỉm.product
Khóa lu n t t nghi pậ ố ệ
(measurement). Bảng Fact có thể chứa dữ liệu ở cấp chi tiếp nhất của một hoạt động xảy ra trong một tổ chức hoặc ở cấp tổng hợp dữ liệu.
Mỗi bản ghi trong bảng Fact thể hiện một sự kiện xảy ra trong một khoảng thời gian xác định.
2.4 Các thiết kế mơ hình dữ liệu trong Data WareHouse
2.4.1 Lược đồ đa chiều
Lược đồ đa chiều được thiết kế đặc biệt để mơ hình hóa dữ liệu trong kho dữ liệu. Các lược đồ được thiết kế để giải quyết yêu cầu phân tích dữ liệu, tạo báo cáo.Lược đồ đa chiều trong kho dữ liệu có 2 thành phần chính là: Bảng Dimesion và bảng Fact.
Tùy thuộc vào độ phức tạp của dữ liệu và nhu cầu của người sử dụng mà nhà thiết kế kho dữ liệu sẽ lựa chọn các loại lược đồ khác nhau. Dưới đây là 3 mơ hình chính được sử dụng phổ biến khi thiết kế kho dữ liệu.
2.4.2 Mơ hình dữ liệu hình sao
2.4.2.1 Khái niệm
Lược đồ hình sao là lược đồ kho dữ liệu đơn giản nhất. Nó được gọi là lược đồ sao vì sơ đồ của lược đồ hình sao giống với một ngơi sao, với các điểm tỏa ra từ một trung tâm. Tâm của ngôi sao bao gồm một hoặc nhiều bảng fact và các điểm của ngôi sao là các bảng dimesion.
Lê Th Thu Trangị 30
Khóa lu n t t nghi pậ ố ệ dĩm.supplĩer SUppIieuid int PK Supplieuaddress ⅛archar(256} Clty region Varchar (128) Varchar (128) dỉm.employee employee Jd firsuname Iasuname birth_year iπt PK varchar(12β)
------------- F-
prod LJCUid irιt
PK Producuname varchar(256) prod UCUtype ⅛archar(2S6}
Hinh 2.7: Mơ hình dữ liệu hình sao
2.4.2.2 Các đặc điểm của mơ hình dữ liệu hình sao
- Tất cả các chiều trong lược đồ sao được biểu diễn bằng bảng một chiều duy nhất.
- Bảng Dimesion được nối với bảng Fact bằng khóa ngoại
- Bảng Dimesion khơng được nối với nhau
- Lược đồ sao rất dễ hiểu và cung cấp việc sử dụng đĩa tối ưu.
- Lược đồ sao cung cấp một thiết kế linh hoạt có thể dễ dàng thay đổi hoặc thêm vào trong suốt chu kỳ phát triển
- Lược đồ sao làm giảm sự phức tạp của dữ liệu cho cả nhà phát triển và người dùng cuối
Khóa lu n t t nghi pậ ố ệ
2.4.2.3 Nhược điểm lược đồ hình sao
Do thiết kế đơn giản, mỗi chiều chỉ được thể hiện bởi một bảng Dimesion duy nhất nên với các chiều có mối quan hệ phức tạp như chiều thời gian, chiều địa điểm.. thì lược đồ hình sao sẽ khơng thể đáp ứng được.
2.4.3 Mơ hình dữ liệu hình bơng tuyết
2.4.3.1 Khái niệm
Mơ hình dữ liệu hình bơng tuyết là sự sắp xếp, liên kết giữa các bảng chiều trong mơ hình dữ liệu đa chiều của kho dữ liệu, hình thành dựa trên mối quan hệ thực tế giữa các chiều. Mơ hình bơng tuyết là mơ hình mở rộng của hơn của mơ hình hình sao. Dưới đây là ví dụ thể hiện kiến trúc của mơ hình bơng tuyết.
Dhnentton τ.blβ DKnontIon t.bto I Dlm*>nton Tobte
Loation LocabonJD Region Dimonsion robin Dealer DeaIerJD LoubonJD CountryID DeaIerNM Dealer CNTCT Toe! Iablo Date Dim DateJD Vear Month Quarter Date Country CountryJD Country-Name Branch Dim Branch JD Name Address Country Revenue DeaIerJD MocIeIJD BranchJD DateJD UmtS-SoId Revenue Dimension Table Product Product-ID Product-Name ModeI-ID Vanant-ID Oimnntlon Table Variant Variant-ID Variant-Name Fuel type
Hinh 2.8: Mơ hình dữ liệu hình bơng tut
2.4.3.2 Ưu điểm
- Kích thước các bảng chiều nhỏ hơn do được chia nhỏ thành các bảng chiều khác.
- Dễ dàng để bổ dung thêm các bảng chiều khác.
- Thích hợp sử dụng cho các tổ chức lớn.
Khóa lu n t t nghi pậ ố ệ
- Do các chiều dữ liệu được phân cấp, liên kết với nhau dựa theo mối quan hệ giữa các bảng Dimesion ngồi thực tế. Điều này giúp nhà phân tích dễ dàng nắm bắt được tổng thể mô hinh dữ liệu từ chi tiết đến tổng quát.
- Linh hoạt trong việc xây dựng báo cáo dựa trên các cấp độ của chiều dữ liệu.
2.4.3.3 Nhược điểm
- Do có nhiều bảng chiều được kết nối với nhau nên làm giảm hiệu xuất của câu truy vấn.
- Tốn nhiều thời gian để quản lý dữ liệu trong các bảng chiều do chúng có mối quan hệ phức tạp.
2.4.4 Mơ hình dữ liệu hình chịm sao
2.4.4.1 Khái niệm
Mơ hình dữ liệu chịm sao chứa các bảng fact có chung các bảng dimesion, được xem như mơ hình mở rộng của mơ hình sao. Dưới đây là mơ hình dữ liệu minh họa cho mơ hình dữ liệu chịm sao.
Hinh 2.9: Mơ hình dữ liệu hình chịm sao
Khóa lu n t t nghi pậ ố ệ
2.5 Giới thiệu về ETL
2.5.1 Khái niệm ETL
ETL là kí tự viết tắt của Extract, Transform và Load. Đó là q trình lấy và chuyển đổi dữ liệu từ hệ thống nguồn và đưa nó vào kho dữ liệu.
- Trích xuất (Extract): là bước đầu tiên trong q trình đưa dữ liệu vào mơi trường kho dữ liệu. Trích xuất có nghĩa là đọc và hiểu dữ liệu nguồn và sao chép dữ liệu cần thiết vào hệ thống ETL để thao tác thêm.
- Chuyển đổi (Transform): sau khi dữ liệu đươc trích xuất từ nguồn, tồn tại dưới dạng nguyên bản cần được làm sạch như: chỉnh lỗi sai chính tả, thống nhất cách đặt tên, xử lý dữ liệu bị sai, thiếu. Sau khi trải qua q trình chuyển đổi, dữ liệu có giá trị để phân tích.
- Vận chuyển (Load): là bước cuối cùng trong quá trình ETL dữ liệu, sau khi được chuyển đổi thành công, dữ liệu sẽ được chuyển đến các bảng Dimesion và Fact.
Khóa lu n t t nghi pậ ố ệ
2.5.2 Cách triển khai ETL dữ liệu
Hình 2.10: Cách triển khai ETL dữ liệu
Có 2 cách để triển khai ETL dữ liệu (W.H. Inmon, 2002):
- ETL (Extract, Transform và Load): đây là cách truyền thống khi ETL dữ liệu, dữ liệu được lấy từ nguồn và được chuyển đến khu vực riêng để chuyển đổi trước khi được chuyển đến kho dữ liệu.
- ELT (Extract, Load và Transform): Dữ liệu được lấy từ hệ thống nguồn và được chuyển về kho dữ liệu, tại đây dữ liệu sẽ được chuyển đổi để có giá trị phân tích. Mọi người thường xử dụng phương pháp ELT khi họ có hệ quản trị cơ sở lớn đủ để lưu trữ lượng dữ liệu khổng lồ, được gọi là MPP (Massively Parallel Processing). MPP là một tập hợp các máy chủ,mỗi máy chủ đều có bộ nhớ, bộ xử lý, ổ đĩa riêng giúp tăng tốc độ xử lý và lưu trữ dữ liệu.
Khóa lu n t t nghi pậ ố ệ 2.5.3 Cách tiếp cập ETL Data' Data' Push Triggers Source System Source System Source System Source System Export Push Log Reader ETL Hình 2.11: Cách tiếp cận ETL
- Cách 1: Đây là cách phổ biến nhất để lấy dữ liệu. Bằng cách kết nối với cơ sở dữ liệu và thực câu truy vấn để lấy dữ liều.
- Cách 2: Tạo trigger ở các bảng nguồn. Cách trigger là tập hợp các câu lệnh sẽ được