Kiến trúc kho dữ liệu với Staging Area và Data Mart

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Thiết kế và triển khai kho dữ liệu khách hàng sử dụng dịch vụ viễn thông của Tổng Công ty Bưu chính Viễn thông Việt Nam (VNPT) Luận văn ThS. Công nghệ thông tin 1 01 10 (Trang 25 - 29)

2.7.1. Nguồn dữ liệu

Nguồn dữ liệu của DWH gồm nhiều loại khác nhau:  Dữ liệu từ các hệ thống tác nghiệp

o Chứa dữ liệu chi tiết và hiện tại

o Được sử dụng cho các giao dịch hàng ngày

o Chứa dữ liệu thích hợp hiện hành

o Là nguồn dữ liệu được tích hợp để xây dựng kho dữ liệu  Hệ thống kế thừa

o Các sưu tập dữ liệu cũ không được dùng cho các mục đích hoạt động

o Phương pháp khác nhau của việc tổ chức dữ liệu ngược lại với mô hình hiện tại

o Được mã hóa nếu cần thiết khi hệ thống đã qua xử dụng

o Thông tin không đầy đủ về cấu trúc và ngữ nghĩa của dữ liệu hệ thống kế thừa  Các nguồn dữ liệu bên ngoài

o Dữ liệu được lấy từ các nguồn bên ngoài

o Vi dụ: dl phân tích thị trường, dl báo cáo thời tiết, thuế,…

o Không phải là dữ liệu được tạo ra trong công ty

o Có thể có cấu trúc và mã hóa hoàn toàn khác nhau phụ thuộc vào nhà cung cấp

o Được yêu cầu cho các phân tích chi tiết

2.7.2. Công cụ trích xuất chuyển đổi và nạp dữ liệu (ETL)

 Làm sạch

o Tìm và loại trừ các bộ trùng nhau

o Kiểm tra tính nhất quán, khám phá ra dữ liệu sai, không nhất quán:

o Ngay trong bản thân nó: số phone đúng không, dữ liệu có ngoài vùng xác định không…

o Sửa, hoàn chỉnh dữ liệu thiếu, không đọc được, hay các giá trị rỗng (NULL)

o Chỉ ra các lỗi, và (có thể là chèn các giá trị mặc định)

o Cảnh báo cho các nguồn các kho dữ liệu về các lỗi tìm được  Chuyển đổi

o Loại trừ các dữ liệu gây nhiễu

o Chuyển đổi dữ liệu vào một lược đồ nhất quán.

o Các luật cho việc chuyển đổi

o Tri thức về dữ liệu

o Các quyết định về độ thụ của dữ liệu

o Dịch kiểu dữ liệu và tập kí tự

2.7.3. Siêu dữ liệu

 Khái niệm

o Siêu dữ liệu (metadata) là thành phần cơ bản để xây dựng và quản lí một kho dữ liệu

o Trước khi một kho dữ liệu có thể được truy cập một cách có hiệu quả, thực sự là cần thiết để hiểu, dữ liệu gì sẵn có trong kho dữ liệu, và chúng lưu trữ ở đâu.

o Siêu dữ liệu được lưu trữ trong một kho chứa và được truy cập bởi tất cả các thành phần của kho dữ liệu

 Sự quan trọng của siêu dữ liệu

o Rất quan trọng trong kho dữ liệu

o Không phải là dữ kiện phân tích

o Là chìa khóa quyết định sự thành công của kho dữ liệu

o Là thành phần luôn được thay đổi, cấp nhật theo sự phát triển của kho dữ liệu

o Dùng để quản lý, điều khiển kho dữ liệu  Sự hình thành siêu dữ liệu

o Trong quá trình xây dựng kho dữ liệu.

 Sản sinh một cách tự động

 Được tạo ra trong quá trình xây dựng kho dữ liệu

o Ứng dụng:

 Miêu tả kho dữ liệu và các thành phần

 Tạo điều kiện cho việc truy cập kho dữ liệu ở mọi cấp

o Bảo trì:

 Phục vụ cho các mục đích bảo mật

 Lưu trữ thông tin về người dùng  Các bước tạo lập siêu dữ liệu

o Định nghĩa các chức năng chính của siêu dữ liệu trong hệ thống kho dữ liệu

o Xác định các vấn đề trong tích hợp dữ liệu.

o Xác định siêu dữ liệu có thể được tạo như thế nào, ai tạo ra và được lưu trữ ở đâu

o Miêu tả nội dung của siêu dữ liệu

2.7.4. Kho dữ liệu chủ đề

Kho dữ liệu chủ đề (Data Mart - DM) là DWH có những đặc điểm giống với DWH nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên ngành. Các DM có thể được hình thành từ một tập con dữ liệu của kho dữ liệu hoặc cũng có thể được xây dựng độc lập và sau khi xây dựng xong, các DM có thể được kết nối tích hợp lại với nhau tạo thành kho dữ liệu. Vì vậy có thể xây dựng kho dữ liệu bắt đầu bằng việc xây dựng các DM hay ngược lại xây dựng kho dữ liệu trước sau đó tạo ra các DM.

DM là một DWH thứ cấp các dữ liệu tích hợp của kho dữ liệu. DM được hướng tới một phần của dữ liệu thường được gọi là một vùng chủ đề (Subject Area-SA) được tạo ra dành cho một nhóm người sử dụng. Dữ liệu trong DM cho thông tin về một chủ đề xác định, không phải về toàn bộ các hoạt động nghiệp vụ đang diễn ra trong một tổ

chức. Thể hiện thường xuyên nhất của DM là một kho dữ liệu riêng rẽ trên phương diện vật lý và thường được lưu trữ trên một server riêng, trên một mạng cục bộ phục vụ cho một nhóm người nhất định.

DM gồm hai loại: DM độc lập và DM phụ thuộc:

 DM phụ thuộc: chứa những dữ liệu được lấy từ kho dữ liệu và những dữ liệu này sẽ được trích lọc và tinh chế, tích hợp lại ở mức cao hơn để phục vụ cho một chủ đề nhất định của kho dữ liệu.

 DM độc lập: không giống như DM phụ thuộc, DM loại này được xây dựng trước kho dữ liệu và dữ liệu được trực tiếp lấy từ các nguồn. Phương pháp này đơn giản hơn và chi phí thấp hơn nhưng đổi lại có những điểm yếu. Mỗi DM độc lập tạo ra cho riêng chúng những giả thiết về cách thống nhất dữ liệu và dữ liệu trong một vài DM là không đồng nhất với nhau. DM thể hiện 2 vấn đề:

o Thứ nhất là tính ổn định trong mọi tình huống khi DM phát triển theo nhiều chiều;

o Thứ hai là sự tích hợp dữ liệu. Vì vậy khi thiết kế DM tổ chức cần chú ý kỹ tới tính ổn định của hệ thống, sự đồng nhất của dữ liệu và vấn đề về khả năng quản lý.

2.7.5. Các công cụ truy vấn, tạo báo cáo, phân tích dữ liệu

 Công cụ tạo báo cáo và câu hỏi truy vấn (Report):

Dễ sử dụng, các câu hỏi được xây dựng trước hoặc được người dùng tự tạo ra dưới dạng SQL dựa trên mô hình quan hệ. Kết quả tạo ra dưới dạng báo cáo.  Công cụ phân tích trực tuyến (OLAP):

Tương đối khó sử dụng. Người dùng thao tác với dữ liệu dưới dạng mô hình nhiều chiều (thường có chiều thời gian). Công cụ này cho phép phân tích dữ liệu nhanh chóng, liên tục, lặp đi lặp lại, theo quá trình mịn dần.

 Công cụ phân tích, tìm kiếm cấp cao (Data Mining):

Dựa trên các nghiên cứu lĩnh vực trí tuệ nhân tạo. Chúng giúp phát hiện những sự kiện, hình mẫu, phụ thuộc dữ liệu trước kia chưa biết hoặc giúp chúng xây dựng những mô hình dự báo.

2.8. Tổ chức dữ liệu lôgíc

2.8.1. Lƣợc đồ kho dữ liệu

Lược đồ là một tập hợp các đối tượng cơ sở dữ liệu bao gồm bảng, view, index,…Lược đồ kho dữ liệu hay được sử dụng: lược đồ hình sao, lược đồ bông tuyết rơi, lược đồ kết hợp,…

a. Lược đồ hình sao

- Phạm vi, hay các chiều của dữ liệu, được tổ chức thành các bảng Dimension. Ưu điểm của sơ đồ hình sao:

- Hỗ trợ rất đa dạng các câu truy vấn và xử lý khá hiệu quả.

- Phù hợp với cách mà NSD nhận và sử dụng dữ liệu và qua đó làm cho dữ liệu được hiểu trực quan hơn.

- Nguyên lý cơ bản của sơ đồ hình sao là một dạng dư thừa dữ liệu cải thiện sự thực hiện các truy vấn. Sự phi chuẩn hóa có thể coi là sự tiền kết nối các bảng để cho các ứng dụng không phải thực hiện công việc kết nối, làm giảm thời gian thực hiện.

- Khóa của bảng sự kiện được tạo bởi những khóa của các bảng chứa thông tin theo từng phạm vi. Tất cả các khóa đều được xác định với cùng một chuẩn đặt tên.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Thiết kế và triển khai kho dữ liệu khách hàng sử dụng dịch vụ viễn thông của Tổng Công ty Bưu chính Viễn thông Việt Nam (VNPT) Luận văn ThS. Công nghệ thông tin 1 01 10 (Trang 25 - 29)

Tải bản đầy đủ (PDF)

(135 trang)