1. Trang chủ
  2. » Luận Văn - Báo Cáo

TÌM HIỂU KHO DỮ LIỆU VÀ KỸ THUẬT KHAI PHÁ DỮ LIỆU

45 491 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 45
Dung lượng 0,93 MB

Nội dung

Kho dữ liệu thường rất lớn tới hàng trăm GB hay thậm chí hàng Terabyte Kho dữ liệu được xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu dữliệu khác nhau sao cho có th

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

BÀI THU HOẠCH

CHUYÊN ĐỀ KHAI PHÁ DỮ LIỆU VÀ NHÀ KHO DỮ LIỆU

ĐỀ TÀI: TÌM HIỂU KHO DỮ LIỆU VÀ

KỸ THUẬT KHAI PHÁ DỮ LIỆU

Giảng viên : PGS.TS Đỗ Phúc Học viên thực hiện : Đinh Đức Khoa

Mã số : CH1102003

Trang 2

HÀ NỘI - 2012

MỤC LỤC

CHƯƠNG I: GIỚI THIỆU VỀ KHO DỮ LIỆU 3

1 KHO DỮ LIỆU – DATA WAREHOUSE 3

2 MỤC ĐÍCH CỦA KHO DỮ LIỆU 4

3 ĐẶC TÍNH DỮ LIỆU TRONG KHO DỮ LIỆU 4

4 PHÂN BIỆT DW VỚI NHỮNG HỆ CƠ SỞ DỮ LIỆU TÁC GHIỆP 6

CHƯƠNG 2: KIẾN TRÚC KHO DỮ LIỆU 9

1 KIẾN TRÚC DỮ LIỆU MỘT TẦNG(Single-layer Architecture) 11

2 KIẾN TRÚC DỮ LIỆU HAI TẦNG (Two-layer Architecture) 12

3 KIẾN TRÚC DỮ LIỆU BA TẦNG (Three-layer Architecture) 13

CHƯƠNG 3: XÂY DỰNG VÀ SỬ DỤNG KHO DỮ LIỆU 15

1 PHÂN TÍCH CÁC YÊU CẦU CỦA KHO DỮ LIỆU 15

2 CÁC MÔ HÌNH DỮ LIỆU CỦA DW 16

3 TẠO LẬP CÁC KHO DỮ LIỆU 20

4 TRUY CẬP VÀ KHAI THÁC DỮ LIỆU 22

CHƯƠNG 4: KỸ THUẬT KHAI PHÁ DỮ LIỆU 29

1 VÀI NÉT VỀ KHAI PHÁ DỮ LIỆU 29

2 KỸ THUẬT PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU 29

3 KỸ THUẬT PHÂN CỤM 33

4 KỸ THUẬT KHÁM PHÁ LUẬT KẾ HỢP 35

CHƯƠNG 5: XÂY DỰNG CHƯƠNG TRÌNH DEMO 37

1 MÔ TẢ BÀI TOÁN 37

2 CẤU TRÚC DỮ LIỆU 38

3 THUẬT TOÁN 38

4 GIAO DIỆN CHƯƠNG TRÌNH 39

5 TRÌNH TỰ THỰC HIỆN 43

KẾT LUẬN 44

Trang 3

CHƯƠNG I: GIỚI THIỆU VỀ KHO DỮ LIỆU

Dữ liệu ngày một nhiều, lưu trữ phân tán ở nhiều dạng không tương thích vớinhau, thậm chí còn ở những dạng phi cấu trúc Nhiều hệ CSDL đã được xây dựngkhông tương thích với nhau và không tương thích với những hệ thông tin mới đượcxây dựng Bên cạnh đó, Internet đã mở ra nhiều khả năng và triển vọng cho các doanhnghiệp, cung cấp cho chúng ta nhiều thông tin phong phú về mọi lĩnh vực của xã hộiloài người, từ các công trình nghiên cứu, kết quả học tập, thông tin quảng cáo, du lịch,các loại trò chơi giải trí, thương mại điện tử, v.v Rất nhiều hoạt động của chúng ta cóthể thực hiện được thông qua Internet Tuy nhiên, một vấn đề đặt ra là làm thế nào để

tổ chức, khai thác được những khối lượng dữ liệu khổng lồ và đa dạng đó được?

Về phía người sử dụng, các khó khăn gặp phải thường là:

• Không thể tìm thấy dữ liệu cần thiết

• Không thể lấy ra được dữ liệu cần thiết

• Không thể hiểu dữ liệu tìm thấy

• Không thể sử dụng được dữ liệu tìm thấy

Những vấn đề về hệ thống thông tin:

• Khối lượng dữ liệu lưu trữ tăng rất nhanh

• Quản trị dữ liệu phức tạp

• Phát triển các chương trình khác nhau là không đơn giản

• Duy trì những chương trình này gặp rất nhiều vấn đề

Giải pháp cho tất cả các vấn đề nêu trên chính là việc xây dựng một kho chứa

dữ liệu (Data Warehouse)

1 KHO DỮ LIỆU – DATA WAREHOUSE

Định nghĩa: Kho dữ liệu (Data Warehouse - DW) là tuyển tập các CSDL tích hợp,

hướng chủ đề, được thiết kế để hỗ trợ cho chức năng trợ giúp quyết định, mà mỗi đơn

vị dữ liệu đều liên quan tới một khoảng thời gian cụ thể.

Kho dữ liệu thường rất lớn tới hàng trăm GB hay thậm chí hàng Terabyte Kho

dữ liệu được xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu dữliệu khác nhau sao cho có thể kết hợp được cả những ứng dụng của các công nghệ hiệnđại và kế thừa được từ những hệ thống đã có sẵn từ trước Dữ liệu phát sinh từ các

Trang 4

hoạt động hàng ngày và được thu thập xử lý để phục vụ công việc nghiệp vụ cụ thể củamột tổ chức thường được gọi là dữ liệu tác nghiệp (operational data) và hoạt động thuthập xử lýloại dữ liệu này được gọi là xử lý giao dịch trực tuyến (On_line TransactionProcessing - OLPT) Kho dữ liệu trái lại phục vụ cho việc phân tích với kết quả mangtính thông tin cao Các hệ thống thông tin thu thập xử lýdữ liệu loại này còn gọi là hệ

xử lýphân tích trực tuyến (On_Line Analytical Processing - OLAP)

2 MỤC ĐÍCH CỦA KHO DỮ LIỆU

• Có khả năng đáp ứng mọi yêu cầu về thông tin của NSD

• Hỗ trợ để các nhân viên của tổ chức thực hiện tốt, hiệu quả công việc của mình,

có những quyết định hợp lý, nhanh và bán được nhiều hàng hơn, thu được lợinhuận cao hơn, v.v

• Giúp cho tổ chức, xác định, quản lý và điều hành các dự án, các nghiệp vụ mộtcách hiệu quả và chính xác

• Tích hợp dữ liệu và các siêu dữ liệu từ nhiều nguồn khác nhau

• Muốn đạt được những yêu cầu trên thì DW phải:

• Nâng cao chất lượng dữ liệu bằng các phương pháp làm sạch và tinh lọc dữ liệutheo những hướng chủ đề nhất định

• Tổng hợp và kết nối dữ liệu

• Đồng bộ hoá các nguồn dữ liệu với DW

• Phân định và đồng nhất các hệ quản trị cơ sở dữ liệu tác nghiệp như là các công

cụ chuẩn để phục vụ cho DW

• Quản lí siêu dữ liệu

• Cung cấp thông tin được tích hợp, tóm tắt hoặc được liên kết, tổ chức theo cácchủ đề

• Dùng trong các hệ thống hỗ trợ quyết định (Decision suport system - DSS), các

hệ thống thông tin tác nghiệp hoặc hỗ trợ cho các truy vấn đặc biệt

3 ĐẶC TÍNH DỮ LIỆU TRONG KHO DỮ LIỆU

1 Tính tích hợp

Trang 5

Khái niệm tích hợp có nghĩa là kho dữ liệu có khả năng thu thập dữ liệu từnhiều nguồn và trộn ghép với nhau tạo thành một thể thống nhất

2 Gắn thời gian

Mỗi bản ghi của kho dữ liệu chứa một yếu tố thời gian như một phần của khóachính để bảo đảm tính duy nhất của mỗi bản ghi và cung cấp một đặc trưng về thờigian cho dữ liệu Toàn bộ dữ liệu trong kho được tạo ra và gắn liền với một giá trị thờigian nhất định

3 Có tính lịch sử

Các thông tin trong kho dữ liệu được tập trung theo thời gian và thể hiện mộtkhung nhìn của một chủ đề trong một giai đoạn

Thời gian ngắn 30-60 ngày

Có thể có yếu tố thời gian hoặc không

Dữ liệu có thể cập nhật

Thời gian dàiLuôn có yếu tố thời gianKhi dữ liệu được chụp lại thì không cậpnhật được

Trang 6

6 Dữ liệu tổng hợp và chi tiết

Dữ liệu chi tiết là thông tin mức thấp nhất được lưu trữ trong kho dữ liệu Dữliệu tác nghiệp chính là thông tin mức thấp nhất Dữ liệu tổng hợp được tích hợp lạiqua nhiều giai đoạn khác nhau

4 PHÂN BIỆT DW VỚI NHỮNG HỆ CƠ SỞ DỮ LIỆU TÁC GHIỆP

• Kho dữ liệu phải được xác định theo hướng chủ đề Nó được thực hiện theo ý

đồ của người sử dụng đầu cuối trong khi các hệ CSDL tác nghiệp dùng để phục

vụ các mục đích áp dụng chung

• DW quản lí một khối lượng lớn thông tin được lưu trữ trên nhiều phương tiệnlưu trữ và xử lýkhác nhau Những hệ CSDL thông thường không phải quản línhững lượng thông tin lớn mà quản lí những lượng thông tin vừa và nhỏ Trongkhi đó thì DW phải quản lí những lượng thông tin rất lớn và đó cũng chính làđặc thù của kho dữ liệu

• DW có thể ghép nối các version khác nhau của các loại cấu trúc CSDL DWtổng hợp thông tin để thể hiện chúng dưới những hình thức dễ hiểu đối vớingười sử dụng

• DW tích hợp và kết nối thông tin từ những nguồn khác nhau trên nhiều loạiphương tiện lưu trữ và xử lýthông tin nhằm phục vụ cho những ứng dụng xửlýtác nghiệp trực tuyến

Đọc Đọc

Thêm Xóa Sửa

Trang 7

• DW có thể lưu trữ các thông tin tổng hợp theo một chủ đề nghiệp vụ nào đó saocho tạo ra các thông tin phục vụ hiệu quả cho việc phân tích của người sử dụng.

• DW thông thường chứa các dữ liệu lịch sử kết nối nhiều năm trước của cácthông tin tác nghiệp được tổ chức lưu trữ có hiệu quả và có thể hiệu chỉnh lại dễdàng Dữ liệu trong CSDL tác nghiệp thường là mới, có tính thời sự trongkhoảng thời gian ngắn

• Dữ liệu từ CSDL tác nghiệp được chắt lọc và tổng hợp lại để chuyển sang môitrường DW Rất nhiều dữ liệu khác không được chuyển về DW, chỉ những dữliệu cần thiết cho công tác quản lý hay trợ giúp quyết định mới được chuyểnsang DW

Nói một cách tổng quát, DW làm nhiệm vụ phân phát dữ liệu cho nhiều đốitượng (khách hàng) xử lý thông tin dưới nhiều dạng như: CSDL, SQL query, Report

Một số tiêu chí so sánh 2 hệ thống CSDL tác nghiệp - DW

Các tiêu chí so sánh Hệ thống tác nghiệp Kho dữ liệu

Khối lượng công việc Dự đoán được, định kỳ Không dự đoán được

Hoạt động NSD Tập trung, tính toán, báo cáo Thăm dò, phân tích, quản

lý và khai phá dữ liệu

Các ứng dụng của kho dữ liệu

Các kỹ thuật kho dữ liệu và khai phá dữ liệu có thể ứng dụng vào nhiều tìnhhuống thực hiện ra quyết định đa dạng và trong nhiều phạm vi rộng của các hoạt độngnghiệp vụ

Marketing: phân tích các nhu cầu của khách hàng dựa trên các mẫu dữ liệu mua

bán hàng, phân loại khách hàng, phân loại các mặt hàng trong thời gian dài để từ

đó xác định chiến lược kinh doanh, quảng cáo, xác định các kế hoạch sản xuất

và kinh doanh theo các thời kỳ khác nhau

Trang 8

Tài chính, ngân hàng, thị trường chứng khoán: phân tích các khả năng vay, trả

nợ của khác hàng, đánh tính hiệu quả của các hoạt động kinh doanh tiền tệ củangân hàng, phân tích thị trường đầu tư chứng khoán, các hợp đồng (khế ước),công trái, phát hiện sự gian lận trong các hoạt động kinh tế, tài chính, v.v

Sản xuất, chế tạo, công nghệ: thực hiện phân tích dữ liệu về các sản xuất, chế

tạo để đề xuất tối ưu hoá về tài nguyên, vật liệu, nhân lực trong các qui trình sảnxuất và chế tạo mới, v.v

Chăm sóc sức khoẻ cộng đồng: phân tích các kết quả phòng chống và điều trị

các loại bệnh, công tác chăm sóc và bảo vệ sức khoẻ của cộng đồng, phân tích

sự tác hại của ma tuý, những tệ nạn xã hội khác, v.v

Trang 9

CHƯƠNG 2: KIẾN TRÚC KHO DỮ LIỆU

Kiến trúc kho dữ liệu dưới đây mô tả thành phần cơ bản của một kho dữ liệu

Kiến trúc của Kho dữ liệu

Giải thích

* Lớp quản lý dữ liệu

Sao lưu dữ liệu tích hợp từ nguồn dữ liệu đã chọn phục vụ cho việc tinh chế vàgia công lại dữ liệu trong kho Giám sát và đáp ứng các đòi hỏi cho các dữ liệu mới rút

từ các nguồn dữ liệu khác nhau Bảo quản dữ liệu trong các nguồn dữ liệu tác nghiệp

và nạp lại hay cập nhật và làm sạch dữ liệu

* Lớp quản lý siêu dữ liệu

Các chức năng chính của lớp này là sao chép, tạo mới, lưu trữ, phục hồi, làmsạch và cập nhật các siêu dữ liệu

* Lớp chuyển tải dữ liệu

Thực hiện chuyển tải dữ liệu giữa các khối, lớp này sử dụng các chức năng cậpnhật sao chép chuyển tải dữ liệu và các hệ thống mạng, các phần mềm trung gian Lớpchuyển tải xác định các cầu nối truyền thông cần thiết giữa các trang thiết bị phần cứng

và phần mềm của kho dữ liệu Thực hiện các yêu cầu về an toàn dữ liệu

* Lớp kết cấu hạ tầng

Thành phần quản lý các hệ thống: cung cấp khả năng tìm kiếm, quản lý; trợ giúpcho quá trình tích hợp, quản lý các phần mềm chuẩn; phục vụ cho công việc lưu trữ;cung cấp các dịch vụ quản lý và tạo ra môi trường làm việc cho khối các nguồn dữ liệu

* Khối các nguồn dữ liệu

Lớp quản lý dữ liệu Các nguồn

dữ liệu Khối tạo DW Khối tạo dựngDatamart Truy nhập và sửdụng

Lớp kết cấu hạ tầng Lớp chuyển tải siêu dữ liệu Lớp quản lý siêu dữ liệu

Trang 10

Dữ liệu tác nghiệp: các loại dữ liệu được chắt lọc từ các phần mềm ứng dụng vàcác hệ CSDL tác nghiệp đủ loại: Các hệ thống dữ liệu bên trong Các hệ thống dữ liệubên ngoài Hệ quản lý siêu dữ liệu cho khối này

*Khối tạo dựng kho dữ liệu

Khối con tinh chế có các chức năng chính như chuẩn hoá, làm sạch, sàng lọc,

tương hợp, phân định thời gian cho các thông tin nguồn, quản lý siêu dữ liệu đối vớikhối này liên quan đến việc nâng cao chất lượng của dữ liệu

Khối con gia công lại có các chức năng tích hợp, phân loại, tính toán sơ bộ tổng

hợp và kết xuất dữ liệu theo yêu cầu của người sử dụng; chuyển đổi và hình thành lạicác dữ liệu từ các nguồn khác nhau để có thể kết hợp trong cùng một khuôn dạng

Khối con kho dữ liệu có các chức năng mô hình hoá, tổng hợp và kết nối ở mức

độ cao các loại dữ liệu; tăng chất lượng, giá trị của dữ liệu; mô tả loại cơ sở dữ liệu về

cơ bản các dữ liệu xử lý ở đây được lấy trực tiếp từ khối các nguồn dữ liệu

* Khối tạo dựng kho dữ liệu chủ đề

Dùng để tạo các chủ đề từ nội dung của kho dữ liệu, các chức năng chính củakhối này là tinh chế và gia công lại bằng các phương pháp sàng lọc dữ liệu từ khối

DW, tổng hợp dữ liệu và tạo dữ liệu hướng chủ đề cụ thể; cơ chế quản lý siêu dữ liệucho khối này

* Khối truy nhập và sử dụng

Khối con truy nhập có các chức năng truy nhập trực tiếp vào khối tạo dựng kho

dữ liệu; truy nhập vào các kho dữ liệu chủ đề; gia công lại và biến đổi dữ liệu thànhcác loại dữ liệu có cấu trúc phức tạp hơn

Khối con phân tích và tạo báo cáo có các chức năng tạo ra các công cụ chuẩn để

tạo báo cáo, phân tích dữ liệu, mô hình hoá tác nghiệp; tạo ra các phần mềm trợ giúp raquyết định, các phần mềm khai thác dữ liệu

Trang 11

Có ba mô hình kiến trúc dữ liệu:

1 Kiến trúc dữ liệu một tầng,

2 Kiến trúc dữ liệu hai tầng

3 Kiến trúc dữ liệu ba tầng

1 KIẾN TRÚC DỮ LIỆU MỘT TẦNG(Single-layer Architecture)

Nguyên lý chính của kiến trúc này là mỗi phần tử dữ liệu một lần lưu trữ và chỉmột lần Đây cũng chính là điểm mạnh của kiến trúc này Bởi vì như thế sẽ tối thiểuđược không gian nhớ và tránh được vấn đề phải quản lý việc duy truỳ nhiều bản ghi dữliệu bị sao chép để đảm bảo chúng phải đồng bộ, nhất quán

Kiến trúc này phù hợp cho việc tổ chức kho dữ liệu thông tin địa chất, địa lýGIS, như các dữ liệu phục vụ cho việc khai thác dầu chẳng hạn Thông thường, dữ liệukhai thác là rất lớn và việc phân tích dữ liệu đòi hỏi tìm kiếm nhiều mẫu cực kỳ chitiết

Điểm yếu của kiến trúc một tầng:

Operational System Informational System

Các vùng chủ đề

Quy trình tích hợp dữ liệu và truy nhập sử dụng

Trang 12

• Chủ yếu là thường có sự tranh chấp nhau giữa các ứng dụng tác nghiệp với cácứng dụng thông tin, dẫn tới việc các dữ liệu được cung cấp không đáp ứng vềthời gian.

• Không hỗ trợ để sử dụng phân tán dữ liệu

Trong thực tế, việc phát triển DW các dữ liệu lịch sử từ một nguồn thườngnhanh hơn kho dữ liệu tương tự từ nhiều nguồn khác nhau Như ở trên đã nêu, người ta

có thể sử dụng khái niệm Virtual Data Warehouse- VDW như là một cách để cài đặtnhanh chóng DW mà không cần sao chép lại nhiều bộ dữ liệu

2 KIẾN TRÚC DỮ LIỆU HAI TẦNG (Two-layer Architecture)

Một điểm cải tiến của kiến trúc nêu trên là phân tách vùng dữ liệu sử dụng khácnhau của hai loại hệ thống: hệ thống thao tác và hệ thống xử lý thông tin

Tầng dưới, gồm những dữ liệu được sử dụng cho các ứng dụng tác nghiệp, thựchiện được cả đọc và ghi, đó là những dữ liệu thời gian thực Tầng trên bao gồm những

dữ liệu dẫn xuất giành cho các ứng dụng tìm kiếm thông tin Dữ liệu dẫn xuất có thểđược xác định từ dữ liệu thời gian thực thông qua các quá trình tính toán, hoặc cũng cóthể là bản sao của dữ liệu thời gian thực

Operational System Informational System

Real-time Data Derived Data

Trang 13

Nhược điểm:

• Dữ liệu có thể bị lặp lại ở mức cao Việc tổ chức dữ liệu lặp dẫn đến yêu cầu lưutrữ tốn kém không gian nhớ và vấn đề quan trọng hơn là vấn đề quản lý, duy trìlại phức tạp hơn nhiều

• Không có sự tương quan một-một giữa dữ liệu thời gian thực với dữ liệu dẫnxuất

Mặc dù có những nhược điểm như trên, nhưng không có nghĩa là kiến trúc nàykhông được sử dụng Kiến trúc này được Info Center sử dụng để xây dựng kho dữ liệuthông tin khoa học và ứng dụng

Ngày nay, nhu cầu phân tán dữ liệu tới tận các máy PC cho nhiều NSD ở khắpnơi trên mạng diện rộng WAN và mạng cục bộ LAN đòi hởi phải có giải pháp khác, đóchính là kiến trúc ba tầng

3 KIẾN TRÚC DỮ LIỆU BA TẦNG (Three-layer Architecture)

Vấn đề cốt lõi của kiến trúc này là dữ liệu thời gian thực chuyển sang dữ liệudẫn xuất thay vì một bước như ở kiến trúc trên là phải thực hiện qua hai bước

1 Hoà hợp (Reconcile) các dữ liệu từ tập dữ liệu thời gian thực, tầng trung gian

2 Dữ liệu được hoà hợp cung cấp dữ liệu dẫn xuất theo yêu cầu NSD

Tầng dữ liệu hoà hợp trung gian chính là một cách thực hiện để chuẩn hoáCSDL

Operational System Informational System

Real-time Data Derived Data Reconciled Data

Trang 14

Mục đích chính của tầng trung gian là thu thập nhiều dữ liệu khác nhau từ các

hệ thống thông tin tác nghiệp phân tán để tổ hợp lại vào một bức tranh dữ liệu chungcho mỗi xí nghiệp

Đặc trưng của kiến trúc ba tầng:

• Hỗ trợ cho những yêu cầu cần những thông tin mới từ dữ liệu

• Hỗ trợ việc tái kỹ nghệ các ứng dụng tác nghiệp

• Giảm thiểu được số lượng dữ liệu thông tin quản lý

• Giảm thiểu sự lặp lại của dữ liệu

Trang 15

CHƯƠNG 3: XÂY DỰNG VÀ SỬ DỤNG KHO DỮ LIỆU

Hệ thống kho dữ liệu DW cũng giống như các hệ thống phần mềm khác, có chutrình phát triển được cải tiên và hoàn thiện liên tục Để phát triển được kho dữ liệu

DW, chúng ta phải thực hiện lần lượt các bước: lập kế hoạch, xác định các yêu cầu,phân tích thành phần, thiết kế, cài đặt , trắc nghiệm và bảo trì hệ thống kho dữ liệu

1 PHÂN TÍCH CÁC YÊU CẦU CỦA KHO DỮ LIỆU

Xác định chiến lược cài đặt: Có ba cách tiếp cận chính:

• Thực hiện trên xuống (Top-down)

• Thực hiện dưới lên (Bottom up)

• Tổ hợp của hai cách tiếp cận trên

Lựa chọn phương pháp và mô hình phát triển kho dữ liệu: Để phát triển hệ thống kho

dữ liệu có hai phương pháp cơ bản:

• Phương pháp hướng chức năng: tập trung vào chức năng là chính, dữ liệu làphụ

• Phương pháp hướng đối tượng: xem hệ thống là tập các đối tượng và do vậy tậptrung chính vào dữ liệu

Xác định mục tiêu của kho dữ liệu: Để hỗ trợ cho việc định rõ mục tiêu của dự án, khi

lập kế hoạch, nên dựa vào những câu hỏi sau:

• Thị trường (những NSD tiềm năng) của kho dữ liệu là gì?

Xác định chiến lược cài đặt Lựa chọn phương pháp và mô hình

Xác định phạm vi Xây dựng kiến trúc

Tập hợp Metadata

Trang 16

• Những lĩnh vực nào đang sử dụng hoặc sẽ phải sử dụng kho dữ liệu?

• Những vấn đề cần lập kế hoạch, chủ yếu là những đặc tính, chức năng nào?

• Những nguồn dữ liệu nào có thể hoặc cần phải tích hợp để đưa vào kho dữ liệu?

• Khi nào thì kho dữ liệu được triển khai ứng dụng?

Xác định phạm vi: Căn cứ vào:

• Số lượng & loại đối tượng phục vụ

• Số lượng các nguồn cung cấp dữ liệu

• Tập các mô hình được lựa chọn

• Khả năng ngân sách, tài chính

• Thời gian thực hiện dự án

Xây dựng kiến trúc: Có một số hệ phần mềm DBMS được thiết kế để làm việc trong

môi trường dựa trên những phần cứng, hệ thống phần mềm khác nhau:

- Các yêu cầu của kho dữ liệu bao gồm:

• Các yêu cầu của chủ sở hữu

• Các yêu cầu của các kiến trúc sư

• Các yêu cầu của người phát triển

• Các yêu cầu của NSD

2 CÁC MÔ HÌNH DỮ LIỆU CỦA DW

Mô hình dữ liệu của DW có thể thiết lập theo:

Hình sao (Star Schema)

Tuyết rơi (Snowflake)

Mô hình đa chiều (Mutiple Dimension)

Trang 17

Hình sao: Một lược đồ gọi là lược đồ hình sao nếu tất cả các bảng chiều có thể

được kết nối trực tiếp tới bảng sự kiện (fact)

Trong sơ đồ hình sao, dữ liệu được xác định và phân loại 2 kiểu: bảng sự kiện(bảng fact) và các bảng chiều (các bảng dimension) Bảng Sự kiện (FT) chứa thông tinchi tiết (gọi là measure) cần được phân tích Nó được gọi là sơ đồ hình sao bởi vì các

FT nằm ở trung tâm của mô hình và được bao quanh bởi các chiều liên quan, rất giốngvới các điểm của một ngôi sao Các sự kiện là các đại lượng số của công việc Cácchiều là các bộ lọc hoặc các ràng buộc của những sự kiện này

Sơ đồ hình sao cải thiện đáng kể thời gian truy vấn, cho phép thực hiện một sốtính năng đa chiều nhưng lại rất trực quan, dễ sử dụng

Khóa của bảng sự kiện được tạo bởi những khóa của các bảng chứa thông tintheo từng chiều (dimension table) Tất cả các khoá đều được xác định với cùng mộttiêu chuẩn đặt tên

Những bảng sự kiện có chứa khóa của các bảng chiều, có thể là với tên khác đi

để đảm bảo tính duy nhất của mỗi bảng

Các bảng chiều có định danh duy nhất và chứa đựng những thông tin về chiềucủa bảng đó

Bảng sự kiện và các bảng theo chiều đều không bắt buộc ở dạng chuẩn như đối với phương pháp thiết kế truyền thống tức là trong kho có thể có sự dư thừa dữ liệu Với loại sơ đồ này cho phép lưu trữ dư thừa dữ liệu đổi lại khả năng truy nhập nhanh hơn phù hợp với những câu hỏi phân tích nhiều chiều, phức tạp

Trang 18

Tuyết rơi: Một lược đồ được gọi là lược đồ tuyết rơi nếu một hoặc nhiều bảng

chiều không chỉ kết nối trực tiếp với bảng fact mà còn kết nối với các bảng chiều khác

Ví dụ: Một chiều sản phẩm có thể chia ra thành 3 bảng như minh họa trong lược

đồ sau:

Sơ đồ hình tuyết rơi cho bảng sản phẩm

Trong dạng sơ đồ này, mỗi bảng theo chiều của sơ đồ hình sao được chuẩn hóahơn

Sơ đồ hình tuyết rơi với các bảng chiều chứa các sơ đồ tuyết rơi khác

Sơ đồ hình tuyết rơi cải thiện năng suất truy vấn, tối thiểu không gian đĩa cầnthiết để lưu trữ dữ liệu và cải thiện năng suất nhờ việc chỉ phải kết hợp những bảng cókích thước nhỏ hơn thay vì phải kết hợp những bảng có kích thước lớn lại không chuẩnhóa

Nó cũng làm tăng tính linh hoạt của các ứng dụng bởi sự chuẩn hóa và ít mangbản chất theo chiều hơn

Nó làm tăng số lượng các bảng và làm tăng tính phức tạp của một vài truy vấncần có sự tham chiếu tới nhiều bảng

Kết hợp: Là kết hợp giữa hình sao dựa trên bảng Fact và những bảng

Dimension không chuẩn hóa theo các chuẩn 1, 2, 3 và mô hình tuyết rơi trong đó tất cả

Trang 19

các bảng Dimension đều đã được chuẩn hóa Trong mô hình loại này chỉ những bảngDimension lớn là được chuẩn hóa còn những bảng khác chứa một khối lượng lớn cáccột dữ liệu chưa được chuẩn hóa.

Một vài cơ sở dữ liệu và các công cụ truy vấn của người sử dụng đầu cuối nhất

là các công cụ xử lýphân tích trực tuyến (OLAP) đòi hỏi mô hình dữ liệu phải là sơ đồhình sao bởi vì nó là một mô hình dữ liệu quan hệ nhưng lại được thiết kế để hỗ trợ môhình dữ liệu đa chiều là điểm cốt lõi của OLAP Các cơ sở dữ liệu và công cụ này đượcđiều chỉnh cho phù hợp để thực hiện được các yêu cầu truy vấn đối với mô hình này

GIẢI PHÁP CHO VẤN ĐỀ NĂNG SUẤT THỰC HIỆN CỦA MÔ HÌNH DỮ LIỆU

Tư tưởng cơ bản của việc tối ưu là chiến lược kết hợp các cặp bảng bằng cáchlựa chọn chỉ các bảng có liên quan tới nhau ít nhất Nói một cách khác, chiến lược tối

ưu này cho phép những sản phẩm của các nhà cung cấp nổi tiếng như ORACLE kếthợp những bảng không quan hệ với nhau Khi 2 bảng được kết hợp và không có cộtnào liên kết 2 bảng đó với nhau sự kết hợp các hàng của 2 bảng được thực hiện Trongđại số quan hệ, cách kết hợp này được gọi là tích Đề các Lấy ví dụ bảng PRODUCTS

có 2 hàng (‘bolts’, ‘nut’) và bảng MARKETS có 3 hàng (‘east’,’west’, ‘central’), tích

đề các bao gồm 6 hàng ( ‘bolts’/’east’, ‘bolts’/’west’, ‘bolts’/’central’, ‘nut’/’east’,

‘nut’/’west’, ‘nut’/’central’)

RDBMS không bao giờ coi tích Đề các như một phép kết hợp tốt, nhưng đối với

sơ đồ hình sao những tích đề các này đôi khi cải thiện công suất truy vấn Bởi vì bảngFact trong sơ đồ hình sao có kích thước lớn hơn rất nhiều các bảng Dimension mà sựkết hợp các cặp bảng được thực hiện đầu tiên với bảng Fact Sự lựa chọn này là khônghợp lí vì như vậy sẽ tạo ra các bảng trung gian rất lớn Một tích đề các được thực hiệnđầu tiên với tất cả các bảng Dimension (bằng cách kết hợp các cặp bảng liên tiếp nhau)

và sự kết hợp với bảng Fact được lùi lại cuối cùng Lợi ích quan trọng là bảng Factkhông tìm thấy dấu vết của nó trong bất kì một bảng kết quả trung gian nào Chi phílớn nhất là tạo ra tích Đề các cho tất cả các bảng Dimension Chi phí này ít tốn kémhơn việc tạo ra các bảng trung gian do kết hợp với bảng Fact

Sự tối ưu đơn giản không giải quyết được tất cả các vấn đề về năng suất thựchiện Chiến lược này chỉ dùng được chỉ khi tích đề các của các hàng trong các bảngDimension được chọn ít hơn rất nhiều so với số lượng hàng trong bảng Fact Như vậy

Trang 20

việc kết hợp đề các này chỉ có ích cho những sự kết hợp có kích thước nhỏ Nhưng

DW liên quan tới những bảng có kích thước không nhỏ vì vậy một số nhà cung cấpdùng giải pháp sử dụng phần cứng và các phần mềm song song để giải quyết vấn đềnày Dùng hệ thống song song có thể làm giảm thời gian thực hiện một truy vấn đơngiản hoặc làm thêm một số công việc mà không làm thay đổi thời gian thực hiện côngviệc Ngoài ra dùng các CPU gồm nhiều bộ vi xử lýcũng cải tiến được thời gian chomột câu truy vấn từ 500 giây xuống còn 50 giây Cơ chế song song không tối ưu mộtcách đầy đủ các xử lýcủa sơ đồ hình sao

3 TẠO LẬP CÁC KHO DỮ LIỆU

Xây dựng kho dữ liệu là quá trình tích hợp dữ liệu từ các nguồn khác nhau vàomột kho Các nhà phân tích nghiệp vụ có thể truy vấn kho dữ liệu và sinh các báo cáo,biểu đồ để trợ giúp quá trình ra quyết định của họ Một kho dữ liệu có thể chứa CSDLlớn toàn xí nghiệp mà NSD và người quản trị có thể truy cập hoặc có thể kết hợp một

số hệ thống nhỏ thường gọi là kho dữ liệu chủ đề (DataMarts - DM) Điển hình, mỗi

DM gắn với một miền chủ đề bên trong một kho dữ liệu lớn

3.1 CÁC NGUỒN DỮ LIỆU

Các nguồn dữ liệu bao gồm các hệ thống dữ liệu ở bên trong, hoặc bên ngoài

của một cơ quan, tổ chức hay một xí nghiệp

Các hệ thống dữ liệu về một tổ chức được coi như các hệ thống nguồn, dữ liệu

bên trong, thường là những hệ thống thông tin có sẵn (Legacy System - LS) Đó là

những hệ thống tác nghiệp, hỗ trợ các hoạt động nghiệp vụ như sản xuất, hay kinhdoanh Hệ thống này đã từng được phát triển, sử dụng các công nghệ có sẵn và vẫn phùhợp với các nhu cầu của kinh doanh hiện tại Các hệ thống này có thể được thực hiệntrong nhiều năm tới và có lẽ không có hoặc có rất ít minh chứng bằng tài liệu

Dữ liệu bên ngoài ( External Data): là dữ liệu không nằm trong các hệ thống

tác nghiệp của tỏ chức đó, là những dữ liệu do người sử dụng đầu cuối yêu cầu để điềnvào bức tranh tổng thể phục vụ các nhu cầu công việc của họ

Phân tích các nguồn dữ liệu: Các ứng dụng được phát triển với dữ liệu mà các

dữ liệu này phù hợp với các nhu cầu khác nhau, với cùng một hệ thống dữ liệu nhưng với tên khác nhau, hoặc với các hệ thống đo lường khác nhau, định nghĩa dữ liệu thậm chí chúng có những yêu cầu về dữ liệu tương tự như nhau Kết quả cuối cùng là các

Trang 21

nguồn dữ liệu cần được đánh giá và các định nghĩa dựa vào Metadata để nhắm tới các

vấn đề sau:

• Xác định các nguồn, các cấu trúc file, các nền cơ sở (platform) khác nhau

• Hiểu được dữ liệu nào có trong các hệ thống nguồn đang tồn tại, các định nghĩa

về nghiệp vụ của dữ liệu, và bất kì các luật nghiệp vụ nào cho dữ liệu

• Phát hiện sự giao nhau về thông tin của các hệ thống khác nhau

• Quyết định dữ liệu tốt nhất trong các hệ thống- có thể cùng một dữ liệu củanhiều hơn một hệ thống Mỗi hệ thống cần được đánh giá để quyết định hệthống nào có dữ liệu rõ ràng và chính xác hơn

Thu thập và tạo lập dữ liệu

Một phần quan trọng của việc cài đặt kho dữ liệu là sử dụng những dữ liệu đã

được tinh chế từ những hệ thống tác nghiệp và đưa chúng vào một khuôn dạng thích hợp cho các ứng dụng thông tin.

Những công cụ này thực hiện tất cả các công việc chuyển đổi, tóm tắt nhữngthay đổi quan trọng, những thay đổi về cấu trúc và những cô đọng cần thiết cho sựchuyển đổi dữ liệu riêng rẽ thành thông tin có thể được dùng trong những công cụ hỗtrợ quyết định Nó sản sinh ra những chương trình và kiểm soát những câu lệnh của

Cobol, ngôn ngữ C, Unix script và ngôn ngữ định nghĩa dữ liệu SQL cần thiết để chuyển dữ liệu vào DW từ nhiều hệ thống tác nghiệp khác nhau Nó cũng duy trì Metadata Các chức năng chính bao gồm:

• Loại bỏ những dữ liệu không mong muốn từ những cơ sở dữ liệu tác nghiệp

• Chuyển đổi thành những tên gọi và những định nghĩa dữ liệu chung, tổng quát

• Tính toán các tổng và dữ liệu đã được chuyển hóa

• Thiết lập những mặc định cho các dữ liệu bị mất

• Làm cho những thay đổi về định nghĩa dữ liệu nguồn trở nên thích hợp

Quá trình này thu thập và thiết lập các kho dữ liệu gồm những bước sau:

Trang 22

3.2 DUY TRÌ VÀ TRIỂN KHAI KHO DỮ LIỆU

Triển khai liên quan tới thực tế nằm ngoài DW, ngoài Metadata, liên quan tới

việc thực hiện, đào tạo và giáo dục, quản lí các nhu cầu vế công cụ truy vấn của người

sử dụng đầu cuối, lưu trữ các dữ liệu cũ Giai đoạn triển khai đưa những thành phầnphụ và cố định vào DW

- Giai đoạn triển khai đưa vào các phần trang trí và những bộ phận bất độngvào Data Warehouse Tại giai đoạn này, công cụ truy nhập và phân tích đãphải được lựa chọn để cung cấp tập kết qủa

4 TRUY CẬP VÀ KHAI THÁC DỮ LIỆU

Mục đích chính của phương pháp DW là cung cấp thông tin cho những nhànghiệp vụ để tạo ra những quyết định chiến lược Những người sử dụng này liên hệ với

DW thông qua việc sử dụng công cụ đầu cuối Với các mục đích khác nhau công cụđược chia ra làm năm loại chính sau:

Source

LoadArchive

Target

Extract

System

- Snow ball effect

- Feed back loop

Ngày đăng: 09/04/2015, 21:33

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
2- Đoàn Văn Ban, Phương pháp thiết kế và khai thác kho dữ liệu, Viện Công Nghệ thông tin, 1997 Sách, tạp chí
Tiêu đề: Phương pháp thiết kế và khai thác kho dữ liệu
3- J. Han, M. Kamber, Data Mining:Concepts and Techniques, Second Edition, Morgan Kaufmann Publishers, 2006 Sách, tạp chí
Tiêu đề: Data Mining:Concepts and Techniques
4- A. Berson, S J. Smith, Data Warehousing, Data Ming, & OLAP, McGraw Hill, 1997 Sách, tạp chí
Tiêu đề: Data Warehousing, Data Ming, & OLAP
5- B. Devlin: Data Warehouse From Architecture To Implementation. Addison Wesley Longman.1997 Sách, tạp chí
Tiêu đề: Data Warehouse From Architecture To Implementation
7- J. Bischoff & T. Alexander, Data Warehouse: Practical Advice from the Experts, Prentice Hall, 2002 Sách, tạp chí
Tiêu đề: Data Warehouse: Practical Advice from theExperts
1- PGS.TS. Đỗ Phúc, Bài giảng khai phá dữ liệu & nhà kho dữ liệu, Đại học Quốc gia TP. Hồ Chí Minh, 2012 Khác
6- Informix Software: An Intrduction do Data Warehousing, 1996 Khác

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w