1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai phá dữ liệu trong ác cơ sở dữ liệu quan hệ lớn và các kho dữ liệu

118 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khai Phá Dữ Liệu Trong Các Cơ Sở Dữ Liệu Quan Hệ Lớn Và Các Kho Dữ Liệu
Tác giả Nguyễn Văn Tỉnh
Người hướng dẫn PGS.TS. Nguyễn Thanh Thủy
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Công Nghệ Thông Tin
Thể loại luận văn thạc sĩ
Năm xuất bản 2006
Thành phố Hà Nội
Định dạng
Số trang 118
Dung lượng 3,63 MB

Nội dung

Trang 1 TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI--- LUẬN VĂN THẠC SỸ KHOA HỌCKHAI PHÁ DỮ LIỆU TRONG CÁC CƠ SỞ DỮ LIỆU QUAN HỆ LỚN VÀ CÁC KHO DỮ LIỆU Trang 2 PGS.TS.. CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆ

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

-

LUẬN VĂN THẠC SỸ KHOA HỌC

KHAI PHÁ DỮ LIỆU TRONG CÁC CƠ SỞ DỮ LIỆU

QUAN HỆ LỚN VÀ CÁC KHO DỮ LIỆU

NGÀNH: CÔNG NGHỆ THÔNG TIN

Trang 2

PGS.TS Nguyễn Thanh Thuỷ, ngư đời ã có những h ớng dẫn tận tình, quý ưbáu giúp em hoàn thành luận văn này

Em cũng xin cảm n các Thầy Cô thuộc tr ờng ại học Bách Khoa Hà ơ ư ĐNội đã truyền ạt kiến thức quý báu trong khoá học này.đ

Cuối cùng xin cảm ơn gia đình và cơ quan n i công tác đơ ã tạo điều kiện thuận lợi để tôi hoàn thành khoá học này

Hà nội, tháng 4 nă m 2006

Ng uyễn Văn Tỉnh

Trang 3

MỤC LỤC

LỜI CẢM ƠN 0

MỤC LỤC 1

DANH MỤC CÁC THUẬT NGỮ 5

DANH MỤC BẢNG 6

DANH MỤC HÌNH 7

MỞ ĐẦU 8

CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 9

1.1 Phát hiện tri thức từ cơ sở dữ liệu và khai phá dữ liệu 9

1.2 Lý do phát triển khai phá dữ liệu 11

1.3 Những dạng lưu trữ dữ liệu được khai phá 12

1.3.1 Các cơ sở dữ liệu quan hệ 12

1.3.2 Các kho dữ liệu 13

1.3.3 Các cơ sở dữ liệu giao dịch 13

1.3.4 Các hệ thống cơ sở dữ liệu tiên tiến và các ứng dụng cơ sở dữ liệu tiên tiến 13

1.4 Những nhiệm vụ khai phá dữ liệu và các mẫu dữ liệu được khai phá

14

1.4.1 Mô tả đặc trưng lớp dữ liệu và so sánh lớp dữ liệu 14

1.4.2 Phân tích luật kết hợp 14

1.4.3 Phân lớp và dự đoán 16

1.4.4 Phân tích ghép cụm 16

1.4.5 Phân tích thành phần ngoài 17

1.4.6 Phân tích tiến hoá 17

1.5 Những mẫu dữ liệu được quan tâm trong khai phá dữ liệu 17

1.6 Phân loại các hệ thống khai phá dữ liệu 18

1.7 Các giải pháp chính trong khai phá dữ liệu 20

CHƯƠNG 2 KHO DỮ LIỆU VÀ NGÔN NGỮ TRUY VẤN KHAI PHÁ DỮ LIỆU 24

2.1 Kho dữ liệu và công nghệ OLAP đối với khai phá dữ liệu 24

2.1.1 Khái niệm kho dữ liệu 24

2.1.1.1 Sự khác nhau giữa các hệ thống cơ sở dữ liệu tác nghiệp và các kho dữ liệu 25

2.1.1.2 Lý do cần có một kho dữ liệu riêng biệt 26

2.1.2 Mô hình dữ liệu đa chiều 27

2.1.2.1 Các khối dữ liệu 27

2.1.2.2 Các phân cấp khái niệm (concept hierachy) 27

2.1.2.2 Các thao tác OLAP trong mô hình dữ liệu đa chiều 28

2.1.3 Kiến trúc kho dữ liệu 29

2.1.3.1 Các bước để thiết kế và xây dựng kho dữ liệu 29

Trang 4

2.1.3.2 Kiến trúc kho dữ liệu 3 tầng 29

2.1.3.3 Các loại máy chủ OLAP 30

2.1.4 Cài đặt kho dữ liệu 31

2.1.4.1 Tính toán hiệu quả các khối dữ liệu 31

2.1.4.2 Sắp xếp dữ liệu OLAP 35

2.1.4.3 Xử lý có hiệu quả các truy vấn OLAP 36

2.1.4.4 Lưu trữ siêu dữ liệu 37

2.1.5 Từ kho dữ liệu đến khai phá dữ liệu 38

2.1.5.1 Việc sử dụng kho dữ liệu 38

2.1.5.2 Tích hợp xử lý phân tích trực tuyến với khai phá dữ liệu 38

2.2 Những thành phần xác định nhiệm vụ truy vấn khai phá dữ liệu và ngôn ngữ truy vấn khai phá dữ liệu 41

2.2.1 Những thành phần xác định nhiệm vụ khai phá dữ liệu 41

2.2.1.1 Dữ liệu phù hợp nhiệm vụ 41

2.2.1.2 Loại tri thức được khai phá 42

2.2.1.3 Cơ sở tri thức: Các phân cấp khái niệm 42

2.2.1.4 Các đánh giá quan tâm 45

2.2.1.5 Biểu diễn và trực quan hoá các mẫu được phát hiện 47

2.2.2 Một ngôn ngữ truy vấn khai phá dữ liệu 47

2.2.2.1 Cú pháp đặc tả dữ liệu phù hợp nhiệm vụ 48

2.2.2.2 Cú pháp đặc tả loại tri thức được khai phá 48

2.2.2.3 Cú pháp đặc tả phân cấp khái niệm 49

2.2.2.4 Cú pháp đặc tả đánh giá mẫu quan tâm 50

2.2.2.5 Cú pháp đặc tả biểu diễn và trực quan hoá mẫu 50

2.2.2.6 Một ví dụ về truy vấn DMQL 51

CHƯƠNG 3 CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU TỪ CÁC CƠ SỞ DỮ LIỆU QUAN HỆ LỚN VÀ CÁC KHO DỮ LIỆU 53

3.1 Khai phá các luật kết hợp trong các cơ sở dữ liệu lớn 53

3.1.1 Khai phá luật kết hợp 53

3.1.1.1 Các khái niệm cơ sở 53

3.1.1.2 Phân loại luật kết hợp 54

3.1.2 Khai phá các luật kết hợp nhị phân một chiều từ các cơ sở dữ liệu giao dịch 55

3.1.2.1 Giải thuật Apriori: Tìm kiếm các tập mục thường xuyên sử dụng sản sinh ứng cử 55

3.1.2.2 Sản sinh các luật kết hợp từ các tập mục thường xuyên 58

3.1.2.3 Khai phá tập mục thường xuyên không sản sinh các tập ứng cử 60

3.1.3 Khai phá các luật kết hợp đa mức từ các cơ sở dữ liệu giao dịch 64 3.1.3.1 Các luật kết hợp đa mức 64

Trang 5

3.1.3.2 Các phương pháp để khai phá các luật kết hợp đa mức 64

3.1.4 Khai phá các luật kết hợp đa chiều từ các cơ sở dữ liệu quan hệ và các kho dữ liệu 67

3.1.4.1 Các luật kết hợp đa chiều 67

3.1.4.2 Khai phá luật kết hợp đa chiều sử dụng phân biệt hoá tĩnh của các thuộc tính định lượng 68

3.1.4.3 Khai phá các luật kết hợp định lượng 68

3.1.4.4 Khai phá các luật kết hợp dựa theo khoảng cách 71

3.1.5 Khai phá luật kết hợp và phân tích tương quan 73

3.2 Phân lớp và dự đoán 75

3.2.1 Tiến trình phân lớp và dự đoán 75

3.2.2 Phân lớp bằng quy nạp cây quyết định 77

3.2.2.1 Quy nạp cây quyết định 77

3.2.2.2 Cắt tỉa cây 82

3.2.2.3 Trích rút các luật từ các cây quyết định 84

3.2.2.4 Những cải thiện từ quy nạp cây quyết định cơ bản 84

3.2.2.5 Độ ổn định và quy nạp cây quyết dịnh 86

3.2.2.6 Tích hợp các công nghệ kho dữ liệu và quy nạp cây quyết định 88

3.2.3 Dự đoán 89

3.2.3.1 Hồi quy tuyến tính và đa mức 90

3.2.3.2 Hồi quy phi tuyến 91

3.3 Phân tích ghép cụm 91

3.3.1 Khái niệm phân tích ghép cụm 91

3.3.2 Các loại dữ liệu trong phân tích ghép cụm 92

3.3.2.1 Các biến interval-scaled 93

3.3.2.2 Các biến nhị phân 94

3.3.2.3 Các biến nominal, ordinal và ratio-scaled 96

3.3.2.4 Các biến kết hợp 98

3.3.3 Các phương pháp ghép cụm 99

3.3.3.1 Các phương pháp ghép cụm cổ điển 99

3.3.3.2 Các phương pháp ghép cụm trong các cơ sở dữ liệu lớn 102

CHƯƠNG 4 DBMINER MỘT HỆ THỐNG KHAI PHÁ DỮ LIỆU TRONG - CÁC CƠ SỞ DỮ LIỆU QUAN HỆ LỚN VÀ CÁC KHO DỮ LIỆU 103

4.1 Kiến trúc hệ thống 103

4.2 Thông tin vào/ ra 105

4.3 Các chức năng khai phá dữ liệu chính được hỗ trợ bởi DBMiner 106

4.3.1 OLAP Browser 106

4.3.2 Khai phá luật kết hợp 106

4.3.3 Phân lớp 109

Trang 6

4.3.4 Dự đoán 111

4.3.5 Ghép cụm 112

4.4 Những ứng dụng chính 114

4.5 Yêu cầu phần cứng, phần mềm 114

KẾT LUẬN 115

TÀI LIỆU THAM KHẢO 116

Trang 7

Cl tus ering ana ysisl Phân tích ghép cụm

D iata ntegration T h d ích ợp ữ liệu

D ata mining query language Ngôn ngữ truy vấn khai ph ữ liệuá d

D ata preprocessing Tiền x lý d ử ữ ệuli

D ata reduction R g d út ọn ữ liệu

D ata selection Ch l d ọn ọc ữliệu

D ata trans ormation f Chuyển đổi d ữ ệuli

Knowledge b e as C s ơ ởti thức

Knowledge pr entationes Bi ểudiễn tri thức

Multiple-level association rule Luật kết h ợp đa mức

Multiple dimensional sociation rule Luật kết h as ợp đa chiều

On-line transaction processing (OLTP) X lý ử giao dịch trực tuyến

On line ana- lysis processing (OLAP) X lý âử ph n tích trực tuyến

Trang 8

DANH MỤC ẢNG B

Bảng2.1 Sự khác nhau giữa ệ thống OLTP v ệ thống OLAP 26 h à h

Bảng3.1 Cơ ở ữ s d liệu giao dịch AllElectronics 58

Bảng3.2 Khai phá cây FP tree- bằng cách tạo l cập ác c s mơ ở ẫu iđ ều ện ki 62

Bảng3.3 Các ẫu ữ liệu đối ới ớp bu _comput m d v l ys er 86

Bảng3.4 Bảng ngẫu nhi n với ác biến nhị ph 94 ê c ân

Bảng3.5 Bảng quan hệ chứa c ác thuộc ính nh ân t ịph 95

Trang 9

DANH MỤC HÌNH

H ình 1.1 Kiến trúc c a mủ ột h ệ thống khai ph ữ liệu đ ển ình 10 á d i h

H ình 1.2 Khai phá d ữliệu như ự giao thoa của c s ác chuy n ngành 18 ê

H ình 2.1 Ph n cấp â khái niệm v v í ề ị tr 26

H ình 2.3 Kiến trúc kho dữ liệu 29

H ình 2.3 Lưới c ác khối con tạo thành khối d ữ liệu 3 chiều 32

H h ìn 2.4 Kiến trúc OLAM v OLAP tích ợp 40 à h

H ình 3.1 Minh hoạ giải thu t Apriori 59 ậ

H ình 3.2 Cây FP_tree biểu diễn ác ục thường xuyên 61 c m

H ình 3.3 Khai phá đa mức với ngưỡng đồng nhất 65

H ình 3.4 Khai phá đa mức với ngưỡng suy gi .66 ảm

H ình 3.5 Khai phá đa mức với ngưỡng suy giảm s dử ụng ọc l chéo 66

H ình 3.6 ột lưới 2 chiềum đối v lu kết hợp định lượng 2 chi .70 ới ật ều

H ình 3.7 Các phương pháp chia khoảng 71

H ình 3.8 Tiến trình ph â ớp d n l ữ liệu 75

H ình 3.9 C y quyết â định biểu diễn khái niệm bu _computys er 77

H ình 3.10 Tập ữ liệu huấn luyện ừ ơ ở ữ d t c s d liệu khách àng 81 h

H ình 3.11 Các nhánh y được phát triển ởi thuộc ính age 82 câ b t

H ình 3.12 Cấu trúc danh sách thuộc ính,danh sách ớp ử ụng SLIQ 87 t l s d

H ình 3.13 Cấu trúc danh sách thuộc ín được ử ụng trong SPRINT 87 t h s d

H ình 4.1 Kiến trúc tổng quát ủa ệ thống DBMiner 104 c h

H ình 4.2 Module cơ bản của DBMiner_Máy OLAM 105

H ình 4.3 Dữ liệu tổng hợp được hiển th qua khối d liệu 106 ị ữ

H ình 4.4 Màn ình chọn chiều đối ới khai ph luật kết ợ li n chiều 107 h v á h p ê

H ình 4.5 Màn ình đặc ả độ ỗ trợ h t h và độtin cậy tối thi .107 ểu

H ình 4.6 Tập mục thường xuy được ên khai ph 108 á

H ình 4.7 Các luật k h ết ợp đượckhai phá được biểu diễn dưới dạng đồ thị

bóng 108

H ình 4.8 Các luật k h ết ợp đượckhai phá được biểu diễn dưới ạng d khốiphẳng 109

H ình 4.9 Màn ình đặc ả ác ngưỡng trong ph n lớp 110 h t c â

H ình 4.10 C y quyết định ââ ph n lớp trong DBMiner 110

H ình 4.11 Các luật ph n lớp thu được ừ y quyết định 111 â t câ

H ình 4.12 Kết quả ự đ án khi dữ liệu d o d oự đ án là d ữ li s ệu ố 111

H ình 4.13 Kết quả ự đ án khi dữ liệu d o d oự đ án là d ữ li chủng loại 112 ệu

H ình 4.14 Màn ình thiết ập đ ều kiện ghép ụm b h l i c ằng giải thuật k trung

-b ình 113

H ình 4.15.Kết quả ghép cụm được biểu diễn trong DBMiner 113

Trang 10

MỞ ĐẦU

Hiện nay chúng ta đang bị tr ngập bởi d àn ữ liệu, từ ữ liệu khoa học, d

d ữ liệu y học, dữ liệu nh n khẩu ọc, dữ liệu ài chính đến ữ liệu tiếp thị tr n â h t d ê

c ác thị trường C úng ta kh ng c thời gian để xem xét ất ả những dữ liệuh ô ó t c

này V ậy ì v chúng ta phải ìm ra những ách ph n tích ự động ữ liệu, ph n t c â t d â

loại t ự động nó, tổng ợp ự động h t , át ện t ph hi ự động và mô t ả những xu

hướng trong nó và đánh ấu ự động những ất thường tro g dữ liệu Đ y l d t b n â à

m ột trong những ĩnh l vực t cích ực nhất và hấp d nhất c hiệp h những ẫn ủa ội

người nghi n cứu v c s d ê ề ơ ở ữ ệuli Những ười ng nghi n cứu trong các lĩnh ê

v ực như thống kê, trực quan ho , tr tuệ nh n tạoá í â và h mọc áy đang rất quan tâm đến lĩnh ực v này Độ ộng ủa ĩnh ực ày ạo ra những kh khăn để r c l v n t ó

hi thểu ấu s ự phát tri l ển ạ ườngth của nó trong vài n m g ây ă ần đ

Trong luận văn này tôi muốn cđề ập đ cến ách ổ chức d t ữ liệu và k ỹthuật khai phá d ữ ệuli Luận văn được ắt đầu ằng ách ổng quan về khai b b c tphá d ữ liệu Sau đ ần ượt bao quátó l l đến mô h t ình ổ chức d ữ liệu và ông n ngữ truy vấn d ữ liệu, ững nh khái ệm và k ni ỹthuật ph n khai ph ữ liệu như â á d khai phá luật kết hợp, âph n lớp và d oự đ án, v ghép cụm d à ữ liệu Phần ếp ti theo của luận ăn giới thiệu ề ệ thống v v h DBMiner, hệ thống khai ph ữ liệuá d trực tuyến được phát ển để khai ph tri th tri á ức đa mức trong những c s d ơ ở ữliệu quan hệ lớn và c áckho dữ liệu

Trang 11

CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.1 Ph át hiện tri thức ừ ơ ở ữ li t c s d ệu và khai ph ữ ệu á d li

Nhiều người coi khai phá d ữ liệu như một t ừ đồng nghĩa c ủa thuật ữ ngđược s dử ụng phổ biến là phát hiện tri thức trong các c s d ơ ở ữ liệu (Knowledge D covery in Databases-Kis DD) Nhưng ột ố người khác ại m s lxem khai phá d ữ li nhệu ư một bước ơ ản c b trong tiến trình át ph hiện tri thứctrong các c s d ơ ở ữ liệu Phát hiện tri thức một ti trến ình bao gồm một chuỗi

c bác ước sau đây :

(1) Làm sạch ữ d liệu Để loại ỏ nhiễu và d : b ữliệu kh ng nhất quán ô

(2) T h d ích ợp ữ liệu: Nhiều nguồn ữ liệu d có thể được ết ợp ại thành ột k h l mnguồn d ữ ệuli nh qu ất án

(3) Ch l d ọn ọc ữ liệu: Những ữ liệu ph d ù h v côợp ới ng việc được truy ục ừl t

c s d ơ ở ữliệu

(4) Chuyển đổi ữ liệu ữ liệu được chuyển d : d đổi ho đồng nhất thành các ặc

dạng ù h ph ợp cho việc khai phá bằng cách thực hiện ác thao tác ổng c t

h ợphoặc ết ập k t

(5) Khai phá d ữ liệu: Một tiến trình ơ ản ơi trong đó c c b n ác phương pháp thông minh được dáp ụng nhằm mục tiêu trích út ác ẫu ữ liệu r c m d

(6) Đánh á mgi ẫu: xác định ính chính ác ủa ác ẫu được quan tâm t x c c m biểu

diễn tri thức d ựatrên một v ài phương pháp quan tâ m

(7) Bi ểu diễn tri th : biức ểu diễn tri thức khai ph đượcá cho người s dử ụng

bằng c côác ng cụ và kỹthuật trực quan

M dù ặc khai ph ữ liệuá d là m bột ước trong tiến trình ph át ện hi tri thức

t c s d ừ ơ ở ữ liệu nhưng thuật ngữ khai phá d ữ liệu đã ởtr th ành ph ổ ến hơn bithu ngật ữ tồn t ại trong tiến tr át ện tri thức trong các c s d ình ph hi ơ ở ữ ệuli Vì

v có ậy ta thể định nghĩa như sau: Khai phá dữ liệu là một tiến trình phát

Trang 12

hiện tri thức đáng quan tâm từ các lượng dữ liệu lớn được lưu trữ hoặc trong các cơ sở dữ liệu, các kho dữ liệu hoặc các kho thông tin khác

D êựa tr n quan điểm này, kiến trúc của ột h m ệ thống khai phá d ữ liệu

điển h có ình những thành phần chính nh ư sau (hình 1 1):

- C s d ơ ở ữ liệu, kho dữ liệu ho c ặc ác kho th ng tin khác: Đây là một hoặc ô

m t h c c s d ột ập ợp ác ơ ở ữ liệu, các kho dữ liệu, các ảng ính hoặc ác loại b t c

lưu t ữ thôr ng tin khác

- M áy chủ ơ ở ữ liệu hoặc kho dữ liệu: Máy c s d chủ ơ ở ữ liệu hoặc kho c s d

d ữ liệu có nhiệm v ụ để thực thi dữ liệu li n quan dựa tr n các u cầu khai ê ê yêphá d ữliệu ủa người ử ụng c s d

- C s ơ ở tri thức: Đây l tri thức ĩnh ực được ử ụng để ợ giúp ìm à l v s d tr t kiếm

hoặcđánh á gi những mẫu k ếtquả đáng quan t m â

Giao diện người dùng đồ ạ ho

C s d ơ ở ữliệu Kho dữ liệu

M áy chủ ơ ở ữ liệu hoặc kho dữ liệu c s d

M áy khai phá d ữ liệu

Đánh giá mẫu

C s ơ ởtri thức

Làm sạch ữ d liệu

H ình 1.1 Kiến trúc c mủa ột h ệ thống khai phá d ữ liệu đ ển ình i h

Trang 13

- M áy khai ph ữ li : á d ệu Đây l thành phần ơ ản ủa ệ thống khai ph ữà c b c h á d liệu và một cách lý tưởng bao gồm m t h c ột ập ợp ác modules ch ức năng cho các nhiệm v ụnhư mô t lả ớp, khai ph ết ợp, ph n lớp, ghép ụmá k h â c và phân tích suy dẫn và tiến ho á

- Mô đun đánh gi á mẫu: Thành phần ày thường ử ụng ác đánh gi đáng n s d c á quan tâm v ương tác ới ácà t v c mô đun khai phá d ữliệu do đó ập trung vào t

c hác ướng ìm t kiếm ác ẫu mà ta quan tâ c m m

- Giao diện người ùng đồ ọa: M đun này li n kết giữa người ùng d h ô ê d và h ệ

thống khai ph ữ ệu, cho phépá d li người ùng ương t với h d t ác ệ thống ằng b

cách đặc ả u cầu khai ph ằng ách cung cấp th ng tin để trợ giúp ập t yê á b c ô t trung tìm ki ếm và ực ện khai phá d th hi ữ liệu d êựa tr n những k ết qu khai ảphá d ữ liệu ức thời Ngoài ra thành phần ày cho phép t n người ùng ướt d lqua các sơ đồ kho dữ liệu và c s d ơ ở ữ liệu, đánh giá c m ác ẫu khai phá được và tr quan hoá c mực ác ẫu theo các dạng khác nhau

Khai phá d ữ liệu êli n quan đến một s tự ích h c k ợp ác ỹ thuật ừ t nhiều

ngành chuyên m n như ng nghệ ơ ở ữ liệu, thống , học áy, tính toô cô c s d kê m án hiệu năng cao, nhận ạng, các ạng n d m ơ ron, trực quan hoá d ữ liệu, truy lục thông tin, xử lý t ín hiệu và h ình ảnh và phân tích d ữ liệu ôkh ng gian

1.2 Lý do phát triể khai phá d n ữ liệu

Lý do chính khai ph ữ liệu thu hút được ự quan t m ủa ngành ng á d s â c cônghiệp thông tin trong những năm gần đây là vì s s sự ẵn àng ớn đối v l ớinhững

lượng ữ d liệu khổng ồ l và những nhu cầu ắp ảy s x ra đối ới v việc chuyển biến

d ữ liệu đó thành th ng tin tri thức có ô ích Th ng tin v tri thức thu ô à được có ể thđược s dử ụng cho c c á ứng ụng d khác nhau từ quản trị doanh nghi , điều ệp

phối s ản xuất, ph n tích thâ ị ường cho ttr ới c ác thiết ế k công nghệ và c ác khámphá khoa học

Trang 14

Trong những năm gần đây sự ớn ạnh khác thường của lượng d l m ữ liệu

l àm cho dữ liệu được thu thập và lưu trữ trong các c s d ơ ở ữliệu là á lqu ớn và

đã vượt xa khả ăng c con người có thể hiểu được n ủa để chúng mà không có

c côác ng cụ do đó ữ liệu ịch ử hiếm d l s khi được xem xét Đ ều đó m choi là

những quyết định quan trọng ường th được ạo ập t l ôkh ng được ăn cứ c v dào ữ

liệu giàu ông tin (inforth mation–rich data được ưu trữ) l trong các cơ ở ữ s d

liệu mà d v ựa ào khả ăng trực ác của ười t l n gi ng ạo ập quyết định Ngoài ra,

việc xem étx những công nghệ ệ chuy n gia hiện ành thường ựa ào h ê h d v những người ử ụng hoặc ác chuy n gia trong lĩnh v s d c ê ực để nhập tri thức thành ác c c s ơ ở tri thức một cách thủ công Nhưng thủ tục n dày ễ xảy ra

những sai lệch và lỗi, và đặc biệt là êti u tốn ời gth ian v chi ph Các ng cụà í côkhai phá d ữ li thệu ực hiện ân tích d ph ữ ệuli và có thể át ph hiện ững m d nh ẫu ữliệu quan trọng đóng góp to lớn ào ác chiến ược kinh doanh, các nghi n v c l ê

c ứukhoa học và y học Khoảng trống ộng ãi giữa ữ liệu… r r d và ôth ng tin là lý

do c ầnthiết đểphát triển h ệthống c côác ng cụ khai ph ữ ệu á d li

1.3 Những d ạng ư l u trữ ữ liệu được khai ph d á

V ề nguy n tắc, khai phê á d ữ liệu được dáp ụng cho bất k ỳloại hình ưu l

trữ ữ d liệu n ào bao gồm c s d ơ ở ữ ệuli quan hệ, các kho dữ liệu, các c s d ơ ở ữ

li ệu giao dịch và c h ác ệ thống ơ ở ữ liệu ti n tiến, các ệ ệp phẳng c s d ê h t và World ide W Web

1.3.1 Các cơ sở dữ liệu quan hệ

Khi khai phá d ữ liệu được áp ụng cho các ơ ở ữ liệu d c s d quan hệ, một truy vấn có thể đi xa hơn việc truy lụcnhững ập ữ liệu con ụ thể ằng ách t d c b c

t ìm kiếm c ác xu hướng hoặc ác ẫu ữ liệu V ụ, các ệ thống khai ph ữ c m d í d h á d

liệu có ể ân tích d th ph ữ ệuli khách àng để ự đ án nguy cơ t d h d o ín ụng của c ác

khách hàng ới d m ựa trên thu nh , tuập ổi t và ôác th ng tin t dín ụng ướctr đó

C h ác ệ thống khai ph ữ liệu ũngá d c có x thể ác định được những sai lệch ví d ụ

Trang 15

như những ặt h m àng ủa c những người án àng kh ng như mong muốn của b h ô

h ọtrong sự so sánh v nới ăm trước đó C c s d ác ơ ở ữ liệuquan hệ là một trong

những dạng ư l u trữ giàu ông tin và s s g th ẵn àn phổ ến bi nhất và vì v ậy chúng

là m dột ạng ữ d liệu chính trong nghiên cứu v ềkhai phá d ữ liệu

1.3.2 Các kho dữ liệu

Tuy ác ng cụ ề kho dữ liệu trợ gi p việc ph n tích ữ liệu nhưng

c côác ng cụ ổ sung để khai ph ữ liệu b á d là c ần thiết để ph n tích ự động â t và

sâu về ữ liệu d

1.3.3 Các cơ sở dữ liệu giao dịch

Trong thực t ế người âph n tích d ữ liệu giao dịch thường hay đặt ra những câu hỏi dạng: “Những ặt h m àng ào n thường được b cán ùng nhau?”

M h ột ệ thống truy vấn ữ liệu th ng thường khô d ô ng c khả ăó n ng trả lời những

câu hỏi kiểu như tr n nhưng các h ê ệ thống khai ph ữ liệu đối ới ữ liệu giao á d v d

d có ịch thể thực hiện được đ ều đó ằng ách xác định ác ập ác ặt àng i b c c t c m hthường xuy n xuất hiện cùng nhau ê

1.3.4 Các hệ thống cơ sở dữ liệu tiên tiến và các ứng dụng cơ sở dữ

liệu tiên tiến

Nhằm đáp ứng cho những nhu cầu kiểm át ácso c c ấu trúc đối ượng t

phức hợp, các ản ghi độ ài thay đổi, dữ ệu có c b d li ấu trúc ho ặc bán cấu trúc,

d ữ liệu ăn bản hoặc đa ph ng ti v ươ ện và c lác ược đồ ơ ở ữ liệu ới ác ấu c s d v c c

trúc ph ức h và c ợp ácthay đổi động, những h ệ ốngth c s d ơ ở ữ liệu ên tiến và ti

c h ác ệ thống ơ ở ữ c s d liệu ướng ứng ụng bao gồm c h h d ác ệ thống ơ ở ữ c s d liệu hướng đối ượng t và đối ượng t -quan hệ, các h ệ thống s d liệu ô cơ ở ữ kh ng gian, các h ệ thống c s d ơ ở ữ ệuli thời gian và chuỗi thời gian, các hệ thống ơ c

s d ở ữ liệu đa phương tiện, các ệ thống cơ ở h s d ữ liệu ỗn ợp và l s và h h ịch ử

c h ác ệ thống th ng tin toàn ầu ựa tr n W ô c d ê eb đã được phát triển Những h ệthống n ày đòi h ỏiviệc ài đặt các c giải pháp để khai phá d ữliệu

Trang 16

1.4 Nh ững nhiệm ụ khai phá d v ữ liệu và c ác m d ẫu ữ liệu được khai ph á

C ác nhiệm khai ph ữ liệu được ử ụng để đặc ả những loại ẫu ữá d s d t m d

liêu có thể được tìmthấy trong khai phá d ữ liệu Nói chung các nhiệm ụ khai v

phá d ữ ệuli có thể được ph n chia thành hai loại: Mô t d â ả ữ liệu và d o ự đ án

trên dữ ệu Các nhiệm v li ụkhai phá mô t d ả ữliệu mô t ả những đặc ính chung t

c d ủa ữ liệu trong cơ ở ữ s d liệu Các nhiệm ụ v khai phá d o d ự đ án ữ liệu thực

hiện suy diễn ên dữ tr liệu hiện ành để ạo ác ự đ án Những nhiệm ụ khai h t c d o v

phá d ữ liệu và những ại m lo ẫukhác nhau có thể được phát hiện được mô t ả ởphần dưới đây:

1.4.1 Mô tả đặc tr ư ng lớp ữ ệu và d li so sánh l d ớp ữ ệu li

D ữliệu có thể được diễn đạt ằng những thuật ngữ ổng ợp, ngắn ọn b t h g

nh ngư v ẫnchính ác Những diễn đạt như ậy ủa ột ớp ữ liệu được ọi x v c m l d g là

c mô t ác ả đặctrưng ớp ữ liệu Nhữngl d mô t ả đặc trưng lớp ữ liệu ày d n có thể được suy dẫn ôth ng qua (1) Tổng ợp ữ h d liệu của l ớp đang nghiên cứu thành

những mô t tả ổng quát ơn (2) So sánh l d h ớp ữ ệuli đang nghiên cứu ới ột v m hoặc một tập các l khác tìm ra những đặc trướp để ng d liệu (3) c tổng hợp ữ ả

d ữ liệu và so sánh ớp ữ liệu ới ớp ữ liệu khác l d v l d

1.4.2 Phân tích ật kết hợp lu

Phân tích luật ết ợpk h là việc phát hiện các luật ết ợp biểu diễn ác k h c

điều kiện á gi tr ị thuộc ính thường xuất hi n c t ệ ùng nhau trong một tập d liệu ữ

đã cho Phân tích lu t ậ k h ết ợp được ử ụng ộng s d r rãi trong phân tích d ữ liệu giao dịch hoặcthăm dò thịtrường

C ác luật ết ợp k h có dạng X Y,  hay cụ thể ơ “A1^A2…^Am h n B1^B2^…Bn”, y ở đâ Ai (i Є 1,…,m ) và { } Bj (j Є 1,…,n ) l các cặp thuộc{ } à

t - á ính gi trị Luật ết ợp Y được bi n dịch như “các ộ ơ ở ữ liệu thoả k h X ê b c s d

m c i ãn ác đ ều kiện trong X cũng như thoả m c ãn ác i đềukiện trong Y.”

Ví dụ: Cho cơ ở ữ s d liệu quan hệALLElectr ics nh sau: on ư

Trang 17

High resolution Mutidisc

TV CDPla yer

Nikox Music Front

Trang 18

Trong đó X là một biến biểu diễn m khách àngột h Luật trên chỉ ra rằng 2% các khách àng h c ủa AllElectronics đang đượcnghiên cứu, tuổi ừ t 20 đến

29, thu nhập t ừ $20000 đến 29000 đã mua CD player t $ ạiAllElectronics X c ásuất 60% rằng một khách àng ở h trong độ tuổi và thu nhập ày mua sẽ mua n

CD player

1.4.3 Phân lớp và dự đoán

Phân lớp là một tiến trình t ìm ra một ập ác t c mô h mô t và ình ả phân

biệt c l d ác ớp ữ liệu khác nhau để mđạt ục êu có ả ăti kh n ng sử dụng mô h ình

để d o c ự đ án ác đối tượng c m lớp mà ủa ột ta chưa biết n M ình được suy tê ô h

d d êẫn ựa tr n việc ph n tích ột ập ữ liệu â m t d huấn luy ện

Phân lớp có thể được s dụng d o têử để ự đ án n lớp c c ủa ác đối tượng ữ d liệu Tuy nhiên, trong rất nhiều ứng ụng, người ử ụng d s d có thể muốn dự

đo án những á gi tr d liệu khuyếtị ữ ho ôặc kh ng dùng được hơn l ự đ án n à d o tê

lớp Đây l trường ợp th ng thường khi các già h ô á trị được d o là dự đ án ữ liệu

s và ố thường được ọi g riêng l dự đoán ặcà M dù dự đoán có thể tham chiếu

t c d o á d ới ả ự đ án gi trị ữ liệu và d o têự đ án n lớp, nhưng n thường được giớió

h d o á d ạn để ự đ án gi trị ữ liệu và vì v , nó có s ậy ự khác biệt ới phân lớp Dự v

đo cán ũng bao gồm việc ác định những xu hướng ph n bố ựa trê x â d n dữ liệu

có s ẵn

1.4.4 Phân tích ghép cụm

Không giống như phân lớp và d oự đ án, ững ương pháp ân t nh ph ph ích

c ác đối tượng d ữ liệu đã ết tê ớp, ghép cụm d bi n l ữ liệu ph n tích ác đối â c

tượng ữ d liệu mà không tham khảo một tê ớp đã biết Nói n l chung, các n tê

l ôớp kh ng có m ặt trong dữ liệu huấn luyện ởi b vì chúng kh ng được biết đến ô

để bắt đầu v vi phân tích Những đối tượng được ới ệc ghép cụm d êựa tr n nguyên tắc cực đại ho độ tương tự á trong cùng ột ớp m l và t ối thiểu ho độ á tương tự giữa c lác ớp kh nhauác Mỗi “cụm” được tạo thành có ể được coi th

Trang 19

như ộ m t lớp c ác đối ượng Việc ghép cụm c t ũng có l d dthể àm ễ àng việc ắp s

x âếp ph n loại, c nghĩaó là t ổ chức ại những đối ượng quan sát thành ột l t m

phân cấp của c l mà ác ớp nhóm c s ác ự kiện ương tự ại ới nhau t l v

1.4.5 Phân tích thành phần ngo ài

M c s d ột ơ ở ữ liệu có thể chứa ác đối ượng ữ liệu kh ng tu n theo c t d ô âứng x ử chung hoặc mô hình chung của d ữ li Nhữngệu đối tượng d ữ li này ệuđược gọi là c ác thành phần ngoài H h t cầu ế ác ph ng ph khai phươ áp á d ữ liệu coi ác ác c c thành phần ngo ài như nhiễu hay ngo là ại lệ Tuy nhiên, trong một

s ố ứng ụng d như ác định gian lận, những ự kiện hiếm x x s ảyra c thể thu hútó

s ựquan t m hơn l những ự kiện thường ảy ra Việc ph n tích ữ liệu thànhâ à s x â d phần ngoài được tham chiếu t ớinhư khai ph thành phần là á ngoài

1.4.6 Phân tích tiến hoá

Phân tích tiến ho á d ữ liệu mô t và mô h á ả ình ho những quy tắc hay

những xu hướng đối ới v những đối ượng t mà c ác ứng ử thay đổi theo thời x gian Mặc dù phương pháp này bao gồm đặc trưng hoá, phân biệt hoá, kết

hợp, ph n lớp hoặc ghép cụm d â ữ liệu li n quan đến thời gian, các đặc trưng về êkhoảng cách ủa ột phương pháp ân t bao gồm ph c m ph ích ân tích d ữ ệli u chuỗi thời gian, ph n tâ ích d ữ liệu d ựatr n ê độ tương tự

1.5 Những mẫu d ữ liệu được quan t m trong khai phá d â ữ liệu

M h ột ệ thống khai phá d ữ liệu có khả ăng sản sinh hàng nghìn hay nthậm í hch àng triệu ẫu hay các luật Th ng thường chỉ ột phần c m m ô m ác ẫu có được sản sinh sẽ thu hút được ự s quan tâm của người ử ụng Đ ều ày ra s d i n đặt

câu hỏi cho khai ph ữ liệu “ Loại ẫu ào ạo được ự quan t m? Một ệá d m n t s â h

thống khai ph ữ ệu có s á d li thể ản sinh tất c c m ả ác ẫuta quan tâm kh ng? Mộtô

h ệ thống khai ph ữ liệuá d có sthể ản sinh chỉ những ẫu m mà ta quan tâm hay không?”

Để l trả ời cho c u hỏi th nhâ ứ ất, một mẫu là đáng quan t m n â ếu(1) Nó

Trang 20

là d ễ hiểu đối ới con người (2) C gi trị trê v ó á n dữ liệu ới m hay dữ li ệu thửnghiệm(3) Có tính h dữu ụng ềm nti ăng và (4) mới ạ ột ẫu ũng là đáng l M m cquan tâm nếu nó chứng minh mệnh đề mà người s dử ụng mong mu khẳng ốnđịnh M mẫu đáng quan tâột m biểu diễn được tri thức

Đối với câu h thứỏi hai “ Một th hệ ống khai ph ữ liệuá d có sthể ản sinh được tất c c mả ác ẫu mà ta quan t m?” C u hỏi ày n tâ â n ói ới tính đầy đủ của

giải thuật khai ph ữ ệu Nó là á d li thường ông thkh ực t và ôế kh ng hiệuquả đối

v c h ới ác ệ thống khai ph ữ liệu để ả sinh tất ả ác ẫuá d s n c c m có thể Thay vì

v ậynhững àng buộc được cung cấp ởi người ử ụng r b s d và những đánh gi ề á v

m ẫuquan t m n n được ử ụng để ập trung sự ìm â ê s d t t kiếm Đ ều đó thường đủi

để đảm bảo tính đầy của giảiđủ thuật khai ph ữ li á d ệu

Đối với câu h ỏi thứ ba “Liệu một h ệ thốngkhai ph ữ liệu chỉ sản sinh á d

ra các m mà ẫu ta quan t m?” Đây l ấn đề ối ưu ho khai ph ữ liâ à v t á á d ệu Đây

là m ột mong muốn lớn đối v c h ới ác ệ ống th khai ph ữ ệu Tuy nhiên vấn á d li

đề tối ưu vẫn còn là một thách thức trong khai phá d ữ liệu

1.6 Phân loại các hệ thống khai phá dữ liệu

Khai phá d ữ liệu là m lột ĩnh v ực liên quan đến nhiều ĩnh ực ọc l v h thuật, sự giao thoa của m t ột ậpnhững chuyên ngành bao gồm ác ệ thống ơ c h c

s d ở ữ liệu, thống , học áy, trực quan ho kê m á và khoa học ôth ng tin như được minh hoạ trong hình 1.2 dưới đây

Khai phá dữ liệuKhoa học thông tin

Thống kê

H mọc áyTrực quan hoá C ác ngành khác

Công nghệ ơ ở ữ c s d liệu

H ình 1.2 Khai phá d ữ liệunhư ự giao thoa của c s ác chuyên

Trang 21

B vì t ởi ính đa dạng ủa ác chuy n ngành tham gia vào khai phá d c c ê ữ

liệu, vì v nó là c ậy ần thiết cung cấp một âph n loại rõ ràng ác ệ thống khai c h

phá d ữ ệuli Các h ệ thống khai phá d ữ liệu có thể được ph n loại ựa theo các â d tiêu chuẩn khác nhau như sau:

Phân loại dựa theo loại cơ sở dữ liệu được khai phá: M h ột ệ thốngkhai phá d ữ liệu có ể được âth ph n loại d ựa theo loại c s d ơ ở ữ li được khai ệu

phá Các ệ thống ơ ở ữ ệu b â h c s d li ản th n chúng ũng c có thể được ph n loại â

d ựatheo các ti u chuẩn khác nhau, mỗi ê loại đòi h k ỏi ỹthuật khai ph ữ liệu á d riêng của nó í d n â V ụ ếu ph n loại ựa theo m d ô hình ữ liệu, chúng ta c thể d ó

có h ệ thống khai phá d ữ liệu quan hệ, giao dịch, hướng đối ượng t , quan hệđối tượng hay kho dữ liệu Nếu âph n loại theo loại d ữ liệu ụ thể c được i đềukhiển, chúng ta có thể có h ống khai phá d ệ th ữ liệu kh ng gian, chuỗi thời ôgian, đa phương tiện, hay Wor Wld ide We b

-• Phân loại dựa theo loại tri thức được khai phá: Các h ệ thống khai

phá d ữ ệuli có thể được ph n loại ựa theo loại tri thức â d được khai phá có nghĩa là d ựatrên các chức ăng khai phá d n ữ liệu ưnh đặc tr ng hoá, phân biệt ưhoá, kết ợp, ph n lớp, ghép cụm, thành ph h â ần ngoài hay phân tích t c ích ải

tiến Một h ệthống khai ph ữ ệu tá d li ổngquát ường cung cấp/ tíchth h ợpnhiềuchức năng khai ph ữ liệuá d

Phân loại dựa theo loại kỹ thuật được sử dụng: C h ác ệ thống khai

phá d ữ ệuli có ể được âth ph n loại theo các k ỹ thuật khai ph ữ ệu c b á d li ơ ảnđược s dử ụng Những k ỹ thuật n có ày thể được mô t ả theo mức độ tương tác

người dùng có liên quan (v ụ: Các ệ thống ự ị, các h í d h t tr ệ thống khai thác

tương tác ác, c h ệ thống đ ều khiển truy vấn) hoặc c i ác phương pháp âph n tích

d ữ liệu được ử ụng (như ỹ thuật cơ ở ữ liệu ướng đối ượng kho dữ s d k s d h t , liệu, học máy, thống kê ực , tr quan ho , nhận ạngá d , mạng nơron…) Một ệ h

thống khai ph ữ ệu tinh vi thường á d li thích ứng ới nhiều ỹ v k thu hoật ặc l àm

Trang 22

việc v mới ột k ỹ thuật t h ích ợp hiệu quả kết hợp những ưu điểm của từngphương pháp riêng rẽ

Phân loại dựa theo các ứng dụng được được mô phỏng: Các h ệthống khai ph ữ liệuá d có thể được ph n loại theo các â ứng ụng d mà chúng mô

phỏng Ví d có c h ụ ác ệ thống khai ph ữ ệu á d li đặcbiệt cho lĩnh ực ài chính, v t truyền ôth ng, DNA, thị trường chứng khoán, thư đ i tện ử,…

1.7 Các giải pháp chính trong khai phá dữ liệu

Các giải pháp khai phá phương pháp và tương tác người dùng

Những ải áp khai phá gi ph phương pháp và tương tác người dùng ph ản ánh c ác ại tri ức lo th được khai ph , khả ăá n ng để khai phá tri thức ở nhiều

mức, việc ử ụng ơ ở ĩnh ực, khai ph đặc biệt s d c s l v á và trực quan ho tri thá ức

o Khai phá các loại tri thức khác nhau trong cơ sở dữ liệu

Vì những người ử ụng khác nhau c thể quan t m đến những loại i s d ó â tr

th khức ác nhau, khai phá d ữliệu n bao quát ột phạm vi rộng c nê m ác nhiệm v ụ

phân tích d ữ ệuli và át ện tri th , bao gph hi ức ồm mô t ả đặctrưng lớp , so sánh

lớp, khai ph luật ết ợp, ph n lớp, ghép cụmá k h â , Do yêđó u cầu phát triển

những h ệ ốngth o gồm một lượng lba ớn các ỹ k thuật khai ph ữ liệuá d

o Khai phá tương tác của tri thức ở nhiều mức trừu tượng

Vì rất khó để biết chính x ác ững gì có ể được ph hinh th át ện trong cơ ở s

d ữ liệu n tiến trình khai ph ữ liệu n l ương tác Việc khai ph ương nê á d nê à t á t

t ác cho phép người ử ụng ập trung vào ìm kiếm ác ẫu, cung cấp và tinh s d t t c m

chỉnh c yêu cầu ác khai ph ữ liệu d êá d ựa tr n những ết quả được trả ề ần k v C

phát tri c h ển ác ệ ống th khai ph ữ ệu á d li ởnhiều ức ác m kh nhau

o Tích hợp cơ sở tri thức

Cơ sở tri thức có thể được ử ụng để trợ giúp tiến s d trình phát hiện và cho phép c mác ẫu đượcph át hiện có thể được diễn đạt trong những thuật ngữngắn g và ọn ở nhiều ức trừu ượng m t khác nhau Tri thức l v ĩnh ực liên quan

Trang 23

đến c c s d ác ơ ở ữ li ệu như những àng buộc toàn v và r ẹn những luật suy di ễn

có thể trợ giúp ập trung và c t ảithiện ốc độ một tiến trình t khai phá d ữ ệuli , chỉ quan tâm đến những ẫu được phát hiện m

o Các ngôn ngữ truy vấn khai phá dữ liệu

Những ông n ng truy vữ ấn khai ph ữ liệu ậc cao cần được át tri á d b ph ển

để cho phép người s dụng mô t những nhiệm v ử ả ụ khai phá d ữ liệu đặc biệt

bằng cách àm ễ àng những đặc ả ủa những ập ữ liệu li n quan để â l d d t c t d ê ph n

t c ích ác loại tri thức ần phải được khai ph , các đ ều kiện c á i và c rác àng buộc

c ần được nhấn ạnh tr n các ẫu được phát hiện Những ng n ngữ như ậy m ê m ô v

c ầnphải được ích ợp ới ng n ngữ truy vấn ơ ở ữ liệu hoặc kho dữ liệu t h v ô c s d

và phải được ối ưu hoá để việc khai phá d t ữliệu hiệu quả và linh hoạt

o Biểu diễn và trực quan hoá các kết quả khai phá dữ liệu

Tri thức được phát hiện ần c phải được ễndi gi ải bằng ững ôn ngữ nh ng

b ậc cao, biểu diễn trực quan, hoặc những ạng diễn giải khác để tri thức có d

thể được ểu một chi ách ễ àng d d và trực tiếp ởi con người Điều đó yêu cầu b

h ệ thống phải thích ứng ới v những ỹ k thuật biểu diễn tri thức diễn giải, như

cây, bảng, đồ thị, lược đồ, ma trận…

o Kiểm soát nhiễu và dữ liệu không đầy đủ

D ữ liệu được ưu trữ trong cơ ở ữ liệu l s d có thể phản ánh nhiễu, nhữngtrường h ợp ngoại ệ, hoặc ác đối ượng ữ liệu kh ng đầy đủ Như một h l c t d ô ệ

quả, độ chính ác ủa ác ẫu được phát ện có x c c m hi thể ấp Các phương pháp th

l sàm ạch ữ liệu d và c ác phương pháp ph n tích ữ liệu â d có thể kiểm soát nhiễu được yêu cầu cũng như những phương pháp khai ph thá ành ần ngoài để ph

ph hiát ện và âph n tích những trường ợp ngoại ệ h l

o Đánh giá mẫu

R ất nhiều ẫu được phát hiện m có ôthể kh ng được quan t m ởi ngườiâ b

s dử ụng, phương pháp biểu diễn tri thức chung, thiếu ính đa dạng Một ài t v

Trang 24

thách ức êth li n quan đến những ỹ thuật k để đánh á t h d c gi ính ấp ẫn ủa những

m ẫu được phát hiệ , đặc biệt ới những ẫu li n quan đến n v m ê những đánh giá chủ quan gi tr của những mẫu êá ị li n quan tới ột ớp người ử ụng đã cho, m l s d

d êựatr n mong đợihoặc niềm tin củanhững người ử ụng s d

Các giải pháp nâng cao hiệu năng:

Các giải pháp nâng cao hiệu năng liên quan đến tính hiệu quả, độ

ổn định, và song song của các giải thuật khai phá dữ liệu

o Hiệu quả và tính ổn định của các giải thuật khai phá dữ liệu

Để trích út thông tin hiệu r quả ừ ột lượng d t m ữ liệu khổng l ồ trong cơ

s d ở ữ liệu, các giải thuật khai ph ữ liệu ần phải hiệu quảá d c và ổn định Nói

cách khác ần phát triển ác giải thuật khai ph ữ liệuc c á d mà thời gian thực hiệnphải có d thể ự đo án được và chấp nhận được trong các c s d ơ ở ữliệu lớn

o Các giải thuật khai phá dữ liệu song song, phân tán và tăng trưởng

M lột ượng khổng ồ ác ơ ở ữ liệu, sự ph n bố ộng ãi ủa ữ liệu l c c s d â r r c d

và độ phức ạp ính toán ủa ột ố phương pháp khai ph ữ liệu t t c m s á d là những

nhân tố ích hoạt ự k s phát triển ủa c c ác giải thuật khai phá d ữ liệu song song

và âph n tán Thậm ch chi ph cao của ột ài tiến trình khai ph ữ liệu đặt í í m v á d

ra nhu cầu đối ới v c ác giải thuật khai ph ữ liệu ăng trưởngá d t mà chúng được

t h v nhích ợp ới ững ập c nhật ơ ở ữ liệu c s d mà ôkh ng cần khai phá l ại toàn ộ b

c s d ơ ở ữ liệu Những giải thuật như ậy thực ện hiệu chỉnh tri thức một v hi

cách ăng trưởng để ải thiện t c và làm mạnh những gì đãđược phát hiện trước

Các giải pháp liên quan đến sự đa dạng của các loại cơ sở dữ liệu

o Điều khiển dữ liệu quan hệ và các kiểu dữ liệu phức tạp

Không thực ế để ỳ ọng ột ệ thống khai ph ất ác kiểu ữ liệu, một ệ t k v m h á t c d h

thống đa kiểu ữ ệu và đa mục ti d li êu Các ệ ống h th khai ph ữ liệu c á d ụ thể

nên được x y dựng để khai ph ác kiểu ữ liệu ụ thể V ậy ột ệ thống â á c d c ì v m h

Trang 25

có thể có một v h ài ệ thống khai ph ữ liệu khác nhau cho một v á d ài kiểu d ữ

li kh nhau.ệu ác

o Khai phá thông tin từ các cơ sở dữ liệu hỗn hợp và các hệ thống thông tin toàn cầu

Vi ph hiệc át ện tri thức t ừ những nguồn dữ liệu khác nhau c ấu trúc, ó c

b c án ấu trúc ho ặc phi cấu trúc với s ự đa dạng v ề ngữ nghĩa ữ liệu đặt a d r

những ách ức to l cho khai phth th ớn á d ữ liệu Khai phá d ữ liệu có ể ợ th tr giúp

t ìm ra những quy luật ữ liệu trong nhiều c s d d ơ ở ữ liệu ỗn h , ô h ợp kh ng chắc

chắn được ph hiện b mát ởi ột h ệ thống truy vấn đơn giản và có thể cải thiện

vi trao ệc đổi thông tin trong các c s d ơ ở ữ ệuli hỗn hợp Khai phá Web bao quát t ớitri thức h d v c n ấp ẫn ề ác ội dung eb, sử ụng eb,… trở W d W thành ột mthách thức ớn l và một lĩnh vực nghiên cứu năng động cao trong khai phá d ữliệu

Trang 26

CHƯƠNG 2 KHO DỮ LIỆU VÀ NGÔ N NGỮ TRUY VẤN

KHAI PHÁ D Ữ LIỆU

2.1 Kho dữ liệu và công nghệ OLAP đối với khai phá dữ liệu

2.1.1 Kh ái niệm kho dữ ệu li

Theo W.H.Inmon, một à ến tr hnh ki úc àng đầu trong lĩnh ực y dựng v xâ

c h ác ệ thống kho dữ liệu, kho dữ li được ệu định nghĩa “ Kho dữ liệu là m ột

t h d ập ợp ữliệu ướng chủ đề, tích ợp, biến đổi theo thời gian, khô h h ng dễ thay đổi nhằm h ỗ trợ tiến trình tạo lập quy ết định” Trong định ngh ê ó ĩa tr n c 4 từkhoá: hướng chủ đề, tích hợp, biến đổi theo th gian, khời ông dễ thay đổi

Những t ừ khoá n âày ph n biệt ác đặc trưng của k c ho dữ liệu so với các h ệ

thống lưu trữ ữ liệu d kh nhác ư c hác c s d ệu ệ ơ ở ữli quan hệ, các ệ thống ử h x

lý giao dịch, các ệ thống ệp h t

Hướng chủ đề : M ột kho dữ liệu được ổ chức theo một t s ố chủ đềchính, như ách àngkh h , nhà cung cấp ản, s ph ,… Kẩm ho dữ liệu thường cung

c cấp ách nhìn đơn giản và ngắn gọn v cề ác giải pháp hướng chủ đề đặc bi ệt

bằng cách ngăn chặn ữ liệu kh d ông hữu ích cho tiến ình h tr ỗ ợtr quyết định

Tích hợp: Một kho dữ liệu thường được xây dựng bằng cách ích ợp t h

c ác nguồn ữ liệu ỗn ợp hiều ức như ơ ở ữ liệu quan hệ, các ệp d h h n m c s d t

phẳng, các b ảnghi giao dịch ực tr tuyến

Biến đổi theo thời gian: Dữ liệu được lưu trữ cung cấp thông tin từ

quan điểm lịch s Mọi c ử ấu tr c b úc ơ ản trong kho dữ liệu chứa một phần t ử

th gian ời tường minh hoặc ôkh ng tường minh

Không dễ thay đổi: Một kho dữ liệu luôn lu n là dạngô lưu trữ độc l ập

v lý c d ật ủa ữ liệu được chuyển đổi ừ ữ ệu t d li ứng ụng được d tìm thấy trong

môi trường tác nghiệp Bởi vì s ự độc ập l n mà ày kho dữ liệu kh ng đòi ỏi ô hviệc x lý ử giao dịch, phục hồi và c c ác ơ chế đ iều khiển song song

Trang 27

2.1.1.1 Sự khác nhau giữa các hệ thống cơ sở dữ liệu tác nghiệp và các

kho dữ liệu

Nhiệm v ụ chính của c h ác ệ thống c s d ơ ở ữliệu tác nghiệp trực tuyến là

để x lý c ử ác truy vấn và c ácgiao dịch Những h ệthống n ày được ọi là c h g ác ệ

thống x lý ử giao dịch ực tr tuyến(OLTP) Chúng bao quát hầu hết c ácthao tác

hàng ngày ủa ổ chức Trong khi với c h c t ác ệ thống kho dữ liệu có thể được ổ t

chức và biểu diễn ữ liệu theo nhiều định ạng kh d d ác nhau để đáp ứng nhữngnhu cầu đa dạng ủa c những người s dử ụng khác nhau Những h ệ thống n àyđược gọi là c h ác ệ thống ử x lý âph n tích tr tuyến ực (OLAP) Sự khác biệt

giữa c h ác ệ ống th OLTP v OLAP được cho trong bảng sau đây (bà ảng2.1):

Đặc điểm Xử lý tác nghiệp Xử lý th ông tin

Người sử dụng Thư ký, người quản trị cơ sở dữ

liệu,…

Những người làm việc với tri thức (nhà quản lý, điều hành,…) Chức năng Các thao tác hàng ngày Các yêu cầu thông tin dài hạn, hỗ

trợ quyết định Thiết kế cơ sở dữ

liệu

Dựa trên mô hình thực thể -liên kết, hướng ứng dụng

Mô hình c s d ơ ở ữ liệu đa chiều

Dữ liệu H iện hành, dễ cập nhật Mang tính lịch sử, độ chính xác

được duy trì theo thời gian Tính tổng kết Chi tiết, mang tính nguyên bản Tính tổng quát cao, đồng nhất Cách nhìn Chi tiết, quan hệ phẳng Tổng quát, đa chiều

Đơn vị công việc Các giao dịch đơn giản Các truy vấn phức tạp

Tác nghiệp Sắp xếp/băm dựa vào khoá chính Hầu hết là quét

Số lượng bản ghi

t ruy cập

Trang 28

Số người dùng Hàng nghìn Hàng trăm

Kích thước 100 MB tới GB 100 GB tới TB

Ưu tiên Hiệu suất cao, tính sẵn sàng Tính linh hoạt cho người s d ử ụng Đánh giá Thông qua giao dịch Thông qua truy vấn, thời gian hồi

đáp

Bảng2.1 Sự khác nhau giữa ệ thống OLTP v ệ thống OLAP h à h

2.1.1.2 Lý do cần có một kho dữ liệu riêng biệt

Lý do chính cho việc có m ột kho dữ liệu riêng biệt là nó trợ giúp c ảithiện hiệu ăng cao trê n n cả hai hệ ống cơ ở ữth s d liệu t ác nghiệp và kho d ữ

liệu Một c s d ơ ở ữliệu quan hệ được thiết k và thực ện t c ế hi ừ ác nhiệm ụ đã v

biết như ắp ếp, àm ăm sử ụng kho chính, t ếm c b s x h b d á ìm ki ác ản ghi cụ ể th

và t ối ưu ho ác truy vấn được đóng gói Mặt khác ác truy vấn kho dữ liệu á c c thường phức ạp li n quan đến vi t , ê ệc t ính toán ột l m ượng ớn l các nh d óm ữ ệuli

ở mức độ tổng hợp, và có yêthể u cầu ác c phương ph t áp ổ chức, truy cập và

c d ài đặt ữ liệu đặc biệt ựa tr n các óc nhìn khác nhau Các truy vấn OLAP d ê g trong các c s d ơ ở ữ liệu tác nghiệp ường làm giảm th hiệu ăng ủa ác nhiệm n c c

v ụtrong cơ ở ữ s d liệu tác nghiệp

Hơn nữa ột ơ ở ữ liệu tác nghiệp h m c s d ỗ trợ việc x lý ử đồng th nhiều ờigiao dịch, các c ơ chế kiểm át và phục hồi so đồng thời như khoá và ghi nhật

ký được yêu cầu để đảm ảo ính nhất quán b t và t ính thiết thực ủ ác giao c a c

dịch Một truy vấn OLAP thường ần những truy cập chỉ đọc các bản c ghi dữliệu để tổng ợp h và k t d ết ập ữ liệu Các ơ chế kiểm c soát và phục hồi đồngthời, nếu được dáp ụng cho những thao tác OLAP như ậy, có v thể ph huỷ á việc thực hiện đồng thời ác giao dịch và vì vậy làm suy giảm k c ết quả ra của

m h ột ệthống OLTP

Cu cối ùng, việc ph n biệt ác ơ ở ữ liệu tác nghiệp với â c c s d kho dữ liệu

d êựatr n sự khác biệt ề ấu trúc, nội dung v việc s d v c à ử ụng ủa ữ c d liệu

Trang 29

2.1.2 Mô hình dữ liệu đa chiều

C ác kho dữ liệu và c côác ng cụ OLAP đều ựa tr n mô h d ê ình ữ liệu đa d chiều Mô h nình ày xem x d ét ữliệu ở ạng khối ữ liệu d d

t ổ chức xung quanh chủ đề ữ liệu trung t m Chủ đề ày được biểu diễn ởi d â n b

m bột ảng ự s kiện Các ự kiện s là c ác đánh gi ố Bảng ự kiện chứa n các á s s tê

s ựkiện và c ác kho cho mỗi bảngá chi có liên quan ều

2.1.2.2 Các phân cấp khái niệm (concept hierachy)

M âột ph n cấp khái niệm định nghĩa ột chuỗi ác ánh ạ ừ ột ập m c x t m t

c ác khái niệm mức thấp thành ác khái niệm m c ứccao, tổng quát ơn Một h ví

d v âụ ềph n cấp khái niệm được cho trong hình 2.1,

H ình 2.1 Ph n cấp â khái niệm v v í ề ị tr

Trang 30

R ất nhiều ph n cấp khái niệm â là tường minh trong lược đồ c s d ơ ở ữ

liệu ví d ụ ả ửgi s chiều v í có ịtr thể được mô t b c ả ởi ác thuộc ính: số à, phố, t nh

thành ố, bang/tỉnh, quốc qia Những thuộc t n êph ính ày li n quan đến một thứ

t tự ổng thể ạo thành t một âph n cấp khái niệm như Số nhà<phố<thành phố<bang/tỉnh<quốc gia Ngoài ra c thuác ộc tính của ột m chiều có thể được

t ổ chức theo một thứ ự ộ phận, tạo thành m lưới Một ví d c t b ột ụ ủa thứ ự ộ t b

phận là chiều ời gian dth ựa trên các thuộc ính ngày, tu t ần , th áng , quý, năm trong đó ngày<{tu ần < tháng , quý} < năm

C ác phân cấp khái niệm là phổ biến cho rất nhiều ứng dụng, có th ểđược định ngh trước ĩa trong các ệ th h ống khai ph ữ liệu hoặc có thể á d đượccung cấp thủ công bởi những người s dử ụng h ệ thống, những k s ỹ ư tri thức hoặc được ản s sinh tự động dựa êtr n sự ph n tích â thống kê s âựph n bố ữ d liệu

2.1.2.2 Các thao tác OLAP trong mô hình dữ liệu đa chiều

Trong mô hình đa chiều, dữ liệu được ổ chức thành t c ác chiều ác khnhau, mỗi chiều chứa nhiều ức trừu t m ượng được địnhnghĩa ởi ác ph b c ân cấpkhái niệm C h tổ chức này ác cung cấp cho những người ử ụng khả ăng s d nlinh hoạt để xem dữ liệu t c ừ ácquan điểm ác nhau Mkh ột s ốthao tác khối d ữ

liệu OLAP tồn t ại để ện hi thực ho á những cách nh ìn khác nhau này, cho phép truy vấn tương tác và âph n tích d ữ liệu t ứcthời Ngoài ra OLAP cung cấp ột m

môi trường th n thiện ới người ùng để ph n tích ữ liệu ương tác Trong â v d â d tphần này trình ày ột ố thao tác OLAP đ ển ình cho dữ liệu đa chiều b m s i h

Thao tác Roll up: Tổng ợp ữ h d liệu ằng ách “leo ượt ấp” hoặc b c v cgiảm s ốchiều

Thao tác Drill down : ngược ại ới thao tác Roll up Với thao tác n l v ày

d ữ liệu ừ ức ổng quát cao hơn sẽ t m t được tạo thành mức chi tiết h n ở ơhoặc t ạora chiều ữ liệu ới d m

Thao tác slice and dice: Thao tác slice thực hiện ựa chọn ột chiều l m

Trang 31

c mủa ột kh cho tạo thành m khối con Thao tác ối đã để ột dice định

nghĩa ột khối m con bằng cách ựa ch một hay nhiều l ọn chiều

Thao tác pivot/rotate: Thao tác ày n là m ột thao t ác trực quan ho thựcá

hiện xoay dữ ệu li quanh các ục d tr ữ liệu để cung cấp những cách biểu

di khễn ác nhau của dữ liệu

• C ác thao tác OLAP kh ác

- Drill across: thực hiện truy vấn liên quan đến nhiều hơn một bảng

D rill through: Thao tác này làm cho việc sử dụng các tiện ích cơ sở dữ

liệu quan hệ xuyên qua mức đáy của khối dữ liệu tới các bảng ở mặt kia

2.1.3 Kiến trúc kho dữ liệu

2.1.3.1 Các bước để thiết kế và xây dựng kho dữ liệu

N ói chung tiến trình thiết ế kho dữ liệu bao gồm c b k ác ước sau đây:

(1) Ch m ọn ột tiến trình kinh doanh để mô h á ình ho

(2) Ch iọn đ ểm nhấn cho tiến trình kinhdoanh Điểm nhấn là một iđ ểm nền,

m h âức ạtnh n của ữ liệu để biểu diễn ảng ự kiện cho tiến trình ày d b s n (3) Ch c ọn ác chiều ẽ áp ụng cho mỗi ản ghi bảng ự kiện s d b s

(4) Ch c ọn ác đánh gi ẽ ác động mỗi bản ghi bảng s á s t ự kiện

2.1.3.2 Kiến trúc kho dữ liệu 3 tầng

C ác kho ữ liệu thường thích ứng với kiến trúc 3 tầng, như được biểud diễn trong hình 2.2 sau đây:

H ình 2.2 Kiến trúc kho dữ liệu

Trang 32

(1) T ầng đáy (bottom tier): L ầng áy à t m chủ ơ ở ữ liệu kho hầu ết li n c s d h êquan đến một h ệ thống ơ ở ữ liệu quan hệ Dữ liệu t c c s d c s d ừ ác ơ ở ữ

liệu tác nghiệp và c ác nguồn ữ ệu d li ngoài được ích r btr út ằng cách ử s

dụng c ác giao diện chương trình ứng ụng được biết đến như ác ổng d c cgiao tiếp Một cổng giao tiếp được ỗ h trợ bởi một h ệ quản tr c s d ị ơ ở ữliệu c b và ơ ản cho phép ác c chương trình khách ản sinh mã s SQL đểđược thực hiện êtr n máy chủ

(2) Tầng trung gian thường được ài đặt ử ụng hoặc (1) m c s d ô h ìnhOLAP quan hệ (ROLAP) hoặc (2) mô h ình OLAP đa chiều (MOLAP) (3) Tầng đỉnh Đây l ầng ành cho khách bao gồm ácà t d c công cụ truy

v và b cấn áo áo, các ng cụ ph n tích, các ng cụ khai ph ữ liệu cô â cô á d

2.1.3.3 Các loại máy chủ OLAP

Các máy chủ OLAP theo mô hình quan hệ (ROLAP)

Đây là c mác áy chủ trung gian đứng giữa m áy chủ quan hệ cuối và c ác

công cụ khách Chúng s dử ụng c h ác ệ quản trị ơ ở ữ liệu quan hệ hoặc c s d quan hệ ở m rộng để l u tr và quản lý c ư ữ ác kho d liệu và phần mềm trung ữgian OLAP để h c ỗ trợ ác thông tin bị ất Các áy m m chủ ROLAP bao gồm

việc tối ưu hoá mỗi h ệ qu trản ị ơ ở ữ c s d ệu li cuối, c đặt quy trình ài duyệt t ích

h và c côợp ác ng cụ và d v b ịch ụ ổtrợ

Các máy chủ OLAP đa chiều (MOLAP)

Những máy chủ ày ỗ trợ ách nhìn đa chiều ữ liệu th ng qua các n h c d ômáy lưu trữ đ a chiều dựa êtr n mảng Chúng ánh ạ ác x c khung nhìn đa chiều

trực tiếp ành c c th ác ấu úctr mảng khối d ữ ệuli Thuận l cợi ủa việc ử ụng s d

khối d ữ ệuli là nó cho phép sắp xếp nhanh để t ính toán ước d tr ữ ệuli tổng ợp h

R ất nhiều áy m chủ MOLAP thích ứng ới biểu diễn ưu trữ ữ liệu hai tầng v l d

để điều khiển ập t trung và phân tán c t d ác ập ữ liệu: Các khối con tập trung

Trang 33

được x ác định và lưu trữ như ác ấu c c trúc mảng trong khi các khối con ph n â

t s án ử dụng c ng nghệ nén để ưu trữô l có hiệu quả

Các máy chủ OLAP phân cấp (HOLAP)

OLAP phân cấp ết ợp k h ROLAP v MOLAP, tà ận dụng l ợiích t ừ phạm

vi l u trư ữ lớn của ROLAP v khả ăà n ng tính to án nhanh của MOLAP

Các máy chủ SQL đặc tả

Để đáp ứng s ự ph triát ển của yêu cầu ử x lý OLAP trong các ơ ở ữ c s d liệu quan hệ, một s hố ãng ơ ở ữ liệu c s d quan hệ và công nghệ kho dữ liệu cài đặt các máy chủ SQL đặc ả cung cấp ng n ngữ truy vấn ê t ô ti n tiến và x lý ửtruy vấn h ỗtrợ cho cáctruy vấn SQL trong môi trường chỉ đọc

2.1.4 ài C đặt kho dữ liệu

Kho dữ liệu chứa những lượng ữ d liệu khổng lồ Các áy m chủ OLAP

yêu cầu ác truy vấn h c ỗ trợ quyết định phải được tr lời trong thời ả gian tính

phần âgi y V ậy, đì v iều c bản đối với các h ơ ệ thống kho dữ liệu là h ỗ trợ

những k ỹthuật t ính toán khối hiệu quả cao v ác k à c ỹthuật x lý ử truy vấn

2.1.4.1 Tính toán hiệu quả các khối dữ liệu

Phần c b c âơ ản ủa ph n tích ữ liệu đa chiều d là tính toán có hiệu quả ác c

k h ết ợp chéo qua nhiều ập ữ liệu ủa ác chiều khác nhau Trong t t d c c huật ngữ SQL, những k h nết ợp ày đượctham chiếu đến như là c mác ệnh đề group by.-

Thao tác tính toán khối và việc cài đặt

M ột phương pháp để ính toán khối ở ộng SQL l bao gồm t m r à thao tác

tính toán khối Thao tác tính to ánkhối ính toán ết ợp ữ liệu qua ất ả t k h d t c các

t ậpcon của ác chiều được đặc ả trong thao tác c t

Ví dụ: ta muốn t ạo ra một khối d ữ ệuli cho các m hặt àng được án ại b tALLElectr icson bao gồm các ôth ng tin sau: mặt hàng, thành phố, năm, gi trịá

b tán ính ằng đô la Ta c thể ph n tích ữ liệu ằng ách đặt ra truy vấn: b ó â d b c

“Tính tổng các mặt hàng được bán, nhóm theo mặt hàng và thành phố”

Trang 34

“Tính tổng các mặt hàng được bán, nhóm theo mặt hàng”

“Tính tổng các mặt hàng được bán, nhóm theo thành phố”

Ta cần ph ínhải t tổng s ốkhối con, các cách nhóm d li ữ ệu Giả ử ta lấy s

3 thuộc tính: Mặt àng h , thành phố, năm l ác chiều ần ính toánà c c t và á gi trị

b hán àng theo đô la làm á gi trị đánh gi , tổng số khối con hay số nhóm cho á

khối d ữ ệuli n là 2ày 3=8, những khả ăng đó bao gồm: n {(thành ố, mặt hàng, ph

năm), (thành phố, mặt àng h ), (thànhphố, năm), (mặt hàng, năm), (thành phố), (mặt hàng), (năm), () trong đó () biểu di } ễn nhóm là rỗng Những nhóm n ày

t ạothành ột ưới ác khối con như được biểu diễn trong hình 2 sau đây: m l c 3

M ột truy vấn SQL kh ng chứa nhómô nh ư “tính ổng ượng tiền án t l b

hàng” được ọi g là thao tác kh ng chi ô ều Một truy vấn SQL chứa ột nhóm mđược gọi là thao tác ột chiều M thao t m ột ác khối trên n chiều tương đương

v mới ột tập hợp các mệnh đề phân nhóm (group by), mà m ỗi nhóm cho một

t ậpcon của n chiều V ậy thao tác khốiì v là tổng quát ho n chiều ủa thao tác á c

phân nh Đối v óm ớikhối ữ liệu n chiều, có t d ổng ố s 2n khối con

OLAP có c thể ần truy cập đến ác khối c con khác nhau cho các truy vấnkhác nhau Vì vậy nó dườngnhư là m ý tột ưởng ốt để t tính trước ất ả hoặc ít t c nhất một v ài khối con trong khối d ữ liệu Việc ính toán trước l t àm cho thời gian hồi đáp nhanh và tránh được ệcvi t án d ính to ư thừa Tuy nhi n, việc tê ính

to trán ước yêu cầu ôkh ng gian lưu trữ có thể cấp m nếu tất c c ũ ả ác khối con

H ình 2.3 Lưới c ác khối con tạo thành khối d ữliệu 3 chiều

Trang 35

trong một khối d ữ liệu được ính t toán trước đặc biệt khi khối có nhi chiều ều

tương ứng ới nhiều ức ph n cấp v m â N ôếu kh ng c ác ph n cấp ương ứngó c â t

v m ới ỗichiều th ổng ác khối con đối ới ột khối n chiều ì t c v m là 2n Tuy nhiên trong thực t có r ế ấtnhiềuchiều có phân cấp ái niệm vì v kh ậy đối ới ột v m khối

d ữ liệu chiều ổng ố khối con c thể được sản n- t s ó sinh l T=à: ∏

= +

n

i

Li

1 1

Trong đó Li là tổng s m tố ức ương ứng ới chiều i C ng thức n d v ô ày ựatrên thực ế t là h h mầu ết ột mức ừu tr tượng trong mỗi chiều s ẽ xuất hiện trong

m ộtkh con.ối

Ta có thể nhận ra rằng ôkh ng thực t để tế ính to tr án ước t c c ất ả ác ối khcon có thể được ản sinh đối v m s ới ộtkhối d ữ liệu Nếu có r ất nhiều khối con, những khối con này có k ích thước ớn, một giải l pháp ợp lý h h ơn l chỉ ínhà t

to trán ước một s ốkhối con trong s c ố ác khốicon có thể được ản sinh s

Tính toán trước các khối con có lựa chọn

Việc tínhtoán trước ột ố khối m s con nên xem xét tới 3 yếu tố: (1) Xácđịnh tập c ác khối con ính tot án trước (2) Khai thác ác kh con ính to c ối t án trước trong quá trình ử x lý truy vấn (3) cập nhật có hiệu quả c ác kh con ốiđược tính toán trước trong quá trình n và lạp àm tươi dữ liệu

Việc l ựa chọn ập con các khối con để t t ínhtoán trước n t nê ínhđến khối

lượng công việc, ần suấtt và chi ph truy cập ủa ác truy vấn Ngoài ra ní c c ó

c òn phải xem xét ác đặc trưng của khối ượng c l công vi , chi phệc í c ập nhật

tăng trưởng, v ác u cầu ưu trữ ổng thể Khi các khối được lựa chọn đãà c yê l t được tính to án trước, đ ều quan trọng là lấy i những ưu đ ểm ủa chúng trong i c

qu trá ình x lý ử truy vấn Đ ều đó ên quan đến ệc x i li vi ác định ác c khối êli n quan từ tập hợp c ác khối con được tính to án trước ứng cử, sử dụng các cấu

trúc chỉ ố ên tập c s tr ác khối con và chuyển đổi ác thao t c ác OLAP trên các

khối con được lựa chọn Cuối ùng trong qu c á trình n và l tạp àm ươi, các ối kh

Trang 36

con cần được ập c nhật có hiệu quả

Kết tập mảng đa đường trong tính toán khối dữ liệu

Để đảm ảo b việc x lý âử ph n tích trực tuyến nhanh, ta có c thể ần phải

tính toán trước ất ả ác khối con cho một khối t c c d ữliệu đãcho Các khối con

có thể được ưu trữ trong một không gian phụ và được truy cập l khi cần thiết

Vì v i ậy đ ều quan trọng là t ìm hiểu ác phương pháp c có hiệu quả để ính toán t

t c c ất ả ác khối con tạo ập n khối ữ liệu, c nghĩa hiện thực ho đầy đủ l nê d ó là á

Những ương pháp àyph n phải đưa vào xem xét lượng giới h cạn ủa b ộ nhớchính có ể cho việc tth ính to án khối, cũng như thời gian yêu cầu cho tính toán

đó Để n giản hoá c đơ ác vấn đề chúng ta c thể bao g c ó ồm ác khối con được

s ảnsinh bằng ách tiến theo bậc c c ác phân cấp t t ồn ạitheo mỗi chiều

Vì OLAP quan hệ ử ụng ác ộ s d c b và c bác ảng quan hệ như ác ấu trúc c c

d ữ liệu ơ ản trong khi cấu trúc d c b ữliệu ơ ản được ử ụng trong OLAP đa c b s dchiều là c mảng ác đa chiều cho n n c kỹ thuật t ê ác ính toán khối trong OLAP quan hệ và OLAP đa chiều rất khác nhau

Việc tínhtoán khối cho OLAP quan hệ ử s dụng c k ác ỹ thuật ối ưu hoá tchính sau đây:

• C ác thao tác ắp ếp, băm v nhóm s x à được dáp ụng cho các thuộc ính t chiều sđể ắp xếp ại l và ghép cụm c b có êác ộ li n quan

• Thac tác nhóm được thực hiện tr n một ố ác ết ập con như “các ê s c k t nhóm b ộ phận” Những nhóm ộ phận ày b n có thể được ử ụng để s d

tăng tốc việc tính toán ác ết tập c k con khác

• C k t có ác ết ập thể được ính toán ừ ác ết ập đã được ính toán t t c k t ttrước thay v ừ ác ảng ự kiện ơ ởì t c b s c s

OLAP quan hệ ử s dụng phương pháp định ị ựa v d theo giá trị trong đó c á ác gi

trị chiều được truy cập ôth ng qua các chiến ược t ếm l ìm ki địa chỉ ựa ào d v khoá Ngược ại l OLAP đa chiều s dử ụng ương pháp địa ph chỉ á mho ảng trực

Trang 37

tiếp trong đó c á ác gi trị chiều được truy cập thông qua vị tr hay chỉ ố ủa í s c

c v í mác ị tr ảng ươ t ng ứng ủa chúng V ậy OLAP đa chiều kh ng thể thực c ì v ôhiện s x l d ắp ếp ại ựa theo giá trị của k thuật tối u hoá đối v ỹ ư ới OLAP quan

hệ Do đó, một phương p áp khác n được phát triển để y dựng khối ựah nê xâ d theo mảng như sau:

• Phân chia mảng thành ác khoảng” c “ Một khoảng” là một “ kh con đủ ối

nhỏ để đưa vào ông gian bộ nhkh ớ có th cho việc tể ính án ối Phân to kh

“khoảng” là m phương pháp để chia một mảngột n chi thành ácều c

“khoảng” n-chiều nhỏ trong đó mỗi “khoảng” được lưu trữ như m đối ột

tượng êtr n đĩa Các “khoảng” được nén lại đến mức có thể để loại b ỏkhông gian nhớ lãng phí dành cho các ô rỗng

• T ính toán ác ết ập ằng ách thăm ác phần ử khối Thứ ự ác phần tử c k t b c c t t c được thăm có thể được tối ưu ho đ mức t á ến để ối thiểu ho ố ần á s l mà m ỗi

phần t c ử ần được ăth m lại đó giảm s l do ố ầntruy cập b ộnhớ và chi phí lưu

trữ Bí quyết để khám phá thứ ự ày t n là c k t b ác ết ập ộ phận có thể được

t ính toán đồng thời và việc thăm ại ác phần ử kh ng ần thiết đượcl c t ô c tránh

K ỹthuật này được ọi g là k t mết ập ảng đa chiều trong tính toán khối ữ liệu d

2.1.4.2 Sắp xếp dữ liệu OLAP

Để làm d dễ àng việc truy cập ữ liệu hiệu quả, hầu ết ác ệ thống d h c h kho dữ liệu h trỗ ợ c các ấu trúc s và c chỉ ố ác khung nhìn ụ thể Các ph ng c ươpháp để l ựa chọn ác khối con được thảo luận trong phần trước, trong phần c

n ày chúng ta xem xét ắp ếp ữ liệu OLAP bằng phương pháp ếp chỉ số s x d x

Trang 38

Trong chỉ ố s nh âị ph n đối với một thuộc tính đã cho, có m ột vector bit ph n âbiệt, Bv, cho mỗi á gi trị v trong miền thuộc tính Nếu miền ủa ột thuộc t c m ính

đã cho bao g ồmn gi trị th n bit l ần thiết cho mỗi đầu ào trong chỉ ố nhịá ì à c v s

phân Nếu thuộc t có á ính gi trị v cho một hàng cho trong một bđã ảng ữ d liệu

thì bit biểu ễn giá di trị đó được thiết ập 1 trong hàng t l là ương ứng ủa s c chỉ ốnhị âph n Tất c c ả ác bit khác trong hàng đó được thiết l ậpthành 0

Chỉ số nhị phânđặc biệt h ữu ích cho các ĩnh ực l v mà s ốphần t ử trong

t h ập ợp thấp vì c ác thao tác so sánh, ổng ợp sau đó được suy giảm thành áct h c phép toán nhị ph n, do â đó giảm ời th gian xử lý Ch s nh phâỉ ố ị n dẫn t ớinhững suy giảm đáng ể k trong kh ng gian l u trô ư ữ và v ào ra d liệu vì một ữchuỗi c kác ỹ t có ự thể được biểu diễn ởi ột bit đơn b m

v c l

Đối ới ác ĩnh vực mà s ố phần ử trong ập ợp cao, ta c thể ử t t h ó s

dụng c k ác ỹ thuật nén Phương pháp ếp chỉ số kết nối x phổ biến trong xử lý truy vấn c s d ơ ở ữliệu quan hệ Phương pháp đánh s chỉ ố truyền thống ánh ạ x giá trị trong một ột đã c cho tới tập h c hợp ác àng có á gi trị Ngược lại việc đó

x ếp chỉ số kết nối đăng ký c hác àng có thể kết hợp c hai quan hệ ừủa t một c ơ

s d ở ữ liệu quan hệ V ậy ác ản ghi chỉ số kết nối có thểì v c b x ác định c bác ộ

k h mà ôết ợp kh ng cần phải thực hiện ác thao tác ết ối chi phí c k n cao Chỉ ố s

k n ết ối đặc biệt ữu íc để duy trì mối liê h h n kết giữa ột kho ngoài m á và c áckhoá ch ù h v nó t mính ph ợp ới ừ ột bảng ết k nối

2.1.4.3 Xử lý có hiệu quả các truy vấn OLAP

M ục đích ủa c việc ính toán trước ác khối con v t c à xây dựng ác ấu c c

trúc s chỉ ố OLAP là để tăng tốc độ việc ử x lý truy vấn trong khối d ữ liệu Với

m cột ách xem xét ữ liệu đã cho, việc ử truy vấn nên được x lý d x lý ử như sau:(1) X ác định những thao tác ào n được thực hiện tr n các khối con c n nê ê ó

thể Đ ềi u đó êli n quan đến ệc vi chuyển đổi ất ỳ ột thao tác l b k m ựa chọn, chiếu, roll-up drill-d, own được đặc tả trong truy vấn thành ác u lệnh c câ SQL

Trang 39

tương ứng /hoặc ác thao tác OLAP và c

(2) X ác định ác khối con c được tính án ước mà ững thao tác êto tr nh li n quan được dáp ụng

Mô h lình ưu trữ ủa ột áy c m m chủ MOLAP là m một ảng n chiều, các truy vấn đa chiều ủa nh c ững ười s dng ử ụng được ánh ạ ực tiếp t c c x tr ới ác ấutrúc lưu trữ máy chủ mà nó cung cấp ác khả ăng định ị trực tiếp Cách c n v

biểu ễn mdi ảng trung thực của khối ữ liệu d có những đặc ính chỉ ố ốt t s t nhưng có tính ử ụng kh ng gian ưu trữ s d ô l nghèo àn khi d liệu là dải rác n ữ

Để lưu trữ và x lý có ử hiệu quả, các ỹ thuật n d k én ữ liệu và ma trận thưa

nên được áp ụng x lý m d Để ử ột truy vấn trong MOLAP các ảng ày ột m d mchiều và hai chiều ải ph được xác định trước êti n Các chỉ ố sau đó được xây s

dựng cho những ảng ày ử ụng ác ấu trúc đánh m n s d c c s chỉ ố truyền thống

2.1.4.4 Lưu trữ siêu dữ liệu

Siêu dữ liệu là d ữliệu ủa ữ liệu Khi được s d c d ử ụngtrong kho dữ liệu,

siêu dữ ệu là d li ữ ệuli định nghĩa c ác đối ượng kho dữ liệu Một ưu trữ si u t l ê

d ữ liệu n bao gồm c ô nê ác th ng tin sau đây:

• M mô t c ột ả ấu trúc ủa kho dữ liệu, n bao gồm l c ó ược đồ kho dữ liệu, khung nhìn, các chiều ác â, c ph n cấp, và các định nghĩa ữ liệu được suy d

d cẫn ũngnhư ị tr ác si u thị ữ v í c ê d liệu và những ội n dung

• Siêu dữ liệu tác nghiệp bao gồm l s d ịch ử ữliệu và c ác biến đổi đã được áp

dụng cho n , sự hiện ành ủa ữ liệuó h c d và ki ểmsoát th ng tin ô

• C ác giải thuật được ử ụng để ổng ợp, bao gồm c s d t h ác giải thuật địnhngh chiĩa ều và đánh ági , dữ liệu ề ác ốc, các v c m phân vùng, các lĩ v nh ực

chủ đề, sự kết tập, sự tổng hợp, và c truy vấn và b c ác áo áo được địnhnghĩa trước

• S ự ánh ạ ừx t môi trường tác nghiệp sang kho dữ liệu, bao gồm c c s ác ơ ở

d ữ liệu nguồn và những ội dung của chúng, các n mô t cả ổng, các ph n â

Trang 40

vùng ữ liệu, sự trích út ữ liệu, làm ạch, các quy luật chuyển đổi và c d r d s ác

gi trá ị mặc định, các quy lu t lậ ọc và l tàm ươi dữ liệu và ôth ng tin bảo mật

• D ữ liệu li n quan t ê ới hiệu năng hệ thống, bao gồm c ác ch s , các mô t s ỉ ố ả ơ

lược để ải c thiện việc truy cập d ữ liệu và ệu năhi ng truy cập, ngoài ra là

c ác luật để định thời gian v ập ế hoạch cho các chu kỳ àm ươi, cập à l k l tnhật và ânh n bản

• Siêu dữ liệu ề doanh nghiệp, bao gồm c v ác thuật ngữ doanh nghiệp và c ácđịnh nghĩa, thông tin về ủ ở ch s hữu d liệu và c ữ ác chính ách ạp ữ liệ s n d u

2.1.5 Từ kho dữ liệu đến khai phá dữ liệu

2.1.5.1 Việc sử dụng kho dữ liệu

Có 3 loại ứng ụng kho dữ liệu đó d là x lý ôử th ng tin, xử lý âph n tích và khai phá d ữ liệu

Xử lý thông tin

H c ỗ trợ ác truy vấn, các ph n tích â thống k ơ ản và t lê c b ạo ập b c sử áo áo

dụng c bác ảng, các ảng chéo, các ược đồ, đồ thị b l

Xử lý phân tích

H c ỗtrợ ác thao tác OLAP cơ ản b bao gồm c và ắt chiếu, roll up, drill down

và xoay, ản sinh dữ liệu l s c d s ịch ử ở ả ạng ổng ợp t h và dạng chi tiết Đồng thời h ỗtrợ ử x lý âph n tích ực tr tuyến ôth ng qua ph n tíchâ đa chiều ữ ệu d li

Khai phá dữ liệu

H ỗtrợ việc phát hiện tri thức t ừ những ẫu ữ liệu ẩn m d và c ác luật ết ợp, k h

xây dựng ác c mô hình ph n tích â , thực hiện âph n lớp và d oự đ án, biểu diễn c ác

k ếtquả khai ph ử ụng ác ng cụ trực quan hoá á s d c cô

2.1.5.2 T h ích ợp xử lý phân tích trực tuyến ới khai phá ữ liệu v d

Trong rất nhiều ình kiến trúc khác nhau của ác ệ thống khai

phá d ữ ệuli , khai phá phâ ích tr tuyn t ực ến(on line analytical mining OLAM )

-t h x lý âích ợp ử ph n tích trực tuyến ới v khai ph ữ liệu và khai phá tri thức t á d ừ

Ngày đăng: 22/01/2024, 16:52

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Agrawal R., Imielinski T., Swami A. (1993), Mining association rules bettween sets of items in large databases, SIGMOD, Washington D.C, pp. 207-216 Sách, tạp chí
Tiêu đề: Mining association rules bettween sets of items in large databases
Tác giả: Agrawal R., Imielinski T., Swami A
Năm: 1993
[2] Agrawal R., Srikant R.(1995), Fast algorithms for mining Association Rule, IBM Almaden Research Center Sách, tạp chí
Tiêu đề: Fast algorithms for mining Association Rule
Tác giả: Agrawal R., Srikant R
Năm: 1995
[3] Agrawal R., Srikant R.(1995), Mining generalized association rule, IBM Almaden Research Center, San Jose Sách, tạp chí
Tiêu đề: Mining generalized association rule
Tác giả: Agrawal R., Srikant R
Năm: 1995
[4] Alex erson, Stephen J.Smith, Data Warehousing, Data Mining&amp; B OLAP, Tata McGraw-Hill Edition 2004 Sách, tạp chí
Tiêu đề: Data Warehousing, Data Mining& " B"OLAP
[5] C.Hidber, Online association rule mining, In Proc. Of ACM SIGMOD Intl. Conf. On Management od Data, June 1999 Sách, tạp chí
Tiêu đề: Online association rule mining
[6] Jiawei Han, Jian Pei, and Yiwen Yin, Mining frequent patterns without candidate generation, In Proc. Of ACM SIGMOD Intl. Conf. On Management of Data, May 2000 Sách, tạp chí
Tiêu đề: Mining frequent patterns without candidate generation
[7] Jiawei Han and Micheline Kamber, Data mining: Concepts and techniques, Academic Press 2001 Sách, tạp chí
Tiêu đề: Concepts and techniques
[8] Margaret H. Dunham, Le Gruenwald, Zahid Hossain, Survey on frequent pattern mining, 2003 Sách, tạp chí
Tiêu đề: Survey on frequent pattern mining
[9] Data Mining Research Group, Intelligent Database Systems Research Laboratory School of Computing Science, Simon Fraser University, British Columbia, Canada, DBMiner: A System for Data Mining in Relational Databases and Data Warehouses Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w