1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Công nghệ thông tin: Sử dụng các mô hình khai phá dữ liệu để khám phá quy luật sử dụng điện thoại của người Việt Nam

117 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Sử Dụng Các Mô Hình Khai Phá Dữ Liệu Để Khám Phá Quy Luật Sử Dụng Điện Thoại Của Người Việt Nam
Tác giả Đỗ Bá Sang
Người hướng dẫn TS. Trần Anh Dũng
Trường học Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành Công Nghệ Thông Tin
Thể loại luận văn thạc sĩ
Năm xuất bản 2007
Thành phố Thành Phố Hồ Chí Minh
Định dạng
Số trang 117
Dung lượng 38,18 MB

Nội dung

Bằng cơ sở dữ liệu của một công ty viễn thông đang hoạt động, với nhiều loại dịch vụ được cung cấp, các hình thức khác nhau, để cương nghiên cứu sẽ rút rađược các qui luật về hành vi của

Trang 1

SU DUNG CAC MÔ HÌNH KHAI PHA DU LIEU DE

KHAM PHA QUY LUAT SU DUNG DIEN THOAI

CUA NGUOI VIET NAM

Trang 2

D6 ofCe

DAI HOC QUOC GIA THANH PHO HO CHi MINH

TRUONG DAI HQC CONG NGHE THONG TIN

Ho và tên tác giả luận văn

ĐÔ BA SANG

oe

SU DUNG CAC MÔ HÌNH KHAI PHA DU LIEU DE

KHAM PHA QUY LUAT SU DUNG DIEN THOAI

CUA NGUOI VIET NAM

Chuyên ngành: KHOA HỌC MAY TÍNH

Mã số: 60.48.01

oe

LUAN VAN THAC SI

(Chuyén Nganh Tin Hoc)

NGƯỜI HƯỚNG DAN KHOA HỌC:

Trang 3

1.2 Data mining

1.2.1 Khdi niém Data Mining

1.2.2 Tiến trình khai phá dữ liệu

1.2.3 Các phương pháp khai phá dữ liệu

1.2.4 Các ứng dụng thực tiễn của Data Mining

1.2.5 Phân loại các hệ thống khai thác đữ liệu

2.2.3 Phát triển giải pháp hiệu quả trong khai thác luật kết hợp 2.2.4 Phát triển giải pháp hiệu quả tính ứng dụng

2.3 Thông số “độ quan trọng ” cho luật kết hợp theo nghiên cứu từ thuật

toán của Microsoft Algorithm

2.4 Phát biểu bài toán khai thác luật kết hợp

2.5 Thuật toán Apriori nhị phân để tìm các tập phổ biến

2.5.1 Trình bày về thuật toán Apriori

2.5.2 Ví dụ về thuật toán Apriori

2.5.3 Cải tiến hiệu quả thuật toán

2.6 Ví dụ minh họa khai thác - Ứng dụng luật

Chương 3~ ĐỀ XUẤT THUẬT TOÁN PHAN LỚP — DỰ DOAN THEO LUAT

Trang 4

3.2.4 Lịch sử ứng dung Naive Bayes trong phân IOP <~-<<<<c<+s 42

EU W// g7 070 0nn ố ẽ ẽ.e 42

3.3 Mang Bayes (Bayesian Network) o G0 0060000650 43

3.3.] Định nghĩ4 cv TT TH ng kg 43

3.3.2 Mạng Bayes nhân qHủỏ cv nh vn vien 45

3.4.1 Ví dụ 1: những xác suất có điều kiện 5 ccccceccseererrree 47

3.4.2 Ví dụ 2: Kết quả dương tính sai trong một xét nghiệm y học " 49

3.4.3 Ví dụ 3: Trong phòng XW GM ch kh ghe 51 3.4.4 Ví dụ 4: Lý thuyết tìm Kid c- St St ST St He 52

Chương 4— PHAM VI UNG DUNG vsssssssssssssssssssssssssssssssssssssssssssssssssssssssssssessssssesssessssssesssesss 54

3.4.1 Pham Vi ứng dụng rộng rai o- << G5 < 9 99 99.9999 9699589958986089658 54

4.1.1 Từ khai thác thông tin cho đến những thông tin tinh báo quan trọng can

77720777 55

4.1.2 Dự đoán và CUNG CAD - 2c CS SE 3S SH TH HH re 56

4.1.3 Phát hiện gian lận (fraud detection) cẶ S5 S5 svvExseeeeerresses 58

4.1.4 Các ứng dung quản lý và chăm sóc khách hàng -«« 58 4.1.5 Các ứng dụng phát hiện và cô lập lỗi trên hệ thống mạng viễn thông

(Network fault isolation)

4.2 Pham Vi ứng dụng dé tài ccscssessssessssessscessscssescssesessessseeseseessseesssessecesssseseeess

Chương 5 — CHUONG TRINH THU NGHIEM -ccccccccccccsccsccccccccccccee 63

5.1 Mô tả hệ thống co sở dữ liệu của G2G 'Tele€OIm 5 5s «se ssssssesese 63

5.2 Chương trình ứng dụng khai phá dữ liệu bằng Luật Kết Hợp và Phân lớp

HC cọ TH TH 0 00.000 0.000.000 0 00 00 0000.0000900 00091 0008900 80

Chương 6 - KET LUẬN VÀ HƯỚNG MỞ RỘNG ccccsseccccccccee 89

Trang 5

Bảng 2.1 Ví dụ về một cơ sở dit liệu dạng giao tác -ÌD ccccccccscseecces 27Bảng 2.2 Các tập phổ biến trong co sé dit liệu ở bảng 2.1 với độ hỗ trợ tốt thiểu

3

Bảng 2.3 Ví dụ các tập phổ biến có độ hỗ trợ tối thiểu 50%

-Bảng 2.4 -Bảng sinh ra luật kết hợp từ tập phổ biến ABE -c-c

Bảng 2.5 Cơ sở dữ liệu giao dịCH ccsccc<ccscssexssxes

Bảng 2.6 Nội dung tập luật thu được trước khi tid .cccccsccsscssssss

Bảng 2.7 Nội dung tập luật thu được sau khi fÏA c 5S Sex

Bảng 2.8 : cơ sở dit liệu chỉ tiết của 8 cuộc điện thoại -~+

Bảng 3.1 Ví dụ về xác suất của những cái bánh trong thuật toán Bayes

Bảng 5.1 Dữ liệu số cuộc gọi thành công được rút ra từ bang chỉ tiết cuộc goidi

QUOC t& POStPAY_CAP 1E U ÔÒỎÔ 74 Bảng 5.2 Dữ liệu số cuộc gọi thất bại được rút ra từ bằng chi tiết cuộc gọi thất

Di INCOMPL ee 000n0n0n0nẺnẺ88 76

Trang 6

Danh mục các hình vẽ

Trang

Hình 1.1 Quá trình khai phá tri thỨtC cà 2c S SE EteEksrrrrerreeerrevrs 8 Hình 2.1 Mô hình ứng dụng lUGt .ĂĂSĂ se seeseres 19

Hình 2.2 Các bước cơ bản của ứng dụng lHẬT 7S cSScsSsseseesereeres 22

Hình 2.3 Lưu đô giải pháp mô phỏng xác nhận đặc điểm luật 24

Hình 2.4 Mô tả ví dụ về thuật toán AIDlOTÌ 5c 5c Sc Sex EErekerrrerreg Hình 3.1 Một mang Bayes đơn giản (Nguồn từ Wiki) Hình 5.1 Mô hình mô tả mối quan hệ các bảng dit liệu viễn thông 72

Hình 5.2 Biểu đô tổng cuộc gọi đi quốc tế 3 ngày liên tiếp 2

Hình 5.3 Biểu đô chỉ tiết mô tả các cuộc gọi thành công Z9 Hình 5.4 Biểu đồ tổng cuộc gọi di bị thất bại của 3 ngày liên tiếp 77

Hình 5.5 Biểu đồ chỉ tiết mô tả các cuộc gọi bị thất bại 77

Hình 5.6 Hình so sánh tổng cuộc gọi thành công và thất bại 76

Hình 5.7 Hình so sánh mức độ thành công và thất bại từng thời điểm 77

Hình 5.8 Các danh mục chính được tổng hợp của dữ liệu viễn thông 30

Hình 5.9 Các thuật toán kết hợp dùng khai thác dữ liệu để các tập luật 8]

Hình 5.10 Gido diện CHIN iiceccccccccccccccccccccccseeeeeesescccccesecccecececeesesenssssccseeeeeeesesesens 82 Hình 5.11 Hiển thị dit liệu được Training : : s-55+55+2c2cccxersrsrsceee 83 Hình 5.12 Chọn mẫu dit liệu để dự đóan kết quả theo dit liệu Training 34

Hình 5.13 Dự đoán kết quả theo thuật toán Bayes cho bdng dit liệu 85 Hình 5.14 Xuất dữ liệu ra dạng file XML 5555552 SSESeEet+eEeseeetseeesescee 86

Trang 7

bản), hoặc ở dạng số, Nếu ở dạng thô thì chúng không có ý nghĩa gì cả mà chỉ

có ý nghĩa khi chúng được gửi tới 1 chương trình lưu trữ dữ liệu và phải được xử

lí Từ đó thúc đẩy con người có động cơ nghiên cứu về các đối tượng dữ liệu này

để tìm hiểu về chúng Thông qua việc khai phá dữ liệu chúng ta có thể phát hiện

ra những tri thức Từ đó giúp chúng ta nhận ra tri thức là sự tích hợp thông tin,

bao gồm các sự kiện, các cơ sở lập luận và các mối quan hệ giữa các đối tượng

giúp chúng ta có thể lĩnh hội tri thức, khám phá và học tập từ những tri thức thuđược Do vậy là công nghệ Data mining ra đời và phát triển ngày càng sâu rộng

Khám phá tri thức và khai phá dữ liệu (KDD = Knowledge Discovery and

Data mining) đã nhanh chóng trưởng thành trên mọi lĩnh vực, kết hợp với việc quan lí dữ liệu, khoa học thống kê và mục đích sử dung tri thức từ khai phá dữ

Data mining (khai phá dữ liệu) là quá trình tìm kiếm các mẫu mới, những thông

tin tiém ẩn mang tính dự đoán trong các khối dữ liệu lớn Những công cụ datamining có thể phát hiện những xu hướng trong tương lai, các tri thức mà datamining mang lại cho các doanh nghiệp có thể ra các quyết định kịp thời và trảlời những câu hỏi trong lĩnh vực kinh doanh mà trước đây tốn nhiều thời gian để

xử lý Với ưu điểm trên, data mining đã chứng tỏ được tính hữu dụng của nó

trong môi trường kinh doanh đây tính cạnh tranh ngày nay và được ứng dụngrộng rai trong các lĩnh vực thương mại, tài chính, diéu trị y học, giáo dục, viễn

thông v.v

Điện thoại là một vật dụng và công cụ phổ biến trong thời đại hiện nay Sự phát

triển khoa học kỹ thuật trong lãnh vực công nghệ thông tin và viễn thông với tốc

độ chóng mặt, thị trường điện thoại Việt Nam đang trên đà phát triển mạnh mẽ.Đến thời điểm hiện nay, Việt Nam chúng ta có khoảng hơn 5 triệu thuê bao trên

4 mạng điện thoại Vina Phone, Mobi Fone, Viettel và S-Fone chưa kể mạng

điện thoại đi động nội hạt như City Phone, các mạng điện thoại vô tuyến cố định

Trang 8

khác Vì vậy vấn để khai thác cơ sở dữ liệu đối với các hành vi sử dụng điên

thoại của người tiêu dùng rất quan trọng.

Đối với các mạng điện thoại di động hiện nay, chúng ta có rất nhiều gói cước sử

dụng, các gói cước được xem như một loại sản phẩm dịch vụ khác nhau, và có

cách tính cước khác nhau tuỳ theo đối tượng người sử dụng chọn lựa Từ đó ta có

các gói cước trả trước và các gói trả sau, mà ta còn gọi là thuê bao trả trước và

thuê bao trả sau (có hợp đồng sử dung dich vu)

Ngoài ra, nhà cung cấp dịch vụ còn có các cách tính khác nhau cho từng thời

điểm thực hiện cuộc gọi trong ngày nhằm hạ giá cho các cuộc gọi vào thời điểm

mạng điện thoại rãnh rỗi, như ban đêm Vì vậy các bài toán vé giá cước được

đặt ra cho các nhà cung cấp dịch vụ cạnh tranh nhau.

Việc khảo sát một số trường hợp nghẽn mạch cục bộ vào những ngày đặc biệtcũng là vấn dé cần nghiên cứu kỹ cho việc dau tư thêm cơ sở hạ tầng Vì vậy,việc 4p dụng các kiến thức khoa học trong lãnh vực máy tính rất cần thiết chocác nhà cung cấp dịch vụ điện thoại khi muốn tìm ra các qui luật, hành vi, sởthích của người sử dụng điện thoại Từ những yêu cầu của người sử dụng đãđược nghiên cứu, bài toán sẽ giúp cho người quản lý có các quyết định trong

việc đưa ra các sản phẩm phong phú kèm với việc ban hành giá cứơc mà không

ảnh hưởng đến doanh thu hoặc lợi nhuận.

Bằng cơ sở dữ liệu của một công ty viễn thông đang hoạt động, với nhiều loại

dịch vụ được cung cấp, các hình thức khác nhau, để cương nghiên cứu sẽ rút rađược các qui luật về hành vi của người tham gia sử dụng dịch vụ: mức cước trung

bình, thời gian gọi hàng tháng và các thời điểm phát sinh nhiều cuộc gọi trongngày tương ứng Để cương còn phát hiện về một số sự cố mà các thuê bao gọithất bại với nhiều lý do giúp chúng ta cải tiến dịch vụ tốt hơn, và qua đó có thể

dự báo về mức doanh thu, lợi nhuận trong tương lai cũng như khả năng thu nhập

của người sử dụng điện thoại.

Trang 9

Như ở trên ta đã nói: hiện nay dữ liệu, thông tin và tri thức đang là tiêu

điểm của 1 lĩnh vực mới nghiên cứu và ứng dụng vé phát hiện tri thức

(Knowledge Discovery) và khai phá di liệu (Data Mining).

Phát hiện tri thức: phát hiện tri thức trong các cơ sở dữ liệu là một quy

trình nhận biết các mẫu hoặc các mô hình dữ liệu với các tính năng: hợp thức

mới, khả ích và có thể hiểu được

Khai phá dit liệu: khai phá dữ liệu là một bước trong quy trình phát hiện

tri thức gồm có các thuật toán khai thác dữ liệu chuyên dùng dưới một số quyđịnh về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hìnhtrong dữ liệu đang tổn tại trong các cơ sở dữ liệu nhưng vẫn còn bị che khuất bởi

hàng núi dif liệu.

1.2 Data mining

1.2.1, Khái niệm Data Mining

Tóm lai, khai pha dữ liệu (data mining) là quá trình khám phá các tri thức mới

và các tri thức có ích ở dạng tiém năng trong nguồn dif liệu đã có

1.2.2 Tiến trình khai phá dữ liệu

Khai phá dữ liệu là một bước của quá trình khai phá tri thức (Knowledge

Discovery Process) , bao gồm:

" Problem Understanding and Data Understanding: xác định vấn dé và

không gian dif liệu dé giải quyết vấn dé

« Data preparation : chuẩn bi dữ liệu Bao gồm quá trình làm sạch dữ liệu

(data cleaning), tích hợp dữ liệu (data integration), chon dữ liéu(data

selection), biến đổi dữ liệu(data transformation), các bước cu thé sau

o Làm sạch dit liệu (Data Cleaning): Loại bỏ dữ liệu nhiễu và dữ liệu

không nhất quán.

o_ Tích hop dit liệu (Data Intergation): Dữ liệu của nhiều nguồn có thể

được tổ hợp lại

o Lựa chọn dit liệu (Data Selection): Lựa chọn những dữ liệu phù hợp

với nhiệm vụ phân tích trích rút từ cơ sở dữ liệu.

Trang 10

o_ Chuyển đổi dit liệu (Data Transformation): Dữ liệu được chuyển đổi

hay được hợp nhất về dạng thích hợp cho việc khai phá

=" Data Mining : khai phá dữ liệu Xác định nhiệm vụ khai pha dữ liệu va

lựa chọn kỹ thuật khai phá dữ liệu Kết quả cho ta một nguồn trí thức thô

Đây là một tiến trình cốt yếu trong đó các phương pháp thông minh được

áp dụng nhằm trích rút ra mẫu dữ liệu.

« Evaluation : đánh giá mẫu Dựa trên một số tiêu chí tiến hành kiểm tra va

lọc nguồn trí thức thu được

= Deployment : triển khai, biểu diễn tri thức Ở giai đoạn này các kỹ thuật

biểu diễn và hiển thị được sử dụng để đưa tri thức lấy ra cho người dùng

Quá trình khai phá trí thức không chỉ là một quá trình tuân tự từ bước đầu tiênđến bước cuối cùng mà là một quá trình lặp và có quay hổi lại các bước đã qua,

kết quả thu được có thể được lấy trung bình trên tất cả các lần thực hiện

Hinh thành và Định nghĩa bai toan

Thu thập và

Tién xử lý dữ liệu

Khai nhá dữ liệu Hút ra các tri thức

`

» Phân tích và kiểm định

kết quả 4

Sử dụng các tri thức

phái hiện được

Hình 1.1 Quá trình khai phá tri thức

- Các quan niệm

* Cơ sở dữ liệu (quan hệ, hướng đối tượng, không gian, WWW, )

* Tri thức (đặc trưng, gom cụm, kết hợp, phân lớp, )

* Kỹ thuật (máy học, thống kê, trực quan hóa, nhà kho, )

* Ứng dụng (bán lẻ, điện thoại, khai thác web, )

Trang 11

Oracle, MS SQL Server, IBM DB2, MS Access, v v.

Cơ sở dit liệu da chiều (multidimention structures, data warehouses, data

mart ) : là các kho dữ liệu được tập hợp va chon loc từ nhiều nguồn dữ liệu khác

nhau Dạng dữ liệu này chủ yếu phục vụ cho quá trình phân tích cũng như khai

phá tri thức và hỗ trợ quá trình ra quyết định

Cơ sở đữ liệu giao tác (transacHonal databases) : đây cũng là dạng dữ liệu

tác nghiệp có các bản ghi thường là các giao tác Dang dữ liệu này cũng phổ

biến hiện nay trong đó có ngành bưu chính.

Cơ sở dữ liệu quan hệ — hướng đối tượng (object relational databases) : là dang dữ liệu lai giữa hai mô hình quan hệ và hướng đối tượng.

Dữ liệu không gian và thời gian (spatial, temporal, and time-series data) :

là dạng dif liệu có tích hợp thuộc tính về không gian như dif liệu bản đổ mạng

cáp điện thoại hoặc thời gian như dữ liệu cước điện thoại, phát hành báo chí.

Co sở dữ liệu da phương tiện (Multimedia database) : là dạng dữ liệu âm

thanh (audio), hình ảnh (video), Text & WWW, v v Dang đữ liệu này đang rất

phổ biến trên internet và lưu tại các web server của các đơn vị trực thuộc ngành

bưu điện.

1.2.3 Các phương pháp khai phá dữ liệu

= Kĩ thuật khai phá dữ liệu mô tả: có nhiệm vụ mô tả về các tính chất hoặc

các đặc tính chung của dữ liệu trong CSDL hiện có Các kĩ thuật này gồm

có: phân cum (clustering), tóm tắt (summerizafion), trực quan hóa

(visualiztion), phân tích sự phát triển và độ lệch (Evolution and deviation

analyst), phần tích luật kết hợp (association rules)

= Kĩ thuật khai phá dữ liệu dự đoán: có nhiệm vụ đưa ra các dự đoán dựa

vào các suy diễn trên dữ liệu hiện thời Các kĩ thuật này gồm có: phân lớp

(classification), hỗi quy (regression)

Một số hướng tiếp cận chính với hai đích chính của khai phá đữ liệu là dự đoán

và mô tả, người ta thường sử dung các phương pháp sau cho khai phá dữ liệu:

Trang 12

Ví dụ : phân lớp loại cước hoặc loại dịch vụ dựa trên số máy bị gọi của cuộc

gọi, phân lớp khu vực dựa trên số máy chủ gọi, phân lớp giờ cao điểm, thấp

điểm dựa trên giờ bắt đầu đàm thọai.v.v

Hướng tiếp cận phân lớp có giám sát thường sử dụng một số kỹ thuật của

học máy như cây quyết định, mạng nơ ron nhân tao (neural network) v.v

Luật kết hợp (association rules) : là dạng luật biểu diễn tri thức ở dạng

tương đối đơn giản Luật kết hợp có khả năng ứng dụng trong nhiều lĩnh

vực khác nhau trong đó có lĩnh vực viễn thông.

Ví dụ : “ 70 % khách hàng gọi liên tỉnh thì có 90 % trong số khách hàng đó

gọi nội tinh “.

Khai thác mau tuần tự (sequential/temporal patterns): Tương tự như khai

thác luật kết hợp nhưng có thêm tính thứ tự và tính thời gian Một luật mô

tả mẫu tuần tự có dạng tiêu biểu X -> Y, phản ánh sự xuất hiện của biến

cố X sẽ dẫn đến việc xuất hiện biến cố Y Hướng tiếp cận này có tính dự

báo cao.

Phân cụm (clustering/segmentation) : nhiệm vụ miêu tả chung mà trong

một nhiệm vụ tìm kiếm đó xác định một tập hợp hữu hạn của những phạm

trù hay những nhóm để mô tả dữ liệu, sắp xếp các đối tượng theo từng

cụm (số lượng và tên của cụm chưa được biết trước) Các đối tượng được

gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùng một cụm

là lớn nhất và mức độ tương tự giữa các đối tượng nằm trong các cụm

khác nhau là nhỏ nhất Phân cụm còn được gọi là học không có giám sát

(unsupervised learing).

Hồi qui (Regression): khám phá của một sự dự đoán hoc chức năng, ma

vẽ bản đồ một mục tin dữ liệu tới một thực tế- biến dự đoán giá trị

Tổng hợp (Summarization): nhiệm vụ miêu tả bổ sung bao gồm nhữngphương pháp để tìm ra sự mô ta cô đọng cho một thiết lập (hay tập con)

của dif liệu.

Trang 13

= Mô hình ràng buộc (Dependency modeling): tim ra một mô hình cục bộ

được mô tả bằng những phần phụ thuộc quan trọng giữa những biến hay

giữa những giá trị của một đặc tính hay trong một phần của một tập dữ

liệu.

= Dò tìm biến đổi và độ lệch (Change and Deviation Detection): khám phá

những sự thay đổi quan trọng nhất trong tập dữ liệu

= Biểu diễn mô hình (Model Representation)

= Kiểm định mô hình (Model Evaluation)

" Phương pháp tìm kiếm (Search Method)

1.2.4 Cac ứng dụng thực tiễn của Data MiningPhát hiện tri thức và khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực

như: thống kê, trí tuệ nhân tao, cơ sở đữ liệu, thuật toán học, tính toán song song

và tốc độ cao, thu thập tri thức cho các hệ chuyên gia, quan sát dữ liệu, Dac

biệt phát hiện tri thức và khai phá dữ liệu rất gần gũi với các lĩnh vực thống kê,

sử dụng các phương pháp thống kê để mô hình dữ liệu và phát hiện các mẫu,

A

luật,

Các ứng dụng của phát hiện tri thức và khai phá dữ liệu

= Thông tin thương mai:

+ Phân tích dữ liệu marketing, khách hàng

+ Phân tích đầu tư

+ Phê duyệt cho vay vốn

+ Phát hiện gian lận

= Thông tin kỹ thuật:

+ Điều khiển và lập lịch trình

+ Quản trị mạng

+ Phân tích các kết quả thí nghiệm

= Thông tin khoa học

= Thông tin cá nhân

Các lĩnh vực hiện tại có ứng dụng khai phá dữ liệu bao gồm:

=" Thiên văn học

Trang 14

-12-=" Tin sinh hoc

= Bào chế thuốc

"_ Thương mại điện tử

= Phát hiện lừa dao

= Máy tìm kiếm (web)

Những ứng dụng đáng chú ý của khai phá dữ liệu

Khai phá dữ liệu được xem là phương pháp mà đơn vị Able Danger của Quân

đội Mỹ đã dùng để xác định kẻ đứng đầu cuộc tấn công ngày 9/11, Mohamed

Atta, và ba kẻ tấn công ngày 9/11 khác là các thành viên bị nghi ngờ thuộc lực

lượng al Qaeda hoạt động ở Mỹ hơn một năm trước cuộc tấn công.

1.2.5 Phân loại các hệ thống khai thác dữ liệu

Phân loại khai thác dữ liệu dựa trên các tiêu chí khác nhau.

Phân loại dựa trên kiểu dif liệu được khai thác : Cơ sở dữ liệu quan hệ, kho

dữ liệu, cơ sở dif liệu giao tác, cơ sở dữ liệu hướng đối tượng, cơ sở dữ liệu

không gian, cơ sở dữ liệu đa phương tiện, cơ sở dữ liệu văn bản và www v v.

Phân loại dựa trên dang tri thức được khám phá : Tóm tắt và mô tả, luật kết hợp, phân lớp, phân cụm, khai phá chuỗi v v

Phân loại dựa trên lĩnh vực được áp dụng : Thương mại, viễn thông, tài

chính, y học, web mining, v v.

Phân loại dựa trên kỹ thuật được áp dụng : Phân tích trực tuyến (Online

Analytial Processing - OLAP), học máy (cây quyết định, mạng nơ ron nhân tạo,K-Means, giải thuật di truyền, máy vecto hỗ trợ — SVM, tập thô, tập mờ v v)

Thông thường sử dụng tập mờ là thích hợp cho việc tìm ra và hiểu được sự

liên quan của các mô hình dữ liệu chưa đầy đủ, tạp nhiễu, thông tin hỗn tạp và

tác động của con người, và từ đó có thể cung cấp giải pháp xấp xỉ nhanh hơn.Mạng neuron có khả năng tổng quát, không giới hạn, mạnh và học tốt trong môitrường dữ liệu giàu (data-rich) thuật toán di truyén cung cấp kha năng tìm cácthuật toán để chọn mẫu từ các dữ liệu hỗn tạp dựa trên một số hàm tiêu

Trang 15

của tinh trạng không rõ ràng trong dif liệu Một số yêu cầu khai thác dữ liệu cầnphai áp dụng phương pháp tính toán mềm ( Tính toán mềm là sự kết hợp của cácphương pháp logic mờ, thuật toán di truyền, khám phá tri thức, mạng neuron,

tính toán neurofuzzy, tập thô, rút ra luật )

Những vấn đề quan tâm trong hệ thống khai thác dữ liệu

Một số hướng nghiên cứu của khai thác dữ liệu hiện nay :

OLAM (OnLine Analytical Mining) : Là sự tích hợp giữa cơ sở dữ liệu, kho

di liệu, và khai thác dữ liệu Một số hệ cơ sở dữ liệu như Oracle MS SQL

Server, đã tích hợp tính năng xây dựng kho dữ liệu và phân tích trực tuyến (OLAP) Những tính năng này được hỗ trợ dưới dạng các công cụ đi kèm và

người sử dụng phải mua nếu cần sử dụng Các nhà nghiên cứu trong lĩnh vực cơ

sở dữ liệu còn muốn có thêm sự tích hợp giữa cơ sở đữ liệu, kho di liệu, và khai

thác dữ liệu Khám phá được nhiều tri thức khác nhau từ các kiểu dữ liệu khác

nhau Tính chính xác và hiệu quả, khả năng mở rộng và tích hợp, xử lý dữ liệu bị

nhiễu không đầy đủ và tính có ích của tri thức được khám phá Vấn để song song

hoá và phân tán quá trình khai thác dữ liệu Vấn để ngôn ngữ truy vấn trong

Khai thác dif liệu phải cung cấp cho người sử dụng một ngôn ngữ thuận tiện, gần

gũi tương tự như SQL trong Cơ sở dữ liệu quan hệ Biểu diễn các tri thức khaithác được sao cho trực quan và gần gũi với người sử dụng để người sử dụng tri

thức có hiệu quả hơn.

Trong quá trình thực hiện luận văn tôi có tham khảo một số tài liệu liên quan nhưng vì trình độ và thời gian còn hạn chế nên nội dung của luận văn này

liên quan chủ yếu đến hướng chính là khai phá luật kết hợp mờ để áp dụng khai

thác dữ liệu khách hàng và cước điện thoại tại công ty viễn thông G2G Telecom

Ngoài ra luận văn còn tập trung vào việc tìm các luật kết hợp thật sự có ích nhờ

các phương pháp như tìm luật kết hợp dựa vào tập luật đơn giản (Simple rule set), Thuật kết hợp mờ với thuộc tính được đánh trọng số, tìm luật phủ định , timluật mới lạ thật sự có ích dựa trên tri thức đã biết , phương pháp loại bỏ các luật

thừa Ngoài ra có một số thay đổi thuật toán trong quá trình cài đặt thực tếnhằm cải thiện thời gian tìm luật và hoàn thiện chương trình cài đặt để có thể

ứng dụng trong thực tế tại công ty

Các vấn dé về tính riêng tưVẫn có các mối lo ngại về tính riêng tư gắn với việc khai phá dữ liệu Ví dụ, nếu

một ông chủ có quyển truy xuất vào các hồ sơ y tế, họ có thể loại những người

Trang 16

-14-có bệnh tiểu đường hay bệnh tim Việc loại ra những nhân viên như vậy sẽ cắtgiảm chi phí bảo hiểm, nhưng tạo ra các vấn để về tính hợp pháp và đạo đức

Khai phá dữ liệu các tập dữ liệu thương mại hay chính phủ cho các mục đích áp

đặt luật pháp và an ninh quốc gia cũng là những mối lo ngại về tính riêng tư

đang tăng cao.

Có nhiều cách sử dụng hợp lí với khai phá dữ liệu Ví dụ, một CSDL các mô tả

về thuốc được thực hiện bởi một nhóm người có thể được dùng để tìm kiếm sự

kết hợp của các loại thuốc tạo ra các phản ứng (hóa học) khác nhau Vì việc kết

hợp có thể chỉ xảy ra trong 1 phần 1000 người, một trường hợp đơn lẻ là rất khóphát hiện Một dự án liên quan đến y tế như vậy có thể giúp giảm số lượng phản

ứng của thuốc và có khả năng cứu sống con người Không may mắn là, vẫn có khả năng lạm dụng đối với một CSDL như vậy.

Về cơ bản, khai phá dữ liệu đưa ra các thông tin mà sẽ không có sẵn được N6

phải được chuyển đổi sang một dạng khác để trở nên có nghĩa Khi dữ liệu thu

thập được liên quan đến các các nhân, thì có nhiều câu hỏi đặt ra liên quan đến

tính riêng tư, tính hợp pháp, và đạo đức.

1.2.6 Các khó khăn còn tôn tại

Các thách thức với phát hiện tri thức và khai phá dữ liệu còn đang được nghiên cứu

> Các cơ sở dữ liệu lớn

Số chiều lớn

Thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã phát hiện không

còn phù hợp.

Dữ liệu bị thiếu hoặc nhiễu

Quan hệ giữa các trường phức tạp

Giao tiếp với người sử dụng và kết hợp với các tri thức đã có

Tích hợp với các hệ thống khác

VY

VVV V

Trang 17

LUẬT KẾT HỢP

2.1 Tổng quan luật kết hợp

Khai phá luật kết hợp: mục tiêu của phương pháp này là phát hiện và đưa ra

các mối liên hệ giữa các giá trị dữ liệu trong CSDL Mẫu đầu ra của giảithuật khai phá dữ liệu là tập luật kết hợp tìm được Chẳng hạn: phân tích

CSDL bán hàng nhận được thông tin về những khách hàng mua máy tính cókhuynh hướng mua phần mềm quản lý tài chính trong cùng lần mua được

miêu tả trong luật kết hợp sau:

“Máy tính => Phần mềm quản lý tài chính”

[Độ hỗ trợ: 2%, độ tin cậy: 60%]

Độ hỗ trợ và độ tin cậy là hai độ đo của sự đáng quan tâm của luật Chúng tương

ứng phan ánh sự hữu ích và sự chắc chắn của luật đã khám phá Độ hỗ trợ 2% có

nghĩa là 2% của tất cả các tác vụ đã phân tích chỉ ra rằng máy tính và phần mềm

quản lý tài chính là đã được mua cùng nhau Con độ tin cậy 60% có nghĩa là

60% các khách hàng mua máy tính cũng mua phần mém Khai phá luật kết hợp

được thực hiện qua 2 bước:

Bước 1: tìm tất cả các tập mục phổ biến, một tập mục phổ biến được xácđịnh qua tính độ hỗ trợ và thỏa mãn độ hỗ trợ cực tiểu

Bước 2: sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phảithỏa mãn độ hỗ trợ cực tiểu và độ tin cậy cực tiểu

Phương pháp này được sử dụng rất hiệu quả trong các lĩnh vực như marketing có

chủ đích, phân tích quyết định, quản lí kinh doanh, phân tích giỏ thị trường

Trong ngành viễn thông, các loại dịch vụ cung cấp cho khách hàng ngày

càng nhiễu, do đó chúng ta có thể tim mối liên kết giữa việc sử dụng các loại

dịch vụ để phục vụ cho việc quảng cáo, tiếp thị Ví dụ như để tìm hiểu thói quen

sử dụng các dịch vụ viễn thông của khách hàng, người ta thường đặt câu hỏi

“Những dịch vụ nào khách hàng thường hay sử dụng cùng lúc với nhau khi đăng

ký sử dụng tại trung tâm chăm sóc khách hàng ?” Các kết quả nhận được có thể

dùng cho việc tiếp thị dịch vụ như liệt kê các dịch vụ khách hàng hay sử dụng

cùng lúc nằm gần nhau, hoặc khuyến mãi dịch vụ kèm theo

Trang 18

huyện vừa gọi điện thoại IP 171 Liên tỉnh ” “mua máy điện thoại di động” hay

“gọi liện tỉnh và sống ở các huyện” ở đây được xem là vế trái (tiền để ) của

luật, còn “mua simcard“ hay “gọi điện thoại IP 171 liên tỉnh” là vế phải (kết

luận) của luật Các con số 30% hay 25% là độ hỗ trợ của luật (support — số phầntrăm các giao tác chứa cả vế trái và vế phải), còn §0% hay 75% là độ tin cậycủa luật (confidence — số phần trăm các giao tác thỏa mãn vế trái thì cũng thỏa

mãn vế phải).

Gọi _LT: Có — goi_171: Có (Độ hỗ trợ=25%, Độ tin cậy=75%)

Độ hỗ trợ (support) và Độ tin cậy (confidence) là hai thước đo cho một luật

kết hợp Độ hỗ trợ bằng 25% có nghĩa là “Trong các khách hàng có sử dụng

điện thoại thì có 25% khách hàng sử dụng điện thoại ID Liên tỉnh và điện thoại

IP 171” Độ tin cậy bằng 75% có nghĩa là “Trong các khách hàng có sử dụng

điện thoại liên tỉnh thì có 75% khách hàng sử dụng điện thoại IP 171”.

Chúng ta nhận thấy rằng tri thức đem lại bởi luật kết hợp ở dạng trên có sự khác biệt cơ bản so với thông tin thu được từ các câu lệnh truy vấn đữ liệu thông

thường như ngôn ngữ SQL Đó là những tri thức, những mối liên hệ chưa biết

trước và mang tính dự báo đang tìm ẩn trong dữ liệu Những tri thức này khôngđơn giản chỉ là kết quả của phép nhóm, tính tổng hay sắp xếp mà là kết quả của

một quá trình tính toán khá phức tạp và tốn nhiều thời gian

Tuy luật kết hợp là dạng luật khá đơn giản nhưng lại mang khá nhiều ý nghĩa

Thông tin mà dạng luật này đem lại là rất đáng kể và hỗ trợ không nhỏ trong

quá trình ra quyết định Tìm kiếm được các luật kết hợp “quý hiếm” và mang

nhiều thông tin từ Cơ sở dữ liệu tác nghiệp là một trong những hướng tiếp cận

chính của lĩnh vực khai thác dữ liệu.

Một số hướng tiếp cận trong khai thác luật kết hop Lĩnh vực khai thác luật kết hợp cho đến nay đã được nghiên cứu và phát

triển theo nhiều hướng khác nhau Có những dé xuất nhằm cải tiến tốc độ thuậttoán, có những để xuất nhằm tìm kiếm luật có ý nghĩa hơn, v v và có một số

hướng chính sau đây.

Luật kết hợp nhị phân (binary association rule hoặc boolean association

rule) : là hướng nghiên cứu đầu tiên của luật kết hợp Hầu hết các nghiên cứu ở

thời kỳ đầu về luật kết hợp đều liên quan đến luật kết hợp nhị phân Trong dạng

Trang 19

hiện trong giao tác của cơ sở dữ liệu chứ không quan tâm về “mức độ“ xuất

hiện Có nghĩa là việc gọi 10 cuộc điện thoại và 1 cuộc được xem là giống nhau.

Thuật toán tiêu biểu nhất khai phá dạng luật này là thuật toán Apriori và các

biến thể của nó Day là dạng luật đơn giản và các luật khác cũng có thể chuyển

về dạng luật này nhờ một số phương pháp như rời rac hoá, mờ hoá, v v Một

ví dụ về dạng luật này : “gọi liên tinh=’yes’ AND gọi di động=”yes” gọi quốcté=’yes’ AND gọi dich vụ 108 = ‘yes’, với độ hỗ trợ 20% va độ tin cậy 80%”

Luật kết hợp có thuộc tính số và thuộc tinh hạng mục (quantitative and

categorial association rule) : Các thuộc tính của các cơ sở dữ liệu thực tế có kiểu

rất đa dạng (nhị phân — binary, số — quantitative, hạng mục — categorial, v v).

Để phát hiện luật kết hợp với các thuộc tính này, các nhà nghiên cứu đã để xuất

một số phương pháp rời rạc hoá nhằm chuyển dạng luật này về dạng nhị phân

để có thể áp dụng các thuật toán đã có Một ví dụ về dạng luật này “phương

thức gọi =’Tu động” AND giờ gọi © “23:00:39 23:00:59° AND Thời gian đàm

thoại © “200 300’ gọi liên tỉnh =’c6’ , với độ hỗ trợ là 23 53% , và độ tin cậy

thể như “ mua máy tính IBM PC thì mua hệ điều hành Microsoft Windows ANDmua phan mém tiện ích văn phòng Microsoft Office, ” Như vậy dạng luật đầu làdạng luật tổng quát hoá của dạng luật sau và tổng quát theo nhiều mức khác

nhau.

Luật kết hợp mờ (fuzzy association rule) : Với những hạn chế con gặp phải

trong quá trình rời rac hoá các thuộc tính số (quantitave attributes), các nhà

nghiên cứu đã để xuất luật kết hợp mờ nhằm khắc phục các hạn chế trên vàchuyển luật kết hợp về một dạng tự nhiên hơn, gần gũi hơn với người sử dụng

một ví dụ của dạng này là : “thué bao tu nhân = ‘yes’ AND thời gian đàm thoại

lớn AND cước nội tinh = ‘yes’ ® cước không hợp lệ = ‘yes’, với độ hỗ trợ 4% và

độ tin cậy 85%” Trong luật trên, diéu kiện thoi gian đàm thoại lớn ở vế trái của

luật là một thuộc tính đã được mờ hoá.

Luật kết với thuộc tính được đánh trọng số (association rule with weighted

items) : Trong thực tế, các thuộc tinh trong cơ sở đữ liệu không phải lúc nào cũng

có vai trò như nhau Có một số thuộc tính được chú trọng hơn và có mức độ quan

trọng cao hơn các thuộc tính khác Ví dụ khi khảo sát về doanh thu hàng tháng,

Trang 20

-18-thông tin về thời gian đàm thoại, vùng cước là quan trọng hơn nhiều so với -18-thôngtin về phương thức gọi Trong quá trình tim kiếm luật, chúng ta sẽ gán thờigian gọi, vùng cước các trọng số lớn hơn thuộc tính phương thức gọi Đây làhướng nghiên cứu rất thú vị và đã được một số nhà nghiên cứu để xuất cách giảiquyết bài toán này Với luật kết hợp có thuộc tính được đánh trọng số, chúng ta

sẽ khai thác được những luật “hiếm” (tức là có độ hỗ trợ thấp, nhưng có ý nghĩađặc biệt hoặc mang rất nhiều ý nghĩa)

Khai thác Luật kết hop song song (parallel mining of association rules):

Bên cạnh khai thác luật kết hợp tuần tự, các nhà làm tin học cũng tập trung vàonghiên cứu các thuật giải song song cho quá trình phát hiện luật kết hợp Nhucầu song song hoá và xử lý phân tán là cần thiết bởi kích thước dữ liệu ngàycàng lớn hơn nên đòi hỏi tốc độ xử lý cũng như dung lượng bộ nhớ của hệ thống

phải được đảm bảo Có rất nhiều thuật toán song song khác nhau đã dé xuất để

có thể không phụ thuộc vào phan cứng

Bên cạnh những nghiên cứu về những biến thể của luật kết hợp, các nhànghiên cứu còn chú trọng dé xuất những thuật toán nhằm tăng tốc quá trình tim

kiếm tập phổ biến từ cơ sở dữ liệu

Ngoài ra, còn có một số hướng nghiên cứu khác về khai thác luật kết hợp

như : khai thác luật kết hợp trực tuyến, khai thác luật kết hợp được kết nối trực

tuyến đến các kho dữ liệu đa chiều (Multidimensional data, data warehouse)

thông qua công nghệ OLAP (Online Analysis Processing), MOLAP (multidimensional OLAP), ROLAP (Relational OLAP), ADO (Active X Data Object) for OLAP .

2.2 Luật kết hợp trong cơ sở dữ liệu

2.2.1 Định nghĩa

Gọi I = {1,, 1›; , I} là tập m thuộc tính riêng biệt, mỗi thuộc tính gọi là

một mục Gọi D là một cơ sở dữ liệu, trong đó mỗi bản ghi T là một giao dịch và

chứa các tập mục, T cl.

Định nghĩa 1: Một ludt kết hợp là một quan hệ có dạng X = Y, trong đó X, Y cI

là các tập mục gọi là itemsets, và Xf\Y =¢ Ở đây, X được gọi là tién để, Y là

mệnh để kết quả

Hai thông số quan trọng của luật kết hợp là độ hỗ trợ (s) và độ tin cậy (c).

Định nghĩa 2: Độ hỗ tro (support) của luật kết hợp X > Y là tỷ lệ phần trăm các

bản ghi X UY với tổng số các giao dịch có trong cơ sở dữ liệu

Định nghĩa 3: Đối với một số giao dịch được đưa ra, độ tin cậy (confidence) là ty

lệ của số giao dịch có chứa X UY với số giao dịch có chứa X Đơn vị tính %

Trang 21

có độ hỗ trợ và độ tin cậy lớn hơn ngưỡng của độ hỗ trợ và độ tin cậy do người

sử dụng xác định trước Các ngưỡng của độ hỗ trợ và độ tin cậy được ký hiệu là

minsup và mincof.

Việc khai thác các luật kết hợp có thể được phân tích thành hai vấn dé sau đây:

1 Tìm tất cả các tập mục thường xuyên xảy ra mà có độ hỗ trợ lớn hơn hoặc

khoán, tài chính và đầu tư, Ứng dụng luật kết hợp phải chỉ rõ các đặc điểm về:

nguồn gốc, điều kiện áp dụng, phạm vi ứng dụng, mục đích ứng dụng Những

đặc điểm này được thể hiện bằng mô hình sau:

Tham chiếu

Hình 2.1 Mô hình ứng dụng luật

Trong đó:

- _ Yêu cầu sử dung là phạm vi tính ứng dụng của tập luật vi dụ như về

khoa học, kinh doanh, tiếp thị, thương mại, phân tích thị trường chứng khoán, viễn thông v.v.

- Tham chiếu đến tập luật R, ở giai đoạn này các tập luật được tham

chiếu tại đây là các tập luật được sinh ra từ cơ sở dif liệu chứa tác nhân

yêu cầu sử dụng

- _ Lựa chọn luật, ở bước này chúng ta tiến hành lọc các luật hữu ích nhất

phục vụ cho phạm vi sử dụng.

- Ứng dụng, đây là kết quả mong đợi nhất từ khi bắt đầu khai thác cho

đến khi thi hành luật

Mô hình ứng dụng luật đã làm sáng tỏ tính ứng dụng của việc khai thác

luật kết hợp trong cơ sở dif liệu

Thực tế, ứng dung của khai thác luật kết hợp trong cơ sở dif liệu giao dịch

là một phạm trù của DataMining nên ứng dụng của nó rất rộng lớn, nhất là trong

sự phát triển của xã hội hiện nay

Trang 22

- 20

-Tóm lại, tinh ứng dung của khai thác luật kết hợp trong cơ sở dữ liệu giao dịch là việc ứng dụng các tập luật tìm thấy trong đó nhằm vào những mục đích

cụ thể và đạt được kết quả tốt

2.2.3 Phát triển giải pháp hiệu quả trong khai thác luật kết hợp

a Bài toán luật kết hop

Cho một tập các giá trị I, một cơ sở dif liệu giao dịch D, ngưỡng độ hỗ trợ tối

thiểu minsup, ngưỡng độ tin cậy mincof, tìm các luật kết hợp dạng X > Y trên D

thoả mãn diéu kiện Support(X => Y) >= minsup và Confidence(X => Y) >=

mincof.

b Tiến trình khai thác luật kết hop

Xác định các tập mục lớn Việc xác định các tập mục lớn gồm có hai bước

chính sau đây:

- _ Xác định các tập ứng cử viên (C,).

- _ Xác định các tập mục lớn (L) dựa vào tap ứng cử viên

Để xác định tập ứng cử viên, ta thực hiện các bước sau đây:

- _ Tìm các tập ứng cử viên một mục.

- Quét CSDL D để xác định độ hỗ trợ của các tập ứng cử viên Trong vòng

đầu tiên, các tập ứng cử viên cũng chính là tất cả các mục có trong CSDL

Tại vòng thứ k (k>7), các tập ứng cử viên được xác định dựa vào các tập

mục lớn đã xác định tại vòng k — 7, sử dụng hàm Apriori-gen() [2,3,7] Sau

khi đã xác định được các tập ứng cử viên, thuật toán quét từng giao dịch

trong CSDL để tính độ hỗ trợ của các tập ứng cử viên Quá trình xác định

các tập mục sẽ kết thúc khi không xác định được thêm tập mục lớn nào nữa

Nội dung hàm Apriori-gen().

Hàm Apriori-gen() thực hiện hai bước [2]:

- _ Bước dau tiên, L,_ ¡ được kết nối với chính nó thu được Cy

- Bước thứ hai, Apriori_gen() xoá tất cả các tập mục từ kết quả kết nối mà có

một số tập con (k — 1) không có trong Ly _ ¡ Sau đó nó trả về tập mục lớn

kích thước k con lại.

Sinh các luật kết hợp từ tập mục lớn:

Việc phát hiện các tập mục lớn là rất tốn kém về mặt tính toán Tuy nhiên, ngay

khi tìm được tất cả các tập mục lớn (/ e L), ta có thể dé dàng sinh ra các luật kếthợp có thể có bằng các bước như sau:

- Tim tất cả các tập con không rỗng x, của tập mục lớn / e L

- Với mỗi tập con x tìm được, ta xuất ra luật dang x = (I - x) nếu tỷ lệ

Support(/)/Support(x)>= mincof ( %).

Trang 23

Call Genrules(L„, Ly);

Procedure Genrules(L,: large k-itemset, dy: large m-itemset) A={(m-1)-itemset Gn-1| Gn-1 C Am}

Forall ay.;¢A do begin

Conf = Support(L,)/Support(am.1)

If (Conf >= mincof) then begin

Output the rule đ„ụ.¡—XL¿T— Gn-1)

với confidence = mincof and support = support(L;)

If = (m-1>1) then Call Genrules(L„am.¡);

End;

End;

c Giải pháp hiệu quả

Trong các phần trên, đã trình bày tiến trình cơ bản để khai thác các luật kếthợp trong CSDL, song vấn để cần phải quan tâm nghiên cứu là tăng hiệu quả

của thuật toán trong trường hợp: “ Số lượng tập ứng cử viên được tìm thấy là rất

lớn”

Trong phạm vi nghiên cứu của bài này, sẽ đưa ra một giải pháp mới đểgiải quyết vấn để đã nêu

Tia các ứng cử viên: Việc tỉa các ứng cử viên nhằm mục đích bỏ đi các tập

ứng cử viên không cần thiết, rút gọn số lượng của tập các tập ứng cử viên Sau

đây, sẽ trình bày kỹ thuật “tỉa” các ứng cử viên không cần thiết

Kỹ thuật này có tính chất: Các mục trong tập ứng cử viên được sắp xếp theo

Dựa vào đây, ta có thể tia được các tập ứng cử viên, từ đó có thể giới hạn

miễn tìm kiếm của nó trên tất cả các tập mục

Trang 24

-22-2.2.4 Phát triển giải pháp hiệu quả tính ứng dụng

Trong phần trên, đã trình bày tiến trình khai phá luật kết hợp và giải pháphiệu quả cho việc tạo ra các luật kết hợp Tuy đã giảm được một số lượng rất lớn

các luật không mong muốn, song một vấn để nẩy sinh vẫn phải tiếp tục nghiên

cứu nhằm tăng hiệu quả sử dụng kết quả khai thác đó là:

1 Khi tổn tại tập luật dạng X > Y có độ tin cậy (c,) thì luôn tổn tai tập luật dạng

Y >X có độ tin cậy (cx„¡) Như vậy, luật dạng Y > X thường không cần thiết

Việc tỉa các tập luật dạng Y = X nhằm mục đích bỏ đi các luật không có giá

tri hoặc người sử dụng đã biết trước luật đó, đồng thời rút gọn được các tập luật

Kỹ thuật tỉa này sử dụng độ tin cậy của tập luật tìm thấy.

Kết quả khai thác sinh ra tập luật thường được lưu trữ vào một cơ sở dữ liệu

nào đó như Access, Excel, Paradox, v.v Kỹ thuật tỉa nhằm loại bổ các tập luật

có độ tin cậy Cv¿¡ < Cy.

Nội dung kỹ thuật:

Forall rulsets r e R;do

Tf cy < Cx then

Delete r from R;

Căn cứ vào đây, chúng ta có thé tia các tập luật không mong muốn để giới

hạn phạm vi tìm kiếm các tập luật nhằm tăng tính ứng dụng của nó một cách

nhanh chóng trên những phạm vi ứng dụng khác nhau.

b Tối uu hoá tính ứng dụng tập luật

Để tối ưu hoá tính ứng dụng các tập luật (R,), trình tự ứng dụng luật có thể

mô tả theo các bước cơ bản như hình 2.2.

1 2 3

Nhận và phân loại Xác nhận tính Vận dụng thi hành

tập luật chất luật kết quả

Hình 2.2 Các bước cơ bản của ứng dụng luật.

Trang 25

luật kết hợp từ cơ sở dữ liệu giao dịch sau khi đã loại bỏ những luật không có giá

trị, đồng thời tiến hành phân loại các luật này theo chủ dé (luật một mục, luật

hai mục, ) và lưu vào cơ sé df liệu.

Bước 2 “Xác định tính chất luật”, sau khi đã phân loại luật ta tiến hành xác

định tính chất luật Việc xác định này sẽ làm rõ mục đích ứng dụng luật trong

giao dịch.

Bước 3 “Vận dung thi hành kết quả” cho ta biết cách thức thi hành luật trong

giao dịch để kết hợp giữa mục nào sẽ thu được kết quả tốt Bước này, nói lên ý

nghĩa kết hợp các mục trên giao dịch có tính quan trọng như thế nào khi thực thi

một kế hoạch hoạt động nào đó.

Như vậy, mô hình các bước cơ bản của ứng dụng luật góp phần không nhỏ

trong khi sử dụng luật nhằm giảm thời gian tìm kiếm và tăng kha năng thi hành

luật Việc xác định tính chất luật có tính quyết định hình thành kết hợp tập mục

trong mỗi giao dịch Vì thế, khai thác luật kết hợp được ứng dụng rất thành công

trong cơ sở dữ liệu giao dịch.

Một giải pháp mô phỏng việc tinh lọc, xem xét đặc điểm luật phục vụ cho

ứng dụng được nghiên cứu và phản ảnh trong hình 2.3.

Trang 26

“kết luận”, “độ tin cậy”, “độ hỗ

trợ” Tiếp theo kiểm tra tính chất

luật này Nếu luật kiểm tra thoả

mãn chuẩn dé ra thì ghi nhận đặc

tính sử dụng cho nó, ngược lại

xoá luật r¡ ra khỏi R, lưu kết quả

và thực hiện vòng lặp tiếp theo

Giải pháp kết thúc khi đã kiểm

tra xong toàn bộ tập luật R.

(k=0).

Ghi nhận tính chất ứng dụng

là một bước rất quan trọng quyết

định tối ưu tính ứng dụng Vì thế,

trong bước này sẽ được xây dựng

các “Chuẩn” đánh giá nghiêm

ngặt Chuẩn này dựa trên những

Xác định tính chất mỗi luật

trong toàn bộ tập luật

Không TM Xem xét

đặt và thử nghiệm trong môi `

trường cơ sở dữ liệu giao dịch.

Hình 2.3 Lưu đô giải pháp mô phỏng xác nhận đặc điểm luật

Kết quả giải pháp sẽ tăng tính ứng dụng của luật trong cơ sở dữ liệu giao

dịch Tập luật đã được xác nhận đặc tính sẽ có tính ứng dụng linh hoạt, chủ động

hơn khi ứng dụng.

Như vậy, tính ứng dụng của khai thác luật kết hợp trong cơ sở dif liệu giao

dịch để cập đến phạm vi ứng dụng luật kết hợp trên các giao dịch là rất quan

trọng Khai thác mối quan hệ giữa các mục trong phiên giao dịch sẽ là hữu ích

khi chúng ta tiến hành khai thác một cách có thứ tự, có mục đích rõ ràng Giải

pháp này góp phan chỉ rõ hơn những thông tin có trong các phiên giao dich để từ

đó giúp cho lãnh đạo có kế hoạch hoạt động, sản xuất kinh doanh trong các năm

Trang 27

giải quyết tốt cách thức thi hành, ứng dụng thông tin quan trọng trên các phiên

giao dịch Dựa vào tính ứng dụng này có thể có giải pháp tốt đối với nền kinh tế

thị trường hiện tại cũng như trong tương lai.

2.3 Thông số “độ quan trong” cho luật kết hợp theo nghiên cứu

từ thuật toán của Microsoft Algorithm Trong luật kết hợp, sự quan trọng được tính toán sử dụng công thức sau đây [6]

Importance (A > B) = log (p(alb) / p(a|not b) )

Nếu một dai lượng độ quan trọng bằng 0 có nghĩa rằng không có mối liên hệ giữa A và B Một đại lượng dương độ quan trọng có nghĩa rằng xác suất có B khi

có A cao hơn xác suất có B khi không có A Một đại lượng âm độ quan trọng có

nghĩa rằng xác suất có B khi có A thấp hơn xác suất có B khi không có A.

Bên dưới là một ví dụ tương quan giữa bánh rán (donut) và bánh nướng (muffin)

được đưa ra từ cơ sở dữ liệu mua hàng.

Mỗi giá trị đại diện cho số lượng giao dịch Chăng hạn, 15 trong số 100 giao dịch có

một khách hàng.

mua cả donuts va muffins.

Donut NotDonut Total Muffin 15 5 20

Notmuffin 75 5 80

Total 90 10 100

Độ hỗ trợ, xác suất xảy ra và độ quan trong của tập phô biến có lien quan và các

luật vé donut và muffin như sau:

Trang 28

- 26

-Probability(Donut|Muffin) = 15/20 = 0.75

Probability(Donult|Not Muffin) = 75/80 = 0.9375

Importance({Donut, Muffin}) = 0.15/(0.2*0.9) = 0.833

Importance (Donut > Muffin) = log (Probability(Muffin| Donut)

/Probability(Muffin|Not Donut)) = log (15/90 : 5/10) = log (15/90 * 5/10) = log (0.333) = -0.477

Importance(Muffin > Donut) = log

(Probability(Donut|Muffin)/Probability(Donut|NotMuffin)) = log (15/20 : 75/80)

= log (0.80) = -0.096

Từ sự quan trong của tập itemset {Donut, Muffin} chung ta thấy rang Donut và

Muffin có tương quan phủ định nhau; nó khó xác định được việc ai đó mua một

Muffin cũng mua một Donut.

Độ quan trọng cũng được biết như Trọng lượng của sự kiện Weight of Evidence

(WOE).

Trang 29

2.4 Phát biểu bai toán khai thác luật kết hợp

I= { it, iz, , in} là tập bao gồm n mục (Item — còn gọi là thuộc tính —

attribute) X © I được gọi là tập mục (itemset).

T=({ ti, t, , tm} là tập gồm m giao tác (Transaction — còn gọi là ban ghi —

record), mỗi giao tác được định danh bởi TID (Transaction Identification).

R là một quan hệ nhị phân trên I và T (hay R © IxT) Nếu giao tác t có

chứa mục i thì ta viết (i, t) © R (hoặc iRt) (T, I, R) là ngữ cảnh khai thác dữ

liệu.

Một cơ sở dữ liệu D, về mặt hình thức, chính là một quan hệ nhị phân R như

trên.

Về ý nghĩa, một cơ sở dữ liệu là một tập các giao tác, mỗi giao tác t là một tập

mục, t © 21(211a tập các tập con của I)

Ví dụ về cơ sở dữ liệu (dang giao tác) : I= {A, B, C, D, E},

T= (1,2, 3, 4, 5, 6} Thông tin về các giao tác cho ở bang 2.1 sau:

Định danh giao tac(TID)

fp AB DE

Bảng 2.1 Ví dụ về một cơ sở dữ liệu dạng giao tác -D

Cho Một tập mục X € I Ký hiệu s(X) là Độ hỗ trợ (support) của một tập

mục X - là tỷ lệ phần trăm số giao tác trong cơ sở dữ liệu D chứa X trên tổng số

các giao tác trong cơ sở dif liệu D s(X) = Card(X) / Card(D) %

Tập phổ biến : Cho Một tập mục X © I và ngưỡng phổ biến tối thiểu

minsupp © (0, 1] (minsupp (Minimum Support) được xác định bởi người sử

dụng).

Một tập mục X được gọi là một tập phổ biến theo ngưỡng minsupp nếu và chỉ

nếu

độ hỗ trợ của nó lớn hơn hoặc bằng một ngưỡng minsupp : s(X) > minsupp.

Ký hiệu EX(T, I, R, minsupp) là tập hợp các tập phổ biến theo ngưỡng

Trang 30

-28-83% (5/6)

A.C, D, AB, AE, BC, BD, ABE

AD, CE, DE, ABD, ADE, BCE, BDE

Bảng 2.2 Các tập phổ biến trong co sé dit liệu ở bảng 2.1 với độ hỗ trợ tốt

thiểu 50%

Độ hỗ trợ s của luật kết hợp X -> Y là tỷ lệ phần trăm các giao tác trong D

có chứa X và Y s(X -> Y) = Card(X U Y) / Card(D) %.

Luật kết hợp có dạng X c Y, trong đó :

X và Y là các tập mục thoả mãn diéu kiện X f\ Y = ø c là độ tin cậy

Độ tin cậy của luật c =s(X U Y)/s(X) % (c=Card(X U Y)/Card(X)%): là tỷ lệ phầntrăm các giao tác trong D có chứa X thì chứa Y Về mặt xác suất, độ tin cậy c

của một luật là xác suất (có diéu kiện) xảy ra Y với điều kiện đã xãy ra X

Luật kết hợp tin cậy: Một luật được xem là tin cậy nếu độ tin cậy c của nó lớn

hơn hoặc bằng một ngưỡng minconf © (0, 1] nào đó do người dùng xác định.

Ngưỡng minconf phan ánh mức độ xuất hiện của Y khi cho trước X (c > minconf

(Minimum Confidence))

Luật kết hợp cần tìm là luật kết hợp thoả MinSupp và MinConf cho trước

Chúng ta chi quan tâm đến các luật có độ hỗ trợ lớn hơn Độ hỗ tro tối thiểu và

độ tin cậy lớn hơn Độ tin cậy tối thiểu

Hầu hết các thuật toán khai phá luật kết hợp thường chia thành hai pha :

Pha | : Tìm tất cả các tập mục phổ biến từ cơ sở dữ liệu tức là tìm tất cả các tập

mục X thoả mãn s(X) > minsupp.

Pha 2 : Sinh các luật tin cậy từ các tập phổ biến đã tìm thấy ở pha 1

Nếu X là một tập luật phổ biến thì luật kết hợp được sinh từ X có dạng :

X’c X\X’ , trong do:

X' là tập con khác rỗng của X.

X\X' là hiệu của hai tập hợp X và X’.

c là độ tin cậy của luật thoả mãn c > minconf.

Trang 31

PB 100% (6/6)

A C.D, AB, AF, BC BD, ABE

AD, CE, DE, ABD, ADE, BCE 50% (3/6)

Bảng 2.3 Ví dụ các tập phổ biến có độ hỗ trợ tối thiểu 50%

Trong bảng trên với tập phổ biến ABE có độ hỗ trợ 67% và zminconƒ=70%

Thì chúng ta có thể sinh các luật kết hợp sau đây :

Bảng 2.4 Bảng sinh ra luật kết hợp từ tập phổ biến ABE

Tập phổ biến tối đại :

Cho MCFX(T, I, R, minsupp), M được gọi là tập phổ biến tối đại nếu

không tổn tai XCFX(T, I,R, minsupp),M # X,MC X

2.5 Thuật toán Apriori nhị phân để tìm các tập phổ biến

Thuật toán Apiori nhị phân được xây dựng dựa trên công trình nghiên cứu

của thây GS TSKH Hoàng Kiếm và thây TS.Đỗ Phúc Thuật toán sử dụng các

véc tơ bít cho các thuộc tính , Véc tơ nhị phân n chiều ứng với n giao tác trong

CSDL

2.5.1 Trình bày về thuật toán Apriori

Input: Cơ sở dữ liệu, D, các giao tác, min_sup.

Output: L, tập phổ biến, tập các itemsets trong D

Trang 32

Thuật toán Apriori

Sử dụng cơ sở dữ liệu bảng 1 để minh hoạ cho thuật toán trên có thể biểu diễn

cơ sở dữ liệu của bang 1 bằng một ma trận nhị phân trong đó dòng thứ i tương

ứng với giao tác (bản ghi) ti và cột thứ j tương ứng với mục (thuộc tinh) ij.

Trang 33

Các véc tơ biểu diễn nhị phân cho các tập 2 thuộc tính có oe Sau :

{A.B} | {A.C} | {A.D} |(A,E}

Các véc tơ biểu diễn nhị phân cho các tập 4 thuộc tính có dạng sau :

Các véc tơ biểu diễn cho thấy tất cả các tập 4 thuộc tính đều có độ hỗ trợ < 50%

nên thuật toán dừng Kết quả tìm được tập phổ biến giống bảng 2.

Trang 34

-32-2.5.2 Ví dụ về thuật toán Apriori

Hình 2.4 Mô tả ví dụ về thuật toán Apiori

Tất cả các luật trên đều có độ hỗ trợ support = 50%

Để có một luật liên kết ASB, chúng ta cần có support(AB) và

support(A) Ở bước này không đòi hỏi nhiều thời gian như việc sinh ra các

itemset phổ biến Nó cũng có thể xảy ra nhanh bằng cách sử dụng côngnghệ xử lý song song, do đó các luật sinh ra từ các itemset phổ biếnkhông ảnh hưởng tới các luật sinh ra từ các itemset phổ biến khác

Những thách thức của khai phá tập phổ biến

e Những thách thức

o_ Quét các giao tác cơ sở dữ liệu quá nhiều lần

o_ Số các ứng cử viên sinh ra là quá lớn

o Việc đếm độ hỗ trợ của các ứng cử viên thường xuyên sẽ trở nên

chán ngắt, không hấp dẫn.

© Cải tiến thuật toán: Ý tưởng tổng quát

o_ Làm giảm bớt số lần quét các giao tác cơ sở dữ liệu

o_ Giảm thiểu số các ứng cử viên sinh ra

o_ Làm đơn giản hóa việc đếm các ứng cử viên

Trang 35

Phần lớn các cải tiến được áp dụng trong bài toán Association Rule

được áp dụng vào bước tìm các tập phổ biến thỏa mãn Min_supp Chi phícủa bước tìm tập phổ biến tăng lên khi số các item trong cơ sở dữ liệu cần

xét tăng lên Tương tự khi kích thước của cơ sở dữ liệu lớn (số các giao

tác lớn) thì chi phí phải trả cho việc đọc cơ sở dữ liệu nhiều lần để tính độsupport trở nên đáng kể

Vậy làm thế nào để cải tiến hiệu quả của thuật toán?

Có nhiều thay đổi của giải thuật Apriori được đưa ra nhằm cải tiến

hiệu quả của thuật toán ban đầu Các phương pháp khác nhau đó được liệt

kê dưới đây:

= Làm giảm chi phí kiểm tra trùng lắp khi phát sinh các ứng cử

viên.

= Làm giảm số các ứng viên cần kiểm tra độ support

= Phân chia cơ sở dữ liệu (phương pháp Partitioning).

= Làm giảm số các giao tác (loại bổ sớm các ứng viên không thỏa

2.6 Ví dụ minh họa khai thác - Ứng dụng luật

2 minh họa ví dụ về khai thác ứng dụng luật kết hợp cho hệ thống thungân tại Siêu thị và hệ thống cuộc gọi viễn thông

Thực tế, hệ thống thu ngân tại Siêu Thị Đà Nẵng đã sử dụng công nghệ

mã vạch để thanh toán cho khách hàng Dữ liệu giao dịch mỗi khách hàng đượclưu trữ trong phần mềm cơ sở dữ liệu của máy tính đặt tại các quầy thu ngân

Hiện nay dữ liệu này đã trở nên rất nhiều qua các phiên giao dịch, việc sử dụngDataMining để khai phá các dữ liệu hiện có là một việc rất cần thiết cho hoạt

động kinh doanh trong Siêu Thị.

Như vậy, nhiệm vụ của khai thác dé liệu là phải tìm được mối liên hệ

giữa các mặt hàng trong giao dịch đó Mối quan hệ này có dạng X => Y, đây chính là các tri thức chiết xuất được trong khi khai thác với độ hỗ trợ cho trước (minsupt), độ tin cậy cho trước (minconf) Các tri thức chiết xuất được sé giúp

cho hoạt động kinh doanh trong Siêu Thị được tốt hơn từ đó có thể hoạch định kế

Trang 36

- 34

-Hước hoa, Son Phan, Dau nội, Gidy dép

Thịt, Bia, Cac chén, Banh keo Biải khat, Banh kẹn, Thuốc lắ

Son phan, Hước hoa, Dau nội, Sa tắm Bản la, Điền, Bản Ghé

Cafe, Thude lã, Bank kẹn Rượu tiếng hỗ, Kính, Gidy dép, Túi xãch

Bong hỗ, Kinh

Tiãnn hổi Gian rên

Bảng 2.5 Cơ sở dữ liệu giao dịch

Sau khi đã xác định được các tập mục lớn và độ hỗ trợ, ta tiến hành sinh

các luật kết hợp bằng cách sử dụng thủ tục sinh các tập con của tập mục lớn.

Các luật kết hợp thu được trong trường hợp này bao gồm các luật dạng Y > Xnhư đã để cập ở trên Bảng 2.6 mô tả nội dung toàn bộ tập luật khai thác được

trong cơ sở dif liệu giao dịch với minsup =10% và mincof =30% Các luật ở đây

chỉ nói lên mối quan hệ giữa các mục trong các phiên giao dịch, chứ chưa để cậpđến tính ứng dụng của nó Bảng 2.6 sau đây trình bày nội dung tập luật thu được

trước khi tỉa.

Nội dung tập luật trước khi tỉa

Taptiende

Bảng 2.6 Nội dung tập luật thu được trước khi tỉa

Như vậy, kết quả khai thác cho thấy các luật thu được có dạng Y > X va

cách thức vận dụng các luật nào là chưa rõ Các tri thức chiết xuất dạng này

thường không cân thiết và gây nên lãng phí không gian nhớ Ứng dụng giải pháp

hiệu quả tính ứng dụng tia bỗ các luật dang Y > X, kết quả thu được chỉ còn các

Trang 37

tri thức đáng tin cậy cho lãnh đạo.

> Mỗi dung tập luật sau khi tia

Bư.Bảnh mi Sữa

Bo Bánh mì,Sữa.

Bảng 2.7 Nội dung tập luật thu được sau khi tia

Thực vậy, số lượng các luật thu được trong giải pháp này gồm các luật có

giá trị cao Đây cũng chính là những tri thức chiết xuất được trong quá trình khai

thác Vấn dé đặt ra là phải ứng dụng hiệu quả các luật này vào trong sản xuấtkinh doanh cũng như cuộc sống dựa vào đặc điểm và tính chất ứng dụng luật ứngvới mỗi luật trong tập luật Để giải quyết vấn dé này ta sử dụng giải pháp tối ưu

hoá tính ứng dụng luật.

Việc sử dụng hàm đánh giá để xem xét về tiền để, kết quả của luật đạt

được trong tập luật, đây là một giai đoạn mang tính tư duy nhưng nó rất quan

trọng khi ta ứng dụng trong thực tế Từ khi xác định đến khi ghi nhận tính ứngdụng cho mỗi luật đây là quá trình tốn kém nhiều thời gian, song kết quả đạtđược sẽ hữu ích cho lãnh đạo trong khi hoạch định kế hoạch sản xuất, kinh

doanh trong thời gian sắp tới.

Tính ứng dụng các tri thức chiết xuất được sẽ giúp cho lãnh đạo Siêu Thi

trong việc bố frí, sắp xếp, kinh doanh những mặt hàng nào tại các quây nào, tổchức sắp sếp các quầy gần nhau như thế nào để có doanh thu trong các phiêngiao dịch là lớn nhất Ngoài ra, có thể áp dụng tri thức này để dự đoán số lượng

các mặt hàng được bán chạy nhất trong thời gian sắp tới Tổng hợp các tri thức

này lãnh đạo có thể lên kế hoạch hoạt động, sản xuất, kinh doanh một cáchthuận tiên hơn nhằm giảm bớt thời gian thống kê, tìm hiểu thị trường,v.v

Như vậy, tính ứng dụng của khai thác luật kết hợp trong cơ sở dif liệu giao

dịch đã giải quyết được hai vấn để tồn đọng đã nêu ở phần trên Kết quả củakhai thác sẽ được lưu trữ trong các cơ sở đữ liệu tri thức để phục vụ cho mục đích

xây dựng các hệ chuyên gia về sau này

Trang 38

- 36

-Luật kết hợp có thuộc tính số và thuộc tính hạng mục

Khai thác luật kết hợp với thuộc tính số và thuộc tính hạng mục

(quantitative and categorical association rule) là một trong những hướng tiếp cận

quan trọng trong lĩnh vực khai thác luật kết hợp

Ví dụ minh hoạ một cơ sở dữ liệu bao gồm các thuộc tính nhị phân (binary),

thuộc tính số (quantitative), và thuộc tính hạng mục (categorical).

Gid gọi | Phương thức gọi Đối tượng Thời gian Gọi liên tỉnh

IDD(1), PO(O) (1, 2, 3, 4) dam thoai (1: có, 0:

Bảng 2.8 : cơ sở dữ liệu chỉ tiết của 8 cuộc điện thoại

Trong Cơ sở dữ liệu trên thời gian đàm thoại là thuộc tính số, đối tượng

khách hàng là thuộc tính hạng mục , phương thức gọi, gọi liên tỉnh là thuộc tính

nhị phân Với cơ sở dữ liệu ở ví dụ trên ta có thể rút ra luật kết hợp sau :

<Gidgoi : 23:00:39 23:00:59> AND <phương thức gọi :Tự động> AND <Thời

gian đàm thoại: 200 300>— <gọi liên tỉnh : có>, với độ hỗ trợ là 62,5% (5/8),

và độ tin cậy là 80% (4/5) Để tìm kiếm luật kết hợp ở dạng nêu trên ta có thể

phân khoảng miễn giá trị của các thuộc tính số và thuộc tính hạng mục để

chuyển tất cả về thuộc tính nhị phân mục đích áp dụng các thuật toán khai thác

luật kết hợp nhị phân

Trang 39

THEO LUAT BAYES

3.1 Tổng quan Phân lớp

Phân lớp là một vấn để nghiên cứu bao quát, một trong những kỹ thuật có khả

năng được sử dụng khai phá dữ liệu một cách rộng rãi và nhiều mở rộng Chính

vì thế kỹ thuật này sẽ được nghiên cứu áp dụng cho phân lớp dif liệu về lĩnh vực

đa phương tiện Ở đây chúng ta sẽ đi nghiên cứu qua khái niệm phương pháp

phân lớp và các nghiên cứu về luật Bayes

Phân lớp dit liệu và hồi qui: Mục tiêu của phương pháp phân lớp dif liệu là dựđoán nhãn lớp cho các mẫu dữ liệu Quá trình phân lớp dif liệu thường gồm 2

bước: xây dựng mô hình và sử dụng mô hình để phân lớp dữ liệu

o6 Bước 1: một mô hình sẽ được xây dựng dựa trên việc phân tích

các mẫu dữ liệu sẵn có Mỗi mẫu tương ứng với một lớp, đượcquyết định bởi một thuộc tính gọi là thuộc tính lớp Các mẫu dữ

liệu này còn được gọi là zập đữ liệu huấn luyện (training data set).

Các nhãn lớp của tập dữ liệu huấn luyện đều phải được xác địnhtrước khi xây dựng mô hình, vì vậy phương pháp này còn được hiểunôm na là học có thây (supervised learning — học có giám sát) khác

với phân cụm dữ liệu là học không có thây (unsupervised learning —

học không có giám sát).

o Bước 2: sử dung mô hình để phân lớp dữ liệu Trước hết chúng ta

phải tính độ chính xác của mô hình Nếu độ chính xác là chấp nhận

được, mô hình sẽ được sử dụng để dự đoán nhãn lớp cho các mẫu

dữ liệu khác trong tương lai Phương pháp hồi qui khác với phân

lớp dữ liệu ở chỗ, hồi qui dùng để dự đoán về các giá trị liên tụccòn phân lớp dữ liệu thì chỉ dùng để dự đoán về các giá trị rời rạc

Phân Lớp Dựa Trên Thống Kê

Trong phương pháp này, một số khái niệm và định nghĩa được đưa ra như sau và

các bước được tiến hành tuần tự

> Định nghĩa các lớp của các đối tượng

> Xác định xác xuất mô hình phân bố

> Kết nối các lớp với các đặc điểm quan trọng

Trang 40

-38-> Kết nối thông số của mô hình với dif liệu

> Quan sát những đặc điểm trên đầu vào và tính toán xác xuất của lớp

thành viên

> Gan đối tượng vào lớp

Mỗi bộ phân lớp sẽ có 2 thành phân, chúng ta tạm gọi đó là bộ sinh và bộ

phán đoán (dự đoán).

e Bộ sinh: Naive Bayes, LDA,

o_ Mô hình kết hợp phân bố của lớp và các thuộc tính

o Dẫn ra xác suất lớp bằng luật Bayes

e Bộ phán đoán: Sự dịch chuyển hồi qui,

o Mô hình phân bố có diéu kiện của một lớp được biết trước

những giá trị thuộc tính

o_ Mô hình ước tính xác suất lớp trực tiếp

Trong phương pháp phân lớp này chúng ta cũng dựa vào xác suất và cách phân

lớp được thực hiện theo trình tự như sau:

- Định nghĩa các lớp

- Xác định mô hình xác suất phân bố trước trên các thông số

- Tìm phân bố sau của mô hình thông số, dữ liệu cho sẵn

- Tính toán các xác suất lớp dùng phân bố sau (hoặc phần tử của nó)

- Phân lớp các đối tượng ví dụ: “Naive”/”Idiot”/?Simple” Bayes

- Mô hình điển hình của bộ sinh

Giả sử các đặc điểm quan sát được là độc lập trong mỗi lớp của

thông tin

Luật Bayes dùng để tính xác suất lớp

- Có thể dùng hoặc không dùng “trước” trên các thông số mô hình

Bài toán phân lớp có thể hình thức hóa bằng xác suất a-posteriori

P(C/X) = xác suất mẫu (X=<X1, , Xk> thuộc về lớp C)Tính xác suất a-posteriori

Ngày đăng: 08/11/2024, 17:22

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN