Bằng cơ sở dữ liệu của một công ty viễn thông đang hoạt động, với nhiều loại dịch vụ được cung cấp, các hình thức khác nhau, để cương nghiên cứu sẽ rút rađược các qui luật về hành vi của
Trang 1SU DUNG CAC MÔ HÌNH KHAI PHA DU LIEU DE
KHAM PHA QUY LUAT SU DUNG DIEN THOAI
CUA NGUOI VIET NAM
Trang 2D6 ofCe
DAI HOC QUOC GIA THANH PHO HO CHi MINH
TRUONG DAI HQC CONG NGHE THONG TIN
Ho và tên tác giả luận văn
ĐÔ BA SANG
oe
SU DUNG CAC MÔ HÌNH KHAI PHA DU LIEU DE
KHAM PHA QUY LUAT SU DUNG DIEN THOAI
CUA NGUOI VIET NAM
Chuyên ngành: KHOA HỌC MAY TÍNH
Mã số: 60.48.01
oe
LUAN VAN THAC SI
(Chuyén Nganh Tin Hoc)
NGƯỜI HƯỚNG DAN KHOA HỌC:
Trang 31.2 Data mining
1.2.1 Khdi niém Data Mining
1.2.2 Tiến trình khai phá dữ liệu
1.2.3 Các phương pháp khai phá dữ liệu
1.2.4 Các ứng dụng thực tiễn của Data Mining
1.2.5 Phân loại các hệ thống khai thác đữ liệu
2.2.3 Phát triển giải pháp hiệu quả trong khai thác luật kết hợp 2.2.4 Phát triển giải pháp hiệu quả tính ứng dụng
2.3 Thông số “độ quan trọng ” cho luật kết hợp theo nghiên cứu từ thuật
toán của Microsoft Algorithm
2.4 Phát biểu bài toán khai thác luật kết hợp
2.5 Thuật toán Apriori nhị phân để tìm các tập phổ biến
2.5.1 Trình bày về thuật toán Apriori
2.5.2 Ví dụ về thuật toán Apriori
2.5.3 Cải tiến hiệu quả thuật toán
2.6 Ví dụ minh họa khai thác - Ứng dụng luật
Chương 3~ ĐỀ XUẤT THUẬT TOÁN PHAN LỚP — DỰ DOAN THEO LUAT
Trang 43.2.4 Lịch sử ứng dung Naive Bayes trong phân IOP <~-<<<<c<+s 42
EU W// g7 070 0nn ố ẽ ẽ.e 42
3.3 Mang Bayes (Bayesian Network) o G0 0060000650 43
3.3.] Định nghĩ4 cv TT TH ng kg 43
3.3.2 Mạng Bayes nhân qHủỏ cv nh vn vien 45
3.4.1 Ví dụ 1: những xác suất có điều kiện 5 ccccceccseererrree 47
3.4.2 Ví dụ 2: Kết quả dương tính sai trong một xét nghiệm y học " 49
3.4.3 Ví dụ 3: Trong phòng XW GM ch kh ghe 51 3.4.4 Ví dụ 4: Lý thuyết tìm Kid c- St St ST St He 52
Chương 4— PHAM VI UNG DUNG vsssssssssssssssssssssssssssssssssssssssssssssssssssssssssssessssssesssessssssesssesss 54
3.4.1 Pham Vi ứng dụng rộng rai o- << G5 < 9 99 99.9999 9699589958986089658 54
4.1.1 Từ khai thác thông tin cho đến những thông tin tinh báo quan trọng can
77720777 55
4.1.2 Dự đoán và CUNG CAD - 2c CS SE 3S SH TH HH re 56
4.1.3 Phát hiện gian lận (fraud detection) cẶ S5 S5 svvExseeeeerresses 58
4.1.4 Các ứng dung quản lý và chăm sóc khách hàng -«« 58 4.1.5 Các ứng dụng phát hiện và cô lập lỗi trên hệ thống mạng viễn thông
(Network fault isolation)
4.2 Pham Vi ứng dụng dé tài ccscssessssessssessscessscssescssesessessseeseseessseesssessecesssseseeess
Chương 5 — CHUONG TRINH THU NGHIEM -ccccccccccccsccsccccccccccccee 63
5.1 Mô tả hệ thống co sở dữ liệu của G2G 'Tele€OIm 5 5s «se ssssssesese 63
5.2 Chương trình ứng dụng khai phá dữ liệu bằng Luật Kết Hợp và Phân lớp
HC cọ TH TH 0 00.000 0.000.000 0 00 00 0000.0000900 00091 0008900 80
Chương 6 - KET LUẬN VÀ HƯỚNG MỞ RỘNG ccccsseccccccccee 89
Trang 5Bảng 2.1 Ví dụ về một cơ sở dit liệu dạng giao tác -ÌD ccccccccscseecces 27Bảng 2.2 Các tập phổ biến trong co sé dit liệu ở bảng 2.1 với độ hỗ trợ tốt thiểu
3
Bảng 2.3 Ví dụ các tập phổ biến có độ hỗ trợ tối thiểu 50%
-Bảng 2.4 -Bảng sinh ra luật kết hợp từ tập phổ biến ABE -c-c
Bảng 2.5 Cơ sở dữ liệu giao dịCH ccsccc<ccscssexssxes
Bảng 2.6 Nội dung tập luật thu được trước khi tid .cccccsccsscssssss
Bảng 2.7 Nội dung tập luật thu được sau khi fÏA c 5S Sex
Bảng 2.8 : cơ sở dit liệu chỉ tiết của 8 cuộc điện thoại -~+
Bảng 3.1 Ví dụ về xác suất của những cái bánh trong thuật toán Bayes
Bảng 5.1 Dữ liệu số cuộc gọi thành công được rút ra từ bang chỉ tiết cuộc goidi
QUOC t& POStPAY_CAP 1E U ÔÒỎÔ 74 Bảng 5.2 Dữ liệu số cuộc gọi thất bại được rút ra từ bằng chi tiết cuộc gọi thất
Di INCOMPL ee 000n0n0n0nẺnẺ88 76
Trang 6Danh mục các hình vẽ
Trang
Hình 1.1 Quá trình khai phá tri thỨtC cà 2c S SE EteEksrrrrerreeerrevrs 8 Hình 2.1 Mô hình ứng dụng lUGt .ĂĂSĂ se seeseres 19
Hình 2.2 Các bước cơ bản của ứng dụng lHẬT 7S cSScsSsseseesereeres 22
Hình 2.3 Lưu đô giải pháp mô phỏng xác nhận đặc điểm luật 24
Hình 2.4 Mô tả ví dụ về thuật toán AIDlOTÌ 5c 5c Sc Sex EErekerrrerreg Hình 3.1 Một mang Bayes đơn giản (Nguồn từ Wiki) Hình 5.1 Mô hình mô tả mối quan hệ các bảng dit liệu viễn thông 72
Hình 5.2 Biểu đô tổng cuộc gọi đi quốc tế 3 ngày liên tiếp 2
Hình 5.3 Biểu đô chỉ tiết mô tả các cuộc gọi thành công Z9 Hình 5.4 Biểu đồ tổng cuộc gọi di bị thất bại của 3 ngày liên tiếp 77
Hình 5.5 Biểu đồ chỉ tiết mô tả các cuộc gọi bị thất bại 77
Hình 5.6 Hình so sánh tổng cuộc gọi thành công và thất bại 76
Hình 5.7 Hình so sánh mức độ thành công và thất bại từng thời điểm 77
Hình 5.8 Các danh mục chính được tổng hợp của dữ liệu viễn thông 30
Hình 5.9 Các thuật toán kết hợp dùng khai thác dữ liệu để các tập luật 8]
Hình 5.10 Gido diện CHIN iiceccccccccccccccccccccccseeeeeesescccccesecccecececeesesenssssccseeeeeeesesesens 82 Hình 5.11 Hiển thị dit liệu được Training : : s-55+55+2c2cccxersrsrsceee 83 Hình 5.12 Chọn mẫu dit liệu để dự đóan kết quả theo dit liệu Training 34
Hình 5.13 Dự đoán kết quả theo thuật toán Bayes cho bdng dit liệu 85 Hình 5.14 Xuất dữ liệu ra dạng file XML 5555552 SSESeEet+eEeseeetseeesescee 86
Trang 7bản), hoặc ở dạng số, Nếu ở dạng thô thì chúng không có ý nghĩa gì cả mà chỉ
có ý nghĩa khi chúng được gửi tới 1 chương trình lưu trữ dữ liệu và phải được xử
lí Từ đó thúc đẩy con người có động cơ nghiên cứu về các đối tượng dữ liệu này
để tìm hiểu về chúng Thông qua việc khai phá dữ liệu chúng ta có thể phát hiện
ra những tri thức Từ đó giúp chúng ta nhận ra tri thức là sự tích hợp thông tin,
bao gồm các sự kiện, các cơ sở lập luận và các mối quan hệ giữa các đối tượng
giúp chúng ta có thể lĩnh hội tri thức, khám phá và học tập từ những tri thức thuđược Do vậy là công nghệ Data mining ra đời và phát triển ngày càng sâu rộng
Khám phá tri thức và khai phá dữ liệu (KDD = Knowledge Discovery and
Data mining) đã nhanh chóng trưởng thành trên mọi lĩnh vực, kết hợp với việc quan lí dữ liệu, khoa học thống kê và mục đích sử dung tri thức từ khai phá dữ
Data mining (khai phá dữ liệu) là quá trình tìm kiếm các mẫu mới, những thông
tin tiém ẩn mang tính dự đoán trong các khối dữ liệu lớn Những công cụ datamining có thể phát hiện những xu hướng trong tương lai, các tri thức mà datamining mang lại cho các doanh nghiệp có thể ra các quyết định kịp thời và trảlời những câu hỏi trong lĩnh vực kinh doanh mà trước đây tốn nhiều thời gian để
xử lý Với ưu điểm trên, data mining đã chứng tỏ được tính hữu dụng của nó
trong môi trường kinh doanh đây tính cạnh tranh ngày nay và được ứng dụngrộng rai trong các lĩnh vực thương mại, tài chính, diéu trị y học, giáo dục, viễn
thông v.v
Điện thoại là một vật dụng và công cụ phổ biến trong thời đại hiện nay Sự phát
triển khoa học kỹ thuật trong lãnh vực công nghệ thông tin và viễn thông với tốc
độ chóng mặt, thị trường điện thoại Việt Nam đang trên đà phát triển mạnh mẽ.Đến thời điểm hiện nay, Việt Nam chúng ta có khoảng hơn 5 triệu thuê bao trên
4 mạng điện thoại Vina Phone, Mobi Fone, Viettel và S-Fone chưa kể mạng
điện thoại đi động nội hạt như City Phone, các mạng điện thoại vô tuyến cố định
Trang 8khác Vì vậy vấn để khai thác cơ sở dữ liệu đối với các hành vi sử dụng điên
thoại của người tiêu dùng rất quan trọng.
Đối với các mạng điện thoại di động hiện nay, chúng ta có rất nhiều gói cước sử
dụng, các gói cước được xem như một loại sản phẩm dịch vụ khác nhau, và có
cách tính cước khác nhau tuỳ theo đối tượng người sử dụng chọn lựa Từ đó ta có
các gói cước trả trước và các gói trả sau, mà ta còn gọi là thuê bao trả trước và
thuê bao trả sau (có hợp đồng sử dung dich vu)
Ngoài ra, nhà cung cấp dịch vụ còn có các cách tính khác nhau cho từng thời
điểm thực hiện cuộc gọi trong ngày nhằm hạ giá cho các cuộc gọi vào thời điểm
mạng điện thoại rãnh rỗi, như ban đêm Vì vậy các bài toán vé giá cước được
đặt ra cho các nhà cung cấp dịch vụ cạnh tranh nhau.
Việc khảo sát một số trường hợp nghẽn mạch cục bộ vào những ngày đặc biệtcũng là vấn dé cần nghiên cứu kỹ cho việc dau tư thêm cơ sở hạ tầng Vì vậy,việc 4p dụng các kiến thức khoa học trong lãnh vực máy tính rất cần thiết chocác nhà cung cấp dịch vụ điện thoại khi muốn tìm ra các qui luật, hành vi, sởthích của người sử dụng điện thoại Từ những yêu cầu của người sử dụng đãđược nghiên cứu, bài toán sẽ giúp cho người quản lý có các quyết định trong
việc đưa ra các sản phẩm phong phú kèm với việc ban hành giá cứơc mà không
ảnh hưởng đến doanh thu hoặc lợi nhuận.
Bằng cơ sở dữ liệu của một công ty viễn thông đang hoạt động, với nhiều loại
dịch vụ được cung cấp, các hình thức khác nhau, để cương nghiên cứu sẽ rút rađược các qui luật về hành vi của người tham gia sử dụng dịch vụ: mức cước trung
bình, thời gian gọi hàng tháng và các thời điểm phát sinh nhiều cuộc gọi trongngày tương ứng Để cương còn phát hiện về một số sự cố mà các thuê bao gọithất bại với nhiều lý do giúp chúng ta cải tiến dịch vụ tốt hơn, và qua đó có thể
dự báo về mức doanh thu, lợi nhuận trong tương lai cũng như khả năng thu nhập
của người sử dụng điện thoại.
Trang 9Như ở trên ta đã nói: hiện nay dữ liệu, thông tin và tri thức đang là tiêu
điểm của 1 lĩnh vực mới nghiên cứu và ứng dụng vé phát hiện tri thức
(Knowledge Discovery) và khai phá di liệu (Data Mining).
Phát hiện tri thức: phát hiện tri thức trong các cơ sở dữ liệu là một quy
trình nhận biết các mẫu hoặc các mô hình dữ liệu với các tính năng: hợp thức
mới, khả ích và có thể hiểu được
Khai phá dit liệu: khai phá dữ liệu là một bước trong quy trình phát hiện
tri thức gồm có các thuật toán khai thác dữ liệu chuyên dùng dưới một số quyđịnh về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hìnhtrong dữ liệu đang tổn tại trong các cơ sở dữ liệu nhưng vẫn còn bị che khuất bởi
hàng núi dif liệu.
1.2 Data mining
1.2.1, Khái niệm Data Mining
Tóm lai, khai pha dữ liệu (data mining) là quá trình khám phá các tri thức mới
và các tri thức có ích ở dạng tiém năng trong nguồn dif liệu đã có
1.2.2 Tiến trình khai phá dữ liệu
Khai phá dữ liệu là một bước của quá trình khai phá tri thức (Knowledge
Discovery Process) , bao gồm:
" Problem Understanding and Data Understanding: xác định vấn dé và
không gian dif liệu dé giải quyết vấn dé
« Data preparation : chuẩn bi dữ liệu Bao gồm quá trình làm sạch dữ liệu
(data cleaning), tích hợp dữ liệu (data integration), chon dữ liéu(data
selection), biến đổi dữ liệu(data transformation), các bước cu thé sau
o Làm sạch dit liệu (Data Cleaning): Loại bỏ dữ liệu nhiễu và dữ liệu
không nhất quán.
o_ Tích hop dit liệu (Data Intergation): Dữ liệu của nhiều nguồn có thể
được tổ hợp lại
o Lựa chọn dit liệu (Data Selection): Lựa chọn những dữ liệu phù hợp
với nhiệm vụ phân tích trích rút từ cơ sở dữ liệu.
Trang 10o_ Chuyển đổi dit liệu (Data Transformation): Dữ liệu được chuyển đổi
hay được hợp nhất về dạng thích hợp cho việc khai phá
=" Data Mining : khai phá dữ liệu Xác định nhiệm vụ khai pha dữ liệu va
lựa chọn kỹ thuật khai phá dữ liệu Kết quả cho ta một nguồn trí thức thô
Đây là một tiến trình cốt yếu trong đó các phương pháp thông minh được
áp dụng nhằm trích rút ra mẫu dữ liệu.
« Evaluation : đánh giá mẫu Dựa trên một số tiêu chí tiến hành kiểm tra va
lọc nguồn trí thức thu được
= Deployment : triển khai, biểu diễn tri thức Ở giai đoạn này các kỹ thuật
biểu diễn và hiển thị được sử dụng để đưa tri thức lấy ra cho người dùng
Quá trình khai phá trí thức không chỉ là một quá trình tuân tự từ bước đầu tiênđến bước cuối cùng mà là một quá trình lặp và có quay hổi lại các bước đã qua,
kết quả thu được có thể được lấy trung bình trên tất cả các lần thực hiện
Hinh thành và Định nghĩa bai toan
Thu thập và
Tién xử lý dữ liệu
Khai nhá dữ liệu Hút ra các tri thức
`
» Phân tích và kiểm định
kết quả 4
Sử dụng các tri thức
phái hiện được
Hình 1.1 Quá trình khai phá tri thức
- Các quan niệm
* Cơ sở dữ liệu (quan hệ, hướng đối tượng, không gian, WWW, )
* Tri thức (đặc trưng, gom cụm, kết hợp, phân lớp, )
* Kỹ thuật (máy học, thống kê, trực quan hóa, nhà kho, )
* Ứng dụng (bán lẻ, điện thoại, khai thác web, )
Trang 11Oracle, MS SQL Server, IBM DB2, MS Access, v v.
Cơ sở dit liệu da chiều (multidimention structures, data warehouses, data
mart ) : là các kho dữ liệu được tập hợp va chon loc từ nhiều nguồn dữ liệu khác
nhau Dạng dữ liệu này chủ yếu phục vụ cho quá trình phân tích cũng như khai
phá tri thức và hỗ trợ quá trình ra quyết định
Cơ sở đữ liệu giao tác (transacHonal databases) : đây cũng là dạng dữ liệu
tác nghiệp có các bản ghi thường là các giao tác Dang dữ liệu này cũng phổ
biến hiện nay trong đó có ngành bưu chính.
Cơ sở dữ liệu quan hệ — hướng đối tượng (object relational databases) : là dang dữ liệu lai giữa hai mô hình quan hệ và hướng đối tượng.
Dữ liệu không gian và thời gian (spatial, temporal, and time-series data) :
là dạng dif liệu có tích hợp thuộc tính về không gian như dif liệu bản đổ mạng
cáp điện thoại hoặc thời gian như dữ liệu cước điện thoại, phát hành báo chí.
Co sở dữ liệu da phương tiện (Multimedia database) : là dạng dữ liệu âm
thanh (audio), hình ảnh (video), Text & WWW, v v Dang đữ liệu này đang rất
phổ biến trên internet và lưu tại các web server của các đơn vị trực thuộc ngành
bưu điện.
1.2.3 Các phương pháp khai phá dữ liệu
= Kĩ thuật khai phá dữ liệu mô tả: có nhiệm vụ mô tả về các tính chất hoặc
các đặc tính chung của dữ liệu trong CSDL hiện có Các kĩ thuật này gồm
có: phân cum (clustering), tóm tắt (summerizafion), trực quan hóa
(visualiztion), phân tích sự phát triển và độ lệch (Evolution and deviation
analyst), phần tích luật kết hợp (association rules)
= Kĩ thuật khai phá dữ liệu dự đoán: có nhiệm vụ đưa ra các dự đoán dựa
vào các suy diễn trên dữ liệu hiện thời Các kĩ thuật này gồm có: phân lớp
(classification), hỗi quy (regression)
Một số hướng tiếp cận chính với hai đích chính của khai phá đữ liệu là dự đoán
và mô tả, người ta thường sử dung các phương pháp sau cho khai phá dữ liệu:
Trang 12Ví dụ : phân lớp loại cước hoặc loại dịch vụ dựa trên số máy bị gọi của cuộc
gọi, phân lớp khu vực dựa trên số máy chủ gọi, phân lớp giờ cao điểm, thấp
điểm dựa trên giờ bắt đầu đàm thọai.v.v
Hướng tiếp cận phân lớp có giám sát thường sử dụng một số kỹ thuật của
học máy như cây quyết định, mạng nơ ron nhân tao (neural network) v.v
Luật kết hợp (association rules) : là dạng luật biểu diễn tri thức ở dạng
tương đối đơn giản Luật kết hợp có khả năng ứng dụng trong nhiều lĩnh
vực khác nhau trong đó có lĩnh vực viễn thông.
Ví dụ : “ 70 % khách hàng gọi liên tỉnh thì có 90 % trong số khách hàng đó
gọi nội tinh “.
Khai thác mau tuần tự (sequential/temporal patterns): Tương tự như khai
thác luật kết hợp nhưng có thêm tính thứ tự và tính thời gian Một luật mô
tả mẫu tuần tự có dạng tiêu biểu X -> Y, phản ánh sự xuất hiện của biến
cố X sẽ dẫn đến việc xuất hiện biến cố Y Hướng tiếp cận này có tính dự
báo cao.
Phân cụm (clustering/segmentation) : nhiệm vụ miêu tả chung mà trong
một nhiệm vụ tìm kiếm đó xác định một tập hợp hữu hạn của những phạm
trù hay những nhóm để mô tả dữ liệu, sắp xếp các đối tượng theo từng
cụm (số lượng và tên của cụm chưa được biết trước) Các đối tượng được
gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùng một cụm
là lớn nhất và mức độ tương tự giữa các đối tượng nằm trong các cụm
khác nhau là nhỏ nhất Phân cụm còn được gọi là học không có giám sát
(unsupervised learing).
Hồi qui (Regression): khám phá của một sự dự đoán hoc chức năng, ma
vẽ bản đồ một mục tin dữ liệu tới một thực tế- biến dự đoán giá trị
Tổng hợp (Summarization): nhiệm vụ miêu tả bổ sung bao gồm nhữngphương pháp để tìm ra sự mô ta cô đọng cho một thiết lập (hay tập con)
của dif liệu.
Trang 13= Mô hình ràng buộc (Dependency modeling): tim ra một mô hình cục bộ
được mô tả bằng những phần phụ thuộc quan trọng giữa những biến hay
giữa những giá trị của một đặc tính hay trong một phần của một tập dữ
liệu.
= Dò tìm biến đổi và độ lệch (Change and Deviation Detection): khám phá
những sự thay đổi quan trọng nhất trong tập dữ liệu
= Biểu diễn mô hình (Model Representation)
= Kiểm định mô hình (Model Evaluation)
" Phương pháp tìm kiếm (Search Method)
1.2.4 Cac ứng dụng thực tiễn của Data MiningPhát hiện tri thức và khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực
như: thống kê, trí tuệ nhân tao, cơ sở đữ liệu, thuật toán học, tính toán song song
và tốc độ cao, thu thập tri thức cho các hệ chuyên gia, quan sát dữ liệu, Dac
biệt phát hiện tri thức và khai phá dữ liệu rất gần gũi với các lĩnh vực thống kê,
sử dụng các phương pháp thống kê để mô hình dữ liệu và phát hiện các mẫu,
A
luật,
Các ứng dụng của phát hiện tri thức và khai phá dữ liệu
= Thông tin thương mai:
+ Phân tích dữ liệu marketing, khách hàng
+ Phân tích đầu tư
+ Phê duyệt cho vay vốn
+ Phát hiện gian lận
= Thông tin kỹ thuật:
+ Điều khiển và lập lịch trình
+ Quản trị mạng
+ Phân tích các kết quả thí nghiệm
= Thông tin khoa học
= Thông tin cá nhân
Các lĩnh vực hiện tại có ứng dụng khai phá dữ liệu bao gồm:
=" Thiên văn học
Trang 14-12-=" Tin sinh hoc
= Bào chế thuốc
"_ Thương mại điện tử
= Phát hiện lừa dao
= Máy tìm kiếm (web)
Những ứng dụng đáng chú ý của khai phá dữ liệu
Khai phá dữ liệu được xem là phương pháp mà đơn vị Able Danger của Quân
đội Mỹ đã dùng để xác định kẻ đứng đầu cuộc tấn công ngày 9/11, Mohamed
Atta, và ba kẻ tấn công ngày 9/11 khác là các thành viên bị nghi ngờ thuộc lực
lượng al Qaeda hoạt động ở Mỹ hơn một năm trước cuộc tấn công.
1.2.5 Phân loại các hệ thống khai thác dữ liệu
Phân loại khai thác dữ liệu dựa trên các tiêu chí khác nhau.
Phân loại dựa trên kiểu dif liệu được khai thác : Cơ sở dữ liệu quan hệ, kho
dữ liệu, cơ sở dif liệu giao tác, cơ sở dữ liệu hướng đối tượng, cơ sở dữ liệu
không gian, cơ sở dữ liệu đa phương tiện, cơ sở dữ liệu văn bản và www v v.
Phân loại dựa trên dang tri thức được khám phá : Tóm tắt và mô tả, luật kết hợp, phân lớp, phân cụm, khai phá chuỗi v v
Phân loại dựa trên lĩnh vực được áp dụng : Thương mại, viễn thông, tài
chính, y học, web mining, v v.
Phân loại dựa trên kỹ thuật được áp dụng : Phân tích trực tuyến (Online
Analytial Processing - OLAP), học máy (cây quyết định, mạng nơ ron nhân tạo,K-Means, giải thuật di truyền, máy vecto hỗ trợ — SVM, tập thô, tập mờ v v)
Thông thường sử dụng tập mờ là thích hợp cho việc tìm ra và hiểu được sự
liên quan của các mô hình dữ liệu chưa đầy đủ, tạp nhiễu, thông tin hỗn tạp và
tác động của con người, và từ đó có thể cung cấp giải pháp xấp xỉ nhanh hơn.Mạng neuron có khả năng tổng quát, không giới hạn, mạnh và học tốt trong môitrường dữ liệu giàu (data-rich) thuật toán di truyén cung cấp kha năng tìm cácthuật toán để chọn mẫu từ các dữ liệu hỗn tạp dựa trên một số hàm tiêu
Trang 15của tinh trạng không rõ ràng trong dif liệu Một số yêu cầu khai thác dữ liệu cầnphai áp dụng phương pháp tính toán mềm ( Tính toán mềm là sự kết hợp của cácphương pháp logic mờ, thuật toán di truyền, khám phá tri thức, mạng neuron,
tính toán neurofuzzy, tập thô, rút ra luật )
Những vấn đề quan tâm trong hệ thống khai thác dữ liệu
Một số hướng nghiên cứu của khai thác dữ liệu hiện nay :
OLAM (OnLine Analytical Mining) : Là sự tích hợp giữa cơ sở dữ liệu, kho
di liệu, và khai thác dữ liệu Một số hệ cơ sở dữ liệu như Oracle MS SQL
Server, đã tích hợp tính năng xây dựng kho dữ liệu và phân tích trực tuyến (OLAP) Những tính năng này được hỗ trợ dưới dạng các công cụ đi kèm và
người sử dụng phải mua nếu cần sử dụng Các nhà nghiên cứu trong lĩnh vực cơ
sở dữ liệu còn muốn có thêm sự tích hợp giữa cơ sở đữ liệu, kho di liệu, và khai
thác dữ liệu Khám phá được nhiều tri thức khác nhau từ các kiểu dữ liệu khác
nhau Tính chính xác và hiệu quả, khả năng mở rộng và tích hợp, xử lý dữ liệu bị
nhiễu không đầy đủ và tính có ích của tri thức được khám phá Vấn để song song
hoá và phân tán quá trình khai thác dữ liệu Vấn để ngôn ngữ truy vấn trong
Khai thác dif liệu phải cung cấp cho người sử dụng một ngôn ngữ thuận tiện, gần
gũi tương tự như SQL trong Cơ sở dữ liệu quan hệ Biểu diễn các tri thức khaithác được sao cho trực quan và gần gũi với người sử dụng để người sử dụng tri
thức có hiệu quả hơn.
Trong quá trình thực hiện luận văn tôi có tham khảo một số tài liệu liên quan nhưng vì trình độ và thời gian còn hạn chế nên nội dung của luận văn này
liên quan chủ yếu đến hướng chính là khai phá luật kết hợp mờ để áp dụng khai
thác dữ liệu khách hàng và cước điện thoại tại công ty viễn thông G2G Telecom
Ngoài ra luận văn còn tập trung vào việc tìm các luật kết hợp thật sự có ích nhờ
các phương pháp như tìm luật kết hợp dựa vào tập luật đơn giản (Simple rule set), Thuật kết hợp mờ với thuộc tính được đánh trọng số, tìm luật phủ định , timluật mới lạ thật sự có ích dựa trên tri thức đã biết , phương pháp loại bỏ các luật
thừa Ngoài ra có một số thay đổi thuật toán trong quá trình cài đặt thực tếnhằm cải thiện thời gian tìm luật và hoàn thiện chương trình cài đặt để có thể
ứng dụng trong thực tế tại công ty
Các vấn dé về tính riêng tưVẫn có các mối lo ngại về tính riêng tư gắn với việc khai phá dữ liệu Ví dụ, nếu
một ông chủ có quyển truy xuất vào các hồ sơ y tế, họ có thể loại những người
Trang 16-14-có bệnh tiểu đường hay bệnh tim Việc loại ra những nhân viên như vậy sẽ cắtgiảm chi phí bảo hiểm, nhưng tạo ra các vấn để về tính hợp pháp và đạo đức
Khai phá dữ liệu các tập dữ liệu thương mại hay chính phủ cho các mục đích áp
đặt luật pháp và an ninh quốc gia cũng là những mối lo ngại về tính riêng tư
đang tăng cao.
Có nhiều cách sử dụng hợp lí với khai phá dữ liệu Ví dụ, một CSDL các mô tả
về thuốc được thực hiện bởi một nhóm người có thể được dùng để tìm kiếm sự
kết hợp của các loại thuốc tạo ra các phản ứng (hóa học) khác nhau Vì việc kết
hợp có thể chỉ xảy ra trong 1 phần 1000 người, một trường hợp đơn lẻ là rất khóphát hiện Một dự án liên quan đến y tế như vậy có thể giúp giảm số lượng phản
ứng của thuốc và có khả năng cứu sống con người Không may mắn là, vẫn có khả năng lạm dụng đối với một CSDL như vậy.
Về cơ bản, khai phá dữ liệu đưa ra các thông tin mà sẽ không có sẵn được N6
phải được chuyển đổi sang một dạng khác để trở nên có nghĩa Khi dữ liệu thu
thập được liên quan đến các các nhân, thì có nhiều câu hỏi đặt ra liên quan đến
tính riêng tư, tính hợp pháp, và đạo đức.
1.2.6 Các khó khăn còn tôn tại
Các thách thức với phát hiện tri thức và khai phá dữ liệu còn đang được nghiên cứu
> Các cơ sở dữ liệu lớn
Số chiều lớn
Thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã phát hiện không
còn phù hợp.
Dữ liệu bị thiếu hoặc nhiễu
Quan hệ giữa các trường phức tạp
Giao tiếp với người sử dụng và kết hợp với các tri thức đã có
Tích hợp với các hệ thống khác
VY
VVV V
Trang 17LUẬT KẾT HỢP
2.1 Tổng quan luật kết hợp
Khai phá luật kết hợp: mục tiêu của phương pháp này là phát hiện và đưa ra
các mối liên hệ giữa các giá trị dữ liệu trong CSDL Mẫu đầu ra của giảithuật khai phá dữ liệu là tập luật kết hợp tìm được Chẳng hạn: phân tích
CSDL bán hàng nhận được thông tin về những khách hàng mua máy tính cókhuynh hướng mua phần mềm quản lý tài chính trong cùng lần mua được
miêu tả trong luật kết hợp sau:
“Máy tính => Phần mềm quản lý tài chính”
[Độ hỗ trợ: 2%, độ tin cậy: 60%]
Độ hỗ trợ và độ tin cậy là hai độ đo của sự đáng quan tâm của luật Chúng tương
ứng phan ánh sự hữu ích và sự chắc chắn của luật đã khám phá Độ hỗ trợ 2% có
nghĩa là 2% của tất cả các tác vụ đã phân tích chỉ ra rằng máy tính và phần mềm
quản lý tài chính là đã được mua cùng nhau Con độ tin cậy 60% có nghĩa là
60% các khách hàng mua máy tính cũng mua phần mém Khai phá luật kết hợp
được thực hiện qua 2 bước:
Bước 1: tìm tất cả các tập mục phổ biến, một tập mục phổ biến được xácđịnh qua tính độ hỗ trợ và thỏa mãn độ hỗ trợ cực tiểu
Bước 2: sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phảithỏa mãn độ hỗ trợ cực tiểu và độ tin cậy cực tiểu
Phương pháp này được sử dụng rất hiệu quả trong các lĩnh vực như marketing có
chủ đích, phân tích quyết định, quản lí kinh doanh, phân tích giỏ thị trường
Trong ngành viễn thông, các loại dịch vụ cung cấp cho khách hàng ngày
càng nhiễu, do đó chúng ta có thể tim mối liên kết giữa việc sử dụng các loại
dịch vụ để phục vụ cho việc quảng cáo, tiếp thị Ví dụ như để tìm hiểu thói quen
sử dụng các dịch vụ viễn thông của khách hàng, người ta thường đặt câu hỏi
“Những dịch vụ nào khách hàng thường hay sử dụng cùng lúc với nhau khi đăng
ký sử dụng tại trung tâm chăm sóc khách hàng ?” Các kết quả nhận được có thể
dùng cho việc tiếp thị dịch vụ như liệt kê các dịch vụ khách hàng hay sử dụng
cùng lúc nằm gần nhau, hoặc khuyến mãi dịch vụ kèm theo
Trang 18huyện vừa gọi điện thoại IP 171 Liên tỉnh ” “mua máy điện thoại di động” hay
“gọi liện tỉnh và sống ở các huyện” ở đây được xem là vế trái (tiền để ) của
luật, còn “mua simcard“ hay “gọi điện thoại IP 171 liên tỉnh” là vế phải (kết
luận) của luật Các con số 30% hay 25% là độ hỗ trợ của luật (support — số phầntrăm các giao tác chứa cả vế trái và vế phải), còn §0% hay 75% là độ tin cậycủa luật (confidence — số phần trăm các giao tác thỏa mãn vế trái thì cũng thỏa
mãn vế phải).
Gọi _LT: Có — goi_171: Có (Độ hỗ trợ=25%, Độ tin cậy=75%)
Độ hỗ trợ (support) và Độ tin cậy (confidence) là hai thước đo cho một luật
kết hợp Độ hỗ trợ bằng 25% có nghĩa là “Trong các khách hàng có sử dụng
điện thoại thì có 25% khách hàng sử dụng điện thoại ID Liên tỉnh và điện thoại
IP 171” Độ tin cậy bằng 75% có nghĩa là “Trong các khách hàng có sử dụng
điện thoại liên tỉnh thì có 75% khách hàng sử dụng điện thoại IP 171”.
Chúng ta nhận thấy rằng tri thức đem lại bởi luật kết hợp ở dạng trên có sự khác biệt cơ bản so với thông tin thu được từ các câu lệnh truy vấn đữ liệu thông
thường như ngôn ngữ SQL Đó là những tri thức, những mối liên hệ chưa biết
trước và mang tính dự báo đang tìm ẩn trong dữ liệu Những tri thức này khôngđơn giản chỉ là kết quả của phép nhóm, tính tổng hay sắp xếp mà là kết quả của
một quá trình tính toán khá phức tạp và tốn nhiều thời gian
Tuy luật kết hợp là dạng luật khá đơn giản nhưng lại mang khá nhiều ý nghĩa
Thông tin mà dạng luật này đem lại là rất đáng kể và hỗ trợ không nhỏ trong
quá trình ra quyết định Tìm kiếm được các luật kết hợp “quý hiếm” và mang
nhiều thông tin từ Cơ sở dữ liệu tác nghiệp là một trong những hướng tiếp cận
chính của lĩnh vực khai thác dữ liệu.
Một số hướng tiếp cận trong khai thác luật kết hop Lĩnh vực khai thác luật kết hợp cho đến nay đã được nghiên cứu và phát
triển theo nhiều hướng khác nhau Có những dé xuất nhằm cải tiến tốc độ thuậttoán, có những để xuất nhằm tìm kiếm luật có ý nghĩa hơn, v v và có một số
hướng chính sau đây.
Luật kết hợp nhị phân (binary association rule hoặc boolean association
rule) : là hướng nghiên cứu đầu tiên của luật kết hợp Hầu hết các nghiên cứu ở
thời kỳ đầu về luật kết hợp đều liên quan đến luật kết hợp nhị phân Trong dạng
Trang 19hiện trong giao tác của cơ sở dữ liệu chứ không quan tâm về “mức độ“ xuất
hiện Có nghĩa là việc gọi 10 cuộc điện thoại và 1 cuộc được xem là giống nhau.
Thuật toán tiêu biểu nhất khai phá dạng luật này là thuật toán Apriori và các
biến thể của nó Day là dạng luật đơn giản và các luật khác cũng có thể chuyển
về dạng luật này nhờ một số phương pháp như rời rac hoá, mờ hoá, v v Một
ví dụ về dạng luật này : “gọi liên tinh=’yes’ AND gọi di động=”yes” gọi quốcté=’yes’ AND gọi dich vụ 108 = ‘yes’, với độ hỗ trợ 20% va độ tin cậy 80%”
Luật kết hợp có thuộc tính số và thuộc tinh hạng mục (quantitative and
categorial association rule) : Các thuộc tính của các cơ sở dữ liệu thực tế có kiểu
rất đa dạng (nhị phân — binary, số — quantitative, hạng mục — categorial, v v).
Để phát hiện luật kết hợp với các thuộc tính này, các nhà nghiên cứu đã để xuất
một số phương pháp rời rạc hoá nhằm chuyển dạng luật này về dạng nhị phân
để có thể áp dụng các thuật toán đã có Một ví dụ về dạng luật này “phương
thức gọi =’Tu động” AND giờ gọi © “23:00:39 23:00:59° AND Thời gian đàm
thoại © “200 300’ gọi liên tỉnh =’c6’ , với độ hỗ trợ là 23 53% , và độ tin cậy
thể như “ mua máy tính IBM PC thì mua hệ điều hành Microsoft Windows ANDmua phan mém tiện ích văn phòng Microsoft Office, ” Như vậy dạng luật đầu làdạng luật tổng quát hoá của dạng luật sau và tổng quát theo nhiều mức khác
nhau.
Luật kết hợp mờ (fuzzy association rule) : Với những hạn chế con gặp phải
trong quá trình rời rac hoá các thuộc tính số (quantitave attributes), các nhà
nghiên cứu đã để xuất luật kết hợp mờ nhằm khắc phục các hạn chế trên vàchuyển luật kết hợp về một dạng tự nhiên hơn, gần gũi hơn với người sử dụng
một ví dụ của dạng này là : “thué bao tu nhân = ‘yes’ AND thời gian đàm thoại
lớn AND cước nội tinh = ‘yes’ ® cước không hợp lệ = ‘yes’, với độ hỗ trợ 4% và
độ tin cậy 85%” Trong luật trên, diéu kiện thoi gian đàm thoại lớn ở vế trái của
luật là một thuộc tính đã được mờ hoá.
Luật kết với thuộc tính được đánh trọng số (association rule with weighted
items) : Trong thực tế, các thuộc tinh trong cơ sở đữ liệu không phải lúc nào cũng
có vai trò như nhau Có một số thuộc tính được chú trọng hơn và có mức độ quan
trọng cao hơn các thuộc tính khác Ví dụ khi khảo sát về doanh thu hàng tháng,
Trang 20-18-thông tin về thời gian đàm thoại, vùng cước là quan trọng hơn nhiều so với -18-thôngtin về phương thức gọi Trong quá trình tim kiếm luật, chúng ta sẽ gán thờigian gọi, vùng cước các trọng số lớn hơn thuộc tính phương thức gọi Đây làhướng nghiên cứu rất thú vị và đã được một số nhà nghiên cứu để xuất cách giảiquyết bài toán này Với luật kết hợp có thuộc tính được đánh trọng số, chúng ta
sẽ khai thác được những luật “hiếm” (tức là có độ hỗ trợ thấp, nhưng có ý nghĩađặc biệt hoặc mang rất nhiều ý nghĩa)
Khai thác Luật kết hop song song (parallel mining of association rules):
Bên cạnh khai thác luật kết hợp tuần tự, các nhà làm tin học cũng tập trung vàonghiên cứu các thuật giải song song cho quá trình phát hiện luật kết hợp Nhucầu song song hoá và xử lý phân tán là cần thiết bởi kích thước dữ liệu ngàycàng lớn hơn nên đòi hỏi tốc độ xử lý cũng như dung lượng bộ nhớ của hệ thống
phải được đảm bảo Có rất nhiều thuật toán song song khác nhau đã dé xuất để
có thể không phụ thuộc vào phan cứng
Bên cạnh những nghiên cứu về những biến thể của luật kết hợp, các nhànghiên cứu còn chú trọng dé xuất những thuật toán nhằm tăng tốc quá trình tim
kiếm tập phổ biến từ cơ sở dữ liệu
Ngoài ra, còn có một số hướng nghiên cứu khác về khai thác luật kết hợp
như : khai thác luật kết hợp trực tuyến, khai thác luật kết hợp được kết nối trực
tuyến đến các kho dữ liệu đa chiều (Multidimensional data, data warehouse)
thông qua công nghệ OLAP (Online Analysis Processing), MOLAP (multidimensional OLAP), ROLAP (Relational OLAP), ADO (Active X Data Object) for OLAP .
2.2 Luật kết hợp trong cơ sở dữ liệu
2.2.1 Định nghĩa
Gọi I = {1,, 1›; , I} là tập m thuộc tính riêng biệt, mỗi thuộc tính gọi là
một mục Gọi D là một cơ sở dữ liệu, trong đó mỗi bản ghi T là một giao dịch và
chứa các tập mục, T cl.
Định nghĩa 1: Một ludt kết hợp là một quan hệ có dạng X = Y, trong đó X, Y cI
là các tập mục gọi là itemsets, và Xf\Y =¢ Ở đây, X được gọi là tién để, Y là
mệnh để kết quả
Hai thông số quan trọng của luật kết hợp là độ hỗ trợ (s) và độ tin cậy (c).
Định nghĩa 2: Độ hỗ tro (support) của luật kết hợp X > Y là tỷ lệ phần trăm các
bản ghi X UY với tổng số các giao dịch có trong cơ sở dữ liệu
Định nghĩa 3: Đối với một số giao dịch được đưa ra, độ tin cậy (confidence) là ty
lệ của số giao dịch có chứa X UY với số giao dịch có chứa X Đơn vị tính %
Trang 21có độ hỗ trợ và độ tin cậy lớn hơn ngưỡng của độ hỗ trợ và độ tin cậy do người
sử dụng xác định trước Các ngưỡng của độ hỗ trợ và độ tin cậy được ký hiệu là
minsup và mincof.
Việc khai thác các luật kết hợp có thể được phân tích thành hai vấn dé sau đây:
1 Tìm tất cả các tập mục thường xuyên xảy ra mà có độ hỗ trợ lớn hơn hoặc
khoán, tài chính và đầu tư, Ứng dụng luật kết hợp phải chỉ rõ các đặc điểm về:
nguồn gốc, điều kiện áp dụng, phạm vi ứng dụng, mục đích ứng dụng Những
đặc điểm này được thể hiện bằng mô hình sau:
Tham chiếu
Hình 2.1 Mô hình ứng dụng luật
Trong đó:
- _ Yêu cầu sử dung là phạm vi tính ứng dụng của tập luật vi dụ như về
khoa học, kinh doanh, tiếp thị, thương mại, phân tích thị trường chứng khoán, viễn thông v.v.
- Tham chiếu đến tập luật R, ở giai đoạn này các tập luật được tham
chiếu tại đây là các tập luật được sinh ra từ cơ sở dif liệu chứa tác nhân
yêu cầu sử dụng
- _ Lựa chọn luật, ở bước này chúng ta tiến hành lọc các luật hữu ích nhất
phục vụ cho phạm vi sử dụng.
- Ứng dụng, đây là kết quả mong đợi nhất từ khi bắt đầu khai thác cho
đến khi thi hành luật
Mô hình ứng dụng luật đã làm sáng tỏ tính ứng dụng của việc khai thác
luật kết hợp trong cơ sở dif liệu
Thực tế, ứng dung của khai thác luật kết hợp trong cơ sở dif liệu giao dịch
là một phạm trù của DataMining nên ứng dụng của nó rất rộng lớn, nhất là trong
sự phát triển của xã hội hiện nay
Trang 22- 20
-Tóm lại, tinh ứng dung của khai thác luật kết hợp trong cơ sở dữ liệu giao dịch là việc ứng dụng các tập luật tìm thấy trong đó nhằm vào những mục đích
cụ thể và đạt được kết quả tốt
2.2.3 Phát triển giải pháp hiệu quả trong khai thác luật kết hợp
a Bài toán luật kết hop
Cho một tập các giá trị I, một cơ sở dif liệu giao dịch D, ngưỡng độ hỗ trợ tối
thiểu minsup, ngưỡng độ tin cậy mincof, tìm các luật kết hợp dạng X > Y trên D
thoả mãn diéu kiện Support(X => Y) >= minsup và Confidence(X => Y) >=
mincof.
b Tiến trình khai thác luật kết hop
Xác định các tập mục lớn Việc xác định các tập mục lớn gồm có hai bước
chính sau đây:
- _ Xác định các tập ứng cử viên (C,).
- _ Xác định các tập mục lớn (L) dựa vào tap ứng cử viên
Để xác định tập ứng cử viên, ta thực hiện các bước sau đây:
- _ Tìm các tập ứng cử viên một mục.
- Quét CSDL D để xác định độ hỗ trợ của các tập ứng cử viên Trong vòng
đầu tiên, các tập ứng cử viên cũng chính là tất cả các mục có trong CSDL
Tại vòng thứ k (k>7), các tập ứng cử viên được xác định dựa vào các tập
mục lớn đã xác định tại vòng k — 7, sử dụng hàm Apriori-gen() [2,3,7] Sau
khi đã xác định được các tập ứng cử viên, thuật toán quét từng giao dịch
trong CSDL để tính độ hỗ trợ của các tập ứng cử viên Quá trình xác định
các tập mục sẽ kết thúc khi không xác định được thêm tập mục lớn nào nữa
Nội dung hàm Apriori-gen().
Hàm Apriori-gen() thực hiện hai bước [2]:
- _ Bước dau tiên, L,_ ¡ được kết nối với chính nó thu được Cy
- Bước thứ hai, Apriori_gen() xoá tất cả các tập mục từ kết quả kết nối mà có
một số tập con (k — 1) không có trong Ly _ ¡ Sau đó nó trả về tập mục lớn
kích thước k con lại.
Sinh các luật kết hợp từ tập mục lớn:
Việc phát hiện các tập mục lớn là rất tốn kém về mặt tính toán Tuy nhiên, ngay
khi tìm được tất cả các tập mục lớn (/ e L), ta có thể dé dàng sinh ra các luật kếthợp có thể có bằng các bước như sau:
- Tim tất cả các tập con không rỗng x, của tập mục lớn / e L
- Với mỗi tập con x tìm được, ta xuất ra luật dang x = (I - x) nếu tỷ lệ
Support(/)/Support(x)>= mincof ( %).
Trang 23Call Genrules(L„, Ly);
Procedure Genrules(L,: large k-itemset, dy: large m-itemset) A={(m-1)-itemset Gn-1| Gn-1 C Am}
Forall ay.;¢A do begin
Conf = Support(L,)/Support(am.1)
If (Conf >= mincof) then begin
Output the rule đ„ụ.¡—XL¿T— Gn-1)
với confidence = mincof and support = support(L;)
If = (m-1>1) then Call Genrules(L„am.¡);
End;
End;
c Giải pháp hiệu quả
Trong các phần trên, đã trình bày tiến trình cơ bản để khai thác các luật kếthợp trong CSDL, song vấn để cần phải quan tâm nghiên cứu là tăng hiệu quả
của thuật toán trong trường hợp: “ Số lượng tập ứng cử viên được tìm thấy là rất
lớn”
Trong phạm vi nghiên cứu của bài này, sẽ đưa ra một giải pháp mới đểgiải quyết vấn để đã nêu
Tia các ứng cử viên: Việc tỉa các ứng cử viên nhằm mục đích bỏ đi các tập
ứng cử viên không cần thiết, rút gọn số lượng của tập các tập ứng cử viên Sau
đây, sẽ trình bày kỹ thuật “tỉa” các ứng cử viên không cần thiết
Kỹ thuật này có tính chất: Các mục trong tập ứng cử viên được sắp xếp theo
Dựa vào đây, ta có thể tia được các tập ứng cử viên, từ đó có thể giới hạn
miễn tìm kiếm của nó trên tất cả các tập mục
Trang 24-22-2.2.4 Phát triển giải pháp hiệu quả tính ứng dụng
Trong phần trên, đã trình bày tiến trình khai phá luật kết hợp và giải pháphiệu quả cho việc tạo ra các luật kết hợp Tuy đã giảm được một số lượng rất lớn
các luật không mong muốn, song một vấn để nẩy sinh vẫn phải tiếp tục nghiên
cứu nhằm tăng hiệu quả sử dụng kết quả khai thác đó là:
1 Khi tổn tại tập luật dạng X > Y có độ tin cậy (c,) thì luôn tổn tai tập luật dạng
Y >X có độ tin cậy (cx„¡) Như vậy, luật dạng Y > X thường không cần thiết
Việc tỉa các tập luật dạng Y = X nhằm mục đích bỏ đi các luật không có giá
tri hoặc người sử dụng đã biết trước luật đó, đồng thời rút gọn được các tập luật
Kỹ thuật tỉa này sử dụng độ tin cậy của tập luật tìm thấy.
Kết quả khai thác sinh ra tập luật thường được lưu trữ vào một cơ sở dữ liệu
nào đó như Access, Excel, Paradox, v.v Kỹ thuật tỉa nhằm loại bổ các tập luật
có độ tin cậy Cv¿¡ < Cy.
Nội dung kỹ thuật:
Forall rulsets r e R;do
Tf cy < Cx then
Delete r from R;
Căn cứ vào đây, chúng ta có thé tia các tập luật không mong muốn để giới
hạn phạm vi tìm kiếm các tập luật nhằm tăng tính ứng dụng của nó một cách
nhanh chóng trên những phạm vi ứng dụng khác nhau.
b Tối uu hoá tính ứng dụng tập luật
Để tối ưu hoá tính ứng dụng các tập luật (R,), trình tự ứng dụng luật có thể
mô tả theo các bước cơ bản như hình 2.2.
1 2 3
Nhận và phân loại Xác nhận tính Vận dụng thi hành
tập luật chất luật kết quả
Hình 2.2 Các bước cơ bản của ứng dụng luật.
Trang 25luật kết hợp từ cơ sở dữ liệu giao dịch sau khi đã loại bỏ những luật không có giá
trị, đồng thời tiến hành phân loại các luật này theo chủ dé (luật một mục, luật
hai mục, ) và lưu vào cơ sé df liệu.
Bước 2 “Xác định tính chất luật”, sau khi đã phân loại luật ta tiến hành xác
định tính chất luật Việc xác định này sẽ làm rõ mục đích ứng dụng luật trong
giao dịch.
Bước 3 “Vận dung thi hành kết quả” cho ta biết cách thức thi hành luật trong
giao dịch để kết hợp giữa mục nào sẽ thu được kết quả tốt Bước này, nói lên ý
nghĩa kết hợp các mục trên giao dịch có tính quan trọng như thế nào khi thực thi
một kế hoạch hoạt động nào đó.
Như vậy, mô hình các bước cơ bản của ứng dụng luật góp phần không nhỏ
trong khi sử dụng luật nhằm giảm thời gian tìm kiếm và tăng kha năng thi hành
luật Việc xác định tính chất luật có tính quyết định hình thành kết hợp tập mục
trong mỗi giao dịch Vì thế, khai thác luật kết hợp được ứng dụng rất thành công
trong cơ sở dữ liệu giao dịch.
Một giải pháp mô phỏng việc tinh lọc, xem xét đặc điểm luật phục vụ cho
ứng dụng được nghiên cứu và phản ảnh trong hình 2.3.
Trang 26“kết luận”, “độ tin cậy”, “độ hỗ
trợ” Tiếp theo kiểm tra tính chất
luật này Nếu luật kiểm tra thoả
mãn chuẩn dé ra thì ghi nhận đặc
tính sử dụng cho nó, ngược lại
xoá luật r¡ ra khỏi R, lưu kết quả
và thực hiện vòng lặp tiếp theo
Giải pháp kết thúc khi đã kiểm
tra xong toàn bộ tập luật R.
(k=0).
Ghi nhận tính chất ứng dụng
là một bước rất quan trọng quyết
định tối ưu tính ứng dụng Vì thế,
trong bước này sẽ được xây dựng
các “Chuẩn” đánh giá nghiêm
ngặt Chuẩn này dựa trên những
Xác định tính chất mỗi luật
trong toàn bộ tập luật
Không TM Xem xét
đặt và thử nghiệm trong môi `
trường cơ sở dữ liệu giao dịch.
Hình 2.3 Lưu đô giải pháp mô phỏng xác nhận đặc điểm luật
Kết quả giải pháp sẽ tăng tính ứng dụng của luật trong cơ sở dữ liệu giao
dịch Tập luật đã được xác nhận đặc tính sẽ có tính ứng dụng linh hoạt, chủ động
hơn khi ứng dụng.
Như vậy, tính ứng dụng của khai thác luật kết hợp trong cơ sở dif liệu giao
dịch để cập đến phạm vi ứng dụng luật kết hợp trên các giao dịch là rất quan
trọng Khai thác mối quan hệ giữa các mục trong phiên giao dịch sẽ là hữu ích
khi chúng ta tiến hành khai thác một cách có thứ tự, có mục đích rõ ràng Giải
pháp này góp phan chỉ rõ hơn những thông tin có trong các phiên giao dich để từ
đó giúp cho lãnh đạo có kế hoạch hoạt động, sản xuất kinh doanh trong các năm
Trang 27giải quyết tốt cách thức thi hành, ứng dụng thông tin quan trọng trên các phiên
giao dịch Dựa vào tính ứng dụng này có thể có giải pháp tốt đối với nền kinh tế
thị trường hiện tại cũng như trong tương lai.
2.3 Thông số “độ quan trong” cho luật kết hợp theo nghiên cứu
từ thuật toán của Microsoft Algorithm Trong luật kết hợp, sự quan trọng được tính toán sử dụng công thức sau đây [6]
Importance (A > B) = log (p(alb) / p(a|not b) )
Nếu một dai lượng độ quan trọng bằng 0 có nghĩa rằng không có mối liên hệ giữa A và B Một đại lượng dương độ quan trọng có nghĩa rằng xác suất có B khi
có A cao hơn xác suất có B khi không có A Một đại lượng âm độ quan trọng có
nghĩa rằng xác suất có B khi có A thấp hơn xác suất có B khi không có A.
Bên dưới là một ví dụ tương quan giữa bánh rán (donut) và bánh nướng (muffin)
được đưa ra từ cơ sở dữ liệu mua hàng.
Mỗi giá trị đại diện cho số lượng giao dịch Chăng hạn, 15 trong số 100 giao dịch có
một khách hàng.
mua cả donuts va muffins.
Donut NotDonut Total Muffin 15 5 20
Notmuffin 75 5 80
Total 90 10 100
Độ hỗ trợ, xác suất xảy ra và độ quan trong của tập phô biến có lien quan và các
luật vé donut và muffin như sau:
Trang 28- 26
-Probability(Donut|Muffin) = 15/20 = 0.75
Probability(Donult|Not Muffin) = 75/80 = 0.9375
Importance({Donut, Muffin}) = 0.15/(0.2*0.9) = 0.833
Importance (Donut > Muffin) = log (Probability(Muffin| Donut)
/Probability(Muffin|Not Donut)) = log (15/90 : 5/10) = log (15/90 * 5/10) = log (0.333) = -0.477
Importance(Muffin > Donut) = log
(Probability(Donut|Muffin)/Probability(Donut|NotMuffin)) = log (15/20 : 75/80)
= log (0.80) = -0.096
Từ sự quan trong của tập itemset {Donut, Muffin} chung ta thấy rang Donut và
Muffin có tương quan phủ định nhau; nó khó xác định được việc ai đó mua một
Muffin cũng mua một Donut.
Độ quan trọng cũng được biết như Trọng lượng của sự kiện Weight of Evidence
(WOE).
Trang 292.4 Phát biểu bai toán khai thác luật kết hợp
I= { it, iz, , in} là tập bao gồm n mục (Item — còn gọi là thuộc tính —
attribute) X © I được gọi là tập mục (itemset).
T=({ ti, t, , tm} là tập gồm m giao tác (Transaction — còn gọi là ban ghi —
record), mỗi giao tác được định danh bởi TID (Transaction Identification).
R là một quan hệ nhị phân trên I và T (hay R © IxT) Nếu giao tác t có
chứa mục i thì ta viết (i, t) © R (hoặc iRt) (T, I, R) là ngữ cảnh khai thác dữ
liệu.
Một cơ sở dữ liệu D, về mặt hình thức, chính là một quan hệ nhị phân R như
trên.
Về ý nghĩa, một cơ sở dữ liệu là một tập các giao tác, mỗi giao tác t là một tập
mục, t © 21(211a tập các tập con của I)
Ví dụ về cơ sở dữ liệu (dang giao tác) : I= {A, B, C, D, E},
T= (1,2, 3, 4, 5, 6} Thông tin về các giao tác cho ở bang 2.1 sau:
Định danh giao tac(TID)
fp AB DE
Bảng 2.1 Ví dụ về một cơ sở dữ liệu dạng giao tác -D
Cho Một tập mục X € I Ký hiệu s(X) là Độ hỗ trợ (support) của một tập
mục X - là tỷ lệ phần trăm số giao tác trong cơ sở dữ liệu D chứa X trên tổng số
các giao tác trong cơ sở dif liệu D s(X) = Card(X) / Card(D) %
Tập phổ biến : Cho Một tập mục X © I và ngưỡng phổ biến tối thiểu
minsupp © (0, 1] (minsupp (Minimum Support) được xác định bởi người sử
dụng).
Một tập mục X được gọi là một tập phổ biến theo ngưỡng minsupp nếu và chỉ
nếu
độ hỗ trợ của nó lớn hơn hoặc bằng một ngưỡng minsupp : s(X) > minsupp.
Ký hiệu EX(T, I, R, minsupp) là tập hợp các tập phổ biến theo ngưỡng
Trang 30-28-83% (5/6)
A.C, D, AB, AE, BC, BD, ABE
AD, CE, DE, ABD, ADE, BCE, BDE
Bảng 2.2 Các tập phổ biến trong co sé dit liệu ở bảng 2.1 với độ hỗ trợ tốt
thiểu 50%
Độ hỗ trợ s của luật kết hợp X -> Y là tỷ lệ phần trăm các giao tác trong D
có chứa X và Y s(X -> Y) = Card(X U Y) / Card(D) %.
Luật kết hợp có dạng X c Y, trong đó :
X và Y là các tập mục thoả mãn diéu kiện X f\ Y = ø c là độ tin cậy
Độ tin cậy của luật c =s(X U Y)/s(X) % (c=Card(X U Y)/Card(X)%): là tỷ lệ phầntrăm các giao tác trong D có chứa X thì chứa Y Về mặt xác suất, độ tin cậy c
của một luật là xác suất (có diéu kiện) xảy ra Y với điều kiện đã xãy ra X
Luật kết hợp tin cậy: Một luật được xem là tin cậy nếu độ tin cậy c của nó lớn
hơn hoặc bằng một ngưỡng minconf © (0, 1] nào đó do người dùng xác định.
Ngưỡng minconf phan ánh mức độ xuất hiện của Y khi cho trước X (c > minconf
(Minimum Confidence))
Luật kết hợp cần tìm là luật kết hợp thoả MinSupp và MinConf cho trước
Chúng ta chi quan tâm đến các luật có độ hỗ trợ lớn hơn Độ hỗ tro tối thiểu và
độ tin cậy lớn hơn Độ tin cậy tối thiểu
Hầu hết các thuật toán khai phá luật kết hợp thường chia thành hai pha :
Pha | : Tìm tất cả các tập mục phổ biến từ cơ sở dữ liệu tức là tìm tất cả các tập
mục X thoả mãn s(X) > minsupp.
Pha 2 : Sinh các luật tin cậy từ các tập phổ biến đã tìm thấy ở pha 1
Nếu X là một tập luật phổ biến thì luật kết hợp được sinh từ X có dạng :
X’c X\X’ , trong do:
X' là tập con khác rỗng của X.
X\X' là hiệu của hai tập hợp X và X’.
c là độ tin cậy của luật thoả mãn c > minconf.
Trang 31PB 100% (6/6)
A C.D, AB, AF, BC BD, ABE
AD, CE, DE, ABD, ADE, BCE 50% (3/6)
Bảng 2.3 Ví dụ các tập phổ biến có độ hỗ trợ tối thiểu 50%
Trong bảng trên với tập phổ biến ABE có độ hỗ trợ 67% và zminconƒ=70%
Thì chúng ta có thể sinh các luật kết hợp sau đây :
Bảng 2.4 Bảng sinh ra luật kết hợp từ tập phổ biến ABE
Tập phổ biến tối đại :
Cho MCFX(T, I, R, minsupp), M được gọi là tập phổ biến tối đại nếu
không tổn tai XCFX(T, I,R, minsupp),M # X,MC X
2.5 Thuật toán Apriori nhị phân để tìm các tập phổ biến
Thuật toán Apiori nhị phân được xây dựng dựa trên công trình nghiên cứu
của thây GS TSKH Hoàng Kiếm và thây TS.Đỗ Phúc Thuật toán sử dụng các
véc tơ bít cho các thuộc tính , Véc tơ nhị phân n chiều ứng với n giao tác trong
CSDL
2.5.1 Trình bày về thuật toán Apriori
Input: Cơ sở dữ liệu, D, các giao tác, min_sup.
Output: L, tập phổ biến, tập các itemsets trong D
Trang 32Thuật toán Apriori
Sử dụng cơ sở dữ liệu bảng 1 để minh hoạ cho thuật toán trên có thể biểu diễn
cơ sở dữ liệu của bang 1 bằng một ma trận nhị phân trong đó dòng thứ i tương
ứng với giao tác (bản ghi) ti và cột thứ j tương ứng với mục (thuộc tinh) ij.
Trang 33Các véc tơ biểu diễn nhị phân cho các tập 2 thuộc tính có oe Sau :
{A.B} | {A.C} | {A.D} |(A,E}
Các véc tơ biểu diễn nhị phân cho các tập 4 thuộc tính có dạng sau :
Các véc tơ biểu diễn cho thấy tất cả các tập 4 thuộc tính đều có độ hỗ trợ < 50%
nên thuật toán dừng Kết quả tìm được tập phổ biến giống bảng 2.
Trang 34-32-2.5.2 Ví dụ về thuật toán Apriori
Hình 2.4 Mô tả ví dụ về thuật toán Apiori
Tất cả các luật trên đều có độ hỗ trợ support = 50%
Để có một luật liên kết ASB, chúng ta cần có support(AB) và
support(A) Ở bước này không đòi hỏi nhiều thời gian như việc sinh ra các
itemset phổ biến Nó cũng có thể xảy ra nhanh bằng cách sử dụng côngnghệ xử lý song song, do đó các luật sinh ra từ các itemset phổ biếnkhông ảnh hưởng tới các luật sinh ra từ các itemset phổ biến khác
Những thách thức của khai phá tập phổ biến
e Những thách thức
o_ Quét các giao tác cơ sở dữ liệu quá nhiều lần
o_ Số các ứng cử viên sinh ra là quá lớn
o Việc đếm độ hỗ trợ của các ứng cử viên thường xuyên sẽ trở nên
chán ngắt, không hấp dẫn.
© Cải tiến thuật toán: Ý tưởng tổng quát
o_ Làm giảm bớt số lần quét các giao tác cơ sở dữ liệu
o_ Giảm thiểu số các ứng cử viên sinh ra
o_ Làm đơn giản hóa việc đếm các ứng cử viên
Trang 35Phần lớn các cải tiến được áp dụng trong bài toán Association Rule
được áp dụng vào bước tìm các tập phổ biến thỏa mãn Min_supp Chi phícủa bước tìm tập phổ biến tăng lên khi số các item trong cơ sở dữ liệu cần
xét tăng lên Tương tự khi kích thước của cơ sở dữ liệu lớn (số các giao
tác lớn) thì chi phí phải trả cho việc đọc cơ sở dữ liệu nhiều lần để tính độsupport trở nên đáng kể
Vậy làm thế nào để cải tiến hiệu quả của thuật toán?
Có nhiều thay đổi của giải thuật Apriori được đưa ra nhằm cải tiến
hiệu quả của thuật toán ban đầu Các phương pháp khác nhau đó được liệt
kê dưới đây:
= Làm giảm chi phí kiểm tra trùng lắp khi phát sinh các ứng cử
viên.
= Làm giảm số các ứng viên cần kiểm tra độ support
= Phân chia cơ sở dữ liệu (phương pháp Partitioning).
= Làm giảm số các giao tác (loại bổ sớm các ứng viên không thỏa
2.6 Ví dụ minh họa khai thác - Ứng dụng luật
2 minh họa ví dụ về khai thác ứng dụng luật kết hợp cho hệ thống thungân tại Siêu thị và hệ thống cuộc gọi viễn thông
Thực tế, hệ thống thu ngân tại Siêu Thị Đà Nẵng đã sử dụng công nghệ
mã vạch để thanh toán cho khách hàng Dữ liệu giao dịch mỗi khách hàng đượclưu trữ trong phần mềm cơ sở dữ liệu của máy tính đặt tại các quầy thu ngân
Hiện nay dữ liệu này đã trở nên rất nhiều qua các phiên giao dịch, việc sử dụngDataMining để khai phá các dữ liệu hiện có là một việc rất cần thiết cho hoạt
động kinh doanh trong Siêu Thị.
Như vậy, nhiệm vụ của khai thác dé liệu là phải tìm được mối liên hệ
giữa các mặt hàng trong giao dịch đó Mối quan hệ này có dạng X => Y, đây chính là các tri thức chiết xuất được trong khi khai thác với độ hỗ trợ cho trước (minsupt), độ tin cậy cho trước (minconf) Các tri thức chiết xuất được sé giúp
cho hoạt động kinh doanh trong Siêu Thị được tốt hơn từ đó có thể hoạch định kế
Trang 36- 34
-Hước hoa, Son Phan, Dau nội, Gidy dép
Thịt, Bia, Cac chén, Banh keo Biải khat, Banh kẹn, Thuốc lắ
Son phan, Hước hoa, Dau nội, Sa tắm Bản la, Điền, Bản Ghé
Cafe, Thude lã, Bank kẹn Rượu tiếng hỗ, Kính, Gidy dép, Túi xãch
Bong hỗ, Kinh
Tiãnn hổi Gian rên
Bảng 2.5 Cơ sở dữ liệu giao dịch
Sau khi đã xác định được các tập mục lớn và độ hỗ trợ, ta tiến hành sinh
các luật kết hợp bằng cách sử dụng thủ tục sinh các tập con của tập mục lớn.
Các luật kết hợp thu được trong trường hợp này bao gồm các luật dạng Y > Xnhư đã để cập ở trên Bảng 2.6 mô tả nội dung toàn bộ tập luật khai thác được
trong cơ sở dif liệu giao dịch với minsup =10% và mincof =30% Các luật ở đây
chỉ nói lên mối quan hệ giữa các mục trong các phiên giao dịch, chứ chưa để cậpđến tính ứng dụng của nó Bảng 2.6 sau đây trình bày nội dung tập luật thu được
trước khi tỉa.
Nội dung tập luật trước khi tỉa
Taptiende
Bảng 2.6 Nội dung tập luật thu được trước khi tỉa
Như vậy, kết quả khai thác cho thấy các luật thu được có dạng Y > X va
cách thức vận dụng các luật nào là chưa rõ Các tri thức chiết xuất dạng này
thường không cân thiết và gây nên lãng phí không gian nhớ Ứng dụng giải pháp
hiệu quả tính ứng dụng tia bỗ các luật dang Y > X, kết quả thu được chỉ còn các
Trang 37tri thức đáng tin cậy cho lãnh đạo.
> Mỗi dung tập luật sau khi tia
Bư.Bảnh mi Sữa
Bo Bánh mì,Sữa.
Bảng 2.7 Nội dung tập luật thu được sau khi tia
Thực vậy, số lượng các luật thu được trong giải pháp này gồm các luật có
giá trị cao Đây cũng chính là những tri thức chiết xuất được trong quá trình khai
thác Vấn dé đặt ra là phải ứng dụng hiệu quả các luật này vào trong sản xuấtkinh doanh cũng như cuộc sống dựa vào đặc điểm và tính chất ứng dụng luật ứngvới mỗi luật trong tập luật Để giải quyết vấn dé này ta sử dụng giải pháp tối ưu
hoá tính ứng dụng luật.
Việc sử dụng hàm đánh giá để xem xét về tiền để, kết quả của luật đạt
được trong tập luật, đây là một giai đoạn mang tính tư duy nhưng nó rất quan
trọng khi ta ứng dụng trong thực tế Từ khi xác định đến khi ghi nhận tính ứngdụng cho mỗi luật đây là quá trình tốn kém nhiều thời gian, song kết quả đạtđược sẽ hữu ích cho lãnh đạo trong khi hoạch định kế hoạch sản xuất, kinh
doanh trong thời gian sắp tới.
Tính ứng dụng các tri thức chiết xuất được sẽ giúp cho lãnh đạo Siêu Thi
trong việc bố frí, sắp xếp, kinh doanh những mặt hàng nào tại các quây nào, tổchức sắp sếp các quầy gần nhau như thế nào để có doanh thu trong các phiêngiao dịch là lớn nhất Ngoài ra, có thể áp dụng tri thức này để dự đoán số lượng
các mặt hàng được bán chạy nhất trong thời gian sắp tới Tổng hợp các tri thức
này lãnh đạo có thể lên kế hoạch hoạt động, sản xuất, kinh doanh một cáchthuận tiên hơn nhằm giảm bớt thời gian thống kê, tìm hiểu thị trường,v.v
Như vậy, tính ứng dụng của khai thác luật kết hợp trong cơ sở dif liệu giao
dịch đã giải quyết được hai vấn để tồn đọng đã nêu ở phần trên Kết quả củakhai thác sẽ được lưu trữ trong các cơ sở đữ liệu tri thức để phục vụ cho mục đích
xây dựng các hệ chuyên gia về sau này
Trang 38- 36
-Luật kết hợp có thuộc tính số và thuộc tính hạng mục
Khai thác luật kết hợp với thuộc tính số và thuộc tính hạng mục
(quantitative and categorical association rule) là một trong những hướng tiếp cận
quan trọng trong lĩnh vực khai thác luật kết hợp
Ví dụ minh hoạ một cơ sở dữ liệu bao gồm các thuộc tính nhị phân (binary),
thuộc tính số (quantitative), và thuộc tính hạng mục (categorical).
Gid gọi | Phương thức gọi Đối tượng Thời gian Gọi liên tỉnh
IDD(1), PO(O) (1, 2, 3, 4) dam thoai (1: có, 0:
Bảng 2.8 : cơ sở dữ liệu chỉ tiết của 8 cuộc điện thoại
Trong Cơ sở dữ liệu trên thời gian đàm thoại là thuộc tính số, đối tượng
khách hàng là thuộc tính hạng mục , phương thức gọi, gọi liên tỉnh là thuộc tính
nhị phân Với cơ sở dữ liệu ở ví dụ trên ta có thể rút ra luật kết hợp sau :
<Gidgoi : 23:00:39 23:00:59> AND <phương thức gọi :Tự động> AND <Thời
gian đàm thoại: 200 300>— <gọi liên tỉnh : có>, với độ hỗ trợ là 62,5% (5/8),
và độ tin cậy là 80% (4/5) Để tìm kiếm luật kết hợp ở dạng nêu trên ta có thể
phân khoảng miễn giá trị của các thuộc tính số và thuộc tính hạng mục để
chuyển tất cả về thuộc tính nhị phân mục đích áp dụng các thuật toán khai thác
luật kết hợp nhị phân
Trang 39THEO LUAT BAYES
3.1 Tổng quan Phân lớp
Phân lớp là một vấn để nghiên cứu bao quát, một trong những kỹ thuật có khả
năng được sử dụng khai phá dữ liệu một cách rộng rãi và nhiều mở rộng Chính
vì thế kỹ thuật này sẽ được nghiên cứu áp dụng cho phân lớp dif liệu về lĩnh vực
đa phương tiện Ở đây chúng ta sẽ đi nghiên cứu qua khái niệm phương pháp
phân lớp và các nghiên cứu về luật Bayes
Phân lớp dit liệu và hồi qui: Mục tiêu của phương pháp phân lớp dif liệu là dựđoán nhãn lớp cho các mẫu dữ liệu Quá trình phân lớp dif liệu thường gồm 2
bước: xây dựng mô hình và sử dụng mô hình để phân lớp dữ liệu
o6 Bước 1: một mô hình sẽ được xây dựng dựa trên việc phân tích
các mẫu dữ liệu sẵn có Mỗi mẫu tương ứng với một lớp, đượcquyết định bởi một thuộc tính gọi là thuộc tính lớp Các mẫu dữ
liệu này còn được gọi là zập đữ liệu huấn luyện (training data set).
Các nhãn lớp của tập dữ liệu huấn luyện đều phải được xác địnhtrước khi xây dựng mô hình, vì vậy phương pháp này còn được hiểunôm na là học có thây (supervised learning — học có giám sát) khác
với phân cụm dữ liệu là học không có thây (unsupervised learning —
học không có giám sát).
o Bước 2: sử dung mô hình để phân lớp dữ liệu Trước hết chúng ta
phải tính độ chính xác của mô hình Nếu độ chính xác là chấp nhận
được, mô hình sẽ được sử dụng để dự đoán nhãn lớp cho các mẫu
dữ liệu khác trong tương lai Phương pháp hồi qui khác với phân
lớp dữ liệu ở chỗ, hồi qui dùng để dự đoán về các giá trị liên tụccòn phân lớp dữ liệu thì chỉ dùng để dự đoán về các giá trị rời rạc
Phân Lớp Dựa Trên Thống Kê
Trong phương pháp này, một số khái niệm và định nghĩa được đưa ra như sau và
các bước được tiến hành tuần tự
> Định nghĩa các lớp của các đối tượng
> Xác định xác xuất mô hình phân bố
> Kết nối các lớp với các đặc điểm quan trọng
Trang 40-38-> Kết nối thông số của mô hình với dif liệu
> Quan sát những đặc điểm trên đầu vào và tính toán xác xuất của lớp
thành viên
> Gan đối tượng vào lớp
Mỗi bộ phân lớp sẽ có 2 thành phân, chúng ta tạm gọi đó là bộ sinh và bộ
phán đoán (dự đoán).
e Bộ sinh: Naive Bayes, LDA,
o_ Mô hình kết hợp phân bố của lớp và các thuộc tính
o Dẫn ra xác suất lớp bằng luật Bayes
e Bộ phán đoán: Sự dịch chuyển hồi qui,
o Mô hình phân bố có diéu kiện của một lớp được biết trước
những giá trị thuộc tính
o_ Mô hình ước tính xác suất lớp trực tiếp
Trong phương pháp phân lớp này chúng ta cũng dựa vào xác suất và cách phân
lớp được thực hiện theo trình tự như sau:
- Định nghĩa các lớp
- Xác định mô hình xác suất phân bố trước trên các thông số
- Tìm phân bố sau của mô hình thông số, dữ liệu cho sẵn
- Tính toán các xác suất lớp dùng phân bố sau (hoặc phần tử của nó)
- Phân lớp các đối tượng ví dụ: “Naive”/”Idiot”/?Simple” Bayes
- Mô hình điển hình của bộ sinh
Giả sử các đặc điểm quan sát được là độc lập trong mỗi lớp của
thông tin
Luật Bayes dùng để tính xác suất lớp
- Có thể dùng hoặc không dùng “trước” trên các thông số mô hình
Bài toán phân lớp có thể hình thức hóa bằng xác suất a-posteriori
P(C/X) = xác suất mẫu (X=<X1, , Xk> thuộc về lớp C)Tính xác suất a-posteriori