Bước 1: Xây dựng mô hình kỹ thuật khai phá dữ liệu cước Internet; phân tích, thiết kế dữ liệu
Bước 2: Xây dựng cơ sở dữ liệu đầu vào, bao gồm dữ liệu cước Internet, dữ liệu thuê bao.
Bước 3: Xây dựng tập mờ và hàm thuộc. Phân tích cơ sở dữ liệu đầu vào để đưa ra các tập mờ thích hợp phục vụ khai phá dữ liệu. Sử dụng các loại hàm thuộc của logic mờ. Xây dựng bộ tham số đầu vào của từng hàm thuộc. Quá trình xác định tham sổ phù hợp với yêu cầu nghiệp vụ, như xác định mức độ quan trọng của từng mục dữ liệu
Bước 4: Thực hiện quá trình mờ hóa dữ liệu. Quá trình này tập trung vào việc mờ hóa dữ liệu lớn để đưa ra một cơ sở dữ liệu mờ phục vụ cho việc tìm luật kết hợp.
Bước 5: Thực hiện khai phá dữ liệu. Áp dụng các thuật toán để tìm ra các tập phổ biến và tập luật. Mỗi thuật toán sẽ cho tập kết quả không giống nhau. Chọn các tham số như toán tử, độ hỗ trợ, độ tin cậy và phương pháp khai phá để tìm các luật kết họp .
Có thể xây dựng được các luật mới lạ dựa vào tập tri thức đã biết (tập luật có trước).
Hình 3. Mô bình tổng quan hệ thống khai phá dữ liệu:
4.2.2 Các chửc năng chính trong hệ thống khai phá dữ liệu cước Internet
Hệ thống hàm chuẩn: gồm Loại hàm thuộc
Hàm thuộc và tham số
fT l ^ \
Tập mờ
Mờ hoá dữ liệu và sinh luật mờ: gồm Mờ hoá dữ liệu
Sinh tập phổ biến, áp dụng một trong các toán tử T-norm sau: Tích đại số
Tích bị chặn Tích Drastic Phép giao Sinh tập luật: Luật kết hợp mờ Luật phủ định
Luật kết hợp với thuộc tính được đánh trọng số Tìm luật có ích: gồm
Loại bỏ luật thừa
Sinh luật mới lạ từ các tập tri thức đã biết Luật đơn giản
4.2.3 Mô hình cơ sở d ữ liệu chương trình khai phá d ữ liệu cước In tern et CSDL Khách hàng A ccount N gày cập nhật Em ail Đ ịa chỉ L oại dịch vụ Thuộc tính mờ hóa ST T G iờ kết nối Thời gian kết nối Số gói tin tải về Số gói tin truyền đi
C SD L cước A cco u n t S tarttim e Stoptim e B ytes in B ytesout Packets in Packetsout A cctsesiontim e D atevaiue Typeprice chot CSDLmở STT Ặv ThúỌc tỉnh mờ Giá tri Loại hàm thuộc M ã loại hàm thuộc T ên loại hàm thuộc
■■ ' --- ■ 1 W Tập mờ STT Tập m ờ Hàm thuộc M ã hàm thuộc T ên hàm thuộc Tham số hàm thu Tri thức đã biết STT Tập tri thức T ậ p l u ậ t ặ Ị ạ p p n o D ien STT T ập luật rạ p priồ bicn Đ ộ hỗ trợ Đ ộ hồ trợ Đ ộ tin cậy Độ tin cậy Tập luật CÓ ích STT Tập luật có ích
4.2.4 Giao diện hệ thống khai phá dữ liệu cước Internet 4.2.4.1 Hệ thống hàm chuẩn
Hình 5. Loại hàm thuộc
Danh sách hàm thuộc •
Mã hàm thuộc Tên hàm thuộc Mồ tả hàm th u ộ c ' : :
Hình 7. Tập mờ và thuộc tính gốc của nó
4.2.4.2 Mờ hoá dữ liệu và sinh luật kết hợp mờ
^ . '%:#•.ffi-■ ■ ■ỂẾ1 ; 1
Tập mờ ■
■Tính chât (Ve cùa luật) • v ế trái •• Ve phải Thưọc tình mo' Thuốc tinhgốc Mã hamthuọc
vế trái & ve phải : rĩl— — fiTffHTTTiTnflMi g?c?»MWMWMM Số bản ghi thuc hiên mờ hoả ( |£ ỉ ^ 2 S B ịỊ Ị Ị |i E E S H S EjeSh Q SĩB B B iB É M I
S o b a i l SỈ11 t r o n g C S D L g ố c
Kerri d ũlièu a c e Ĩ lv.It h en me? hủố I Xem tnờ
III I l l ' l l ' ! i M i i n s a g p a a
Hình 9. Cơ sở dữ liệu sau khi thực hiện mờ hoá
Sinh tập phổ biến từ C O ’sở d ữ liệu m ờ
Hình 11. Sinh tập phổ biến sử dụng toán tử T-norm - Phép lấy min
ỀmmmẩMằw S m S m L -w-iiiLi- m 'ỊắầỂấắ-ị
ĩạv; IMDC«W! • ■.*• ... ■ ' ■ ... ■ •••...••• • •*
Hình 13. Sinh tập phổ biến sử dụng toán từ T-norm - Tích Drastic
Sinh luật từ tập phổ biến
Tâp luât Ợ Xập các luật mờ * Luật phủ địứh ® L iiậ tk ế th ọ p vói các ứiuoc tínli dứ-ỵcđánh trọng số
Đ ộ hỗ trợ (fminsupp % ) H W i i Đ ộ tui cầy (&runconf%) i M P .
: Danh sách tất cả các luật ••• . Tập laạt - V ĩ>ộ till c ậ y ;. Đ ộ h o trợ - v n y C1 n 1 -1 n m f r 11 ,r «♦ — r 1 ___ỊỊ UJ. IJ 1 1 U.UX Ị F 4, F7 = >7l ““ ; 63.13 11.09 F10,F7 => F1 i 63.13 11.09 F11ịF7=>F1 63.13 10.02 F4=> F1 “ 63.13 30.66 F7 => F1 63.13 11.09 F10 => F1 63.13 11.19 F11 => F1 63.13 10.02 F1 =>F4 48.57 30.66 F10.F4 => F1 63.13 11.19 D anh sách tắt cầ các tạ p pho t i e r r T ập tiiuộc: tỉnh .,Độ h o trợ F1.F11.F4 15.87 F1.F4.F7 If 10.F4.F7 IF 11 .F4.F7 17.57 17.57 15.87 F1(Fiq,F7 17.57 IF1.F11.F7 15.87 I.F4.F8 ’Các tập mi' ; ■ Thuộc tẾrili m ở :, X M ô tả tó?
■ L J [Tap mo cua thoi dlem ketỊỄ] ___ £ 3 - . J Tap mo cua Khoang thoi d
1
. ... F4 ,_J Tap mo cua khoang thoi d
“ £ « 1 JTap mo cua khoang thoi siTap mo cua gol tin tai ve H1
F7. 1 Tap mo cua goi tin tai ve tjj
1
F8 JTap mo cua goi tin tai ve H
Hình 16. Diễn giải luật
7 ủ - j
'59 WINDOW!
'Diễn .gịẫilũât!
Thoi gian ket noi trung binh, So luong Goi tin tai ve trung binh => Gio cao diem So luong goi tin truyen di trung binh, So hiong Goi tin tai ve trung binh => Giũ cac Sũ luong gũi tin truyen di lon, So luong Goi tin tai ve trung binh => Gio cao diem Thoi gian ket noi trung binh => Gio cao diem
So luong Goi tin tai ve trung binh => Gio cao diem So hiong goi tin truy en di trunq binh => Gio cao diem
Hình 17. Sinh tập luật bằng luật phủ định
V d ' 1 h >• lfp' tcM È tía lổ 1 J I I P . <' L Ỹ < ^ Ị . í L .
Tập luật: ' •'•Tập. các-luật mờ Luật phủ định : !;.•- :• • ‘f® Luật kết hợp ỵcậ.các- thuộc tính được .đánh trộng số
Đo ho ti V .(íniưisupp' % ) p B H H B . . Đo tui cây(fíìiiiieonf % ) p Ị B H H B R Ị H -
. Danh sách tất cả các luật
Tập luật : Đọ tin cây! Đỗ. hỗ. tr<y F4,F8=>F1 i ■ E S D E B I F10.F8 => F1 63.13 9.76 n F10,F8=>F4 48.57 7.51 m>} F ÌÌ|F 8= > n 63.13 9.76 . I F11 ,F8 => F4 48.57 7.51 - j F1fF10=>F4 48.57 8.61 ỊẬ F1.F11 =>F4 48.57 7.71 F1 => F10.F4.F7 17.57 ™ ĨT .09 11 F1 => F11.F4.F7 15.87 10.02 g l F4=> F1.F10.F7 17.57 ■“1 F 1 F4=> F1.F11.F7 15.87 7.71 F1 => F10.F4.F8 15.46 9.76 F1 => F11.F4.F0 15.46 9.76 ~ n F4 => F1.F10.F8 1 5.46 7'õĩ ỊBỊ F4=> F1.F11.F8 15.46 7.51 ip F10,F7=> F1.F4 48.57 8.53 p F11.F7 => F1.F4 48.57 7.71 F10.F8 => F1.F4 48.57 _ 7 -51 - i
Danh sách tấ t cả các.tập pho biển Tập thuộc tính ; : Độ. hỗ trợ
C ác tập mờ Thuôc tirihitK'
ỉ F2 Tap mo cua thoi dlem ket]j F3 Tap mo cua khoang thoi cj F4 Tap mo cua khoana thoi dji F5 Tap mo cua khoang thoi SỀ I F6 Tap mo cua goi tin tai V8 rfl I F7 Tap mo cua gol tin tal ve till F8 Tap mo cua goi tin ỉal ve 1$
f *
4.2.4.3 Tìm luật có ích
'• ' . T a p l u ậ t . • . T ìm h ệ t men lạ ... 4*. ' Đ o n g ià n : M lM M R ( B o tu ố t t h ử a ) ': 8 L u â t k ế t h o p th u ô c tín h 30 ■ :
Đ o HỖ trợ ( % ) ĩMÊÊÊÊÊm D ó txn c â y
- ' • V - :T ' •' '■ . - \ | n = : F 4 p p■ H H ( I B I t i m - H m E [4 1 Luật m ói lạ w m fc
Hình 19. Tìm luật mới lạ dựa trên tri thức đã biết
■20 4 0 .5 6 9 5 9 1 5 6 0 3 3 7 .5 0 7 9 9 5 4 1 1 2 0 s g Ịf1D,F7 => F1.F4 4 8 .5 6 9 5 91 5 6 0 3 3 ' 0 ịf>.; |F11.F7 => F1.F4 4 8 .5 6 9 5 9 1 5 6 0 33 0 ịịt F10.F8 => F1 ,F4 4 8 .5 6 9 5 9 1 5 6 0 33 ô l i F11.F0 => F1.F4 4 8 .5 6 9 5 9 1 5 6 0 33 0 F4 => F Ỉ 63.12844821441 6 3 .1 2 8 4 4 8 2 1 4 4 1 |§ “ ỊF7 -> F1 63.12844621441 6 3 .1 2 0 4 4 0 2 1 4 4 1 |g ỈF8=> F1 6 3 .1 2844821441 6 3 .1 2 0 4 4 8 2 1 4 4 1 |jg |f i o= >f i 63.12844821441 6 3 1 2 8 4 4 8 2 1 4 4 1 ® F11 =* F1 6 3 .1 2844621441 6 3 .1 28 4 4 8 2 1 4 4 i l l F1 => F4 4 8 .5 6 9 5 9 1 5 6 0 3 ? 48 5 6 9 5 9 1 5 6 0 3 ^ Ỉ F 7 - > F4 4 8 .5 6 9 5 9 1 5 6 0 3 3 4 0 .5 6 9 5 9 1 5 6 0 3 3 ^ |F0"=>F4 4 0 .5 6 9 5 9 1 5 6 0 33 48 5 6 9 5 9 1 5 6 0 3 3 $ $ ỊfĨ ổ => F4 4 8 .5 6 9 5 9 1 5 6 0 33 4 8 .5 6 9 5 9 1 5 6 0 3 3 9 s [F11 => F4 4 8 .5 6 9 5 9 1 5 6 0 33 4 8 .5 6 9 5 9 1 5 6 0 3 3 ^
|F11,F0=> F1.F4 So luong goi tin ừuyen di lon, S o luong Gol tin ta Ị |F1 0 ,F 7 = > F1.F4 So luong gol tin truyen dl tru n g binh, S o luong 0 1 |f i i,F 7= > F1.F4 So luong goi tín truyen di lon, So luong Ool tin ỉa 1 |F 1 0 .F 8 = > F 1 .F 4 So luong gol tỉn truyen di trung binh, 6 o luong G 1 |F 1 1 .F 8 = > F 1 .F 4 So luong goi tin truyen đl lon, So luong ỡ o l tin taịỊ |F4 => F1 Thoi gian k e t nol trung binh => Glo ca o đlem
F 7 = > F 1 S o luong Goi tin tai ve trung b inh => Gio c a o die ị F 8 = > F1 S o luong ỡ o i tin tal ve lon => Glo cao d iem 1 |F 1 0 = > F1 So luong goi tin truyen đi tru n g binh => Oio c a o 3
F11 = » F 1 So luong goi tin truyen di lon => ỗ lo cao d iem 1 F1 «> F4 Olo c a o d iem => Thoi gian ket nol trung binh 1 [F7 => F4 So luong Goi tin tai ve trung b inh => Ttìol Qlan k j [F8 => F4 So luong Goi tin tai ve lon => Thoi g ian ket noi trj |F 1 0 = > F 4 So luong gol tin truyen dl trung b in h-> Thoi gia 1 [Fiji => F4 So luong gol tin truyen ỚI lon => Thoi gian ket n d
13 MMR(BÒ luật thừa) £ Luất kết liọp ứíUỘc tính số
* lìm luật ĩnciỉạ
Đ ộ ho trc»(%) Đo hn cậy (%)
Thoái Ketn luật Xoa luật
48 .5 6 9 5 9 1 5 6 0 3 3 B .53335422461
Glo cao dlem , Thoi g ian ket nol trung binh => Si 4 8 .5 6 9 5 9 1 5 6 0 3 3 7.507995411201
Qlo c a o dlem , Thoi g ian ket nol tru n g binh 0.6 0 80 1 7 5 5 1 4 0 ;
48 .5 6 9 5 9 1 5 6 0 3 3
Qlo c a o dlem , Thoi g ian ket nol trung binh => S( 4 8 .5 6 9 5 9 1 5 6 0 33 7.706248251121
ỊQIo c a o dlem , Thũl g ian ket nol tru n g binh => s<
1 7 .5 6 9 3 3 4 9 4 9 0 3 11.09124851491*
Glo c a o diem , So luong Goi tin tai ve trung binh 1 7 .5 6 9 3 3 4 9 4 9 0 3 8.53335422461
Giũ cao diem . So luong Ool tin tal ve lon => Tho 15.4582222539D 9.75 8 5 3 5 8 3 0 4 2 :
ISO luong gol tin truyen dl trung bỉnh => Qio c a o So luong gol tin truy e n dỉ trung binh => Thoi giai 1 5 .4 5 8 2 2 2 2 5 3 9 0 7 .5 0 7 9 9 5 4 1 1 2DÍ
1 7 .7 2 3 0 5 9 3 7 7 0 0 11.1 8 8 2 9 2 3 6 0 8 :
So luong QQl tin truy e n di trung binh, Thoi plan 17.72305937700] 8.6 0 8 0 17 5 5 1 4 0 ;
So luong gol tin truyen dl trung binh, So luong 0 1 5 .8 6 6 4 0 5 3 0 3 3 0 10.01621545531
So luong gol tin ừưyen di trung binh, So luong 0 1 5 .8 6 6 4 0 5 3 0 3 3 0 7.706248251121
So luong goi tin truyen dí trung bính, S o luong 0 4 8 .5 6 9 5 9 1 5 6 0 3 3 8.53335422461
[So luong gol tin truyen dl trung binh, 3 o luong 0 4 8 .5 6 9 5 9 1 5 6 0 3 3 7.50799541120!
1 0,F8 => F1 ,F4 I s o luong gol Mn truyen dl trung binh, 8 o luong Q p ỹl 4 8 .5 6 95 9 1 5 6 0 3 3 3 0 .6 0 8 0 1 7 5 5 1 4 0 fi
K Ế T LU Ậ N
Những vấn đề đã được tìm hiểu và giải quyết trong luận văn
Với cách tiếp cận dựa trên những đề xuất đã có trong lĩnh vực nghiên cứu về khai thác dữ liệu, luận văn này tổng hợp được những nét chính trong khai phá dữ liệu nói chung và khai phá luật kết họp mờ nói riêng. Sau đây là những vấn đề chính luận văn đã tập trung giải quyết.
Trong chương 1, luận văn đã trình bày một cách tổng quát nhất về khai phá dữ liệu - cụ thể là những định nghĩa, mục đích nghiên cứu khai phá dữ liệu.
Chương 2 phát biểu bài toán khai phá luật kết hợp. Bên cạnh việc phát biểu bài toán, chương này còn đề cập đến các tính chất và một số thuật toán khai phá luật kết hợp như thuật toán Apriori nhị phân để tìm các tập phổ biến. Mục tiêu cơ bản của chương này là trình bày tất cả các khái niệm cơ bán trong bài toán khai phá luật kết hợp và những mở rộng của bài toán này.
Chương 3 tập trung về luật kết hợp mờ, các định lý và tính chất của logic mờ. Điểm quan trọng của chương 3 là nêu ý nghĩa cùa luật kết hợp mờ và phép kéo theo trong logic mờ. Luận văn nêu lên được cách sử dụng các phép tính cho toán tò T- norm và các ưu điểm của áp dụng tập mờ để rời rạc hoá dữ liệu. Phần này cũng IĨ1Ô tả chi tiết về thuật toán tìm luật kết họp mờ dựa trên thuật toán Apriori.
Trong chương 3 còn đề xuất một số phương pháp tìm các luật kết hợp thực sự có ích như luật kết hợp mờ với thuộc tính trọng số, phương pháp dùng quy luật loại bỏ luật thừa, phương pháp tìm luật đon giản, phương pháp tìm luật dựa trên tri thức đã biết và làm nổi bật ưu điểm của luật kết hợp mờ là khi cần nó cũng có thể được chuyển về dạng luật kết hợp thông thường một cách dễ dàng.
Khai phá luật kết hợp là bài toán được nhiều nhà nghiên cứu quan tâm bởi nó được ứng dụng rộng rãi trong nhiều lĩnh vực cũng như có nhiều hướng mở rộng khác nhau. Trong luận văn này, tôi chọn một hướng nhỏ để nghiên cứu. Trong thời gian tới, tôi sẽ mở rộng nghiên cứu của mình ra một số hướng sau:
Khai phá các mẫu phổ biến mà không cần phát sinh ứng cử viên. Trong nghiên cứu này đề cập đến một cấu trúc cây gọi là cấu trúc cây Frequent Pattern (FP-tree), nó là một cấu trúc cây tiền tố mở rộng để lưu trữ cô đọng các thông tin chủ yếu về các mẫu phổ biến và phát triển khai phá dựa trên FP-tree hiệu quả là FP-Growth để khai phá tập đầy đủ các mẫu phổ biến bằng cách tăng chiều dài mẫu. Hiệu quả của việc khai phá được thực hiện với kỹ thuật sau:
Thu gọn cơ sở dữ liệu lớn nhằm giảm chi phí khi lặp lại quá trình duyệt cơ sở dữ liệu.
Khai phá dựa trên cây FP làm theo phương pháp gia tăng độ phân mảnh các mẫu để tránh chi phí phát sinh một số lượng lớn của các tập ứng cử.
Phương pháp phân chia để tách công việc khai phá thành một tập các công việc nhỏ hơn để khai phá các mẫu có ràng buộc trong các cơ sở dữ liệu có điều kiện.
TÀI LIỆU THAM KHẢO
Tài liệu Tiếng Việt
1. Nguyễn Thanh Thủy (8-2001), Khai phá dữ liệu — K ĩ thuật và ứng dụng, Hà Nội.
2. Bùi Công Cường, Nguyễn Doãn Phước (2001), Hệ mờ, mạng nơron và ứng
dụng, Nhà xuất bản Khoa học và kỹ thuật.
3. Hồ Anh Tài (2006), Khai thác luật kết hợp mờ và một số ứng dụng , Luận văn thạc sỹ - Đại học Quốc Gia TP Hồ Chí Minh.
Tài liệu Tiếng Anh
4. Alan Rea (1995), Data Mining - An Introduction, The Parallel Computer Centre, The Queen’s University of Belfast.
5. Jiawei Han and Micheline Kamber (2002), Data Mining: Concepts and
Techniques, University of Illinois, Morgan Kaufmann Publishers.
6. Han, Y.Fu, Discovery o f Multiple - level Association Rules from Large
Databases, Proceedings of the 21 St IC on Very large Databases, Zurich,
Switzerland, 1995
7. Rakesh Agrawal and RAmakrichnan Srikant, Mining Quantitative Association
Rules In Large Databases, Proc. ACM SIGMOD, 1998
8. Rakesh Agrawal, Tomasz Imielinski, and Arun Swami (1993), “Mining association rules between sets o f items in large databases ”, InProc of the ACM SIGMOD Conference on Management of Data, Washington, D .c
9. Mohammed J.Zaki and Ching-Jui Hsiao (1999), CHAM: An Efficient
Algorithm for Closed Association Rules Mining, RPI Technical Report 99.
10. R.Agrawal, T.Imielinski, and A.Swami, Mining Association Rule Between
Sets o f Items in Lager Databases. In Proc. 1993 ACM-SIGMOD Int. Conf.
11. Zaki M., Parthasarathy s., Ogihara M.: New algorithms for fast discovery o f
association rule, KDDM 1998
12. Keith c.c. Chan, Wai-Ho Au, Mining Fuzzy Association Rules, Department of Computing, The Hongkong Polytechnic University Hung Horn, Kowloon, Hong Kong