Định nghĩa tính mới lạ của luật:
Một luật A —> B là mới lạ đối với tri thức X —»• Y trên CSDL D nếu các điều kiện
sau đây thỏa mãn:
B and Y = False, nghĩa là B và Y có ý nghĩa logic phủ định nhau
(A and X) thỏa mãn trong tập con đủ lớn của tập các giao tác D. Tức là A and X là tập phổ biến theo ngưỡng hỗ trợ tối thiểu ôninsupp.
Luật A, X -* - Y là hợp lệ
Phương pháp tìm luật mới lạ so với tri thức đã biết:
Nhập vào hệ thống tập các tri thức đã biết được diễn tả dưới dạng luật kết hợp. Tìm các luật trái với tri thức đã biết và những luật này xem như là các luật mới lạ.
Thuật toán: Sử dụng thuật toán ZoominUR hoặc cải tiến thuật toán tìm luật kết
họp mờ để tìm tất cả các luật có dạng X,A —► B sao cho B trái ngược với vế phải của tri thức đã biết X —> Y.
Ký hiệu LuậtMớiLạ(Y) để chi tập hợp vế phải của các luật mới lạ so với tri thức
Thuật toán khai thác luật kết hợp mờ dựa trên tri thức đã biết: 1. For all tri thức T € Tri thức: Ve_trái(T) —> Ve_phải(T) 2. { 3. Ci = Tạo_Fl(DF,IF,~TF, fminsupp); 4. Fj = {Cl u {Vế_trái(T),m}| m e LuậtMớiLạ(Vế_phải(T))} 5. F = 0 ; CF = 0 6. k = 2; 7. While (Fk.i * 0 ) 8. { c k = Tạo_F_k(Fk.,); 9. Fk = Tính_SP_k(Ck, Df, fminsupp); 10. CFk = Tìm_luật(F,Fk, fminconf); 11. F = F u F k; 12. CF = C F u C F k; 13. k = k+l;} 14.}
Thuật giải tạo Fk tò F|c_i và tìm luật mới lạ tương tự như thuật giải tìm luật kết
hợp mờ ở phần trên nhưng phải có thay đổi điều kiện tính độ hỗ trợ phải chứa vế
trái của tri thức T và chỉ tìm các luật có vế phải m trái với vế phải của tri thức đã biết,
Thuật giải tạo Fk từ F|c-1: 1. Insert into c k
2. Select p.item l, Q.item_l, p.item_2,..., p.item_k-l, Q.item_k-1 From Lk_i p, Lk.i Q
Where (P.item_l = Q.item_l) and ...and (P.item_k-2 = Q.item_k-2)
and (P.item_k-1 < Q.item_k-1) and (P.item_0_k-1 < Q.item_0_k-1) and p . i t e ml = Vế_trái(T)
3. If k<3
4. Insert into c k
5. Select p.item_l, Q.item_l, p.item_2,..., p.item_k-l, Q.item_k-1 From Lk_i p, Lk_i Q
Where (P. iteml = Q.item_l) and ...and (P.item_k-2 = Q.item_k-2)
and (P.item_k-1 > Q.item_k-1) and (P.item_O k-1 * Q.item O k-1) and p . i t e ml = Vetrai(T)
6. Endlf
Thuật giải tìm luật mới lạ từ tri thức đã biết
1. CFk = 0
2. For all (X e Fk I X 2 m,meLuậtMới(Vế_phải(T))) do 3. r = x \m —» m
4. If ( CF(r) > fminconf) then
5. CFk = Fk u { r }
6. Endlf
7. EndFor
3.6.4 Chuyển luật kết hợp mờ về luật kết họp thuộc tính số
Khử mờ:
Gọi X là giá trị của X sau khi khử mờ. Một số phương pháp khử mờ như:
m(x ) > m(x) với mọi x e X
+ Phương pháp trung bình trọng số (Weighted average method):
Y m ự ) * x '
x ~ £ « ( * )
Trong đó x ’ là giá trị X trung bình của tập mờ
Nhận thấy mỗi hàm thuộc của một tập mờ f đều có một ngưỡng Wf. Những giá trị nào bé hơn ngưỡng W f thì xem như bằng 0 . Nhờ ngưỡng W f chúng ta có thể khử mờ dựa trên nguyên lý thành viên lớn nhất để đưa luật kết hợp mờ về dạng gần giống với luật kết hợp với thuộc tính số.
C h ư ơ n g 4. ỨNG DỤNG LUẬT KÉ T HỢP M Ờ CHO BÀI
TOÁN KHAI PHÁ DỮ LIỆU c ư ớ c INTERNET■
4.1 Nguồn dữ liệu cước Internet
Hệ thống tính cước và chăm sóc khách hàng của Viettel là một hệ thống khép kín, thực hiện các chức năng của quy trinh nghiệp vụ cung cấp dịch vụ cho khách hàng. Hệ thống cho phép thao tác toàn bộ các khâu và công đoạn thông qua hệ thống thông tin trong suốt và thống nhất. Mọi hoạt động của hệ thống đều được quy trình hóa và thể hiện thành các thao tác trên máy tính.
Hình 2. Mô hình vận hành hệ thống (theo quy trình đấu nối và khai thác dịch vụ)
Hàng thàng tại máy chủ tính cước của công ty viễn thông Viettel cập nhật một số lượng lớn chi tiết các cuộc kết nối Internet. Các thông tin được lưu trữ trong máy chủ tính cước cho chúng ta biết cách sử dụng dịch vụ Internet của khách hàng và chất lượng của các dịch vụ của công ty viễn thông cung cấp. Cuộc kết nối Internet bắt đầu được tính khi account của khách hàng kết nối vào Internet và kết thúc khi ra khỏi mạng Internet. Sau khi kết thúc cuộc kết nối thì các sổ liệu chi tiết liên quan đến kết nối Internet được lưu lại vào CSDL của nhà cung cấp dịch vụ Internet.
Các thuộc tính chi tiết cuộc kết nối Internet dùng để tính cước cho khách hàng gồm:
Account Tên account kết nối Internet Starttime Thời điểm bắt đầu kết nối Internet Stoptime Thời điểm kết thúc kết nối Internet Bytesin số byte tải về từ Internet
Bytesout số byte truyền đi lên Internet Packetsin sổ gói tin tải về từ Internet
Packetsout số gói tin truyền đi tò Internet
Với số lượng lớn dữ liệu trên, mỗi tháng khoảng hơn gần một tỷ bản ghi lưu các cuộc kết nối Internet của khách hàng, ngoài ra với số lượng tăng thêm đáng kể số lượng thuê bao hàng tháng của khách hàng, thì việc đặt ra nhu cầu khai thác dữ liệu trên để đưa ra những quyết định cho việc cung cấp dịch vụ và hồ trợ khách hàng là cần thiết. Sừ dụng phương pháp khai phá dữ liệu luật kết hợp mờ sẽ đem lại cho nhà cung cấp dịch vụ những tri thức mới, đơn giản nhưng ý nghĩa.
4.2 Cài đặt hệ thống khai phá dữ liệu cước Internet
4.2.1 Các bước tiến hành xây dựng hệ thống khai phá dữ liệu cước Internet
Bước 1: Xây dựng mô hình kỹ thuật khai phá dữ liệu cước Internet; phân tích, thiết kế dữ liệu
Bước 2: Xây dựng cơ sở dữ liệu đầu vào, bao gồm dữ liệu cước Internet, dữ liệu thuê bao.
Bước 3: Xây dựng tập mờ và hàm thuộc. Phân tích cơ sở dữ liệu đầu vào để đưa ra các tập mờ thích hợp phục vụ khai phá dữ liệu. Sử dụng các loại hàm thuộc của logic mờ. Xây dựng bộ tham số đầu vào của từng hàm thuộc. Quá trình xác định tham sổ phù hợp với yêu cầu nghiệp vụ, như xác định mức độ quan trọng của từng mục dữ liệu
Bước 4: Thực hiện quá trình mờ hóa dữ liệu. Quá trình này tập trung vào việc mờ hóa dữ liệu lớn để đưa ra một cơ sở dữ liệu mờ phục vụ cho việc tìm luật kết hợp.
Bước 5: Thực hiện khai phá dữ liệu. Áp dụng các thuật toán để tìm ra các tập phổ biến và tập luật. Mỗi thuật toán sẽ cho tập kết quả không giống nhau. Chọn các tham số như toán tử, độ hỗ trợ, độ tin cậy và phương pháp khai phá để tìm các luật kết họp .
Có thể xây dựng được các luật mới lạ dựa vào tập tri thức đã biết (tập luật có trước).
Hình 3. Mô bình tổng quan hệ thống khai phá dữ liệu:
4.2.2 Các chửc năng chính trong hệ thống khai phá dữ liệu cước Internet
Hệ thống hàm chuẩn: gồm Loại hàm thuộc
Hàm thuộc và tham số
fT l ^ \
Tập mờ
Mờ hoá dữ liệu và sinh luật mờ: gồm Mờ hoá dữ liệu
Sinh tập phổ biến, áp dụng một trong các toán tử T-norm sau: Tích đại số
Tích bị chặn Tích Drastic Phép giao Sinh tập luật: Luật kết hợp mờ Luật phủ định
Luật kết hợp với thuộc tính được đánh trọng số Tìm luật có ích: gồm
Loại bỏ luật thừa
Sinh luật mới lạ từ các tập tri thức đã biết Luật đơn giản
4.2.3 Mô hình cơ sở d ữ liệu chương trình khai phá d ữ liệu cước In tern et CSDL Khách hàng A ccount N gày cập nhật Em ail Đ ịa chỉ L oại dịch vụ Thuộc tính mờ hóa ST T G iờ kết nối Thời gian kết nối Số gói tin tải về Số gói tin truyền đi
C SD L cước A cco u n t S tarttim e Stoptim e B ytes in B ytesout Packets in Packetsout A cctsesiontim e D atevaiue Typeprice chot CSDLmở STT Ặv ThúỌc tỉnh mờ Giá tri Loại hàm thuộc M ã loại hàm thuộc T ên loại hàm thuộc
■■ ' --- ■ 1 W Tập mờ STT Tập m ờ Hàm thuộc M ã hàm thuộc T ên hàm thuộc Tham số hàm thu Tri thức đã biết STT Tập tri thức T ậ p l u ậ t ặ Ị ạ p p n o D ien STT T ập luật rạ p priồ bicn Đ ộ hỗ trợ Đ ộ hồ trợ Đ ộ tin cậy Độ tin cậy Tập luật CÓ ích STT Tập luật có ích
4.2.4 Giao diện hệ thống khai phá dữ liệu cước Internet 4.2.4.1 Hệ thống hàm chuẩn
Hình 5. Loại hàm thuộc
Danh sách hàm thuộc •
Mã hàm thuộc Tên hàm thuộc Mồ tả hàm th u ộ c ' : :
Hình 7. Tập mờ và thuộc tính gốc của nó
4.2.4.2 Mờ hoá dữ liệu và sinh luật kết hợp mờ
^ . '%:#•.ffi-■ ■ ■ỂẾ1 ; 1
Tập mờ ■
■Tính chât (Ve cùa luật) • v ế trái •• Ve phải Thưọc tình mo' Thuốc tinhgốc Mã hamthuọc
vế trái & ve phải : rĩl— — fiTffHTTTiTnflMi g?c?»MWMWMM Số bản ghi thuc hiên mờ hoả ( |£ ỉ ^ 2 S B ịỊ Ị Ị |i E E S H S EjeSh Q SĩB B B iB É M I
S o b a i l SỈ11 t r o n g C S D L g ố c
Kerri d ũlièu a c e Ĩ lv.It h en me? hủố I Xem tnờ
III I l l ' l l ' ! i M i i n s a g p a a
Hình 9. Cơ sở dữ liệu sau khi thực hiện mờ hoá
Sinh tập phổ biến từ C O ’sở d ữ liệu m ờ
Hình 11. Sinh tập phổ biến sử dụng toán tử T-norm - Phép lấy min
ỀmmmẩMằw S m S m L -w-iiiLi- m 'ỊắầỂấắ-ị
ĩạv; IMDC«W! • ■.*• ... ■ ' ■ ... ■ •••...••• • •*
Hình 13. Sinh tập phổ biến sử dụng toán từ T-norm - Tích Drastic
Sinh luật từ tập phổ biến
Tâp luât Ợ Xập các luật mờ * Luật phủ địứh ® L iiậ tk ế th ọ p vói các ứiuoc tínli dứ-ỵcđánh trọng số
Đ ộ hỗ trợ (fminsupp % ) H W i i Đ ộ tui cầy (&runconf%) i M P .
: Danh sách tất cả các luật ••• . Tập laạt - V ĩ>ộ till c ậ y ;. Đ ộ h o trợ - v n y C1 n 1 -1 n m f r 11 ,r «♦ — r 1 ___ỊỊ UJ. IJ 1 1 U.UX Ị F 4, F7 = >7l ““ ; 63.13 11.09 F10,F7 => F1 i 63.13 11.09 F11ịF7=>F1 63.13 10.02 F4=> F1 “ 63.13 30.66 F7 => F1 63.13 11.09 F10 => F1 63.13 11.19 F11 => F1 63.13 10.02 F1 =>F4 48.57 30.66 F10.F4 => F1 63.13 11.19 D anh sách tắt cầ các tạ p pho t i e r r T ập tiiuộc: tỉnh .,Độ h o trợ F1.F11.F4 15.87 F1.F4.F7 If 10.F4.F7 IF 11 .F4.F7 17.57 17.57 15.87 F1(Fiq,F7 17.57 IF1.F11.F7 15.87 I.F4.F8 ’Các tập mi' ; ■ Thuộc tẾrili m ở :, X M ô tả tó?
■ L J [Tap mo cua thoi dlem ketỊỄ] ___ £ 3 - . J Tap mo cua Khoang thoi d
1
. ... F4 ,_J Tap mo cua khoang thoi d
“ £ « 1 JTap mo cua khoang thoi siTap mo cua gol tin tai ve H1
F7. 1 Tap mo cua goi tin tai ve tjj
1
F8 JTap mo cua goi tin tai ve H
Hình 16. Diễn giải luật
7 ủ - j
'59 WINDOW!
'Diễn .gịẫilũât!
Thoi gian ket noi trung binh, So luong Goi tin tai ve trung binh => Gio cao diem So luong goi tin truyen di trung binh, So hiong Goi tin tai ve trung binh => Giũ cac Sũ luong gũi tin truyen di lon, So luong Goi tin tai ve trung binh => Gio cao diem Thoi gian ket noi trung binh => Gio cao diem
So luong Goi tin tai ve trung binh => Gio cao diem So hiong goi tin truy en di trunq binh => Gio cao diem
Hình 17. Sinh tập luật bằng luật phủ định
V d ' 1 h >• lfp' tcM È tía lổ 1 J I I P . <' L Ỹ < ^ Ị . í L .
Tập luật: ' •'•Tập. các-luật mờ Luật phủ định : !;.•- :• • ‘f® Luật kết hợp ỵcậ.các- thuộc tính được .đánh trộng số
Đo ho ti V .(íniưisupp' % ) p B H H B . . Đo tui cây(fíìiiiieonf % ) p Ị B H H B R Ị H -
. Danh sách tất cả các luật
Tập luật : Đọ tin cây! Đỗ. hỗ. tr<y F4,F8=>F1 i ■ E S D E B I F10.F8 => F1 63.13 9.76 n F10,F8=>F4 48.57 7.51 m>} F ÌÌ|F 8= > n 63.13 9.76 . I F11 ,F8 => F4 48.57 7.51 - j F1fF10=>F4 48.57 8.61 ỊẬ F1.F11 =>F4 48.57 7.71 F1 => F10.F4.F7 17.57 ™ ĨT .09 11 F1 => F11.F4.F7 15.87 10.02 g l F4=> F1.F10.F7 17.57 ■“1 F 1 F4=> F1.F11.F7 15.87 7.71 F1 => F10.F4.F8 15.46 9.76 F1 => F11.F4.F0 15.46 9.76 ~ n F4 => F1.F10.F8 1 5.46 7'õĩ ỊBỊ F4=> F1.F11.F8 15.46 7.51 ip F10,F7=> F1.F4 48.57 8.53 p F11.F7 => F1.F4 48.57 7.71 F10.F8 => F1.F4 48.57 _ 7 -51 - i
Danh sách tấ t cả các.tập pho biển Tập thuộc tính ; : Độ. hỗ trợ
C ác tập mờ Thuôc tirihitK'
ỉ F2 Tap mo cua thoi dlem ket]j F3 Tap mo cua khoang thoi cj F4 Tap mo cua khoana thoi dji F5 Tap mo cua khoang thoi SỀ I F6 Tap mo cua goi tin tai V8 rfl I F7 Tap mo cua gol tin tal ve till F8 Tap mo cua goi tin ỉal ve 1$
f *
4.2.4.3 Tìm luật có ích
'• ' . T a p l u ậ t . • . T ìm h ệ t men lạ ... 4*. ' Đ o n g ià n : M lM M R ( B o tu ố t t h ử a ) ': 8 L u â t k ế t h o p th u ô c tín h 30 ■ :
Đ o HỖ trợ ( % ) ĩMÊÊÊÊÊm D ó txn c â y
- ' • V - :T ' •' '■ . - \ | n = : F 4 p p■ H H ( I B I t i m - H m E [4 1 Luật m ói lạ w m fc
Hình 19. Tìm luật mới lạ dựa trên tri thức đã biết
■20 4 0 .5 6 9 5 9 1 5 6 0 3 3 7 .5 0 7 9 9 5 4 1 1 2 0 s g Ịf1D,F7 => F1.F4 4 8 .5 6 9 5 91 5 6 0 3 3 ' 0 ịf>.; |F11.F7 => F1.F4 4 8 .5 6 9 5 9 1 5 6 0 33 0 ịịt F10.F8 => F1 ,F4 4 8 .5 6 9 5 9 1 5 6 0 33 ô l i F11.F0 => F1.F4 4 8 .5 6 9 5 9 1 5 6 0 33 0 F4 => F Ỉ 63.12844821441 6 3 .1 2 8 4 4 8 2 1 4 4 1 |§ “ ỊF7 -> F1 63.12844621441 6 3 .1 2 0 4 4 0 2 1 4 4 1 |g ỈF8=> F1 6 3 .1 2844821441 6 3 .1 2 0 4 4 8 2 1 4 4 1 |jg |f i o= >f i 63.12844821441 6 3 1 2 8 4 4 8 2 1 4 4 1 ® F11 =* F1 6 3 .1 2844621441 6 3 .1 28 4 4 8 2 1 4 4 i l l F1 => F4 4 8 .5 6 9 5 9 1 5 6 0 3 ? 48 5 6 9 5 9 1 5 6 0 3 ^ Ỉ F 7 - > F4 4 8 .5 6 9 5 9 1 5 6 0 3 3 4 0 .5 6 9 5 9 1 5 6 0 3 3 ^ |F0"=>F4 4 0 .5 6 9 5 9 1 5 6 0 33 48 5 6 9 5 9 1 5 6 0 3 3 $ $ ỊfĨ ổ => F4 4 8 .5 6 9 5 9 1 5 6 0 33 4 8 .5 6 9 5 9 1 5 6 0 3 3 9 s [F11 => F4 4 8 .5 6 9 5 9 1 5 6 0 33 4 8 .5 6 9 5 9 1 5 6 0 3 3 ^
|F11,F0=> F1.F4 So luong goi tin ừuyen di lon, S o luong Gol tin ta Ị |F1 0 ,F 7 = > F1.F4 So luong gol tin truyen dl tru n g binh, S o luong 0 1 |f i i,F 7= > F1.F4 So luong goi tín truyen di lon, So luong Ool tin ỉa 1 |F 1 0 .F 8 = > F 1 .F 4 So luong gol tỉn truyen di trung binh, 6 o luong G 1 |F 1 1 .F 8 = > F 1 .F 4 So luong goi tin truyen đl lon, So luong ỡ o l tin taịỊ |F4 => F1 Thoi gian k e t nol trung binh => Glo ca o đlem
F 7 = > F 1 S o luong Goi tin tai ve trung b inh => Gio c a o die ị F 8 = > F1 S o luong ỡ o i tin tal ve lon => Glo cao d iem 1 |F 1 0 = > F1 So luong goi tin truyen đi tru n g binh => Oio c a o 3
F11 = » F 1 So luong goi tin truyen di lon => ỗ lo cao d iem 1 F1 «> F4 Olo c a o d iem => Thoi gian ket nol trung binh 1 [F7 => F4 So luong Goi tin tai ve trung b inh => Ttìol Qlan k j [F8 => F4 So luong Goi tin tai ve lon => Thoi g ian ket noi trj |F 1 0 = > F 4 So luong gol tin truyen dl trung b in h-> Thoi gia 1 [Fiji => F4 So luong gol tin truyen ỚI lon => Thoi gian ket n d
13 MMR(BÒ luật thừa) £ Luất kết liọp ứíUỘc tính số
* lìm luật ĩnciỉạ
Đ ộ ho trc»(%) Đo hn cậy (%)
Thoái Ketn luật Xoa luật
48 .5 6 9 5 9 1 5 6 0 3 3 B .53335422461
Glo cao dlem , Thoi g ian ket nol trung binh => Si 4 8 .5 6 9 5 9 1 5 6 0 3 3 7.507995411201
Qlo c a o dlem , Thoi g ian ket nol tru n g binh 0.6 0 80 1 7 5 5 1 4 0 ;
48 .5 6 9 5 9 1 5 6 0 3 3
Qlo c a o dlem , Thoi g ian ket nol trung binh => S( 4 8 .5 6 9 5 9 1 5 6 0 33 7.706248251121
ỊQIo c a o dlem , Thũl g ian ket nol tru n g binh => s<
1 7 .5 6 9 3 3 4 9 4 9 0 3 11.09124851491*
Glo c a o diem , So luong Goi tin tai ve trung binh 1 7 .5 6 9 3 3 4 9 4 9 0 3 8.53335422461
Giũ cao diem . So luong Ool tin tal ve lon => Tho 15.4582222539D 9.75 8 5 3 5 8 3 0 4 2 :
ISO luong gol tin truyen dl trung bỉnh => Qio c a o So luong gol tin truy e n dỉ trung binh => Thoi giai 1 5 .4 5 8 2 2 2 2 5 3 9 0 7 .5 0 7 9 9 5 4 1 1 2DÍ
1 7 .7 2 3 0 5 9 3 7 7 0 0 11.1 8 8 2 9 2 3 6 0 8 :