Bài giảng Cơ sở dữ liệu: Phát hiện các luật kết hợp trong cơ sở dữ liệu - Nguyễn Hồng Phương

7 83 0
Bài giảng Cơ sở dữ liệu: Phát hiện các luật kết hợp trong cơ sở dữ liệu - Nguyễn Hồng Phương

Đang tải... (xem toàn văn)

Thông tin tài liệu

Bài giảng Cơ sở dữ liệu: Phát hiện các luật kết hợp trong cơ sở dữ liệu trình bày các nội dung: Tổng quan, phát hiện luật kết hợp trong cơ sở dữ liệu giao dịch, phát hiện luật kết hợp trong cơ sở dữ liệu quan hệ, một số vấn đề khác. Mời các bạn tham khảo.

Nội dung trình bày Phát luật kết hợp sở liệu  Tổng quan  Phát luật kết hợp sở liệu giao dịch  Phát luật kết hợp sở liệu liệ quan hệ  Một số vấn đề khác Nguyễn Hồng Phương Bộ ộ môn Hệ ệ thống g thông g tin Viện CNTT&TT – trường ĐHBK Hà Nội phuongnh@soict.hut.edu.vn http://is.hut.edu.vn/~phuongnh 1 Tổng quan     Phát luật kết hợp sở liệu Khai phá liệu phát tri thức Khai phá liệu phát tri thức Luật kết hợp: Bài toán “Cái giỏ hàng” Một số ứng dụng khác Các khái niệm Chọn Tiền xử lý Biến đổi  Khai phá liệu Thông dịch / Đánh giá   Dữ liệu Phát luật kết hợp sở liệu Dữ liệu mục tiêu Dữ liệu tiền xử lý Dữ liệu biến đổi Mẫu Tri thức Phát luật kết hợp sở liệu Luật kết hợp: Bài tốn “Cái giỏ hàng” Phân tích tốn “Cái giỏ hàng”  Phân tích thói quen mua hàng khách hàng: tìm kết hợp tương quan mặt hàng khác mà khách hàng đặt vào “giỏ hàng” họ hàng  Cho sở liệu gồm giao dịch khách hàng, giao dịch tập mặt hàng  Tìm nhóm mặt hàng thường mua Sữa, trứng, đường, bánh mỳ Sữa, trứng, ngũ cốc, bánh mỳ Khách hàng Khách hàng Phát luật kết hợp sở liệu Trứng, đường Khách hàng Phát luật kết hợp sở liệu CuuDuongThanCong.com https://fb.com/tailieudientucntt Một số ứng dụng khác Các khái niệm  Viễn thông Giao dịch:  Mỗi khách hàng giao dịch gồm tập gọi khách hàng Dạng quan hệ Dạng thu gọn Mục (Item): phần tử đơn, Tập mục (Itemset): Tập mục Độ hỗ trợ tập mục X - sup(X): Số giao dịch chứa X Độ hỗ trợ tối thiểu minsup : ngưỡng độ hỗ trợ Tập mục thường xuyên : độ hỗ trợ  minsup  Hiện tượng khí  Mỗi khoảng thời gian quan sát giao dịch chứa tập kiện quan sát (mưa, gió, mây,…) Phát luật kết hợp sở liệu Tập mục thường xuyên ID giao dịch     Phát luật kết hợp sở liệu Luật kết hợp Các mặt hàng mua Sữa, trứng, đường, bánh mỳ Sữa, trứng, ngũ cốc, bánh mỳ Trứng, đường     Sup({Sữa, trứng, bánh mỳ})= (66.6%) Sup({Trứng, đường})= (66.6%) Sup({Ngũ cốc, bánh mỳ})= (33.3%) Nếu minsup = 50% {Sữa, trứng, bánh mỳ} {Trứng, đường} tập mục thường xun {Ngũ cốc, bánh mỳ} khơng phải Phát luật kết hợp sở liệu A, B tập mục tập mục I Luật r = A  B Độ hỗ trợ r: sup(r)=sup(AB) Độ tin cậy r:  conf(r) = sup(AB)/sup(A)  r gọi luật kết hợp sup(r)minsup conf(r)minconf Độ hỗ trợ tối thiểu Độ tin cậy tối thiểu Phát luật kết hợp sở liệu 10 Hai tính chất Phát luật kết hợp CSDL giao dịch  Tính chất 1:  Phát tập mục thường xuyên  Nếu tập mục không thường xun siêu tập khơng thường xuyên  Tính chất 2:  Nếu tập mục thường xun tập ủ ó ũ thườ thường xuyên ê {1,2,3,4,5} {1,2,3,5} {1,2,4,5} {1,3,4,5} {1,2,5} {1,3,5} {1,5} {1,4,5} {2,3,5} {2,5} {3,5} {5}  Kiểu Apriori  Sử dụng FP-tree  Phát luật kết hợp  Khai phá luật ậ kết ế hợp đa mức ứ B {2,3,4,5} {2,4,5} {3,4,5} {4,5} A Phát luật kết hợp sở liệu 11 Phát luật kết hợp sở liệu 12 CuuDuongThanCong.com https://fb.com/tailieudientucntt Phát tập mục thường xuyên Giải thuật Apriori  Giải thuật Apriori  Sử dụng FP-tree Đầu vào: Cơ sở liệu giao dịch D smin Đầu ra: Tập Answer chứa tất tập mục thường xuyên D Giải thuật: 1) L1 = {large 1-itemsets}; 2) for(k=2; Lk-1; k++) begin 3) Ck = AprioriGen(Lk-1); // New candidate 4) f forall ll transactions t ti ttD D d b begin i 5) Ct = Subset(Ck, t); // Candidates contained in t 6) forall candidates cCt 7) c.count++ 8) end 9) Lk = {cCk c.count ≥ smin} 10) end 11) Answer = k Lk; Phát luật kết hợp sở liệu 13 Hàm AprioriGen Phát luật kết hợp sở liệu 14 Vấn đề giải thuật kiểu Apriori Đầu vào: Một tập Lk-1 chứa tất (k-1)-tập mục thường xuyên Đầu ra: Tập Ck ứng cử siêu tập chứa tất k-tập mục thường xuyên Giải thuật: 1) Function AprioriGen(Lk-1: tập (k-1)-tập mục thường xuyên):tập k-tập mục thường xuyên 2) // Pha kết nối 3) insert into Ck 4) select p.item p item1, p.item p item2, ,p.item p itemk-1 q itemk-1 k , q.item k 5) from Lk-1 p, Lk-1 q 6) where p.item1 = q.item1, , p.itemk-2 = q.itemk-2, p.itemk-1 < q.itemk-1 7) // Pha cắt tỉa 8) forall itemsets cCk 9) forall (k-1)-subsets s of c 10) if(sLk-1) then delete c from Ck; 11) return Ck;  Chi phí cho việc kiểm soát số lượng lớn tập mục ứng cử  104 1-tập mục thường xuyên sinh 107 tập ứng cử kích thước  Lặp nhiều lần việc duyệt CSDL để kiểm tra tập ứng cử Tránh việc sinh nhiều tập ứng cử Sử dụng cấu trúc mẫu thường xuyên 12) end; Phát luật kết hợp sở liệu 15 Xây dựng mẫu thường xuyên  Duyệt DB lần 2, xếp lại giao dịch theo danh sách L TID  Duyệt DB lần để sinh danh sách L I Items 100 f, a, c, d, g, i, m, p 200 a, b, c, f, l, m, o 300 b, f, h, j, o 400 b, c, k, s, p 500 a, f, c, e, l, p, m, n Item frequency f c a b m p Phát luật kết hợp sở liệu 16 Xây dựng mẫu thường xuyên  FP-tree (Frequent Pattern tree)  Các bước xây dựng: TID Phát luật kết hợp sở liệu 17 Items Các mục xếp 100 f, a, c, d, g, i, m, p f, c, a, m, p 200 a, b, b c, f, f l, l m, o f c, a, b, f, b m 300 b, f, h, j, o f, b 400 b, c, k, s, p c, b, p 500 a, f, c, e, l, p, m, n f, c, a, m, p Phát luật kết hợp sở liệu 18 CuuDuongThanCong.com https://fb.com/tailieudientucntt Xây dựng mẫu thường xuyên Xây dựng mẫu thường xuyên  Tiến hành xây dựng {} {} {} {} f:3 f:3 f:1 {f c, {f, c a, a b, b m} {f, c, a, m, p} {} {f, b} f:2 c:1 c:2 a:1 a:2 m:1 b:1 p:1 p:1 m:1 Phát luật kết hợp sở liệu c:1 {c, b, p} c:2 f:4 c:1 {f, c, a, m, p} c:2 b:1 b:1 b:1 a:2 a:2 m:1 {} c:3 p:1 b:1 a:3 p:1 m:1 b:1 m:1 b:1 m:2 b:1 p:1 m:1 p:1 m:1 p:2 m:1 19 Phát luật kết hợp sở liệu 20 Xây dựng mẫu thường xuyên Phát luật kết hợp  Cây kết  Giải thuật đơn giản để sinh luật {} Header Table Item head f c a b m p b:1 Đầu vào: Tập tất tập mục thường xuyên có nhiều mục f:4 c:3 c:1 b:1 a:3 F   k 2 Fk  F \ F1 Đầu ra: Tất luật kết hợp b:1 Phương pháp: p:1 m:2 b:1 p:2 m:1 1) forall f k  F 2) GenRules(fk, fk);  Khai phá mẫu thường xuyên? Phát luật kết hợp sở liệu 21 Phát luật kết hợp sở liệu 22 Phát luật kết hợp Vấn đề khai phá luật kết hợp đa mức  Thủ tục GenRules  Phân cấp khái niệm mục CSDL Đầu vào: Hai tập mục thường xuyên fk lm, ngưỡng độ tin cậy cmin Đầu ra: Các luật kết hợp với nhiều m-1 mục phần đầu luật (m>2) Phương pháp: 1) procedure GenRules(fk: k-tập mục thường xuyên, lm: m-tập mục thường xuyên) L{ {các (m-1)-tập ( ) ập mục ụ lm |lm 2)) m-1 1| m-1 1 lm} 3) forall lm-1L begin 4) c  s(fk)/s(lm-1); // Độ chắn luật 5) if c ≥ cmin then begin 6) output luật lm-1(fk\lm-1); 7) if m-1 ≥ then 8) GenRules(fk, lm-1); 9) end; 10) end; 11) Đồ uống Cà phê Chè Cà phê đen Cà phê sữa Nước hoa Nước cam Nước táo Bia Nước nho end; Phát luật kết hợp sở liệu 23 Phát luật kết hợp sở liệu 24 CuuDuongThanCong.com https://fb.com/tailieudientucntt Phát luật kết hợp CSDL quan hệ Thuật toán khai phá luật kết hợp đa mức L1:={các 1-tập mục thường xuyên}; k:=2; while (Lk-1  ) begin Ck:=các ứng cử viên kích thước k sinh từ Lk-1 forall giao dịch tD begin Thê tất Thêm ả tổ tiê tiên ủ từ mục t t vào t, t loại l i bỏ trùng lặp Tăng đếm tất ứng viên Ck mà có mặt t end Lk:=Tất ứng viên Ck đạt độ hỗ trợ tối thiểu k:=k+1; end Câu trả lời :=  k  CSDL quan hệ: quan hệ thường chứa thuộc tính định lượng, phạm trù  Xử lý thuộc tính định lượng:  Phân vùng rõ Khai phá luật kết hợp định lượng  Phân vùng mờ Khai phá luật kết hợp mờ Lk Phát luật kết hợp sở liệu 25 Phát luật kết hợp sở liệu 26 Khai phá luật kết hợp định lượng Khai phá luật kết hợp định lượng  Phân vùng Equi-Depth: Các vùng có kích thước  Phân vùng dựa khoảng cách: có xem xét tính chất định lượng ngữ nghĩa liệu Khoảng cách điểm liệu nhỏ chúng nên thuộc nhóm  Phân vùng dựa giá trị có thuộc tính Ví dụ: kiểu thuộc tính có g giá trịị từ đến 15 depth p d=3 sinh khoảng [1,3], [4,6], [7,9], [10,12], [13,15]  Phân vùng dựa giá trị có thực CSDL: d giá trị đầu đặt vào khoảng thứ nhất, d giá trị đặt vào khoảng thứ hai,… Phát luật kết hợp sở liệu age married numCars 23 no 200 25 yes 300 29 no 400 34 yes 500 38 yes Integer yes no 30 Interval age Integer [20, 24] [20, 24] [25, 29] [25, 29] [30, 34] [35, 39] [31, 80] 80 81 [80, 82] [81, 82] 82 Phát luật kết hợp sở liệu [30, 34] [35 39] [35, 1 0 100 200 300 400 500 28 1 1 0 0 0 1 0 0 0 1 Support {} Rule Support Confidence {} 0.40 1.00 {} {, }  {} {}  {} 0.60 0.67 recordId age married numCars 100 200 1 300 2 {} 400 {} 500 {,} 29 0 1 Itemset Phát luật kết hợp sở liệu [18, 18] [30, 31] 31 recorId 100 distance-based [18, 30] Khai phá luật kết hợp định lượng  Các bước: recordId equi-depth 18 27 Khai phá luật kết hợp định lượng married Lương Phát luật kết hợp sở liệu 30 CuuDuongThanCong.com https://fb.com/tailieudientucntt Khai phá luật kết hợp định lượng Khai phá luật kết hợp mờ  Cách tiếp cận khối dày đặc  Khái niệm luật kết hợp mờ  Nếu X = {x1, x2, , xp} A = {a1, a2, , ap} Y = {y1, y2, , yq} B = {b1, b2, , bq}  X, Y tập thuộc tính  x1, x2, ,y1,y2, thuộc tính  A, A B tập tập mờ  a1,a2, ,b1,b2, tập mờ  Cơng thức tính độ hỗ trợ mờ FS  X , A  Phát luật kết hợp sở liệu 31   ti D x j X d x j ( a j , t i x j ) D Phát luật kết hợp sở liệu Khai phá luật kết hợp mờ Khai phá luật kết hợp mờ  Cơng thức tính độ tin cậy mờ  Các bước FC X , A ,Y , B   FS  Z ,C  FS  X , A  t D z Z d z j (c j , ti z j ) i Credit, high Income, high 0.5 0.6 0.4 0.8 0.9 0.4 0.7 0.8 0.7 0.9 0.8 0.3 0.9 0.7 0.6 t D x X d x j (a j , ti x j ) i j FS=0.364 FC=0.766 Phát luật kết hợp sở liệu 33 t1 60 20:15 t2 80 23:45 t3 22 15:30 t4 55 01:00 t5 19:30 t6 18 06:51 Phát luật kết hợp sở liệu 34 Khai phá luật kết hợp mờ Khai phá luật kết hợp mờ Hour j  Ví dụ: Có X = {Balance {Balance, Income}, Income} A = {medium, high}, Y = {Credit}, B = {high} Balance, medium Age 32 t1 0 0 0 0 0.75 t2 0 0 0 67 0.67 33 0.33 0 0 0.25 t3 0 0.6 0.4 0 0 0.5 0.5 t4 0 0 0.5 0.5 0 0 t5 0.5 0.5 0 0 0 0 t6 0 0 0 0.85 0.15 0  Phân vùng mờ miền thuộc tính?  Attila Gyenesei giới thiệu kỹ thuật phân vùng mờ dựa số độ tốt (Goodness Index)  Tìm tâm,, cận ậ nhóm  Tính hàm độ thuộc Phát luật kết hợp sở liệu 35 Phát luật kết hợp sở liệu 36 CuuDuongThanCong.com https://fb.com/tailieudientucntt Một số vấn đề khác  Phát luật có yếu tố thời gian  Phát luật nhiều quan hệ  Phân loại luật kết hợp Phát luật kết hợp sở liệu 37 Phát luật kết hợp sở liệu 38 Lời hay ý đẹp Thành cơng, cách khuyến khích ta cố gắng làm việc lớn lao Thất bại, cách cổ vũ ta làm lại việc làm với nhiều hi vọng Gabriel Palau Phát luật kết hợp sở liệu 39 CuuDuongThanCong.com https://fb.com/tailieudientucntt ... Khai phá luật kết hợp định lượng  Phân vùng mờ Khai phá luật kết hợp mờ Lk Phát luật kết hợp sở liệu 25 Phát luật kết hợp sở liệu 26 Khai phá luật kết hợp định lượng Khai phá luật kết hợp định... luật kết hợp b:1 Phương pháp: p:1 m:2 b:1 p:2 m:1 1) forall f k  F 2) GenRules(fk, fk);  Khai phá mẫu thường xuyên? Phát luật kết hợp sở liệu 21 Phát luật kết hợp sở liệu 22 Phát luật kết hợp. .. end; Phát luật kết hợp sở liệu 23 Phát luật kết hợp sở liệu 24 CuuDuongThanCong.com https://fb.com/tailieudientucntt Phát luật kết hợp CSDL quan hệ Thuật toán khai phá luật kết hợp đa mức L1:={các

Ngày đăng: 11/01/2020, 17:07

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan