1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn ứng dụng luật kết hợp chỉ dẫn tài liệu liên quan chủ đề

39 385 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 39
Dung lượng 729,5 KB

Nội dung

LỜI CẢM ƠN Trong thời gian thực luận văn thạc sỹ em nhận nhiều khích lệ, động viên, giúp đỡ từ phía thầy cơ, gia đình bạn bè xung quanh Em xin bày tỏ lòng biết ơn chân thành tới thầy giáo, PGS.TS Lê Huy Thập, người trực tiếp hướng dẫn em hoàn thành luận văn thạc sỹ Em xin gửi lời cảm ơn chân thành tới thầy cô trường Đại học Sư phạm Hà Nội Em cố gắng học tập hoàn thành luận văn thạc sỹ luận văn thạc sỹ cịn có thiếu sót Em mong nhận góp ý, bảo thầy bạn để luận văn thạc sỹ hoàn thiện Vĩnh Phúc, ngàyio tháng 12 năm 2015 Hoc viên Bùi Thị Xuyên LỜI CAM ĐOAN Tôi xin cam đoan kết nghiên cứu hướng dẫn khoa học PGS TS Lê Huy Thập Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Học viên Bùi Thị Xun MỤC LỤC MỞ ĐẦU Chương Cơ SỞ LÝ THUYẾT 1.1 Tổng quan kho liệu 1.1.1 Định nghĩa kỹ nghệ kho liệu kho liệu .3 1.1.2 Mục đích kho liệu 1.1.3 Đặc tính liệu kho liệu .5 1.1.4 Phân biệt kho liệu với sở liệu tác nghiệp 1.2 Tổng quan khai phá liệu 1.2.1 Khái quát khai phá liệu .8 1.2.2 Định nghĩa khai phá liệu .9 1.2.3 Các bước trình khai phá liệu 11 1.2.4 Nhiệm vụ khai phá liệu 12 1.2.4.1 Phân lớp (phân loại - classification) 12 1.2.4.2 Hồi qui (regression) 13 1.2.4.3 Phân nhóm (clustering) .13 1.2.4.4 Tổng hợp (summarization) 14 1.2.4.5 Phát biến đổi độ lệch (change and deviation dectection) 14 1.2.5 Các phương pháp khai phá liệu 14 1.2.5.1 Các thành phần giải thuật khai phá liệu 14 1.2.5.2 Phương pháp suy diễn / quy nạp 16 1.2.5.3 Phương pháp K-láng giềng gần 17 1.2.5.4 Phương pháp sử dụng định luật 18 1.2.5.5 Phương pháp phát luật kết hợp 19 1.2.6 Lơi khai phá liệu so với phương pháp .20 Kết luận chương .20 Chương KHAI PHÁ LUẬT KẾT HỢP 22 2.1 Một số khái niệm 22 2.2 Luật kết hợp [3] 22 2.2.1 Mơ hình hình thức luật kết hợp 22 2.2.2 Định nghĩa luật kết hợp 24 2.2.3 Phát biểu toán luật kết hợp 27 2.2.4 Một số hướng tiếp cận khai phá luật kết hợp 28 2.3 Bài toán phát luật kết hợp 30 2.4 Một số thuật toán tiền xử lý luật kết hợp .35 2.5 Thuật toán Apiiori -Tid .39 2.5.1 Giới thiệu 39 2.5.2 Thuật toán 39 2.5.3 Nhận xét 46 Kết luận chưong 47 Chương ỨNG DỤNG LUẬT KẾT HỢP CHỈ DẪN TÀI LIỆU LIÊN Đ • • • • QUAN CHỦ ĐÈ TẠI TRƯỜNG THPT HÙNG AN 49 3.1 Yêu cầu toán 49 3.2 Cách giải yêu cầu toán 50 3.3 Xây dựng chương trình thử nghiệm 51 3.3.1 Giao diện chính: 51 3.3.2 Tạo bảng Item phần mền SQL 52 3.3.3 Tạo bảng giao dịch phần mền SQL 52 3.3.4 Chức tải liệu: 53 3.3.5 Nhập Minsup Conf .53 3.3.6 Chức khai phá liệu .54 Kết luận chương 55 KẾT LUẬN 56 DANH MỤC TÀI LIỆU THAM KHẢO 57 DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẤT DANH MỤC CÁC BẢNG • Kớ hiờu ô Ơ Y ngha ã CSDL CCSDL sở liệu6 giao dịch 23 Bảng 2.1 Ví dụ D Bảng mục sở giao dịch Bảng 2.2 độ liệu hỗ trợ 24 DLTính độ hồ Dữ liệuđộ tin cậy 25 Bảng 2.3 trợ DMCác tập phổData mining (khai phá liệu) Bảng 2.4 biến 26 Bảng 2.5 KDD Luật kết họpKnowledge sinh tò tậpdiscovery phổ biến ADE .27 ( phát tri thức) Bảng 2.6 Thể giaophá dịch KPDL Khai dữthực liệutế 30 Bảng 2.7 Bảng tập dịch thểliệu có 32 DWT Kỹgiao nghệ khocódữ Bảng 2.8 vàdữ độliệu hồ trợ 33 DWBảng tập mục Kho Bảng 2.9 biến bảng 2.8 34 Tập mục phổĐộ hô trợ ( support) Bảng 2.10 tin toáncậy phát luật kết hợp 34 p Minh hoạ Độ (confidence) Bảng 2.11 Các Item nhãn nhập .35 n Phép giao Bảng 2.12 Bảng 2.11 xếp Nhan theo từ điển 36 u Phép hợp Bảng 2.13 Bảng giao dịch |T| = .36 Tập rông Bảng 2.14 Bảng hỗ trợ tập Item 38 CZ Tập hợp tập AcB Bảng 2.15 Bảng CSDL (Giao dịch) 38 e Thuộc Bảng 2.16 Tập hạng mục độ hồ trợ Card 39 Tập k-itemset ứng viên ck Bảng 2.17 Tên sách nhãn 40 í Tập k-itemset ứng viên mà TID giao dịch ỉinh Bảng 2.18 Các giao dịch 41 liên k với tập mục ứng viên X^YCác luật kết Luật X Y Bảng 2.19 hợpkêt cólợp thểnêu rút 43 r p / V A Tid Các tập luật : Tập giao Bảng 2.20 thỏacác mãn ß >dịch .46 Bảng 3.1 Các mục dừng để khai phá luật kết hợp 49 Bảng 3.2 Các giao dịch tài liệu tham khảo để soạn giáo trình cho lớp 10 trường THPT Hùng An 50 DANH MỤC CÁC HÌNH VẼ Hình 1.1 Luồng liệu tổ chức .4 Hình 1.2 Các bước trình khai phá liệu .11 Hĩnh 3.1 Giao diện 51 Hình 3.2 Bảng Item .52 Hĩnh 3.3 Bảng giao dịch 52 Hĩnh 3.4 Chức tải liệu .53 Hình 3.5 Các Giao dịch Và Item 53 Hĩnh 3.6 Nhập Minsup Conf 53 Hình 3.7 Chức khai phá liệu .54 Hình 3.8 Bảng tập luật conf = 0.5 54 Hĩnh 3.9 Bảng tập luật conf = 0.7 55 MỞ ĐẦU Lý chọn đề tài Với phát triển nhanh chóng cơng nghệ thơng tin thấy thực tế người có tay lượng liệu lớn với kỹ thuật khai thác cũ SQL giảm dần tính phù hợp nhường chỗ cho kỹ thuật khai phá liệu Khai phá liệu trở thành môn nhà khoa học quan tâm nghiên cứu tính ứng dụng cao thực tiễn sống ứng dụng rộng rãi nhiều lĩnh vực như: Tài thị trường chứng khốn, Thương mại, Giáo dục, y tế, sinh học, bưu viễn thông với nhiều hướng tiếp cận như: Phân lớp Dự đoán, Phân cụm, Luật kết hợp, Trong viết báo cáo chủ đề đó, soạn giáo trình, viết báo, tạp chí, Tác giả cần thu thập tài liệu tham khảo Các tài liệu tham khảo có thư viện, có mạng có hiệu sách, Tuy nhiên, để tìm kệ sách thư viện, đường link mạng giá sách hiệu sách thích hợp cho mục đích vấn đề cần giải nhằm thu tài liệu chuẩn cho mục đích giảm thiểu thời gian tìm kiếm thu tài liệu có chất lượng tốt Mục đích nghiên cứu (Các kết cần đạt được) Dùng khai phá liệu đặc biệt khai phá luật kết họp thuật tốn liên quan như: Apriori-TID Lập trình ứng dụng trường THPT Hùng An Nhiệm vụ nghiên cứu Nghiên cứu kỹ nghệ kho liệu Nghiên cứu khai phá liệu Ngơn ngữ lập trình Đối tượng phạm vi nghiên cứu Khai phá liệu Phương pháp nghiên cứu Phương pháp tìm luật kết hợp khai phá liệu Các phương pháp xử lý liệu phục vụ cho khai phá liệu Giả thuyết khoa học Dùng kiến thức khác toán rời rạc, giao dịch CSDL để hỗ trợ nâng cao mở rộng đề tài Cấu trúc luận văn Luận văn gồm: Lời mở đầu, ba chương nội dung, phần kết luận tài liệu tham khảo Chương 1: Tổng quan khai phá liệu Trong giới thiệu tổng quan trình khai phá liệu, kiến trúc hệ thống khai phá liệu, nhiệm vụ chính, phương pháp khai phá ứng dụng khai phá liệu Chương 2: Khai phá luật kết hợp Chương trình bày tổng quan luật kết hợp, phát biểu toán khai phá liệu, phát luật kết hợp, khái niệm luật kết họp phương pháp khai phá luật kết họp Chương 3: Thiết kế ứng dụng luật kết hợp dẫn tài liệu 17 bắt đầu với tri thức biết trước Các thông tin mà phương pháp đem lại thông tin hay tri thức cấp cao diễn tả đối tượng CSDL Phương pháp liên quan đến việc tìm kiếm mẫu CSDL Trong khai phá liệu, quy nạp sử dụng định tạo luật [3] 1.2.5.3 Phương pháp K-láng giềng gần Sự miêu tả ghi tập liệu trỏ vào không gian nhiều chiều có ích việc phân tích liệu Việc dùng miêu tả này, nội dung vùng lân cận xác định, ghi gần không gian xem xét thuộc lân cận (hàng xóm - láng giềng) Khái niệm dùng khoa học kỹ thuật với tên gọi K-láng giềng gần, К số láng giềng sử dụng Phương pháp hiệu lại đơn giản Ý tưởng thuật toán học Kláng giềng gần “thực láng giềng gần bạn làm” Vỉ dụ: Để dự đoán hoạt động cá thể xác định, K-láng giềng tốt cá thể xem xét, trung bình hoạt động láng giềng gần đưa dự đốn hoạt động cá thể [4], [6] Kỹ thuật K-láng giềng gần phương pháp tìm kiếm đơn giản, có số mặt hạn chế giới hạn phạm vi ứng dụng nó, thuật tốn có độ phức tạp tính tốn luỹ thừa bậc theo số ghi tập liệu Vấn đề liên quan đến thuộc tính ghi Một ghi gồm nhiều thuộc tính độc lập, xem điểm khơng gian tìm kiếm có số chiều lớn Trong khơng gian có số chiều lớn, hai điểm có khoảng cách Vì mà kỹ thuật K-láng giềng khơng cho ta thêm thơng tin có ích nào, hầu hết cặp điểm láng giềng Cuối cùng, phương pháp K-láng giềng không đưa lý thuyết để hiểu cấu trúc liệu Hạn chế khắc phục kỹ thuật định 18 1.2.5.4 Phương pháp sử dụng định luật Với kỹ thuật phân lớp dựa định, kết q trình xây dựng mơ hình cho định Cây sử dụng trình phân lớp đối tượng liệu chưa biết đánh giá độ xác mơ hình Tương ứng với hai giai đoạn trình phân lớp trình xây dựng sử dụng định Quá trình xây dựng định nút đơn biểu diễn tất mẫu liệu Sau đó, mẫu phân chia cách đệ quy dựa vào việc lựa chọn thuộc tính Nếu mẫu có lớp nút trở thành lá, ngược lại ta sử dụng độ đo thuộc tính để chọn thuộc tính làm sở để phân chia mẫu lớp Theo giá trị thuộc tính vừa chọn, ta tạo nhánh tương ứng phân chia mẫu vào nhánh tạo Lặp lại trình tạo định, tất nút triển khai thành gán nhãn Quá trình đệ quy dừng lại điều kiện sau thỏa mãn: - Tất mẫu thuộc nút - Khơng cịn thuộc tính để lựa chọn - Nhánh khơng chứa mẫu Phần lớn giải thuật sinh định có hạn chế chung sử dụng nhiều nhớ Lượng nhớ sử dụng tỷ lệ thuận với kích thước mẫu liệu huấn luyện Một chương trình sinh định có hồ trợ sử dụng nhớ ngồi song lại có nhược điểm tốc độ thực thi Do vậy, vấn đề tỉa bớt định trở nên quan trọng Các nút không ổn định định tỉa bớt Kỹ thuật tỉa trước việc dừng sinh định chia liệu khơng có ý nghĩa [3] 19 1.2.5.5 Phương pháp phát luật kết họp Phương pháp nhằm phát luật kết họp thành phần liệu CSDL Mẩu đầu giải thuật khai phá liệu tập luật kết hợp tìm Ta lấy ví dụ đơn giản luật kết hợp sau: kết hợp hai thành phần A в có nghĩa xuất А ghi kéo theo xuất в ghi đó: А -» в Cho lược đồ R = {Ai, Ap} với thuộc tính A b ApVỚi miền giá trị D(Aị), quan hệ r R Một luật kết hợp r mụ t di dng XằB vi X ỗ R v e R\x Cho W ỗ R , t s(W, R) tần số xuất w R tính tỷ lệ hàng r có giá trị cột thuộc w Tần số xuất luật X->B r định nghĩa s(X u {B}, R) gọi độ hỗ trợ luật, độ tin cậy luật s(X u {B}, R)/s(X, R) Ở X gồm nhiều thuộc tính, В giá trị khơng cố định Nhờ mà không xảy việc tạo luật khơng mong muốn trước q trình tìm kiếm bắt đầu Điều cho thấy khơng gian tìm kiếm có kích thước tăng theo hàm mũ số lượng thuộc tính đầu vào Do cần phải ý thiết kế liệu cho việc tìm kiếm luật kết hợp Nhiệm vụ việc phát luật kết hợp phải tìm tất luật X- >B cho tần số luật không nhỏ ngưỡng (độ hỗ trợ) cho trước độ tin cậy luật không nhỏ ngưỡng cho trước Từ CSDL ta tìm hàng nghìn chí hàng trăm nghìn luật kết hợp Ta gọi tập X ỗ= R l thng xuyờn R nu tha mãn điều kiện s(X,R) > Nếu biết tất tập thường xuyên R việc tìm kiếm luật dễ dàng Vì vậy, giải thuật tìm kiếm luật kết hợp trước tiên tìm tất tập thường xuyên này, sau tạo dựng dần luật kết hợp cách ghép dần tập thuộc tính dựa mức độ thường xuyên 20 Các luật kết hợp cách hình thức hóa đơn giản Chúng thích hợp cho việc tạo kết có liệu dạng nhị phân Giải thuật tìm kiếm luật kết họp tạo số luật phải với số tập phổ biến tập phổ biến có kích thước к phải có 2K tập phổ biến Thông tin tập phổ biến sử dụng để ước lượng độ tin cậy tập luật kết hợp [3] 1.2.6 Loi khai phá liệu so với phương pháp Ctf - So với phương pháp học mảy (Machine Learning): Khai phá liệu có lợi chỗ sử dụng CSDL chứa nhiễu liệu không đầy đủ bị biến đổi liên tục [3] - Phương pháp hệ chuyên gia, ví dụ hệ chuyên gia thường mức chất lượng cao nhiều so với liệu CSDL chúng bao hàm trường hợp quan trọng, đòi hỏi phải có tham gia chuyên gia việc phát tri thức [3] - Phương pháp thống kê: Có thể thấy phương pháp thống kê cịn có số điểm yếu mà khai phá liệu khắc phục được: không phù hợp với kiểu liệu có cấu trúc nhiều CSDL, khơng sử dụng tri thức có sẵn lĩnh vực, cần có hướng dẫn người dùng để xác định phân tích liệu đâu [3] Kết luận chương Trong vài thập niên gần đây, với thay đổi phát triển không ngừng công nghệ thông tin, luồng thông tin chuyển tải mau lẹ đến chóng mặt dẫn đến bùng nổ thơng tin, vậy, chun gia cho rằng, sống xã hội “rất giàu thông tin nghèo tri thức” Chính mà việc tìm trích lọc thông tin theo chủ đề quan trọng Trước tình hình giải pháp hiệu giúp phân tích khối lượng liệu lớn khai phá liệu Trong 21 chương trình bày tóm tắt hiểu biết kho liệu KPDL, mục đích, thành phần, phương pháp, ứng dụng khó khăn gặp phải KPDL Trong phương pháp KPDL khai phá luật kết họp phương pháp phổ biến, quan tâm, nghiên cứu nhiều đề cập chi tiết chương sau 22 Chương KHAI PHÁ LUẬT KẾT HỢP 2.1 Môt số khái niêm • • Giả sử có sở liệu D Luật kết hợp cho biết phạm vi mà s ghi D kéo theo xuất tập mục u (SnU = 0) ghi Mỗi xuất tập mục luật kết hợp đặc trưng cặp tỉ lệ hỗ trợ: độ hỗ trợ độ tin cậy tỉ lệ phần trăm ghi D chứa s u Vẩn đề khám phá luật kết hợp phát biểu sau: Cho trước tỉ lệ hỗ trợ (support ration) độ tin cậy (confidence) p Tìm tất luật D có giá trị tỉ lệ hỗ trợ tin cậy lớn p tương ứng Chẳng hạn D CSDL mua bán độ hỗ trợ = 40% độ tin cậy p = 90% Vấn đề phát luật kết họp thực sau: Đếm tất qui luật xuất số mục kéo theo số mục khác Chỉ xét qui luật mà tỉ lệ hỗ trợ lớn 40% độ tin cậy lớn 90% Chẳng hạn thống kê khách hàng mua sản phẩm qua mạng có CSDL yêu cầu khách hàng giả sử quan tâm đến mối quan hệ "tuổi, giới tính, nghề nghiệp?” mua “những sản phẩm nào?" Rõ ràng có nhiều câu hỏi kiểu [3] 2.2 Luật kết họp[3] 2.2.1 Mơ hình hình thức luật kết họp Kí hiêu: 1/1 = {il, Ỉ 2, i m } tập m khoản mục (item) 2/1 = {ti, t , t n } tập (CSDL) giao dịch, ti = {iii, ii2, iik} Vij, iÿGl, gọi giao dịch tị 26 25 28 27 24 23 CoUn (XU Tập phổ biến (Frequent Itemset): Sup(X )X=kết ^nếu>Vij, iÿ G X -» iÿ e ti Ví du VíGọi du 2.2: 2.2.4 2.2.3 Một Phát sốbiểu hướng toán tiếp cận luậttrong khai kết hợp phá luật họp 3/ X - tập cácbài hạng mục I,—>■ nói Ç tịCounter) Mộtmột tập mục gọi tậpthiểu biếnnay Count(X) lớn Trong bảng 2.1Xthác tađược thấy Count(J) =phổ Count(T) =đã 6độ Với Xtrợ =tối {A} = Lĩnh vực khai kết nghiên cứu phát triển Cho CSDL T, độluật hồ trợlàhọp tối minsup, độ tinhỗcậy thiểu minconf Bài 2.1: tin cậy luật kết hợp ĐỘ ngưỡng minsup cho người dụng: minsup Cho bảng 2.1 nóhợp gọi là{C} CSDL giao dịch 4, X = {B}phá Count(X) =chính 6, XCó = Count(X) =lệ4,supp(X) =giao {D}>dịch Count(X) =n 4, X theo nhiều hướng khác đề xuất nhằm cải—>Y tiến tốc độ tốn, tốn luật kết tốn tìm tất cảsử X (X, Yc I X Ycó = Độkhai tin cậy đo mức độnhau xác luật tỷluật tập cóthuật chứa XuY so Ví du 2.4: = {E} Count(X) =tìm 5(TID) Dựa vào cơng thức (2.1) ta có bảng đề xuất nhằm cóhoặc ý nghĩa số2.2 hướng tiếpcủa cậnluật khaiXphá 0) thỏa mãn sup(X-»Y) >kiếm conf(X—>Y) > Một minconf Giao dịch Các Items với tập giao dịch cóID chứa Xminsup lớnluật bằnghơn p e [0,1] với Độ tin cậy — giao dịch ởtốn víđây dụ[3] 2.2-1 với minsup=50% ta tìmkết tập phổ biến luậtXét kếtCSDL hợp cần ý sau thuật đểtheo khai pháthức luật hết В,xuất D, E >Y, kíHầu hiệu conf(X —>Y) đượcA,đề xác định công sau:hợp thường chia bảngkết 2.4 sau:Item,[7]: X (binary Count(X) Supp(X) = Count(X) / Count(J) Luật association thành haihợp 2phanhị[4]phân В, С,rule E boolean association rule) A-> Y) = 66,7% Conf(X ^của luật kết họp Trong dạng luật kết hợp nhị Đó31:là hướng nghiên cứu Bài toán А, В, 100% D, Е B Sup(X) phân, Tìm quan tâmCác làtập tậpmục mụcmà có có xuất (ứngY)với sốĐộ khơng 4phô 66,7% biên độCount(X độ hô hỗ trợ trợtrue) Sup chohay trước Cácxuất tập tấtccả А,XВ, С,hỗЕtrợulớn D Sup(Xu 4Count 66,7% (ứng số )0độ False) giao dịchlà)chứ không quan tâm “tần suất” mục hỗ trợ gọi phổ biến.vềNghĩa là, tìmxuất tất =100% Dothoả Conf(X =hoặc ^ =tối thiểu (T) =А, Count(Xu 5Вmãn В, 83,3% С, D, Еcác tập mục6/6 E 5Sup(X) Count(X) Count(X) hạn, người ta supp(X) mua khôngcác mua sản phẩm (khơng Bảnghoặc 2.2 Bảng mục độ cácChẳng tập6E,mục X thỏa mãn >С,minsup BE 5/6hỗ = trợ 83,3% В, D CountỢ) Đô hỗtâm trơ tối thiểu • Thuật toán tiêu biểu khai phá dạng luật kết hợp thuật toán quan Bài toán 2:sốA,lượng) 4/6 = 66,7% c, D, AB, AE, BC, BD, ABE • Nên Count(X Confix ^ khác , =cũng ;-;support) 1thể3/6 AprioriDùng hỗ biến thể Các luật có có=được cách rời rạc tập mục phổ biến để sinh là,cho sinh AD, CE, ABD, ADE, ВСЕ, BDE Độ trợ tối thiểu, kí hiệu minsup (minimum là50% mộtnghĩa giá trị trước Trong I = { A, B, c, D, E}, T = {1, 2, 3,luật 4, 5,mong 6} muốn, Count(X) hoá mờ hoá, v.v đểbiến đưa luật kết hợp Bảng 2.4 Các tập phô luật tin cậy từdịchti= tập dạng tìm thấy tốn người sử dụng (làphổ chun gia tốt) Nếu X,cóc,supp(X) > minsup D, E}, tcàng }tập ,biên tnhị = phân {B D } quan mục 2= Từ địnhGiao nghĩa ta có:{A, cậycác conf >dụ minconf ?Vói Luật kêt hợp Tính sup conf luật kết hợp CSDL giao dịch ví 2.2-1 thuộc tính này, người ta dùng số phương pháp rời rạc hoá để chuyển dạng 2.2.2 Định nghĩa luật kết hợp Độ hỗ trợ tập mục (support) sup(B) (X-»Y) Count(T) = Count(T) = tanày có bảng 2.3luật sau:nhị phân để áp dụng thuật toán có luật trênVìcác kiểu dữgiao liệu dạng tất dịch J hồ trợ в thìgiao hỗkíđược trợhiệu A đánh nghĩa với X —» Y, Luật Dkết củacủa tậpn giao X theo Ycũng xRy Cho hợp CSDL dịchtập vàmục dịch nhãn X-»Y Count(X) Count(XuY) Conf(X-»Y) _ Ví dụchất “Mua HOẶC “Mua chỉ” = Sup(X-»Y) _ Tính vải = “có” =supp(ADE)/supp(A)=75% A-»DE Cúgigiao trongnh ú X, Y ỗ= v X(Unique nY = Transasction ; X gọi Identifier) giả thiết Nói cịn rằng, Y kết luận danh duyI Count(X u ) Count(X ) Nếu tập mục="có" вđộkhơng có độ hồ cậy trợ tối thiểu D unghĩa “có” -»Hai hồkết trợcả vàcác độlàCount(T) tin D->ÀE sốkhâu” quan luật hợp h dch te TMua htham trkim cho Xỗtrng I nếuvới nó75% chứa tất item củatrợ X, (support) nghĩaCó Count(X) Xvà độ tin cậy support(B) A 100% hỗ trợ luật X4 -» Y tỉ số số giao dịchCó T có chứa B->C Độ 4/6=66,7% Nếu tập 6mục в phổ biến D, nghĩa support(B) >4/6=66,7% minsup tập dịch J, nghĩa là: dịch T4 được75% Có B-»Dtrong giao 4/6=66,7% 4/6=66,7% XuY trênAE-»D tổng số tính sau: A ca l tpCount{X ph bin trờnỗDIT e support(A) > support(B) > minsup \ BảngBảng 2.5 2.3 LuậtTính kêt họp sinh tị tập biên ADE độ hỗ trợ độphơ tin cậy • • sup(X) = • • Count(J) (2.1) 29 Luật kết hợp nhiều mức (multì-level association rule) Với cách tiếp cận theo luật tìm kiếm thêm luật có dạng: X —» Y & z & Chẳng hạn: “Mua máy tính PC —» Mua hệ điều hành —» Mua phần mềm tiện ích văn phịng, Luật kết hợp mờ (fuzzy association rule) Với hạn chế gặp phải trình rời rạc hố thuộc tính số, người ta đề xuất luật kết hợp mờ nhằm khắc phục hạn chế chuyển luật kết hợp dạng tự nhiên hơn, gần gũi với người sử dụng ví dụ dạng là: “Thơng minh” = yes AND “Chăm học” = yes -» “Vượt qua kỳ thi” = yes, với độ hỗ trợ 15% độ tin cậy 75% Trong luật điều kiện “Thơng minh”, “Chăm học” thuộc tính mờ Luật kết với thuộc tinh đánh trọng số (association rule with weighted items): Trong thực tế, mức độ quan trọng mục liệu lúc Có số thuộc tính trọng có mức độ quan trọng cao thuộc tính khác Ví dụ khảo sát doanh thu hàng tháng, thông tin thời gian đàm thoại, vùng cước quan trọng nhiều so với thông tin phương thức gọi Trong trình tìm kiếm luật, gán thòi gian gọi, vùng cước trọng số lớn thuộc tính phương thức gọi Đây hướng nghiên cứu thú vị số nhà nghiên cứu đề xuất cách giải tốn Với luật kết hợp có thuộc tính đánh trọng số, khai phá luật có độ hỗ trợ thấp có nhiều ý nghĩa Luật kết hợp song song (parallel mining of association rules): Bên cạnh khai phá luật kết hợp tuần tự, nhà làm tin học tập trung vào nghiên cứu thuật giải song song cho trình phát luật kết họp Nhu cầu song song hoá xử lý phân tán cần thiết kích thước 3130 Bước lớn nên đòi hỏi tốc độ xử lý dung lượng nhớ hệ liệu ngày thực tế bảo cho к giao dịch, song trongkhác cịn tiềm thống Do phảibảng đảm Cóchỉ rấtcó nhiều thuật toán song đãẩn đề xuất để dịch khác Để bổvào sung cứng giao dịch tạo cógiao thể khơng phụ thuộc phần thể giao dịch có luật thể có 2.3 Bàicác tốn phát kếtT= họp{ti, t2, với count(T) = m để thống Phần nàycósẽthểchỉcóratừrằng kê giao dịch I m = quan sát thu thập CSDL giao i= dịch liệu tìm luật kết hợp tiềm ẩn thỏa Khơng có mục nào, số giao dịch c°n = supmin conữnin cho trước khơng Có mục, sốtagiao c\ = Đểmột minh họa, xét dịch ví dụlàsau — I /— 1! n - Ví du 2.6: Có số giao dịch số, CHóa n = học, Vật lý, Hình học} ii= 1=hai {il,mục, Ì2> Ỉ3,14} = {Đại Z! n - Đại số Ỉ2= Hóa Học i3= Hình học i4= Vật lý Trong ti = { Đại số, Hóa học, Hình học } t2 Có i mục, số giao dịch Cn = = { Hóa học, Vật lý, Hình học } t3í!=n { Hóa học } u = { Đại số, Hóa học } Có n muc, số giao dich С” = (2.6) n! n — Vậy tổng số giao dịch cho n mục (khác nhau) m=E Ẹ Ẹ chẳng hạn tị cơng thức (2.6) TID Tập mục giao dịch thực tê c°ti= Í2 c = Đại sơ, Hóa học, Hình học À I Hóa học, Vật lý, Hình học Í3 1!(4- Hóa học u Đại sơ, Hóa học c= '-'4 Bảng 2.6 Thê giao dịch thực tê =_ Đặt bàic 3toán: 1!(4Cho giao dịch thực tế với tập mục I = { il, i2, ,in}, tập giao dịch TID = {ti, c = t2, .,t'-'4 k} minsup = в, minconf= ß Hãy xác định luật kết hợp sở thông tin cho 32 37 36 34 35 33 Sup({Hinh hocTính })= count(Hmhhọc) 2^100%=50% TID Các mục giao dịch Bảng B_Item = Thuật toán độluật hỗ kết trợtrong cho ttập mục (Ck)cầuSup(X) Kết luận hai hợp thỏa mãnItem yêu đặt là: Đại Ta tồn có2.ỉtại =X т i= Maltem Tenltem Nhan Sup 1mục Đại số học —► Đại số 50% Độ hỗ trợ tậphọc số—»Hóa và(support) Hình Và tatacó bảng tập giao dịch cótrợ thểtrong có ởbảng bảng2.8 2.7sau sau: Tương có bảng tập độ hỗ 001 Acủa giao dịch hồ trợ X Hóa 100% ???? Độ hỗtự,trợ tập mục X, kímục hiệu làkết tỷ lệ phần trăm 2.4 Một số2 thuật toánhọc tiền xử lýsup(X) luật họp Thọccác mụcTập mục trong50% giao T??? Tập giaoXdịch Sup(X) 002 B dịch Hình tổng số31 giao dịch, nghĩa là:X giao Thuật tốn Nhập Item dịch (khơng có loại sách50% nào) (khơng có loại sách nào) 0% 003 ? Đại01 sơ, Hóa học c BƯỚC 1: CMđ(Xg I T l = ,} s»pỢ0= ' (2.1) 004 D ĐạiĐại 50% sô họcĐại sô 50% 2số, Hình Tạo bảng: ??Caid(T) E 3tính Hóa học, Hình học 50% ????? học 100% 3hỗ Hóa học Tạo 2005 mảng độHóa trợ Item Bảng 1- Tênđểbảng BI tem (Maitem C(5), Tenltem C(20), Nhan C(1)) Tập mục 2.8 Bảng 2.12 2.11lý2.9 săp xêp N biên BảngBảng Vật Khai kiểu Char đểđiên chứa nhãn 25% Vật lýphơ lan theobảng từ Trongbáo đó: mảng một4 chiều Mt_Nhan(n) Bướchàm Tạo luật hợp Hình tính độ tin tương cậy conf từngtacác luật Hình học)đếm %là n = Dùng nkiểu =5các Card(B_Item để biết Item, theo ví dụtrong số 50 Item SoNhan(n) Integer số số Item ứng giao 5kết để học B ltem: Bảng Item Giả sử { X, Y, ND_GD Z}; tạo giaodịch Đại (MaGD sơ,t = Hóa học 50% luật Bảng 2Tên bảng: B_GD C(5), C(30) {Gán Item} Đại sơ, Hóa học Maltem: Mã Item6 sau:i X —> Y->X, X->Z, Z->X, Y->Z, Z->Y, X->YZ, YZ^X, Đại 0% Y^xz, Trong For =đó: to n7Y, Item sơ, Vật lýĐại sơ, Vật lý Tenltem: Tên XZ->Y, sơ, HìnhMã họcgiao 50% B_GD : Bảng8giao dịch MaGD: dịch học =Đại 8B_Item.Nhan Đại sơ, Hình Nhan:Mt_Nhan(i) Nhãn Giả sử X* và9dung Y* làgiao tập mục tính conf từ gia cơng thức Hóa học,hạng lýcác 25nội % dung ND_GD: Nội -Vật gồm Item vào giao dịch Nhập Skip dịch Hóa học, Vậttham lý ItemEnd for su Xphải 10 học, 50 % cho bảng B_GD, saoHình cho học giao dịch {Gán đầu 0;Jcho mảng Conf(X*^Y> gcho , Hóa =bảng =học " Item = làAduy 10chặn học, Hình Nhậpgiá nộitrịdung này,SoNhan} khỉHóa nhập nhãn nên bắt đầu chữ sau đỏ theo supt(x ) aupiv/v ) iAJUiiiv/\ ) ) 11 nhập Vật lý, Hình bảng học 2.13 Bảng B_GD 25% Chẳng hạn, sau ta For i = to nltem 11 Vật lý, Hình học chiều tăng từ điển Và so sánh conf(X —>Y ) với minconf đê rút kêt luận có tơn X —>Y* 12 Đại sơ, Hóa học, Vật lý 0% SoNhan(i) = End for Sắp xếp nhãn theo từ12điển (chứcĐại sơ,sort Hóa học,thuật Vật tốn lý nỗi bọt) hay khơng 13 Đại sơ,THóa Học,từng Hình học 25% For i = 1hạn, To nsau For To {Dut Chẳng khii =nhập bảng 13 ta đượcĐại sơ,2.11 Hóasau: Học, Hình học Từ bảng 2.914 tập mục ta tìm Hóa phổ học, biến Vật lý, Hình họcđộ tin cậy conf: 25% giao dịch} Bảng B_Item Tenltem M altem Nhan 14 Hóa học, Vật lý, Hình học Conf(“Đại số” —> Vật “Hóalý,học”) sup(“Đại = 15 Hình=học, Đại sơsố” u “Hóa học”) / sup(“Đại0số”) % For j = To Card(ND_GD) 003 ? 15 c Vật lý, Hình học, Đại sơ sup(“ Đại số, Hóa học”)/ sup(“Đại số”)=(50%/50%)*100% =100% 0% 16 Đại sơ, Hóa học, Vật lý, Hình học MaGD ND_GD If Mt_Nhan (i) = ND_GD(j) then SoNhan(i) = SoNhan(i) + End 004 ?? 16 D học, Vật lý, Hình học Đại sơ,2.9 Hóa Bằng cách tính tương tự ta bảng Giả sử với mincoí = 60% Bảng 2.8 Bảngc,tậpDmục độ hồ trợ Ti for 002End for End for ??? B giao dịch có thê có Bảng 2.7 BảngA,tập TT Các luật kêt Conf >minconf T2 họp B, A c, E Độ Như Mt_Nhan (i) tin cậy conf 001 ta biết ???? SoNhan(i) Bước Tính độ hỗ trợ tập mục sup(X) X с I theo cơng i.Tìm sơnó —> Hóa học X saochia Bước tập mục phổ biến cho sup(X) minsup в dịch) Có A, cho B, c,T100% E > Để biết supĐại ta\ {Tlấy SoNhan(i) (Tsố giao 005 777779 E X R e e thức 2.1 sup(X) =—=1 —j !■ = Vhỗ trợ ta có bảng T4 2.8 E 50% Hóa học—>Đại sơBảng tập B, Khơng Nếu2 в2.11 =50% từ bảng mục độ tập mục FCác Bảng Item nhãn \ j R \ nhập с ountự«) Bảnghọc 13 Bảng giao 50% dịch ITI = Hóasau: học—>Hình Khơng phổ3biến 2.9 Chú trênnhãn mũ để chỉtừdữđiển liệutathực (bảng2.12 2.6).sau: Sauýkhi sắpRxếp theo đượctếbảng Dùng4 hàm Hình T = Card(B_GD).học Ví dụ ta số giao dịch T = Có Ta có, chẳng hạnhọc—»hóa ts: x={ Hình học}, tị bảng 2.6100% count ({Hình học }) =2 I từ — - -z z ' BảngR)=4 2.10vậy: Minh hoạ tốn phát luật kêt hợp bảng 2.6 count(T 40 3839 44 42 43 41 For i = 1ra From tocác n Lk_i thỏa as p, mãn p, Lkđộ _i as Để tìm tinq;cậy ß, dùng c công thức Cl luật c MaGD (TID) Nội dung giao dịch k_2 = Where (p.HạngMựCi = q.HạngMựCi) A A (p.HạngMục B_Item.Sup = SoNhan(i) /T Tập Card hạng mục X.Card SupCX Nhan (Tập hạng mục) Conf(X —» ) = ^ э mục X.Card Ti k_i = q.HạngMục A cTập Sup(X) q.HạngMục _i);hạng kD {AB}2 Skip End fork_2) A p.HạngMục A CardỌt и T) { A B C } Nổi LỊ với LỊ (tức lẩy tích Đe Tlại độ Nổi Lbớt L2 tỉnh > không B c2.14 Ethuộc{AC} vớicác Bước tập hợp Lk.j[3] b Ví dụ từ Loại bảng 2.11 2.13 tahỗtập LSup(x Ị Lj) Card cho tập haicác hạng mục cbảng В u } Cònf(X -» trợ ) =sẽ cho _ c ° 3= ỵ} = >1p { A B C E } Sup(X) T3 C a r d ( X ) A B c ECard(X) {AE}3 Tính c*,!* С C a r d Ợ ) Ị A C E Ị ck =0; T4 BE X {ВС} D B CNhan E Ị dịch Sup2 For all te Ck- DoTenltem Begin Maltem Bảng 2.18 {Các giao {BE}3 E Luật A—> С c = {c e c I (c-c[k]) e t.XAc-c[k-l] G t.x}; t 001 ???? k A {CE} 2/4 % Từ bảng 2.12 giao dịch ta có Bảng 2.16 Tập hạng mục độCi hỗ ++; trợ Card For all UngVien c e C ị Do c.count if (C ^0) t 002 B Á% о /А /“4\ n I/A /“4\ ??? ^c3 Conf(A —» == = > mục X = X.Card then (Jard(A) Ck+= < t.TID,I c t >; Tập hạng Sup(A) 003 ? 3/4 % T I D X (Tập hạng mục) Khi TừđãCcó c tính tập3 Cl sử dụng để tiến c hành thuật toán AprioriTID sau: 2.5 End C A Từ CSDL ban đầu tạo?? tập C] có Luật C—> A 004 D 1/4 % 200 L = {c e C t l c.count> minsup} Thuật toánhạng Apriori -Tid k mục {{B B c E }} { { B C E } } Từ bảng 2.12 giao005 dịch ta có ????? c E 3/4 % 300 Ghi chú:Giới q/П I/ trình tính tốn Count(TID) khơngc thay đổi Vì chúng3 ta 2.5.1 thiêu A r^\ rị TID X (Tập hạng mục) Conf(C —» ==của tập = > Bảng Bảng hô ừợ thay minsup sốtanguyên đócải thiện đótừ sup Item count [3] Ví dụ: Từ С Ị vàtốn cCard(C) chúng 2một ó tính Thuật Apriori -TID thuật Ti { { A CD } } tốn Apriori nhằm1tránh việc Giả sử ß = 0.5 C2 L { { В С } Дvới Tìm Lk lần theođểthuật AprioriTID saucác Luật B—> С tập phổ ЕCDSL }các Д Сtập Еhình } ứng2.12 duyệt database quábiến nhiều đếmtoán số lần xuất viên3như E В т2 Để ứng dụng 50% thuật tốn Aprioti-Tid ta có bảng CSDL 2.15.X.Card với sup = 50% Tập{ {hạng vớibảng minsup Từ 2.12=các giao dịch ta có А В mục },{А С },{А Е},{В С},{В giao dịch chuyển sang tập Ci bảng 2.16 (Trong Sup thay Card, có T nên Giả sử có bảng loại sách (Bảng 2.17) C}E=ДỊСQЕ } }= Conf(B —> =Ị B Е >2 т Thuật toán AprioriTID sử dụng Ck để tính độ hỗ trợ cho phần tử tập ck độ hỗ trợ tập XCard(tì) đó3 thay Card(X)): TID X (Tập hạng mục) {{BE}} Từ CSDL ban đầucác ứng từ C]viên chúng Luật C—> В có dạng với X thuộc mãETID BảngL2.13 = L tức j u làL u L = { { A } , { B } , { C c}k, tương { E } , ứng { A với C }giao , { Bdịch C }t,có{ B }, {C Л m л\ n tập tập có ta tạo2ra tập Cj Ti {{A},{C},{D}} Từ bảng 2.12 giaomục dịch ta có hạng hayEchúng thểvậy, viếtcác giao dịch không chứa {rút { Bra M C }(có , {E } , { B tac E } có Như luậtND_GD kết tamục) có thểNếu 14}t }luật): L(Hạng MaGD (TID) II M II > T 3được { Luật A }vào , {X.Card BC } ,k.{ C } , đó, { E }số } phần TT Luật dịch tTập TT tập ứng viên không Do hạng mục{đưa Ti (Xk = ) giao Ac D STT Tên sách {Nhãn {B},{E}} { A8Ctrong } tử củaTừckCcó thể cácnhỏ hạng {Аlượng B} ỊABEỊ CSLD, đặc 2biệt к lớn Khi T1hơn bỏ mụcsố cgiao E dịch Conf(C -> để có L2= 1= = Toán > { В С } A 2 Card(C) T c => A B =>Lc, A Bvụ c cho E việc xác định số phần tử Ck nhỏ số Ckphục k LEi nhanh duyệt Lý B { B10 E} Luật B—> E T34 B E B => c c => B, E Tập hạng mục X.Card CSDL [3] Hóa c, giao bỏ dịch 3tập hạng mục có sup < c {CE} Từ bảng 2.12Từcác ta có Bảng 2.15 Bảng CSDL 11 (Giao dịch) c =>B {A} E => B, c mỉnsup mục {D} 2.5.2 Thuât toán= 50% 4(bỏ tập hạng Văn D Conf(B —» có sup = Card({D})/Card(T) = V4= == = > {B} B, c => E = i50% để cỏ B LI => E 12 Card(tì) a Tính ck25% < mỉnsup Tin E /П 1/T> Tĩ\ n {C} E => B 13 Lk_i qua bước Bảng 2.17 Tên sách nhãn B, E => c {E} Từ bảng 2.12 giao dịch ta có 14 c, E => B Bước Nối L j với7chỉnh c => E c Luật E—> В k tạo từ k Select p.HạngMụci, p.HạngMục 1, rút q.HạngMụCk -1 Bảng 2.19 Các luật kêt hợp có thê 2, p.HạngMụCk- 3 45 Conf(E —> = /п 1/Т> Т7\ Carü(b) ó п = = > Luật C — > E Từ bảng 2.12 giao dịch ta có Conf(C —» = /~1 _1/V4 T7\ Card(C) Л = = > Luật E—> С Từ bảng 2.12 giao dịch ta có Conf(E —» = Л _] /Г* T"7\ Card(b) О = = > Luật С, E Từ bảng 2.12 giao dịch ta có Л _1 m ГУ T~ĩ\ n Conf(B —> = = = > Card(tì) ỏ Luật C — > B , E Từ bảng 2.12 giao dịch ta có Conf(C —» = 1/Tỉ ể~1 T7\ Л Card(C) = = > = > Luật E—> В, С Từ bảng 2.12 giao dịch ta có Conf(E —> - Л _1 m ГУ T~ĩ\ Л Card(h-) = ỏ Luật B, C—> E Từ bảng 2.12 giao dịch ta có /П _í/Ti /п T7\ Л Conf(B,C —» == => uard(tí,Ụ) Luật BE—> С Từ bảng 2.12 giao dịch ta có Conf(B,E —> = /-Ч /Tí n T7\ Сагсць Ü ) = '"ì = > 47 46 Luật C E — giao >B có dịch lớn (trong ví dụ tập X giao dịch có TID 300 có số Từ bảng 2.12 giao dịch ta có thành viên kho CSDL có item) Với к lớn, số phần tị Conf(C,E ->• = /П l/T» /П T~ĩ\ n = = > nhỏ so với số giao dịch CSDL; tập X (ứng phần tị Card(C Ü) Ck ) ck có số lượng thành viên nhỏ số item giao dịch tương ứng Kết luận tồn 14 luật kết hợp thỏa mãn yêu cầu đặt ra, ta thay ngược lại bảng CSDL số phần tử Ck không nhiều к lớn khả ứng 2.13 nhãn sách tên sách ta có bảng 2.14 viên tập ck có giao dịch nhỏ TT Luật TT Luật Kết chạy thử nghiệm R Agrawal cho thấy với к nhỏ, thuật tốn Tốn => Hóa Tin => Hóa Apriori chạy nhanh thuật tốn ApioriTID, ngược lại với к lớn thuật tốn Hóa => Tốn Lý => Hóa, Tin AprioriTID chạy nhanh Khi к nhỏ, số lượng phần tử Ck không Lý => Hóa 10 Hóa => Lý, Tin nhanh so với dựa CSDL; phần tử ck có tập X lớn nên Hóa => Lý 11 Tin => Lý, Hóa thịi gian để tính tốn Ck, tập Ck chiếm nhớ lớn nên vượt khả lưu Lý => Tin 12 Lý, Hóa => Tin trữ nhớ phải nên máy Tinvà=> Lý sử dụng bộ13nhớ ngồi Lý, Tin =>mất Hóathêm thời gian đọc ghi đĩa Do đó,7thuật tốn chạy14 chậm Hóa, кTin nhỏ.=>Khi Hóa AprioriTID => Tin Lýк lớn, số phần tử ck nhỏ số giao dịch của2.20 CSDL việcthỏa tính mãn độ hỗ trợ dựa Ck nhanh so Bảng Cácnên tập luật ß> với dựa trênßCSDL; tập Ck nhỏ lại, khơng cần sử dụng đến nhớ ngồi Do đó, thuật Giả sử tăng > tốn AproriTID Kết luận chạy tồn tạinhanh luậtkhi kếtк hợp lớn [3] thỏa mãn u cầu đặt là: Tốn —> Hóa; Lý —> Tin; chương Tin —>2Lý; Lý, Hóa —> Tin Hoá, Tin —> Lý Kết luận 2.5.3 Nhân Một xét nội dung khai phá liệu phổ biến phát luậtsốkết hợp.tửPhương nhằmdịch tìm CSDL; tập phầntập tử X thường Vớicác k=l, phần Cj pháp bằngnày số giao (ứng xuất đồng sở dữthành liệu rútbằng cácsốluật vềtrong ảnh hưởng phần dẫn phần tử củathời c, )trong có sốcơlượng viên item giao dich tương ứngtửtrong đến xuất (hoặc tập) phần tử khác Bên cạnh đó, nhu CSDL cầu khai phá liệu gia tăng cần thiết kích thước lưu trữ liệu Với к nhỏ (k>l), số lượng phần tị C k nhỏ khơng đáng kể so ngày nhiều nên đòi hỏi tốc độ xử lý dung lượng hệ thống phải đảm với số giao dịch CSDL; tập X (ứng mồi phần tử C k ) có số lượng thành bảo, thế, u cầu cần có thuật toán hiệu cho việc phát luật kết họrp viên lớn số item giao dịch tương ứng CSDL số phần tử Ck nhiều к nhỏ khả ứng viên tập Ck 48 Trong chương trình bày tổng quan khai phá liệu, khai phá luật kết họp Chương cung cấp hiểu biết cần thiết tốn khai phá luật kết hợp Đặc biệt trình bày số thuật tốn tiền xử lý thơng tin luật kết hợp từ áp dụng thuật tốn AprioriTid tìm luật kết họp mơn học học sinh để từ thiết kế ứng dụng tìm kiếm tài liệu liên quan chủ đề cho học sinh chương sau 49 53 51 50 52 55 54 56 able -khai dbK>-B_GD-Ị^ummary ^|_ Chương Item ỨNG DỤNG LUẬT KẾT HỢP TÀI LIỆU KẾT LUẬN 3.3.4 Chức Giả tải tăng dữtrên độ liệu: tin conf = 70% thìCHỈ bảngDẪN tập luật giảm 169 3.3.6 Chức phá cậy liệu b Tính 3.3.2 Tạosử bảng phần mền SQL Ma GD o • • • N D_ GD • Ck =0;LIÊN CHỦ ĐỀ TẠI TRƯỜNG THPT HÙNG AN luật Trong phần QUAN mền SQL ửta tạo bảng gồm có ba trường là: Maltem, Tenltem Các kết đạt 'ải liệu Tập luậtFor all te C k - Do Begin Nhan phá liệu cơng đoạn tiến trình 3.1 uHiểu cầu bàikhai tốnLuat +- lớn, tiến trình STT c = {c e c I (c-c[k]) e t.XAc-c[k-l] G t.x}; aa A rB j Cj D j E T IO C ^ D^ E r F r Gj H TI T1 Z A ^ Dj - E t k e - bo.BJtem '"'Summary ] ► toán: van —> Dia Nhan Maltem Tenltem khámBài phá tri thức CSDL Af Bj D j E lớp Gj H KhiT1từsoạn giáo môn 10++; trường THPT Hùng An, For allán UngVien c Ghọc c.count if (C t ^0) t Dotải Hĩnh 3.4 Chức liệu Người dùng tải liệu T1 A D.E F.G van A ► van -> Su /Tabl T1 cần lên Nắm phương pháp phá loại sách nàocác để hỗ trợ Ck+= soạn môn này? then < khai t.TID, c t >; liệu:BPhương pháp sử dụng 002—> Anh studio van LY phần mền visual cách nhấn vào nút "tải liệu", hệ thống tải liệu từ End Hình 3.7 Chức khai phá liệu Giả sử liệu đầu vào Q03 chiện luật định lật,giao phương quy phát dịch pháp van —> Hoa Cho thực tế vớinạp, cácphương tậpToan mụcpháp I bảng 3.1, kết tập hợp giao dịch TID sở liệu SQL item giao dịch = {c minsup Gvan Cjfc I= c.count > Dia minsup} 004 —> Item 20 giao 50% conf = 50%, taD thực chức “khai phá” 5Lkdịch Sinhvà Item Giao dịchđề khai phá luật kết hợp, từ Trong văn trình bày chi tiết vấn bảng 3.2luận minsup = 0, minconí Su = P Hãy xác Q05 -> Hoa E định luật kết họp sở Anh liệu ta bảng tập luật gồm 238 luật 006xuất phát đến khái niệm sở, Toan — > Hoa Ly mơ hình thức,F thuật tốn khai phá luật kết họp thơng tin chotốn Tậpcơ luật Bước 3:7đã Dùng ngôn ngữ visual studio 007 Hoa G Dia —> Su Ma Tenltem Nhan MaG ND GD Cụ thể mục cho 3.1: từ xây dựng được008 chương trình thửbảng nghiệm ứng dụng luật kết hợp tìm kiếm tài Item Sinh H 3.3 chương trình thử nghiệm ► Xây 001 dựng Van A Dìa ► TI A,B C,D,E,F,G,H Su —> NHL Anilchủ đề * MAI B T10 NULL C,D,E,F,G,H liệu002 liên/lable quan - dbo.B_Item ^ấummary 10 chính: Dìe —> Ly STT Luat 3.3.1.003Giao diên Toan T11 D.E.F.G.H c Nhan 004 DiaMaltem D Tenlbem T12 A O E , F G H Hướng phát triển ► giao diện van -> Dĩa Item, giao dịch, tập luật 005Đây Su T13có B,C,D,G,H E chương trình gồm ► 001 van A Hình 3.2Lycơ Bảng kết Itemquả giao Dĩa -> Tạo van 006 F3.3.3 T14 A B.D E Gmột H số vấn đề cần tiếp Trên sở2 luận vănbảng đạt Hoa được, tôidịch nhận thấy 162 SUgL^Sinh -> Dĩa, c r ■ • — ì o o “Tie A r Cj - E r F j- G T1 E T1 E iJDJE T1 A rB j Cj E TZ A r Cj D j E r FJGJH r l =^ i ^ r FrG Tao T3 A rB j Cj D j Fj - Gj H ~T^ A rB j Cj D j E rGj H E i j- Cj D j Er F,^ G ^ H T5 T6 A f D j E rF j Gj H A r Dj E 1 T3 A rB j E pF r G r H T9 E i J D J E ,- FJ- GJ- 1—1 J I I 1 -■VL.i: z 007 cận 008 Hoa G Anh 002 B T15 A , D , E , F , G van -> Su Dìa.Ly phần 163 nghiên Sinh cứu sâuSu.Hoa.Sình Hcác thuật-> toán khaimền phá T16SQL luật A,C,E,F,G kết họp, tìm cách khắc phục Su -> van 003 Toan c T17 E.F.G.H Bảng164 3.2 CácLy.Hoa.Sinh giao dịch tài liệu tham khảo để soạn giáo —>làDĩa,Su mền ta —> tạo bảng gồmT1S có hai trường là:vào MaGD toán Trong nhược phần điểm hiệnSQL cóvan thuật tốn AprioiTid, để áp dụng B.D^.F.G Ly Dĩa^u^y^Hoa —> Sinh DT19 A , B , C , E , F , G 165 004 Dia trình cho lớp 10 trường THPT Hùng An Từ bảng ta giải Lynay —>như: van—ỉ> ND_GD phù hợp cho 005 giai6 đoạnDĩa^i^L^SỈnh quy Hoa luật Ethị chứng khoán bất động 166 T2 trường, AAD.E.F.G.H Su 'Table dtm^GPỊ^ăummary í| _ T20 A,B,C, Ữ,E,F ,G,H toán cách thực —> bước sau:Ly van Hoa—> Dia^i^Hoa.Sinh 167 °Jsản, KHAI PHÁ LUÂT KỂT HỢP dự doán rủi tín dụng, y tế T3 A.B.C.D.F.G.H 006 LY F KHAI PHÁ LUẬT 168 KỂT8 HỢP Dìa.Ly.Hoa.Sinh Hoa van—>■ Su = A.B.C.D.E.G.H 3.2 Cách giải yêu cầu của— bài5-toán A BT4 C,D E F G,H MẴ 1007 Hoa G Đặc biệt làrrrhồnSu, chỉnh chương mơ EđểF ứng dụng rrrmáy Ly,Giao Hoa Sình — Đề T ÌO 169 J.D f GTậpl—1 luật ‘>c r-Dia h đơn dịch ^trình r J r r J r í r Maltem Tenltem Nhan MaG ND_GD ' TI DrE^rGíH Bước Dựa vào sở liệu SQL Microsoft office Bước II Van 1:008 |l tD E,F Sinh inẠ, B,C H PTÌT^Hmạng A G H AfDjEjFjGjH T12 ► En Hình 3.5 Các Giao dịch Và Item 002 Anh B T10 C D E,F,G H 230 Su, Ly, Hoa -> Dĩa,Sình T13 ApiioriTid BíC.D^GrH 003 Toan vào thuật D.E.F.G.H c 2:* Dựa toán NHL NHLmT12 NLconf = 0.7 Hình 3.9 Bảng luật 004 Dia Ạ,D E,F,G H tậpA, T14 B , D E G , H 231 Su L Ỵ ,Sinh —> Dĩa, Hoa 3.3.5 Nhập 005 SuMỉnsup E Conf T13 B,G,D,G,H A D,E F" r G T15 006 Ly F T14 Ạ.B.D.E.G.H a Tính cchương k Hoa Sii.Hoa.Sinh —í- Dĩa,LyA, c f= , G T15 A,D,E,F,G Kết luận007 3232cóGHdữ liệu T 16 008 Sinh T16 AjC.EjF.G Sau đầu vào Item giao dịch người sử dụng Ti'7 233 Ly, Hoa, T17 SinhE,F,G,H -> Dia^SuF F G H ck tạo tò L k_i qua bước T18 B D E,F,G B,DjE FjG tìm kiếm tài liệu liên quan toán áp dụng T19Conf Ạ,B,C E,F G Sĩnh 234 Dĩa.SLi.Ly.Hoa nhập độCài Bảng hỗ đặt trợ3.1 Minsup Cácthuật mục Tia độ tinApríoriTid cậy dùng để —> khai phá luật kết u hợp T2 Ạ,C,D E F G H T19 A BjC,E,F,G T20 A,B,C D E,F G H Bước Nổi L với nỏ k.j 235 T2 Dĩa,Su, Ly.Sính — 5- HoaA.C.D.E.F.GjH chủ đề Dựa vào kết chúng T3 ta ^biết loại sách có liên quan tỏi T4 thực Ạ,B,C D Etê) G H cho Và giao236 dịch (khi T20 khảo sát A,B,C.D,E,f=.G,M bảng 3.2 Dĩa,Su,1-1 oa,Sình -> Ly Select p.HạngMựCi, p.HạngMục *1 ru k_i, q.HạngMụck_i 2, p.HạngMục T3 ,H MinS phục vụ cho mục đích học tập 237 Dia, Ly Hoa.Sinh —5- Su I := T-* A -B C,D -E G H MirSup 05 From Lk_i asup p, p, T5 Lk_i as q; BiCjDjEjFjGjH 238 giáo trình Su, Ly, Hoa,Sinh —>tại Dĩatrường THPT Hùng An cần Chẳng hạn: Khi soạn Hóa lớp 10 Tõ AfDjEjFfGjH Conỉ Where (p.HạngMựCi = q.HạngMựCi) k_2 = Hoa.Sinh Dia.Su.Hoa —> Ly.Sinh Dĩa.Su.Sinh -> Ly.Hoa Dia.Ly.Hoa —> Su.Sinh Dĩa.Ly.Sĩnh -> Su.Hoa Dia.Hoa.Sinh —> Su.Ly Su.Ly.Hoa -> Dia.Sinh Su.Ly.Sinh —> Dia.Hoa Su.Hoa.Sinh -> Dia.Ly Ly.HoajSinh -> Dia.Su Dia,Su,LY,Hoa —> Sinh Dia.Si^L^Sinh -> Hoa Dia.Su.Hoa.Sinh —> Ly Dia.Ly.Hoa.Sinh — > Su g Su,Ly,Hoa,Sinh —> Dia

Ngày đăng: 10/05/2016, 09:05

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w