Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
1,66 MB
Nội dung
VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ NGUYỄN TUẤN ANH NGHIÊN CỨU PHÁT TRIỂN PHƯƠNG PHÁP KHAI PHÁ LUẬT KẾT HỢP MỜ BIỂU THỊ BẰNG THÔNG TIN NGÔN NGỮ VÀ ỨNG DỤNG Chuyên ngành: Cơ sở toán học cho tin học Mã số: 62 46 01 10 TÓM TẮT LUẬN ÁN TIẾN SĨ TỐN HỌC HÀ NỘI – 2020 Cơng trình hồn thành tại: Học viện Khoa học Công Nghệ Viện Hàn lâm Khoa học Công nghệ Việt Nam Người hướng dẫn khoa học 1: PGS TSKH Nguyễn Cát Hồ Người hướng dẫn khoa học 2: TS Trần Thái Sơn Phản biện 1: PGS.TS Trần Đình Khang Phản biện 2: PGS.TS Nguyễn Hải Châu Phản biện 3: TS Phạm Thanh Hà Luận án bảo vệ trước Hội đồng chấm luận án tiến sĩ, họp Học viện Khoa học công nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam vào hồi … …, ngày … tháng … năm … Có thể tìm hiểu luận án tại: - Thư viện Học viện Khoa học công nghệ - Thư viện Quốc gia Việt Nam CÁC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN [1] Trần Thái Sơn, Nguyễn Tuấn Anh, “Nâng cao hiệu khai phá luật kết hợp mờ theo hướng tiếp cận đại số gia tử", Kỷ yếu hội nghị quốc gia lần VI nghiên cứu ứng dụng công nghệ thông tin (Fair) Huế, 6/2013 [2] Tran Thai Son, Nguyen Tuan Anh, “Improve efficiency fuzzy association rule using hedge algebra approach, Journal of Computer Science and Cybernetics, Vol 30, No 4, 2014 [3] Tran Thai Son, Nguyen Tuan Anh, Hedges Algebras and fuzzy partition problem for qualitative attributes, Journal of Computer Science and Cybernetics, V.32, N.4, 2016 [4] Tran Thai Son, Nguyen Tuan Anh, Partition fuzzy domain with multigranularity representation of data based on Hedge Algebra approach, Journal of Computer Science and Cybernetics, vol 33, pp 63-76, 2017 MỞ ĐẦU Bài toán khai thác luật kết hợp hướng nghiên cứu quan trọng sớm nghiên cứu phát triển hướng nghiên cứu khai phá liệu Trong năm gần nhiều giải thuật được phát triển theo nhiều hướng khác chủ yếu xoay quanh hai hướng chính: (i) Cải tiến tốc độ trung bình thuật tốn khai phá luật thơng thường, tốn có độ phức tạp hàm mũ phải quét CSDL nhiều lần (ii) Nghiên cứu sâu ý nghĩa luật khai phá ta thấy khơng phải luật khai phá có ý nghĩa đối vời người sử dụng Luật kết hợp mờ có dạng: Luật kết hợp mờ có dạng: “Nếu X A Thì Y B” “X A” gọi tiền (tiên) đề, “Y B” gọi kết luận luật 𝑋 = {𝑥1 , 𝑥2 , … , 𝑥𝑝 }, Y= {𝑦1 , 𝑦2 , … , 𝑦𝑞 } tập mục tập tập thuộc tính I CSDL 𝐴 = {𝑓𝑥1 , 𝑓𝑥2 , … , 𝑓𝑥𝑝 }, B= {𝑓𝑦1 , 𝑓𝑦2 , … , 𝑓𝑦𝑞 } tập mờ tương ứng thuộc tính X, Y Phân chia miền xác định thuộc tính bước khởi đầu quan trọng cho trình xử lý thông tin Gần đây, nhà nghiên cứu ý đến việc nghiên cứu xây dựng tập hàm thuộc thấy rõ tầm ảnh hưởng công đoạn lên công đoạn Luận án nghiên cứu phương pháp khai phá tri thức dạng luật kết hợp mờ với thông tin ngôn ngữ (luật dạng ngôn ngữ) từ CSDL hay kho liệu số Chúng sử dụng Đại số gia tử (ĐSGT) thay cho lý thuyết tập mờ để nghiên cứu số vấn đề khai phá luật kết hợp: (i) Luật kết hợp mờ nghiên cứu số nhược điểm kể việc xây dựng thuật toán nhằm tăng tốc độ xử lý toán phân hoạch mờ miền xác định thuộc tính nằm đưa luật kết hợp có ý nghĩa (ii) Với biểu diễn liệu khác nhau, ĐSGT cho cách tiếp cận thống đơn giản mà có hiệu cao xử lý Mục đích nghiên cứu: - Nghiên cứu phương pháp biểu thị ngữ nghĩa khái niệm mờ (các từ ngôn ngữ mờ) thông qua hàm thuộc (tập mờ) phương pháp tốn học khác cho biểu thị ngữ nghĩa khái niệm phù hợp - Nghiên cứu phương pháp khai phá tri thức nói chung luật mờ nói riêng - Nghiên cứu cách biểu diễn liệu khác thơng tin để khai phá luật kết hợp cách đa dạng, mang nhiều ý nghĩa Luận án sử dụng biểu diễn liệu đơn thể hạt đa thể hạt, phù hợp với ý ngày gia tăng hướng nghiên cứu CHƯƠNG MỘT SỐ KIẾN THỨC CƠ SỞ 1.1 Tập mờ phép toán tập mờ 1.1.1 Tập mờ (fuzzy set) Định nghĩa 1.1: Cho U vũ trụ đối tượng Tập mờ A U tập cặp có thứ tự (𝑥, 𝜇𝐴 (𝑥)), với 𝜇𝐴 (𝑥) hàm từ U vào [0, 1] gán cho phần tử x thuộc U giá trị 𝜇𝐴 (𝑥) phản ảnh mức độ thuộc x thuộc vào tập mờ A 1.1.2 Biến ngôn ngữ 1.1.3 Phân hoạch mờ Chúng ta có định nghĩa phân hoạch mờ sau: 1) Định nghĩa 1.3: Cho m điểm cố định 𝑝1 , 𝑝2 , … , 𝑝𝑚 thuộc tập 𝑈 = [𝑎, 𝑏] ⊂ 𝑅 không gian tham chiếu biến sở 𝑢 biến ngơn ngữ 𝑋 Khi tập 𝑇 gồm m tập mờ 𝐴1 , 𝐴2 , … , 𝐴𝑚 định nghĩa 𝑈 (với hàm thuộc tương ứng 𝜇𝐴1 , 𝜇𝐴2 , , 𝜇𝐴𝑚 ) gọi phân hoạch mờ 𝑈 điều kiện sau thoả mãn, ∀𝑘 = 1, … , 𝑚:𝜇𝐴𝑘 (𝑝𝑘 ) (𝑝𝑘 thuộc phần gọi lõi 𝐴𝑘 ); 2) Nếu x ∉ [𝑝𝑘−1 , 𝑝𝑘+1 ] 𝜇𝐴𝑘 (𝑥) = 3) 𝜇𝐴𝑘 (𝑥) liên tục; 4) 𝜇𝐴𝑘 (𝑥) đơn điệu tăng [𝑝𝑘−1 , 𝑝𝑘 ]; 5) ∀𝑥 ∈ 𝑈, ∃𝑘, cho 𝜇𝐴𝑘 (𝑥) > 0; Nếu phân hoạch mờ thoả mãn thêm điều kiện 6) gọi phân hoạch mờ mạnh 6) ∀𝑥𝜖𝑈, ∑𝑚 𝑘=1 𝜇𝐴𝑘 (𝑥) = 1; Nếu phân hoạch mờ thoả mãn thêm điều kiện 7), 8), 9) gọi phân hoạch 7) Với 𝑘 ≠ 𝑚 ℎ𝑘 = 𝑝𝑘+1 − 𝑝𝑘 = số 8) Các tập mờ 𝜇𝐴𝑘 (𝑥) hàm đối xứng 1.2 Các tập mờ 𝝁𝑨𝒌 (𝒙) có dạng hình họcĐại số gia tử 1.2.1 Khái niệm Đại số gia tử Định nghĩa 1.4: Một ĐSGT ký hiệu thành phần ký hiệu 𝐴𝑋 = (X, G, H, ≤) đố G tập phần tử sinh, H tập gia tử (hedge) " ≤ " quan hệ cảm sinh ngữ nghĩa X Giả thiết G có chứa phần tử 0, W, với ý nghĩa phần tử bé nhất, phần tử lớn phần tử trung hoà (neutral) X Ta gọi giá trị ngôn ngữ 𝑥 ∈ 𝑋 hạng từ ĐSGT Tập H gồm H − = {ℎ−1 < ℎ−2 < ⋯ < ℎ−𝑞 } 𝐻 + = {ℎ1 < ℎ2 < ⋯ < ℎ𝑝 } 1.2.2 Định lượng ngữ nghĩa giá trị ngôn ngữ Định nghĩa 1.5: Cho AX = (𝑋, 𝐺, 𝐻, ≤) ĐSGT tuyến tính Ánh xạ 𝑣𝔵 : 𝑋 → [0,1] gọi hàm định lượng ngữ nghĩa AX nếu: (i) 𝑣𝔵 ánh 1-1 từ tập X vào đoạn [0,1] bảo toàn thứ tự X, tức ∀𝑥, 𝑦 ∈ X, 𝑥 < 𝑦 ⇒ 𝑣𝔵 (𝑥) < 𝑣𝔵 (𝑦) 𝔳𝔵 (0) = 0, 𝔳𝔵 (1) = (ii) 𝑣(𝑿) liên tục: trù mật [0,1], nghĩa ∀(𝑎, 𝑏) ≠ ∅ (𝑎, 𝑏) ⊆ [0,1], (𝑎, 𝑏) ∩ 𝑣𝔵 (𝑿) ≠ ∅ Định nghĩa 1.6: Một hàm dấu 𝑆𝑖𝑔𝑛 ∶ X {−1,0,1} ánh xạ định nghĩa đệ qui sau, ℎ, ℎ′ H 𝑐 {𝒄− , 𝒄+ }: (1) 𝑆𝑖𝑔𝑛(𝑐 − ) = −1, 𝑆𝑖𝑔𝑛(𝑐 + ) = 1; (2) 𝑆𝑖𝑔𝑛(ℎ𝑐) = −𝑆𝑖𝑔𝑛(𝑐) h âm c; 𝑆𝑖𝑔𝑛(ℎ𝑐) = 𝑆𝑖𝑔𝑛(𝑐) h dương c; (3) 𝑆𝑖𝑔𝑛(ℎ′ℎ𝑥) = −𝑆𝑖𝑔𝑛(ℎ𝑥), ℎ′ℎ𝑥 ℎ𝑥 ℎ′ âm ℎ; 𝑆𝑖𝑔𝑛(ℎ′ℎ𝑥) = 𝑆𝑖𝑔𝑛(ℎ𝑥), ℎ′ℎ𝑥 ℎ𝑥 ℎ′ dương ℎ; (4) 𝑆𝑖𝑔𝑛(ℎ′ℎ𝑥) = 0, ℎ′ℎ𝑥 = ℎ𝑥 Định nghĩa 1.7: Cho AX ĐSGT tuyến tính đầy đủ 𝑓𝑚 độ đo tính mờ X Ta nói ánh xạ 𝔳𝔵 : 𝑋 [0,1] cảm sinh độ đo tính mờ 𝑓𝑚 định nghĩa đệ qui sau: (1) 𝑣𝔵 (𝑊) = = 𝑓𝑚(𝑐 − ), 𝑣𝔵 (𝑐 − ) = – 𝑓𝑚(𝑐 − ) = 𝑓𝑚(𝑐 − ), 𝑣(𝑐 + ) = + 𝑓𝑚(𝑐 + ); (2) 𝑖−𝑠𝑖𝑔𝑛(𝑗) 𝑣𝔵 (ℎ𝑗 𝑥) = 𝑣𝔵 (𝑥) + 𝑆𝑖𝑔𝑛(ℎ𝑗 𝑥) {∑𝑖=𝑠𝑖𝑔𝑛(𝑗) 𝜇(ℎ𝑖 )𝑓𝑚(𝑥) − 𝜔(ℎ𝑗 𝑥)𝜇(ℎ𝑗 )𝑓𝑚(𝑥)}, với j, −𝑞 ≤ 𝑗 ≤ 𝑝 𝑗 0, 𝜔(ℎ𝑗 𝑥) = [1 + 𝑆𝑖𝑔𝑛(ℎ𝑗 𝑥) 𝑆𝑖𝑔𝑛(ℎ𝑝 ℎ𝑗 𝑥) (𝛽 − 𝛼)] ∈ {𝛼, 𝛽}; 1.3 Bài toán khai phá luật kết hợp 1.3.1 Một số khái niệm Cho 𝐼 = {𝐼1 , 𝐼2 , , 𝐼𝑚 } tập hợp m tính chất riêng biệt Giả sử D CSDL, với ghi chứa tập T tính chất, ghi có số riêng Một luật kết hợp mệnh đề kéo theo có dạng 𝑋 → 𝑌, 𝑋, 𝑌 ⊆ 𝐼, thỏa mãn điều kiện 𝑋 ∩ 𝑌 = ∅ Các tập hợp X Y gọi tập hợp itemset Định nghĩa 1.10: Một luật kết hợp mệnh đề kéo theo có dạng 𝑋 → 𝑌, 𝑋, 𝑌 𝐼 X Y gọi tập mục (itemsets), thỏa mãn điều kiện 𝑋 ∩ 𝑌 = ∅ Tập X gọi nguyên nhân, tập Y gọi hệ Có độ đo quan trọng luật kết hợp: Độ hỗ trợ độ tin cậy Định nghĩa 1.11: Độ hỗ trợ tập mục X: Đỗ hỗ trợ tập mục X tỷ lệ số lượng ghi D chứa tập mục X với số ghi D |𝑋| (1.1) 𝑆𝑢𝑝𝑝(𝑋) = |𝐷| Định nghĩa 1.12: Độ hỗ trợ luật 𝑋 → 𝑌: Độ hỗ trợ luật kết hợp 𝑋 → 𝑌 tỷ lệ số lượng ghi chứa tập hợp 𝑋 ∪ 𝑌, so với tổng số ghi D |𝑋∪𝑌| (1.2) 𝑆𝑢𝑝𝑝(𝑋 → 𝑌) = 𝑃(𝑋 ∪ 𝑌) = |𝐷| Định nghĩa 1.13: Độ tin cậy luật 𝑋 → 𝑌: Độ tin cậy luật kết hợp 𝑋 → 𝑌 tỷ lệ số lượng ghi D chứa 𝑋 ∪ 𝑌 với số ghi D chứa tập hợp X 𝑆𝑢𝑝𝑝(𝑋 ∪ 𝑌) (1.3) 𝑐𝑜𝑛𝑓(𝑋 → 𝑌) = 𝑆𝑢𝑝𝑝(𝑋) 1.3.2 Bài toán luật kết hợp mờ Cho 𝐷𝑇 = {𝑡1 , 𝑡2 , … , 𝑡𝑛 } CSDL giao dịch, n tổng số ghi D Cho 𝐼 = {𝑖1 , 𝑖2 , … , 𝑖𝑚 } mục, với mục 𝑖𝑗 (1 ≤ 𝑗 ≤ 𝑚) thuộc tính hạng mục thuộc tính định lượng Một tập thuộc tính mờ cặp 〈𝑍, 𝐶〉 với Z tương ứng tập thuộc tính zj C tương ứng tập tập mờ 𝑐𝑗 Nếu luật kết hợp mờ 𝑋 𝑖𝑠 𝐴 ⇒ 𝑌 𝑖𝑠 𝐵 gọi tin cậy thảo mãn độ hỗ trợ 𝐹(𝑍,𝐶) độ tin cậy 𝐹𝐶((𝑋,𝐴),(𝑌,𝐵)) , với 𝑍 = 𝑋 ∪ 𝑌, 𝐶 = 𝐴 ∪ 𝐵 Độ hỗ trợ mờ tập mục 〈𝑍, 𝐶〉 ký hiệu 𝑓𝑠(〈𝑍, 𝐶〉) xác định theo công thức: 𝑓𝑠(〈𝑍, 𝐶〉) = 𝑖 ∑𝑛𝑖=1 ∏𝑚 𝑗=1(𝑡 [(𝑥𝑗 , 𝑎𝑗 )]) (1.4) 𝑛 Trong m số lương tập mục tập mục (𝑍, 𝐶) Độ tin cậy mờ xác định theo công thức sau: 𝑓𝑠(𝑍, 𝐶) 𝐹𝐶((𝑋,𝐴),(𝑌,𝐵)) = 𝑓𝑠(< 𝑋, 𝐴 >) (1.5) Thuật toán khai phá luật kết hợp mờ dựa thuật toán Apriori: Thuật toán khai phá luật kết hợp mờ chia làm hai pha sau: Pha 1: Tìm tất tập thuộc tính mờ phổ biến dạng 〈𝑍, 𝐶〉 có độ hỗ trợ lớn độ hỗ trợ cực tiểu người dùng nhập vào: 𝑓𝑠(〈𝑍, 𝐶〉) ≥ 𝑓𝑚𝑖𝑛𝑠𝑢𝑝 Pha 2: Sinh luật kết hợp mờ tin cậy từ tập phổ biến tìm thấy pha thứ Pha đơn giản tốn thời gian so với pha Nếu 〈𝑍, 𝐶〉 tập thuộc fc tính mờ phổ biến luật kết hợp sinh từ X có dạng: Z ′ is C ′ → Z\Z ′ is C\C ′ Với Z' tập khác rỗng Z, Z\Z' hiệu hai tập hợp, C' tập khác rỗng C tập tập mờ tương ứng với thuộc tính Z', C\C' hiệu hai tập hợp, 𝑓𝑐 độ tin cậy luật thỏa mãn: 𝑓𝑐 ≥ 𝑓𝑚𝑖𝑛𝑐𝑜𝑛𝑓 1.4 Kết luận Trong chương này, luận án tóm tắt kiến thực sở làm tảng phục vụ trình nghiên cứu Nó bao gồm nội dung sau: - Lý thuyết tập mờ bao gồm khái niệm tập mờ, phương pháp xây dựng tập mờ, biến ngôn ngữ, phân hoạch mờ, - Hệ thống lý thuyết ĐSGT với khái niện tảng như: ĐSGT, ĐSGT tuyến tính, ĐSGT tuyến tính đầy đủ, độ đo tính mờ gia tử, phần tử sinh, phương pháp xác định giá trị định lượng từ ngôn ngữ, khoảng tính mờ, - Một số khái niệm luật kết hợp, luật kết hợp mờ số hướng nghiên cứu khai phá luật kết hợp mờ - Với kiến thức sở trình bày chương trình tảng đủ để thực mục tiêu đặt luận án CHƯƠNG KHAI PHÁ LUẬT KẾT HỢP MỜ THEO HƯỚNG TIẾP CẬN SỬ DỤNG ĐẠI SỐ GIA TỬ Trong chương luận án đề xuất ứng dụng ĐSGT đề xuất giải pháp nén CSDL giao dịch mờ nhằm tạo CSDL giao dịch có kích thước nhỏ Với phương pháp giúp tìm luật kết hợp mờ dạng ngôn ngữ gần gũi với người giảm thời gian khai phá luật kết hợp 2.1 Đặt vấn đề Gần đây, thuật toán sử dụng cách nén liệu CSDL nhị phân cung cấp giải pháp tốt giảm yêu cầu không gian lưu trữ thời gian xử lý liệu Jia - Yu Dai (2008) đề xuất thuật toán nén CSDL giao dịch nhị phân gọi M2TQT Ý tưởng thuật toán là: gộp giao dịch có quan hệ gần để tạo thành giao dịch mới, kết thu tạo CSDL có kích thước nhỏ hơn, giảm thời gian xử lý liệu, giảm không gian lưu trữ Thuật toán M2TQT đánh giá tốt phương pháp đề xuất trước Tuy nhiên thuật toán M2TQT thực với CSDL nhị phân Nhằm nâng cao hiệu khai phá luật kết hợp, luận án đề xuất phương pháp khai phá luật kết hợp mờ theo cách tiếp cận ĐSGT, sử dụng cách nén liệu cho CSDL Với cách tiếp cận này, giao dịch gần gộp lại để tạo thành giao dịch mới, làm giảm kích thước (chiều ngang) CSDL đầu vào Thực nghiệm cho thấy, cách tiếp cận cho kết tốt cách tiếp cận có Nội dung chương này, luận án trình bày cách thức mờ hóa thuộc tính mờ theo hướng tiếp cận ĐSGT, thuật toán nén CSDL mờ, thuật toán khai phá luật kết hợp mờ với CSDL nén 2.2 Khai phá luật kết hợp mờ theo hướng tiếp cận ĐSGT 2.2.1 Mờ hóa sở liệu giao dịch Với cách tiếp cận ĐSGT, giá trị hàm thuộc giá trị CSDL tính theo cách sau Trước hết, miền giá trị thuộc tính mờ xem ĐSGT Với toán khai phá luật kết hợp mờ sử dụng lý thuyết tập mờ, phải xây dựng hàm thuộc cho thuộc tính Sau đó, dựa vào hàm thuộc xây dựng để tính độ thuộc giá trị miền mờ tương ứng Luận án đề xuất thuộc tính định lượng sử dụng cấu trúc ĐSGT Dựa vào giá trị định lượng ngữ nghĩa phần tử ĐSGT, xây dựng lên phân hoạch mờ để tính độ thuộc phần tử CSDL đến miền mờ Bước 1: Chuẩn hóa giá trị thuộc tính mờ đoạn [0,1] Bước 2: Xét miền mờ 𝑠𝑗 thuộc tính 𝑥𝑖 phần tử ĐSGT 𝐴𝑋𝑖 Khi đó, x giá trị dj i 𝑥𝑖 nằm giá trị định lượng ngữ nghĩa phần x tử 𝐴𝑋𝑖 Khoảng cách đoạn [0,1] dj i giá trị định lượng ngữ nghĩa hai x x phần tử gần dj i hai phía dùng để xác định độ gần gũi dj i vào hai miền mờ (hai phần tử ĐSGT) Độ x gần gũi dj i với phần tử khác ĐSGT xác định Để xác định độ thuộc cuối cùng, ta phải chuẩn hóa (chuyển giá trị đoạn [0,1] lấy trừ khoảng cách chuẩn hóa đó) Ta có, ứng với giá trị Hình 2.1: Xây dựng phân hoạch mờ dựa x dj i cặp độ thuộc ĐSGT xi Như để tính độ thuộc dj thuộc tính 𝑥𝑖 vào miền mờ 𝑠𝑗 : x x 𝜇𝑠𝑗 (dj i ) = − | 𝑣(𝑠𝑗 ) − dj i |, với 𝑣(𝑠𝑗 ) giá trị định lượng ngữ nghĩa phần tử 𝑠𝑗 Bảng 2.1: Cơ sở liệu ví dụ Chúng ta có giá trị mờ hóa TID A B Bảng 2.2 30 40 𝑇1 Ký hiệu: A1, B1: Very Low; A2, B2: Least Low; 41 48 𝑇2 A3, B3: Least Heigh, A4, B4: Very Heigh; 𝑇3 TID 𝑇1 𝑇2 𝑇3 45 32 Bảng 2.2: Mờ hóa liệu Bảng 2.1 A A1 0.825 0 A2 0.925 0.965 0.925 B A3 0.785 0.825 A4 0 B1 0 0.805 B2 0.975 0.895 0.945 B3 0.775 0.855 B4 0 Ví dụ 2.1: Cho CSDL ví dụ Bảng 2.1 gồm có hai thuộc tính A B ĐSGT sử dụng cho hai thuộc tính có cấu trúc giống nhau: 𝐴𝑋 = (𝑋, 𝐺, 𝐻, ≤), 𝐶 − = {𝐿𝑜𝑤}, 𝐶 + = {𝐻𝑖𝑔ℎ𝑡}, 𝐻 − = {𝐿𝑒𝑎𝑠𝑡}, 𝐶 + = {𝑉𝑒𝑟𝑦}, tham số sau: 𝑓𝑚(𝐿𝑜𝑤) = 𝑓𝑚(𝐻𝑖𝑔ℎ𝑡) = 0.5, 𝜇(𝑉𝑒𝑟𝑦) = 𝜇(Least) = 0.5, 𝐷𝑜𝑚(𝐴, 𝐵) = [0, 100] Khi ta tính giá trị định lượng ngữ nghĩa: v(Very Low) = 0.125, v(Least Low) = 0.375, v(Least Height) = 0.625, v(Very Height) = 0.875 2.2.2 Quan hệ khoảng cách giao dịch Dựa vào khoảng cách giao dịch, gộp giao dịch có khoảng cách gần để tạo nhóm giao dịch, kết thu CSDL có kích thước nhỏ Quan hệ giao dịch quan hệ khoảng cách giao dịch cho giao dịch CSDL mờ định nghĩa sau: (1) Quan hệ giao dịch: Hai giao dịch 𝑇1 , 𝑇2 gọi có quan hệ với 𝑇1 tập 𝑇2 𝑇1 tập cha 𝑇2 (2) Quan hệ khoảng cách giao dịch: Khoảng cách hai giao dịch số mục (item) khác Trong bảng Bảng 2.2 khoảng cách giao dịch 𝑇1 𝑇2 𝐷𝑇1−𝑇2 = 2, Bảng 2.3: Bảng định lượng sở liệu khoảng cách hai giao dịch 𝑇2 𝑇3 Bảng 2.2 𝐷𝑇1−𝑇3 = 2.2.3 Xây dựng bảng định lượng Để giảm số lượng tập ứng cử tạo ra, cần phải có thêm thơng tin để loại bớt tập tập phổ biến Bảng định lượng xây dựng để lưu thông tin giao dịch xử lý Các mục xuất giao dịch cần xếp theo thứ tự từ điển Bắt đầu từ mục bên trái gọi tiền tố mục Sau tính chiều dài giao dịch đầu vào n, ghi số lượng mục xuất giao dịch vào mục tùy theo độ dài giao dịch: L𝑛 , Ln−1 , , L1 Bảng định lượng bao gồm mục Li chứa tiền tố mục giá trị hỗ trợ mục Bảng 2.3 bảng định lượng xây dựng từ CSDL Bảng 2.2 Với bảng định lượng, dễ dàng loại bớt tập ứng cử viên có độ hỗ trợ nhỏ so với hỗ trợ tối thiểu 2.3 Nén sở liệu giao dịch Với d khoảng cách quan hệ khởi tạo Dựa vào khoảng cách giao dịch, gộp giao dịch có khoảng cách nhỏ d để tạo thành nhóm giao dịch đưa vào khối gồm giao dịch trộn với Trong Hình 2.2: CSDL gồm thuộc tính định lượng, phần Tiền xử lý liệu: Thực chuẩn hoá liệu đoạn [0,1], độ thuộc giá trị thuộc tính tính tốn trình trình bày mục 2.2, sau từ CSDL mờ thu gộp giao dịch gần vào với tạo CSDL gọi CSDL nén Chi tiết thuật tốn nén trình bày chi tiết Thuật tốn Để tìm luật kết hợp từ CSDL nén luận án đề xuất cải tiến thuật toán Apriori mờ chi tiết Thuật toán Thuật toán 1: Thuật toán nén giao dịch Đầu vào: Cơ sở liệu giao dịch mờ D Đầu ra: Cơ sở liệu nén Ký hiệu tham số thuật toán sau: 𝑀𝐿 = {𝑀𝐿𝑘 }: 𝑀𝐿𝑘 nhóm giao dịch có độ dài k (độ dài giao dịch số mục giao dịch) 𝐿 = {𝐿𝑘 }: 𝐿𝑘 giao dịch có độ dài k 𝑇𝑖 : Giao dịch thứ i CSDL mờ | 𝑇𝑖 |: Độ dài giao dịch 𝑇𝑖 Nội dung thuật toán: Bước 1: Mỗi lần đọc giao dịch 𝑇𝑖 từ CSDL mờ Bước 2: Tính độ dài giao dịch 𝑇𝑖 : n Bước 3: Dựa vào giao dịch đầu vào để xây dựng bảng định lượng Bước 4: Tính tốn khoảng cách giao dịch Ti với nhóm giao dịch khối MLn−1 , MLn , MLn+1 Nếu tồn nhóm giao dịch khối MLn−1 , MLn , MLn+1 có khoảng cách với giao dịch Ti nhỏ d Chúng ta tiến hành gộp giao dịch Ti với nhóm giao dịch khối tương ứng, ta thu nhóm giao dịch đưa vào khối có độ dài tương ứng, xóa nhóm giao dịch cũ khối Bước 5: Nếu giao dịch 𝑇𝑖 khơng Hình 2.2: Tổng quan thuật tốn nén gộp với nhóm giao dịch khối CSDL giao dịch MLn−1 , MLn , MLn+1 Tính tốn khoảng cách giao dịch 𝑇𝑖 giao dịch khối 𝐿𝑛−1 , 𝐿𝑛 , 𝐿𝑛+1 Nếu tồn giao dịch 𝑇𝑗 cho 𝐷𝑇𝑖−𝑇𝑗 ≤ 𝑑, gộp giao dịch 𝑇𝑖 với giao dịch 𝑇𝑗 để tạo thành nhóm giao dịch thêm nhóm giao dịch vào khối tương ứng (tùy thuộc vào độ dài nhóm giao dịch tạo ra), xóa giao dịch 𝑇𝑗 khối: 𝐿𝑛−1 , 𝐿𝑛 , 𝐿𝑛+1 Nếu khơng tìm giao dịch thỏa mãn khoảng cách d, thêm giao dịch 𝑇𝑖 vào khối 𝐿𝑛 Bước 6: Lặp lại bước giao dịch cuối CSDL giao dịch xử lý Bước 7: Mỗi lần đọc giao dịch 𝑇𝑖 khối 𝐿 = {𝐿𝑘 } Bước 8: Tính độ dài giao dịch 𝑇𝑖 : n Bước 9: Tính tốn khoảng cách giao dịch 𝑇𝑖 với nhóm giao dịch khối MLn−1 , MLn , MLn+1 Nếu tồn nhóm giao dịch có khoảng cách nhỏ d, tiến hành gộp giao dịch 𝑇𝑖 với nhóm giao dịch tìm để tạo thành nhóm giao dịch Tùy thuộc vào độ dài nhóm giao dịch mới, thêm nhóm giao dịch vào khối tương ứng: MLn−1 , MLn , MLn+1 , xóa nhóm giao dịch cũ khối: MLn−1 , MLn , MLn+1 , xóa giao dịch 𝑇𝑖 khối 𝐿𝑛 Bước 10: Lặp lại bước 7, bước 8, bước giao dịch cuối 𝐿 = {𝐿𝑘 } xử lý Kết thu CSDL nén gồm giao dịch khối 𝐿 = {𝐿𝑘 }, 𝑀𝐿 = {𝑀𝐿𝑘 }, bảng định lượng 2.4 Thuật tốn trích xuất luật kết hợp mờ Thuật toán 2: Khai phá liệu mờ theo hướng tiếp cận ĐSGT Ký hiệu tham số thuật toán khai phá luật kết hợp mờ theo hướng tiếp cận ĐSGT: N: Tổng số giao dịch CSDL M: Tổng số thuộc tính 𝐴𝑗 : Thuộc tính thứ j, ≤ 𝑗 ≤ 𝑚 (thuộc tính định lượng thuộc tính hạng mục) |𝐴𝑗 |: Số nhãn gia tử thuộc tính Aj 𝑅𝑗𝑘 : Nhãn gia tử j thuộc tính Aj , ≤ 𝑘 ≤ |Aj | 𝐷 (𝑖) : Dữ liệu giao dịch thứ i, ≤ 𝑖 ≤ 𝑁 (𝑘) 𝑣𝑗 : Giá trị phần tử thứ k Aj D(i) 10 Bảng 2.6: Luật kết hợp thu với độ hỗ trợ 70% độ tin cậy 80% STT 2 Luật kết hợp Đỗ hỗ trợ CSDL không nén { VL_INCHEAD } ==> { VL_INCFAM } 92% { VL_INCFAM } ==> { VL_INCHEAD } 92% CSDL giao dịch nén, không sử dụng bảng định lượng { VL_INCHEAD } ==> { VL_INCFAM } 91% { VL_INCFAM } ==> { VL_INCHEAD } 91% CSDL giao dịch nén, sử dụng bảng định lượng { VL_INCHEAD } ==> { VL_INCFAM } 91% { VL_INCFAM } ==> { VL_INCHEAD } 91% Độ tin cậy 97% 98% 98% 99% 98% 99% Hình 2.3: Thời gian thực với CSDL nén Trong Hình 2.3 so sánh thời gian thực thuật toán Apriori mờ với CSDL không nén thời gian thực với CSDL nén khơng sử dụng bảng định lượng Trong Hình 2.4 so sánh thời gian thực thuật toán với CSDL nén có sử dụng bảng định lượng CSDL nén không sử dụng bảng định lượng Thời gian dùng để nén CSDL 135 giây, số giao dịch thu sau nén 2402 giao dịch Kết thử nghiệm với độ tin cậy 60%, luận án thử nghiệm với hai thuật toán: Luật kết hợp theo cách tiếp cận ĐSGT [2] thuật toán luận án đề xuất nén CSDL mờ theo hướng tiếp cận ĐSGT Kết thử nghiệm cho thấy phương pháp đề xuất nén CSDL cho kết nhanh với phương pháp đề xuất [2] giá trị tập phổ biến tìm giống với sử dụng CSDL không nén 2.5.2 Thử nghiệm với CSDL STULONG Trong Bảng 2.7 thống kê số lượng luật kết hợp thu ba phương pháp: phương pháp sử dụng: CSDL không nén, CSDL nén, CSDL nén Bảng định lượng Bảng 2.7: Số lượng luật kết hợp thu với độ tin cậy 80% Độ hỗ trợ (%) 5% 10% 20% 30% 40% 50% 60% 70% 80% CSDL không nén 7822 5076 2149 1096 587 248 107 75 23 CSDL nén 8188 5532 2528 1348 599 287 155 75 35 CSDL nén, Bảng định lượng 8185 5527 2528 1318 599 287 155 75 35 Nhận xét: số lượng luật kết hợp thu phương pháp luận án đề xuất sử dụng CSDL nén có sử dụng bảng định lương khơng sử dụng bảng định lượng giống Bảng 2.8: So sánh thời gian thực khai phá luật kết hợp với độ tin cậy 80% Độ hỗ trợ (%) 5% 10% 20% 30% 40% 50% CSDL không nén 669 580 187 72 26 CSDL nén 41.4 26.4 8.3 3.6 1.1 0.4 CSDL nén, Bảng định lượng 41.4 26.3 8.3 3.5 1.1 0.4 11 60% 70% 0.2 0.1 0.2 0.1 Trong Bảng 2.9, Bảng 2.10 cho thấy số lượng luật kết hợp thu ba thử nghiệm (với CSDL không nén, CSDL nén không sử dụng bảng định lượng, CSDL nén sử dụng bảng định lượng) có số lượng luật kết hợp giống Trong Bảng 2.9, Bảng 2.10 so sánh tương ứng luật ba phương pháp cho thấy độ hỗ trợ độ tin cậy luật có khác không đáng kể Bảng 2.9: Luật kết hợp thu với độ hỗ trợ 85% độ tin cậy 80% STT 9 Luật kết hợp Đỗ hỗ trợ CSDL không nén { LL_A5 } ==> { LH_A2 } 86 % { LH_A2 } ==> { LL_A5 } 86 % { LL_A5 } ==> { VH_A1 } 88 % { VH_A1 } ==> { LL_A5 } 88 % { LH_A2 } ==> { VH_A1 } 92 % { VH_A1 } ==> { LH_A2 } 92 % { LL_A5, VH_A1 } ==> { LH_A2 } 85 % { LH_A2, VH_A1 } ==> { LL_A5 } 85 % { LH_A2, LL_A5 } ==> { VH_A1 } 85 % CSDL giao dịch nén, không Bảng định lượng { LL_A5 } ==> { LH_A2 } 88 % { LH_A2 } ==> { LL_A5 } 88 % { LL_A5 } ==> { VH_A1 } 88 % { VH_A1 } ==> { LL_A5 } 88 % { LH_A2 } ==> { VH_A1 } 92 % { VH_A1 } ==> { LH_A2 } 92 % { LL_A5, VH_A1 } ==> { LH_A2 } 87 % { LH_A2, VH_A1 } ==> { LL_A5 } 87 % { LH_A2, LL_A5 } ==> { VH_A1 } 87 % CSDL giao dịch nén, Bảng định lượng { B3 } ==> { A4 } 92 % { A4 } ==> { B3 } 92 % { E2 } ==> { A4 } 88 % { A4 } ==> { E2 } 88 % { E2 } ==> { B3 } 88 % { B3 } ==> { E2 } 88 % { B3, E2 } ==> { A4 } 87 % { A4, E2 } ==> { B3 } 87 % { A4, B3 } ==> { E2 } 87 % Độ tin cậy 97 % 93 % 99 % 91 % 99 % 95 % 97 % 93 % 100 % 99 % 95 % 100 % 91 % 100 % 95 % 99 % 95 % 100 % 100 % 95 % 100 % 91 % 99 % 95 % 100 % 99 % 95 % Bảng 2.10: Luật kết hợp thu với độ hỗ trợ 90% độ tin cậy 80% STT 2 Luật kết hợp Đỗ hỗ trợ CSDL không nén { LH_A2 } ==> { VH_A1 } 92 % { VH_A1 } ==> { LH_A2 } 92 % CSDL giao dịch nén, không Bảng định lượng { LH_A2 } ==> { VH_A1 } 92 % { VH_A1 } ==> { LH_A2 } 92 % CSDL giao dịch nén, Bảng định lượng Độ tin cậy 99 % 95 % 100 % 95 % 12 { B3 } ==> { A4 } { A4 } ==> { B3 } 92 % 92 % 100 % 95 % 2.6 Kết luận Trong chương luận án nghiên cứu ĐSGT phát triển thuật toán nén CSDL giao dịch sử dụng cho toán khai phá luật kết hợp mờ Với cách tiếp cận này, giao dịch gần gộp lại để tạo thành giao dịch mới, làm giảm kích thước CSDL đầu vào Thuật toán nén CSDL giao dịch thử nghiệm CSDL: FAM95 STULONG Kết thử nghiệm với CSDL cho thấy phương pháp đề xuất nén CSDL cho kết nhanh với phương pháp đề xuất [2] giá trị tập phổ biến tìm giống với sử dụng CSDL không nén Nội dung chương công bố cơng trình [i, ii] Trong chương này, luận án sử dụng ĐSGT với biểu diễn đơn thể hạt cho thuộc tính với tham số giống Để nâng cao hiệu khai phá luật kết hợp để tìm luật có ý nghĩa hơn, chương luận án nghiên cứu đề xuất phương pháp tối ưu tham số mờ cho phù hợp với thuộc tính với biểu diễn đơn thể hạt đa thể hạt CHƯƠNG PHÂN HOẠCH MỜ CHO THUỘC TÍNH DỰA TRÊN BIỂU DIỄN THỂ HẠT CỦA ĐSGT Trong chương này, luận án trình bày số cách phân chia miền mờ đề xuất phương pháp phân chia miền mờ cách sử dụng lý thuyết ĐSGT dựa biểu diễn đơn thể hạt đa thể hạt ĐSGT cho phép mơ hình hố thiết kế từ ngôn ngữ với ngữ nghĩa dựa tập mờ Luận án đề xuất thuật toán tối ưu hàm thuộc xây dựng dựa lý thuyết ĐSGT cho toán khai phá luật kết hợp mờ Các kết thực nghiệm cho thấy kết phương pháp đề xuất có số ưu việt số phương pháp đề xuất trước 3.1 Phân hoạch cho miền giá trị thuộc tính 3.1.1 Đặt vấn đề Bài toán phân chia miền xác định thuộc tính định lượng tập liệu đầu vào sau: Cho miền xác định thuộc tính (ở xét thuộc tính định lượng) Mỗi thuộc tính định lượng có miền xác định (hoặc miền giá trị) miền trục số thực bao gồm giá trị mà thuộc tính định lượng nhận Yêu cầu phải phân chia miền thuộc tính thành hạt hạt có nhãn ngơn ngữ biểu thị tập mờ Trong cách tiếp cận lý thuyết tập mờ, tác giả phân chia miền giá trị thuộc tính thành tập mờ, điều chỉnh tham số tập mờ Việc gán nhãn ngôn ngữ vào tập mờ dựa trực giác người thiết kế ĐSGT xuất phát từ khung nhận thức ngôn ngữ để từ thiết kế từ ngơn ngữ với ngữ nghĩa dựa tập mờ chúng 3.1.2 Rời rạc hóa thuộc tính định lượng Có cách phân chia miền xác định thuộc tính thành miền rõ mờ Cách phân chia thành miền rõ thấy qua ví dụ sau: Nếu A thuộc tính định lượng rời rạc (quantitative & discrete) thuộc tính hạng mục (categorical) với miền giá trị hữu hạn dạng {v1 , v2 , … , vk } k đủ bé ta biến đổi thuộc tính thành k thuộc tính nhị phân dạng A_V1 , A_V2 , … A_Vk Giá trị ghi trường A_Vi giá trị ghi thuộc tính A ban đầu 𝑣𝑖 , trường hợp lại giá trị A_Vi 13 Nếu A thuộc tính định lượng liên tục (quantitative & continuous) A thuộc tính định lượng rời rạc hay thuộc tính hạng mục với miền giá trị dạng {v1 , v2 , … , vp } (p lớn) ta ánh xạ thành q thuộc tính nhị phân < 𝐴: start1 end1 >, < 𝐴: start end2 >, …, < 𝐴: start q endq > Giá trị ghi trường < 𝐴: start i endi > giá trị ghi thuộc tính A ban đầu năm khoảng [start i endi ], ngược lại nhận giá trị Trong toán khai phá luật kết hợp mờ, cần phải phần chia miền giá trị thuộc tính thành miền mờ, với miền mờ thường gắn với hàm thuộc nhãn ngôn ngữ Cách phân chia miền xác định thành miền mờ có nhiều ưu điểm cách mà luận án sử dụng nên trình bày kỹ mục 3.1.3 3.1.3 Phân chia miền giá trị thuộc tính theo cách tiếp cận lý thuyết tập mờ Một số phương pháp phân chia miền mờ phổ biến: a) Phân chia cách ngẫu nhiên: Chọn số cố định miền cần chia chia mục thành vùng nhau, phương pháp đơn giản có lẽ tốt ta khơng có thơng tin khác b) Phân chia theo phương pháp phân cụm: Áp dụng phương pháp phân cụm để tìm kiếm tập mờ, phương pháp tính đến đa dạng việc phân bố liệu c) Phân chia theo phương pháp ràng buộc động Việc phân chia miền mờ giúp xây dựng hàm thuộc cho miền mờ Mỗi hàm thuộc thường có tham số để điều chỉnh độ thuộc giá trị vào miền mờ Tối ưu tham số hàm thuộc nhiệm vụ quan trọng toán khai phá luật kết hợp mờ Để giải nhiệm vụ này, số nghiên cứu sử dụng thuật toán tiến hoá nhằm tăng khả việc tối ưu 3.2 Phương pháp phân hoạch mờ biểu diễn thể hạt với ĐSGT Trong phần này, luận án trình bày phương pháp phân chia miền xác định thuộc tính định lượng theo cách tiếp cận Đại số gia tử dựa biểu diễn đơn thể hạt đa thể hạt liệu ĐSGT cho ta cấu trúc toán học tốt xây dựng miền xác định thuộc tính, giúp ta khơng có phân hoạch miền xác định cách đơn giản mà cho phép gắn chặt ngữ nghĩa miền mờ với nhãn ngơn ngữ mà biểu diễn, đảm bảo thứ tự tự nhiên nhãn ngơn ngữ Khơng thế, phân hoạch dựa ĐSGT theo cách luận án sử dụng phân hoạch mạnh Với cách tiếp cận này, luật kết hợp khai phá phản ánh phong phú đa dạng tri thức ẩn chứa kho thông tin khai phá, từ tri thức có tính khái qt cao tri thức mang tính riêng biệt, chi tiết đáp ứng tốt nhu cầu người quản lý 3.2.1 Phân hoạch giá trị miền thuộc tính sử dụng biểu diễn đơn thể hạt Với số kết liên quan đến khoảng tính mờ phần tử ĐSGT nêu mục 1.2.4, ta thấy cách tính độ thuộc giá trị CSDL số cho vào tập mờ dùng phân chia miền mờ mục [25, 26] Ta thấy, miền xác định mục (item) (có thể chuẩn hóa đoạn [0,1], giá trị nằm hai giá trị ĐLNN khoảng tính mờ liên tiếp trùng với giá trị ĐLNN khoảng tính mờ tính chất tạo nên phân hoạch miền xác định khoảng tính mờ Như vậy, khoảng cách giá trị 𝑥𝑖𝑗 tới giá trị ĐLNN dùng để tính độ thuộc 𝑥𝑖𝑗 vào tập mờ biểu diễn khoảng tính mờ (trường hợp trùng với giá trị ĐLNN có độ thuộc): khoảng cách nhỏ độ thuộc lớn, trùng coi đạt Trong Hình 3.1, tác giả dùng giá trị ĐLNN để phân hoạch miền xác 14 định thuộc tính thành miền mờ Tương ứng với miền mờ dựng tam giác biểu diễn hàm thuộc tập mờ với đỉnh có tọa độ (𝜐(𝑥𝑖 ), 1), hai đỉnh lại nằm miền xác định, có tọa độ tương ứng (𝜐(𝑥𝑖−1 ),0), (𝜐(𝑥𝑖+1 ), 0), 𝜐(𝑥𝑖−1 ), 𝜐(𝑥𝑖 ), 𝜐(𝑥𝑖+1 ) giá trị ĐLNN liên tiếp (Hình 3.1) Hình 3.1: Xây dựng phần hoạch miền xác định thuộc tính theo cách tiếp cận ĐSGT Có thể thấy thực chất hai cách xây dựng tương đương Thật vậy, giả sử ta có điểm E điểm tùy ý trục biểu diễn miền xác định thuộc tính 𝐼𝑖 Khi đó, theo cách thứ nhất, khoảng cách 𝐸𝜈(𝑥2 ) 𝐸𝜈(𝑥3 ) dùng để xác định độ thuộc E vào tập mờ biểu diễn hàm thuộc - tam giác 𝜈(𝑥1 ) 𝐵 𝜈(𝑥3 ) 𝜈(𝑥2 ) 𝐶 𝜈(𝑥4 ), thông qua việc chuẩn hóa để độ thuộc ln nằm khoảng [0,1] Còn theo cách thứ 2, ta có EG EF độ thuộc E vào tập mờ Ta có, EG song song với 𝜈(𝑥2 ) 𝐵 𝐸𝐺 𝐸 𝜈(𝑥3 ) 𝐸𝐹 𝜈(𝑥2 )𝐸 nên = Tương tự = Ngoài ra, 𝜈(𝑥2 ) 𝐵 = 𝜈(𝑥3 ) 𝐶 = )𝐵 )𝜈(𝑥 ) )𝐶 )𝜈(𝑥 ) 𝜈(𝑥2 𝜈(𝑥2 nên cuối ta có 𝐸𝐹 𝐸𝐺 = 𝐸 𝜈(𝑥2 ) 𝐸 𝜈(𝑥3 𝑣(𝑥3 𝜈(𝑥2 Từ dễ dàng suy thực chất hai cách gắn độ thuộc ) tương đương Điều nhấn mạnh thêm cách gắn độ thuộc theo cách ĐSGT hợp lý mặt cảm nhận Cách xây dựng hàm thuộc hay tương đương tập mờ để phân chia miền xác định thuộc tính theo cách tiếp cận ĐSGT có ưu điểm sau: - Do cách xây dựng sử dụng ĐSGT có sở phù hợp với ngữ nghĩa người cảm nhận nên mặt cảm tính, thấy hàm thuộc xây dựng phản ánh tốt ngữ nghĩa tập mờ mà biểu diễn - Dễ thấy độ phủ hàm thuộc tốt (ln phủ kín miền xác định) Từ ta thấy cần tối ưu mức độ phù hợp phù hợp MF, ta cần tối ưu mức độ chồng lên mức độ bao phủ MF Bài toán tối ưu tham số ĐSGT theo độ chồng lấn tính hữu dụng giải giải thuật GA - Các tham số cần quản xây dựng (mỗi tam giác tham số, giá trị ĐLNN), thay đổi tham số ban đầu ĐSGT, dễ dàng xác định lại MF MF giữ nguyên độ đo chồng lấn phủ cũ Phương pháp đơn giản hợp lý 3.2.2 Phân hoạch giá trị miền thuộc tính sử dụng biểu diễn đa thể hạt Phương pháp phân chia miền mờ theo tiếp cận ĐSGT sử dụng biểu diễn đơn thể hạt có ưu điểm trình bày, có hạn chế liên quan đến ngữ nghĩa liệu Theo lý thuyết ĐSGT, MF mà ta tạo nên dựa phân hoạch hạng từ có độ dài Điều có nghĩa Hình 3.2: Phân hoạch miền giá trị luật kết hợp mà ta khai phá bao gồm thuộc tính dựa biểu diễn đơn hạng từ có độ dài, mà điều làm thể hạt giảm ý nghĩa luật khai phá Nếu ta không quan tâm đến ngữ nghĩa liệu, đơn phân chia miền xác định cách gần máy móc (như phần lớn 15 phương pháp theo cách tiếp cận tập mờ làm) phương pháp đề xuất sử dụng biểu diễn đơn thể hạt sử dụng ĐSGT trình bày mục 3.2.1 tốt Tuy nhiên, để ý đến ngữ nghĩa liệu - điều quan trọng để có tri thức tốt khai phá luật kết hợp - ta phải có cách tiếp cận sâu Có thể xây dựng khoảng mờ ngữ nghĩa để tạo nên phân hoạch hạng từ có độ dài khác cách không thật chuẩn tắc phân hoạch tạo khơng phải Trong chương này, luận án chọn cách tiếp cận dựa biểu diễn liệu theo cấu trúc đa thể hạt Với phương pháp này, nhằm nâng cao tri thức luật kết hợp, luật kết hợp thu phong phú Hình 3.3: Cấu trúc hạt thể nhiều mức Về mặt tư tưởng, sử dụng biểu diễn đa thể hạt, nói, cho ta nhìn đa dạng thơng tin đầu vào Việc xây dựng, biểu diễn sử dụng cấu trúc hạt thường tuân thủ quy tắc đa mức đa dạng (multilevel multiview) Quy tắc multilevel ưu điểm cấu trúc hạt mang lại thể hiển hiểu biểu diễn đa mức hạt Quy tắc đa dạng gắn liền vừa với tồn khách quan liệu (các hạt thông tin) vừa với nhìn chủ quan người nghiên cứu sử dụng liệu, theo mức cấu trúc hạt, thơng tin phân chia theo cách khác Với tính tốn hạt tn thủ hai quy tắc nêu trên, có nhìn có cấu trúc liệu, vừa mang tính hệ thống lại vừa đơn giản việc giải toán khai phá liệu Ngoài ra, quan trọng hướng nghiên cứu theo tiếp cận ĐSGT luận án, tính tốn hạt gắn liền với biểu diễn đa thể hạt liệu theo quy tắc nêu thỏa mãn đòi hỏi tính diễn giải Các đòi hỏi việc phân chia hạt cần bảo tồn thứ tự ngơn ngữ tự nhiên (thí dụ “trẻ” < “già” phân chia tiếp, phần nhãn ngôn ngữ “trẻ”, chẳng hạn “khá trẻ” phải nhỏ phần “trung niên”, chẳng hạn “khá già”, tức “khá trẻ” < “khá già” bảo tồn quan hệ chung-riêng, từ tính chung cao giá tập mờ chứa giá tập mờ từ có tính riêng hơn; đa thể hạt cấu trúc thỏa mãn hai đòi hỏi Một điểm nhấn quan trọng với cách tiếp cận ĐSGT, việc chuyển sang tính tốn hạt đa mức đa dạng hồn tồn đơn giản mà luận án chứng tỏ sau Đối với lý thuyết tập mờ (theo L.Zadeh), hạn chế phương pháp sử dụng biểu diễn đa thể hạt lựa chọn hàm thuộc khơng dễ dàng có sở để xác định hàm thuộc mức khác nhau, chưa thể xây dựng ràng buộc chúng Hầu việc xác định tiến hành theo kinh nghiệm, qua ví dụ ta cảm nhận điều Đồng thời, việc tiến hành tính toán với mức khác liệu gây phức tạp kéo theo chi phí lớn nhiều thời gian nhớ Ngược lại, với ĐSGT việc thiết kế phân hoạch mờ miền giá trị thuộc tính mức khác biểu diễn đa thể hạt dễ dàng Hình 3.4: Phân hoạch miền giá trị thuộc nằm thân cách xây tính dựa biểu diễn đa thể hạt dựng ĐSGT Trong lý thuyết 16 ĐSGT, với miền giá trị thuộc tính cần xác định tham số mờ ĐSGT ta xác định khoảng tính mờ tất hạng từ thơng qua cơng thức tính tốn xác định hạng từ có độ dài (tức hạng từ có nằm mức hệ thống biểu diễn đa thể hạt) Tính phân cấp cách thức mà GrC sử dụng nằm cách xây dựng ĐSGT Theo lý thuyết ĐSGT, hạng từ x có độ dài k phân hoạch thành hạng từ ℎ𝑖 𝑥 (với ℎ𝑖 gia tử ĐSGT xét) có độ dài k+1 Có thể nói, ĐSGT cơng cụ thích hợp cho tính tốn đa thể hạt Hình 3.4 ví dụ gồm thể hạt xây dựng dựa giá trị định lượng nghữ nghĩa ĐSGT Thể hạt mức gồm hàm thuộc, thể hạt mức gồm hàm thuộc, thể hạt mức gồm hàm thuộc 3.3 Phương pháp tối ưu tham số mờ ĐSGT cho toán khai phá luật kết hợp Để tìm kiếm hàm thuộc tối ưu cho tốn khai phá luật kế hợp mờ, tác giả trước sử dụng số tiêu chí để đánh giá hàm thuộc cho thuộc tính Cụ thể, thích hợp (Suitabitity) tập MF dùng để phân chia thuộc tính ngơn ngữ 𝐼𝑞 đánh giá qua yếu tố: độ chồng lấn (Overlap_factor) đo độ chồng lấn MF lên nhau; độ phủ (Coverge factor) đo độ bao phủ miền giá trị MF này, tính hữu dụng (usage factor) Trong phần này, dựa vào giá trị định lượng ngữ nghĩa ĐSGT để xây dựng hàm thuộc cho thuộc tính số áp dụng cho tốn khai phá luật kết hợp mờ Thay tối ưu tham số hàm thuộc, tối ưu tham số mờ ĐSGT Hình 3.5: Lược đồ tìm kiếm phân hoạch tối ưu cho miền xác định thuộc tính khai phái luật kết hợp Hình 3.5 lược đồ tìm kiếm hàm thuộc khai phá luật kết hợp gồm hai bước: Bước 1: Tìm kiếm hàm thuộc: với tham số ĐSGT thuộc tính Chúng ta dễ dàng xây dựng hàm thuộc cho thuộc tính trình bày mục 3.2 để tính tốn hàm mục tiêu Kết thúc bước thu tập tham số ĐSGT Từ tham số ĐSGT, dễ dàng xây dựng hàm thuộc bước Bước 2: Khai phá luật kết hợp: Chúng ta sử dụng tham số ĐSGT thu bước để mờ hoá CSDL giao dịch tiến hành khai phá luật kết hợp mờ Kết thúc bước thu tập luật kết hợp biểu thị thông tin ngôn ngữ 3.3.1 Mã hóa tập MF Để xây dựng hàm thuộc cho thuộc tính, luận án sử dụng ĐSGT có cấu trúc 𝐴𝑋 = (𝑋, 𝐺, 𝐻, ≤) đó: 𝐺 = {𝐶 − = {𝐿𝑜𝑤} ∪ 𝐶 + = {𝐻𝑖𝑔ℎ}}; 𝐻 = {𝐻 − = {𝐿𝑖𝑡𝑡𝑙𝑒} ∪ 17 𝐻 + = {𝑉𝑒𝑟𝑦}}; 𝛼 = 𝜇(𝐿𝑖𝑡𝑡𝑙𝑒) = − 𝜇(𝑉𝑒𝑟𝑦), 𝛽 = 𝜇(𝑉𝑒𝑟𝑦); 𝑤 = 𝑓𝑚(𝐿𝑜𝑤) = − 𝑓𝑚(𝐻𝑖𝑔ℎ) Với cấu trúc ĐSGT gồm bốn tham số: 𝜇(𝐿𝑖𝑡𝑡𝑙𝑒), 𝜇(𝑉𝑒𝑟𝑦), 𝑓𝑚(𝐶 − ), 𝑓𝑚(𝐶 + ) Tham số 𝛼 = 𝜇(𝑉𝑒𝑟𝑦) = − 𝜇(𝐿𝑖𝑡𝑡𝑙𝑒), 𝑤 = 𝑓𝑚(𝐿𝑜𝑤) = − 𝑓𝑚(𝐻𝑖𝑔ℎ), với ĐSGT cần tìm hai tham số 𝛼 𝑤 thay tìm bốn tham số Dựa vào tham số ĐSGT thuộc tính, xây dựng hàm thuộc theo dạng đơn thể hạt trình bày mục 3.2.1 biểu diễn đa thể hạt trình bà ytrong mục 3.2.2 Chúng ta cần phải cần phải tìm kiếm tham số mờ ĐSGT 𝐴𝑋𝑖 cho n thuộc tính định lượng, ĐSGT gồm có hai tham số 𝛼𝑖 , 𝑤𝑖 (i=1,…,n) Như để biểu diễn nhiệm sắc thể cần mảng số thực có kích thước 2*n Cấu trúc gene sau: (3.1) (𝛼 , … , 𝛼 , 𝑤 , … , 𝑤 ) 𝑛 𝑛 3.3.2 Đánh giá nhiễm sắc thể Hàm mục tiêu nhiễm sắc thể 𝐶𝑞 định nghĩa sau: ∑𝑥∈𝐿1 𝑓𝑢𝑧𝑧y_support(x) (3.2) 𝑓𝑖𝑡𝑛𝑒𝑠𝑠(𝐶𝑞 ) = 𝑠𝑢𝑖𝑡𝑎𝑏𝑖𝑙𝑖𝑡𝑦(𝐶𝑞 ) Với: 𝐿1 tập phổ biến 1-Itemset sử dụng tập hàm MF 𝐶𝑞 Với 𝑓𝑢𝑧𝑧𝑦_𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝑥) độ hỗ trợ mờ 1-Itemset x tính tốn từ CSDL giao dịch, 𝑠𝑢𝑖𝑡𝑎𝑏𝑖𝑙𝑖𝑡𝑦(𝐶𝑞 ) mức độ phù hợp phù hợp MF 𝐶𝑞 Mức độ phù hợp tập MF nhiệm sắc thể 𝐶𝑞 định nghĩa sau: 𝑛 𝑠𝑢𝑖𝑡𝑎𝑏𝑖𝑙𝑖𝑡𝑦(𝐶𝑞 ) = ∑[𝑜𝑣𝑒𝑟𝑙𝑎𝑝_𝑓𝑎𝑐𝑡𝑜𝑟(𝐶𝑞𝑘 ) + 𝑐𝑜𝑣𝑒𝑟𝑎𝑔𝑒_𝑓𝑎𝑐𝑡𝑜𝑟(𝐶𝑞𝑘 )] (3.3) 𝑘=1 Với n số lượng item, 𝑜𝑣𝑒𝑟𝑙𝑎𝑝_𝑓𝑎𝑐𝑡𝑜𝑟(𝐶𝑞𝑘 ) mức độ chồng lên MF item 𝐼𝑘 nhiệm sắc thể 𝐶𝑞 , 𝑐𝑜𝑣𝑒𝑟𝑎𝑔𝑒_𝑓𝑎𝑐𝑡𝑜𝑟(𝐶𝑞𝑘 ) mức độ bao phủ MF item 𝐼𝑘 nhiễm sắc thể 𝐶𝑞 𝑂𝑣𝑒𝑟𝑙𝑎𝑝_𝑓𝑎𝑐𝑡𝑜𝑟 biểu diễn tỷ lệ MF chồng lên item 𝐼𝑘 nhiễm sắc thể 𝐶𝑞 Overlap factor MF item 𝐼𝑘 nhiễm sắc thể 𝐶𝑞 định nghĩa sau: 𝑚 Overlap_factor(𝐶𝑞𝑘 ) = ∑𝑚 𝑘=1 ∑𝑗=𝑖+1 [𝑚𝑎𝑥 ( 𝑜𝑣𝑒𝑟𝑙𝑎𝑝(𝑅𝑖 ,𝑅𝑗 ) 𝑚𝑖𝑛(𝑠𝑝𝑎𝑛𝑅𝑅 ,𝑠𝑝𝑎𝑛𝐿𝑅 ,) 𝑖 , 1) − 1] (3.4) 𝑗 𝐶𝑜𝑣𝑒𝑟𝑎𝑔𝑒_𝑓𝑎𝑐𝑡𝑜𝑟 biểu diễn tỷ lệ bao phủ MF item 𝐼𝑘 nhiễm sắc thể 𝐶𝑞 Coverage_factor MF item 𝐼𝑘 nhiễm sắc thể 𝐶𝑞 định nghĩa: Coverage_factor(𝐶𝑞𝑘 ) = (3.5) 𝑅𝑎𝑛𝑔(𝑅1 , … , 𝑅𝑚 ) 𝑚𝑎𝑥(𝐼𝑘 ) Với 𝑅𝑎𝑛𝑔(𝑅1 , … , 𝑅𝑚 ) phạm vi bao phủ MF 𝑚𝑎𝑥(𝐼𝑘 ) giá trị lớn 𝐼𝑘 giao dịch 3.4 Thuật tốn tìm kiếm phân hoạch mờ tối ưu luật kết hợp Thuật tốn gồm hai pha: Pha 1: Tìm kiếm phân hoạch mờ tối ưu dựa vào CSDL giao dịch đầu vào 18 Pha 2: Sử dụng thuật toán khai phá luật kết hợp mờ với MF có Pha Nội dung thuật toán: Đầu vào: T giao dịch số, tập gồm n mục (thuộc tính), mục gồm m hạng từ ngôn ngữ, độ hỗ trợ min_𝑠𝑢𝑝𝑝, độ tin cậy min_𝑐𝑜𝑛𝑓 kích thước quần thể N Đầu ra: Tập luật kết hợp mờ tập hàm thuộc MF Nội dung thuật toán: Pha 1: Tìm kiếm phân hoạch mờ tối ưu từ CSDL giao dịch T Bước 1: Khởi tạo quần thể gồm N nhiễm sắc thể ngẫu nhiên Nhiễm sắc thể biểu diễn có dạng (𝛼1 , … , 𝛼𝑛 , 𝑤1 , … , 𝑤𝑛 ) Với cặp (𝛼𝑖 , 𝑤𝑖 ) ĐSGT, với i=1, ,n Bước 2: Mã hóa hàm thuộc thành chuỗi mã hóa trình bày mục 3.3.1 Dựa vào ĐSGT có Bước 1, xây dựng hàm thuộc cho thuộc tính CSDL gốc trình bày phần 3.2 Chúng ta sử dụng biểu diễn hàm thuộc dạng Đơn thể hạt Đa thể hạt Bước 3: Tính tốn hàm mục tiêu cho nhiễm sắc thể quần thể sau: Bước 3.1: Mỗi giao dịch 𝐷𝑖 , với i=1…n, thuộc tính 𝐼𝑗 , j=1…m biến đổi thành giá trị số 𝑣𝑗 (𝑖) 𝑓 (𝑖) sau: ( 𝑗1 + 𝑅𝑗1 (𝑖) 𝑓𝑗2 𝑅𝑗2 (𝑖) +⋯+ 𝑓𝑗𝑙 𝑅𝑗𝑙 ) để biểu diễn tập hàm thuộc nhiễm sắc thể (𝑖) (𝑖) Với 𝑅𝑗𝑘 vùng mờ thứ k item 𝐼𝑗 , 𝑓𝑗𝑙 : 𝑣𝑗 giá trị hàm thuộc thứ j item 𝐼𝑗 , l số miền mờ Bước 3.2: Tính tốn giá trị miền mờ: 𝑐𝑜𝑢𝑛𝑡𝑗𝑘 = ∑𝑛𝑖=1 𝑓𝑗 (𝑖) (3.6) Bước 3.3: Mỗi miền mờ 𝑅𝑗𝑘 , ≤ 𝑗 ≤ 𝑚, ≤ 𝑘 ≤ |𝐼𝑗 |, kiểm tra giá trị 𝑐𝑜𝑢𝑛𝑡𝑗𝑘 so với ngưỡng độ hỗ trợ tối thiểu min_supp Nếu 𝑅𝑗𝑘 thỏa mãn điều kiện đưa vào tập phổ biến 1-Itemset (𝐿1 ) 𝐿1 = {𝑅𝑗𝑘 | 𝑐𝑜𝑢𝑛𝑡𝑗𝑘 ≥ 𝛼, ≤ 𝑗 ≤ 𝑚, ≤ 𝑘 ≤ |𝐼𝑗 |} Bước 3.4: Giá trị mục tiêu nhiễm sắc thể tính theo cơng thức sau: ∑𝑥∈𝐿1 𝑓𝑢𝑧𝑧𝑦_𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝑥) (3.7) 𝑓𝑖𝑡𝑛𝑒𝑠𝑠(𝐶𝑞 ) = 𝑠𝑢𝑖𝑡𝑎𝑏𝑖𝑙𝑖𝑡𝑦(𝐶𝑞 ) Bước 4: Thực phép lai tạo quần thể Bước 5: Sử dụng phép chọn lọc theo điều kiện để chọn cá thể quần thể để tạo hệ Bước 6: Nếu điều kiện dừng chưa thỏa mãn quay lại Bước 3, ngược lại thực bước Bước 7: Hàm thuộc lựa chọn từ cá thể có giá trị hàm mục tiêu lớn quần thể Pha 2: Khai phá luật kết hợp mờ Sử dụng thuật toán khai phá luật kết hợp mờ 3.5 Kết thực nghiệm Trong phần mô tả CSDL dùng thử nghiệm kết thử nghiệm với hai phương pháp luận án đề xuất: sử dụng biểu diễn liệu dạng đơn thể hạt sử dụng biểu diễn liệu dạng đa thể hạt 19 Các tham số giải thuật GA sau: kích thước quần thể 50; số hệ 10000, số bít cho gen 30, xác suất lai tạo 0.6 3.5.1 Cơ sở liệu sử dụng thử nghiệm CSDL sử dụng thử nghiệm gồm: FAM95, pollution, stulong, basketball, quake, stock 3.5.2 Phân tích đánh giá kết thực nghiệm với biểu diễn liệu dạng đơn thể hạt Trong phần kết thu từ thử nghiệm với biểu diễn hàm thuộc dang đơn thể hạt Mỗi mục (thuộc tính) chia làm miền mờ có nhãn tương ứng ĐSGT {0, 𝑐 − , 𝑊, 𝑐 + , 1} Phương pháp sử dụng ĐSGT so sánh với phương pháp khác: Phương pháp Herrera cộng [53], phương pháp Hong cộng [42] phương pháp phân chia miền giá trị thuộc tính MF đồng dạng 3.5.2.1 Kết thử nghiệm với CSDL FAM95 Trong Bảng 3.5 tham số mờ ĐSGT 10 thuộc tính số thu sau chạy giải thuật di truyền Các tham số sử dụng để xây dựng hàm thuộc theo dạng biểu diễn đơn thể hạt trình bày mục 3.2.1 Bảng 3.5: Các tham số mờ ĐSGT tối ưu 10 thuộc tính với phương pháp sử dụng biểu diễn đơn thể hạt 𝜇(𝐿) 𝜇(𝑉) 𝑓𝑚(𝐶 − ) 𝑓𝑚(𝐶 + ) A1 0.679 0.321 0.504 0.496 A2 0.350 0.650 0.764 0.236 A3 0.610 0.390 0.799 0.201 A4 0.649 0.351 0.756 0.244 A5 0.214 0.786 0.732 0.268 A6 0.379 0.621 0.479 0.521 A7 0.202 0.798 0.800 0.200 A8 0.704 0.296 0.499 0.501 A9 0.231 0.769 0.765 0.235 A10 0.213 0.787 0.776 0.224 Kết thu Bảng 3.6, với 𝐹𝑠𝑢𝑝 : Tổng độ hỗ trợ tập phổ biến 1ItemSet, Fit: Giá trị hàm mục tiêu, Suit: Độ phù hợp, #1I: Số lượng 1-ItemSet, Interest: độ thú vị trung bình luật Từ kết thấy: - So với phương pháp phương pháp Herrera cộng [53], phương pháp Hong cộng [42] - Phương pháp phân chia phương pháp sử dụng ĐSGT Với độ hỗ trợ min_supp = 50%, phương pháp ĐSGT có chút phương pháp nhóm Herrera nhóm Hong số tập phố biến 1-ItemSet Với độ hỗ trợ min_supp = 70% phương pháp sử dụng ĐSGT phương pháp Herrera đề xuất, hai phương pháp lại Bảng 3.6: Kết thử nghiệm biểu diễn đơn thể hạt Min Sup (%) 20 50 70 90 Min Sup (%) 20 50 70 Phương pháp đề xuất sử dụng ĐSGT Fit Fsup 0.98 9.83 0.79 7.87 0.66 6.62 0.09 0.94 Phương pháp Herrera cộng Fit Fsup 0.95 10.46 0.77 9.92 0.61 7.69 Suit 10 10 10 10 #1I 22 10 Suit 10.99 12.92 12.57 #1I 22 15 10 20 90 Min Sup (%) 20 50 70 90 Min Sup (%) 20 50 70 90 0.10 0.92 Phương pháp Hong cộng Fit Fsup 0.53 10.22 0.38 7.95 0.20 3.96 0.06 0.90 Phương pháp phân chia Fit Fsup 0.94 9.43 0.46 4.57 0.24 2.36 0.00 0.00 10.0 Suit 19.27 20.63 19.54 15.01 #1I 22 12 Suit 10 10 10 10 #1I 21 Với mục tiêu, xây dựng hàm thuộc cho không chồng lên nhiều, không rời rạc Giá trị Suit (độ phù hợp MF) hàm mục giúp tìm kiếm hàm thuộc đảm bảo điều Trong Bảng 3.6 cho thấy, phương pháp sử dụng ĐSGT có giá trị Suit thấp phương pháp Herrera Hong Giá trị Suit nhỏ giúp cho giá trị hàm mục tiêu lớn Điều cho thấy, hàm thuộc xây dựng phương pháp sử dụng ĐSGT gia tử cho kết tốt (Hình 3.9) Kết nhóm Herrera có tốt mặt số tập phố biến 1-ItemSet (trong Bảng 3.6 giá trị 1-ItemSet 22, 15, 10, 1) tập MF thu sau chạy GA khơng tốt (xem Hình 3.14: hình vẽ MF với độ hỗ trợ tối thiểu 20% để thấy rõ) Bảng 3.7: Quan hệ độ thú vị trung bình luật Min support (%) 20 30 40 50 60 70 PP ĐSGT 0.383 0.516 0.585 0.713 0.771 0.82 PP Herrera 0.368 0.483 0.591 0.669 0.767 0.822 PP Phân chia 0.385 0.489 0.606 0.672 0.774 0.821 Trong Hình 3.12 cho thấy số lượng 1-ItemSet phương pháp ĐSGT so với kết Herrera so với phương pháp lại Tuy nhiên dựa vào giá trị Suit Bảng 3.6 trực quan Hình 3.14 cho thấy hàm thuộc nhóm Herrera có độ chồng lấn nhiều, có số hai hàm thuộc gần chồng khít lên Trong thử nghiệm, độ thú vị luật tính theo cơng thức 2.5 mục 1.4.1 Từ kết Bảng 3.7 cho thấy độ thú vị trung bình luật phương pháp sử dụng ĐSGT cao hai phương pháp lại Hình 3.14: Tập hàm thuộc thu sau thực GA với phương pháp Herrera sử dụng lý thuyết tập mờ 21 Trong Hình 3.14 thấy, kết thu tập MF có cặp MF gần chồng khít, khơng thỏa mãn tiêu chí độ chồng lấn Điều chứng tỏ kết phân chia miền mờ phương pháp không tốt (ở kết điều có lẽ chia thành miền mờ hợp lý hơn, nhãn ngơn ngữ khác, có thay 5) Vấn đề lựa chọn không hàm MF phân chia miền xác định mục cố định số lượng (thí dụ 5) mà nữa, lựa chọn số lượng cho mục vấn đề đáng quan tâm thấy số nêu bảng phụ thuộc nhiều vào số lượng MF cho mục Trong chương này, luận án trình bày thuật tốn tối ưu hóa số lượng lẫn thơng số MF cho thuộc tính định tính nhằm tới kết tốt khai phá liệu thông qua việc sử dụng khái niệm đa thể hạt phân chia miền mờ Các hình ảnh cho tập MF theo phương pháp ĐSGT đưa Hình 3.15 Tất nhiên, tam giác biểu diễn MF tạo nên phân hoạch mạnh theo cách ta xây dựng Hình 3.15 tập hàm thuộc 10 thuộc tính thu sau thực tối ưu giải thuật di truyền Bằng trực quan thấy, tập mờ có phân bố đảm bảo độ chồng lấn tập mờ vừa phải tập mờ phủ toàn miền giá trị thuộc tính Hình 3.15: Tập hàm thuộc thu sau thực GA với phương pháp sử dụng biểu diễn đơn thể hạt ĐSGT 3.5.2.2 Kết thử nghiệm với số CSDL khác Trong mục này, luận án sử dụng cấu trúc ĐSGT trọng mục 3.5.2.1, trình bày kết thử nghiệm với CSDL gồm: Pollution, Stulong, Basketball, Quake, Stock Luận án trình bày so sánh kết đề xuất với hai phương pháp khác là: Phương pháp Herrera cộng [53], phương pháp Hong cộng [42] Trong Bảng 3.8 số lượng tập phổ biến 1-ItemSet, Bảng 3.9 độ thú vị trung bình Bảng 3.8: Bảng số lượng tập phổ biến 1-ItemSet CSDL pollution stulong Min Supp (%) 20 50 70 90 20 50 70 90 PP đề xuất 37 15 10 5 PP Herrera 45 14 13 10 PP Hong 56 43 18 17 13 13 22 Bảng 3.9: Bảng Độ thú vị trung bình CSDL Min Supp (%) 20 50 70 20 50 70 pollution stulong PP đề xuất 0.351 0.643 0.823 0.487 0.754 0.824 PP Herrera 0.349 0.665 0.918 0.457 0.651 0.783 PP Hong 0.342 0.654 0.798 0.414 0.685 0.789 Trong thử nghiệm, độ thú vị luật tính theo cơng thức 2.5 mục 1.4.1 Từ kết Bảng 3.9 cho thấy độ thú vị trung bình luật kết hợp thu phương pháp sử dụng ĐSGT cao sấp sỉ hai phương pháp lại 3.5.3 Phân tích đánh giá kết thực nghiệm với biểu diễn liệu dạng đa thể hạt Với thuộc tính CSDL phân chia miền mờ sử dụng biểu diễn đa thể hạt thuộc tính sử dụng cấu trúc ĐSGT trình bày mục 3.5.2.2 Các kết thử nghiệm so sánh với kết công bố trước Bảng 3.10, thống kê số lượng tập phố biến với mỗ độ hỗ trợ khác từ 20% đến 80% Bảng 3.11 kết thử nghiệm với ba phương pháp: phương pháp đề xuất sử dụng biểu diễn đa thể hạt, phương pháp biểu diễn đơn thể hạt đề xuất chương phương pháp Herrera (2009) Kết cho thấy phương pháp sử dụng biểu diễn Đa thể hạt cho số lượng 1-ItemSet tốt số với hai phương pháp lại (như Hình 4.3) Ở đây, (liệt kê thuộc tính dùng so sánh: độ phủ, chồng lấn trình bày mục 3.3.3) phương pháp dùng để so sánh thực với biểu diễn đơn thể hạt Các kết thử nghiệm cho thấy ưu việt việc sử dụng biểu diễn đa thể hạt ĐSGT, củng cố thêm cho kết nghiên cứu liên quan đến sử dụng biểu diễn đa thể hạt (một số cơng trình công bố số năm gần sử dụng biểu diễn đa thể hạt [37, 66-68, 82, 84]) Bảng 3.10: Các tham số mờ ĐSGT tối ưu 10 thuộc tính với phương pháp sử dụng biểu diễn đa thể hạt 𝜇(𝐿) 𝜇(𝑉) 𝑓𝑚(𝐶 − ) 𝑓𝑚(𝐶 + ) A1 0.531 0.469 0.202 0.798 A2 0.203 0.797 0.501 0.499 A3 0.445 0.555 0.562 0.438 A4 0.548 0.452 0.457 0.543 A5 0.208 0.792 0.617 0.383 A6 0.233 0.767 0.316 0.684 A7 0.202 0.798 0.800 0.200 A8 0.200 0.800 0.798 0.202 A9 0.212 0.788 0.586 0.414 A10 0.204 0.796 0.651 0.349 Bảng 3.11: Quan hệ số lượng tập mục độ hỗ trợ tối thiểu Min Support (%) 1-itemset 2-itemset 3-itemset 4-itemset 5-itemset 20 59 974 8890 50242 187379 30 50 675 4806 20719 57461 40 38 456 3111 13095 36432 50 29 371 2660 11890 34995 60 26 285 2518 4708 9506 70 22 187 772 1774 2528 80 17 78 150 167 167 Có thể thấy dùng biểu diễn đa thể hạt cho kết tốt hẳn Ngồi ra, nói trên, mặt ngữ nghĩa, dùng biểu diễn đa thể hạt cho luật mang tính khái quát cao luật chi tiết Luận án tiến hành thử nghiệm phương pháp Herrera với việc phân chia vậy, kết có tăng số phương pháp đề xuất (xem đồ thị so sánh Hình 3.27:) Cần nhấn mạnh rằng, với phương pháp luận án đề xuất, việc tính tốn liên quan đến biểu diễn đa thể hạt tăng thêm không đáng kể mặt phức tạp mặt thời gian mà kết nhận lại tốt nhiều 23 Hình 3.28: Tập hàm thuộc thu sau thực GA với phương pháp sử dụng biểu diễn đa thể hạt ĐSGT Bảng 3.12: Quan hệ số lượng 1-itemset độ hỗ trợ tối thiểu Min Support (%) 20 30 40 50 60 70 80 90 PP biểu diễn Đa thể hạt 54 46 35 27 23 14 12 PP biểu diễn Đơn thể hạt 21 17 13 PP Herrera cộng 25 21 15 10 Trong bảng 3.7 tham số mờ ĐSGT 10 thuộc tính số thu sau chạy giải thuật di truyền Các tham số sử dụng để xây dựng hàm thuộc theo dạng biểu diễn đa thể hạt trình bày mục 3.2.2 Hình 3.18 tập hàm thuộc biểu diễn dạng đa thể hạt 10 thuộc tính thu sau thực tối ưu giải thuật GA Có thể thấy hàm thuộc xây dựng dựa ĐSGT thuộc tính có phân bố tốt, đảm bảo độ bao phủ toàn miền giá trị độ chồng lấn hợp lý 3.6 Kết luận chương Chương luận án đề xuất phương pháp khai luật kết hợp mờ sử dụng ĐSGT dựa sở phân chia mờ miền giá trị thuộc tính với biểu diễn đơn thể hạt đa thể hạt Với thuộc tính số sử dụng cấu trúc ĐSDT để xây dựng hàm thuộc dạng đơn thể hạt đa thể hạt Luận án sử dụng giải thuật di truyền để tìm kiếm thuộc tối ưu (hay xác định tham số cấu trúc ĐSGT) dựa CSDL cho trước Kết nghiên cứu cho thấy phương pháp xây dựng tập hàm thuộc để phân chia tập mục mờ toán khai phá luật kết hợp mờ, cơng đoạn quan trọng mà đầu tư nghiên cứu Việc mở rộng ĐSGT (không có hạng từ) để đáp ứng yêu cầu tốn tối ưu hóa số lượng lẫn thông số MF nêu vừa giải tốt toán khai phá liệu, vừa phát huy mạnh ĐSGT Sử dụng ĐSGT tăng dễ dàng số hạng từ mà đảm bảo có phân hoạch mạnh dùng phân chia miền xác định mục Nội dung chương cơng bố cơng trình [iii, iv] Kết luận án thử nghiệm với CSDL gồm: FAM95, pollution, stulong, basketball, quake, stock Các CSDL lấy từ kho liệu UCI (https://archive.ics.uci.edu) Phương pháp đơn giản hiệu việc xây dựng tập mờ phân chia miền giá trị thuộc tính Cách phân chia miền mờ vừa đảm bảo đáp ứng tốt tiêu chí hệ tập mờ, vừa mang lại đáp ứng tốt mặt ngữ nghĩa cho luật khai phá Luận án thử nghiệm với hai phương pháp biểu diễn liệu: biểu diễn đơn thể hạt biểu diễn đa thể hạt Các luật khai phá bao gồm luật mang tính khái quát cao 24 luật chi tiết, phụ thuộc vào tầng biểu diễn liệu cấu trúc đa thể hạt ta xây dựng thông qua ĐSGT KẾT LUẬN VÀ KIẾN NGHỊ Với mục tiêu tìm kiếm phương pháp luận cho phép phát tri thức dạng luật mờ, luật kết hợp mờ, luật mờ dạng ngôn ngữ,… từ kho liệu số Luận án sử dụng ĐSGT thay cho lý thuyết tập mờ để nghiên cứu số vấn đề khai phá luật kết hợp mờ Luận án đề xuất phương pháp nhằm giảm thời gian, đề xuất giải pháp tìm kiếm phân hoạch mờ tối ưu cho thuộc tính định lượng dựa vào CSDL đầu vào theo số ràng buộc cho trước Luận án đề xuất sử dụng lý thuyết ĐSGT giải thuật GA áp dụng toán khai phá luật kết hợp mờ thay sử dụng lý thuyết tập mờ phương pháp đề xuất trước Kết nghiên cứu luận án là: - Nhằm mục đích giảm thời gian khai phá luật kết hợp, luận án đề xuất phương pháp sử dụng ĐSGT giải pháp nén CSDL mờ Các giao dịch mờ gần gộp với để tạo thành giao dịch Ưu điểm phương pháp giúp CSDL có kích thước nhỏ CSDL ban đầu giúp thời gian khai phá luật kết hợp giảm - Luận án đề xuất sử dụng lý thuyết ĐSGT giải thuật di truyền tìm kiếm hàm thuộc dựa vào CSDL giao dịch đầu vào số mục tiêu toán khai phá luật kết hợp mờ Phương pháp lập luận mờ sử dụng ĐSGT cần tập trung đến độ đo tính mờ hay tối ưu số gia tử, số lượng tham số so với số phương pháp đề xuất trước mà tác giả sử dụng lý tuyết tập mờ giúp thời gian tối ưu nhanh Luận án sử dụng biểu diễn tập mờ dạng đơn thể hạt để tính tốn độ thuộc liệu vào miền mờ Kết thu tập hàm thuộc cho thuộc tính định lượng tập luật kết hợp mờ - Luận án sử dụng biểu diễn đa thể hạt ĐSGT cho toán khai phá luật kết hợp mờ Về mặt ngữ nghĩa, dùng biểu diễn đa thể hạt cho luật kết hợp vừa có tính khái qt có tính chi tiết Với phương pháp luận án đề xuất, việc tính toán liên quan đến biểu diễn đa thể hạt tăng thêm không đáng kể mặt phức tạp mặt thời gian mà kết nhận lại tốt nhiều Mặc dù luận án đạt kết tốt, nhiên kết nghiên cứu chủ yếu tập trung vào giải pháp nén liệu giao dịch phân hoạch miền xác định thuộc tính thành miền mờ dạng biểu diễn đơn thể hạt đa thể hạt theo hướng tiếp cận sử dụng ĐSGT cho toán khai phá luật kết hợp mờ Song, số nội dung liên quan đến toán khai phá luật kết hợp cần tiếp tục nghiên cứu hoàn chỉnh hơn: giải tốn tìm luật kết hợp phủ định, luật kết hợp có trọng số, luật kết hợp song song,… Đó vấn đề đặt cho chúng tơi cần phải có nghiên cứu thời gian tới ... So với phương pháp phương pháp Herrera cộng [53], phương pháp Hong cộng [42] - Phương pháp phân chia phương pháp sử dụng ĐSGT Với độ hỗ trợ min_supp = 50%, phương pháp ĐSGT có chút phương pháp. .. tính mờ gia tử, phần tử sinh, phương pháp xác định giá trị định lượng từ ngôn ngữ, khoảng tính mờ, - Một số khái niệm luật kết hợp, luật kết hợp mờ số hướng nghiên cứu khai phá luật kết hợp mờ. .. khái niệm mờ (các từ ngôn ngữ mờ) thông qua hàm thuộc (tập mờ) phương pháp tốn học khác cho biểu thị ngữ nghĩa khái niệm phù hợp - Nghiên cứu phương pháp khai phá tri thức nói chung luật mờ nói