Khai phá tập mục phổ biến mờ dựa trên cấu trúc cây và kỹ thuật xử lý song song.Khai phá tập mục phổ biến mờ dựa trên cấu trúc cây và kỹ thuật xử lý song song.Khai phá tập mục phổ biến mờ dựa trên cấu trúc cây và kỹ thuật xử lý song song.Khai phá tập mục phổ biến mờ dựa trên cấu trúc cây và kỹ thuật xử lý song song.Khai phá tập mục phổ biến mờ dựa trên cấu trúc cây và kỹ thuật xử lý song song.Khai phá tập mục phổ biến mờ dựa trên cấu trúc cây và kỹ thuật xử lý song song.Khai phá tập mục phổ biến mờ dựa trên cấu trúc cây và kỹ thuật xử lý song song.Khai phá tập mục phổ biến mờ dựa trên cấu trúc cây và kỹ thuật xử lý song song.Khai phá tập mục phổ biến mờ dựa trên cấu trúc cây và kỹ thuật xử lý song song.Khai phá tập mục phổ biến mờ dựa trên cấu trúc cây và kỹ thuật xử lý song song.Khai phá tập mục phổ biến mờ dựa trên cấu trúc cây và kỹ thuật xử lý song song.Khai phá tập mục phổ biến mờ dựa trên cấu trúc cây và kỹ thuật xử lý song song.Khai phá tập mục phổ biến mờ dựa trên cấu trúc cây và kỹ thuật xử lý song song.Khai phá tập mục phổ biến mờ dựa trên cấu trúc cây và kỹ thuật xử lý song song.Khai phá tập mục phổ biến mờ dựa trên cấu trúc cây và kỹ thuật xử lý song song.Khai phá tập mục phổ biến mờ dựa trên cấu trúc cây và kỹ thuật xử lý song song.Khai phá tập mục phổ biến mờ dựa trên cấu trúc cây và kỹ thuật xử lý song song.Khai phá tập mục phổ biến mờ dựa trên cấu trúc cây và kỹ thuật xử lý song song.
BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ - TRẦN THỊ THÚY TRINH KHAI PHÁ TẬP MỤC PHỔ BIẾN MỜ DỰA TRÊN CẤU TRÚC CÂY VÀ KỸ THUẬT XỬ LÝ SONG SONG Chuyên ngành: Hệ thống thông tin Mã số: 48 01 04 TÓM TẮT LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH Hà Nội - 2023 Cơng trình hồn thành tại: Học viện Khoa học Cơng nghệ Viện Hàn lâm Khoa học Công nghệ Việt Nam Người hướng dẫn khoa học 1: PGS.TS Nguyễn Long Giang Người hướng dẫn khoa học 2: TS Trương Ngọc Châu Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng chấm luận án tiến sĩ, họp Học viện Khoa học Công nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam vào hồi….giờ, ngày …tháng … năm 2023 Có thể tìm hiểu luận án tại: - Thư viện Học viện Khoa học Công nghệ - Thư viện Quốc gia Việt Nam MỞ ĐẦU Tính cấp thiết luận án động lực nghiên cứu Nghiên cứu gắn với ứng dụng thực tiễn hoạt động cần nhiều thời gian công sức không nhỏ nhà khoa học Hơn nữa, thời đại công nghệ 4.0, ứng dụng khơng hỗ trợ tính kinh doanh mà giúp người đưa dự đốn tương đối xác thời điểm tương lai Sự phát triển mạnh mẽ hệ thống thông minh làm tăng nhu cầu ứng dụng thực tế dẫn đến việc tạo lượng lớn liệu hàng ngày Các công cụ phương pháp thống kê truyền thống dựa nhu cầu ứng dụng, chúng khơng có khả xử lý lượng liệu khổng lồ có nguồn gốc từ ứng dụng Việc phân tích liệu nhiệm vụ ưu tiên hàng đầu khơng chuyển sang hệ thống phức tạp bất lợi Để khắc phục vấn đề này, khai phá liệu [1]–[3] cách tiếp cận có lợi cách hỗ trợ phân tích liệu tóm tắt liệu thành thơng tin hữu ích Khái niệm khai phá liệu tạo thông tin chưa xác định trước với mức độ liên quan lớn từ sở liệu để định Phụ thuộc vào đa dạng kiến thức, phương pháp khai phá liệu chia thành loại: luật kết hợp [4]–[8], phân loại [7], [9]–[11], phân cụm [12]–[14] mẫu [15], [16] Đặc biệt, khai phá luật kết hợp quan trọng nghiên cứu khai phá liệu [17]–[19] Trong giao dịch kinh doanh phổ biến, luật kết hợp có dạng 𝐴 → 𝐵 với mục đích tìm kiếm mối quan hệ mục sở liệu Điều giúp doanh nghiệp đưa định việc hoạch định chiến lược kinh doanh, tiếp thị Trong giai đoạn thứ quy trình khai phá luật kết hợp, tập phổ biến lấy từ tập hợp liệu định Từ tập mục phổ biến trích xuất, luật kết hợp xây dựng giai đoạn thứ hai Giai đoạn khai phá luật kết hợp khai phá tập mục phổ biến cần nhiều nỗ lực để định vị tập phổ biến tập liệu Hầu hết nghiên cứu lĩnh vực tập trung vào việc nâng cao hiệu khai phá theo nhóm mục phổ biến mặt thời gian nhớ Các thuật toán khai phá tập mục phổ biến luật kết hợp truyền thống [20], [21] hầu hết biểu diễn liệu giao dịch dạng giá trị nhị phân, nghĩa liên quan đến xuất mục; nhiên, với cách tiếp cận rõ, để khai phá tập mục phổ biến cho luật kết hợp sở liệu có chứa liệu định lượng khó Do tính dễ sử dụng tương tự với suy luận người, lý thuyết tập mờ [22], [23] sử dụng hệ thống thông minh thường xuyên [24]–[27] Biểu diễn ngôn ngữ làm cho tri thức đơn giản để người dễ hiểu, sử dụng rộng rãi Vì vậy, để khai phá luật kết hợp mờ từ sở liệu định lượng, miền thuộc tính định lượng chuyển đổi thành tập mờ thể biến ngôn ngữ cách sử dụng hàm liên thuộc [28], cách tiếp cận làm giảm tính tốn Một số thuật tốn khai phá mờ nghiên cứu phát triển rộng rãi sử dụng lý thuyết tập mờ để chuyển đổi giá trị định lượng mục thành thuật ngữ ngôn ngữ dựa chế giống Apriori thông thường [29], [30], [31] [32] Thuật toán cho khai phá luật kết hợp mờ với hiệu suất nhanh hiệu tập liệu lớn đề xuất Mangalampalli Pudi [33] Tác giả sử dụng phương pháp tidlist để tính tần suất vị trí đặt, với tính cấu trúc liệu sử dụng byte-vector biểu diễn tidlist, danh sách nén sử dụng góp phần tăng hiệu suất Trước đây, Janikow kết hợp định tượng trưng hệ thống dựa luật để điều khiển mờ [34] cách sử dụng biểu diễn mờ Watanabe Fujioka [35], [36] định nghĩa dư thừa tương đương phần tử mờ định lý liên quan cho việc khai phá luật kết hợp mờ Mục tiêu thuật toán tinh chỉnh thời gian dành cho việc khai phá luật đồng thời cắt bỏ luật thừa ứng dụng khai phá liệu Tuy nhiên, hầu hết phương pháp khai phá luật kết hợp mờ áp dụng Apriori [37] để tạo ứng cử viên kiểm tra hỗ trợ chúng, yêu cầu quét lại sở liệu nhiều lần, gây q trình chậm khơng hiệu sở liệu lớn Hơn nữa, với cách biểu diễn mờ thuật toán trên, tập hợp mờ thuộc tính định lượng hàm thành viên chúng phụ thuộc vào ý kiến chủ quan chun gia tính sẵn có Vấn đề gây ranh giới “sắc nét” khoảng mờ, khó xác định mức độ hàm liên thuộc cho phần tử gần ranh giới khoảng Đây khoảng trống thứ xác định vấn đề nghiên cứu luận án Thay sử dụng cách tiếp cận thông thường theo Apriori, Lin et al triển khai phương pháp phổ biến mờ (FFP)-tree [38], [39] để khai phá tập mục phổ biến mờ dựa chế phát triển mẫu Tiếp cận áp dụng lý thuyết tập mờ cấu trúc FP (Frequent pattern) để xây dựng FFP (Fuzzy Frequent Pattern) sử dụng cho q trình khai phá Các biến ngơn ngữ chuyển đổi với mức độ thuộc chúng xếp theo thứ tự tăng dần giao dịch, giữ tính chất đóng (downward closure property) để xây dựng đệ quy điều kiện khai phá mục phổ biến mờ cần thiết Cách tiếp cận yêu cầu nhiều thời gian tính tốn quy mơ giao dịch lớn Thuật toán nén phổ biến mờ (CFFP – Compact Fuzzy Frequent Pattern)-tree [40] sau thiết kế để giảm kích thước FFP Do đó, mảng gắn với nút cách bảo toàn giá trị mờ cho biến ngôn ngữ xử lý với tập mục tiền tố đường Mặc dù số lượng nút CFFP giảm đáng kể so với thuật toán FFP, cần phải giữ thêm mảng nút để lưu trữ giá trị thành viên nút xử lý với biến ngơn ngữ đường Do đó, yêu cầu dung lượng nhớ để lưu giữ thơng tin đó, điều khơng hiệu sở liệu thưa Để giải hạn chế này, thuật toán mẫu phổ biến mờ giới hạn (UBFFPT - upper-bound fuzzy frequent pattern) [41] sau thiết kế để giữ khơng cấu trúc dày đặc mà cịn khai phá tập mục phổ biến mờ từ giới hạn nhớ so với FFP thuật toán CFFP Thuật tốn UBFFPT khai thác hiệu mục phổ biến mờ giữ nguyên kích thước nút thuật toán CFFP việc sử dụng nhớ tính tốn giảm đáng kể Các thuật toán sử dụng thuật ngữ ngôn ngữ để biểu diễn mục xử lý sở liệu, thơng tin phát khơng đầy đủ Nhiều thuật toán liên quan đến khai phá tập phổ biến mờ kép [42]–[44] đề xuất nhằm giúp tri thức khai phá đầy đủ so với phương pháp truyền thống Hong cộng [42] sau phát triển cấu trúc dựa với ý tưởng tương tự FP FFPT [38] trì nhiều tập mục phổ biến mờ 1-item với MFFP thiết kế để khai phá thông tin cần thiết, không biến ngôn ngữ đơn lẻ giữ để biểu diễn cho mục mà tất mục có giá trị mờ chúng khơng nhỏ ngưỡng hỗ trợ tối thiểu Vì vậy, thông tin đầy đủ lưu giữ để định hiệu Hơn nữa, ý tưởng tương tự sau áp dụng cho CMFFP [43] UBMFFP [44] Với thông tin đầy đủ nhiều mẫu phổ biến mờ dẫn xuất, chiến lược hiệu đạt để định Tuy nhiên, thuật toán này, việc khai phá tập phổ biến mờ thực cách đệ quy từ cấu trúc cây, yêu cầu nhớ lớn để lưu trữ tạm thời Đây khoảng trống thứ hai luận án giải Khai phá tập phổ biến từ nhiều tập liệu mờ đề cập báo [45] Trong báo, tác giả kết hợp nhiều bảng cách sử dụng lược đồ tìm luật kết hợp đa cấp mờ mơ hình sở liệu quan hệ, có khả xử lý nhiều bảng Thuật toán sử dụng phép nối thực thể để nhận tập mục phổ biến Tuy nhiên, kết báo nhiều hạn chế việc tính tốn hỗ trợ tập mục liên quan đến kết nối khác có chứa thuộc tính mờ Phương pháp khác [46] sử dụng thuật tốn tiến hóa vi phân (DE) để khai phá luật kết hợp mờ có ý nghĩa thống kê tối ưu hóa có số lượng lớn giá trị đo lường có nghĩa với kiểm soát chặt chẽ rủi ro luật suy đốn Ngồi ra, thuật tốn dựa mẫu đề xuất [47] nhằm mục đích tìm luật kết hợp mờ từ tập liệu định lượng lớn Nhiều nghiên cứu khác thực không để cải thiện hiệu suất mà cịn cải thiện tốc độ tìm kiếm luật kết hợp mờ với bảng băm, lược đồ cấu trúc liệu [40], [41], [43], [44] Thuật toán khai phá tập mục mờ phổ biến FFI-Miner [48] phát triển để khai phá tập đầy đủ FFI mà khơng cần tạo ứng viên Thuật tốn sử dụng chiến lược cắt tỉa hiệu phát triển để giảm khơng gian tìm kiếm, đẩy nhanh q trình khai phá để phát trực tiếp tập mục mờ phổ biến Các mẫu phổ biến tập mục tìm thấy số lượng đáng kể giao dịch Cùng với gia tăng kích thước liệu, loại liệu không đồng biến thể liệu động Do đó, việc mở rộng thuật toán khai phá mờ hiệu cho kỷ nguyên liệu lớn vấn đề quan trọng việc khai phá cách áp dụng kỹ thuật xử lý song song trở thành cách khả thi để khắc phục vấn đề thời gian xử lý Đây khoảng trống thứ ba xác định luận án Tại Việt Nam, khai phá luật kết hợp nhóm nghiên cứu Viện Công nghệ Thông tin thuộc Viện Khoa học Công nghệ Việt Nam luận án tiến sĩ Nguyễn Huy Đức [49] giới thiệu thuật toán FSM thuật toán nhanh khai phá tất tập mục cổ phần cao sở liệu giao tác đề xuất thuật toán AFSM (Advanced FSM) dựa bước thuật toán FSM với phương pháp tỉa hiệu tập mục ứng viên Luận án tiến sĩ Nguyễn Long Giang [50] trình bày phương pháp khai phá liệu sử dụng lý thuyết tập thô Bài báo tác giả Nguyễn Công Hào [51] trình bày phương pháp xử lý luật kết hợp mờ dựa đại số gia tử Nhóm nghiên cứu PGS TS Võ Đình Bảy GS TS Lê Hoài Bắc đưa phương pháp khai phá tập mục phổ biến sở liệu rõ [52]–[55], xem tảng cho nghiên cứu luận án Luận án nhằm giải ba khoảng trống xác định Việc nghiên cứu giải vấn đề thực cần thiết không phương diện phát triển lý thuyết mà phương diện ứng dụng thực tế Đó động lực để tác giả luận án thực nghiên cứu đề tài “Khai phá tập mục phổ biến mờ dựa cấu trúc kỹ thuật xử lý song song” để đưa phương pháp hiệu khai phá tập mục phổ biến khai phá luật kết mờ dựa lý thuyết tập mờ Mục tiêu, đối tượng phạm vi nghiên cứu luận án a Mục tiêu nghiên cứu Mục tiêu luận án nhằm đề xuất giải pháp khai phá tập mục phổ biến mờ sở liệu định lượng, khắc phục vấn đề “sắc nét” phân vùng liệu mờ cho thuộc tính có giá trị định lượng Cụ thể, luận án tập trung đề xuất giải pháp nhằm: - Xác định tập mờ cho thuộc tính định lượng sở liệu thơng qua kỹ thuật phân cụm - Giảm nhớ lưu trữ trình khai phá tập mục phổ biến mờ - Giảm thời gian xử lý việc khai phá tập mục phổ biến mờ sở liệu lớn b Đối tượng nghiên cứu - Các thuật toán khai phá tập mục phổ biến sở liệu giao dịch - Các thuật toán khai phá tập mục phổ biến mờ, khai phá luật kết hợp mờ sở liệu định lượng c Phạm vi nghiên cứu - Luận án nghiên cứu luật kết hợp mờ, tập mục phổ biến mờ sở liệu định lượng - Tổng hợp công bố khoa học liên quan đến phương pháp khai phá tập mục phổ biến mờ - So sánh thực nghiệm với thuật tốn có Phương pháp nghiên cứu Luận án sử dụng phương pháp nghiên cứu sau: - Tổng hợp đánh giá kết công bố phương pháp khai phá tập mục phổ biến mờ từ nhiều nguồn thông tin thu thập Trên sở đề xuất kết mới, đánh giá kết việc cài đặt thử nghiệm số thuật toán Áp dụng kết để giải toán thực tiễn - Phương pháp so sánh: sử dụng để so sánh kỹ thuật, thuật toán đề xuất để giải vấn đề nghiên cứu liên quan, từ hình thành ý tưởng cho thuật toán cho vấn đề nghiên cứu - Phương pháp thực nghiệm: Các thuật toán đề xuất thực nghiệm tập liệu thực để đánh giá đắn tính khả thi thuật tốn Các đóng góp luận án Những đóng góp luận án đề xuất giải vấn đề sau: - Đề xuất phương pháp xác định tập mờ cho thuộc tính định lượng sở liệu thông qua kỹ thuật phân cụm Cụ thể hơn, luận án trình bày kỹ thuật phân cụm EMC Mục tiêu thuật toán chia liệu thành cụm có ý nghĩa Sau đó, cụm sử dụng để phân loại thuộc tính định lượng tập mờ xác định hàm thuộc chúng [CT2], [CT4] - Đề xuất phương pháp khai phá tập mục phổ biến mờ sở liệu định lượng sử dụng cấu trúc liệu Node-list Quy trình khai phá tập mục mờ phổ biến dựa PP_code POS_code giúp hạn chế mức tiêu thụ nhớ yêu cầu [CT1], [CT2], [CT5] - Đề xuất phương pháp xử lý song song để khai phá tập mờ phổ biến sử dụng phương pháp tiếp cận automata di động học(Cellular learning automata) Theo CLA, không gian biểu diễn mạng, với phần tử Từng dịng một, liệu giao dịch đọc đồng thời chuyển đến ô, chúng xử lý song song với Thông qua việc sử dụng ô liệu tự trị này, việc khai phá tập mục mờ phổ biến thực Quá trình rút ngắn thời gian thực thi thuật toán [CT3] Bố cục luận án Luận án gồm phần Mở đầu, 03 chương phần kết luận - Phần Mở đầu: Trình bày cần thiết động lực nghiên cứu đề tài; mục tiêu, đối tượng, phạm vi nghiên cứu; phương pháp nghiên cứu; đóng góp cấu trúc luận án - Chương 1: Cơ sở lý thuyết - Chương 2: Các phương pháp khai phá tập mục phổ biến mờ dựa cấu trúc - Chương 3: Khai phá tập mục phổ biến mờ sử dụng phương pháp xử lý song song CHƯƠNG 1: CƠ SỞ LÝ THUYẾT Trong chương này, NCS trình bày khái niệm luật kết hợp, luật kết hợp định lượng, logic mờ, luật kết hợp mờ nghiên cứu liên quan đến luật kết hợp mờ Từ đó, xác định vấn đề tồn cần giải chương 1.1 Luật kết hợp 1.1.1 Các khái niệm luật kết hợp [55] Định nghĩa 1.1 Cơ sở liệu giao tác: Giả sử 𝐼 = {𝑖1 , 𝑖2 , … , 𝑖𝑚 } tập mục 𝐷 = {𝑇1 , 𝑇2 , … , 𝑇𝑛 } tập giao tác, gọi sở liệu giao tác, giao tác t D có dạng (tid, X) đó, giao tác t có định danh tid tập mục t-itemset, 𝑡 = (𝑡𝑖𝑑, 𝑡 − 𝑖𝑡𝑒𝑚𝑠𝑒𝑡 ); X gọi tập mục itemset 𝑋 ⊆ 𝐼 Định nghĩa 1.2: Độ hỗ trợ tập mục Độ hỗ trợ tập mục X sở liệu giao tác D ký hiệu sup (X) số giao dịch chứa tập mục X, tính cơng thức sau: 𝑠𝑢𝑝(𝑋 ) = |𝑡| 𝑋 ⊆ 𝑡, 𝑡 ∈ 𝐷 | (1.1) Trong ký hiệu |.| số giao tác Định nghĩa 1.3: Tập mục phổ biến Một tập mục X có sở liệu giao tác D gọi phổ biến độ hỗ trợ (𝑠𝑢𝑝(𝑋 )) lớn ngưỡng độ hỗ trợ tối thiểu (minsup) cho trước người dùng định nghĩa Vì vậy, độ hỗ trợ xem tần suất xuất đồng thời mục Định nghĩa 1.4: Luật kết hợp Một luật kết hợp mệnh đề kéo theo có dạng X →Y, X Y tập mục thoả mãn điều kiện: 𝑋 ⊆ 𝐼, 𝑌 ⊆ 𝐼 𝑋⋂ 𝑌 = ∅ Đối với luật kết hợp X → Y, X gọi tiền đề, Y gọi kết luật Định nghĩa 1.5 : Độ hỗ trợ luật Cho luật kết hợp 𝑟 = 𝑋 → 𝑌, độ hỗ trợ luật r ký hiệu sup(r) tỉ số số lượng giao tác T ⊆ D có chứa tập mục X tập mục Y với tổng số giao tác D xác định sau: 𝑠𝑢𝑝(𝑟) = |{𝑇 ∈ 𝐷|𝑇 ⊃ 𝑋 ∪ 𝑌}| |𝐷| (1.2) Định nghĩa 1.6 Độ tin cậy luật Cho luật kết hợp 𝑟 = 𝑋 → 𝑌, độ tin cậy luật r ký hiệu conf(r) tỉ số số lượng giao tác T ⊆ D có chứa tập mục X tập mục Y với tổng số giao tác D chứa tập mục X, xác định sau: 𝑐𝑜𝑛𝑓(𝑟) = |{𝑇 ∈ 𝐷|𝑇 ⊃ 𝑋 ∪ 𝑌}| 𝑠𝑢𝑝(𝑋 ∪ 𝑌) = |{𝑇 ∈ 𝐷|𝑇 ⊃ 𝑋}| 𝑠𝑢𝑝(𝑋) (1.3) Định nghĩa 1.7: Luật kết hợp mạnh Cho luật kết hợp 𝑟 = 𝑋 → 𝑌, luật r thỏa mãn hai ngưỡng độ hỗ trợ tối thiểu (minsup) độ tin cậy tối thiểu (minconf) gọi luật kết hợp mạnh, tức là: 𝑠𝑢𝑝(𝑟 = 𝑋 → 𝑌) = 𝑃(𝑋 ∪ 𝑌) ≥ 𝑚𝑖𝑛𝑠𝑢𝑝 𝑠𝑢𝑝(𝑋 ∪ 𝑌) 𝑐𝑜𝑛𝑓(𝑟 = 𝑋 → 𝑌) = 𝑃(𝑋 ∪ 𝑌) = ≥ 𝑚𝑖𝑛𝑐𝑜𝑛𝑓 𝑠𝑢𝑝(𝑋) Phát biểu toán: Bài toán luật kết hợp phát biểu sau [49]: Cho sở liệu giao tác D, độ hỗ trợ tối thiểu minsup, độ tin cậy tối thiểu minconf Hãy tìm tất luật kết hợp có dạng 𝑋 → 𝑌 thỏa mãn độ hỗ trợ 𝑠𝑢𝑝(𝑋∪𝑌) 𝑠𝑢𝑝(𝑋 ∪ 𝑌) ≥ 𝑚𝑖𝑛𝑠𝑢𝑝 độ tin cậy 𝑐𝑜𝑛𝑓 (𝑋 → 𝑌) = ≥ 𝑚𝑖𝑛𝑐𝑜𝑛𝑓 𝑠𝑢𝑝(𝑋) 1.1.2 Luật kết hợp sở liệu nhị phân Luật kết hợp nhị phân đề cập đến luật cổ điển toán phân tích giỏ hàng Ở sản phẩm có giao dịch khơng, tạo giá trị kiểu boolean (được biểu diễn 0) Do đó, mọi mục giao dịch xác định thuộc tính nhị phân với miền {0,1} Mơ hình định nghĩa [55] sau: Cho 𝐼 = {𝑖1 , 𝑖2 , … , 𝑖𝑚 } tập thuộc tính nhị phân, gọi mục Cho T sở liệu giao dịch Mỗi giao dịch t biểu diễn vecto nhị phân với 𝑡 [𝑘 ] = giao dịch t có chứa mục 𝑖𝑘 𝑡[𝑘 ] = ngược lại Cho X tập mục chứa I, ta nói giao dịch t thỏa mãn X mọi mục X 𝑖𝑘 ∈ 𝑋, 𝑡[𝑘 ] = 1.1.3 Luật kết hợp sở liệu định lượng Theo dạng luật kết hợp nhị phân mục quan tâm có hay khơng xuất sở liệu giao tác không quan tâm mức độ hay tần xuất xuất Trong thực tế, sở liệu không chứa thuộc tính nhị phân mà cịn chứa thuộc tính định lượng phân loại mà khai phá kỹ thuật cổ điển Việc khai phá luật loại liệu gọi toán luật kết hợp định lượng [29] Chiến lược khai phá luật kết hợp định lượng thực cách chuyển đổi thuộc tính có giá trị định lượng sang giá trị nhị phân Trong phương pháp này, giá trị định lượng/phân loại có dạng 〈𝑎𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒, 𝑣𝑎𝑙𝑢𝑒〉 ánh xạ sang giá trị nhị phân Sau đó, kỹ thuật khai phá luật kết hợp nhị phân thực để tìm luật Trong khai phá luật kết hợp định lượng, thuộc tính định lượng phân loại 1.2 Tổng quan Logic mờ 1.2.1 Tập mờ Cho tập vũ trụ U với phần tử ký hiệu 𝑢 , 𝑈 = {𝑥} Một tập mờ 𝐴̃ U tập đặc trưng hàm 𝜇𝐴 (𝑢) mà liên kết phần tử 𝑢 ∈ 𝑈 với số thực đoạn [0,1] 𝐴̃ = {(𝑢, 𝜇𝐴 (𝑢)) | 𝑢 ∈ 𝑈} (1.4) Trong 𝜇𝐴 (𝑢) ánh xạ từ U vào [0,1] gọi hàm thành viên tập mờ 𝐴̃ 1.2.2 Hàm thành viên Hàm thành viên 𝜇𝐴 (𝑢) định nghĩa cho tập 𝐴 tập vũ trụ U khái niệm tập hợp kinh điển có hai giá trị 𝑢 ∈ 𝐴 𝑢 ∉ 𝐴 Tuy nhiên khái niệm tập mờ giá trị hàm thành viên mức độ thuộc (membership degree) phần tử 𝑢 vào tập mờ 𝐴 Khoảng xác định hàm 𝜇𝐴 (𝑢) đoạn [0, 1], giá trị mức độ khơng thuộc về, cịn giá trị mức độ thuộc hoàn toàn 𝜇 (𝐴) ∶ 𝑈 → [0, 1] (1.5) Kiểu tập mờ phụ thuộc vào kiểu hàm thành viên khác Có nhiều kiểu hàm thành viên khác đề xuất 1.2.3 Biến ngôn ngữ Biến ngôn ngữ [66] năm (𝑋, 𝑇(𝑋 ), 𝑈, 𝑅, 𝑀), X tên biến, T(X) tập giá trị ngôn ngữ biến 𝑋, U không gian tham chiếu biến sở 𝑢, giá trị ngôn ngữ xem biến mờ U kết hợp với biến sở 𝑢, 𝑅 quy tắc cú pháp sinh giá trị ngôn ngữ 𝑇(𝑋 ), 𝑀 quy tắc ngữ nghĩa gán giá trị ngôn ngữ 𝑇(𝑋 ) với tập mờ U Ví dụ: Cho 𝑋 biến ngơn ngữ có tên T̉I, biến sở 𝑢 lấy theo số tuổi người có miền xác định 𝑈 = [0,100] Tập giá trị ngơn ngữ 𝑇(𝑇𝑈Ở𝐼) = {𝑟ấ𝑡 𝑡𝑟𝑒̉ , 𝑡𝑟𝑒̉ , 𝑡𝑟𝑢𝑛𝑔 𝑛𝑖ê𝑛, 𝑔𝑖𝑎̀ , 𝑟ấ𝑡𝑔𝑖𝑎̀} 1.2.4 Các phép toán logic mờ Ba phép toán logic mờ bản: phép bù, phép hợp phép giao thường sử dụng lý thuyết tập mờ, mô tả [22] Phép bù: Phép toán bù tập mờ A ký hiệu ⌐A Hàm thành viên ⌐A định nghĩa là: 𝜇⌐𝐴 (𝑥) = − 𝜇𝐴 (𝑥), ∀𝑥 ∈ 𝑋 (1.9) Phép hợp: Phép hợp hai tập mờ A B ký hiệu 𝐴 ∪ 𝐵 Hàm thuộc 𝐴 ∪ 𝐵 phép tốn chuẩn định nghĩa sau: 𝜇𝐴∪𝐵 (𝑥) = 𝑚𝑎𝑥 {𝜇𝐴 (𝑥), 𝜇𝐵 (𝑥)}, ∀𝑥 ∈ 𝑋 (1.10) Phép giao: phép toán giao hai tập mờ A B ký hiệu 𝐴 ∩ 𝐵 Hàm thành viên 𝐴 ∩ 𝐵 phép tốn chuẩn định nghĩa sau: 𝜇𝐴∩𝐵 (𝑥) = 𝑚𝑖𝑛{𝜇𝐴 (𝑥), 𝜇𝐵 (𝑥)}, ∀𝑥 ∈ 𝑋 (1.11) 1.3 Luật kết hợp mờ 1.3.1 Cơ sở liệu giao dịch mờ Cho 𝐼 = {𝐼1 , 𝐼2 , … , 𝐼𝑚 } tập n thuộc tính, 𝑖𝑢 thuộc tính thứ u I 𝐷𝑄 = {𝑇1 , 𝑇2 , … , 𝑇𝑛 } tập giao tác với 𝑇𝑣 ∈ 𝐷𝑄 tập I chứa mục có giá trị định lượng có định danh TID Một giao tác T gọi chứa X 𝑋 ⊆ 𝑇𝑞 đó, X tập chứa vài mục có I Mỗi thuộc tính 𝑗 𝐼𝑘 kết hợp với tập giá trị mờ biểu diễn 𝐹𝑖𝑘 = {𝑓𝑖𝑘1 , 𝑓𝑖𝑘2 , … , 𝑓𝑖𝑘ℎ } với 𝑓𝑖𝑘 giá trị mờ thứ j 𝐹𝑖𝑘 Sử dụng hàm thành viên liên quan để xác định tập mờ cho thuộc tính, sở liệu định lượng 𝐷𝑄 chuyển thành sở liệu chứa giá trị mờ 𝐷𝑓 1.3.2 Độ hỗ trợ tập mục mờ Một tập thuộc tính mờ luật kết hợp mờ cặp 〈𝑋, 𝐴〉 với A tập tập mờ tương ứng với thuộc tính X 𝑋 ⊆ 𝐼 Độ hỗ trợ tập mục 〈𝑋, 𝐴〉 ký hiệu 𝑓𝑠𝑢𝑝(〈𝑋, 𝐴〉 ) xác định công thức sau: 𝑓𝑠𝑢𝑝(〈𝑋, 𝐴〉) = ∑ 𝜇𝑥1 (𝑡) ⨂ 𝜇𝑥2 (𝑡)⨂ … ⨂ 𝜇𝑥𝑝 (𝑡) (1.12) 𝑡∈𝑇 Trong đó, 𝜇𝑥𝑝 (𝑡 ) giá trị mờ thuộc tính 𝑥𝑝 giao tác t ⨂ toán từ T-norm (T-chuẩn) Trong lý thuyết logic mờ, có vai trị giống phép tốn AND logic cổ điển Có nhiều cách lựa chọn phép toán T-norm như: Phép lấy min: 𝑎 ⊗ 𝑏 = 𝑚𝑖𝑛(𝑎, 𝑏) Tích đại số: 𝑎 ⊗ 𝑏 = 𝑎𝑏 Tích bị chặn: 𝑎 ⊗ 𝑏 = 𝑚𝑎𝑥(0, 𝑎 + 𝑏 − 1) 𝑎 (𝑛ế𝑢 𝑏 = 1) Tích Drastic: 𝑎 ⊗ 𝑏 = { 𝑏 (𝑛ế𝑢 𝑎 = 1) (𝑛ế𝑢 𝑎, 𝑏 < 1) Phép giao: 𝑎 ⊗ 𝑏 = − 𝑚𝑖𝑛 [1, ((1 − 𝑎)𝑤 + (1 − 𝑏)𝑤 )𝑤 ] với (𝑤 > 0) Phép lấy phép tính đại số hai phép tốn phù hợp thuận tiện cho việc tính tốn thể mối liên hệ chặt chẽ thuộc tính tập phổ biến Khi chọn phép lấy cho tốn tử T-norm, cơng thức tính độ hỗ trợ tập mục 〈𝑋, 𝐴〉 trở thành: 𝑓𝑠𝑢𝑝(〈𝑋, 𝐴〉) = ∑ 𝑚𝑖𝑛{𝜇𝑥1 (𝑡), 𝜇𝑥2 (𝑡), … , 𝜇𝑥𝑝 (𝑡)} 𝑡∈𝑇 (1.13) Khi chọn phép lấy tích đại số cho tốn tử T-norm, cơng thức tính độ hỗ trợ tập mục 〈𝑋, 𝐴〉 trở thành: 𝑠𝑢𝑝(〈𝑋, 𝐴〉) = ∑ ∏ { 𝜇𝑥𝑝 (𝑡)} 1.3.3 Tập mục mờ phổ biến (1.14) 𝑡∈𝑇 𝑥𝑝 ∈𝑋 Định nghĩa 1.8: (Tập mờ phổ biến): [41] Một tập mục 〈𝑋, 𝐴〉 gọi phổ biến độ hỗ trợ lớn độ hỗ trợ tối thiểu (fminsup) người dùng định nghĩa 𝑓𝑠𝑢𝑝(〈𝑋, 𝐴〉) ≥ 𝑓𝑚𝑖𝑛𝑠𝑢𝑝 Khai phá tập mục mờ phổ biến tốn trích xuất tất tập mục mờ phổ biến có dạng: 1.3.4 Luật kết hợp mờ 𝐹𝐹𝐼𝑘 = {𝑋 | 𝑓𝑠𝑢𝑝(𝑋) ≥ 𝛿 × |𝐷𝑓 |} (1.15) Sau có khoảng mờ hàm thành viên tương ứng chúng cho tập mờ thuộc tính định lượng được, sở liệu 𝐷𝐹 biến đổi (bằng cách mờ hóa) tạo từ sở liệu gốc Cho sở liệu mờ 𝐷𝐹 = {𝑇1 , 𝑇2 , … , 𝑇𝑛 } với thuộc tính 𝑖𝑗 ∈ 𝐼 tập mờ 𝐹𝑖𝑗 tương ứng với thuộc tính I Một luật kết hợp mờ có dạng sau: 𝐼𝑓 𝑋 = {𝑥1 , 𝑥2 … , 𝑥𝑝 } 𝑖𝑠 𝐴 = {𝑎1 , 𝑎2 … , 𝑎𝑝 } 𝑡ℎ𝑒𝑛 𝑌 = {𝑦1 , 𝑦2 … , 𝑦𝑞 } 𝑖𝑠 𝐵 = {𝑏1 , 𝑏2 … , 𝑏𝑞 } Trong đó: 𝑎𝑖 ∈ 𝐹(𝑥𝑖 ), 𝑖 = 1, … , 𝑝 𝑏𝑗 ∈ 𝐹(𝑦𝑗 ), 𝑗 = 1, … , 𝑞 X Y tập mục có trật tự I phân biệt, khơng có chung thuộc tính Khi đó, X is A gọi tiền đề luật Y is B gọi hệ luật Một ví dụ luật kết hợp có dạng: Nếu Tuổi is Trẻ THEN Thu nhập is Thấp Định nghĩa 1.9: (Độ hỗ trợ luật kết hợp mờ) Độ hỗ trợ luật mờ 𝑋 𝑖𝑠 𝐴 ⇒ 𝑌 𝑖𝑠 𝐵 xác định theo công thức sau: 𝑓𝑠𝑢𝑝(〈𝑋 𝑖𝑠 𝐴 ⟹ 𝑌 𝑖𝑠 𝐵〉) = 𝑓𝑠𝑢𝑝(〈𝑋 ∪ 𝑌, 𝐴 ∪ 𝐵〉) (1.16) Định nghĩa 1.10: (Độ tin cậy luật kết hợp mờ) Độ tin cậy luật mờ 𝑋 𝑖𝑠 𝐴 ⇒ 𝑌 𝑖𝑠 𝐵 xác định theo công thức sau: 𝑓𝑐𝑜𝑛𝑓(〈𝑋 𝑖𝑠 𝐴 ⟹ 𝑌 𝑖𝑠 𝐵〉) = 𝑓𝑠𝑢𝑝(〈𝑋 𝑖𝑠 𝐴 ⟹ 𝑌 𝑖𝑠 𝐵〉) 𝑓𝑠𝑢𝑝(〈𝑋, 𝐴〉) (1.17) Định nghĩa 1.11: (Luật mờ phổ biến) Một luật gọi phổ biến độ hỗ trợ lớn fminsup, có nghĩa 𝑓𝑠𝑢𝑝(〈𝑋 𝑖𝑠 𝐴 ⟹ 𝑌 𝑖𝑠 𝐵〉) ≥ 𝑓𝑚𝑖𝑛𝑠𝑢𝑝 Định nghĩa 1.12 (Luật mờ tin cậy) Một luật xem tin cậy độ tin cậy lớn độ tin cậy tối thiểu fminconf (fuzzy minimum confidence) định nghĩa người dùng, nghĩa 𝑓𝑐𝑜𝑛𝑓(〈𝑋 𝑖𝑠 𝐴 ⟹ 𝑌 𝑖𝑠 𝐵〉) ≥ 𝑓𝑚𝑖𝑛𝑐𝑜𝑛𝑓 1.4 Các nghiên cứu liên quan 1.4.1 Các nghiên cứu tiếp cận dựa Apriori Các nghiên cứu tiếp cận dựa Apriori để khai phá tập phổ biến mờ, sau tập mục phổ biến mờ cịn lại sử dụng để tạo luật kết hợp mờ FAPACS [69], [31], [32] Trong đó, giá trị thuộc tính định lượng chuyển đổi thành biểu diễn thuật ngữ ngôn ngữ với giá trị liên thuộc chúng theo hàm liên thuộc xác định trước 1.4.2 Các nghiên cứu mở rộng từ Apriori Một số thuật tốn biến thể trình bày để khai phá luật kết hợp mờ [70], [71], [72], [73], [74] Sau tác giả phát triển thuật toán khai phá mờ nhiều mức để khai phá luật kết hợp mờ cách tích hợp khái niệm tập mờ phân loại nhiều mức [28] 11 Lấy đạo hàm gắn 𝑁 𝛿 𝑙𝑛 𝑝(𝑋|𝑥̅ , 𝛴) = 0, 𝑥̅𝑀𝐿 = ∑ 𝑋𝑛 𝛿𝑥̅ 𝑁 𝑛=1 𝑁 𝛿 𝑙𝑛 𝑝(𝑋|𝑥̅ , 𝛴) = 0, 𝛿𝛴 𝛴𝑀𝐿 = ∑ 𝑋𝑛 𝑁 𝑛=1 Trong N số lượng mẫu Phân phối hỗn hợp tuyến tính Gaussian 𝐾 𝑝(𝑥) = ∑ 𝜋𝑘 𝒩(𝑋|𝑥̅𝑘 , 𝛴𝑘 ) (2.5) 𝑘=1 Trong K số Gaussian 𝜋𝑘 hệ số pha trộn, với trọng số cho đơn vị Gaussian ≤ 𝜋𝑘 ≤ 1, ∑𝐾 𝑘=1 𝜋𝑘 = Xét log likelihood 𝑁 𝑁 𝑁 𝑙𝑛 𝑝(𝑋|𝑥̅ , 𝛴, 𝜋) = ∑ 𝑙𝑛 𝑝 (𝑋𝑛 ) = ∑ 𝑙𝑛 {∑ 𝜋𝑛 (𝑋𝑛 |𝑥̅𝑘 , 𝛴𝑘 )} 𝑛=1 (2.6) 2.2.1.2 Xác định khoảng mờ Khi thao tác liệu sở liệu mờ, vấn đề quan trọng làm tìm phương pháp xử lý giá trị mờ để từ xây dựng quan hệ đối sánh chúng Các giá trị sở liệu mờ phức tạp, bao gồm giá trị ngôn ngữ, giá trị số, giá trị khoảng Có nhiều cách tiếp cận khác để xử lý giá trị mờ tác giả nước quan tâm nghiên cứu năm gần đây, chẳng hạn như: lý thuyết thuyết tập mờ [22], lý thuyết khả [80], [81], quan hệ tương tự [82] Các giá trị khoảng chuyển dạng các số mờ theo dạng tam giác, hình thang, hình chng để xử lý 2.2.2 Bài tốn đặt Cho trước sở liệu chứa giá trị định lượng 𝐷𝑄 Bài toán đặt ra: Xác định tập tập mờ thuộc tính định lượng 𝐷𝑄 hàm thành viên tương ứng Chuyển đổi sở liệu định lượng sang sở liệu mờ 2.2.3 Thuật toán phân cụm liệu EMC 2.2.3.1 Ý tưởng thuật toán Thuật toán EMC kỹ thuật tối ưu hóa lặp lại vận hành linh hoạt (Thuật toán cải thiện để tăng tính linh hoạt cho phân cụm đồng thời giảm tối ưu hóa cục tăng tối ưu hóa tồn cục) 1) Bước E: dựa tham số mơ hình, tính tốn xác suất gán nhãn điểm liệu vào nhóm 2) Bước M: cập nhật tham số mơ hình dựa nhóm gom từ bước E 3) Bước C: Cập nhật tham số mơ hình dựa biến tiềm ẩn tính theo phương pháp khả ước lượng cực đại tỷ lệ tương tự đối tượng cụm đánh giá hệ số biến thiên phần tử cụm Thuật toán EMC bắt đầu tham số cho mơ hình dự đốn Sau thực vịng lặp tiến trình thể Thuật tốn 2.1 2.2.3.2 Thuật tốn EMC Thuật tốn EMC mơ tả Thuật toán 2.1 Thuật toán 2.1: EMC (Expectation Maximization Coefficient) Đầu vào: Khởi tạo giá trị hệ số biến thiên 𝐶𝑣𝑣𝑎𝑙𝑢𝑒 Đầu ra: Số cụm tối ưu 12 1: Khởi tạo tham số kỳ vọng 𝑥̅𝑗 , hiệp phương sai 𝛴𝑗 , hệ số pha trộn 𝜋𝑗 ∑𝑗𝑗=1 𝜋𝑗 = 𝜋𝑗 ≥ ∀𝑗 Hệ số biến thiên Cvvalue = 15 % giá trị khởi tạo từ người dùng để tính tốn tỉ lệ biến thiện phần tử cụm cụm 2: Bước E: Dựa tham số mơ hình, tính tốn xác suất gán nhãn điểm liệu vào nhóm πk 𝒩(X|x̅k , Σk ) (2.7) γj (X) = K ∑j=1 πj 𝒩 (X|x̅j , Σj ) 3: Bước M: Cập nhật tham số mơ hình dựa nhóm gom từ bước E ∑N n=1 γj (X n )X n (2.8) ̅xj = ∑N n=1 γj (X n ) ∑N ̅ j )Xn − x̅j T n=1 γj (X n )(X n − x Σj = (2.9) ∑N n=1 γj (X n ) N πj = ∑ γj (Xn ) N (2.10) n=1 4: Đánh giá log likelihood N N K ln p(X|x̅, Σ, π) = ∑ ln = ∑ ln {∑ πk (Xn |x̅k , Σk )} n−1 (2.11) k=1 5: Bước C: Cập nhật thông tin hệ số biến thiên cụm đánh giá khả biến động phần tử cho cụm, cụ thể ta đánh giá hệ số biến thiên cụm thứ i với Cvi có thảo mãn giá trị biến thiên Cvvalue cho hay không ∑N n=1 γj (X n )X n C vi = (2.12) n ∑k=1 xk n Cvi ≤ Cvvalue (2.13) 6: Nếu không hội tụ thảo mãn giá trị biến thiên Cvvalue cho, quay trở lại bước Nếu likelihood khơng có nhiều thay đổi thuật toán kết thúc 2.2.3.3 Đánh giá thuật toán EMC dựa Log Likehood Hình 2.1: Tính tổng Log Likelihood số lần lặp lại thuật tốn EMC Thơng qua kết thực nghiệm Hình 2.2, vùng giá trị (Total Log Likelihood (TLL)> -3150) TLL, ta tìm thấy kết tốt từ tham số cho mơ hình GMM Các giá trị tính tốn Cv khác tương ứng với cụm ảnh hưởng đến số lần lặp EMC nhiều Giá trị Cv thay đổi linh hoạt, điều phụ thuộc vào số lượng cụm kích thước cụm Kết thu 13 từ thuật toán cho cụm tối ưu sử dụng chúng để phân loại thuộc tính định lượng thành tập mờ việc xác định hàm thành viên 2.2.4 Thuật toán xác định khoảng mờ 2.2.4.1 Xác định tâm Trong sở liệu mờ, miền giá trị thuộc tính định lượng mục mờ mà (các thuộc tính chứa giá trị rõ mờ) chia thành hai nhiều khoảng mờ Trong khoảng mờ, phần tử thuộc nhiều khoảng với mức độ khác Trong phần mục này, giả sử thuộc tính định lượng chia thành ba khoảng mờ phương pháp tiếp cận thống kê sử dụng kỳ vọng 𝑥̅ (mean) độ lệch chuẩn (Sd) minh họa hình 2.3 Hình 2.2: Các khoảng mờ Mức độ chồng lấp đối tượng liệu mờ thuộc hai nhiều cụm định nghĩa sau: ∑𝑛𝑗=1|𝐶𝑗 | 𝑂𝑣𝑒𝑟𝑙𝑎𝑝 = ∗ 100 (2.14) |⋃𝑛𝑗 𝐶𝑗 | Trong 𝐶𝑗 cụm thứ j, với j=1, 2, , n; 2.2.4.2 Xác định khoảng mờ Khoảng thứ (𝟏𝒔𝒕 interval) Biên (𝑑 − ) khoảng thứ giá trị nhỏ miền thuộc tính định lượng Biên (𝑑 + ) tính kỳ vọng 𝑥̅ độ lệch chuẩn (Sd) giá trị thuộc tính định lượng Biểu thức tốn học (𝑑 − ) (𝑑 + ) trình bày sau: 𝑑 − = 𝑀𝐼𝑁(𝑋1𝐶𝑗 , 𝑋2𝐶𝑗 , … , 𝑋𝑁𝐶𝑗 ) } 𝑆𝑑 𝑑 + = 𝑥̅ − + 𝑥̅ × 𝑜𝑣𝑒𝑟𝑙𝑎𝑝 (2.15) 1 𝑥 − 𝑑− )Π 𝑓(𝑥)𝒵 = + 𝑐𝑜𝑠 ( + 2 𝑑 − 𝑑− (2.16) Trong 𝑋𝑁 giá trị cụm 𝐶𝑗 với 𝑁 = 1,2, , 𝑛 𝑗 = 1,2, 𝑛 Trong khoảng thứ (1𝑠𝑡 interval) hàm thành viên Z-membership sử dụng để tính mức thành viên, là: Khoảng thứ hai (𝟐𝒔𝒕 interval) Biên (𝑑 − ) biên (𝑑 + ) khoảng thứ hai tính sau: 𝑆𝑑 − 𝑥̅ ∗ 𝑜𝑣𝑒𝑟𝑙𝑎𝑝 } 𝑆𝑑 + 𝑑 = 𝑥̅ + + 𝑥̅ ∗ 𝑜𝑣𝑒𝑟𝑙𝑎𝑝 𝑑 − = 𝑥̅ − (2.17) Khoảng sử dụng hàm thành viên S-membership Z-membership, biểu diễn sau: 1 𝑥̅ − 𝑥 ) Π, với 𝑑 − ≤ 𝑥 ≤ 𝑥̅ + 𝑐𝑜𝑠 ( − 2 𝑥̅ − 𝑑 } 1 𝑥 − 𝑥̅ + ) Π, với 𝑥̅ ≤ 𝑥 ≤ 𝑑 𝑓(𝑥)𝒵 = + 𝑐𝑜𝑠 ( + 2 𝑑 − 𝑥̅ 𝑓(𝑥)𝑆 = (2.18) 14 Khoảng thứ ba (𝟑𝒔𝒕 interval) Biên (𝑑 − ) biên (𝑑 + ) khoảng thứ ba tính sau: 𝑆𝑑 − 𝑥̅ ∗ 𝑜𝑣𝑒𝑟𝑙𝑎𝑝 } + 𝑑 = 𝑀𝐴𝑋(𝑋1𝐶𝑗 , 𝑋2𝐶𝑗 , … , 𝑋𝑁𝐶𝑗 ) 𝑑 − = 𝑥̅ − (2.19) Khoảng sử dụng hàm thành viên S-Membership có dạng sau 𝑓(𝑥)𝑆 = 1 𝑑+ − 𝑥 + 𝑐𝑜𝑠 ( + )Π 2 𝑑 − 𝑑− (2.20) 2.2.4.3 Chuyển đổi CSDL định lượng sang CSDL mờ Sau xác định khoảng mờ, sở liệu định lượng ban đầu chuyển đổi thành sở liệu mờ, chuẩn bị cho trình khai phá luật kết hợp mờ Đối với tập mờ mà xác định trước đó, có hàng sở liệu chứa mức độ thành viên phần tử đơn lẻ tập cụ thể 2.3 Khai phá tập mục phở biến mờ 2.3.1 Bài tốn đặt Cho sở liệu chứa giá trị mờ 𝐷𝑓 độ hỗ trợ tối thiểu 𝛿 Bài toán đặt ra: Tìm tập mục phổ biến mờ có dạng: 𝐹𝐹𝐼𝑘 ≔ {𝑋| 𝑠𝑢𝑝(𝑋 ) ≥ 𝛿 × |𝐷𝑓 |} 2.3.2 Khai phá tập mục phổ biến mờ sử dụng cấu trúc FPPC-tree 2.3.2.1 Ý tưởng thuật toán Từ CSDL chứa giá trị mờ 𝐷𝑓 , tính độ hỗ trợ mục mờ 𝐴𝑖𝑙 giao tác 𝑇q Kiểm tra độ hỗ trợ mục mờ 𝐴𝑖𝑙 lớn độ hỗ trợ tối thiểu 𝛿 thêm 𝐴𝑖𝑙 vào 𝐹1 Sắp xếp mục phổ biến mờ 𝐹1 theo độ hỗ trợ giảm dần Các mục mờ mục phổ biến mờ loại khỏi 𝐷𝑓 Xây dựng FPPC Sau xây dựng FPPC, cách duyệt qua FPPC theo thứ tự pre-order, ta thu Nodelist mục phổ biến mờ (1-item) Với nút 𝑁𝑖 , ta chèn 〈𝑁𝑖 𝑝𝑟𝑒, 𝑁𝑖 𝑝𝑜𝑠𝑡, 𝑁𝑖 𝑠𝑢𝑝𝑝𝑜𝑟𝑡 〉 vào Nodelist mục đại diện N Cây FPPC xóa sau thu Nodelist nhằm giảm không gian nhớ Sau có Nodelist mục phổ biến 1-item, ta thực giao Nodelist mục phổ biến 1-item để tìm Nodelist tập mục (k-itemset) với ứng cử viên (k + 1) Pc nào, ta có độ hỗ trợ Pc cách tính tổng giá trị độ hỗ trợ tất FPP_Code Nodelist Dựa vào độ hỗ trợ Pc, đánh giá liệu Pc có phổ biến hay khơng Bằng cách lặp lại quy trình trên, ta tìm tất mẫu mờ phổ biến 2.3.2.2 Thuật toán xây dựng FPPC Thuật tốn xây dựng FPPC mơ tả Thuật toán 2.2 Thuật toán 2.2: Xây dựng FPPC_tree Input: CSDL chứa giá trị mờ Df, độ hỗ trợ mờ tối thiểu fminsup 𝛿 Output: FPPC-tree (FTr), tập mục mờ phổ biến 1-itemset (𝐹1 ) (1) Duyệt qua CSDL 𝐷𝑓 chứa giá trị mờ để tính độ hỗ trợ mục mờ 𝐴𝑖𝑙 giao tác 𝑇q theo công thức: 𝑠𝑢𝑝(𝐴𝑖𝑙 ) = ∑ 𝑓𝑖𝑙 𝐴𝑖𝑙 ⊆𝑇𝑞 ⋀𝑇𝑞 ∈𝐷𝑓 (2) Nếu 𝑠𝑢𝑝(𝐴𝑖𝑙 ) ≥ 𝑚𝑖𝑛𝑠𝑢𝑝 𝛿, thêm 𝐴𝑖𝑙 vào 𝐹1 Ta có 𝐹1 = {𝐴𝑖𝑙 | 𝑠𝑢𝑝(𝐴𝑖𝑙 ) ≥ 𝑛 × 𝛿} (3) Sắp xếp mục mờ phổ biến 𝐹1 theo độ hỗ trợ giảm dần (4) Nếu 𝐴𝑖𝑙 𝑛𝑜𝑡 𝑖𝑛 𝐹1 , xóa 𝐴𝑖𝑙 khỏi tất 𝑇𝑞 (𝑞 = 𝑛) (5) Tạo nút root FPPC đánh nhãn “null” (6) for each 𝑇q in 𝐷𝑓 { 15 (7) Sắp xếp mục phổ biến lại theo độ hỗ trợ giảm dần (8) Chèn mục mờ vào FFPC_tree (quy trình tương tự với MFFP_tree [14]) (9) } (10) Duyệt FPPC để sinh PP_Code cho nút 2.3.2.3 Thuật toán xây dựng Nodelist của mục phổ biến mờ dựa FFPC Thuật toán xây dựng Nodelist mục phổ biến mờ (1-item) mơ tả thuật tốn 2.3 Thuật toán 2.3: Nodelist_Construction Input: FPPC-tree (R) and L1 (Tập mục mờ phổ biến 1-item) Output: 𝑁𝐿1 (Tập Node list 𝐿1 ) 1: Tạo 𝑁𝐿1 , 𝑁𝐿1 [𝑘] Nodelist 𝐿1 [𝑘] 2: for each node 𝑁𝑖 in R duyệt theo tiền thứ tự 3: if 𝑁𝑖 𝑓_𝑖𝑡𝑒𝑚 = 𝐿1 [𝑘] 𝑓_𝑖𝑡𝑒𝑚 then 4: insert into NL1[k] 5: end if 6: end for ➢ Giao Nodelist Thuật toán thực giao Nodelist tập phổ biến mờ có độ dài k mơ tả thuật tốn 2.4 Thuật toán 2.4: Thuật toán FNodelist_Intersection Input: 𝑁𝐿1 𝑁𝐿2 𝑁𝐿1 , 𝑁𝐿2 Nodelist tập mờ phổ biến có độ dài k Output: NL3 Nodelist tập mờ phổ biến có độ dài (k+1) (1) for (𝑖 = 0; 𝑖 < 𝑁𝐿1 𝑆𝑖𝑧𝑒(); 𝑖 + +) (2) for (𝑗 = 0; 𝑖 < 𝑁𝐿2 𝑆𝑖𝑧𝑒( ); 𝑗 + +) (3) if (𝑁𝐿1 [𝑖] 𝑓𝑝𝑟𝑒_𝑐𝑜𝑑𝑒 < 𝑁𝐿2 [𝑗] 𝑓𝑝𝑟𝑒_𝑐𝑜𝑑𝑒) then (4) if (𝑁𝐿1 [𝑖] 𝑓𝑝𝑜𝑠_𝑐𝑜𝑑𝑒 > 𝑁𝐿2 [𝑗] 𝑓𝑝𝑜𝑠_𝑐𝑜𝑑𝑒) then (5) Thêm 𝑁𝐿2 [𝑗] vào NL3; (6) End if (7) else (8) if (𝑁𝐿1 [𝑖] 𝑓𝑝𝑜𝑠_𝑐𝑜𝑑𝑒 < 𝑁𝐿2 [𝑗] 𝑓𝑝𝑜𝑠_𝑐𝑜𝑑𝑒) then (9) Thêm 𝑁𝐿1 [𝑖] vào NL3; (10) End if (11) End if (12) End for (13) return NL3 (14) End for 2.3.2.4 Thuật toán NFFP Thuật toán NFFP mơ tả Thuật tốn 2.5 Thuật tốn 2.5: Thuật tốn khai phá tập mục mờ phở biến NFFP Input: độ hỗ trợ mờ tối thiểu fminsup (δ), tập mờ phổ biến (1-item) (𝐿1 ), Nodelist L1 (NL1); Output: Tập mục mờ phổ biến (FFIs) 16 (1) For (𝑘 = 2; 𝐿𝑘−1 ≠ ∅; 𝑘 + +) begin (2) For each 𝑝 = 𝑖1 𝑖2 … 𝑖𝑘−2 𝑖𝑥 ∈ 𝐿𝑘−1 𝑎𝑛𝑑 𝑞 = 𝑖1 𝑖2 … 𝑖𝑘−2 𝑖𝑦 ∈ 𝐿𝑘−1 , (3) If 𝑖𝑥 ≻ 𝑖𝑦 then (4) 𝑙 = 𝑖1 𝑖2 … 𝑖𝑘−2 𝑖𝑥 𝑖𝑦 (5) If each k-1 subsets l in 𝐿𝑘−1 then begin (6) l.Node-list = NL_Intersection (p.Node-list, q.Node-list); (7) Tính 𝑙 𝑠𝑢𝑝𝑝𝑜𝑟𝑡; // Sử dụng tính chất 2.4 (𝑙 (8) If 𝑠𝑢𝑝𝑝𝑜𝑟𝑡 ≥ 𝑛 × 𝛿) then begin (9) 𝐿𝑘 = 𝐿𝑘 ∪ {𝑙}; (10) 𝑁𝐿𝑘 = 𝑁𝐿𝑘 ∪ {𝑙 𝑁𝑜𝑑𝑒𝑙𝑖𝑠𝑡}; (11) end if (12) end if (13) end if (14) end for (15) Xóa 𝑁𝐿𝑘−1 ; (16) end for (17) 𝐹𝐹𝐼𝑠 = ⋃𝑘 𝐿𝑘 2.3.3 Khai phá tập mục phổ biến sử dụng cấu trúc FPOSC-tree 2.3.3.1 Ý tưởng thuật toán Từ CSDL chứa giá trị mờ 𝐷𝑓 , tính độ hỗ trợ mục mờ 𝐴𝑖𝑙 giao tác 𝑇q Kiểm tra độ hỗ trợ mục mờ 𝐴𝑖𝑙 lớn độ hỗ trợ tối thiểu 𝛿 thêm 𝐴𝑖𝑙 vào 𝐹1 Sắp xếp mục phổ biến mờ 𝐹1 theo độ hỗ trợ giảm dần Các mục mờ mục phổ biến mờ loại khỏi 𝐷𝑓 Xây dựng FPOSC Trong xây dựng FPOSC thêm số nút mà không cần phải duyệt lại pre-order tính tốn lúc với việc xây dựng Node-list mục mờ phổ biến Với nút 𝑁𝑖 , ta chèn 〈𝑁𝑖 𝑝𝑟𝑒, 𝑁𝑖 𝑠𝑖𝑧𝑒, 𝑁𝑖 𝑓_𝑠𝑢𝑝〉 vào Nodelist mục đại diện N Cây FPOSC xóa sau thu Nodelist nhằm giảm không gian nhớ Sau có Nodelist mục phổ biến 1-item, ta thực giao Nodelist mục phổ biến 1-item để tìm Nodelist tập mục (k-itemset) với ứng cử viên (k + 1) Pc nào, ta có độ hỗ trợ Pc cách tính tổng giá trị độ hỗ trợ tất FPP_Code Nodelist Dựa vào độ hỗ trợ Pc, đánh giá liệu Pc có phổ biến hay khơng Bằng cách lặp lại quy trình trên, ta tìm tất mẫu mờ phổ biến 2.3.3.2 Thuật toán xây dựng FPOSC (Fuzzy Pre-order Size Coding) Thuật toán xây dựng FPOSC xác định cách điều chỉnh cấu trúc FPPC [CT1], trình bày thuật toán 2.6 Thuật toán 2.6: FPOSC-Tree_Construction Input: Fuzzy Database 𝐷𝑓 , fminsup 𝛿 Output: 𝐹𝑇𝑟 (FPOSC-tree), 𝐹1 (frequent fuzzy itemsets (length=1) Begin 1: Duyệt 𝐷𝑓 tính độ hỗ trợ mục mờ 𝐴𝑗𝑘 giao dịch 𝑇𝑖 2: If 𝑓𝑠𝑢𝑝(𝐴𝑗𝑘 ) ≥ 𝛿 then 3: 4: 5: 6: 7: 8: 9: Thêm 𝐴𝑗𝑘 vào 𝐹1 ; End if If 𝐴𝑗𝑘 not in 𝐹1 then Xóa 𝐴𝑗𝑘 khỏi tất 𝑇𝑖 (𝑖 = … 𝑛) End if Tạo 𝐹𝑇𝑟 NodeRoot=null Đặt Flist danh sách chứa mục mờ lại 𝑇𝑖 17 10: For each 𝑇𝑖 in 𝐷𝑓 Sắp xếp FList theo thứ tự fsup giảm dần 11: 12: 𝑒 = 𝐹𝐿𝑖𝑠𝑡[0] ; e phần tử Flist 13: 𝐿𝑖𝑠𝑡𝑟 = 𝐿𝑖𝑠𝑡[𝑠𝑖𝑧𝑒 − 1] 14 Insert_tree ([𝑒| 𝐿𝑖𝑠𝑡𝑟 ], 𝐹𝑇𝑟 ) 15: End for /* Thủ tục Insert_Tree sử dụng để gọi đệ quy việc xây dựng POSC Trong đó, e phần tử Flist Flist danh sách lại */ Procedure Insert_tree ([𝑒| 𝐿𝑖𝑠𝑡𝑟 ], 𝐹𝑇𝑟 ) 1: Gọi N nút tương ứng với nhánh 𝐹𝑇𝑟 If 𝑒 𝑓𝑖𝑡𝑒𝑚 == 𝑁 𝑓𝑖𝑡𝑒𝑚 then 3: (𝑖) Cộng giá trị mờ 𝑓𝑗,𝑘 e vào fsup N 4: Else (𝑖) 5: Tạo nút N có fsup 𝑓𝑗,𝑘 thêm N vào cuối nhánh tương ứng 6: 𝑁 𝑠𝑖𝑧𝑒 = 7: If 𝐿𝑖𝑠𝑡𝑟 is nonempty then 8: Gọi Insert_Tree (𝐿𝑖𝑠𝑡𝑟 ,N) recursively 9: End if 10: End if 11: 𝑁 𝑠𝑖𝑧𝑒 = 𝑁 𝑐𝑜𝑢𝑛𝑡𝐶ℎ𝑖𝑙𝑑 + End procedure 2.3.3.3 Thuật toán xây dựng Nodelist của mục phổ biến mờ dựa FPOSC Thuật toán xây dựng Node-list tập mục phổ biến mờ (length=1) 𝐹1 trình bày Thuật tốn 2.7 Thuật tốn 2.7: FNode_List_Gen Input: POSC-tree (𝐹𝑇𝑟 ), tập mục phổ biến mờ length=1 (𝐹1 ) Output: Node-list 𝐹1 (𝑁𝐿1 ) Begin 1: for each Ni in FTr (được duyệt theo thứ tự trước FTr ), 2: Gọi NL1[k] Node-list mục kth F1 3: If Ni fitem == F1 [k] f_item then 4: Thêm 〈Ni pre, Ni size, Ni fsup〉 vào NL1[k]; 5: Return NL1 = ⋃k NL1 [k] End Phương thức xây dựng giao hai Node-list thực thuật toán POS Node-list Intersect Thuật toán 2.8: POS_Node-list_Intersect Input: 𝑁𝐿𝑘1 , 𝑁𝐿𝑘2 𝑁𝐿𝑘1 , 𝑁𝐿𝑘2 Node-list tập mục mờ k-itemsets Output: 𝑁𝐿𝑘1+1 – Node-list tập mục mờ (k+1) itemsets Begin 1: for 𝑖 = 0; 𝑖 < 𝑁𝐿𝑘1 𝑙𝑒𝑛𝑔𝑡ℎ; 𝑖 + + 2: For 𝑗 = 0; 𝑗 < 𝑁𝐿𝑘2 𝑙𝑒𝑛𝑔𝑡ℎ; 𝑗 + + 3: If 𝑁𝐿𝑘1 [𝑖] 𝑝𝑟𝑒 < 𝑁𝐿𝑘2 [𝑗] 𝑝𝑟𝑒 then 4: If 𝑁𝐿𝑘2 [𝑗] 𝑝𝑟𝑒 < 𝑁𝐿𝑘1 [𝑖] 𝑝𝑟𝑒 + 𝑁𝐿𝑘1 [𝑖] 𝑠𝑖𝑧𝑒 then 5: Thêm 𝑁𝐿𝑘2 [𝑗] vào 𝑁𝐿𝑘1+1 6: End if 7: else 8: If 𝑁𝐿𝑘1 [𝑖] 𝑝𝑟𝑒 < 𝑁𝐿𝑘2 [𝑗] 𝑝𝑟𝑒 + 𝑁𝐿𝑘2 [𝑗] 𝑠𝑖𝑧𝑒 then 9: Thêm 𝑁𝐿𝑘1 [𝑖] vào 𝑁𝐿𝑘1+1 18 10: 11: 12: 13: End End if End if End for End for 2.3.3.4 Thuật toán NPSFF Thuật toán 2.9: Thuật toán khai phá tập mục mờ phổ biến NPSFF Input: độ hỗ trợ mờ tối thiểu fminsup (δ), tập mờ phổ biến (1-item) (𝐿1 ), Nodelist L1 (NL1); Output: Tập mục mờ phổ biến (FFIs) 1: For (𝑘 = 2; 𝐿𝑘−1 ≠ ∅; 𝑘 + +) begin 2: For each 𝑝 = 𝑖1 𝑖2 … 𝑖𝑘−2 𝑖𝑥 ∈ 𝐿𝑘−1 𝑎𝑛𝑑 𝑞 = 𝑖1 𝑖2 … 𝑖𝑘−2 𝑖𝑦 ∈ 𝐿𝑘−1 , 3: If 𝑖𝑥 ≻ 𝑖𝑦 then 4: 𝑙 = 𝑖1 𝑖2 … 𝑖𝑘−2 𝑖𝑥 𝑖𝑦 5: If each k-1 subsets l in 𝐿𝑘−1 then begin 6: l.Node-list = POS_Node-list_Intersect (p.Node-list, q.Node-list); 7: Tính 𝑙 𝑠𝑢𝑝𝑝𝑜𝑟𝑡; // Sử dụng tính chất 2.4 8: If (𝑙 𝑠𝑢𝑝𝑝𝑜𝑟𝑡 ≥ 𝑛 × 𝛿) then begin 9: 𝐿𝑘 = 𝐿𝑘 ∪ {𝑙}; 10: 𝑁𝐿𝑘 = 𝑁𝐿𝑘 ∪ {𝑙 𝑁𝑜𝑑𝑒𝑙𝑖𝑠𝑡}; 11: End if 12: End if 13: End if 14: End for 15: Delete 𝑁𝐿𝑘−1 ; 16: End for 17: 𝐹𝐹𝐼𝑠 = ⋃𝑘 𝐿𝑘 ; 2.4 Thuật toán khai phá luật kết hợp mờ Thuật toán 2.10: MFAR Input: CSDL định lượng (𝐷𝑄 ), ngưỡng độ hỗ trợ tối thiểu 𝛿, độ tin cậy tối thiểu minfc Output: Tất luật kết hợp mờ FRs Begin 1: Chuyển đổi 𝐷𝑄 sang 𝐷𝑓 2: Thực FPOSC _Tree_ Construction (Df, δ) to sinh FPOSC Tree (FTr), 𝐹1 3: Thực FNode-list Gen (FTr, 𝐹1 ) 4: Thực NPSFF (𝛿, 𝐿1 , 𝑁𝐿1 ) để tìm tất mục mờ phổ biến 5: 𝐹𝑅𝑠 = ∅; 6: For each 𝑋 ∈ 𝐹𝐹𝐼𝑠 7: For each 𝑌 ⊂ 𝑋 && 𝑌 ≠ 𝜙 8: 𝑓𝑟 = 𝑋 \ 𝑌 → 𝑌; 𝑠𝑢𝑝(𝑋𝑌) 9: 𝑓𝑐(𝑓𝑟) = 10: 11: 12: 13: 14: 15: If 𝑓𝑐(𝑓𝑟) ≥ 𝑚𝑖𝑛𝑐𝑓 then 𝐹𝑅𝑠 = 𝐹𝑅𝑠 ⋃{𝑓𝑟}; End if 𝑠𝑢𝑝(𝑋) ; End for End for Return 𝐹𝑅𝑠 2.5 Thực nghiệm Trong thử nghiệm, NCS sử dụng tập liệu thu từ tập liệu để khai phá tập mục phổ biến gọi Foodmart, Chess Chain [79] Mỗi giao dịch tập 19 liệu bao gồm tất mặt hàng mà khách hàng có lần Mơ tả tập liệu trình bày bảng 2.10 Để xử lý sở liệu định lượng, NCS định số ngẫu nhiên cho tất mục tập liệu với phân phối phạm vi giá trị từ đến 100 Bảng 2.10: Mô tả tập liệu cho thực nghiệm Tập dữ liệu Số giao dịch Số mục Số lượng mục trung bình giao dịch Foodmart 4,141 1,559 4.42 Chess 3,196 75 37 ChainStore 111,294 46,086 7.23 Hình 2.3: Số luật sinh từ thuật tốn Hình 2.4: Thời gian thực thi thuật toán 2.6 Kết luận chương Trong chương này, NCS đưa giải pháp giải vấn đề liên quan đến ranh giới “sắc nét” khoảng mờ cách đề xuất thuật toán phân cụm liệu EMC phân cụm lực FAP Kết thuật toán sử dụng giai đoạn tiền xử lý liệu, phân vùng liêu để chuyển đổi sở liệu định lượng sang sở liệu mờ Thứ hai, luận án đưa phương pháp khai phá luật kết hợp mờ dựa cấu trúc liệu Nodelist NFFP NPSFF.NCS đề xuất hai thuật toán NFFP, NPSFF sử dụng FPPC_tree, POSC-tree để lưu trữ sở liệu định lượng với giá trị thành viên theo thứ tự giảm dần Dựa xây dựng, Nodelist mục mờ phổ biến tạo Sau đó, thuật tốn NFFP, NPSFF thu Nodelist mục mờ phổ biến (k-itemset) cách giao với Nodelist mục k mờ phổ biến sau trích xuất tập tin mờ (k-itemset) phổ biến Ưu điểm thuật toán FPPC_Tree POSC-tree sử dụng để tạo mã FPP_Code POS-code cho nút để lấy Nodelist mục mờ phổ biến sau bị xóa để giảm yêu cầu sử dụng nhớ Do đặc tính mơ hình liệu sản xuất khơng giới hạn tốc độ cao, liệu lưu trữ nhớ lý này, cần phải phát triển kỹ thuật cho phép chúng xử lý song song trình khai phá tập mục mờ phổ biến 20 CHƯƠNG 3: KHAI PHÁ TẬP MỤC PHỔ BIẾN MỜ SỬ DỤNG PHƯƠNG PHÁP XỬ LÝ SONG SONG Trong chương này, NCS trình bày phương pháp xử lý song song để khai phá tập mục mờ phổ biến, giai đoạn quan trọng khai phá luật kết hợp mờ cách sử dụng phương pháp tiếp cận tự động học di động (Cellular Learning Automata) Theo CLA, không gian biểu diễn mạng, với phần tử ô, dòng một, liệu giao dịch đọc đồng thời chuyển đến ô, chúng cộng tác với song song Với việc không sử dụng quy tắc vùng lân cận, loại tự động liệu gọi tự động học di động bất thường (ICLA) sử dụng để tạo danh sách vùng lân cận cho ô Thông qua việc sử dụng automata liệu di động này, việc khai thác tập mờ phổ biến thực Quá trình rút ngắn thời gian thực thi thuật toán 3.1 Giới thiệu Trong năm gần đây, nhiều thuật toán phát triển để nghiên cứu vấn đề khai phá song song cho luật kết hợp, phân loại, phân cụm tác vụ khác Agrawal cộng đề xuất thuật toán khai phá song song luật kết hợp [85]–[88], Wang nghiên cứu thuật toán khai phá luật kết hợp song song khác [89]–[91] Trong số kiến trúc song song, kiến trúc chủ-tớ (master-slave) thường sử dụng Hướng tiếp cận mang lại lợi ích đáng kể hiệu suất [92] Bộ xử lý phân bổ nhiệm vụ cho xử lý phụ thu thập kết từ chúng Một số nghiên cứu sử dụng kiến trúc song song slave-master để thực khai phá luật kết hợp phù hợp với tập liệu dày đặc [94] [95] Trong lĩnh vực trích xuất luật kết hợp PSO, nhà nghiên cứu đề xuất nhiều thuật tốn tính tốn song song [96], [97], [98] Đối với lượng lớn liệu thử nghiệm, thuật tốn PSO song song áp dụng để trích xuất luật kết hợp giải pháp khả thi Ngoài ra, thuật tốn iMFFP [99] đề xuất tích hợp MFFP [41] khác từ sở liệu nhánh tích hợp vào iMFFP theo trình tự Sau đó, Header_table tạo q trình khai phá tập mục phổ biến thực Với phương pháp này, việc tính tốn độ hỗ trợ mờ mục mờ khơng xác, khơng đầy đủ thông tin sở liệu bị phân rã Hơn nữa, việc xây dựng nhánh MFFP tích hợp dần vào iMFFP hồn chỉnh gây tốn không gian nhớ Trong chương này, NCS trình bày phương pháp xử lý song song để khai phá tập mục mờ phổ biến, giai đoạn quan trọng khai phá luật kết hợp mờ cách sử dụng phương pháp tiếp cận tự động học di động (Cellular Learning Automata) Trong chiến lược này, sở liệu định lượng ban đầu chuyển thành sở liệu mờ bước tiền xử lý Sau trích xuất tập phổ biến mờ 1-item từ tập liệu, mục mờ không phổ biến bị loại bỏ Môi trường CA bắt đầu hoạt động sau giai đoạn tiền xử lý tạo ô CA khớp với mục mờ phổ biến 1-item Mỗi dòng liệu sở liệu nén đọc gửi đến ô đồng thời, sau chúng hoạt động song song 3.2 Một số khái niệm liên quan automata di động học (Cellular learning automata) 3.2.1 Automata học LA (Learning Automata) Một LA bao gồm hai phần: Một automata ngẫu nhiên với số lượng hành động hạn chế môi trường ngẫu nhiên Thuật toán học: thuật toán mà automata học hành động tối ưu cách sử dụng hành động 21 Mỗi hành động chọn môi trường tiềm đánh giá câu trả lời đưa cho liệu tự động học LA sử dụng câu trả lời chọn hành động cho giai đoạn Hình 3.1 cho thấy mối quan hệ liệu tự động học môi trường [101] Hình 3.1: Mơi trường, LA mối quan hệ chúng 3.2.2 Automata di động (CA – Cellular Automata) Một automata di động d-chiều [35] cấu trúc 𝐴 = (𝑍 𝑑 , Φ, 𝑁, 𝐹 ) đó: - 𝑍 𝑑 mạng lưới d-tuples số ngun mà mạng vơ hạn, hữu hạn bán hữu hạn - Φ = {1, … , 𝑚} tập hữu hạn đỉnh - 𝑁 = {𝑥1 , 𝑥2 , … , 𝑥𝑚 } tập hữu hạn 𝑍 𝑑 gọi vector láng giềng (𝑥𝑖 𝜖 𝑍 𝑑 ) - 𝐹 quy tắc cục automata di động Quy tắc xác định người dùng Quy tắc automata di động xác định trạng thái thay đổi cách tập hợp ô làm láng giềng 3.2.3 Automata di động học – Cellular learning automata Automata di động học kết hợp hai mơ hình LA CA Một CLA đa chiều có cấu trúc: 𝐴 = (𝑍 𝑑 , Φ, 𝐴, 𝑁, 𝐹 ) - 𝑍 𝑑 mạng lưới d-tuples số nguyên mà mạng vơ hạn, hữu hạn bán hữu hạn - Φ = {1, … , 𝑚} tập hữu hạn đỉnh - A tập hợp tự động học (LA), số gán cho CLA Mỗi có LA nhiều - 𝑁 = {𝑥1 , 𝑥2 , … , 𝑥𝑚 } tập hữu hạn 𝑍 𝑑 gọi vector láng giềng (𝑥𝑖 𝜖 𝑍 𝑑 ) 𝐹 quy tắc cục automata di động 3.3 Thuật toán khai phá tập mục phổ biến mờ sử dụng CLA 3.3.1 Ý tưởng thuật toán Trong thuật toán CLA-FuzzyMining [CT3] thực theo quy trình đây: Hình 3.2: Quy trình thực thuật toán CLA-Fuzzy Mining 3.3.2 Tiền xử lý liệu Trong bước này, CSDL chuyển đổi từ CSDL định lượng sang CSDL mờ 3.3.3 Khai phá tập mục phổ biến mờ 1-item Việc khai phá tập mục phổ biến mờ 1-item thực thuật toán chương Độ hỗ trợ mờ mục giao dịch tính theo cơng thức kiểm tra với độ hỗ trợ tối thiểu 3.3.4 Khai phá tập mục phổ biến n-itemset ➢ Thực nén dữ liệu 22 Thuật toán nén liệu thể Thuật toán 3.1 Thuật toán 3.1: Data_Compression() Input: 𝑚𝑖𝑛𝑠𝑢𝑝: độ hỗ trợ tối thiểu : tập mục phổnén biến 1-item Output:𝐹1𝐶𝐷𝑆: CSDL 𝐷 : CSDL mờ sau loại bỏ tập mục không phổ biến Begin 𝑓 for 𝑖 = to 𝐷𝑓 1: 2: For 𝑗 = 𝑡𝑜 𝑖𝑡𝑒𝑚𝑠 3: If 𝑖𝑡𝑒𝑚𝑠(𝑖, 𝑗) == 𝑖𝑡𝑒𝑚𝑠(𝑖 + 1, 𝑗) then 4: Remove (rows (i+1)); 5: Update support (rows(i)+ rows(i+1)); 6: End if 7: End for 8: End for 9: Return CDS End ➢ Xác định danh sách láng giềng Các ô automata di động tạo từ tập mục mờ phổ biến 1-item Vì automata di động học bất quy tắc (ICLA) nên khơng có quy tắc cụ thể vùng lân cận ô, cấu trúc vùng lân cận thông thường Von Neumann Moore áp dụng Môi trường CA đọc tất hàng tập liệu sau chuyển chúng đến ô bước Sau nhận hàng tập liệu nén, ô bắt đầu hoạt động chúng đồng thời với ô khác Các ô cập nhật danh sách vùng lân cận chúng tùy thuộc vào mục mờ giao dịch nhận Hình 3.3: Các automata di động học theo tập mục mờ phổ biến 1-item ➢ Cắt tỉa danh sách vùng lân cận Khi tất giao dịch môi trường gửi đến ô, ô xóa láng giềng vùng lân cận có độ hỗ trợ nhỏ ngưỡng tối thiểu người dùng xác định khỏi danh sách vùng lân cận Danh sách vùng lân cận lại sử dụng để quét cuối thu tập mờ phổ biến k-Itemset Nếu mục có danh sách này, chúng bị loại bỏ; không, mục đưa vào danh sách mục mờ phổ biến 3.3.5 Thuật toán CLA-FuzzyMining Thuật tốn CLA-FuzzyMining mơ tả Thuật tốn 3.2 Thuật toán 3.2: CLA_Fuzzy_Mining Input: 𝑚𝑖𝑛𝑠𝑢𝑝: độ hỗ trợ tối thiểu 𝐹1 : tập mục phổ biến 1-item 𝐷𝑓 : CSDL mờ sau loại bỏ tập mục không phổ biến CDS: CSDL nén Output: 𝐹𝐹𝐼𝐿: Danh sách tập mục mờ phổ biến Begin 1: for 𝑖 = to 𝐶𝐷𝑆 3: CLA_Thread(); 4: End for 23 5: 6: 7: 8: 9: 10: 11: 12: 13: 14: 15: 16: 17: End Khởi tạo FFIL; for i=1 to automata cells Thực PruneNeighbors() for cell[i]; Thực DFS() function for cells[i]; for each anItemset on cell[i].FrequentItemset if anItemset does not exist in FFIL then FFIL.add (anItemset); else Nothing; End if End for End for Return FFIL; Hàm CLA_Thread() mơ tả Thuật tốn 3.3 Thuật toán 3.3: CLA_Thread() Input: Recodset (bản ghi liệu nén), NodeParent[Cell] (đại diện cell) Output: automata cells Begin 1: Thread theard=new Thread(); 2: thread.Start(); 3: Initialize nodeChil=new Node(); 4: for 𝑖 = to Recodset 5: nodeChil.data= Recodset[value]; 6: If(nodeChil in (Recodset)) then 7: nodeChil.data= Recodset[value]+ nodeChil.data; 8: else 9: NodeParent[Cell].next= nodeChil; 10: End if 11: End for 12: Return AutomataCells; End 3.4 Thực nghiệm Trong phần thực nghiệm NCS sử dụng liệu cửa hàng Foodmart, Chess ChainStore từ liệu khai phá tập phổ biến [69] cho thử nghiệm Mô tả tập liệu hiển thị bảng 3.7 Thực nghiệm giới thiệu kết thử nghiệm từ thuật toán so sánh chúng với kết thuật toán NPSFF [CT2] thuật toán iMFFP [33] Thuật tốn CLA- Fuzzy Mining có hiệu hai thuật toán trước thời gian xử lý nhớ lưu trữ tạm thời, theo kết thử nghiệm dựa tập liệu trình bày bảng Bảng 3.7: Bảng liệu thực nghiệm Dataset name Transaction# Items# Size Chess 3196 175 0.78 M Foodmart 4141 1559 12.4 M ChainStore 111,294 46,086 28.17 M 24 Hình 3.12 – 3.14: Thời gian thực nghiệm tập tập liệu Hình 3.4: Đánh giá nhớ sử dụng thuật toán tập liệu 3.5 Kết luận chương Nhằm tăng tính hiệu mơ hình liệu lớn, ghi cập nhật liên tục Chương tập trung trình bày phương pháp khai phá tập mục phổ biến mờ theo kỹ thuật xử lý song song CLA Theo CLA, không gian biểu diễn mạng, với phần tử ơ, dịng một, liệu giao dịch đọc đồng thời chuyển đến ô, chúng cộng tác với song song Với việc không sử dụng quy tắc vùng lân cận, loại tự động liệu gọi tự động học di động bất thường (ICLA) sử dụng để tạo danh sách vùng lân cận cho ô Thông qua việc sử dụng ô liệu tự động này, việc khai phá tập mờ phổ biến thực Quá trình rút ngắn thời gian thực thi thuật toán [CT3] KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Mục đích luận án nghiên cứu số phương pháp khai phá luật kết hợp mờ Luận án nghiên cứu phương pháp khai phá luật kết hợp sở liệu mờ dựa kết hợp toán học mờ sở liệu định lượng đề xuất Tuy nhiên, phương pháp trình phát triển, việc đề xuất giải pháp nhằm hồn thiện cho cần thiết Vì vậy, luận án đề xuất hướng tiếp cận hiệu cho vấn đề khai phá luật kết hợp mờ Các kết luận án đạt sau: (1) Đề xuất phương pháp xác định tập mờ cho thuộc tính định lượng sở liệu thơng qua kỹ thuật phân cụm EMC Sau đó, cụm sử dụng để phân loại thuộc tính định lượng tập mờ xác định hàm thuộc chúng Kết bước để chuyển đổi sở liệu định lượng sang sở liệu mờ [CT2], [CT4] (2) Đề xuất phương pháp khai phá tập mục mờ phổ biến dựa cấu trúc Nodelist, bước quan trọng khai phá luật kết hợp mờ Quy trình khai phá tập mục mờ phổ biến dựa PP_code POS_code giúp hạn chế mức tiêu thụ nhớ yêu cầu [CT1], [CT2] (3) Đề xuất phương pháp xử lý song song cho trình khai phá tập mục mờ phổ biến cách sử dụng lý thuyết tự động học di động CLA Với đề xuất nhằm giải giảm thời gian xử lý cho sở liệu lớn [CT3] DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ STT TÊN BÀI BÁO [CT1] Tran, T T., Nguyen, G L., Truong, C N., & Nguyen, T T “Mining Frequent Fuzzy Itemsets Using Node-List” Information Systems Design and Intelligent Applications Springer, Singapore, 37-48, 2018 [CT2] Tran, T T., Nguyen, T N., Nguyen, T T., Nguyen, G L., & Truong, C N., “A Fuzzy Association Rules Mining Algorithm with Fuzzy Partitioning Optimization for Intelligent Decision Systems” International Journal of Fuzzy Systems, 1-14, 2022 (SCIE – Q2) [CT3] Tran, T T., Nguyen, T T., Nguyen, G L., & Truong, C N “Parallel Fuzzy Frequen Itemset Mining Using Cellular Automata” Journal of Computer Science and Cybernetics, 38(4), 293-310, 2022 [CT4] Trần Thị Thúy Trinh, Nguyễn Long Giang, Trương Ngọc Châu, Nguyễn Tấn Thuận “Phân vùng liệu mờ phương pháp thống kê khai phá luật kết hợp mờ” Kỷ yếu hội thảo quốc gia Các vấn đề chọn lọc Công nghệ thông tin truyền thông – Quy Nhơn), 2017 [CT5] Trần Thị Thúy Trinh, Nguyễn Tấn Thuận, Nguyễn Long Giang, Trương Ngọc Châu, Nguyễn Quang Huy “Mơ hình tư vấn học tập thông minh ứng dụng luật kết hợp mờ” Hội thảo quốc gia lần thứ XXIII: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông – Quảng Ninh, 2020