1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khảo sát hai thuật toán SAC DTRSM, tự động xác định số cụm trong kỹ thuật phân cụm dựa vào lý thuyết tập thô

79 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 79
Dung lượng 1,28 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NHA TRANG PHẠM THỊ NHUNG KHẢO SÁT HAI THUẬT TOÁN: SAC-DTRSM, TỰ ĐỘNG XÁC ĐỊNH SỐ CỤM TRONG KĨ THUẬT PHÂN CỤM DỰA VÀO LÝ THUYẾT TẬP THÔ LUẬN VĂN THẠC SĨ KHÁNH HÒA - 2019 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NHA TRANG PHẠM THỊ NHUNG KHẢO SÁT HAI THUẬT TOÁN: SAC-DTRSM, TỰ ĐỘNG XÁC ĐỊNH SỐ CỤM TRONG KĨ THUẬT PHÂN CỤM DỰA VÀO LÝ THUYẾT TẬP THƠ LUẬN VĂN THẠC SĨ Ngành: Cơng nghệ thơng tin Mã số: 8480201 Quyết định giao đề tài: 453/QĐ–ĐHNT ngày 04/5/2019 Quyết định thành lập HĐ: 1523/QĐ–ĐHNT ngày 27/11/2019 Ngày bảo vệ: 23/12/2019 Người hướng dẫn khoa học TS Nguyễn Đức Thuần Chủ tịch Hội đồng TS Đinh Đồng Lưỡng Phịng đào tạo sau đại học: KHÁNH HỊA - 2019 LỜI CAM ĐOAN Tôi xin cam đoan kết đề tài: “Khảo sát hai thuật toán: SAC-DTRSM, tự động xác định số cụm kĩ thuật phân cụm dựa vào lý thuyết tập thơ” cơng trình nghiên cứu cá nhân chưa cơng bố cơng trình khoa học khác thời điểm Khánh Hòa, ngày 31 tháng 12 năm 2019 Tác giả luận văn Phạm Thị Nhung iii LỜI CẢM ƠN Trong suốt thời gian thực đề tài, nhận giúp đỡ quý phòng ban trường Đại học Nha Trang, Khoa Công nghệ thông tin tạo điều kiện tốt cho tơi hồn thành đề tài Đặc biệt hướng dẫn tận tình TS Nguyễn Đức Thuần giúp tơi hồn thành tốt đề tài Qua đây, xin gửi lời cảm ơn sâu sắc đến giúp đỡ Mặc dù có nhiều cố gắng trình nghiên cứu, song khả kinh nghiệm thân có hạn, nên luận văn không tránh khỏi tồn tại, hạn chế thiếu sót Vì tơi mong nhận đóng góp chân thành thầy giáo, giáo, đồng nghiệp nhằm bổ sung hoàn thiện trình nghiên cứu Cuối tơi xin gửi lời cảm ơn chân thành đến gia đình tất bạn bè giúp đỡ, động viên suốt trình học tập thực đề tài Tơi xin chân thành cảm ơn! Khánh Hịa, ngày 31 tháng 12 năm 2019 Tác giả luận văn Phạm Thị Nhung iv MỤC LỤC Lời cam đoan iii Lời cảm ơn iv Mục lục v Danh mục ký hiệu viii Danh mục chữ viết tắt ix Danh mục bảng x Danh mục hình .xii Trích yếu luận văn xiii LỜI MỞ ĐẦU Chương TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Khám phá tri thức khai phá liệu 1.1.1 Giới thiệu chung khám phá tri thức khai phá liệu 1.1.2 Quá trình khám phá tri thức 1.1.3 Quá trình khai phá liệu .4 1.1.4 Các phương pháp khai phá liệu 1.1.5 Các hướng tiếp cận kỹ thuật áp dụng khai phá liệu .5 1.1.6 Các lĩnh vực ứng dụng thực tiễn khai phá liệu 1.1.7 Những thách thức ứng dụng kỹ thuật khai phá liệu 1.2 Phân cụm liệu 1.2.1 Khái niệm phân cụm liệu 1.2.2 Các ứng dụng phân cụm liệu .7 1.2.3 Các yêu cầu phân cụm khai phá liệu 1.2.4 Phân loại kỹ thuật phân cụm khai phá liệu .9 1.2.4.1 Kỹ thuật phân cụm phân hoạch 1.2.4.2 Kỹ thuật phân cụm phân cấp 10 v 1.2.4.3 Kỹ thuật phân cụm dựa mật độ 10 1.2.4.4 Kỹ thuật phân cụm dựa lưới 11 1.2.4.5 Kỹ thuật phân cụm dựa mơ hình .11 1.2.5 Một số thuật toán phân cụm cổ điển 11 1.2.5.1 Thuật toán phân cụm K-Means 11 1.2.5.2 Thuật toán phân cụm K-Medoids .12 1.2.5.3 Thuật toán phân cụm K-Center 13 Chương LÝ THUYẾT TẬP THÔ 14 2.1 Giới thiệu 14 2.2 Một số khái niệm 14 2.2.1 Hệ thống thông tin .14 2.2.2 Quan hệ không phân biệt .15 2.2.2.1 Quan hệ tương đương – Lớp tương đương .15 2.2.2.2 Xấp xỉ tập hợp 16 2.2.3 Tập thô 18 2.2.4 Độ xác xấp xỉ .20 2.2.5 Bảng định 20 2.2.6 Ma trận phân biệt 21 Chương KHẢO SÁT HAI THUẬT TOÁN SAC-DTRSM, TỰ ĐỘNG XÁC ĐỊNH SỐ CỤM TRONG KĨ THUẬT PHÂN CỤM DỰA VÀO LÝ THUYẾT TẬP THÔ 23 3.1 Thuật toán phân cụm bán tự động dựa lý thuyết tập thô 23 3.1.1 Khái quát vấn đề 23 3.1.2 Phân cụm định hướng tri thức 23 3.1.3 Một số khái niệm thuật toán phân cụm K-O 24 3.1.3.1 Quan hệ phân biệt 24 3.1.3.2 Khởi tạo quan hệ tương đương 25 vi 3.1.3.3 Độ đo giá trị tương tự đối tượng 25 3.1.4 Mơ hình lý thuyết định dựa vào lý thuyết tập thô 26 3.1.5 Thuật toán phân cụm bán tự động dựa lý thuyết tập thô 28 3.1.5.1 Chọn giá trị ngưỡng Th𝑖 .28 3.1.5.2 Định nghĩa mức độ không phân biệt cụm 29 3.1.5.3 Hiệu chỉnh sơ đồ phân cụm 29 3.1.5.4 Các bước thuật toán SAC-DTRSM 30 3.2 Tự động xác định số cụm kĩ thuật phân cụm dựa vào lý thuyết tập thô 37 3.2.1 Khái quát vấn đề 37 3.2.2 Thuật tốn phân cụm tích đống phân cấp 38 3.2.3 Mơ hình DTRS mở rộng 39 3.2.4 Hàm đánh giá tính hợp lệ phân cụm 40 3.2.5 Tự động xác định số lượng cụm 42 3.2.5.1 Mô tả thuật toán ACA-DTRS 42 3.2.5.2 Tính thuật tốn 43 3.2.5.3 Mơ tả lại thuật tốn ACA-DTRS 48 3.2.6 Thuật toán phân cụm nhanh tự động 54 3.3 Đánh giá hiệu phân cụm dựa vào ma trận nhầm lẫn 59 3.4 Đánh giá kết thuật toán SAC-DTRSM tự động xác định số cụm kĩ thuật phân cụm dựa vào lý thuyết tập thô 61 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 65 TÀI LIỆU THAM KHẢO 66 vii DANH MỤC KÝ HIỆU U : Tập đối tượng xi : Tên đối tượng : Tên thuộc tính R : Quan hệ tương đương Thi : Giá trị ngưỡng sim : Độ tương tự hai đối tượng sim : Ma trận tương tự 𝑓 : Hàm f : Ma trận hàm 𝑓 CS : Phân cụm U/R : Tập lớp tương đương Risk : Độ rủi ro val : Giá trị tương tự trung bình P : Khả phân loại P : Ma trận khả K : Số cụm n : Số đối tượng 𝐶ℎ : Tên cụm viii DANH MỤC CHỮ VIẾT TẮT ACA-DTRS : Automatic Clustering Algorithm - Decision Theory Rough Set (Thuật toán phân cụm tự động dựa vào mơ hình lý thuyết định dựa vào lý thuyết tập thô) DTRS : Decision Theory Rough Set (Mơ hình lý thuyết định dựa vào lý thuyết tập thô) FACA-DTRS : Fast and Automatic Clustering Algorithm - Decision Theory Rough Set (Thuật toán phân cụm nhanh tự động dựa vào mơ hình lý thuyết định dựa vào lý thuyết tập thô) K-O : Knowledge-Oriented (Phân cụm định hướng tri thức) SAC-DTRSM : Semi-Autonomous Clustering Based on Decision Theory Rough Set Model (Phân cụm bán tự động dựa vào mơ hình lý thuyết định dựa vào lý thuyết tập thô) ix DANH MỤC BẢNG Bảng 2.1 Bảng liệu lựa chọn sản phẩm 15 Bảng 2.2 Bảng hệ thống thông tin minh họa 16 Bảng 2.3 Một hệ định điều tra vấn đề da cháy nắng 17 Bảng 2.4 Bảng kết định dựa vào lý thuyết tập thô .18 Bảng 2.5 Một tập liệu Thời tiết_Chơi Tennis .19 Bảng 3.1 Bảng liệu minh họa 24 Bảng 3.2 Minh họa xắp xếp giảm dần độ tương tự hàng i 28 Bảng 3.3 Bảng liệu liệu minh họa hai tác giả Bean Kambhampati .31 Bảng 3.4 Bảng ma trận phân biệt lần tính 32 Bảng 3.5 Bảng ma trận phân biệt lần tính 34 Bảng 3.6 Bảng ma trận phân biệt lần tính 35 Bảng 3.7 Bảng ma trận phân biệt lần tính 35 Bảng 3.8 Bảng ma trận phân biệt lần tính 36 Bảng 3.9 Bảng ma trận phân biệt lần tính 36 Bảng 3.10 Bảng ma trận phân biệt lần tính 37 Bảng 3.11 Bảng ma trận phân biệt lần tính 37 Bảng 3.12 Bảng liệu minh họa cho thuật toán ACA-DTRS 49 Bảng 3.13 Bảng tính ma trận sim(𝑥𝑖 , 𝑥𝑗 ) .49 Bảng 3.14 Bảng tính ma trận P(𝑥𝑖 , 𝑥𝑗 ) 50 Bảng 3.15 Bảng tính ma trận f(𝐶ℎ , 𝐶𝑔 ) lần 50 Bảng 3.16 Bảng tính ma trận f(𝐶ℎ , 𝐶𝑔 ) lần 51 Bảng 3.17 Bảng tính ma trận f(𝐶ℎ , 𝐶𝑔 ) lần 51 Bảng 3.18 Bảng tính ma trận f(𝐶ℎ , 𝐶𝑔 ) lần 52 Bảng 3.19 Bảng tính ma trận f(𝐶ℎ , 𝐶𝑔 ) lần 52 x Tính lại ma trận 𝐟(𝐶ℎ , 𝐶𝑔 ) Bảng 3.18 Bảng tính ma trận 𝐟(𝑪𝒉 , 𝑪𝒈 ) lần 𝐟(𝐶ℎ , 𝐶𝑔 ) C1 C2 C3 C4 C5 C6 C7 C8 C1 0,94 0,17 0,24 0,1 0,19 0,14 0,77 C2 0,94 0,17 0,22 0,01 0,1 0,06 0,76 C3 0,17 0,17 0,95 0,11 0,18 0,2 0,51 C4 0,24 0,22 0,95 0,17 0,23 0,27 0,55 C5 0,1 0,01 0,11 0,17 0,94 0,93 0,17 C6 0,19 0,1 0,18 0,23 0,94 0,94 0,26 C7 0,14 0,06 0,2 0,27 0,93 0,94 0,23 C8 0,77 0,76 0,51 0,55 0,17 0,26 0,23 𝑓𝑚𝑎𝑥 = 𝑓(𝐶3 , 𝐶4 ) = 0,95 > 0,5 Hợp hai cụm 𝐶3 𝐶4 , lúc sơ đồ phân cụm 𝐶𝑆 gồm cụm 𝐶1 = {𝑥1 , 𝑥3 }, 𝐶2 = {𝑥2 }, 𝐶3 = {𝑥4 , 𝑥5 , 𝑥6 }, 𝐶4 = {𝑥7 , 𝑥10 }, 𝐶5 = {𝑥8 }, 𝐶6 = {𝑥9 }, 𝐶7 = {𝑥11 } Tính lại ma trận 𝐟(𝐶ℎ , 𝐶𝑔 ) Bảng 3.19 Bảng tính ma trận 𝐟(𝑪𝒉 , 𝑪𝒈 ) lần 𝐟(𝐶ℎ , 𝐶𝑔 ) C1 C2 C3 C4 C5 C6 C7 C1 0,94 0,19 0,1 0,19 0,14 0,77 C2 0,94 0,18 0,01 0,1 0,06 0,76 C3 0,19 0,18 0,13 0,19 0,22 0,52 C4 0,1 0,01 0,13 0,94 0,93 0,17 C5 0,19 0,1 0,19 0,94 0,94 0,26 C6 0,14 0,06 0,22 0,93 0,94 0,23 C7 0,77 0,76 0,52 0,17 0,26 0,23 𝑓𝑚𝑎𝑥 = 𝑓(𝐶1 , 𝐶2 ) = 0,94 > 0,5 Hợp hai cụm 𝐶1 𝐶2 , lúc sơ đồ phân cụm 𝐶𝑆 gồm cụm 𝐶1 = {𝑥1 , 𝑥3 , 𝑥2 }, 𝐶2 = {𝑥4 , 𝑥5 , 𝑥6 }, 𝐶3 = {𝑥7 , 𝑥10 }, 𝐶4 = {𝑥8 }, 𝐶5 = {𝑥9 }, 𝐶6 = {𝑥11 } Tính lại ma trận 𝐟(𝐶ℎ , 𝐶𝑔 ) 52 Bảng 3.20 Bảng tính ma trận 𝐟(𝑪𝒉 , 𝑪𝒈 ) lần 𝐟(𝐶ℎ , 𝐶𝑔 ) C1 C2 C3 C4 C5 C6 C1 0,19 0,07 0,16 0,11 0,76 C2 0,19 0,13 0,19 0,22 0,52 C3 0,07 0,13 0,94 0,93 0,17 C4 0,16 0,19 0,94 0,94 0,26 C5 0,11 0,22 0,93 0,94 0,23 C6 0,76 0,52 0,17 0,26 0,23 𝑓𝑚𝑎𝑥 = 𝑓(𝐶3 , 𝐶4 ) = 0,94 > 0,5 Hợp hai cụm 𝐶3 𝐶4 , lúc sơ đồ phân cụm 𝐶𝑆 gồm cụm 𝐶1 = {𝑥1 , 𝑥3 , 𝑥2 }, 𝐶2 = {𝑥4 , 𝑥5 , 𝑥6 }, 𝐶3 = {𝑥7 , 𝑥10 , 𝑥8 }, 𝐶4 = {𝑥9 }, 𝐶5 = {𝑥11 } Tính lại ma trận 𝐟(𝐶ℎ , 𝐶𝑔 ) Bảng 3.21 Bảng tính ma trận 𝐟(𝑪𝒉 , 𝑪𝒈 ) lần 𝐟(𝐶ℎ , 𝐶𝑔 ) C1 C2 C3 C4 C5 C1 0,19 0,1 0,11 0,76 C2 0,19 0,15 0,22 0,52 C3 0,1 0,15 0,93 0,2 C4 0,11 0,22 0,93 0,23 C5 0,76 0,52 0,2 0,23 𝑓𝑚𝑎𝑥 = 𝑓(𝐶3 , 𝐶4 ) = 0,93 > 0,5 Hợp hai cụm 𝐶3 𝐶4 , lúc sơ đồ phân cụm 𝐶𝑆 gồm cụm 𝐶1 = {𝑥1 , 𝑥3 , 𝑥2 }, 𝐶2 = {𝑥4 , 𝑥5 , 𝑥6 }, 𝐶3 = {𝑥7 , 𝑥10 , 𝑥8 , 𝑥9 }, 𝐶4 = {𝑥11 } Tính lại ma trận 𝐟(𝐶ℎ , 𝐶𝑔 ) Bảng 3.22 Bảng tính ma trận 𝐟(𝑪𝒉 , 𝑪𝒈 ) lần 𝐟(𝐶ℎ , 𝐶𝑔 ) C1 C2 C3 C4 C1 0,19 0,1 0,76 C2 0,19 0,17 0,52 C3 0,1 0,17 0,21 C4 0,76 0,52 0,21 53 𝑓𝑚𝑎𝑥 = 𝑓(𝐶1 , 𝐶4 ) = 0,67 > 0,5 Hợp hai cụm 𝐶1 𝐶4 , lúc sơ đồ phân cụm 𝐶𝑆 gồm cụm 𝐶1 = {𝑥1 , 𝑥3 , 𝑥2 , 𝑥11 }, 𝐶2 = {𝑥4 , 𝑥5 , 𝑥6 }, 𝐶3 = {𝑥7 , 𝑥10 , 𝑥8 , 𝑥9 } Tính lại ma trận 𝐟(𝐶ℎ , 𝐶𝑔 ) Bảng 3.23 Bảng tính ma trận 𝐟(𝑪𝒉 , 𝑪𝒈 ) lần 𝐟(𝐶ℎ , 𝐶𝑔 ) C1 C2 C3 C1 0,27 0,13 C2 0,27 0,17 C3 0,13 0,17 𝑓𝑚𝑎𝑥 = 𝑓(𝐶1 , 𝐶4 ) = 0,27 < 0,5 Kết thúc 3.2.6 Thuật toán phân cụm nhanh tự động Các thuật toán dựa tảng thuật toán phân cụm tích đống phân cấp Mặc dù thuật tốn có kết phân cụm hợp lý, nhiên thuật toán phải qua trình lặp để tìm kết tối ưu nên tốn thời gian thực chương trình với liệu lớn Kí hiệu ma trận 𝐟(𝐶ℎ , 𝐶𝑔 )𝑛 ma trận hàm 𝑓 phân cụm có số cụm n Ở thuật toán ACA-DTRS 2, số cụm ban đầu n, sau lần lặp hợp số cụm giảm đơn vị, trình lặp phần tử lớn ma trận 𝐟(𝐶ℎ , 𝐶𝑔 ) khơng q 0,5 Thuật tốn FACA-DTRS xây dựng nhằm giảm bớt số lần lặp Dựa việc đánh giá phần tử lớn ma trận 𝐟(𝐶ℎ , 𝐶𝑔 ) không 0,5 để tìm điểm cực trị hàm đánh giá tính hợp lệ phân cụm tương ứng với số cụm tối ưu, Hong Yu, Zhanguo Liu Guoyin Wang sử dụng kết luận tài liệu J.Yu để giới hạn phạm vi số cụm tối ưu [√𝑛, 𝑛] Cụ thể, dựa vào phần tử lớn ma trận 𝐟(𝐶ℎ , 𝐶𝑔 ) √𝑛 , kí hiệu 𝑓𝑚𝑎𝑥 , 𝑓𝑚𝑎𝑥 > 0,5, có nghĩa rủi ro phân cụm tiếp tục giảm, phạm vi số cụm tối ưu [1, √𝑛]; 𝑓𝑚𝑎𝑥 ≤ 0,5, phạm vi số cụm tối ưu [√𝑛, 𝑛] Tại [1, √𝑛], trình lặp lại; Tại [√𝑛, 𝑛], điểm [√𝑛, 𝑛] 𝑘 = √𝑛+𝑛 sử dụng để xác định phạm vi số cụm tối ưu 54 Thuật toán FACA-DTRS: Đầu vào: 𝑈 = {𝑥1 , 𝑥2 , … , 𝑥𝑛 }; Đầu ra: số lượng cụm K Bước Gán đối tượng cụm riêng; số lượng cụm 𝑛; tính ma trận 𝐟(𝐶ℎ , 𝐶𝑔 )𝑛 ; tính 𝑓𝑚𝑎𝑥 = 𝑚𝑎𝑥{𝐟(𝐶ℎ , 𝐶𝑔 )𝑛 } với ℎ < 𝑔; 𝑓𝑚𝑎𝑥 > 0,5, Gán 𝑘1 = 𝑛, chuyển sang Bước 2; ngược lại, đối tượng cụm, số cụm 𝑛, kết thúc thuật toán Bước Nếu 𝑘1 = (hiển nhiên 𝑘1 lớn 1), số cụm K phải 1, kết thúc thuật toán Ngược lại: (1) Tính 𝑓𝑚𝑎𝑥 = 𝑚𝑎𝑥{𝐟(𝐶ℎ , 𝐶𝑔 ) √𝑘1 }; (2) 𝑓𝑚𝑎𝑥 > 0,5, đặt 𝑘1 = √𝑘1 , quay lại Bước 2, Ngược lại, đặt 𝑘2 = √𝑘1 , chuyển đến Bước Bước Nếu 𝑘1 − 𝑘2 < 2, số cụm K phải 𝑘2 , kết thúc thuật tốn Ngược lại, tính 𝑘 = (𝑘1 + 𝑘2 )/2: (1) tính 𝑓𝑚𝑎𝑥 = 𝑚𝑎𝑥{𝐟(𝐶ℎ , 𝐶𝑔 )𝑘 }; (2) 𝑓𝑚𝑎𝑥 ≤ 0,5, đặt 𝑘2 = 𝑘, ngược lại, đặt 𝑘1 = 𝑘; sau quay lại Bước Thuật tốn khơng đề cập làm để có ma trận 𝐟(𝐶ℎ , 𝐶𝑔 ) √𝑘1 𝐟(𝐶ℎ , 𝐶𝑔 )𝑘 Nói cách khác, tốn làm để có ma trận 𝐟(𝐶𝑝 , 𝐶𝑞 )𝑄′ từ ma trận 𝐟(𝐶𝑝 , 𝐶𝑞 )𝑄 , 𝑄’ < 𝑄 Trên tảng thuật toán phân cụm tích đống phân cấp, giả sử hai cụm 𝐶𝑖 𝐶𝑗 hợp thành 𝐶𝑞 , 𝐶𝑟 khác 𝐶𝑖 𝐶𝑗 phân cụm 𝐶𝑆𝑄 Theo định nghĩa hàm 𝑓 phương trình (3.20), ta có 𝑚𝑎𝑥(𝑓(𝐶𝑖 , 𝐶𝑟 ), 𝑓(𝐶𝑗 , 𝐶𝑟 )) ≥ 𝑓(𝐶𝑞 , 𝐶𝑟 ) Như vậy, thuật toán ACA-DTRS 2, sau 𝑐 lần lặp hợp mà 𝐶𝑖 𝐶𝑗 không hợp 𝑓(𝐶𝑖 , 𝐶𝑗 ) giá trị lớn thứ 𝑘 ma trận 𝐟(𝐶ℎ , 𝐶𝑔 )𝑄 với 𝑘 > 𝑐 ℎ < 𝑔 Cũng theo điều kiện hợp sử dụng Thuật toán ACADTRS 2, cần 𝑄 − 𝑄’ lần lặp hợp để phân cụm 𝐶𝑆𝑄 sát nhập thành phân cụm 𝐶𝑆𝑄′ Do đó, Hong Yu, Zhanguo Liu Guoyin Wang sử dụng phương pháp hợp nhiều cụm lần lặp để tăng tốc trình tích đống, cụ thể hợp cụm thu từ 𝑄 − 𝑄’ phần tử lớn 55 Nếu giao cụm tương ứng với 𝑄 − 𝑄’ phần tử lớn 𝐟(𝐶ℎ , 𝐶𝑔 )𝑄 khác rỗng, Ví dụ: giả sử 𝑄 − 𝑄’ = 5, phần tử lớn 𝑓 (𝐶1 , 𝐶2 ), 𝑓(𝐶2 , 𝐶3 ), 𝑓(𝐶1 , 𝐶3 ), 𝑓 (𝐶1 , 𝐶4 ) 𝑓(𝐶5 , 𝐶6 ) theo thứ tự giảm dần, coi hợp lý kết hợp 𝐶1 , 𝐶2 , 𝐶3 𝐶4 , kết hợp 𝐶5 𝐶6 Tóm lại, để cập nhật ma trận 𝐟(𝐶ℎ , 𝐶𝑔 )𝑄 thành 𝐟(𝐶ℎ , 𝐶𝑔 )𝑄′ , cần thực bước sau: (1) Tìm 𝑄 − 𝑄’ phần tử tối đa ma trận 𝐟(𝐶ℎ , 𝐶𝑔 )𝑄 xếp chúng giảm dần; (2) Hợp cụm thu (1) cập nhật thành ma trận 𝐟(𝐶ℎ , 𝐶𝑔 )𝑃 ; (3) 𝑃 = 𝑄’, kết thúc q trình, ngược lại, quay lại (1) Ví dụ 3.4 Cho bảng liệu ví dụ 3.3 Thuật toán FACA-DTRS: Bước 1: Đầu tiên 𝐶𝑆11 = {𝐶1 = {𝑥1 }, 𝐶2 = {𝑥2 }, … , 𝐶11 = {𝑥11 }} Tính ma trận 𝐟(𝐶ℎ , 𝐶𝑔 )11 với ℎ < 𝑔 Bảng 3.24 Bảng tính ma trận 𝐟(𝑪𝒉 , 𝑪𝒈 ) 𝟏𝟏 𝐟(𝐶ℎ , 𝐶𝑔 ) C1 C2 C3 C4 C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 0,92 0,96 0,13 0,16 0,21 0,12 0,2 0,15 0,09 0,75 0,95 0,16 0,17 0,22 0,02 0,1 0,06 0,76 0,18 0,21 0,26 0,1 0,18 0,13 0,07 0,78 0,95 0,95 0,12 0,2 0,23 0,15 0,5 0,94 0,07 0,15 0,17 0,1 0,52 0,16 0,23 0,27 0,18 0,55 0,94 0,92 0,97 0,17 0,94 0,93 0,26 0,94 0,23 C5 C6 C7 C8 C9 C10 0,16 C11 𝑓𝑚𝑎𝑥 = 𝑓(𝐶7 , 𝐶10 ) = 0,97 > 0,5, 𝑘1 = 11 Bước 2: 𝑘1 = 11>2, √11 ≈ 3, tìm 𝑓𝑚𝑎𝑥 = 𝑚𝑎𝑥{𝐟(𝐶ℎ , 𝐶𝑔 )3 } 56 + Đầu tiên xếp giảm dần phần tử lớn ma trận 𝐟(𝐶ℎ , 𝐶𝑔 )11 sau: 𝑓(𝐶7 , 𝐶10 ), 𝑓(𝐶1 , 𝐶3 ), 𝑓(𝐶2 , 𝐶3 ) , 𝑓(𝐶4 , 𝐶5 ) , 𝑓(𝐶4 , 𝐶6 ) , 𝑓(𝐶5 , 𝐶6 ) , 𝑓(𝐶7 , 𝐶8 ) , 𝑓(𝐶8 , 𝐶9 ) + Hợp cụm ta cụm: 𝐶1 = {𝑥1 , 𝑥3 , 𝑥2 }, 𝐶2 = {𝑥4 , 𝑥5 , 𝑥6 }, 𝐶3 = {𝑥7 , 𝑥10 , 𝑥8 , 𝑥9 }, 𝐶4 = {𝑥11 } Cập nhật ma trận 𝐟(𝐶ℎ , 𝐶𝑔 )4 Bảng 3.25 Bảng tính ma trận 𝐟(𝑪𝒉 , 𝑪𝒈 ) 𝟒 C1 C1 C2 C3 C4 0,19 0,1 0,76 0,17 0,52 C2 C3 0,21 C4 + Phần tử lớn ma trận 𝐟(𝐶ℎ , 𝐶𝑔 )4 𝑓(𝐶1 , 𝐶4 ) Hợp cụm ta cụm: 𝐶1 = {𝑥1 , 𝑥3 , 𝑥2 , 𝑥11 }, 𝐶2 = {𝑥4 , 𝑥5 , 𝑥6 }, 𝐶3 = {𝑥7 , 𝑥10 , 𝑥8 , 𝑥9 } Cập nhật ma trận 𝐟(𝐶ℎ , 𝐶𝑔 )3 Bảng 3.26 Bảng tính ma trận 𝐟(𝑪𝒉 , 𝑪𝒈 ) 𝟑 C1 C1 C2 C2 C3 0,27 0,13 0,17 C3 Khi đó, 𝑓𝑚𝑎𝑥 = 𝑚𝑎𝑥{𝐟(𝐶ℎ , 𝐶𝑔 )3 } = 0,27 < 0,5 Nên 𝑘2 = √11 ≈ Bước 3: 𝑘1 − 𝑘2 = > 𝑘 = 𝑘1 +𝑘2 = Tìm 𝑓𝑚𝑎𝑥 = 𝑚𝑎𝑥{𝐟(𝐶ℎ , 𝐶𝑔 )7 } + Đầu tiên xếp giảm dần phần tử lớn ma trận 𝐟(𝐶ℎ , 𝐶𝑔 )11 sau: 𝑓(𝐶7 , 𝐶10 ), 𝑓(𝐶1 , 𝐶3 ), 𝑓(𝐶2 , 𝐶3 ) , 𝑓(𝐶4 , 𝐶5 ) + Hợp cụm ta cụm: 𝐶1 = {𝑥1 , 𝑥3 , 𝑥2 }, 𝐶2 = {𝑥4 , 𝑥5 }, 𝐶3 = {𝑥6 }, 𝐶4 = {𝑥7 , 𝑥10 }, 𝐶5 = {𝑥8 }, 𝐶6 = {𝑥9 }, 𝐶7 = {𝑥11 } Cập nhật ma trận 𝐟(𝐶ℎ , 𝐶𝑔 )7 57 Bảng 3.27 Bảng tính ma trận 𝐟(𝑪𝒉 , 𝑪𝒈 ) 𝟕 C1 C1 C2 C3 C4 C5 C6 C7 0,17 0,23 0,07 0,16 0,11 0,76 0,95 0,11 0,18 0,20 0,51 0,17 0,23 0,27 0,55 0,94 0,93 0,17 0,94 0,26 C2 C3 C4 C5 C6 0,23 C7 Khi đó, 𝑓𝑚𝑎𝑥 = 𝑚𝑎𝑥{𝐟(𝐶ℎ , 𝐶𝑔 )7 } = 0,95 > 0,5 nên 𝑘1 = 𝑘 = Tiếp tục tính 𝑘1 − 𝑘2 = > 𝑘 = 𝑘1 +𝑘2 = Tìm 𝑓𝑚𝑎𝑥 = 𝑚𝑎𝑥{𝐟(𝐶ℎ , 𝐶𝑔 )5 } + Đầu tiên xếp giảm dần phần tử lớn ma trận 𝐟(𝐶ℎ , 𝐶𝑔 )7 sau: 𝑓(𝐶2 , 𝐶3 ), 𝑓(𝐶5 , 𝐶6 ) + Hợp cụm ta cụm: 𝐶1 = {𝑥1 , 𝑥3 , 𝑥2 }, 𝐶2 = {𝑥4 , 𝑥5 , 𝑥6 }, 𝐶3 = {𝑥7 , 𝑥10 }, 𝐶4 = {𝑥8 , 𝑥9 }, 𝐶5 = {𝑥11 } Cập nhật ma trận 𝐟(𝐶ℎ , 𝐶𝑔 )5 Bảng 3.28 Bảng tính ma trận 𝐟(𝑪𝒉 , 𝑪𝒈 ) 𝟓 C1 C1 C2 C3 C4 C5 0,19 0,07 0,14 0,76 0,13 0,21 0,52 0,93 0,17 C2 C3 C4 0,25 C5 Khi đó, 𝑓𝑚𝑎𝑥 = 𝑚𝑎𝑥{𝐟(𝐶ℎ , 𝐶𝑔 )5 } = 0,93 > 0,5 nên 𝑘1 = 𝑘 = Tiếp tục tính 𝑘1 − 𝑘2 = ≥ 𝑘 = 𝑘1 +𝑘2 = Tìm 𝑓𝑚𝑎𝑥 = 𝑚𝑎𝑥{𝐟(𝐶ℎ , 𝐶𝑔 )4 } + Phần tử lớn ma trận 𝐟(𝐶ℎ , 𝐶𝑔 )5 là: 𝑓(𝐶3 , 𝐶4 ) + Hợp cụm ta cụm: 𝐶1 = {𝑥1 , 𝑥3 , 𝑥2 }, 𝐶2 = {𝑥4 , 𝑥5 , 𝑥6 }, 𝐶3 = {𝑥7 , 𝑥10 , 𝑥8 , 𝑥9 }, 𝐶4 = {𝑥11 } 58 Cập nhật ma trận 𝐟(𝐶ℎ , 𝐶𝑔 )4 Bảng 3.29 Bảng tính ma trận 𝐟(𝑪𝒉 , 𝑪𝒈 ) 𝟒 C1 C1 C2 C3 C4 0,19 0,1 0,76 0,17 0,52 C2 C3 0,21 C4 Khi đó, 𝑓𝑚𝑎𝑥 = 𝑚𝑎𝑥{𝐟(𝐶ℎ , 𝐶𝑔 )4 } = 0,76 > 0,5 nên 𝑘1 = 𝑘 = Tiếp tục tính 𝑘1 − 𝑘2 = < Số cụm K = 𝑘2 = Kết thúc Đối với Thuật toán ACA-DTRS 2, trình hợp lặp lại nhiều lần, thuật toán ACA-DTRS tốn thời gian cập nhật ma trận 𝐟(𝐶ℎ , 𝐶𝑔 ) Đối với Thuật toán FACA-DTRS, thời gian cập nhật ma trận 𝐟(𝐶ℎ , 𝐶𝑔 ) nhiều Cả khơng có tham số đầu vào sử dụng thuật toán 3.3 Đánh giá hiệu phân cụm dựa vào ma trận nhầm lẫn Nếu phân cụm phân tập mẫu thành m cụm Ma trận nhầm lẫn phân cụm ma trận: 𝐶𝑚𝑥𝑚 = {𝑐𝑖𝑗 |1 ≤ 𝑖, 𝑗 ≤ 𝑚}, với 𝑐𝑖𝑗 số đối tượng xác thuộc cụm i dự đoán phân vào cụm j Trong trường hợp m=2, phân cụm phân tập đối tượng thành hai cụm “khẳng định” (positive) “phủ định” (negative) Phân lớp dự đoán + - Tổng số đối tượng + TP FN P - FP TN N Phân lớp TP: Số đối tượng xác thuộc cụm + phân vào cụm + FP: Số đối tượng không thuộc cụm + phân vào cụm + FN: Số đối tượng xác thuộc cụm + phân vào cụm – TN: Số đối tượng xác thuộc cụm – phân vào cụm – P = TP + FN; N = FN+TN 59 Bảng 3.30 Bảng số độ đo hiệu phân cụm TP rate TP/P Tỉ số đối tượng thuộc cụm + phân xác vào cụm + với số đối tượng xác thuộc cụm + FP rate FP/N Tỉ số đối tượng thuộc cụm – phân vào cụm + với số đối tượng xác thuộc cụm - FN rate FN/P Tỉ số đối tượng thuộc cụm + phân vào cụm - với số đối tượng xác thuộc cụm + TN rate TN/N Tỉ số đối tượng thuộc cụm - phân xác vào cụm - với số đối tượng xác thuộc cụm - Pre Giá trị dự TP/(TP+FP) đoán khẳng định Tỉ số đối tượng thuộc cụm + phân xác vào cụm + với số đối tượng phân cụm dự đoán vào cụm + Tỷ số F1 Độ đo tổ hợp TP rate Pre (2.pRE.TPrate) /(Pre+TP rate) Độ xác dự (TP+TN)/(P+N) đoán Tỉ số số lượng đối tượng phân cụm với tổng số đối tượng Tỷ lệ lỗi Tỷ số đối tượng phân cụm sai với tổng số đổi tượng (FP+FN)/(P/N) Trường hợp m > 2, xét ví dụ: Phân lớp Phân lớp dự đoán A B C D E A TPA EAB EAC EAD EAE B EBA TPB EBC EBD EBE C ECA ECB TPC ECD ECE D EDA EDB EDC TPD EDE E EEA EEB EEC EED TPE Trong đó: TPA : số đối tượng xác thuộc cụm A phân vào cụm A, tương tự với TPB, TPC, TPD, TPE EAB: số đối tượng thuộc cụm A phân vào cụm B, tương tự với E cịn lại 60 Khi đó, Precision = TP/(TP + FP) TP: số đối tượng xác thuộc cụm phân vào cụm FP: Tổng giá trị đối tượng cột tương ứng với phân cụm bao gồm TP PreA= TPA/(TPA+EBA+ECA+EDA+EEA) PreB= TPB/(TPB+EAB+ECB+EDB+EEB) Tương tự với PreC, PreD, PreE Ví dụ 3.5 Phân lớp Phân lớp dự đoán A B C A 25 B 32 C 15 Ta có: Độ xác dự đốn: (25+32+15)/(25+5+2+3+32+4+1+0+15) = 82,76 PreA = 25/(25+3+1) = 86,21 PreB = 32/(5+32+0) = 86,47 PreC = 15/(2+4+15) = 71,43 3.4 Đánh giá kết thuật toán SAC-DTRSM tự động xác định số cụm kĩ thuật phân cụm dựa vào lý thuyết tập thô Kết thực thuật toán sử dụng C# đánh giá thời gian thực hiện, độ xác Các tính tốn thực CPU Intel Core i3-8130U 2.2 GHZ Liệt kê thực thời gian độ xác liệu Iris, Wine Ecoli (được lấy từ UCI: https://archive.ics.uci.edu) Đánh giá độ xác cụm thực theo mơ hình đánh giá lớp thành cụm Trên sở, chương trình bỏ qua thuộc tính lớp tạo phân cụm, sau đó, giai đoạn kiểm tra, gán lớp cho cụm, dựa giá trị đa số thuộc tính lớp cụm Tiếp theo, dựa phép gán này, ma trận nhầm lẫn tương ứng hiển thị độ xác có thơng qua việc tính số đối tượng phân vào cụm tổng số đối tượng Tuy nhiên, chưa có phương pháp để đánh giá chất lượng 61 phân cụm đối tượng thuộc nhiều cụm, phương pháp trên, đối tượng phân vào cụm Bảng 3.31 So sánh kết phân cụm thuật toán Cơ sở ACA-DTRS liệu Số ghi Số cụm Iris 150 Wine Ecoli FACA-DTRS SAC-DTRSM Số cụm Độ xác (%) Thời gian (s) Số cụm Độ xác (%) Thời gian (s) Số cụm Độ xác (%) 66,67 1,777 66,67 0,142 90,67 178 64,61 8,622 67,42 0,547 67,42 336 64,58 28,137 63,69 1,241 Dựa vào bảng kết quả, thấy, số liệu cho kết phân cụm thuật tốn xác Mỗi thuật tốn có, ưu nhược điểm riêng - Đối với thuật toán SAC-DTRSM [3]: + Ưu điểm Thực phân cụm xác, thuật tốn phân cụm bán tự động dựa vào lý thuyết tập thô hai tác giả Hong Yu Dachun Yan kế thừa thuật toán phân cụm K-O kết hợp với lý thuyết định Bayes Một ưu điểm thuật tốn việc chọn giá trị ngưỡng 𝑇ℎ𝑖 cách hồn tồn tự động mà khơng cần phải có tham số người dùng cung cấp tác giả Bean Kambhampati + Nhược điểm: Vì phải tìm giá trị mức độ khơng phân biệt cụm lớn 𝜓𝑚𝑎𝑥 nên liệu lớn ảnh hưởng đến thời gian thực thuật tốn Hơn nữa, để phân cụm hợp lý đòi hỏi người dùng phải cung cấp tham số đầu vào Việc chọn 𝛼 𝛽 có ảnh hưởng lớn đến kết phân cụm, chọn 𝛼 𝛽 phù hợp đòi hỏi nhiều kinh nghiệm từ người sử dụng Vì vậy, cần phải tiếp cận cách xác định 𝛼 𝛽 dễ dàng hiểu rõ ý nghĩa hai tham số - Đối với thuật toán ACA-DTRS: + Ưu điểm: Thuật toán ACA-DTRS thực phân cụm xác, tự động xác định số lượng cụm thích hợp mà khơng cần người dùng phải cung cấp tham số đầu vào 62 + Nhược điểm: Thuật toán ACA-DTRS thuật toán phân cụm tích đống phân cấp dựa mơ hình DTRS Tuy nhiên, chưa khai thác vùng biên mơ hình DTRS nên thuật tốn chưa khai thác hết khả ưu mơ hình DTRS khả giải thông tin không chắn, không xác mơ hồ Vì vậy, thuật tốn xác định số lượng cụm tự động hiệu cho phân cụm cho đối tượng đầy đủ thông tin, chưa hiệu phân cụm liệu mơ hồ, khơng chắn Bên cạnh đó, kết tối ưu thuật tốn ACA-DTRS có cách thực trình lặp, lần lặp giảm đơn vị số lượng cụm Do đó, liệu lớn, thuật tốn có độ phức tạp thời gian cao - Đối với thuật toán FACA-DTRS: + Ưu điểm: Tương tự thuật toán ACA-DTRS, thuật toán FACA thực phân cụm xác, tự động xác định số lượng cụm thích hợp mà khơng cần can thiệp từ người dùng Thuật toán thuật toán phân cụm tích đống phân cấp dựa mơ hình DTRS mở rộng, cụ thể dựa hàm đánh giá tính hợp lệ phân cụm xây dựng dựa mơ hình DTRS mở rộng Số cụm hợp lý biểu diễn điểm cực trị đồ thị hàm đánh giá tính hợp lệ cụm Với việc giới hạn phạm vi tìm điểm cực trị, thuật tốn giảm đáng kể số lần lặp, thuật toán đánh giá nhanh tự động + Nhược điểm: Tương tự thuật toán ACA-DTRS, chưa khai thác vùng biên mơ hình DTRS nên thuật toán xác định số lượng cụm tự động hiệu cho phân cụm liệu thông tin đầy đủ, chưa hiệu phân cụm liệu mơ hồ, không chắn So sánh hai thuật toán SAC-DTRSM FACA-DTRS Bảng 3.32 So sánh hai thuật toán SAC-DTRSM FACA-DTRS SAC-DTRSM FACA-DTRS - Đều sử dụng mơ hình lý thuyết định dựa vào lý thuyết tập thô Giống - Không cần nhập tham số đầu vào trước trình xử lý - Cho kết phân cụm xác 63 SAC-DTRSM Khác FACA-DTRS - Trong trình xử lý phân - Trong suốt trình xử lý phân cụm, người sử dụng cần cung cụm, người sử dụng không cần cấp tham số đầu vào 𝛼 𝛽 phải cung cấp tham số đầu - Giải cho tốn phân vào cụm liệu mơ hồ, khơng - Giải cho toán phân chắn (một đối tượng cụm liệu thơng tin đầy đủ (một đối tượng phân thuộc nhiều cụm) vào cụm) So sánh hai thuật toán ACA-DTRS FACA-DTRS Bảng 3.33 So sánh hai thuật toán ACA-DTRS FACA-DTRS ACA-DTRS FACA-DTRS - Đều giải cho tốn phân cụm liệu thơng tin đầy đủ (một đối tượng phân vào cụm) Giống - Thuật toán phân cụm hồn tồn tự động, người sử dụng khơng cần phải cung cấp tham số đầu vào - Cho kết phân cụm xác Khác - Có độ phức tạp thời gian cao - Có độ phức tạp thời gian thấp phải xử lý với liệu lớn xử lý liệu lớn Chương trình bày kiến thức liên quan đến thuật toán SACDTRSM tự động xác định số cụm kĩ thuật phân cụm dựa vào lý thuyết tập thơ Ngồi cịn bàn luận thêm việc đánh giá hiệu thuật toán phân cụm dựa vào ma trận nhầm lẫn Cuối chương phần đánh giá hai thuật toán, nêu ưu nhược điểm SAC-DTRSM tự động xác định số cụm kĩ thuật phân cụm dựa vào lý thuyết tập thô 64 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong trình tìm hiểu hồn thành luận văn tốt nghiệp với đề tài “Khảo sát hai thuật toán: SAC-DTRSM, tự động xác định số cụm kĩ thuật phân cụm dựa vào lý thuyết tập thô”, thân tiếp cận, tìm hiểu ưu cơng cụ tập thơ q trình khai thác liệu mà cụ thể phân cụm liệu đạt số kết định kiến thức Luận văn trình bày kiến thức tổng quan phân cụm liệu, đặc biệt số kỹ thuật thuật toán phân cụm liệu phổ biến Trình bày kiến thức tổng quan lý thuyết tập thơ, mơ hình lý thuyết định dựa vào lý thuyết tập thô Điều đạt lớn luận văn trình bày hai thuật toán bán tự động tự động xác định số cụm kĩ thuật phân cụm dựa vào lý thuyết tập thô, cài đặt, đánh giá kết thuật tốn, phân tích ưu, nhược điểm thuật tốn Mặc dù vậy, tơi nhận thấy phân cụm liệu khai phá liệu lĩnh vực nghiên cứu rộng lớn, đạt luận văn nhỏ bé, để khám phá tri thức, cần cố gắng tiếp tục nghiên cứu, tìm hiểu nhiều nữa, đặc biệt phương pháp, cách tiếp cận phân cụm liệu, từ có nhìn tốt hơn, bao qt lựa chọn thuật tốn tối ưu giải tốn cụ thể Với mà luận văn thực đạt được, hướng phát triển sau luận văn sau: Tìm hiểu sâu việc lựa chọn tham số đầu vào cho thuật tốn SACDTRSM Tìm hiểu số hiệu lực cụm Khai thác vùng biên mơ hình DTRS để phát triển thuật tốn FACA-DTRS giải hiệu thông tin không chắn, khơng xác mơ hồ Áp dụng phương pháp xử lý song song lập trình để đẩy nhanh thời gian thực thuật toán 65 TÀI LIỆU THAM KHẢO Tài liệu Tiếng Việt Huỳnh Khánh Đức (2010), Tìm hiểu kỹ thuật phân cụm dựa vào lý thuyết tập thô, Đại học Nha Trang, Đồ án tốt nghiệp Nguyễn Đức Thuần (2013), Nhập môn phát tri thức khai phá liệu, NXB Thông tin truyền thông Trần Văn Đức (2019), Phân cụm bán tự động dựa vào lý thuyết tập thô hai tác giả Hong Yu Dachun Yan, Đại học Nha Trang, Đồ án tốt nghiệp Tài liệu Tiếng Anh C L Bean and C Kambhampati (2004), Knowledge-Based Clustering: A SemiAutonomous Algorithm Using Local and Global Data Properties, IEEE International Joint Conference on Neural Networks, pp 95-100 C L Bean and C Kambhampati (2008), Autonomous clustering Using Rough Set Theory, International Journal of Automation and Computin, pp 90-102 Hong Yu and Dachun Yan (2010), A Semiautonomous Clustering Algorithm Based on Decision-theoretic Rough Set Theory, Proc 9th IEEE Int Conf on Cognitive Informatics, pp 477-483 Shoji Hirano and Shusaku Tsumoto (2001), A Knowledge-Oriented Clustering Technique Based on Rough Sets, In Proceedings of 25th IEEE International Conference on Computer and Software Applications, pp 632-637 Yiyu Yao (2007), Decision-Theoretic Rough Set Models, Lecture Notes in Computer Science, pp 1-12 Y Y Yao and S K M Wong (1992), A decision-theoretic framework for approximating concepts, International Journal of Man-machine Studies, pp 793809 10 H Yu, Z.G Liu and G.Y Wang (2011), Automatically determining the number of clusters using decision-theoretic rough set, In Proceedings of the 6th International Conference on Rough Sets and Knowledge Technology, pp 504–513 11 Hong Yu, Zhanguo Liu and Guoyin Wang (2013), An automatic method to determine the number of clusters using decision-theoretic rough set, International Journal of Approximate Reasoning 66 ... động xác định số cụm kĩ thuật phân cụm dựa vào lý thuyết tập thô 22 CHƯƠNG KHẢO SÁT HAI THUẬT TOÁN SAC- DTRSM, TỰ ĐỘNG XÁC ĐỊNH SỐ CỤM TRONG KĨ THUẬT PHÂN CỤM DỰA VÀO LÝ THUYẾT TẬP THƠ 3.1 Thuật. .. pháp phân cụm Chương 2: Lý thuyết tập thơ Trình bày tổng quan lý thuyết tập thô Chương 3: Khảo sát hai thuật toán: SAC- DTRSM, tự động xác định số cụm kĩ thuật phân cụm dựa vào lý thuyết tập thơ... phân cụm Luận văn ? ?Khảo sát hai thuật toán: SAC- DTRSM, tự động xác định số cụm kĩ thuật phân cụm dựa vào lý thuyết tập thô? ?? giúp tơi có thêm hiểu biết liên quan đến toán phân cụm, kiến thức lý

Ngày đăng: 17/02/2021, 19:16

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Huỳnh Khánh Đức (2010), Tìm hiểu kỹ thuật phân cụm dựa vào lý thuyết tập thô, Đại học Nha Trang, Đồ án tốt nghiệp Sách, tạp chí
Tiêu đề: Tìm hiểu kỹ thuật phân cụm dựa vào lý thuyết tập thô
Tác giả: Huỳnh Khánh Đức
Năm: 2010
2. Nguyễn Đức Thuần (2013), Nhập môn phát hiện tri thức và khai phá dữ liệu, NXB Thông tin và truyền thông Sách, tạp chí
Tiêu đề: phát hiện tri thức và khai phá dữ liệu
Tác giả: Nguyễn Đức Thuần
Nhà XB: NXB Thông tin và truyền thông
Năm: 2013
3. Trần Văn Đức (2019), Phân cụm bán tự động dựa vào lý thuyết tập thô của hai tác giả Hong Yu và Dachun Yan, Đại học Nha Trang, Đồ án tốt nghiệp.Tài liệu Tiếng Anh Sách, tạp chí
Tiêu đề: Phân cụm bán tự động dựa vào lý thuyết tập thô của hai tác giả Hong Yu và Dachun Yan
Tác giả: Trần Văn Đức
Năm: 2019
4. C. L Bean and C. Kambhampati (2004), Knowledge-Based Clustering: A Semi- Autonomous Algorithm Using Local and Global Data Properties, IEEE International Joint Conference on Neural Networks, pp. 95-100 Sách, tạp chí
Tiêu đề: Knowledge-Based Clustering: A Semi-Autonomous Algorithm Using Local and Global Data Properties
Tác giả: C. L Bean and C. Kambhampati
Năm: 2004
5. C. L Bean and C. Kambhampati (2008), Autonomous clustering Using Rough Set Theory, International Journal of Automation and Computin, pp. 90-102 Sách, tạp chí
Tiêu đề: Autonomous clustering Using Rough Set Theory
Tác giả: C. L Bean and C. Kambhampati
Năm: 2008
6. Hong Yu and Dachun Yan (2010), A Semiautonomous Clustering Algorithm Based on Decision-theoretic Rough Set Theory, Proc. 9th IEEE Int. Conf. on Cognitive Informatics, pp. 477-483 Sách, tạp chí
Tiêu đề: A Semiautonomous Clustering Algorithm Based on Decision-theoretic Rough Set Theory
Tác giả: Hong Yu and Dachun Yan
Năm: 2010
7. Shoji Hirano and Shusaku Tsumoto (2001), A Knowledge-Oriented Clustering Technique Based on Rough Sets, In Proceedings of 25th IEEE International Conference on Computer and Software Applications, pp. 632-637 Sách, tạp chí
Tiêu đề: A Knowledge-Oriented Clustering Technique Based on Rough Sets
Tác giả: Shoji Hirano and Shusaku Tsumoto
Năm: 2001
8. Yiyu Yao (2007), Decision-Theoretic Rough Set Models, Lecture Notes in Computer Science, pp. 1-12 Sách, tạp chí
Tiêu đề: Decision-Theoretic Rough Set Models
Tác giả: Yiyu Yao
Năm: 2007
9. Y. Y. Yao and S. K. M. Wong (1992), A decision-theoretic framework for approximating concepts, International Journal of Man-machine Studies, pp. 793- 809 Sách, tạp chí
Tiêu đề: A decision-theoretic framework for approximating concepts
Tác giả: Y. Y. Yao and S. K. M. Wong
Năm: 1992
10. H. Yu, Z.G. Liu and G.Y. Wang (2011), Automatically determining the number of clusters using decision-theoretic rough set, In Proceedings of the 6th International Conference on Rough Sets and Knowledge Technology, pp. 504–513 Sách, tạp chí
Tiêu đề: Automatically determining the number of clusters using decision-theoretic rough set
Tác giả: H. Yu, Z.G. Liu and G.Y. Wang
Năm: 2011
11. Hong Yu, Zhanguo Liu and Guoyin Wang (2013), An automatic method to determine the number of clusters using decision-theoretic rough set, International Journal of Approximate Reasoning Sách, tạp chí
Tiêu đề: An automatic method to determine the number of clusters using decision-theoretic rough set
Tác giả: Hong Yu, Zhanguo Liu and Guoyin Wang
Năm: 2013

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w