Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô.
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG ĐỖ SĨ TRƯỜNG PHƯƠNG PHÁP LỰA CHỌN THUỘC TÍNH VÀ KỸ THUẬT GOM CỤM DỮ LIỆU PHÂNLOẠI SỬ DỤNG TẬP THƠ LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Đồng Nai – năm 2023 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG ĐỖ SĨ TRƯỜNG PHƯƠNG PHÁP LỰA CHỌN THUỘC TÍNH VÀ KỸ THUẬT GOM CỤM DỮ LIỆU PHÂNLOẠI SỬ DỤNG TẬP THÔ LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Chuyên ngành: Khoa học máy tính Mã số ngành: 9480101 NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS NGUYỄN THANH TÙNG Đồng Nai, năm 2023 LỜI CẢM ƠN Xin trân trọng cảm ơn PGS.TS Nguyễn Thanh Tùng tận tình hướng dẫn nghiên cứu sinh hồn thành luận án tiến sĩ Xin trân trọng cảm ơn quý thầy/cô khoa sau đại học, trường đại học Lạc Hồng tạo điện kiện thuận lợi hỗ trợ nghiên cứu sinh hồn thành luận án XintrântrọngcảmơntrườngđạihọcLạcHồngđãtạođiềukiệnthuậnlợitrongcơng tác hỗ trợ nghiên cứu sinh tham gia họctập Xinchânthànhcámơnquýbạnbè,đồngnghiệpđãtạođiềukiệnmọimặtgiúpnghiên cứu sinh hoàn thành luậnán ĐồngNai,ngày tháng năm2023Nghiên cứusinh Đỗ Sĩ Trường LỜI CAM ĐOAN Tôi xin cam đoan luận án cơng trình nghiên cứu riêng tơi hướng dẫn PGS.TS Nguyễn Thanh Tùng Các số liệu tài liệu nghiên cứu trung thực chưa cơng bố cơng trình nghiên cứu Tất tham khảo kế thừa trích dẫn tham chiếu đầy đủ ĐồngNai,ngày tháng năm2023Nghiên cứusinh Đỗ Sĩ Trường MỤC LỤC CHƯƠNG1 MỞ ĐẦU CHƯƠNG2 KHÁI QUÁT VỀ LÝ THUYẾT TẬP THÔ VÀ ỨNG DỤNG TRONGKHAI PHÁDỮ LIỆU 2.1 Mởđầu 2.2 Các khái niệm lý thuyếttậpthô 2.2.1 Hệthông tin 2.2.2 Quan hệ không phân biệt xấp xỉ mộttập hợp 10 2.2.3 Bảngquyết định 11 2.2.4 Các khái niệm lý thuyết thông tinliên quan 13 2.3 Một số thuật toán hiệu lý thuyếttậpthô 16 2.4 Ứng dụng lý thuyết tập thô khám phá tri thức từ sởdữliệu 19 2.5 Kết luậnchương2 21 CHƯƠNG3 LỰA CHỌN THUỘC TÍNH SỬ DỤNG LÝ THUYẾTTẬP THÔ 23 3.1 Mởđầu 23 3.2 Khái quát tốn lựa chọnthuộctính 24 3.3 Các phương pháp lựa chọn thuộc tính sử dụng lý thuyếttập thô 27 3.3.1 Phương pháp lựa chọn thuộc tính sử dụng ma trậnphânbiệt 28 3.3.2 Phương pháp rút gọn thuộc tính dựa vào độphụ thuộc 32 3.3.3 Phương pháp rút gọn thuộc tính sử dụng sử dụng độ phụ thuộctương đối 34 3.3.4 Phương pháp rút gọn thuộc tính sử dụng Entropythông tin .37 3.3.5 Phương pháp lựa chọn thuộc tính dựa trêngom cụm 39 3.4 Đề xuất thuật toán rút gọn thuộc tính dựa vào gomcụm ACBRC 42 3.4.1 Ý tưởng định nghĩacơbản 42 3.4.2 Giới thiệu thuậttoánk-medoids 43 3.4.3 Thuật tốn rút gọn thuộc tính dựa vào gomcụm ACBRC 45 3.4.4 Kết thực nghiệm thuậttoán ACBRC 48 3.5 Kết luậnchương3 52 CHƯƠNG4 GOM CỤM DỮ LIỆU SỬ DỤNG LÝ THUYẾTTẬPTHÔ 54 4.1 Mởđầu 54 4.2 Khái quát toán gom cụmdữliệu 55 4.2.1 Các bước giải toán gom cụmdữliệu .55 4.2.2 Các loại phương pháp gom cụmdữliệu 56 4.2.3 Các tiêu chí đánh giá thuật toán gomcụm hiệu 58 4.3 Gom cụm liệu phân loại sử dụng Lý thuyếttập thô 59 4.3.1 Thuật tốn lựa chọn thuộc tính gomcụm TR .61 4.3.2 Thuật toán lựa chọn thuộc tính gomcụm MDA 63 4.3.3 Thuật toánMMR (Min-Min-Roughness) 64 4.3.4 Thuật toán MGR (MeanGain Ratio) 67 4.4 Đề xuất thuật toán MMNVI gom cụm liệuphân loại .69 4.4.1 Ý tưởng định nghĩacơ 69 4.4.2 Thuậttoán MMNVI 70 4.4.3 Độ phức tạp thuậttoán MMNVI 75 4.4.4 Nhận xét thuậttoán MMNVI 76 4.4.5 Kết thực nghiệm thuậttoán MMNVI 76 4.4.5.1 Bộ liệuđánh giá .77 4.4.5.2 Phương pháp đánh giáhiệu suất 77 4.4.5.3 Kết quảgom cụm 79 4.4.5.4 So sánh MMNVI với thuật toán MMRvàMGR 82 4.5 Kết luậnchương .85 CHƯƠNG5 KẾT LUẬN VÀ HƯỚNGPHÁT TRIỂN 87 5.1 Những kết đóng góp củaluậnán 87 5.2 Hướng phát triển củaluận án 88 BẢNG THUẬT NGỮ ANH - VIỆT Tiếng Anh Adjusted Rand Index Viết tắt ARI Tiếng việt Chỉ số ngẫu nhiên hiệu chỉnh Attribute clustering Gom cụm thuộc tính Attribute reduction Rút gọn thuộc tính Attribute Clustering Based Reduct Computing ACBRC Tính tốn tập rút gọn dựa gom cụm thuộc tính Categorical Data Dữ liệu phân loại/phạm trù Clustering data Gom cụm liệu Data mining KPDL Khai phá liệu Database CDSL Cơ sở liệu Decision table DT Feature selection Information system Knowledge Discovery in Databases Normalized Mutual Information Machine learning Bảng định Lựa chọn thuộc tính/đặc trưng IS KDD Hệ thơng tin Khám phá tri thức từ Cơ sở liệu NMI Thơng tin tương hỗ chuẩn hóa ML Học máy Minimum Mean Normalized Variation of Information MMNVI Mean Gain Ratio MGR Min-Min-Roughness MMR Normalized Variation of Information Overall Purity Rough Sets Theory NVI Biến thể thơng tin chuẩn hóa OP Độ khiết tổng thể LTTT Lý thuyết tập thô BẢNGCÁCKÝHIỆU Ký hiệu, từ viết tắt 𝐼𝑆 = (𝑈, 𝐴) |𝑈| Diễn giải Hệ thông tin Số đối tượng |𝑑| Thuộc tính điều kiện bảng định |𝐴| Số thuộc tính hệ thơng tin 𝑢(𝑎) Giá trị đối tượngutại thuộc tínha [𝑢]𝐵 Quan hệBkhơng phân biệt Lớp tương đương chứaucủa quan hệINDB 𝑈/𝐵 Phân hoạch củaUsinh bởi tập thuộc tínhB 𝐵𝑋 Bxấp xỉ củaX 𝐵𝑋 Bxấp xỉ củaX 𝐼𝑁𝐷(𝐵) 𝛼𝐵(𝑋) 𝑅𝐵(𝑋) 𝑃𝑂𝑆𝐵(𝐷) 𝐶𝑜𝑟𝑒(𝐶) 𝛾𝐵(𝑑) 𝐻(𝑎) Độ xác xấp xỉ𝑋thơng qua𝐵 Độ thơ (roughness) củaXđối vớiB Bmiền dương củaD Tập lõi Độ phụ thuộc của𝑑vào𝐵 Shannon Entropy tập thuộc tính𝑎 𝐻(𝑎, 𝑏) Entropy đồng thời của𝑎và𝑏 𝐻(𝑎|𝑏) Entropy có điều kiện của𝑎khi biết𝑏 𝐼(𝑎; 𝑏) Thông tin tương hỗ hai thuộc tính𝑎và𝑏 𝑁𝑉𝐼(𝑎, 𝑏) 𝑅𝑜𝑢𝑔ℎ𝑎𝑗(𝑎𝑖) Biến thể thơng tin chuẩn hóa giữa𝑎và𝑏 Độ thơ trung bình thuộc tính𝑎𝑖đối với thuộc tính𝑎𝑗 𝑅𝑎𝑗(𝑋𝑘) Độ thơ lớp tương đương𝑋𝑘đối với𝑎𝑗 𝑇𝑅(𝑎𝑖) 𝑀𝑅(𝑎𝑖) Tổng độ thơ𝑇𝑅của𝑎𝑖với thuộc tính𝑎𝑗∈ 𝐴 𝐺𝑅𝑏(𝑎) Tỷ lệ lợi thông tin của𝑎𝑖đối với𝑎𝑗 Độ thô cực tiểu 𝑀𝐺𝑅(𝑎𝑖) Tỷ lệ lợi thơng tin trung bình của𝑎𝑖đối với𝑎𝑗 𝑀𝑁𝑉𝐼(𝑎𝑖) Biến thể thơng tin chuẩn hóa trung bình giữa𝑎𝑖với 𝑎 𝑗∈ 𝐴 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑋) argmin Tntropy tập liệu𝑋 ⊆ 𝑈 Xác định phần tử có giá trị nhỏ miền giá trị DANH MỤC BẢNG BIỂU Bảng 3.1 Bảng định vídụ3.1 .30 Bảng 3.2 Ma trận phân biệt Bảng quyếtđịnh3.1 .31 Bảng 3.3 Bảngquyếtđịnh 34 Bảng 3.4 Bảng mô tả tập liệuthựcnghiệm 49 Bảng 3.5 Những thuộc tính chọn bởi ba giải thuật rút gọnthuộctính 50 Bảng 3.6 Bảng so sánh thời gian thực thuật toán(theogiây) .50 Bảng 3.7 Độ xác phân lớp chưa rút gọnthuộctính 51 Bảng 3.8 Độ xác phân lớp với thuộc tính chọnbởi ACBRC 51 Bảng 3.9 Độ xác phân lớp C5.0 sau sử dụng phương pháp rút gọn thuộc tínhkhácnhau 52 Bảng 3.10 Độ xác phân lớp Bayes sử dụng thuật tốn rút gọnthuộctính 52 Bảng 4.1 Hệ thông tin chất lượng đầu vào củasinh viên 74 Bảng 4.2 Độ chắn trung bình cácthuộctính 75 Bảng 4.3 Tám liệuchuẩnUCI 77 Bảng 4.4 Bảngdựphòng 78 Bảng 4.5 Kết gom cụm MMNVI tập liệuSoybean Small 80 Bảng 4.6 Kết gom cụm MMNVI tập liệu BreastCancerWisconsin 80 Bảng 4.7 Kết gom cụm MMNVI tập liệuCar Evaluation 80 Bảng 4.8 Kết gom cụm MMNVI tập dữliệu Vote 81 Bảng 4.9 Kết gom cụm MMNVI tập dữliệu Chess 81 Bảng 4.10 Kết gom cụm MMNVI tập dữliệu Mushroom 81 Bảng 4.11 Kết gom cụm MMNVI tập liệuBalanceScale 81 Bảng 4.12 Kết gom cụm MMNVI tập dữliệu Zoo 81 Bảng 4.13 Độ khiết tổng thể thuật toán bộdữliệu 82 Bảng 4.14 Chỉ số ngẫu nhiên hiệu chỉnh (ARI) ba thuật toán tậpdữliệu .83 Bảng 4.15 Thơng tin tương hỗ chuẩn hóa (NMI) ba thuật toán tậpdữliệu 84