Phân loại đa nhãn đa lớp dựa vào luật kết hợp Phân loại đa nhãn đa lớp dựa vào luật kết hợp Phân loại đa nhãn đa lớp dựa vào luật kết hợp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - PHẠM XUÂN DŨNG PHÂN LOẠI ĐA NHÃN, ĐA LỚP DỰA VÀO LUẬT KẾT HỢP LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ Thông tin Mã ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS TS LÊ HỒI BẮC TP HỒ CHÍ MINH, tháng năm 2014 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM Cán hướng dẫn khoa học: PGS TS Lê Hoài Bắc (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 09 tháng 11 năm 2014 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) TT Họ tên Chức danh Hội đồng PGS TSKH Nguyễn Xuân Huy Chủ tịch TS Võ Đình Bảy Phản biện TS Lư Nhật Vinh Phản biện TS Vũ Thanh Hiền TS Lê Mạnh Hải Ủy viên Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƯỜNG ĐH CƠNG NGHỆ TP HCM PHỊNG QLKH – ĐTSĐH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc TP HCM, ngày 27 tháng 09 năm 2014 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Phạm Xuân Dũng Giới tính: Nam Ngày, tháng, năm sinh: 22/10/1984 Nơi sinh: Phú Yên Chuyên ngành: Công nghệ thông tin MSHV: 1241860002 I- Tên đề tài: PHÂN LOẠI ĐA NHÃN, ĐA LỚP DỰA VÀO LUẬT KẾT HỢP II- Nhiệm vụ nội dung: Nghiên cứu phương pháp phân loại đa nhãn đa lớp dựa vào luật kết hợp Thực thuật toán xác định tính hiệu phương pháp này, đồng thời so sánh với thuật toán khác III- Ngày giao nhiệm vụ: 02/04/2014 IV- Ngày hoàn thành nhiệm vụ: 27/09/2014 V- Cán hướng dẫn: (Ghi rõ học hàm, học vị, họ, tên) PGS TS LÊ HOÀI BẮC CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) PGS TS LÊ HOÀI BẮC KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung thực chưa công bố cơng trình khác Tơi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thông tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn (Ký ghi rõ họ tên) Phạm Xuân Dũng ii LỜI CẢM ƠN Trước tiên xin chân thành cảm ơn thầy giáo PGS.TS Lê Hồi Bắc tận tình hướng dẫn, bảo thời gian qua Tôi xin bày tỏ lịng biết ơn tới thầy giáo khoa Cơng nghệ Thơng tin nói riêng trường Đại học Cơng nghệ Tp.HCM nói chung dạy bảo, cung cấp kiến thức quý báu cho suốt trình học tập nghiên cứu trường Tơi xin gửi lời cảm ơn tới gia đình, bạn bè, người cổ vũ, quan tâm giúp đỡ suốt thời gian học tập làm luận văn Do thời gian kiến thức có hạn nên luận văn khơng tránh khỏi thiếu sót định Tơi mong nhận góp ý quý báu thầy cô bạn Hồ Chí Minh, 09-2014 Phạm Xn Dũng iii TĨM TẮT Sự phát triển công nghệ thông tin kéo theo bùng nổ thông tin Các kho tài liệu ngày lớn chứa nhiều tài liệu thuộc nhiều loại khác Rõ ràng nhiệm vụ phân loại tài liệu theo chuyên mục việc cần thiết Từ mở khả phân loại tài liệu vào phân lớp biết Phân lớp Tìm luật kết hợp hai nhiệm vụ quan trọng khai thác liệu Việc phân lớp nhằm mục đích dự đốn cách xác có phân lớp đối tượng chưa biết Việc phân lớp tìm luật kết hợp tương tự ngoại trừ phân lớp mục tiêu dự đốn thuộc tính phân lớp luật kết hợp có khả suy diễn tập thuộc tính khác Đã có nhiều nghiên cứu giải vấn đề phân lớp phân lớp dựa vào định, phân lớp dựa vào mạng nơ ron, phân lớp dựa vào lý thuyết xác suất Bayes, phân lớp dựa vào lý thuyết tập thô, phân lớp dựa vào luật kết hợp, phân lớp dựa vào thống kê… Hướng tiếp cận sử dụng luật kết hợp việc phân loại liệu lần đưa vào năm 1998 đạt nhiều kết khả quan so với hướng tiếp cận truyền thống sử dụng định Quinlan Đã có số phân lớp dựa vào luật kết hợp xác CBA, CMAR Tuy nhiên, phân lớp gắn thuộc tính phân lớp với luật kết hợp, luật kết hợp thường khơng thích hợp cho việc phân loại đa lớp Luận văn tập trung vào việc nghiên cứu, phân tích đánh giá thuật toán phân loại đa nhãn, đa lớp dựa vào luật kết hợp (Multi-class Multi-label Associative Classification – MMAC) để giải vấn đề Theo đối tượng khơng gán nhãn phân lớp với lớp mà có khả gán nhãn với nhiều phân loại khác nhau, nhãn xếp theo thứ tự định Bên cạnh luận văn cịn trình bày đơn vị đo lường độ xác việc phân iv loại dựa vào luật kết hợp nhằm đánh giá độ xác MMAC so với phân loại có Một cách tiếp cận phân loại đa nhãn, đa lớp đề xuất có nhiều đặc điểm khác biệt so với truyền thống phương pháp phân loại dựa vào luật kết hợp chỗ: (1) MMAC phân loại đa nhãn, đa lớp, theo thể gắn kết với danh sách có thứ tự nhãn phân loại (2) Những hướng tiếp cận phân loại dựa vào luật kết hợp truyền thống thường phải duyệt liệu huấn luyện nhiều lần để tìm tập phổ biến MMAC cần duyệt liệu huấn luyện lần (3) MMAC đưa kỹ thuật thứ tự luật cách chi tiết nhằm giảm tối thiểu việc ngẫu nhiên chọn hai hay nhiều luật qui trình thứ tự luật (4) MMAC đưa khái niệm học đệ qui nhằm rút trích nhiều luật giảm tối thiểu vai trò phân lớp mặc định (default class) phân lớp đối tượng kiểm tra Nghiên cứu thực 16 liệu Weka cho thấy phương pháp phân loại đa nhãn, đa lớp dựa vào luật kết hợp có hiệu quả, phù hợp có tỷ lệ phân loại cao phương pháp định (PART), thuật toán CBA RIPPER Định hướng tương lai dự kiến mở rộng phương pháp để xử lý liệu liên tục v ABSTRACT The development of information technology leads to the information explosion The increasingly large document repositories, and contains many documents of different types Clearly the task of document classification for each category is an essential work Since then opens the possibility of classifying new documents classified in the know Classification and Finding association rules are two important tasks in data mining The classification for the purpose of accurately predicting possible classification of an unknown object The classification and to find association rules are similar except for the target classification predicts only a subclass properties while association rules are capable of inference for a different set of attributes There have been many studies to solve the problem as subclass classification based on decision trees, classification based on neural networks, classification based on Bayesian probability theory, classification based on rough set theory, classification based on association rules, classification based on statistical The approach uses association rules to classify data was first launched in 1998 and has achieved many positive results compared to the traditional approach using decision trees Quinlan There have been a number of classification based on association rule fairly accurate as CBA, CMAR However, the classification is only an attribute associated with each classification association rules, hence the association rules are usually not suitable for multi-class classification This thesis will focus on research, analysis and evaluation algorithm multiclass multi-label classification based on association rules (Multi-Class, Multi-Label Associative Classification - MMAC) to solve the problem Accordingly, an object not only labeled classification with a single class that is likely to be labeled with many different classification, the labels are arranged in a certain order Besides, the thesis presents three units of measurement accuracy of the classification based on vi association rules in order to assess the accuracy of the MMAC compared with the existing classification A new approach for multi-class multi-label classification has been proposed many different characteristics compared to traditional classification methods based on association rules in place: (1) MMAC is a multi-classifier multi-layer label, in which each instance is associated with an ordered list of classification labels (2) The approach to classification based on association rules have traditionally approved training data multiple times to find common set while browsing MMAC just once training data (3) MMAC gives a sort of technical detail rules to minimize randomly select two or more law in law ordering process (4) MMAC introduces the concept of recursive learning to extract many more law and minimize the role of the default classification (default class) when classifying test subjects Research carried out on 16 Weka data sets show that multi-class classification method based on multi-label association rules is effective, consistent and high classification rate than the decision tree method (PART), CBA and RIPPER algorithm Orientation future plans to expand the approach to handle continuous data vii MỤC LỤC LỜI CAM ĐOAN .i LỜI CẢM ƠN ii TÓM TẮT iii ABSTRACT v MỘT SỐ TỪ VIẾT TẮT VÀ THUẬT NGỮ THƯỜNG DÙNG ix DANH MỤC BẢNG x DANH MỤC HÌNH xi Chương 1: TỔNG QUAN 1.1 Giới thiệu 1.2 Mục tiêu nghiên cứu 1.3 Đối tượng nghiên cứu 1.4 Phạm vi nghiên cứu 1.5 Bố cục luận văn Chương 2: CÁC NGHIÊN CỨU LIÊN QUAN Chương 3: PHÂN LOẠI ĐA NHÃN, ĐA LỚP DỰA VÀO LUẬT KẾT HỢP 3.1 Phân loại gì? 3.2 Các vấn đề quan tâm phân loại 11 3.3 Phân loại đa nhãn (Multi-label Classification) 12 3.4 Luật kết hợp 13 3.5 Một số định nghĩa 14 3.6 Phân loại dựa vào luật kết hợp 15 3.7 Phương pháp phân loại đa nhãn, đa lớp dựa vào luật kết hợp (MMAC) 18 3.8 Độ đo lượng giá 32 37 Chương 4: THỬ NGHIỆM, ĐÁNH GIÁ, HƯỚNG PHÁT TRIỂN Chương đưa kết cài đặt thử nghiệm phương pháp phân loại đa nhãn, đa lớp dựa vào luật kết hợp liệu Weka [16] đánh giá kết thực nghiệm 4.1 Thiết kế tổng thể Chương trình gồm khối chức sau: - Khối chức tiền xử lý - Khối chức phân cụm 4.1.1 Khối chức tiền xử lý Nhiệm vụ khối chức đọc liệu, xác định số mẫu, số thuộc tính, số lớp, giá trị thuộc tính mẫu liệu 4.1.2 Khối chức phân loại Khối chức tiến hành phân loại mẫu liệu Dữ liệu học có giám sát theo giải thuật MMAC Cuối kết hợp luật phân loại tạo phân loại đa nhãn Sau tạo phân loại đa nhãn tiến hành xác định độ xác phân loại 4.2 Chuẩn bị liệu Dữ liệu đầu vào chương trình tập tin văn Attribute-Relation File Format (*.arff), gồm phần: ← Phần khai báo (header) 38 ← Phần liệu (data) 4.2.1 Tệp định dạng liệu Phần khai báo: @relation @attribute @attribute … @attribute Các kiểu liệu: Numeric Dữ liệu dạng số Ví dụ: @ATTRIBUTE name numeric Nominal Dữ liệu rời rạc Ví dụ: @ATTRIBUTE class {setosa, versicolor} String Dữ liệu chuỗi Ví dụ: @ATTRIBUTE name string Date Dữ liệu kiểu ngày Ví dụ: @ATTRIBUTE discovered date 39 Dữ liệu thiếu ký hiệu dấu chấm hỏi “?” Phần liệu: Mỗi mẫu liệu đặt dòng, giá trị thuộc tính liệt kê theo thứ tự từ trái qua phải ngăn cách dấu phẩy “,” 4.2.2 Nguồn liệu Trong khuôn khổ luận văn, liệu Weka [16] sử dụng để thực nghiệm 4.3 Thiết kế chương trình Với khối chức liệu trên, chương trình thiết kế sau: Các thông tin: - Số lớp, tên lớp Tệp mẫu liệu Module GetData - Số thuộc tính, tên thuộc tính, kiểu thuộc tính hay giá trị rời rạc thuộc tính - Số mẫu, giá trị thuộc tính tên lớp mẫu Hiển thị kết Kết phân loại Hình 4.1: Thiết kế chương trình 4.4 Kết thực nghiệm đánh giá 4.4.1 Các bước tiến hành thực nghiệm Phân loại liệu giải thuật MMAC Module Phân loại 40 Kết hợp luật phân loại tạo phân loại đa nhãn, so sánh hiệu phân loại MMAC với kỹ thuật phân loại PART, RIPPER, CBA 4.4.2 Thực nghiệm 4.4.2.1 So sánh MMAC CBA Áp dụng CBA MMAC lên liệu huấn luyện Bảng 4.1 với MinSupp 20% MinConf 40% để chứng minh tính hiệu tập luật rút hai thuật toán Bảng 4.1: Dữ liệu huấn luyện RowIds A1 A2 Single Class Z1 W1 p1 Z1 W2 p2 Z1 W1 p2 Z1 W2 p1 Z2 W1 p2 Z2 W1 p1 Z2 W3 p2 Z1 W3 p1 Z2 W4 p1 10 Z3 W1 p1 Bảng 4.2 liệt kê phân lớp tạo CBA bao gồm hai luật bao phủ thể huấn luyện (1, 2, 3, 4, 5, 6, 8, 10) Hai thể cịn lại hình thành phân lớp mặc định bao phủ 20% toàn liệu Bảng 4.3 liệt kê phân lớp tạo MMAC liệu huấn luyện tìm nhiều CBA luật Những luật rút trích thứ tự tổng hợp lại thành phân loại đa nhãn, đa lớp Trong ví dụ có hai luật đa nhãn 41 tạo ( A1, Z1) p1 p ( A1, Z 2) p1 p Bộ phân lớp MMAC bao phủ 10 thể huấn luyện phân lớp mặc định p1 chọn chiếm đa số liệu huấn luyện Bảng 4.2: Bộ phân loại CBA RuleId Frequent Item Support Confidence Class Label Z1 3/10 3/5 p1 W1 3/10 3/5 p1 default p2 Bảng 4.3: Bộ phân loại MMAC RuleId Frequent Item Support Confidence Class Label 1a Z1 3/10 3/5 p1 1b Z1 2/10 2/5 p2 Z2 2/10 2/4 p2 W1 3/10 3/5 p1 default p1 Khác với giải thuật CBA khơng thể rút trích luật đa nhãn, luật MMAC tạo có khả sử dụng để phân loại đa lớp Thêm vào đó, phân lớp mặc định MMAC bao phủ 0% liệu huấn luyện chưa phân lớp, gây ảnh hưởng phân lớp liệu chưa biết có khả tác động đến độ xác phân lớp làm giảm tỉ lệ lỗi nói chung 4.4.2.2 Độ xác phân loại Thử nghiệm MMAC 16 liệu Weka khác so sánh độ xác với kỹ thuật phân loại PART, RIPPER CBA Phương pháp đánh giá chéo với 10-fold sử dụng để đánh giá giải thuật Vì phân loại 42 phân loại đa nhãn nên độ đo Top-Label sử dụng nhằm bảo đảm tính cơng việc so sánh Tất thử nghiệm thực máy Intel Core i32.13 GHz Giải thuật PART RIPPER thực dựa vào phần mềm mã nguồn mở Weka [14] Hiện thử nghiệm chưa so sánh tốc độ thực thi giải thuật MMAC cài đặt C# cịn Weka Java Bảng 4.4 mơ tả tỉ lệ xác phân loại PART, RIPPER, CBA MMAC 16 liệu Weka với MinSupp=3% MinConf=30% cho thấy MMAC có độ xác cao 43 Bảng 4.4: Độ xác phân loại PART, RIPPER, CBA MMAC Dataset PART RIPPER CBA MMAC Autos 61.64 56.09 35.79 67.47 Balance-scale 77.28 71.68 74.58 86.10 Breast-cancer 71.32 70.97 69.66 72.10 Breast-w 93.84 95.42 94.68 97.26 Contact-lenses 83.33 75.00 66.67 79.69 Heart-c 79.86 81.51 78.54 81.51 Hypothyroid 92.28 92.28 92.29 92.23 kr-vs-kp 71.93 70.24 42.95 68.75 Lymph 76.35 77.70 75.07 82.20 Mushroom 99.81 99.90 98.92 99.78 Primary-tumor 39.52 36.28 36.49 43.92 Sick 98.62 98.22 93.88 93.87 tic-tac-toe 94.46 97.80 98.60 99.29 Vote 87.81 87.35 87.39 89.21 Weather 57.14 64.28 85.00 71.66 Zoo 91.08 85.14 83.18 96.15 Các độ đo đánh giá MMAC áp dụng nhằm so sánh độ xác số lượng luật rút trích 44 84 82.57 82 Accuracy 80 79.77 78.74 78 75.86 76 74 72 PART RIPPER CBA MMAC Hình 4.2: Độ xác trung bình thuật toán PART, RIPPER, CBA MMAC dựa 16 liệu Weka khác 45 Bảng 4.5: Số phân loại thuật toán PART, RIPPER, CBA MMAC Dataset PART RIPPER CBA MMAC Balloon 2 3 Breast-cancer 20 45 71 Contact-lenses Heart-c 11 44 72 Heart-s 22 31 Led7 31 19 50 192 Lymph 38 48 Mushroom 18 11 45 48 Primary-tumor 22 28 Sick 10 17 tic-tac-toe 50 14 25 26 Vote 13 40 84 46 60 52.42 Average # of rules 50 40 27.42 30 20 16.17 10 6.25 PART RIPPER CBA MMAC Hình 4.3: Số lượng trung bình phân loại xác định thuật toán PART, RIPPER, CBA MMAC Hình 4.3 cho thấy MMAC ln rút trích nhiều luật so với giải thuật PART CBA, MMAC có bước thực học đệ qui liệu huấn luyện chưa phân loại 4.5 Kết luận Như vậy, sau tiến hành thực nghiệm số liệu Weka ta nhận thấy kết phân loại liệu MMAC có độ xác cao so với phân loại PART, RIPPER, CBA số lượng phân loại MMAC cao so với thuật toán so sánh 47 Chương 5: KẾT LUẬN Luận văn tập trung nghiên cứu lý thuyết áp dụng kỹ thuật phân loại đa nhãn, đa lớp dựa vào luật kết hợp liệu Weka Trong khuôn khổ luận văn chưa áp dụng cụ thể vào sở liệu thực tế nào, dừng lại liệu Weka nên kết thực nghiệm chưa mang ý nghĩa thực tế Tuy nhiên có số kết ban đầu phát tri thức từ liệu Những kết mà luận văn thực hiện: o Về lý thuyết, luận văn tập trung vào việc nghiên cứu, phân tích đánh giá thuật toán phân loại đa nhãn, đa lớp dựa vào luật kết hợp o Về thực tiễn, luận văn đưa kết cài đặt thử nghiệm liệu Weka bao gồm kết phân loại Qua trình thực nghiệm nghiên cứu lý thuyết đưa số kết luận sau: 5.1 Ưu điểm MMAC phân loại đa nhãn, đa lớp, theo thể gắn kết với danh sách có thứ tự nhãn phân loại Những hướng tiếp cận phân loại dựa vào luật kết hợp truyền thống thường phải duyệt liệu huấn luyện nhiều lần để tìm tập phổ biến MMAC cần duyệt liệu huấn luyện lần MMAC đưa kỹ thuật thứ tự luật cách chi tiết nhằm giảm tối thiểu việc ngẫu nhiên chọn hai hay nhiều luật qui trình thứ tự luật 48 MMAC đưa khái niệm học đệ qui nhằm rút trích nhiều luật giảm tối thiểu vai trò phân loại mặc định phân loại đối tượng kiểm tra 5.2 Nhược điểm Giai đoạn học đệ quy thuật tốn MMAC địi hỏi phải quét lặp lặp lại phận tập liệu huấn luyện Mỗi lần học đệ quy MMAC phải thực bước (tìm tập phổ biến, phân rã, xếp loại bỏ luật thừa) dẫn đến công việc xử lý lớn liệu huấn luyện lớn số ứng viên luật phân loại lớn 5.3 Hướng phát triển Trong tương lai, tiếp tục nghiên cứu, so sánh cải thiện phương pháp để áp dụng cho thuộc tính có giá trị liên tục cho kết phân loại có độ xác cao 49 TÀI LIỆU THAM KHẢO [1] B Liu, W Hsu and Y Ma Integrating Classification and association rule mining In KDD ’98, New York, NY, Aug 1998 [2] CBA: http://www.comp.nus.edu.sg/~dm2/p_download.html [3] F Thabtah, P Cowling , and Y Peng MMAC: A New Multi-class, Multi-label Associative Classification Approach Brighton, UK : To be Appear in theProceedings of the Fourth IEEE International Conference on Data Mining (ICDM ‘04), November 2004 [4] J Furnkranz Separate-and-conquer rule learning Technical Report TR96-25, Austrian Research Institute for Artificial Intelligence, Vienna, 1996 [5] Jiawei Han, Micheline Kamber, Jian Pei Data Mining Concepts and Techniques, Third Edition s.l : The Morgan Kaufmann Series in Data Management Systems, Morgan Kaufmann Publishers, July 2011 p 329 [6] J.R Quinlan C4.5: Programs for Machine Learning San Mateo, CA: Morgan Kaufmann, San Francisco, 1993 [7] J.R Quinlan Generating production rules from decision trees In Proceeding of the 10th International Joint Conferences on Artificial Intelligence, Morgan Kaufmann, San Francisco, 1987, pp 304-307 [8] J.R Quinlan Induction of Decision Trees Machine Learning 1, Mar 1986 pp 81-106 [9] Merz, C J and Murphy, P M.UCI Repository of Machine Learning Databases Irvine, CA : University of California, Department of Information and Computer Science, 1996 50 [10] M J Zaki, S Parthasarathy, M Ogihara, and W Li New algorithms for fast discovery of association rules In Proceedings of the 3rd KDD Conference, Aug 1997, pp.283-286 [11] R Duda, P Hart, and D Strok Pattern classification.Wiley, 2001 [12] R Schapire and Y Singer, "BoosTexter:A boosting-based system for text categorization", Machine Learning, vol 39, no 2/3, 2000, pp 135-168 [13] T Joachims Text categorisation with Support Vector Machines: Learning with many relevant features In Proceeding Tenth European Conference on Machine Learning, 1998, pp 137-142 [14] T S Lim, W Y Loh and Y S Shih A comparison of prediction accuracy, complexity and training time of thirtythree old and new classification algorithms Machine Learning, 39, 2000 [15] W Li, J Han and J Pei CMAR: Accurate and efficient classification based on multiple class association rule In ICDM’01, San Jose, CA, Nov 2001, pp 369-376 [16] Weka: Data Mining Software in Java: http://www.cs.waikato.ac.nz/ml/weka [17] William W.Cohen Fast Effective Rule Induction Machine Learning: Proceedings of the Twelfth International Conference, 1995 [18] X Yin and J Han CPAR: Classification based on predictive association rule In SDM 2003, San Francisco, CA, May 2003 [19] Y Yang An evaluation of statistical approaches to text categorisation Technical Report CMU-CS-97-127, Carnegie Mellon University, April 1997 51 [20] Yongqiang Cao, Jianhong Wu Projective ART for clustering data sets in high dimensional spaces Elsevier Science Ltd, Neural Networks 15, 2002 pp 105-120 [21] Zhang, M.-L., Zhou, Z.-H., A k-nearest neighbor based algorithm for multi-label classification Beijing, China: Proceeding of the 1st IEE International Conference on Granular Computing (GrC 2005), 2005 pp 718-721 ... đề phân lớp phân lớp dựa vào định, phân lớp dựa vào mạng nơ ron, phân lớp dựa vào lý thuyết xác suất Bayes, phân lớp dựa vào lý thuyết tập thô, phân lớp dựa vào luật kết hợp, phân lớp dựa vào. .. loại phân loại dựa vào định, phân loại dựa vào mạng nơ ron, phân loại dựa vào lý thuyết xác suất Bayes, phân loại dựa vào lý thuyết tập thô, phân loại dựa vào luật kết hợp, phân loại dựa vào thống... Bộ học phân lớp Tập DL kiểm tra Mơ hình Luật kết hợp: {…} → {nhãn phân lớp} {…} → {nhãn phân lớp} Hình 3.3: Phân lớp dựa vào luật kết hợp [5] Hướng tiếp cận phân loại dựa vào luật kết hợp tìm