Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 63 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
63
Dung lượng
600,77 KB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - PHẠM XUÂN DŨNG PHÂNLOẠIĐANHÃN,ĐALỚPDỰAVÀOLUẬTKẾTHỢP LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ Thông tin Mã ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS TS LÊ HOÀI BẮC TP HỒ CHÍ MINH, tháng năm 2014 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM Cán hướng dẫn khoa học: PGS TS Lê Hoài Bắc (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 09 tháng 11 năm 2014 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) TT Họ tên Chức danh Hội đồng PGS TSKH Nguyễn Xuân Huy Chủ tịch TS Võ Đình Bảy Phản biện TS Lư Nhật Vinh Phản biện TS Vũ Thanh Hiền TS Lê Mạnh Hải Ủy viên Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƯỜNG ĐH CÔNG NGHỆ TP HCM PHÒNG QLKH – ĐTSĐH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc TP HCM, ngày 27 tháng 09 năm 2014 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Phạm Xuân Dũng Giới tính: Nam Ngày, tháng, năm sinh: 22/10/1984 Nơi sinh: Phú Yên Chuyên ngành: Công nghệ thông tin MSHV: 1241860002 I- Tên đề tài: PHÂNLOẠIĐANHÃN,ĐALỚPDỰAVÀOLUẬTKẾTHỢP II- Nhiệm vụ nội dung: Nghiên cứu phương pháp phânloạiđa nhãn đalớpdựavàoluậtkếthợp Thực thuật toán xác định tính hiệu phương pháp này, đồng thời so sánh với thuật toán khác III- Ngày giao nhiệm vụ: 02/04/2014 IV- Ngày hoàn thành nhiệm vụ: 27/09/2014 V- Cán hướng dẫn: (Ghi rõ học hàm, học vị, họ, tên) PGS TS LÊ HOÀI BẮC CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) PGS TS LÊ HOÀI BẮC KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa công bố công trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thông tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn (Ký ghi rõ họ tên) Phạm Xuân Dũng LỜI CẢM ƠN Trước tiên xin chân thành cảm ơn thầy giáo PGS.TS Lê Hoài Bắc tận tình hướng dẫn, bảo thời gian qua Tôi xin bày tỏ lòng biết ơn tới thầy cô giáo khoa Công nghệ Thông tin nói riêng trường Đại học Công nghệ Tp.HCM nói chung dạy bảo, cung cấp kiến thức quý báu cho suốt trình học tập nghiên cứu trường Tôi xin gửi lời cảm ơn tới gia đình, bạn bè, người cổ vũ, quan tâm giúp đỡ suốt thời gian học tập làm luận văn Do thời gian kiến thức có hạn nên luận văn không tránh khỏi thiếu sót định Tôi mong nhận góp ý quý báu thầy cô bạn Hồ Chí Minh, 09-2014 Phạm Xuân Dũng TÓM TẮT Sự phát triển công nghệ thông tin kéo theo bùng nổ thông tin Các kho tài liệu ngày lớn chứa nhiều tài liệu thuộc nhiều loại khác Rõ ràng nhiệm vụ phânloại tài liệu theo chuyên mục việc cần thiết Từ mở khả phânloại tài liệu vàophânlớp biết Phânlớp Tìm luậtkếthợp hai nhiệm vụ quan trọng khai thác liệu Việc phânlớp nhằm mục đích dự đoán cách xác có phânlớp đối tượng chưa biết Việc phânlớp tìm luậtkếthợp tương tự ngoại trừ phânlớp mục tiêu dự đoán thuộc tính phânlớpluậtkếthợp có khả suy diễn tập thuộc tính khác Đã có nhiều nghiên cứu giải vấn đề phânlớpphânlớpdựavào định, phânlớpdựavào mạng nơ ron, phânlớpdựavào lý thuyết xác suất Bayes, phânlớpdựavào lý thuyết tập thô, phânlớpdựavàoluậtkết hợp, phânlớpdựavào thống kê… Hướng tiếp cận sử dụng luậtkếthợp việc phânloại liệu lần đưavào năm 1998 đạt nhiều kết khả quan so với hướng tiếp cận truyền thống sử dụng định Quinlan Đã có số phânlớpdựavàoluậtkếthợp xác CBA, CMAR Tuy nhiên, phânlớp gắn thuộc tính phânlớp với luậtkết hợp, luậtkếthợp thường không thích hợp cho việc phânloạiđalớp Luận văn tập trung vào việc nghiên cứu, phân tích đánh giá thuật toán phânloạiđanhãn,đalớpdựavàoluậtkếthợp (Multi-class Multi-label Associative Classification – MMAC) để giải vấn đề Theo đối tượng không gán nhãn phânlớp với lớp mà có khả gán nhãn với nhiều phânloại khác nhau, nhãn xếp theo thứ tự định Bên cạnh luận văn trình bày đơn vị đo lường độ xác việc phânloạidựavàoluậtkếthợp nhằm đánh giá độ xác MMAC so với phânloại có Một cách tiếp cận phânloạiđanhãn,đalớp đề xuất có nhiều đặc điểm khác biệt so với truyền thống phương pháp phânloạidựavàoluậtkếthợp chỗ: (1) MMAC phânloạiđanhãn,đa lớp, theo thể gắn kết với danh sách có thứ tự nhãn phânloại (2) Những hướng tiếp cận phânloạidựavàoluậtkếthợp truyền thống thường phải duyệt liệu huấn luyện nhiều lần để tìm tập phổ biến MMAC cần duyệt liệu huấn luyện lần (3) MMAC đưa kỹ thuật thứ tự luật cách chi tiết nhằm giảm tối thiểu việc ngẫu nhiên chọn hai hay nhiều luật qui trình thứ tự luật (4) MMAC đưa khái niệm học đệ qui nhằm rút trích nhiều luật giảm tối thiểu vai trò phânlớp mặc định (default class) phânlớp đối tượng kiểm tra Nghiên cứu thực 16 liệu Weka cho thấy phương pháp phânloạiđanhãn,đalớpdựavàoluậtkếthợp có hiệu quả, phù hợp có tỷ lệ phânloại cao phương pháp định (PART), thuật toán CBA RIPPER Định hướng tương lai dự kiến mở rộng phương pháp để xử lý liệu liên tục ABSTRACT The development of information technology leads to the information explosion The increasingly large document repositories, and contains many documents of different types Clearly the task of document classification for each category is an essential work Since then opens the possibility of classifying new documents classified in the know Classification and Finding association rules are two important tasks in data mining The classification for the purpose of accurately predicting possible classification of an unknown object The classification and to find association rules are similar except for the target classification predicts only a subclass properties while association rules are capable of inference for a different set of attributes There have been many studies to solve the problem as subclass classification based on decision trees, classification based on neural networks, classification based on Bayesian probability theory, classification based on rough set theory, classification based on association rules, classification based on statistical The approach uses association rules to classify data was first launched in 1998 and has achieved many positive results compared to the traditional approach using decision trees Quinlan There have been a number of classification based on association rule fairly accurate as CBA, CMAR However, the classification is only an attribute associated with each classification association rules, hence the association rules are usually not suitable for multi-class classification This thesis will focus on research, analysis and evaluation algorithm multiclass multi-label classification based on association rules (Multi-Class, Multi-Label Associative Classification - MMAC) to solve the problem Accordingly, an object not only labeled classification with a single class that is likely to be labeled with many different classification, the labels are arranged in a certain order Besides, the thesis presents three units of measurement accuracy of the classification based on association rules in order to assess the accuracy of the MMAC compared with the existing classification A new approach for multi-class multi-label classification has been proposed many different characteristics compared to traditional classification methods based on association rules in place: (1) MMAC is a multi-classifier multi-layer label, in which each instance is associated with an ordered list of classification labels (2) The approach to classification based on association rules have traditionally approved training data multiple times to find common set while browsing MMAC just once training data (3) MMAC gives a sort of technical detail rules to minimize randomly select two or more law in law ordering process (4) MMAC introduces the concept of recursive learning to extract many more law and minimize the role of the default classification (default class) when classifying test subjects Research carried out on 16 Weka data sets show that multi-class classification method based on multi-label association rules is effective, consistent and high classification rate than the decision tree method (PART), CBA and RIPPER algorithm Orientation future plans to expand the approach to handle continuous data 10 MỤC LỤC 49 Trong đánh giá chéo k-fold, liệu ban đầu phân chia ngẫu nhiên vào k tập riêng biệt ("các fold") S 1,S2, ,Sk, chúng có kích thước xấp xỉ Huấn luyện kiểm tra thực k lần Trong lần lặp thứ i, tập S i đóng vai trò tập kiểm tra tập lại dùng chung để huấn luyện phânloại Tức phânloại lần lặp huấn luyện tập S2,S3, ,Sk kiểm tra S1; phânloại lần lặp thứ huấn luyện tập S1,S3, ,Sk kiểm tra S 2, v.v Độ xác phânloại toàn số lượng phânloại xác từ k lần lặp chia cho tổng số lượng mẫu liệu ban đầu Trong đánh giá chéo phân tầng, fold phân tầng để phân bố lớp mẫu fold xấp xỉ phân bố lớp liệu ban đầu Nhìn chung, phân tầng đánh giá chéo 10-fold đề nghị để đánh giá độ xác phânloại (thậm chí khả tính toán cho phép sử dụng nhiều fold hơn) Sử dụng kỹ thuật để đánh giá độ xác phân loại, làm tăng tổng số lần tính toán, nhiên lại hữu ích cho việc lựa chọn phânloại 3.9.2 Độ xác có đủ để đánh giá phânloại hay không? Thêm vào độ xác, phânloại so phương diện tốc độ tráng kiện chúng (ví dụ, độ xác liệu nhiễu), khả mở rộng khả diễn dịch Khả mở rộng ước lượng cách đánh giá số lượng thao tác I/O cần có cho giải thuật phânloại cho trước tập liệu với kích thước tăng dần Trong toán phân loại, giả sử tất đối tượng phânloại nhất, tức mẫu huấn luyện thuộc lớp Như ta thảo luận trên, giải thuật phânloại sau so sánh theo độ xác chúng Tuy nhiên, tính đa dạng liệu sở liệu lớn, việc giả sử tất đối tượng phânloạihợp lý Hơn 50 nữa, giả định đối tượng thuộc nhiều lớp có khả xảy nhiều Việc trả lại xác suất phân bố lớp hữu ích việc trả lại nhãn lớp Các phép đo độ xác sau sử dụng heuristic dự đoán lần hai nhờ dự đoán lớp đánh giá xác thích hợp với lớp có khả thứ hay thứ hai Mặc dầu điều không nghiên cứu, mức độ phânloại đối tượng không Đây giải pháp đầy đủ 3.10 Kết luận Chương trình bày khái niệm phân loại, luậtkết hợp, bước phương pháp phânloạiđanhãn,đalớpdựavàoluậtkếthợp phương pháp đánh giá độ xác phânloại 51 Chương 4: THỬ NGHIỆM, ĐÁNH GIÁ, HƯỚNG PHÁT TRIỂN Chương đưakết cài đặt thử nghiệm phương pháp phânloạiđanhãn,đalớpdựavàoluậtkếthợp liệu Weka Error: Reference source not found đánh giá kết thực nghiệm 4.1 Thiết kế tổng thể Chương trình gồm khối chức sau: - Khối chức tiền xử lý - Khối chức phân cụm 4.1.1 Khối chức tiền xử lý Nhiệm vụ khối chức đọc liệu, xác định số mẫu, số thuộc tính, số lớp, giá trị thuộc tính mẫu liệu 4.1.2 Khối chức phânloại Khối chức tiến hành phânloại mẫu liệu Dữ liệu học có giám sát theo giải thuật MMAC Cuối kếthợpluậtphânloại tạo phânloạiđa nhãn Sau tạo phânloạiđa nhãn tiến hành xác định độ xác phânloại 4.2 Chuẩn bị liệu Dữ liệu đầu vào chương trình tập tin văn Attribute-Relation File Format (*.arff), gồm phần: ← Phần khai báo (header) 52 ← Phần liệu (data) 4.2.1 Tệp định dạng liệu • Phần khai báo: @relation @attribute @attribute … @attribute • Các kiểu liệu: Numeric Dữ liệu dạng số Ví dụ: @ATTRIBUTE name numeric Nominal Dữ liệu rời rạc Ví dụ: @ATTRIBUTE class {setosa, versicolor} String Dữ liệu chuỗi Ví dụ: @ATTRIBUTE name string Date Dữ liệu kiểu ngày Ví dụ: @ATTRIBUTE discovered date 53 Dữ liệu thiếu ký hiệu dấu chấm hỏi “?” • Phần liệu: Mỗi mẫu liệu đặt dòng, giá trị thuộc tính liệt kê theo thứ tự từ trái qua phải ngăn cách dấu phẩy “,” 4.2.2 Nguồn liệu Trong khuôn khổ luận văn, liệu Weka Error: Reference source not found sử dụng để thực nghiệm 4.3 Thiết kế chương trình Với khối chức liệu trên, chương trình thiết kế sau: Các thông tin: - Số lớp, tên lớp - Số thuộc tính, tên thuộc tính, kiểu thuộc tính hay giá trị rời rạc thuộc tính - Số mẫu, giá trị thuộc tính tên lớp mẫu Module GetData Tệp mẫu liệu Module Phânloại Hiển thị kếtKếtphânloại Hình 4.6: Thiết kế chương trình 4.4 Kết thực nghiệm đánh giá 4.4.1 Các bước tiến hành thực nghiệm • Phânloại liệu giải thuật MMAC 54 • Kếthợpluậtphânloại tạo phânloạiđanhãn, so sánh hiệu phânloại MMAC với kỹ thuật phânloại PART, RIPPER, CBA 4.4.2 Thực nghiệm 4.4.2.1 So sánh MMAC CBA Áp dụng CBA MMAC lên liệu huấn luyện Bảng 4.1 với MinSupp 20% MinConf 40% để chứng minh tính hiệu tập luật rút hai thuật toán Bảng 4.19: Dữ liệu huấn luyện RowIds 10 A1 Z1 Z1 Z1 Z1 Z2 Z2 Z2 Z1 Z2 Z3 A2 W1 W2 W1 W2 W1 W1 W3 W3 W4 W1 Single Class p1 p2 p2 p1 p2 p1 p2 p1 p1 p1 Bảng 4.2 liệt kê phânlớp tạo CBA bao gồm hai luật bao phủ thể huấn luyện (1, 2, 3, 4, 5, 6, 8, 10) Hai thể lại hình thành phânlớp mặc định bao phủ 20% toàn liệu Bảng 4.3 liệt kê phânlớp tạo MMAC liệu huấn luyện tìm nhiều CBA luật Những luật rút trích thứ tự tổng hợp lại thành phânloạiđanhãn,đalớp Trong ví dụ có hai luậtđa nhãn tạo ( A1, Z1) → p1 ∨ p ( A1, Z 2) → p1 ∨ p Bộ phânlớp MMAC bao phủ 10 thể huấn luyện phânlớp mặc định p1 chọn chiếm đa số liệu huấn luyện 55 Bảng 4.20: Bộ phânloại CBA RuleId default Frequent Item Z1 W1 Support 3/10 3/10 Confidence 3/5 3/5 Class Label p1 p1 p2 Bảng 4.21: Bộ phânloại MMAC RuleId 1a 1b default Frequent Item Z1 Z1 Z2 W1 Support 3/10 2/10 2/10 3/10 Confidence 3/5 2/5 2/4 3/5 Class Label p1 p2 p2 p1 p1 Khác với giải thuật CBA rút trích luậtđanhãn,luật MMAC tạo có khả sử dụng để phânloạiđalớp Thêm vào đó, phânlớp mặc định MMAC bao phủ 0% liệu huấn luyện chưa phân lớp, gây ảnh hưởng phânlớp liệu chưa biết có khả tác động đến độ xác phânlớp làm giảm tỉ lệ lỗi nói chung 4.4.2.2 Độ xác phânloại Thử nghiệm MMAC 16 liệu Weka khác so sánh độ xác với kỹ thuật phânloại PART, RIPPER CBA Phương pháp đánh giá chéo với 10-fold sử dụng để đánh giá giải thuật Vì phânloạiphânloạiđa nhãn nên độ đo Top-Label sử dụng nhằm bảo đảm tính công việc so sánh Tất thử nghiệm thực máy Intel Core i32.13 GHz Giải thuật PART RIPPER thực dựavàophần mềm mã nguồn mở Weka [14] Hiện thử nghiệm chưa so sánh tốc độ thực thi giải thuật MMAC cài đặt C# Weka Java 56 Bảng 4.4 mô tả tỉ lệ xác phânloại PART, RIPPER, CBA MMAC 16 liệu Weka với MinSupp=3% MinConf=30% cho thấy MMAC có độ xác cao 57 Bảng 4.22: Độ xác phânloại PART, RIPPER, CBA MMAC Dataset PART RIPPER CBA MMAC Autos 61.64 56.09 35.79 67.47 Balance-scale 77.28 71.68 74.58 86.10 Breast-cancer 71.32 70.97 69.66 72.10 Breast-w 93.84 95.42 94.68 97.26 Contact-lenses 83.33 75.00 66.67 79.69 Heart-c 79.86 81.51 78.54 81.51 Hypothyroid 92.28 92.28 92.29 92.23 kr-vs-kp 71.93 70.24 42.95 68.75 Lymph 76.35 77.70 75.07 82.20 Mushroom 99.81 99.90 98.92 99.78 Primary-tumor 39.52 36.28 36.49 43.92 Sick 98.62 98.22 93.88 93.87 tic-tac-toe 94.46 97.80 98.60 99.29 Vote 87.81 87.35 87.39 89.21 Weather 57.14 64.28 85.00 71.66 Zoo 91.08 85.14 83.18 96.15 Các độ đo đánh giá MMAC áp dụng nhằm so sánh độ xác số lượng luật rút trích Hình 4.7: Độ xác trung bình thuật toán PART, RIPPER, CBA MMAC dựa 16 liệu Weka khác 58 Bảng 4.23: Số phânloại thuật toán PART, RIPPER, CBA MMAC Dataset PART RIPPER CBA MMAC Balloon 2 3 Breast-cancer 20 45 71 Contact-lenses Heart-c 11 44 72 Heart-s 22 31 Led7 31 19 50 192 Lymph 38 48 Mushroom 18 11 45 48 Primary-tumor 22 28 Sick 10 17 tic-tac-toe 50 14 25 26 Vote 13 40 84 Hình 4.8: Số lượng trung bình phânloại xác định thuật toán PART, RIPPER, CBA MMAC Hình 4.3 cho thấy MMAC rút trích nhiều luật so với giải thuật PART CBA, MMAC có bước thực học đệ qui liệu huấn luyện chưa phânloại 4.5 Kết luận Như vậy, sau tiến hành thực nghiệm số liệu Weka ta nhận thấy kếtphânloại liệu MMAC có độ xác cao so với phânloại PART, RIPPER, CBA số lượng phânloại MMAC cao so với thuật toán so sánh 59 Chương 5: KẾT LUẬN Luận văn tập trung nghiên cứu lý thuyết áp dụng kỹ thuật phânloạiđanhãn,đalớpdựavàoluậtkếthợp liệu Weka Trong khuôn khổ luận văn chưa áp dụng cụ thể vào sở liệu thực tế nào, dừng lại liệu Weka nên kết thực nghiệm chưa mang ý nghĩa thực tế Tuy nhiên có số kết ban đầu phát tri thức từ liệu Những kết mà luận văn thực hiện: o Về lý thuyết, luận văn tập trung vào việc nghiên cứu, phân tích đánh giá thuật toán phânloạiđanhãn,đalớpdựavàoluậtkếthợp o Về thực tiễn, luận văn đưakết cài đặt thử nghiệm liệu Weka bao gồm kếtphânloại Qua trình thực nghiệm nghiên cứu lý thuyết đưa số kết luận sau: 5.1 Ưu điểm • MMAC phânloạiđanhãn,đa lớp, theo thể gắn kết với danh sách có thứ tự nhãn phânloại • Những hướng tiếp cận phânloạidựavàoluậtkếthợp truyền thống thường phải duyệt liệu huấn luyện nhiều lần để tìm tập phổ biến MMAC cần duyệt liệu huấn luyện lần • MMAC đưa kỹ thuật thứ tự luật cách chi tiết nhằm giảm tối thiểu việc ngẫu nhiên chọn hai hay nhiều luật qui trình thứ tự luật 60 • MMAC đưa khái niệm học đệ qui nhằm rút trích nhiều luật giảm tối thiểu vai trò phânloại mặc định phânloại đối tượng kiểm tra 5.2 Nhược điểm Giai đoạn học đệ quy thuật toán MMAC đòi hỏi phải quét lặp lặp lại phận tập liệu huấn luyện Mỗi lần học đệ quy MMAC phải thực bước (tìm tập phổ biến, phân rã, xếp loại bỏ luật thừa) dẫn đến công việc xử lý lớn liệu huấn luyện lớn số ứng viên luậtphânloại lớn 5.3 Hướng phát triển Trong tương lai, tiếp tục nghiên cứu, so sánh cải thiện phương pháp để áp dụng cho thuộc tính có giá trị liên tục cho kếtphânloại có độ xác cao 61 TÀI LIỆU THAM KHẢO [1] B Liu, W Hsu and Y Ma Integrating Classification and association rule mining In KDD ’98, New York, NY, Aug 1998 [2] CBA: http://www.comp.nus.edu.sg/~dm2/p_download.html [3] F Thabtah, P Cowling , and Y Peng MMAC: A New Multi-class, Multi-label Associative Classification Approach Brighton, UK : To be Appear in theProceedings of the Fourth IEEE International Conference on Data Mining (ICDM ‘04), November 2004 [4] J Furnkranz Separate-and-conquer rule learning Technical Report TR96-25, Austrian Research Institute for Artificial Intelligence, Vienna, 1996 [5] Jiawei Han, Micheline Kamber, Jian Pei Data Mining Concepts and Techniques, Third Edition s.l : The Morgan Kaufmann Series in Data Management Systems, Morgan Kaufmann Publishers, July 2011 p 329 [6] J.R Quinlan C4.5: Programs for Machine Learning San Mateo, CA: Morgan Kaufmann, San Francisco, 1993 [7] J.R Quinlan Generating production rules from decision trees In Proceeding of the 10th International Joint Conferences on Artificial Intelligence, Morgan Kaufmann, San Francisco, 1987, pp 304-307 [8] J.R Quinlan Induction of Decision Trees Machine Learning 1, Mar 1986 pp 81-106 [9] Merz, C J and Murphy, P M.UCI Repository of Machine Learning Databases Irvine, CA : University of California, Department of Information and Computer Science, 1996 62 [10] M J Zaki, S Parthasarathy, M Ogihara, and W Li New algorithms for fast discovery of association rules In Proceedings of the 3rd KDD Conference, Aug 1997, pp.283-286 [11] R Duda, P Hart, and D Strok Pattern classification.Wiley, 2001 [12] R Schapire and Y Singer, "BoosTexter:A boosting-based system for text categorization", Machine Learning, vol 39, no 2/3, 2000, pp 135-168 [13] T Joachims Text categorisation with Support Vector Machines: Learning with many relevant features In Proceeding Tenth European Conference on Machine Learning, 1998, pp 137-142 [14] T S Lim, W Y Loh and Y S Shih A comparison of prediction accuracy, complexity and training time of thirtythree old and new classification algorithms Machine Learning, 39, 2000 [15] W Li, J Han and J Pei CMAR: Accurate and efficient classification based on multiple class association rule In ICDM’01, San Jose, CA, Nov 2001, pp 369-376 [16] Weka: Data Mining Software in Java: http://www.cs.waikato.ac.nz/ml/weka [17] William W.Cohen Fast Effective Rule Induction Machine Learning: Proceedings of the Twelfth International Conference, 1995 [18] X Yin and J Han CPAR: Classification based on predictive association rule In SDM 2003, San Francisco, CA, May 2003 [19] Y Yang An evaluation of statistical approaches to text categorisation Technical Report CMU-CS-97-127, Carnegie Mellon University, April 1997 63 [20] Yongqiang Cao, Jianhong Wu Projective ART for clustering data sets in high dimensional spaces Elsevier Science Ltd, Neural Networks 15, 2002 pp 105-120 [21] Zhang, M.-L., Zhou, Z.-H., A k-nearest neighbor based algorithm for multi-label classification Beijing, China: Proceeding of the 1st IEE International Conference on Granular Computing (GrC 2005), 2005 pp 718-721 ... đề phân lớp phân lớp dựa vào định, phân lớp dựa vào mạng nơ ron, phân lớp dựa vào lý thuyết xác suất Bayes, phân lớp dựa vào lý thuyết tập thô, phân lớp dựa vào luật kết hợp, phân lớp dựa vào. .. loại phân loại dựa vào định, phân loại dựa vào mạng nơ ron, phân loại dựa vào lý thuyết xác suất Bayes, phân loại dựa vào lý thuyết tập thô, phân loại dựa vào luật kết hợp, phân loại dựa vào thống... MSHV: 1241860002 I- Tên đề tài: PHÂN LOẠI ĐA NHÃN, ĐA LỚP DỰA VÀO LUẬT KẾT HỢP II- Nhiệm vụ nội dung: Nghiên cứu phương pháp phân loại đa nhãn đa lớp dựa vào luật kết hợp Thực thuật toán xác định