Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 65 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
65
Dung lượng
617,66 KB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM PHẠM XUÂN DŨNG PHÂN LOẠI ĐA NHÃN, ĐA LỚP DỰA VÀO LUẬT KẾT HỢP LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ Thông tin Mã ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS. TS. LÊ HOÀI BẮC TP. HỒ CHÍ MINH, tháng 9 năm 2014 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM Cán bộ hướng dẫn khoa học: PGS. TS. Lê Hoài Bắc (Ghi rõ họ, tên, học hàm, học vị và chữ ký) Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP. HCM ngày 09 tháng 11 năm 2014 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ Luận văn Thạc sĩ) TT Họ và tên Chức danh Hội đồng 1 PGS. TSKH. Nguyễn Xuân Huy Chủ tịch 2 TS. Võ Đình Bảy Phản biện 1 3 TS. Lư Nhật Vinh Phản biện 2 4 TS. Vũ Thanh Hiền Ủy viên 5 TS. Lê Mạnh Hải Ủy viên, Thư ký Xác nhận của Chủ tịch Hội đồng đánh giá Luận sau khi Luận văn đã được sửa chữa (nếu có). Chủ tịch Hội đồng đánh giá LV TRƯỜNG ĐH CÔNG NGHỆ TP. HCM PHÒNG QLKH – ĐTSĐH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự do – Hạnh phúc TP. HCM, ngày 27 tháng 09 năm 2014 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Phạm Xuân Dũng Giới tính: Nam Ngày, tháng, năm sinh: 22/10/1984 Nơi sinh: Phú Yên Chuyên ngành: Công nghệ thông tin MSHV: 1241860002 I- Tên đề tài: PHÂN LOẠI ĐA NHÃN, ĐA LỚP DỰA VÀO LUẬT KẾT HỢP II- Nhiệm vụ và nội dung: Nghiên cứu phương pháp phân loại đa nhãn đa lớp dựa vào luật kết hợp. Thực hiện thuật toán và xác định tính hiệu quả của phương pháp này, đồng thời so sánh với các thuật toán khác. III- Ngày giao nhiệm vụ: 02/04/2014 IV- Ngày hoàn thành nhiệm vụ: 27/09/2014 V- Cán bộ hướng dẫn: (Ghi rõ học hàm, học vị, họ, tên) PGS. TS. LÊ HOÀI BẮC CÁN BỘ HƯỚNG DẪN KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên và chữ ký) (Họ tên và chữ ký) PGS. TS. LÊ HOÀI BẮC i LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này đã được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc. Học viên thực hiện Luận văn (Ký và ghi rõ họ tên) Phạm Xuân Dũng ii LỜI CẢM ƠN Trước tiên tôi xin chân thành cảm ơn thầy giáo PGS.TS. Lê Hoài Bắc đã tận tình hướng dẫn, chỉ bảo tôi trong thời gian qua. Tôi xin bày tỏ lòng biết ơn tới các thầy cô giáo trong khoa Công nghệ Thông tin nói riêng và trường Đại học Công nghệ Tp.HCM nói chung đã dạy bảo, cung cấp những kiến thức quý báu cho tôi trong suốt quá trình học tập và nghiên cứu tại trường. Tôi cũng xin gửi lời cảm ơn tới gia đình, bạn bè, những người luôn cổ vũ, quan tâm và giúp đỡ tôi trong suốt thời gian học tập cũng như làm luận văn. Do thời gian và kiến thức có hạn nên luận văn chắc không tránh khỏi những thiếu sót nhất định. Tôi rất mong nhận được những sự góp ý quý báu của thầy cô và các bạn. Hồ Chí Minh, 09-2014 Phạm Xuân Dũng iii TÓM TẮT Sự phát triển của công nghệ thông tin kéo theo sự bùng nổ thông tin. Các kho tài liệu ngày càng lớn và chứa nhiều tài liệu thuộc nhiều loại khác nhau. Rõ ràng nhiệm vụ phân loại các tài liệu này theo từng chuyên mục là một việc hết sức cần thiết. Từ đó mở ra khả năng phân loại các tài liệu mới vào các phân lớp đã biết. Phân lớp và Tìm luật kết hợp là hai nhiệm vụ quan trọng trong khai thác dữ liệu. Việc phân lớp nhằm mục đích dự đoán một cách chính xác nhất có thể có phân lớp của một đối tượng chưa biết. Việc phân lớp và tìm luật kết hợp là tương tự nhau ngoại trừ đối với phân lớp thì mục tiêu dự đoán chỉ là một thuộc tính phân lớp trong khi luật kết hợp có khả năng suy diễn đối với một tập các thuộc tính khác nhau. Đã có nhiều nghiên cứu giải quyết vấn đề phân lớp như phân lớp dựa vào cây quyết định, phân lớp dựa vào mạng nơ ron, phân lớp dựa vào lý thuyết xác suất Bayes, phân lớp dựa vào lý thuyết tập thô, phân lớp dựa vào luật kết hợp, phân lớp dựa vào thống kê… Hướng tiếp cận sử dụng luật kết hợp trong việc phân loại dữ liệu lần đầu tiên được đưa ra vào năm 1998 và đã đạt được nhiều kết quả khả quan so với hướng tiếp cận truyền thống sử dụng cây quyết định Quinlan. Đã có một số bộ phân lớp dựa vào luật kết hợp khá chính xác như CBA, CMAR. Tuy nhiên, các bộ phân lớp này chỉ gắn một thuộc tính phân lớp với mỗi luật kết hợp, vì thế các luật kết hợp này thường không thích hợp cho việc phân loại đa lớp. Luận văn sẽ tập trung vào việc nghiên cứu, phân tích và đánh giá thuật toán phân loại đa nhãn, đa lớp dựa vào luật kết hợp (Multi-class Multi-label Associative Classification – MMAC) để giải quyết vấn đề. Theo đó một đối tượng không chỉ được gán nhãn phân lớp với một lớp duy nhất mà có khả năng được gán nhãn với nhiều phân loại khác nhau, các nhãn này được sắp xếp theo một thứ tự nhất định. Bên cạnh đó luận văn còn trình bày 3 đơn vị đo lường độ chính xác của việc phân iv loại dựa vào luật kết hợp nhằm đánh giá độ chính xác của MMAC so với các bộ phân loại hiện có. Một cách tiếp cận mới đối với phân loại đa nhãn, đa lớp đã được đề xuất có nhiều đặc điểm khác biệt so với truyền thống và phương pháp phân loại dựa vào luật kết hợp ở chỗ: (1) MMAC là một bộ phân loại đa nhãn, đa lớp, theo đó mỗi thể hiện được gắn kết với một danh sách có thứ tự các nhãn phân loại. (2) Những hướng tiếp cận phân loại dựa vào luật kết hợp truyền thống thường phải duyệt dữ liệu huấn luyện nhiều lần để tìm các tập phổ biến trong khi đó MMAC chỉ cần duyệt dữ liệu huấn luyện một lần. (3) MMAC đưa ra một kỹ thuật sắp thứ tự luật một cách chi tiết nhằm giảm tối thiểu việc ngẫu nhiên chọn hai hay nhiều luật trong qui trình sắp thứ tự luật. (4) MMAC đưa ra khái niệm học đệ qui nhằm rút trích nhiều luật hơn và giảm tối thiểu vai trò của phân lớp mặc định (default class) khi phân lớp các đối tượng kiểm tra. Nghiên cứu thực hiện trên 16 bộ dữ liệu Weka đã cho thấy phương pháp phân loại đa nhãn, đa lớp dựa vào luật kết hợp có hiệu quả, phù hợp và có tỷ lệ phân loại cao hơn các phương pháp cây quyết định (PART), thuật toán CBA và RIPPER. Định hướng trong tương lai sẽ dự kiến mở rộng phương pháp để xử lý dữ liệu liên tục. v ABSTRACT The development of information technology leads to the information explosion. The increasingly large document repositories, and contains many documents of different types. Clearly the task of document classification for each category is an essential work. Since then opens the possibility of classifying new documents classified in the know. Classification and Finding association rules are two important tasks in data mining. The classification for the purpose of accurately predicting possible classification of an unknown object. The classification and to find association rules are similar except for the target classification predicts only a subclass properties while association rules are capable of inference for a different set of attributes. There have been many studies to solve the problem as subclass classification based on decision trees, classification based on neural networks, classification based on Bayesian probability theory, classification based on rough set theory, classification based on association rules, classification based on statistical The approach uses association rules to classify data was first launched in 1998 and has achieved many positive results compared to the traditional approach using decision trees Quinlan. There have been a number of classification based on association rule fairly accurate as CBA, CMAR. However, the classification is only an attribute associated with each classification association rules, hence the association rules are usually not suitable for multi-class classification. This thesis will focus on research, analysis and evaluation algorithm multi- class multi-label classification based on association rules (Multi-Class, Multi-Label Associative Classification - MMAC) to solve the problem. Accordingly, an object not only labeled classification with a single class that is likely to be labeled with many different classification, the labels are arranged in a certain order. Besides, the thesis presents three units of measurement accuracy of the classification based on vi association rules in order to assess the accuracy of the MMAC compared with the existing classification. A new approach for multi-class multi-label classification has been proposed many different characteristics compared to traditional classification methods based on association rules in place: (1) MMAC is a multi-classifier multi-layer label, in which each instance is associated with an ordered list of classification labels. (2) The approach to classification based on association rules have traditionally approved training data multiple times to find common set while browsing MMAC just once training data. (3) MMAC gives a sort of technical detail rules to minimize randomly select two or more law in law ordering process. (4) MMAC introduces the concept of recursive learning to extract many more law and minimize the role of the default classification (default class) when classifying test subjects. Research carried out on 16 Weka data sets show that multi-class classification method based on multi-label association rules is effective, consistent and high classification rate than the decision tree method (PART), CBA and RIPPER algorithm. Orientation future plans to expand the approach to handle continuous data. vii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii TÓM TẮT iii ABSTRACT v MỘT SỐ TỪ VIẾT TẮT VÀ THUẬT NGỮ THƯỜNG DÙNG ix DANH MỤC BẢNG x DANH MỤC HÌNH xi Chương 1: TỔNG QUAN 1 1.1 Giới thiệu 1 1.2 Mục tiêu nghiên cứu 2 1.3 Đối tượng nghiên cứu 2 1.4 Phạm vi nghiên cứu 2 1.5 Bố cục luận văn 3 Chương 2: CÁC NGHIÊN CỨU LIÊN QUAN 4 Chương 3: PHÂN LOẠI ĐA NHÃN, ĐA LỚP DỰA VÀO LUẬT KẾT HỢP 9 3.1 Phân loại là gì? 9 3.2 Các vấn đề quan tâm của phân loại 11 3.3 Phân loại đa nhãn (Multi-label Classification) 12 3.4 Luật kết hợp 13 3.5 Một số định nghĩa 14 3.6 Phân loại dựa vào luật kết hợp 15 3.7 Phương pháp phân loại đa nhãn, đa lớp dựa vào luật kết hợp (MMAC) 18 3.8 Độ đo lượng giá 32 [...]... phương pháp phân loại đa nhãn, đa lớp dựa vào luật kết hợp và 3 đơn vị đo lường độ chính xác của việc phân loại dựa vào luật kết hợp nhằm đánh giá độ chính xác của MMAC so với các bộ phân loại hiện có Chương 4: trình bày một số kết quả đã đạt được khi tiến hành áp dụng phương pháp phân loại đa nhãn, đa lớp dựa vào luật kết hợp trên bộ dữ liệu Weka 4 Chương 2: CÁC NGHIÊN CỨU LIÊN QUAN Phân loại là một... thô, phân loại dựa vào luật kết hợp, phân loại dựa vào thống kê… Trong những năm gần đây, hướng tiếp cận sử dụng luật kết hợp trong việc phân loại dữ liệu, gọi là phân loại kết hợp, đã được đề xuất và đã đạt được nhiều kết 2 quả khả quan so với hướng tiếp cận truyền thống sử dụng cây quyết định Quinlan Đã có một số bộ phân loại dựa vào luật kết hợp khá chính xác như CBA, CMAR Tuy nhiên, các bộ phân loại. .. liệu Phân loại và tìm luật kết hợp là tương tự nhau, ngoại trừ đối với phân loại thì mục tiêu dự đoán chỉ là một thuộc tính phân loại trong khi đó luật kết hợp có khả năng suy diễn đối với một tập các thuộc tính khác nhau Đã có nhiều nghiên cứu giải quyết vấn đề phân loại như phân loại dựa vào cây quyết định, phân loại dựa vào mạng nơ ron, phân loại dựa vào lý thuyết xác suất Bayes, phân loại dựa vào. .. sau đó sẽ được sử dụng để rút luật kết hợp phân loại có đặc điểm vế phải chỉ bao gồm thuộc tính phân loại Các luật kết hợp phân loại này phải thỏa ngưỡng MinConf và phân loại được ít nhất một thể hiện trong dữ liệu huấn luyện 3.7 Phương pháp phân loại đa nhãn, đa lớp dựa vào luật kết hợp (MMAC) Giải thuật MMAC [3] đưa ra bao gồm 3 bước: tạo luật kết hợp, học đệ qui và phân loại Bước 1 duyệt dữ liệu huấn... 3.6 Phân loại dựa vào luật kết hợp "Khai thác luật kết hợp có thể được sử dụng để phân loại không?" Khai thác luật kết hợp là một lĩnh vực quan trọng và có tính thiết thực cao của nghiên cứu khai thác dữ liệu Các kỹ thuật khai thác dữ liệu áp dụng khai thác luật kết hợp cho các bài toán phân loại đã phát triển Trong phần này, ta nghiên cứu phân loại dựa trên sự kết hợp Một phương pháp phân loại dựa. .. thuộc tính phân loại với mỗi luật kết hợp, vì thế các luật kết hợp này thường không thích hợp cho việc phân loại đa lớp 1.2 Mục tiêu nghiên cứu Luận văn sẽ tập trung vào việc nghiên cứu, phân tích và đánh giá thuật toán phân loại đa nhãn, đa lớp dựa vào luật kết hợp (Multi-class Multi-label Associative Classification – MMAC) để giải quyết vấn đề Theo đó một đối tượng không chỉ được gán nhãn phân loại với... định Quinlan [6] Kể từ đó việc phân loại kết hợp đã được mở ra Bộ phân loại chính xác của thuật toán phân loại kết hợp đã được xác nhận trong 10 năm qua thông qua các nghiên cứu và thực nghiệm Đã có một số phương pháp phân loại dựa vào luật kết hợp khá chính xác như CBA [1], CMAR [15] và CPAR [18] Thuật toán phân loại kết hợp đầu tiên CBA tạo ra các phân loại các luật kết hợp bằng cách sử dụng phương... được phân loại Ở giai đoạn này, một thể hiện chưa được phân loại bất kỳ sẽ được chọn để làm phân loại mặc định Khi quá trình học hoàn tất, các tập luật được rút trích sẽ được tổng hợp lại để hình thành nên tập luật kết hợp đa nhãn cho bộ phân loại Vấn đề đặt ra là làm sao sắp xếp các nhãn phân loại này trong luật kết hợp 3.7.3 Phân loại 3.7.3.1 Sắp xếp nhãn phân loại Định nghĩa 9: Một nhãn phân loại. .. pháp phân loại đa nhãn đa lớp Từ đó tập trung nghiên cứu phương pháp phân loại đa nhãn đa lớp dựa vào luật kết hợp Thực hiện thuật toán và xác định tính hiệu quả của phương pháp này bằng việc đánh giá độ chính xác của bộ phân loại, đồng thời so sánh với các kết quả của thuật toán PART, RIPPER và CBA Kết quả thực nghiệm cho thấy, độ chính xác và số lượng bộ phân loại sử dụng phương pháp phân loại đa nhãn... No Married 80K ? 7 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes 10 60K 1 0 DL Huấn Luyện Bộ học phân lớp Tập DL kiểm tra Mô hình Luật kết hợp: {…} → {nhãn phân lớp} {…} → {nhãn phân lớp} Hình 3.3: Phân lớp dựa vào luật kết hợp [5] Hướng tiếp cận phân loại dựa vào luật kết hợp đầu tiên sẽ tìm tất cả các tập phần tử phổ biến thỏa MinSupp trong tập dữ liệu huấn luyện Nếu phần tử phổ biến . đề phân lớp như phân lớp dựa vào cây quyết định, phân lớp dựa vào mạng nơ ron, phân lớp dựa vào lý thuyết xác suất Bayes, phân lớp dựa vào lý thuyết tập thô, phân lớp dựa vào luật kết hợp, phân. đề phân loại như phân loại dựa vào cây quyết định, phân loại dựa vào mạng nơ ron, phân loại dựa vào lý thuyết xác suất Bayes, phân loại dựa vào lý thuyết tập thô, phân loại dựa vào luật kết hợp, . PHÂN LOẠI ĐA NHÃN, ĐA LỚP DỰA VÀO LUẬT KẾT HỢP 9 3.1 Phân loại là gì? 9 3.2 Các vấn đề quan tâm của phân loại 11 3.3 Phân loại đa nhãn (Multi-label Classification) 12 3.4 Luật kết hợp