Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 66 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
66
Dung lượng
1,81 MB
Nội dung
1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ NGUYỄN THỊ CHĂM MỘT LỚP THUẬT TỐN BAYES PHÂN LỚP ĐA NHÃN VÀ ÁP DỤNG VÀO PHÂN LỚP VĂN BẢN ĐA NHÃN LĨNH VỰC ĐIỆN TỬ LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2012 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ NGUYỄN THỊ CHĂM MỘT LỚP THUẬT TỐN BAYES PHÂN LỚP ĐA NHÃN VÀ ÁP DỤNG VÀO PHÂN LỚP VĂN BẢN ĐA NHÃN LĨNH VỰC ĐIỆN TỬ Ngành: Công nghệ Thông tin Chuyên ngành: Hệ thống Thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS TS Hà Quang Thụy Hà Nội - 2012 Lời cam đoan Tên là: Nguyễn Thị Chăm – Học viên cao học lớp Cơng nghệ thơng tin Khóa 16, chun ngành Hệ thống thơng tin, khóa 2009 – 2011 Tơi xin cam đoan Một lớp thuật toán Bayes phân lớp đa nhãn áp dụng vào phân lớp văn đa nhãn lĩnh vực điện tử thực nghiệm trình bày luận văn cơng trình nghiên cứu thực hướng dẫn PGS.TS Hà Quang Thụy Tất số liệu, kết trình bày luận văn hồn tồn trung thực chưa công bố cơng trình khác Trong luận văn, khơng có việc chép tài liệu cơng trình nghiên cứu người khác mà không rõ tài liệu tham khảo Tác giả Nguyễn Thị Chăm Lời cảm ơn Lời đầu tiên, cho phép em gửi lời cảm ơn lòng biết ơn sâu sắc tới PGS TS Hà Quang Thụy, người đồng ý tiếp nhận tận tình hướng dẫn em suốt trình thực đề tài Em xin chân thành cảm ơn tập thể thầy cô Bộ môn Hệ thống thông tin, Khoa Công nghệ Thông tin, trường Đại học Công nghệ - Đại học Quốc gia Hà Nội tận tình giảng dạy tạo điều kiện thuận lợi để cá nhân em thành viên lớp K16T6 hồn thành chương trình đào tạo Em xin trân trọng cảm ơn Ban Giám hiệu, Ban Chủ nhiệm Khoa Công nghệ thông tin Trường Cao đẳng Công nghệ Viettronics, Ban Giám hiệu trường Đại học Hàng Hải, Khoa đào tạo sau đại học trường Đại học Hàng Hải, anh chị, bạn đồng nghiệp quan tâm, ủng hộ tạo điều kiện công việc, thời gian suốt thời gian theo học hoàn thành luận văn tốt nghiệp Tác giả gửi lời cảm ơn tới CN Vũ Tiến Thành, Nguyễn Đạo Thái anh chị, bạn sinh viên phịng thí nghiệm KT-lab hỗ trợ tác giả trình thực luận văn, cảm ơn tới bạn lớp K16T6 ln ủng hộ khích lệ tơi suốt thời gian học tập trường Cuối cùng, tác giả muốn gửi lời cảm ơn vơ hạn tới gia đình - người thân yêuluôn bên cạnh động viên tơi q trình học tập thực luận văn tốt nghiệp Tác giả Nguyễn Thị Chăm Tóm tắt nội dung Phân lớp văn nói chung phân lớp đa nhãn văn nói riêng lĩnh vực khơng mang tính cấp thiết tất lĩnh vực: kinh tế, trị, văn hóa, xã hội, giáo dục – đào tạo, … Phân lớp đa nhãn văn không cách thức gán cho văn bản, giáo trình hay tài liệu nhãn lớp mà thực hướng tới việc phân tích ngữ nghĩa, từ ngữ văn giúp máy tính hiểu tài liệu nói thuộc lớp tài liệu Việc trở lên quan trọng Nhà trường lượng tài liệu, giáo trình ngày lớn ngành nghề mở rộng, số lược học sinh, sinh viên theo học ngày nhiều; chưa kể đến kho giáo trình điện tử trường, đặc biệt kho giáo trình điện tử mang lại từ hệ thống Internet Từ giúp người quản lý trực tiếp kiểm sốt số lượng giáo trình có chi tiết hơn: có giáo trình? phục vụ cho ngành học nào? Giáo trình cần tìm tìm thấy lớp tài liệu nào? … Luận văn tập trung nghiên cứu số thuật toán phân lớp đa nhãn văn Bayes tiến hành thử nghiệm áp dụng mơ hình đề xuất miền liệu file liệu tổng hợp từ giáo trình/tài liệu Điện tử trung tâm thư viên kho liệu mở Trường Cao đẳng Công nghệ Viettronics cho sản phẩm hệ thống phân lớp đa nhãn tài liệu NVClassification (Naïve Bayes Classification) Hệ thống có ba phần: Phần Client, phần Server phần giao tiếp Client Server sử dụng Thrift 0.81 http://thrift apache org/ Mục lục Lời cam đoan Lời cảm ơn Tóm tắt nội dung Mục lục Bảng ký hiệu chữ viết tắt Danh sách bảng biể u Danh sách hình ảnh Mở đầu CHƢƠNG GIỚI THIỆU CHUNG VỀ PHÂN LỚP ĐA NHÃN VĂN BẢN 11 1.1 Giới thiệu chung 11 1.1.1 Phân lớp văn 11 1.1.2 Phân lớp đa nhãn (Multiple Label Class - MLC) 12 1.1.3 Ý nghĩa ứng dụng 13 1.2 Cách thức phân lớp đa nhãn 14 1.2.1 Phân lớp dựa vào xếp hạng 14 1.2.2 Phân lớp theo cấu trúc phân cấp (Hierarchical structure) 14 1.3 Phương pháp phân lớp đa nhãn 15 1.3.1 Phương pháp chuyển đổi toán 15 1.3.2 Phương pháp thích nghi thuật tốn 20 Tóm tắt chương 22 CHƢƠNG THUẬT TOÁN PHÂN LỚP ĐA NHÃN BAYES 23 2.1 Phân lớp Bayes 23 2.2 Giới thiệu chung phân lớp đa nhãn Bayes 25 2.3 Phân lớp đa nhãn Bayes dựa chuỗi phân lớp 27 2.4 Phân lớp đa nhãn Bayes dựa chuỗi phân lớp cải tiến 29 2.5Phân lớp đa nhãn Bayes trực tuyến 33 Tóm tắt chương2 37 CHƢƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 38 3.1 Môi trường công cụ sử dụng thực nghiệm 38 3.2 Dữ liệu thực nghiệm 39 3.2.1 Đặc trưng tài liệu thực nghiệm 39 3.2.2 Thu thập liệu 41 3.3 Thực nghiệm 44 3.3.1 Phát biểu toán 44 3.3.2 Mơ hình đề xuất 45 3.3.3 Mô tả cài đặt chương trình 50 3.3.4 Giới thiệu hệ thống 51 3.3.5 Thực nghiệm hệ thống 55 3.3.6 Đánh giá kết thực nghiệm 57 Tóm tắt chương 59 Kết luận định hƣớng phát triển 60 TÀI LIỆU THAM KHẢO 61 PHỤ LỤC 62 Phụ lục I: Kết phân lớp chi tiết với thuật toán CC 62 Phụ lục II: Kết phân lớp chi tiết với thuật toán ECC 64 Bảng ký hiệu chữ viết tắt Viết đầy đủ Ký hiệu viết tắt Giải nghĩa MLC Multiple Label Class Phân lớp đa nhãn CC Classifier Chains Chuỗi phân lớp BM Binary relevance method Phương pháp nhị phân CM Label Combination Method Phương pháp kết hợp nhãn ML – kNN Multiple Neighbor SVM Supper Vector Machine Máy vecto hỗ trợ PCC Probabilitistic Classifier Chain Chuỗi phân lớp xác suất ECC Ensembles Classifier Chain Tập hợp chuỗi phân lớp BOMC Bayesian online Learning for Phân lớp đa nhãn Bayes trực Multi – label classification tuyến framework XML Extensible Markup Language Ngôn ngữ đánh dấu mở rộng DF Document Frequency Tần suất văn TS Term Strength Cường độ thuật ngữ MIPS Trung tâm thông tin Munich Information Centre for Munich Protein Protein Sequences Sequences Label k Nearest Đa nhãn với k người láng giềng gần Danh sách bảng biể u Bảng 1.1: Mẫu liệu đa nhãn 16 Bảng 1.2: Dữ liệu chuyển đổi phương pháp PT1 16 Bảng 1.3: Dữ liệu chuyển đổi phương pháp PT2 16 Bảng 1.4: Dữ liệu chuyển đổi phương pháp PT3 17 Bảng 1.5: Dữ liệu chuyển đổi phương pháp PT5 19 Bảng 1.6: Dữ liệu chuyển đổi phương pháp PT6 21 Bảng 3.1: Cấu hình hệ thống thử nghiệm 38 Bảng 3.2: Công cụ phần mềm sử dụng 38 Bảng 3.3: Tổ chức thành phần tài liệu XML 42 Bảng 3.4: Các gói cài đặt phía Client 50 Bảng 3.5: Các gói cài đặt phía Server 51 Bảng 3.6: Ví dụ tài liệu đầu vào .53 Bảng 3.7: Vector tài liệu đầu vào 54 Bảng 3.8: Thống kê liệu huấn luyện lớp .55 Bảng 3.9: Kết phân lớp hệ thống với tài liệu 56 Bảng 3.10: Bảng ký hiệu 57 Bảng 3.11: Kết phân loại hệ thống với CC 59 Bảng 3.12: Kết phân loại hệ thống với ECC 59 Danh sách hình ảnh Hình 1.1: Bốn tập hợp liệu PT4 tạo 18 Hình 2.1: Giai đoạn huấn luyện (tạo ra) tập liệu D nhãn L CC .27 Hình 2.2: Giai đoạn dự đoán CC cho phiên kiểm tra x 28 Hình 2.3: Một đồ thị phân lớp đa nhãn Đồ thị tương ứng với ví dụ x có nhãn .35 Hình 2.4: Phân lớp đa nhãn thông qua việc so sánh cặp Lớp liên quan dịj = fi – fj, đó, i phù hợp j không phù hợp 36 Hình 2.5: Phân lớp đa nhãn thơng qua thứ tự tổng xu hướng chung 37 Hình 3.1: Một giáo trình sau biểu diễn theo cấu trúc XML 40 Hình 3.2: Cấu trúc tài liệu huấn luyện XML 42 Hình 3.3: Minh họa cách đặt tên, lưu trữ tài liệu vào lớp .43 Hình 3.4: Cơng cụ kiểm tra liệu học 44 Hình 3.5: Mơ hình hệ thống 45 Hình 3.6: Một tài liệu trước tiền xử lý 47 Hình 3.7: Một tài liệu sau tiền xử lý 47 Hình 3.8: Giao diện ứng dụng Client .52 Hình 3.9: Khởi động Server để nhận yêu cầu phân lớp từ Client 52 Hình 3.10: Kết phân lớp 54 50 m [1 log( tf i )] log( df ) tf ij wij i 0 tf ij (3.6) Như vậy, để xây dựng vector đặc trưng cho tài liệu, cần tiến hành đối chiếu đặc trưng có vector đặc trưng lớp sang đặc trưng tài liệu; đặc trưng lớp xuất tài liệu tính trọng số cho đặc trưng Trọng số đặc trưng tài liệu trọng số TF-IDF giới thiệu bước Bước Đưa liệu học vào hệ thống, đưa mơ hình phân lớp 3/ Pha 2: Phân lớp đa nhãn sử dụng mô hình huấn luyện Dữ liệu thực nghiệm liệu giáo trình/tài liệu thuộc lĩnh vực điện tử Kết sau pha danh sách nhãn mà tài liệu đầu vào thuộc 3.3.3 Mơ tả cài đặt chương trình Chương trình tổ chức theo kiến trúc Client – Server Theo đó, Server nhận yêu cầu phân lớp tài liệu từ Client trả cho Client nhãn mà tài liệu cho thuộc Bảng 3.4: Các gói cài đặt phía Client nv.multicc.gui: chứa lớp đồ hoạ cho người dùng thao tác nv object: chứa đối tượng truyền thông tin Client – Server: NVClassificationResult… nv services: chứa dịch vụ hỗ trợ Server 51 Bảng 3.5: Các gói cài đặt phía Server nv.classify: thực huấn luyện, phân lớp đưa độ xác mơ hình nv feature: thực vector hóa liệu đầu vào nv.io: chứa đối tượng sử dụng hệ thống: NVDocument, NVFeatureVector … nv.io.json: thực lưu đọc từ điển đặc trưng nv.server: thực mở Server để nhận yêu cầu phân lớp từ Client nv.services: định nghĩa dịch vụ mà Server hỗ trợ cho Client như: Classify Service nv.util: chứa thư viện cho hỗ trợ cho bước xử lý như: đọc ghi file… 3.3.4 Giới thiệu hệ thống Với thuật toán phương pháp phân lớp tài liệu mô tả luận văn tác giả tiến hành cài đặt hệ thống cho sản phẩm hệ thống phân lớp tài liệu NVClassification (Nạve Bayes Classification) Hệ thống có ba phần: Phần Client, phần Server, phần giao tiếp Client Server sử dụng Thrift 0.84 Client: tiến hành phát triển dựa ứng dụng RCP5 Ứng dụng chạy phía client, nhận đầu vào đoạn văn cần phân lớp Đầu danh sách nhãn phù hợp với văn đầu vào http://thrift apache org/ http://www eclipse org/rcp/ 52 Hình 3.8: Giao diện ứng dụng Client Server: phát triển dựa ngôn ngữ Java, sử dụng môi trường phát triển Eclipse6 Server nhận yêu cầu từ Client để tiến hành phân lớp văn trả tập nhãn phù hợp với văn yêu cầu Hình 3.9: Khởi động Server để nhận yêu cầu phân lớp từ Client http://www eclipse org/ 53 Ví dụ: Với liệu đầu vào giáo trình thuộc lớp điện tử viễn thơng Có mục lục sau (Bảng 3.6): Bảng 3.6: Ví dụ tài liệu đầu vào Lờinóiđầu Phần Giới thiệu khái quát máy vi tính thiết bị ngoại vi 1.1 Cấu trúc chung máy vi tính 1.2 Cấu trúc nên máy vi tính 1.2.1 Hoạt động PC 1.2.2 Bản mạch 1.2.3 Bản mạch ghép nối hình 1.2.4 Bản mạch điều khiển ổ đĩa ổ đĩa 1.2.5 Ghép nối song song nối tiếp 1.2.6 Mạng máy tính 1.2.7 RAM CMOS đồng hồ đo thời gian thực 1.2.8 Bàn phím 1.2.9 Hệ điều hành DOS, hệ vào sở BIOS Phần Bản mạch (Main board) 2.1 Hộ 80x86 vi xử lý 8086 2.1.1 Cấu trúc chung 2.1.2 Các ghi 2.1.3 Địa nhớ 2.1.4 Truy nhập vật lý nhớ thiết bị ngoại vi 2.1.5 Các chíp bổ trợ 2.1.6 Cấu trúc máy PC/XT 2.2 Vi xử lý 80286 2.2.1 Cấu trúc chung 2.2.2 Chân tín hiệu 54 Vector hố tài liệu đầu vào ta thu kết sau: Bảng 3.7: Vector tài liệu đầu vào (6,0 5340824859302579) 059188871390330654) 5199979695992702) 163323025660538) (102, (127, (206, (38, 9105600571651701) (39, 0 9395475940384223) (113, 659245628884264) (156, 615760516944525) (213, 6326947745983675) (245, 9395475940384223) (260, 5199979695992702) (321, 367295829986474) (343, 9810014688665833) (500, 386466576974748) (596, 5199979695992702) (647, 856470206220483) (1453, 367295829986474) 5199979695992702) (645, (786, 2 465908118654584) Kết phân lớp: Hình 3.10: Kết phân lớp 55 3.3.5 Thực nghiệm hệ thống Thực nghiệm thu thập liệu huấn luyện: Bảng 3.8: Thống kê liệu huấn luyện lớp TT Lớp Tổng số tài liệu Điện tử viễn thông 20 Tự động hoá 20 Kỹ thuật điện tử 20 Điện tự động 20 Điện tử dân dụng 20 Điện tử công nghiệp 20 Thực nghiệm bước tiền xử lý liệu: Để liệu huấn luyện đảm bảo xác tiến hành thực nghiệm chương trình, tác giả tiến hành bước: Bước 1: Xây dựng lớp (trong luận văn có lớp trình bày trên), xác định số giáo trình/tài liệu mà lớp chứa (trong luận văn này, tác giả chọn 20 giáo trình/tài liệu ngành Điện tử cho lớp) Bước 2: Mô hình hóa giáo trình/tài liệu theo cấu trúc file XML Với cấu trúc file XML mô tả trên, tác giả xây dựng file XML chuẩn (chỉ bao gồm thẻ mở/đóng thành phần hình 3.2), liệu sau chuyển thành file văn điện tử thông thường (dạng docx doc) có cấu trúc tương tự cấu trúc file XML, tác giả thực chép tương ứng thành phần từ file văn word sang file XML Trong đó, cần lưu ý tính xác tên giáo trình/tài liệu tên lớp chứa giáo trình/tài liệu 56 Như nói trên, giáo trình/tài liệu, thơng tin quan trọng đại diện cho giáo trình/tài liệu nằm phần: mục lục, tóm tắt tên giáo trình, nơi chứa đặc trưng giáo trình/tài liệu Do đó, cần thận trọng việc chép hay di chuyển file docx doc sang thẻ định nghĩa cấu trúc file XML Bước 3: Lưu file XML vào lớp xây dựng bước (mỗi lớp có 20 file XML) Thực nghiệm bước phân lớp liệu: Với tổng số tài liệu học tài liệu kiểm tra 120, chia theo tỷ lệ 50:50; tài liệu học có 60 tài liệu, tài liệu kiểm tra có 60 tài liệu Hệ thống tiến hành phân lớp đưa kết quả: kết phân lớp với tài liệu thể bảng sau: Bảng 3.9: Kết phân lớp hệ thống với tài liệu TT Tên tài liệu Cau_Truc_May_Vi_Tinh xml Vo_Tuyen_Dien_Tu xml Ky_Thuat_Do Xml Dan_Duong_Ve_Tinh xml Ky_Thuat_Nhiet_Dien xml Nhãn ban đầu Nhãn gán hệ thống [DTCN,DTD, [DTCN, DTD, DTVT, TDH] TDH, DTVT] [TDH, DTVT] [DTCN, KTDT, TDH] [DTD, KTDT, [DTCN, TDH, DTCN, DTDD] DTVT] [DTVT, KTDT, [DTCN, KTDT, DTD] DTVT] [KTDT, DTCN, DTD] [DTCN, DTD] 57 3.3.6 Đánh giá kết thực nghiệm Luận văn tiến hành đánh giá hệ thống với tỷ lệ liệu đào tạo/kiểm tra 50:50 Luận văn sử dụng độ đo khác để đánh giá, là: Accuracy, Precision, Recall, F1: Ký hiệu: Bảng 3.10: Bảng ký hiệu Dữ liệu thực Lớp Ci Dự đốn Thuộc lớp Ci Khơng thuộc lớp Ci Thuộc lớp Ci TPi TNi Không thuộc lớp Ci FPi FNi Trong đó: TPi (true positives): số lượng ví dụ dương thuật toán phân vào lớp Ci TNi (true negatives): số lượng ví dụ âm thuộc toán phân vào lớp Ci FPi (false positives): số lượng ví dụ dương thuật tốn phân sai vào Ci FNi (false negatives): số lượng ví dụ âm thuật tốn phân sai vào Ci Độ xác Pri lớp Ci tỷ số ví dụ dương thuật toán phân lớp cho giá trị tổng số ví dụ thuật tốn phân lớp vào lớp Ci: Độ hồi tưởng Rei lớp Ci tỷ lệ số ví dụ dương thuật tốn phân lớp cho giá trị tổng số ví dụ dương thực thuộc lớp Ci: 58 Do thực nghiệm thực phân lớp tập liệu thành lớp, nên độ xác độ hồi tưởng cần tính cho toàn tập lớp Tác giả sử dụng độ đo độ xác hệ thống với D số nhãn lớp là: Accuracy: Độ xác tổng thể tính trung bình cộng tất mẫu, định nghĩa sau [ZPH09]: Precision: Độ xác cho biết kết phân tích có độ lặp lại cao hay không Các kết đo mẫu với thông số so sánh với giá trị trung bình kết thu được: Recall: F1: Được tính trung bình nhãn sau tính trung bình tất nhãn Biện pháp F hài hòa Precision Recall Nếu pj rj độ xác (Precision) độ hồi tưởng (Recall) cho tất lj Yj từ lj Sj biện pháp F1 tính trung bình [ZPH09]: |L| p j r j | F1 | L | j 1 p j r j (3.12) Kết đánh giá hệ thống: Sử dụng tỷ lệ 50:50 trên, hệ thống cho kết phân lớp sau: 59 Bảng 3.11: Kết phân loại hệ thống với CC Class Precision Recall F1 KTDT 0.64706 0.73333 0.6875 TDH 0.63333 0.65517 0.64407 DTCN 0.88372 0.90476 0.89412 Accuracy 0.53097 DTD 0.84375 0.72973 0.78261 DTDD 0.66667 0.66667 0.66667 DTVT 0.66667 0.64 0.65306 Bảng 3.12: Kết phân loại hệ thống với ECC Class Accuracy KTDT TDH DTCN DTDD DTVT 0.75247 Tóm tắt chƣơng Trong chương 3, tác giả thi hành chương trình thực nghiệm, xem xét đánh giá kết trình thử nghiệm mơ hình phân lớp đa nhãn văn lĩnh vực điện tử Qua phân tích đánh giá thực nghiệm cho thấy tính đắn phương pháp sử dụng luận văn 60 Kết luận định hƣớng phát triển Kết đạt đƣợc luận văn: Luận văn trình bày khái quát hệ thống phân lớp đa nhãn, đặc trưng tiếp cận phân lớp đa nhãn Khảo sát nhóm thuật toán phân lớp đa nhãn Bayes bao gồm thuật toán chuỗi phân lớp đa nhãn (Classifier Chains – CC) gồm hai thành phần Training Classify; thuật toán chuỗi phân lớp đa nhãn cải tiến (Ensemble Classifier Chain – ECC) thuật toán phân lớp đa nhãn trực tuyến (Bayesian online Learning for Multi – label classification framework – BOMC) Luận văn xây dựng phần mềm thi hành thử nghiệm thuật toán chuỗi phân lớp đa nhãn cải tiến ECC cho miền lĩnh vực tài liệu điện tử Thực nghiệm đánh giá kết thực nghiệm cho sản phẩm hệ thống phân lớp đa nhãn tài liệu NVClassification (Naïve Bayes Classification) Định hƣớng phát triển: Nghiên cứu, triển khai giải pháp nâng cao hiệu hệ thống phần mềm xây dựng: đưa thêm số pha xử lý để hệ thống nhập liệu đầu vào dạng ngôn ngữ tự nhiên cấu trúc văn khác nhau, kể liệu vào đường link Internet, tăng số lượng lớp tài liệu huấn luyện 61 TÀI LIỆU THAM KHẢO Tiếng Việt [HPDN09] Hà Quang Thụy, Phan Xn Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú Giáo trình khai phá liệu Web, Nhà xuất giáo dục Việt Nam, 2009 [HDNN06] Hà Quang Thuỵ, Đặng Thanh Hải, Nguyễn Cẩm Tú, Nguyễn Việt Cường, Nguyễn Thu Trang, Nguyễn Thị Thùy Linh, Nguyễn Thị Hương Thảo, Trần Thị Oanh Nghiên cứu, phân tích đánh giá thuật tốn lọc văn theo nội dung, 2006 Tiếng Anh [DCH10] Krzysztof Demb fczynski, Weiwei Cheng, Eyke Hüllermeier (2010) Bayes Optimal Multilabel Classification via Probabilistic Classifier Chains, ICML 2010: 279-286 [GM05] Ghamrawi, N and McCallum (2005) A Collective multilabel classification, CIKM ’05: 195–200 [GS04] Shantanu Godbole, Sunita Sarawagi (2004) Discriminative methods for multi-labeled classification, PAKDD’04 (8th Pacific-Asia Conference on Knowledge Discovery and Data Mining): 22–30 [JDMR01] Jacson D M Rennie, B S Computer Science Carnegie Mellon University, 1999 Improving Multi-class Text Classication with Naive Bayes, 2001: 2-40 [PC10] James Petterson, Tiberio Caetano (2010) Reverse Multi-Label Learning, Advances in Neural Information Processing Systems (NIPS) 2010 (Poster) [RD10] Piyush Rai, Hal Daume (2009) Multi-Label Prediction via Sparse Infinite CCA, Advances in Neural Information Processing Systems 22: 1518–1526 [TK07] G Tsoumakas, I Katakis (2007) Multi Label Classification: An Overview, International Journal of Data Warehousing and Mining (Idea Group Publishing - David Taniar, Ed ), 3(3): 1-13 [XL05] Xiao Luo, A Nur Zincir-Heywood (2005) Evaluation of Two Systems on Multi-class Multi-label Document Classification [ZGH10] Xinhua Zhang, Thore Graepel, Ralf Herbrich (2010) Bayesian Online Learning for Multi-label and Multi-variate Performance Measures, International Conference on Artificial Intelligence and Statistics, (AISTATS) 2010 [ZPH09] Jesse Read, Bernhard Pfahringer, Geoffrey Holmes, Eibe Frank (2009) Classifier Chains for Multi-label Classification, ECML/PKDD (2) 2009: 254-269 62 PHỤ LỤC Phụ lục I: Kết phân lớp chi tiết với thuật toán CC TDH-DTCN-DTD | DTCN-DTD-TDH KTDT-DTCN-DTDD | DTCN-DTDD-KTDT-TDH DTVT-KTDT-DTCN | DTCN-DTD-KTDT TDH-DTCN-DTD | DTCN-DTD-TDH TDH-DTCN-DTD | DTCN-DTD-KTDT TDH-DTCN-DTD | DTCN-DTD DTVT-TDH-DTCN-DTD | DTCN-DTD-TDH KTDT-DTCN-DTDD | DTCN-DTDD-DTD-TDH TDH-DTCN-DTD | DTCN-DTD-TDH TDH-DTCN-DTD | DTCN-DTD-TDH KTDT-DTCN-DTD-DTDD | DTCN-DTD-TDH DTVT-KTDT-DTDD | DTCN-KTDT-DTVT DTVT-KTDT-DTCN-DTDD | DTCN-DTDD-KTDT-DTVT DTVT-KTDT-DTCN-DTDD | DTCN-DTDD-DTD-KTDT-TDH KTDT-DTCN-DTDD | DTCN-DTDD-DTD-KTDT-DTVT KTDT-TDH-DTCN-DTD-DTDD | DTD-KTDT-DTVT DTVT-KTDT-DTCN-DTDD | DTCN-DTDD-KTDT DTVT-KTDT-DTCN-DTDD | DTCN-DTDD-KTDT-TDH-DTVT DTVT-KTDT-DTCN-DTDD | DTCN-DTDD-DTD-KTDT-TDH-DTVT KTDT-TDH-DTD-DTDD | DTCN-DTD-KTDT-DTVT DTVT-TDH-DTDD | DTCN-DTDD-KTDT-DTVT KTDT-DTCN-DTDD | DTCN-DTDD-KTDT-TDH TDH-DTCN-DTD | DTCN-DTDD-DTD-KTDT-TDH TDH-DTD | DTCN-DTDD-DTD-KTDT TDH-DTCN-DTD | DTCN-DTD-TDH DTVT-KTDT-DTD | DTCN-DTDD-KTDT-TDH-DTVT KTDT-DTCN-DTD-DTDD | DTCN-KTDT-DTVT KTDT-TDH-DTD | DTCN-KTDT-DTVT TDH-DTD | DTDD-KTDT-DTVT DTCN-DTD | KTDT-DTVT TDH-DTCN-DTD | DTCN-DTDD-DTD 63 KTDT-DTCN-DTD | DTCN-DTD TDH-DTCN-DTD | DTCN-DTDD-KTDT-DTVT DTVT-KTDT-TDH | KTDT-DTVT DTVT-KTDT | KTDT-DTVT DTVT-KTDT | KTDT-DTVT DTVT-KTDT | DTDD-KTDT-DTVT DTVT-KTDT | DTDD-KTDT-DTVT DTVT-KTDT-DTD | KTDT-DTVT DTVT-TDH-DTD | DTCN-DTD-TDH DTVT-KTDT | KTDT-DTVT DTVT-KTDT | KTDT-DTVT DTVT-KTDT | DTCN-KTDT-DTVT DTVT-DTCN-DTDD | DTCN-DTDD-KTDT-DTVT DTVT | KTDT-DTVT DTVT-KTDT | DTCN-DTDD-KTDT-TDH-DTVT KTDT-TDH-DTDD | DTCN-KTDT-DTVT KTDT-DTCN-DTD-DTDD | DTCN-DTDD-KTDT-DTVT DTVT-KTDT-DTCN-DTDD | DTCN-DTDD-DTD-KTDT-TDH-DTVT KTDT-DTCN-DTD-DTDD | DTCN-DTD KTDT-DTCN-DTD | DTCN-DTD KTDT-DTCN | DTCN-KTDT-DTVT KTDT-DTCN-DTD | DTCN-DTD-TDH TDH-DTCN | DTCN-DTDD-DTD-TDH TDH-DTCN-DTD | DTCN-DTDD-DTD-KTDT-DTVT TDH-DTCN-DTD | DTCN-DTDD-DTD-TDH KTDT-TDH-DTCN-DTD | DTD-KTDT-DTVT DTVT-KTDT-TDH | DTDD-KTDT-DTVT TDH-DTCN-DTD | DTCN-DTD KTDT-TDH-DTCN-DTD | DTCN-DTD-KTDT-TDH TDH-DTCN-DTD | DTCN-DTD TDH-DTCN-DTD | DTCN-DTDD-DTD-KTDT TDH-DTCN-DTD | DTCN-DTD-TDH-DTVT DTVT-TDH | DTCN-DTDD-DTD-KTDT-DTVT 64 Phụ lục II: Kết phân lớp chi tiết với thuật toán ECC KTDT-DTCN-DTDD | DTVT-KTDT-TDH-DTCN-DTDD TDH-DTCN-DTD | TDH-DTCN-DTD-DTDD KTDT-DTCN-DTD-DTDD | DTVT-KTDT-TDH-DTCN-DTD-DTDD DTVT-KTDT-DTDD | DTVT-KTDT-DTDD DTVT-KTDT-DTCN-DTDD | DTVT-KTDT-TDH-DTCN-DTDD DTVT-KTDT-DTCN-DTDD | DTVT-KTDT-TDH-DTCN-DTDD KTDT-TDH-DTCN-DTDD | DTVT-KTDT-TDH-DTCN-DTDD TDH-DTCN-DTD | KTDT-TDH-DTCN-DTD-DTDD TDH-DTD | TDH-DTCN-DTD DTVT-KTDT-DTD | DTVT-KTDT-DTCN-DTD DTVT-KTDT-DTCN-DTD | DTVT-KTDT-TDH-DTCN-DTD-DTDD TDH-DTCN-DTD | TDH-DTCN-DTD KTDT-TDH-DTCN-DTD-DTDD | KTDT-TDH-DTCN-DTD-DTDD KTDT-DTCN-DTD | KTDT-TDH-DTCN-DTD KTDT-DTCN-DTD | KTDT-TDH-DTCN-DTD DTVT-KTDT | DTVT-KTDT DTVT-KTDT | DTVT-KTDT-DTDD KTDT-TDH-DTDD | DTVT-KTDT-TDH-DTCN-DTDD KTDT-DTCN-DTD | DTVT-KTDT-TDH-DTCN-DTD-DTDD KTDT-DTCN-DTD | KTDT-TDH-DTCN-DTD TDH-DTCN-DTDD | TDH-DTCN-DTD-DTDD TDH-DTCN-DTD | TDH-DTCN-DTD DTVT-KTDT-TDH | DTVT-KTDT-TDH-DTDD DTVT-KTDT-TDH | DTVT-KTDT-TDH ... CƠNG NGHỆ NGUYỄN THỊ CHĂM MỘT LỚP THUẬT TỐN BAYES PHÂN LỚP ĐA NHÃN VÀ ÁP DỤNG VÀO PHÂN LỚP VĂN BẢN ĐA NHÃN LĨNH VỰC ĐIỆN TỬ Ngành: Công nghệ Thông tin Chuyên ngành: Hệ thống Thông tin Mã s? ?: 60 48. .. quát phân lớp đa nhãn văn bản, cách thức phương pháp phân lớp đa nhãn văn Đồng thời giới thiệu toán phân lớp đa nhãn văn ứng dụng vào việc phân lớp đa nhãn tài liệu Trong chương tiếp theo, luận văn. .. thuật toán phân lớp đa nhãn Bayes Một số giải pháp phân lớp Bayes đa nhãn đề xuất, chẳng hạn [DCH10, ZGH10, ZPH09] 10 Luận văn tập trung nghiên cứu số thuật toán phân lớp đa nhãn Bayes ứng dụng