1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử

66 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 66
Dung lượng 2,03 MB

Nội dung

1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ NGUYỄN THỊ CHĂM MỘT LỚP THUẬT TỐN BAYES PHÂN LỚP ĐA NHÃN VÀ ÁP DỤNG VÀO PHÂN LỚP VĂN BẢN ĐA NHÃN LĨNH VỰC ĐIỆN TỬ LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2012 TIEU LUAN MOI download : skknchat@gmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ CHĂM MỘT LỚP THUẬT TOÁN BAYES PHÂN LỚP ĐA NHÃN VÀ ÁP DỤNG VÀO PHÂN LỚP VĂN BẢN ĐA NHÃN LĨNH VỰC ĐIỆN TỬ Ngành: Công nghệ Thông tin Chuyên ngành: Hệ thống Thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS TS Hà Quang Thụy Hà Nội - 2012 TIEU LUAN MOI download : skknchat@gmail.com Lời cam đoan Tên là: Nguyễn Thị Chăm – Học viên cao học lớp Cơng nghệ thơng tin Khóa 16, chun ngành Hệ thống thơng tin, khóa 2009 – 2011 Tơi xin cam đoan Một lớp thuật tốn Bayes phân lớp đa nhãn áp dụng vào phân lớp văn đa nhãn lĩnh vực điện tử thực nghiệm trình bày luận văn cơng trình nghiên cứu thực hướng dẫn PGS.TS Hà Quang Thụy Tất số liệu, kết trình bày luận văn hồn tồn trung thực chưa cơng bố cơng trình khác Trong luận văn, khơng có việc chép tài liệu cơng trình nghiên cứu người khác mà không rõ tài liệu tham khảo Tác giả Nguyễn Thị Chăm TIEU LUAN MOI download : skknchat@gmail.com Lời cảm ơn Lời đầu tiên, cho phép em gửi lời cảm ơn lòng biết ơn sâu sắc tới PGS TS Hà Quang Thụy, người đồng ý tiếp nhận tận tình hướng dẫn em suốt trình thực đề tài Em xin chân thành cảm ơn tập thể thầy cô Bộ môn Hệ thống thông tin, Khoa Công nghệ Thông tin, trường Đại học Công nghệ - Đại học Quốc gia Hà Nội tận tình giảng dạy tạo điều kiện thuận lợi để cá nhân em thành viên lớp K16T6 hoàn thành chương trình đào tạo Em xin trân trọng cảm ơn Ban Giám hiệu, Ban Chủ nhiệm Khoa Công nghệ thông tin Trường Cao đẳng Công nghệ Viettronics, Ban Giám hiệu trường Đại học Hàng Hải, Khoa đào tạo sau đại học trường Đại học Hàng Hải, anh chị, bạn đồng nghiệp quan tâm, ủng hộ tạo điều kiện công việc, thời gian suốt thời gian theo học hoàn thành luận văn tốt nghiệp Tác giả gửi lời cảm ơn tới CN Vũ Tiến Thành, Nguyễn Đạo Thái anh chị, bạn sinh viên phịng thí nghiệm KT-lab hỗ trợ tác giả trình thực luận văn, cảm ơn tới bạn lớp K16T6 ủng hộ khích lệ tơi suốt thời gian học tập trường Cuối cùng, tác giả muốn gửi lời cảm ơn vơ hạn tới gia đình - người thân yêuluôn bên cạnh động viên trình học tập thực luận văn tốt nghiệp Tác giả Nguyễn Thị Chăm TIEU LUAN MOI download : skknchat@gmail.com Tóm tắt nội dung Phân lớp văn nói chung phân lớp đa nhãn văn nói riêng lĩnh vực không mang tính cấp thiết tất lĩnh vực: kinh tế, trị, văn hóa, xã hội, giáo dục – đào tạo, … Phân lớp đa nhãn văn không cách thức gán cho văn bản, giáo trình hay tài liệu nhãn lớp mà thực hướng tới việc phân tích ngữ nghĩa, từ ngữ văn giúp máy tính hiểu tài liệu nói thuộc lớp tài liệu Việc trở lên quan trọng Nhà trường lượng tài liệu, giáo trình ngày lớn ngành nghề mở rộng, số lược học sinh, sinh viên theo học ngày nhiều; chưa kể đến kho giáo trình điện tử trường, đặc biệt kho giáo trình điện tử mang lại từ hệ thống Internet Từ giúp người quản lý trực tiếp kiểm sốt số lượng giáo trình có chi tiết hơn: có giáo trình? phục vụ cho ngành học nào? Giáo trình cần tìm tìm thấy lớp tài liệu nào? … Luận văn tập trung nghiên cứu số thuật toán phân lớp đa nhãn văn Bayes tiến hành thử nghiệm áp dụng mơ hình đề xuất miền liệu file liệu tổng hợp từ giáo trình/tài liệu Điện tử trung tâm thư viên kho liệu mở Trường Cao đẳng Công nghệ Viettronics cho sản phẩm hệ thống phân lớp đa nhãn tài liệu NVClassification (Nạve Bayes Classification) Hệ thống có ba phần: Phần Client, phần Server phần giao tiếp Client Server sử dụng Thrift 0.81 http://thrift apache org/ TIEU LUAN MOI download : skknchat@gmail.com Mục lục Lời cam đoan Lời cảm ơn Tóm tắt nội dung Mục lục Bảng ký hiệu chữ viết tắt Danh sách bảng biể u Danh sách hình ảnh Mở đầu CHƢƠNG GIỚI THIỆU CHUNG VỀ PHÂN LỚP ĐA NHÃN VĂN BẢN 11 1.1 Giới thiệu chung 11 1.1.1 Phân lớp văn 11 1.1.2 Phân lớp đa nhãn (Multiple Label Class - MLC) 12 1.1.3 Ý nghĩa ứng dụng 13 1.2 Cách thức phân lớp đa nhãn 14 1.2.1 Phân lớp dựa vào xếp hạng 14 1.2.2 Phân lớp theo cấu trúc phân cấp (Hierarchical structure) 14 1.3 Phương pháp phân lớp đa nhãn 15 1.3.1 Phương pháp chuyển đổi toán 15 1.3.2 Phương pháp thích nghi thuật tốn 20 Tóm tắt chương 22 CHƢƠNG THUẬT TOÁN PHÂN LỚP ĐA NHÃN BAYES 23 2.1 Phân lớp Bayes 23 2.2 Giới thiệu chung phân lớp đa nhãn Bayes 25 2.3 Phân lớp đa nhãn Bayes dựa chuỗi phân lớp 27 2.4 Phân lớp đa nhãn Bayes dựa chuỗi phân lớp cải tiến 29 2.5Phân lớp đa nhãn Bayes trực tuyến 33 Tóm tắt chương2 37 TIEU LUAN MOI download : skknchat@gmail.com CHƢƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 38 3.1 Môi trường công cụ sử dụng thực nghiệm 38 3.2 Dữ liệu thực nghiệm 39 3.2.1 Đặc trưng tài liệu thực nghiệm 39 3.2.2 Thu thập liệu 41 3.3 Thực nghiệm 44 3.3.1 Phát biểu toán 44 3.3.2 Mơ hình đề xuất 45 3.3.3 Mơ tả cài đặt chương trình 50 3.3.4 Giới thiệu hệ thống 51 3.3.5 Thực nghiệm hệ thống 55 3.3.6 Đánh giá kết thực nghiệm 57 Tóm tắt chương 59 Kết luận định hƣớng phát triển 60 TÀI LIỆU THAM KHẢO 61 PHỤ LỤC 62 Phụ lục I: Kết phân lớp chi tiết với thuật toán CC 62 Phụ lục II: Kết phân lớp chi tiết với thuật toán ECC 64 TIEU LUAN MOI download : skknchat@gmail.com Bảng ký hiệu chữ viết tắt Viết đầy đủ Ký hiệu viết tắt Giải nghĩa MLC Multiple Label Class Phân lớp đa nhãn CC Classifier Chains Chuỗi phân lớp BM Binary relevance method Phương pháp nhị phân CM Label Combination Method Phương pháp kết hợp nhãn ML – kNN Multiple Neighbor SVM Supper Vector Machine Máy vecto hỗ trợ PCC Probabilitistic Classifier Chain Chuỗi phân lớp xác suất ECC Ensembles Classifier Chain Tập hợp chuỗi phân lớp BOMC Bayesian online Learning for Phân lớp đa nhãn Bayes trực Multi – label classification tuyến framework XML Extensible Markup Language Ngôn ngữ đánh dấu mở rộng DF Document Frequency Tần suất văn TS Term Strength Cường độ thuật ngữ MIPS Trung tâm thông tin Munich Information Centre for Munich Protein Protein Sequences Sequences Label k Nearest Đa nhãn với k người láng giềng gần TIEU LUAN MOI download : skknchat@gmail.com Danh sách bảng biể u Bảng 1.1: Mẫu liệu đa nhãn 16 Bảng 1.2: Dữ liệu chuyển đổi phương pháp PT1 16 Bảng 1.3: Dữ liệu chuyển đổi phương pháp PT2 16 Bảng 1.4: Dữ liệu chuyển đổi phương pháp PT3 17 Bảng 1.5: Dữ liệu chuyển đổi phương pháp PT5 19 Bảng 1.6: Dữ liệu chuyển đổi phương pháp PT6 21 Bảng 3.1: Cấu hình hệ thống thử nghiệm 38 Bảng 3.2: Công cụ phần mềm sử dụng 38 Bảng 3.3: Tổ chức thành phần tài liệu XML 42 Bảng 3.4: Các gói cài đặt phía Client 50 Bảng 3.5: Các gói cài đặt phía Server 51 Bảng 3.6: Ví dụ tài liệu đầu vào .53 Bảng 3.7: Vector tài liệu đầu vào 54 Bảng 3.8: Thống kê liệu huấn luyện lớp .55 Bảng 3.9: Kết phân lớp hệ thống với tài liệu 56 Bảng 3.10: Bảng ký hiệu 57 Bảng 3.11: Kết phân loại hệ thống với CC 59 Bảng 3.12: Kết phân loại hệ thống với ECC 59 TIEU LUAN MOI download : skknchat@gmail.com Danh sách hình ảnh Hình 1.1: Bốn tập hợp liệu PT4 tạo 18 Hình 2.1: Giai đoạn huấn luyện (tạo ra) tập liệu D nhãn L CC .27 Hình 2.2: Giai đoạn dự đoán CC cho phiên kiểm tra x 28 Hình 2.3: Một đồ thị phân lớp đa nhãn Đồ thị tương ứng với ví dụ x có nhãn .35 Hình 2.4: Phân lớp đa nhãn thơng qua việc so sánh cặp Lớp liên quan dịj = fi – fj, đó, i phù hợp j khơng phù hợp 36 Hình 2.5: Phân lớp đa nhãn thơng qua thứ tự tổng xu hướng chung 37 Hình 3.1: Một giáo trình sau biểu diễn theo cấu trúc XML 40 Hình 3.2: Cấu trúc tài liệu huấn luyện XML 42 Hình 3.3: Minh họa cách đặt tên, lưu trữ tài liệu vào lớp .43 Hình 3.4: Công cụ kiểm tra liệu học 44 Hình 3.5: Mơ hình hệ thống 45 Hình 3.6: Một tài liệu trước tiền xử lý 47 Hình 3.7: Một tài liệu sau tiền xử lý 47 Hình 3.8: Giao diện ứng dụng Client .52 Hình 3.9: Khởi động Server để nhận yêu cầu phân lớp từ Client 52 Hình 3.10: Kết phân lớp 54 TIEU LUAN MOI download : skknchat@gmail.com 50 m  [1  log( tf i )] log( df ) tf ij  wij   i 0 tf ij   (3.6) Như vậy, để xây dựng vector đặc trưng cho tài liệu, cần tiến hành đối chiếu đặc trưng có vector đặc trưng lớp sang đặc trưng tài liệu; đặc trưng lớp xuất tài liệu tính trọng số cho đặc trưng Trọng số đặc trưng tài liệu trọng số TF-IDF giới thiệu bước Bước Đưa liệu học vào hệ thống, đưa mơ hình phân lớp 3/ Pha 2: Phân lớp đa nhãn sử dụng mơ hình huấn luyện Dữ liệu thực nghiệm liệu giáo trình/tài liệu thuộc lĩnh vực điện tử Kết sau pha danh sách nhãn mà tài liệu đầu vào thuộc 3.3.3 Mơ tả cài đặt chương trình Chương trình tổ chức theo kiến trúc Client – Server Theo đó, Server nhận yêu cầu phân lớp tài liệu từ Client trả cho Client nhãn mà tài liệu cho thuộc Bảng 3.4: Các gói cài đặt phía Client nv.multicc.gui: chứa lớp đồ hoạ cho người dùng thao tác nv object: chứa đối tượng truyền thông tin Client – Server: NVClassificationResult… nv services: chứa dịch vụ hỗ trợ Server TIEU LUAN MOI download : skknchat@gmail.com 51 Bảng 3.5: Các gói cài đặt phía Server nv.classify: thực huấn luyện, phân lớp đưa độ xác mơ hình nv feature: thực vector hóa liệu đầu vào nv.io: chứa đối tượng sử dụng hệ thống: NVDocument, NVFeatureVector … nv.io.json: thực lưu đọc từ điển đặc trưng nv.server: thực mở Server để nhận yêu cầu phân lớp từ Client nv.services: định nghĩa dịch vụ mà Server hỗ trợ cho Client như: Classify Service nv.util: chứa thư viện cho hỗ trợ cho bước xử lý như: đọc ghi file… 3.3.4 Giới thiệu hệ thống Với thuật toán phương pháp phân lớp tài liệu mô tả luận văn tác giả tiến hành cài đặt hệ thống cho sản phẩm hệ thống phân lớp tài liệu NVClassification (Naïve Bayes Classification) Hệ thống có ba phần: Phần Client, phần Server, phần giao tiếp Client Server sử dụng Thrift 0.84 Client: tiến hành phát triển dựa ứng dụng RCP5 Ứng dụng chạy phía client, nhận đầu vào đoạn văn cần phân lớp Đầu danh sách nhãn phù hợp với văn đầu vào http://thrift apache org/ http://www eclipse org/rcp/ TIEU LUAN MOI download : skknchat@gmail.com 52 Hình 3.8: Giao diện ứng dụng Client Server: phát triển dựa ngôn ngữ Java, sử dụng môi trường phát triển Eclipse6 Server nhận yêu cầu từ Client để tiến hành phân lớp văn trả tập nhãn phù hợp với văn yêu cầu Hình 3.9: Khởi động Server để nhận yêu cầu phân lớp từ Client http://www eclipse org/ TIEU LUAN MOI download : skknchat@gmail.com 53 Ví dụ:  Với liệu đầu vào giáo trình thuộc lớp điện tử viễn thơng Có mục lục sau (Bảng 3.6): Bảng 3.6: Ví dụ tài liệu đầu vào Lờinóiđầu Phần Giới thiệu khái quát máy vi tính thiết bị ngoại vi 1.1 Cấu trúc chung máy vi tính 1.2 Cấu trúc nên máy vi tính 1.2.1 Hoạt động PC 1.2.2 Bản mạch 1.2.3 Bản mạch ghép nối hình 1.2.4 Bản mạch điều khiển ổ đĩa ổ đĩa 1.2.5 Ghép nối song song nối tiếp 1.2.6 Mạng máy tính 1.2.7 RAM CMOS đồng hồ đo thời gian thực 1.2.8 Bàn phím 1.2.9 Hệ điều hành DOS, hệ vào sở BIOS Phần Bản mạch (Main board) 2.1 Hộ 80x86 vi xử lý 8086 2.1.1 Cấu trúc chung 2.1.2 Các ghi 2.1.3 Địa nhớ 2.1.4 Truy nhập vật lý nhớ thiết bị ngoại vi 2.1.5 Các chíp bổ trợ 2.1.6 Cấu trúc máy PC/XT 2.2 Vi xử lý 80286 2.2.1 Cấu trúc chung 2.2.2 Chân tín hiệu TIEU LUAN MOI download : skknchat@gmail.com 54  Vector hoá tài liệu đầu vào ta thu kết sau: Bảng 3.7: Vector tài liệu đầu vào (6,0 5340824859302579) 059188871390330654) 5199979695992702) 163323025660538) (102, (127, (206, (38, 9105600571651701) (39, 0 9395475940384223) (113, 659245628884264) (156, 615760516944525) (213, 6326947745983675) (245, 9395475940384223) (260, 5199979695992702) (321, 367295829986474) (343, 9810014688665833) (500, 386466576974748) (596, 5199979695992702) (647, 856470206220483) (1453, 367295829986474) 5199979695992702) (645, (786, 2 465908118654584)  Kết phân lớp: Hình 3.10: Kết phân lớp TIEU LUAN MOI download : skknchat@gmail.com 55 3.3.5 Thực nghiệm hệ thống Thực nghiệm thu thập liệu huấn luyện: Bảng 3.8: Thống kê liệu huấn luyện lớp TT Lớp Tổng số tài liệu Điện tử viễn thông 20 Tự động hoá 20 Kỹ thuật điện tử 20 Điện tự động 20 Điện tử dân dụng 20 Điện tử công nghiệp 20 Thực nghiệm bước tiền xử lý liệu: Để liệu huấn luyện đảm bảo xác tiến hành thực nghiệm chương trình, tác giả tiến hành bước: Bước 1: Xây dựng lớp (trong luận văn có lớp trình bày trên), xác định số giáo trình/tài liệu mà lớp chứa (trong luận văn này, tác giả chọn 20 giáo trình/tài liệu ngành Điện tử cho lớp) Bước 2: Mơ hình hóa giáo trình/tài liệu theo cấu trúc file XML Với cấu trúc file XML mô tả trên, tác giả xây dựng file XML chuẩn (chỉ bao gồm thẻ mở/đóng thành phần hình 3.2), liệu sau chuyển thành file văn điện tử thơng thường (dạng docx doc) có cấu trúc tương tự cấu trúc file XML, tác giả thực chép tương ứng thành phần từ file văn word sang file XML Trong đó, cần lưu ý tính xác tên giáo trình/tài liệu tên lớp chứa giáo trình/tài liệu TIEU LUAN MOI download : skknchat@gmail.com 56 Như nói trên, giáo trình/tài liệu, thơng tin quan trọng đại diện cho giáo trình/tài liệu nằm phần: mục lục, tóm tắt tên giáo trình, nơi chứa đặc trưng giáo trình/tài liệu Do đó, cần thận trọng việc chép hay di chuyển file docx doc sang thẻ định nghĩa cấu trúc file XML Bước 3: Lưu file XML vào lớp xây dựng bước (mỗi lớp có 20 file XML) Thực nghiệm bước phân lớp liệu: Với tổng số tài liệu học tài liệu kiểm tra 120, chia theo tỷ lệ 50:50; tài liệu học có 60 tài liệu, tài liệu kiểm tra có 60 tài liệu Hệ thống tiến hành phân lớp đưa kết quả: kết phân lớp với tài liệu thể bảng sau: Bảng 3.9: Kết phân lớp hệ thống với tài liệu TT Tên tài liệu Cau_Truc_May_Vi_Tinh xml Vo_Tuyen_Dien_Tu xml Ky_Thuat_Do Xml Dan_Duong_Ve_Tinh xml Ky_Thuat_Nhiet_Dien xml Nhãn ban đầu Nhãn gán hệ thống [DTCN,DTD, [DTCN, DTD, DTVT, TDH] TDH, DTVT] [TDH, DTVT] [DTCN, KTDT, TDH] [DTD, KTDT, [DTCN, TDH, DTCN, DTDD] DTVT] [DTVT, KTDT, [DTCN, KTDT, DTD] DTVT] [KTDT, DTCN, DTD] [DTCN, DTD] TIEU LUAN MOI download : skknchat@gmail.com 57 3.3.6 Đánh giá kết thực nghiệm Luận văn tiến hành đánh giá hệ thống với tỷ lệ liệu đào tạo/kiểm tra 50:50 Luận văn sử dụng độ đo khác để đánh giá, là: Accuracy, Precision, Recall, F1: Ký hiệu: Bảng 3.10: Bảng ký hiệu Dữ liệu thực Lớp Ci Dự đốn Thuộc lớp Ci Khơng thuộc lớp Ci Thuộc lớp Ci TPi TNi Không thuộc lớp Ci FPi FNi Trong đó: TPi (true positives): số lượng ví dụ dương thuật toán phân vào lớp Ci TNi (true negatives): số lượng ví dụ âm thuộc tốn phân vào lớp Ci FPi (false positives): số lượng ví dụ dương thuật tốn phân sai vào Ci FNi (false negatives): số lượng ví dụ âm thuật tốn phân sai vào Ci Độ xác Pri lớp Ci tỷ số ví dụ dương thuật toán phân lớp cho giá trị tổng số ví dụ thuật tốn phân lớp vào lớp Ci: Độ hồi tưởng Rei lớp Ci tỷ lệ số ví dụ dương thuật tốn phân lớp cho giá trị tổng số ví dụ dương thực thuộc lớp Ci: TIEU LUAN MOI download : skknchat@gmail.com 58 Do thực nghiệm thực phân lớp tập liệu thành lớp, nên độ xác độ hồi tưởng cần tính cho tồn tập lớp Tác giả sử dụng độ đo độ xác hệ thống với D số nhãn lớp là: Accuracy: Độ xác tổng thể tính trung bình cộng tất mẫu, định nghĩa sau [ZPH09]: Precision: Độ xác cho biết kết phân tích có độ lặp lại cao hay không Các kết đo mẫu với thông số so sánh với giá trị trung bình kết thu được: Recall: F1: Được tính trung bình nhãn sau tính trung bình tất nhãn Biện pháp F hài hòa Precision Recall Nếu pj rj độ xác (Precision) độ hồi tưởng (Recall) cho tất lj Yj từ lj Sj biện pháp F1 tính trung bình [ZPH09]: |L|  p j  r j | F1   | L | j 1 p j  r j (3.12) Kết đánh giá hệ thống: Sử dụng tỷ lệ 50:50 trên, hệ thống cho kết phân lớp sau: TIEU LUAN MOI download : skknchat@gmail.com 59 Bảng 3.11: Kết phân loại hệ thống với CC Class Precision Recall F1 KTDT 0.64706 0.73333 0.6875 TDH 0.63333 0.65517 0.64407 DTCN 0.88372 0.90476 0.89412 Accuracy 0.53097 DTD 0.84375 0.72973 0.78261 DTDD 0.66667 0.66667 0.66667 DTVT 0.66667 0.64 0.65306 Bảng 3.12: Kết phân loại hệ thống với ECC Class Accuracy KTDT TDH DTCN DTDD DTVT 0.75247 Tóm tắt chƣơng Trong chương 3, tác giả thi hành chương trình thực nghiệm, xem xét đánh giá kết trình thử nghiệm mơ hình phân lớp đa nhãn văn lĩnh vực điện tử Qua phân tích đánh giá thực nghiệm cho thấy tính đắn phương pháp sử dụng luận văn TIEU LUAN MOI download : skknchat@gmail.com 60 Kết luận định hƣớng phát triển Kết đạt đƣợc luận văn: Luận văn trình bày khái quát hệ thống phân lớp đa nhãn, đặc trưng tiếp cận phân lớp đa nhãn Khảo sát nhóm thuật tốn phân lớp đa nhãn Bayes bao gồm thuật toán chuỗi phân lớp đa nhãn (Classifier Chains – CC) gồm hai thành phần Training Classify; thuật toán chuỗi phân lớp đa nhãn cải tiến (Ensemble Classifier Chain – ECC) thuật toán phân lớp đa nhãn trực tuyến (Bayesian online Learning for Multi – label classification framework – BOMC) Luận văn xây dựng phần mềm thi hành thử nghiệm thuật toán chuỗi phân lớp đa nhãn cải tiến ECC cho miền lĩnh vực tài liệu điện tử Thực nghiệm đánh giá kết thực nghiệm cho sản phẩm hệ thống phân lớp đa nhãn tài liệu NVClassification (Naïve Bayes Classification) Định hƣớng phát triển: Nghiên cứu, triển khai giải pháp nâng cao hiệu hệ thống phần mềm xây dựng: đưa thêm số pha xử lý để hệ thống nhập liệu đầu vào dạng ngôn ngữ tự nhiên cấu trúc văn khác nhau, kể liệu vào đường link Internet, tăng số lượng lớp tài liệu huấn luyện TIEU LUAN MOI download : skknchat@gmail.com 61 TÀI LIỆU THAM KHẢO Tiếng Việt [HPDN09] Hà Quang Thụy, Phan Xn Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú Giáo trình khai phá liệu Web, Nhà xuất giáo dục Việt Nam, 2009 [HDNN06] Hà Quang Thuỵ, Đặng Thanh Hải, Nguyễn Cẩm Tú, Nguyễn Việt Cường, Nguyễn Thu Trang, Nguyễn Thị Thùy Linh, Nguyễn Thị Hương Thảo, Trần Thị Oanh Nghiên cứu, phân tích đánh giá thuật tốn lọc văn theo nội dung, 2006 Tiếng Anh [DCH10] Krzysztof Demb fczynski, Weiwei Cheng, Eyke Hüllermeier (2010) Bayes Optimal Multilabel Classification via Probabilistic Classifier Chains, ICML 2010: 279-286 [GM05] Ghamrawi, N and McCallum (2005) A Collective multilabel classification, CIKM ’05: 195–200 [GS04] Shantanu Godbole, Sunita Sarawagi (2004) Discriminative methods for multi-labeled classification, PAKDD’04 (8th Pacific-Asia Conference on Knowledge Discovery and Data Mining): 22–30 [JDMR01] Jacson D M Rennie, B S Computer Science Carnegie Mellon University, 1999 Improving Multi-class Text Classication with Naive Bayes, 2001: 2-40 [PC10] James Petterson, Tiberio Caetano (2010) Reverse Multi-Label Learning, Advances in Neural Information Processing Systems (NIPS) 2010 (Poster) [RD10] Piyush Rai, Hal Daume (2009) Multi-Label Prediction via Sparse Infinite CCA, Advances in Neural Information Processing Systems 22: 1518–1526 [TK07] G Tsoumakas, I Katakis (2007) Multi Label Classification: An Overview, International Journal of Data Warehousing and Mining (Idea Group Publishing - David Taniar, Ed ), 3(3): 1-13 [XL05] Xiao Luo, A Nur Zincir-Heywood (2005) Evaluation of Two Systems on Multi-class Multi-label Document Classification [ZGH10] Xinhua Zhang, Thore Graepel, Ralf Herbrich (2010) Bayesian Online Learning for Multi-label and Multi-variate Performance Measures, International Conference on Artificial Intelligence and Statistics, (AISTATS) 2010 [ZPH09] Jesse Read, Bernhard Pfahringer, Geoffrey Holmes, Eibe Frank (2009) Classifier Chains for Multi-label Classification, ECML/PKDD (2) 2009: 254-269 TIEU LUAN MOI download : skknchat@gmail.com 62 PHỤ LỤC Phụ lục I: Kết phân lớp chi tiết với thuật toán CC TDH-DTCN-DTD | DTCN-DTD-TDH KTDT-DTCN-DTDD | DTCN-DTDD-KTDT-TDH DTVT-KTDT-DTCN | DTCN-DTD-KTDT TDH-DTCN-DTD | DTCN-DTD-TDH TDH-DTCN-DTD | DTCN-DTD-KTDT TDH-DTCN-DTD | DTCN-DTD DTVT-TDH-DTCN-DTD | DTCN-DTD-TDH KTDT-DTCN-DTDD | DTCN-DTDD-DTD-TDH TDH-DTCN-DTD | DTCN-DTD-TDH TDH-DTCN-DTD | DTCN-DTD-TDH KTDT-DTCN-DTD-DTDD | DTCN-DTD-TDH DTVT-KTDT-DTDD | DTCN-KTDT-DTVT DTVT-KTDT-DTCN-DTDD | DTCN-DTDD-KTDT-DTVT DTVT-KTDT-DTCN-DTDD | DTCN-DTDD-DTD-KTDT-TDH KTDT-DTCN-DTDD | DTCN-DTDD-DTD-KTDT-DTVT KTDT-TDH-DTCN-DTD-DTDD | DTD-KTDT-DTVT DTVT-KTDT-DTCN-DTDD | DTCN-DTDD-KTDT DTVT-KTDT-DTCN-DTDD | DTCN-DTDD-KTDT-TDH-DTVT DTVT-KTDT-DTCN-DTDD | DTCN-DTDD-DTD-KTDT-TDH-DTVT KTDT-TDH-DTD-DTDD | DTCN-DTD-KTDT-DTVT DTVT-TDH-DTDD | DTCN-DTDD-KTDT-DTVT KTDT-DTCN-DTDD | DTCN-DTDD-KTDT-TDH TDH-DTCN-DTD | DTCN-DTDD-DTD-KTDT-TDH TDH-DTD | DTCN-DTDD-DTD-KTDT TDH-DTCN-DTD | DTCN-DTD-TDH DTVT-KTDT-DTD | DTCN-DTDD-KTDT-TDH-DTVT KTDT-DTCN-DTD-DTDD | DTCN-KTDT-DTVT KTDT-TDH-DTD | DTCN-KTDT-DTVT TDH-DTD | DTDD-KTDT-DTVT DTCN-DTD | KTDT-DTVT TDH-DTCN-DTD | DTCN-DTDD-DTD TIEU LUAN MOI download : skknchat@gmail.com 63 KTDT-DTCN-DTD | DTCN-DTD TDH-DTCN-DTD | DTCN-DTDD-KTDT-DTVT DTVT-KTDT-TDH | KTDT-DTVT DTVT-KTDT | KTDT-DTVT DTVT-KTDT | KTDT-DTVT DTVT-KTDT | DTDD-KTDT-DTVT DTVT-KTDT | DTDD-KTDT-DTVT DTVT-KTDT-DTD | KTDT-DTVT DTVT-TDH-DTD | DTCN-DTD-TDH DTVT-KTDT | KTDT-DTVT DTVT-KTDT | KTDT-DTVT DTVT-KTDT | DTCN-KTDT-DTVT DTVT-DTCN-DTDD | DTCN-DTDD-KTDT-DTVT DTVT | KTDT-DTVT DTVT-KTDT | DTCN-DTDD-KTDT-TDH-DTVT KTDT-TDH-DTDD | DTCN-KTDT-DTVT KTDT-DTCN-DTD-DTDD | DTCN-DTDD-KTDT-DTVT DTVT-KTDT-DTCN-DTDD | DTCN-DTDD-DTD-KTDT-TDH-DTVT KTDT-DTCN-DTD-DTDD | DTCN-DTD KTDT-DTCN-DTD | DTCN-DTD KTDT-DTCN | DTCN-KTDT-DTVT KTDT-DTCN-DTD | DTCN-DTD-TDH TDH-DTCN | DTCN-DTDD-DTD-TDH TDH-DTCN-DTD | DTCN-DTDD-DTD-KTDT-DTVT TDH-DTCN-DTD | DTCN-DTDD-DTD-TDH KTDT-TDH-DTCN-DTD | DTD-KTDT-DTVT DTVT-KTDT-TDH | DTDD-KTDT-DTVT TDH-DTCN-DTD | DTCN-DTD KTDT-TDH-DTCN-DTD | DTCN-DTD-KTDT-TDH TDH-DTCN-DTD | DTCN-DTD TDH-DTCN-DTD | DTCN-DTDD-DTD-KTDT TDH-DTCN-DTD | DTCN-DTD-TDH-DTVT DTVT-TDH | DTCN-DTDD-DTD-KTDT-DTVT TIEU LUAN MOI download : skknchat@gmail.com 64 Phụ lục II: Kết phân lớp chi tiết với thuật toán ECC KTDT-DTCN-DTDD | DTVT-KTDT-TDH-DTCN-DTDD TDH-DTCN-DTD | TDH-DTCN-DTD-DTDD KTDT-DTCN-DTD-DTDD | DTVT-KTDT-TDH-DTCN-DTD-DTDD DTVT-KTDT-DTDD | DTVT-KTDT-DTDD DTVT-KTDT-DTCN-DTDD | DTVT-KTDT-TDH-DTCN-DTDD DTVT-KTDT-DTCN-DTDD | DTVT-KTDT-TDH-DTCN-DTDD KTDT-TDH-DTCN-DTDD | DTVT-KTDT-TDH-DTCN-DTDD TDH-DTCN-DTD | KTDT-TDH-DTCN-DTD-DTDD TDH-DTD | TDH-DTCN-DTD DTVT-KTDT-DTD | DTVT-KTDT-DTCN-DTD DTVT-KTDT-DTCN-DTD | DTVT-KTDT-TDH-DTCN-DTD-DTDD TDH-DTCN-DTD | TDH-DTCN-DTD KTDT-TDH-DTCN-DTD-DTDD | KTDT-TDH-DTCN-DTD-DTDD KTDT-DTCN-DTD | KTDT-TDH-DTCN-DTD KTDT-DTCN-DTD | KTDT-TDH-DTCN-DTD DTVT-KTDT | DTVT-KTDT DTVT-KTDT | DTVT-KTDT-DTDD KTDT-TDH-DTDD | DTVT-KTDT-TDH-DTCN-DTDD KTDT-DTCN-DTD | DTVT-KTDT-TDH-DTCN-DTD-DTDD KTDT-DTCN-DTD | KTDT-TDH-DTCN-DTD TDH-DTCN-DTDD | TDH-DTCN-DTD-DTDD TDH-DTCN-DTD | TDH-DTCN-DTD DTVT-KTDT-TDH | DTVT-KTDT-TDH-DTDD DTVT-KTDT-TDH | DTVT-KTDT-TDH TIEU LUAN MOI download : skknchat@gmail.com ... CHĂM MỘT LỚP THUẬT TỐN BAYES PHÂN LỚP ĐA NHÃN VÀ ÁP DỤNG VÀO PHÂN LỚP VĂN BẢN ĐA NHÃN LĨNH VỰC ĐIỆN TỬ Ngành: Công nghệ Thông tin Chuyên ngành: Hệ thống Thông tin Mã số: 60 48 05 LUẬN VĂN THẠC... quát phân lớp đa nhãn văn bản, cách thức phương pháp phân lớp đa nhãn văn Đồng thời giới thiệu toán phân lớp đa nhãn văn ứng dụng vào việc phân lớp đa nhãn tài liệu Trong chương tiếp theo, luận văn. .. thiệumột số thuật toán phân lớp đa nhãn Bayes TIEU LUAN MOI download : skknchat@gmail.com 23 CHƢƠNG THUẬT TOÁN PHÂN LỚP ĐA NHÃN BAYES Có nhiều thuật tốn hỗ trợ phân lớp đa nhãn văn như: thuật toán

Ngày đăng: 27/06/2022, 15:42

HÌNH ẢNH LIÊN QUAN

Bảng các ký hiệu và chữ viết tắt - (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử
Bảng c ác ký hiệu và chữ viết tắt (Trang 8)
Bảng các ký hiệu và chữ viết tắt - (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử
Bảng c ác ký hiệu và chữ viết tắt (Trang 8)
Bảng 1.1: Mẫu bộ dữ liệu đanhãn - (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử
Bảng 1.1 Mẫu bộ dữ liệu đanhãn (Trang 18)
Bảng 1.2 và Bảng 1.3 cho thấy bộ dữ liệu được chuyển đổi bằng cách sử dụng  phương  pháp  PT1  và PT2 - (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử
Bảng 1.2 và Bảng 1.3 cho thấy bộ dữ liệu được chuyển đổi bằng cách sử dụng phương pháp PT1 và PT2 (Trang 18)
H:X→P(L), trong đĩ P(L) là tập hiệu suất của L. Bảng 1.4 cho thấy kết quả của việc chuyển đổi dữ liệu của Bảng 1.1 bằng cách sử dụng phương pháp này - (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử
trong đĩ P(L) là tập hiệu suất của L. Bảng 1.4 cho thấy kết quả của việc chuyển đổi dữ liệu của Bảng 1.1 bằng cách sử dụng phương pháp này (Trang 19)
Hình 1.1: Bốn tập hợp dữ liệu được PT4 tạo ra - (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử
Hình 1.1 Bốn tập hợp dữ liệu được PT4 tạo ra (Trang 20)
Bảng 1.5: Dữ liệu được chuyển đổi bằng phương pháp PT5 - (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử
Bảng 1.5 Dữ liệu được chuyển đổi bằng phương pháp PT5 (Trang 21)
Bảng 1.6: Dữ liệu được chuyển đổi bằng phương pháp PT6 - (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử
Bảng 1.6 Dữ liệu được chuyển đổi bằng phương pháp PT6 (Trang 23)
Sử dụng đồ thị được mơ tả trong hình 2.3 (bên dưới đường kẻ đứt), giả định lớp 2 là lớp đúng,  a c = wc,x  là một biến số tuyến tính, được mã hĩa bằng  cơng thức:  - (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử
d ụng đồ thị được mơ tả trong hình 2.3 (bên dưới đường kẻ đứt), giả định lớp 2 là lớp đúng, a c = wc,x là một biến số tuyến tính, được mã hĩa bằng cơng thức: (Trang 37)
Theo định nghĩa, sản phẩm của các yếu tố dưới phần nét đứt trong hình 2.3 là tỷ lệ thuận với αp(y,a, f, d|w, x), trong đĩ α là độc lập với w - (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử
heo định nghĩa, sản phẩm của các yếu tố dưới phần nét đứt trong hình 2.3 là tỷ lệ thuận với αp(y,a, f, d|w, x), trong đĩ α là độc lập với w (Trang 38)
Hình 2.5: Phân lớpđa nhãn thơng qua thứ tự tổng và xu hướng chung - (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử
Hình 2.5 Phân lớpđa nhãn thơng qua thứ tự tổng và xu hướng chung (Trang 39)
Cấu hình phần cứng - (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử
u hình phần cứng (Trang 40)
Dựa vào mơ hình đề xuất ở chương 2, tác giả tiến hành thu thập dữ liệu, trích  xuất  đặc  trưng  cho  từng  văn  bản  (document)  và  tổng  hợp  đặc  trưng  liên  quan tới truy vấn - (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử
a vào mơ hình đề xuất ở chương 2, tác giả tiến hành thu thập dữ liệu, trích xuất đặc trưng cho từng văn bản (document) và tổng hợp đặc trưng liên quan tới truy vấn (Trang 40)
Hình 3.2: Cấu trúc một tài liệu huấn luyện .XML - (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử
Hình 3.2 Cấu trúc một tài liệu huấn luyện .XML (Trang 44)
Bảng dưới cho thấy việc tổ chức các thành phần trong 1 tài liệu huấn luyện cĩ cấu trúc và dễ dàng cho việc trích chọn thơng tin:  - (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử
Bảng d ưới cho thấy việc tổ chức các thành phần trong 1 tài liệu huấn luyện cĩ cấu trúc và dễ dàng cho việc trích chọn thơng tin: (Trang 44)
- Chọn nơi lưu tài liệu: Tài liệu thuộc lớp nào sẽ lưu vào lớp đĩ như hình dưới.   - (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử
h ọn nơi lưu tài liệu: Tài liệu thuộc lớp nào sẽ lưu vào lớp đĩ như hình dưới. (Trang 45)
Hình 3.4: Cơng cụ kiểm tra dữ liệu học - (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử
Hình 3.4 Cơng cụ kiểm tra dữ liệu học (Trang 46)
+ Huấn luyện mơ hình - (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử
u ấn luyện mơ hình (Trang 47)
Hình 3.6: Một tài liệu trước khi tiền xử lý - (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử
Hình 3.6 Một tài liệu trước khi tiền xử lý (Trang 49)
Bước 4. Đưa dữ liệu học vào hệ thống, đưa ra mơ hình phân lớp. - (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử
c 4. Đưa dữ liệu học vào hệ thống, đưa ra mơ hình phân lớp (Trang 52)
Bảng 3.5: Các gĩi cài đặt phía Server - (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử
Bảng 3.5 Các gĩi cài đặt phía Server (Trang 53)
Hình 3.9: Khởi động Server để nhận yêu cầu phân lớp từ Client. - (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử
Hình 3.9 Khởi động Server để nhận yêu cầu phân lớp từ Client (Trang 54)
Hình 3.8: Giao diện ứng dụng trên Client - (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử
Hình 3.8 Giao diện ứng dụng trên Client (Trang 54)
Bảng 3.6: Ví dụ một tài liệu đầu vào - (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử
Bảng 3.6 Ví dụ một tài liệu đầu vào (Trang 55)
Bảng 3.7: Vector tài liệu đầu vào - (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử
Bảng 3.7 Vector tài liệu đầu vào (Trang 56)
Hình 3.10: Kết quả phân lớp - (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử
Hình 3.10 Kết quả phân lớp (Trang 56)
Bảng 3.8: Thống kê dữ liệu huấn luyện của các lớp - (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử
Bảng 3.8 Thống kê dữ liệu huấn luyện của các lớp (Trang 57)
tài liệu được thể hiện dưới bảng sau: - (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử
t ài liệu được thể hiện dưới bảng sau: (Trang 58)
Bảng 3.10: Bảng ký hiệu - (LUẬN văn THẠC sĩ) một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử
Bảng 3.10 Bảng ký hiệu (Trang 59)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w