1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân loại văn bản sử dụng mô hình xá suất trên đa tạp văn bản

67 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGÔ VĂN LINH PHÂN LOẠI VĂN BẢN SỬ DỤNG MƠ HÌNH XÁC SUẤT TRÊN ĐA TẠP VĂN BẢN Chuyên ngành : Công Nghệ Thông Tin LUẬN VĂN THẠC SĨ KHOA HỌC CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC : Hà Nội – Năm 2013 Tai ngay!!! Ban co the xoa dong chu nay!!! 17061131808051000000 Ngô Văn Linh Phân loại văn Năm 2013 LỜI CAM ĐOAN Tôi - Ngô Văn Linh - xin cam kết Luận văn tốt nghiệp cơng trình nghiên cứu thân hướng dẫn PGS.TS Nguyễn Thị Kim Anh, Viện CNTT-TT, trường Đại học Bách khoa Hà Nội Các kết nêu Luận văn tốt nghiệp trung thực, khơng chép tồn văn cơng trình khác Hà Nội, ngày tháng năm 2013 Học viên thực luận văn Ngô Văn Linh Ngô Văn Linh Phân loại văn Năm 2013 Lời cảm ơn Đầu tiên, em xin gửi lời cảm ơn chân thành đến thầy giáo, cô giáo thuộc trường đại học Bách Khoa Hà Nội Đặc biệt thầy giáo, cô giáo thuộc Viện Cơng nghệ Thơng tin Truyền Thơng Chính thầy cô giáo trang bị cho em kiến thức quý báu thời gian em học tập nghiên cứu trường Đồng thời em xin gửi lời cảm ơn đặc biệt đến PGS.TS Nguyễn Kim Anh Cơ người dẫn tận tình, cho em kinh nghiệm quý báu để em hồn thành luận văn tốt nghiệp Cơ ln động viên, giúp đỡ em thời điểm khó khăn bế tắc Em xin gửi làm cảm ơn chân thành tới thầy cô thuộc môn Hệ thống thông tin hướng dẫn, chia kinh nghiệm, thảo luận giúp cho luận văn hoàn thành Em xin gửi lời cảm ơn tới bạn Nguyễn Thế Tâm, Nguyễn Khắc Tới, Lê Hồng Kỳ bạn KSTN CNTT K55, K57 giúp đỡ, đọc góp ý em q trình hồn thành nội dung luận văn Em xin gửi lời cảm ơn tới gia đình bạn bè Lời động viên tinh thần từ gia đình bạn bè ln động lực để em tiến lên phía trước Ngơ Văn Linh Phân loại văn Năm 2013 Tóm tắt nội dung Phân loại tài liệu kĩ thuật thiết yếu vấn đề thu thập khai phá thông tin văn Trong giới thực, liệu chưa gán nhãn thực sẵn có việc gán nhãn cho chúng thường công việc đòi hỏi thời gian, tốn Luận văn đề xuất hai phương pháp phân loại văn dựa phương pháp học bán giám sát với mơ hình trộn phân phối vMF phân phối Watson cấu trúc hình học văn bản, gọi LapSSvMFs LapSSWatsons, thuật toán xét đến cấu trúc hình học khơng gian tài liệu để khai thác liệu có nhãn liệu khơng có nhãn cho tốn phân loại Đóng góp luận văn là: Luận văn đề xuất phương pháp học bán giám sát với mơ hình trộn phân phối vMF (SSvMFs) phân phối Watson (SSWatsons) để khai thác liệu có nhãn liệu khơng nhãn cho tốn phân loại Luận văn phát triển thuật toán suy diễn biến phân cho xác suất hậu nghiệm biến ẩn Luận văn đề xuất phương pháp chuẩn tắc học SSvMFs SSWatsons với cấu trúc hình học văn có mã hóa thơng tin cấu trúc hình học phương pháp suy diễn Bayesian Thử nghiệm phương pháp đề xuất thu kết tốt phương pháp khác phân loại liệu đơn đa nhãn Ngô Văn Linh Phân loại văn Năm 2013 Abstract Document classifications is essential to information retrieval and text mining In real life, unlabeled data is readily available whereas labeled ones are often laborious, expensive and slow to obtain This thesis proposes two novel document classification algorithms approach based on semi-supervised vMF mixture model and Watson mixture model on document manifold, called Laplacian regularized Semi-Supervised vMF Mixture Model (LapSSvMFs) and Watson Mixture Model (LapSSWatsons), which explicitly considers the manifold structure of document space to exploit efficiently both labeled and unlabeled data for classification Main contributions in this thesis are as follows: Thesis proposes Semi-Supervised vMF Mixture Model and Watson Mixture Model to exploit both labeled and unlabeled data for document classification Thesis has developed a mean-field variational inference algorithm for the posterior distribution of the latent variables Thesis proposes two new regularization frameworks to learn SSvMFs and SSWatsons with document manifold structure for encoding manifold information into variational Bayesian method The experimental results show that proposed methods outperform the state-of-the-art methods applying to labeled and multilabeled text classifications Ngô Văn Linh Phân loại văn Năm 2013 Mục lục GIỚI THIỆU 10 1.1 Phân loại liệu 10 1.2 Mơ hình tốn phân loại 12 1.2.1 Biểu diễn mẫu 12 1.2.2 Phân loại 15 1.2.3 Đánh giá 16 1.3 Tổ chức luận văn 16 PHÂN LOẠI ĐƠN NHÃN 18 2.1 Bài toán phân loại đơn nhãn 18 2.2 Phân phối von Mises Fisher (vMF) 21 2.3 Mô hình phân loại bán giám sát dựa mơ hình trộn phân phối vMF (SSvMFs) 22 2.4 Mơ hình phân loại bán giám sát dựa mơ hình trộn phân phối vMFs đa tạp văn (LapSSvMFs) 27 2.5 Thử nghiệm đánh giá 31 2.5.1 Tập liệu thí nghiệm (Datasets) 31 2.5.2 Độ đo đánh giá 31 2.5.3 Các thuật toán sử dụng để so sánh (baselines) 32 2.5.4 Kết thí nghiệm 34 PHÂN LOẠI ĐA NHÃN 35 3.1 Bài toán phân loại đa nhãn 35 3.2 Phân phối Watson 37 3.3 Mơ hình phân loại bán giám sát cho liệu đa nhãn sử dụng mơ hình trộn phân phối Watson (SSWatsons) 38 Ngô Văn Linh Phân loại văn Năm 2013 3.4 Mơ hình phân loại bán giám sát cho liệu đa nhãn sử dụng mơ hình trộn phân phối Watson đa tạp văn (LapSSWatsons) 42 3.5 Thử nghiệm đánh giá 45 3.5.1 Tập liệu thí nghiệm 45 3.5.2 Độ đo đánh giá 45 3.5.3 Các thuật toán so sánh 48 3.5.4 Kết thí nghiệm 49 KẾT LUẬN 50 A Ước lượng tham số với SSvMFs 55 B Ước lượng tham số với SSWatsons 62 Ngô Văn Linh Phân loại văn Năm 2013 Danh sách từ viết tắt thuật ngữ TF-IDF Term Frequency-Inverse Document Frequency DF Document Frequency TC Term Contribution IG Information Gain LDA Latent Dirichlet Allocation PLSI Probabilistic Latent Semantic Indexing FSTM Fully Sparse Topic Model VB Variational Bayesian vMF von Mises Fisher Distribution LP Label Propagation SVM Support Vector Machine Labeled LDA Labeled Latent Dirichlet Allocation SSvMFs Semi-Supervised Mixture Model of vMF Distributions SSWatson Semi-Supervised Mixture Model of Watson Distributions LapSSvMFs SSvMFs on Document Manifold LapSSWatsons SSWatsons on Document Manifold Ngô Văn Linh Phân loại văn Năm 2013 Danh sách hình vẽ Các bước tốn phân loại 12 Mơ hình đồ thị cho SSvMFs 23 Kết thử nghiệm tập liệu classic, NG17-19, la1 and k1b 33 Mơ hình đồ thị cho SSWatsons 39 Kết phân loại đa nhãn với phương pháp LapSSWatsons, SSWatsons, LapSSvMFs, SSvMFs LP datasets: Recreation, Education, Health and Arts 47 Hiệu phân loại đa nhãn thay đổi số lượng chủ đề 49 Ngô Văn Linh Phân loại văn Năm 2013 Danh sách bảng Sơ lược tập liệu (với tập liệu: nd tổng số lượng văn bản, nw tổng số lượng từ, k tổng số lớp, nc trung bình số lượng tài liệu lớp, độ cân bằng) 32 Thống kê tập liệu yahoo: m, d, N định nghĩa số lượng nhãn, số lượng chiều (từ điển), tổng số lượng tài liệu tập liệu sau tiền xử lý “MaxNPI”/“MinNPI” định nghĩa số lượng maximum/minimum văn thuộc nhãn lớp (positive instances for each label) 45 Bảng tổng hợp hiệu LapSSWatsons, Labeled-LDA SVM sử dụng độ đo Micro-F1 Macro-F1 datasets 46

Ngày đăng: 26/01/2024, 15:50

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN