Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 39 trang
THÔNG TIN TÀI LIỆU
Cấu trúc
XÂY DỰNG HỆ THỐNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP MÁY VÉC-TƠ HỖ TRỢ KẾT HỢP CÁC PHƯƠNG PHÁP TỐI ƯU KÍCH THƯỚC DỮ LIỆU
Nội dung trình bày
Đặt vấn đề
Slide 4
Mô hình hóa bài toán (tiếp)
Slide 6
Đặt vấn đề (tiếp)
Các phương pháp học máy phân loại văn bản
Phân loại với SVM
Phân loại với SVM (tiếp)
Slide 11
Slide 12
Sơ đồ tổng quan Hệ thống phân loại văn bản tiếng Việt
Slide 14
Ma trận Term-Doc
Slide 16
Bài toán giảm chiều đặc trưng (tiếp)
Phương pháp LSI/SVD
Slide 19
Thuật toán giảm chiều LSI/SVD
Phương pháp Centroid
Thuật toán giảm chiều Centroid
Phương pháp Orthogonal Centroid
Thuật toán giảm chiều Orthogonal Centroid
Phương pháp LDA/GSVD
Phương pháp LDA/GSVD (tiếp)
Thuật toán giảm chiều LDA/GSVD
Sơ đồ tổng quan Hệ thống phân loại văn bản tiếng Việt kết hợp các phương pháp tối ưu kích thước dữ liệu
Kết quả thực nghiệm
Dữ liệu huấn luyện và kiểm thử
Đồ thị biểu diễn độ chính xác phân loại trên mỗi chuyên mục trường hợp văn bản tách thành các từ sử dụng hàm nhân RBF (mũ=1.5)
Đồ thị biểu diễn độ chính xác phân loại trên mỗi chuyên mục trường hợp văn bản tách thành các từ sử dụng hàm nhân RBF (mũ=1.5) và thuật toán giảm chiều LSI/SVM (k=6)
Đồ thị. Độ chính xác phân loại trên mỗi chuyên mục và trên toàn bộ tập dữ liệu trường hợp văn bản tách thành các từ sử dụng thuật toán giảm chiều Centroid
Đồ thị. Độ chính xác phân loại trên mỗi chuyên mục và trên toàn bộ tập dữ liệu trường hợp văn bản tách thành các từ sử dụng thuật toán giảm chiều Orthogonal Centroid
Đồ thị. Độ chính xác phân loại trung bình trong 4 trường hợp SVM kết hợp với (Full, Centroid, Orthogonal Centroid, LSI/SVD) khi dữ liệu văn bản được tách thành các từ.
Slide 36
Đồ thị. Độ chính xác phân loại trung bình trong 4 trường hợp SVM kết hợp với (Full, Centroid, Orthogonal Centroid, LSI/SVD) khi dữ liệu văn bản được tách thành các âm tiết
Slide 38
Kết luận
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Đức Hồng XÂY DỰNG HỆ THỐNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP MÁY VÉC-TƠ HỖ TRỢ KẾT HỢP CÁC PHƯƠNG PHÁP TỐI ƯU KÍCH THƯỚC DỮ LIỆU Ngành: Công nghệ thông tin Chuyên ngành: Công nghệ phần mềm Mã số: 60 48 10 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Lê Anh Cường Nội dung trình bày • Đặt vấn đề • Các phương pháp học máy phân loại văn • Các phương pháp giảm chiều đặc trưng • Kết thực nghiệm • Kết luận Đặt vấn đề • • • • Giới thiệu Ứng dụng Mơ hình hóa toán Các vấn đề đặt luận văn Đặt vấn đề • Giới thiệu: Phân loại văn nhiệm vụ học có giám sát cho mợt số lớp văn bản xác định trước, yêu cầu gán nhãn cho văn vào một (hay một số) lớp văn bản thích hợp dựa vào nội dung văn • Ứng dụng: Hệ thống phân loại văn ứng dụng hệ thống lọc thư rác (mail spam), dịch máy, tóm tắt văn bản, tìm kiếm,… Mơ hình hóa tốn (tiếp) - Biểu diễn văn bản: Ví dụ: • Cho văn D = “Khi tất nghĩ hai đội mạnh Đông Nam Á sửa vào hai hiệp phụ bất ngờ đầu vàng Lê Cơng Vinh đội lên tích tắc mang cúp AFF cho đội tuyển Việt Nam ” • Được phân đoạn sau: • D = “Khi tất_cả nghĩ hai đội mạnh Đông_Nam_Á sắp_sửa vào hai hiệp_phụ bất_ngờ đầu vàng Lê_Cơng_Vinh đội lên tích_tắc mang cúp_AFF cho đội_tuyển Việt_Nam” • Tập từ khóa (bộ từ điển): “Thể_thao, Bóng_đá, Đội_tuyển, Đơng_Nam_Á, Cúp_AFF, Việt_Nam” Văn D biểu diễn phương pháp tần suất là: D = (0,0,1,1,1,1) Mơ hình hóa tốn (tiếp) - Biểu diễn tốn: n • Input space: X = {x1 , x2 , , xn } ∈ R • Output space: Y = {y1 ,y , ,y n } ∈{-1,+1} • Tập liệu huấn luyện: S = {(x1 ,y1 ),(x ,y ), ,(x n ,y n )} • Hàm f ánh xạ từ tập X vào tập Y • f: X→Y • Giải tốn phân loại tìm tối ưu hóa hàm f • Lớp hàm f lớp hàm tuyến tính Đặt vấn đề (tiếp) • Các vấn đề đặt luận văn: - Vấn đề giảm chiều đặc trưng - Sử dụng phương pháp học máy SVM Các phương pháp học máy phân loại văn • Các phương pháp: - Bayes (Mitchell, 1996) Cây định (Fuhr et al, 1991) Véc-tơ trọng tâm (Centroid- based vector) (Han Karypis, 2000) k-láng giềng gần (Yang, 1994) Mạng nơron (Wiener et al, 1995) Support vector machines (Joachims, 1998) Phân loại với SVM • Cho tập liệu { ( xi , yi ) | i = 1,2, , n, xi ∈ R , yi ∈{-1,+1} } n Mặt siêu phẳng lề tối ưu h(w, b) Các mẫu dương Các mẫu âm d (w, b, xi ) wxT + b = • Các mặt siêu phẳng có phương trình w véctơ trọng số, b độ dịch , Phân loại với SVM (tiếp) • Bộ phân loại SVM định nghĩa: f ( x) = sign(w T x + b) • • • f ( z ) = +1,if z ≤ f ( z ) = −1,if z < Trong Nếu f(x)=+1 x thuộc lớp dương (lĩnh vực quan tâm) Nếu f(x)=-1 x thuộc lớp âm (các lĩnh vực khác) Phương pháp LDA/GSVD • LDA tính tốn tối ưu hóa phép biến đổi cách cực tiểu hóa khoảng cách within-class cực đại hóa khoảng cách between-class nhằm đạt cực đại hóa phân tách lớp (class discrimination) • Phép biến đổi tối ưu LDA thực phân tích giá trị riêng ma trận phân tách Phương pháp LDA/GSVD (tiếp) (1) Ma trận phân tách lớp (Within-class scatter matrix) Hw = ∑1≤ i≤ r ∑ j (aj – ci ) (aj – ci )T N ∈i (2) Ma trận phân tách lớp (Between-class scatter matrix) Hb = ∑1≤ i≤ r ∑ j ∈ i (ci – c) (ci – c)T N (3) Ma trận tổng ma trận phân tách (Total scatter matrix) St = ∑1≤ i≤ n (ai – c ) (ai – c )T Với : Sw + Sb = St Thuật tốn giảm chiều LDA/GSVD • Input: Cho ma trận A∈ ¡ chuyên mục) mxn với k chủ đề (k H b = n1 (c1 − c), , nk (ck − c) ∈ ¡ mxk H w = [ ( A1 − e1e1 ), ,( Ak − ek ek ) ] ∈ ¡ T Hb R T Tính SVD Z = p Q với Z = T ∈ ¡ ( k + n ) xm HW 0 0 Lấy t = rank ( H ) T Tính SVD P (1: k ,1: t ) = U ∑ A W R −1W Tính (k − 1) cột ma trận X = Q ÷ đặt kết I 0 vào ma trận G Y = G T A • Output: Y ∈ ¡ kxn mxn Dữ liệu văn huấn luyện Dữ liệu văn kiểm thử Xử lý liệu văn huấn luyện biểu diễn văn Xử lý liệu văn kiểm thử biểu diễn văn Ma trận Term-Doc Ma trận Term-Doc Biến đổi giảm chiều (LSI, Centroid, Centroid Orthogonal) Biến đổi giảm chiều (LSI, Centroid, Centroid Orthogonal) Ma trận Term-Doc (k