Phân loại văn bản và ứng dụng vào phân loại tin tức điện tử (tt)

16 7 0
Phân loại văn bản và ứng dụng vào phân loại tin tức điện tử (tt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - NGUYỄN THỊ PHƢƠNG THÚY PHÂN LOẠI VĂN BẢN VÀ ỨNG DỤNG VÀO PHÂN LOẠI TIN TỨC ĐIỆN TỬ Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2014 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS.TS Từ Minh Phương Phản biện 1: TS Nguyễn Phương Thái Phản biện 2: PGS.TS Đỗ Trung Tuấn Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thơng Vào lúc: 00 ngày 15 tháng 02 năm 2014 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thơng LỜI MỞ ĐẦU Hiện nay, song song với phát triển mạnh mẽ khoa học kỹ thuật, nhu cầu cập nhật thông tin người ngày nâng cao, báo điện tử đời nhằm cung cấp thơng tin nhanh, xác, đầy đủ, cập nhật kịp thời cách trình bày thu hút Với báo điện tử, độc giả truy cập tin tức đâu không phụ thuộc vào môi trường làm việc miễn máy tính họ có kết nối Internet có cài đặt trình duyệt web tuân thủ tiêu chuẩn Báo tự động cập nhật tin tức loại báo điện tử có khả tổng hợp tin tức mới, cập nhật từ nhiều nguồn báo điện tử, sau phân loại, tổ chức, xếp tin tức theo Báo giúp người đọc tìm kiếm tin tức theo cách hoàn toàn Mỗi mẩu tin hiển thị kèm với nguồn tin khác đưa tin tin tương tự Ngoài ra, báo giúp bạn tiếp cận báo điện tử cách hiệu báo tiện lợi tiết kiệm thời gian đọc tin tức Tuy nhiên, ngày báo điện tử cung cấp hàng trăm tin tức số lượng báo điện tử lớn, vấn đề đặt trang báo điện tử tự động phân loại tin tức với số lượng lớn từ nhiều nguồn khác vào chủ đề tương ứng mà đảm bảo tính chất “nhanh, cập nhật kịp thời” báo điện tử? Việc phân loại thực bàn tay người số lượng tin tức lớn, dẫn đến cần nhiều nhân lực, gây tốn phân loại khơng xác Do vậy, cần giải pháp phân loại tin tức tự động, để phân loại xác nhanh chóng Xuất phát từ ý tưởng này, chọn đề tài “Phân loại văn ứng dụng vào phân loại tin tức điện tử” làm đề tài luận văn thạc sĩ Luận văn gồm chương với nội dung sau: Chương 1: Tổng quan phân loại văn toán phân loại tin tức điện tử Chương nêu tổng quan phân loại văn bản, vai trò ứng dụng phân loại văn nay, từ nêu tốn phân loại tin tức điện tử Sau đó, giới thiệu tổng quan kỹ thuật trích chọn đặc trưng văn phương pháp áp dụng để phân loại Chương 2: Trích chọn đặc trưng phân loại văn với Naive Bayes SVM Chương nêu đặc điểm tin tức điện tử tập trung nghiên cứu vấn đề phân loại văn trích chọn đặc trưng văn phân loại văn (cụ thể luận văn, văn tin tức điện tử) Luận văn lựa chọn phương pháp Naïve Bayes SVM để phân loại văn mới, chương trình bày chi tiết sở lý thuyết phương thức phân loại phương pháp lựa chọn Chương 3: Thử nghiệm đánh giá Chương trình bày mơ hình phân loại mà luận văn đề xuất chương cách thức cài đặt mơ hình Tiếp theo thử nghiệm phân loại Naïve Bayes SVM tập liệu tin tức điện tử thu thập phân lớp xây dựng Cuối thực đánh giá so sánh kết thử nghiệm phân loại 3 CHƢƠNG – TỔNG QUAN VỀ PHÂN LOẠI VĂN BẢN VÀ BÀI TOÁN PHÂN LOẠI TIN TỨC 1.1 Tổng quan phân loại văn 1.1.1 Khái niệm phân loại văn Phân loại văn trình gán nhãn (tên lớp/nhãn lớp) văn ngôn ngữ tự nhiên vào hay nhiều lớp cho trước 1.1.2 Phân loại toán phân lớp văn 1.2 Phân loại tin tức báo điện tử 1.2.1 Báo điện tử 1.2.2 Phân loại tin tức báo điện tử Bài toán phân loại tin tức điện tử phát biểu sau: Gọi X tập tin tức cần phân loại Y tập chủ đề gán cho các tin tức Khi ta cần phải tin tức x  X thuộc vào chủ đề y  Y Trong đó, x bao gồm từ, cụm từ, câu dùng cho nhiệm vụ phân loại 1.3 Tiền xử lý trích chọn đặc trƣng 1.4 Các phƣơng pháp phân loại văn 1.4.1 Phương pháp K-Nearest Neighbor (kNN) 1.4.2 Phương pháp Naïve Bayes 1.4.3 Phương pháp SVM 1.4.4 Phương pháp định 1.4.5 Phương pháp sử dụng mạng Nơron 1.4.6 So sánh phương pháp phân loại văn Phương pháp Nạve Bayes SVM thích hợp việc phân loại văn với liệu lớn cách nhanh chóng hiệu Đây lý mà luận văn chọn thuật tốn Nạve Bayes SVM để nghiên cứu giải toán phân loại tin tức điện tử 1.5 Kết luận Chương trình bày tổng quan toán phân loại văn phát biểu ứng dụng phân loại văn toán phân loại tin tức điện tử Sau tìm hiểu phương pháp phân loại khác nhau, chương 1, luận văn nêu lên lý chọn hai phương pháp Naïve Bayes SVM để nghiên cứu CHƢƠNG – TRÍCH CHỌN ĐẶC TRƢNG VÀ PHÂN LOẠI VĂN BẢN VỚI NAÏVE BAYES VÀ SVM 2.1 Đặc điểm tin tức điện tử 2.2 Tiền xử lý 2.2.1 Lọc nhiễu 2.2.2 Loại bỏ stop-word 2.2.3 Cây phân lớp 2.3 Xây dựng đặc trƣng 2.3.1 Lựa chọn đặc trưng 2.3.2 Đánh trọng số cho đặc trưng 2.4 Phƣơng pháp phân loại Naïve Bayes 2.2.1 Lý thuyết xác suất Bayes Theo lý thuyết học Bayes, nhãn phân loại xác định cách tính xác suất điều kiện nhãn quan sát thấy tổ hợp giá trị thuộc tính Thuộc tính chọn, ký hiệu cMAP thuộc tính có xác suất điều kiện cao tức là: y = cMAP = arg max P(c j| x1 , x , , x n ) c j C (2.7) Sử dụng quy tắc Bayes, biểu thức viết lại sau: c MAP = arg max c j C P(x1 , x , , x n|c j )P(c j ) P(x1 , x , , x n )  argmax P(x1 , x , , x n|c j )P(c j ) (2.8) c j C Giá trị P(cj) tính tần suất quan sát thấy nhãn cj tập huấn luyện, tức số mẫu có nhãn cj chia cho tổng số mẫu Việc tính P(x1, x2, ,xn|cj) khó khăn nhiều Để tính giá trị này, ta giả sử thuộc tính độc lập xác suất với biết nhãn phân loại cj Với giả thiết tính độc lập xác suất có điều kiện P(x1, x2, ,xn|cj) viết lại sau: P(x1, x2, ,xn | cj) = P(x1 | cj) P(x2 | cj) … P(xn | cj) (2.9) Tức xác suất đồng thời quan sát thấy thuộc tính tích xác suất điều kiện thuộc tính riêng lẻ Thay vào biểu thức (2.8) ta phân loại Bayes đơn giản (có đầu ký hiệu cNB) sau: c NB = arg max P(c j )  P( xi | c j ) c j C (2.10) i 2.2.4 Phân loại văn dựa Naïve Bayes Để sử dụng phân loại Bayes đơn giản, nội dung tin tức biểu diễn  vectơ x = (x1, x2, …, xn), x1, x2, …, xn giá trị đặc trưng X1, X2,…, Xn Mỗi đặc trưng từ cụm từ Ở đây, n số lượng đặc trưng xác định từ toàn tập liệu huấn luyện, tức số lượng từ/cụm từ khác tập liệu huấn luyện Mỗi tin tức gán nhãn phân loại Y = {y1, y2, …, ym} Để xác định nhãn phân loại cho thư, phân loại Bayes tính xác suất điều kiện: P (Y = y | X1 = x1,…, Xn = xn) (2.11) tức xác suất tin tức với nội dung (x1, x2, …, xn) nhận nhãn phân loại y, y  {y1, y2, …, ym} Sử dụng công thức Bayes, xác suất tính sau: P(Y  y | X  x1 , , X n  x n )  P( X  x1 , , X n  x n | Y  y )  P(Y  y ) P( X  x1 , , X n  x n ) (2.12) Trong công thức (2.12), giá trị mẫu số không phụ thuộc vào nhãn phân loại bỏ qua Nhãn phân loại Y nhãn tương ứng với giá trị lớn tử số Cụ thể, trường hợp phân loại tin tức điện tử, nhãn tin tức xác định cách tính giá trị biểu thức: (2.13) Xác suất P(Y = y) tập liệu huấn luyện tính dễ dàng cách đếm tần   suất xuất tin tức có nhãn y Việc xác định P ( X = x | Y = y) phức tạp nhiều  phải tính tất tổ hợp giá trị vectơ X đòi hỏi lượng liệu huấn luyện lớn tương   ứng Có số cách tính giá trị P ( X = x | Y = y) khác tương ứng với phiên khác phương pháp phân loại văn sử dụng Bayes đơn giản Trong nghiên cứu này, luận văn tìm hiểu hai phiên thơng dụng nhất: Bayes đơn giản với mơ hình Bécnuli đa trị (multivariate Bernoulli nạve Bayes) Bayes đơn giản với mơ hình đa thức (multinomial naïve Bayes) 6 Phân loại Bayes đơn giản với mơ hình Bécnuli đa trị n P( X  x1 , , X n  xn | Y  y )   P( f i | Y  y ) xi (1  P( f i | Y  y )) (1 xi ) (2.14) i 1 Trong đó, xác suất P(fi| Y = y) tỷ lệ tin tức với nhãn y đồng thời có chứa fi số tin tức có nhãn y Tỷ lệ tính tập liệu huấn luyện Xác suất P(fi | Y = y) tính sau: P( f i | Y  y )  N y , fi  (2.15) Ny 2 Phân loại Bayes đơn giản với mơ hình đa thức n P( X  x1 , , X n  xn | Y  y )  P(| d |) | d |!. i 1 P( f i | Y  y ) xi xi ! (2.16) Xác suất P(fi | Y = y) tính từ liệu huấn luyện theo công thức P( f i | Y  y )  2.5 N y , fi  (2.17) Ny n Phƣơng pháp phân loại SVM 2.5.1 Ý tưởng SVM Xét toán phân loại đơn giản - phân loại hai phân lớp với tập liệu huấn   luyện bao gồm n mẫu cho dạng  xi , yi  , i=1,….n Trong đó, xi  m véctơ bao gồm m phần tử chứa giá trị m thuộc tính hay đặc trưng yi nhãn phân loại nhận giá trị +1 (tương ứng với mẫu xi thuộc lĩnh vực quan tâm) -1 (tương ứng mẫu xi khơng thuộc lĩnh vực quan tâm) Có thể hình dung liệu điểm khơng gian ơclit m chiều gán nhãn SVM xây dựng sở hai ý tưởng Ý tưởng thứ ánh xạ liệu gốc sang không gian gọi không gian đặc trưng với số chiều lớn cho không gian xây dựng siêu phẳng cho phép phân chia liệu thành hai phần riêng biệt, phần bao gồm điểm có nhãn phân loại Ý tưởng ánh xạ sang không gian đặc trưng minh hoạ hình 2.2 7 Khơng trưng Khơng gian gốc gian đặc Hình 2.1: Ánh xạ liệu từ khơng gian gốc sang không gian đặc trƣng cho phép phân chia liệu siêu phẳng Ý tưởng thứ hai số siêu phẳng cần lựa chọn siêu phẳng có lề lớn Lề khoảng cách từ siêu phẳng tới điểm gần nằm hai phía siêu phẳng (mỗi phía tương ứng với nhãn phân loại) Lưu ý siêu phẳng nằm cách điểm gần với nhãn khác Trên hình 2.3 minh hoạ siêu phẳng (đường liền nét) với lề cực đại tới điểm liệu biểu diễn hình trịn hình vng Mặt siêu phẳng lề tối ƣu Các mẫu dƣơng Các mẫu âm Lề Hình 2.2: Siêu phẳng với lề cực đại cho phép phân chia hình vng khỏi hình trịn khơng gian đặc trƣng Để tránh việc tính tốn trực tiếp với liệu không gian mới, ta sử dụng phương pháp gọi thủ thuật nhân cách tìm hàm nhân (kernel function) K cho:     K (a, b )  a, b  (2.18) Sử dụng phương pháp nhân tử Lagrăng thay tích vơ hướng hai vector giá trị hàm nhân theo cơng thức (2.19), tốn tìm lề cực đại SVM đưa toán quy hoạch toán học bậc hai sau:  Tìm vector hệ số   (1 , , , n ) cho phép cực tiểu hoá hàm mục tiêu n    n n W( )    yi y j i j K ( xi , x j )   i i 1 j 1 i 1 (2.19) (2.19) đồng thời thoả mãn điều kiện: (2.20)  Trong (2.18, (2.19), (2.20), x i yi tương ứng liệu nhãn phân loại ví dụ huấn luyện thứ i, i hệ số cần xác định Trong ràng buộc (2.20), C số lượng tối đa điểm liệu có phân loại sai, tức điểm nằm phía siêu phẳng lại có nhãn điểm nằm bên Việc sử dụng C cho phép khắc phục tình trạng liệu huấn luyện có ví dụ bị gán nhãn khơng xác 2.2.2 Huấn luyện SVM Huấn luyện SVM việc giải toán quy hoạch toàn phương SVM Các phương pháp số giải toán quy hoạch yêu cầu phải lưu trữ ma trận có kích thước bình phương số lượng mẫu huấn luyện  Sau huấn luyện xong, giá trị nhãn phân loại cho ví dụ x tính bởi: n    f ( x )  sign(  yi i K ( xi , x )  b) i 1 Ở đây, b tính giai đoạn huấn luyện theo cơng thức sau: n   b  y i   y j  j K ( xi , x j ) j 1 Trong đó, i hệ số thoả mãn điều kiện < i < C 2.6 Kết luận chƣơng Chương trình bày cụ thể bước tiến trình phân loại tin tức điện tử Trong tập trung nghiên cứu thuật tốn Nạve Bayes SVM để hiểu rõ việc thực huấn luyện phân loại văn phân loại 9 CHƢƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ 3.1 Mở đầu Chương trình bày mơ hình phân loại để giải toán phân loại tin tức điện tử tiếng Việt sử dụng phân loại Naïve Bayes SVM đề xuất chương Tiếp theo thử nghiệm phân loại Naïve Bayes SVM tập liệu tin tức điện tử thu thập từ trang báo http://vnexpress.net/ Trong phần cuối chương, luận văn thực áp dụng phương pháp phân loại Naïve Bayes đa thức để phân lớp liệu đưa vào 3.2 Mơ hình phân loại tin tức điện tử Dữ liệu huấn luyện Tin tức Xử lý liệu Sinh N-gram Tập trọng số Xây dựng đặc trưng Lựa chọn đặc trưng Huấn luyện Tin tức phân lớp 10 3.3 Đánh giá phân lớp 3.2.1 Các độ đo Các độ đo sử dụng để đánh giá độ xác, độ nhậy, fmeasure 3.3.2 Phương pháp ước lượng chéo k tập 3.4 Thử nghiệm đánh giá kết phân loại 3.4.1 Dữ liệu thử nghiệm Dữ liệu sử dụng huấn luyện kiểm thử báo lọc từ trang web http://www.vnexpress.net/ bao gồm chủ đề: kinh doanh, pháp luật, thể thao, văn hóa, khoa hoc, cơng nghệ xã hội Mỗi chủ đề tương ứng với thư mục với tên: kinh-doanh, phap-luat, the-thao, van-hoa, cong-nghe, khoa-hoc xa-hoi Dữ liệu chia làm phần: phần gồm 3789 file phần cịn lại gồm 1932 file 3.4.2 Các cơng cụ hỗ trợ 3.4.3 Tiền xử lý liệu 3.4.4 Huấn luyện Hai phương pháp phân loại thử nghiệm bao gồm hai phiên phân loại Bayes đơn giản – phiên sử dụng mơ hình đa thức (Bayes đa thức) – SVM Đối với SVM, hàm nhân lựa chọn hàm RBF 3.4.5 Kết thử nghiệm 3.4.5.1 Đánh giá theo cross-validation Chia liệu gồm 3789 file thành 10 phần, lấy phần để kiểm thử phần lại liệu huấn luyện, sau thực đánh giá phân lớp NB SVM Thực 10 lần với tập liệu kiểm thử huấn luyện khác nhau, cuối lấy độ xác trung bình sau 10 lần thực đánh giá Kết quả: Độ xác NB 90.08% độ xác SVM 90.92% 11 Hình 3.1: Độ xác phân loại Naive Bayes SVM 3.4.5.2 Đánh giá tập liệu kiểm thử Ở mục trên, luận văn đánh giá phân loại tập liệu thứ gồm 4642 file, phần này, luận văn sử dụng tập liệu thứ làm tập huấn luyện sử dung tập liệu thứ hai gồm 2267 file làm tập kiểm thử Kết huấn luyện so sánh dựa tiêu chí: độ xác (precision), độ nhậy (recall) fmeasure Kết thể Bảng Hình 3.2: So sánh độ xác hai phân loại theo precision lớp 12 Hình 3: So sánh hai bô phân loại theo recall lớp Hình 4: So sánh hai phân loại theo Fmeasure lớp 3.4.5.2 Đánh giá kết thử nghiệm Kết sau lần thực nghiệm cho thấy phương pháp Naïve Bayes đa thức cho kết so với phương pháp SVM, chênh lệch khơng đáng kể (theo mục 3.4.5.1, độ xác phân loại Naïve Bayes đa thức 90.8%, độ xác SVM 90.9%) Ngồi ra, phương pháp Bayes có ưu rõ rệt tốc độ phân loại có độ phức tạp tính tốn thấp SVM địi hỏi khối lượng thời gian tính tốn lớn nhiều Trong thử nghiệm, tổng thời gian huấn luyện phân loại SVM lớn Naïve Bayes từ 10 tới 50 lần (trong lần đánh giá với tập liệu mới, tổng thời gian huấn luyện phân loại Naïve Bayes khoàng giây, khi, SVM thực hết 258 giây) 13 Do tính chất tin tức điện tử nhanh, xác dựa kết thực nghiệm trên, luận văn chọn phân loại Naïve Bayes đa thức để tạo ứng dụng phân loại tin tức điện tử 3.5 Phân lớp tin tức điện tử Tin tức điện tử lấy từ nguồn khác http://vietnamnet.vn/, http://dantri.com.vn/ , sau qua phân lớp mà luận văn xây dựng gán nhãn tương ứng với nội dung tin tức điện tử Ứng dụng phân loại tin tức điện tử gồm phần: - Phần 1: Huấn luyện liệu: liệu huấn luyện thực tiền xử lý huấn luyện qua phân loại Naïve Bayes - Phân 2: Gán nhãn: file tin tức gán nhãn: Kinh Doanh, Pháp Luật, Thể Thao, Khoa Học, Văn Hóa, Cơng Nghệ, Xã hội 3.5.1 Giao diện huấn luyện liệu 3.5.2 Giao diện gán nhãn 3.6 Kết luận chƣơng Chương tiến hành thử nghiệm hai phân loại Naïve Bayes SVM Kết thực nghiệm thể hai phương pháp Naïve Bayes SVM đểu đưa kết phân loại tương đối cao Tuy nhiên phân loại tin tức điện tử Nạve Bayes đa thức có độ phức tạp thời gian tính tốn thấp so với SVM Từ đó, luận văn lựa chọn Nạve Bayes để tiến hành cài đặt ứng dụng gán nhãn tin tức điện tử 14 KẾT LUẬN Với mục tiêu nghiên cứu, xây dựng mơ hình tin tức điện tử có hiệu quả, luận văn sâu nghiên cứu hai thuật tốn phân loại văn bản, bao gồm Nạve Bayes SVM áp dụng thử nghiệm toán phân loại tin tức điện tử Những kết đạt luận văn sau: 1) Nghiên cứu tổng quan phân loại văn toán phân loại tin tức điện tử 2) Nghiên cứu hai thuật tốn phân loại Nạve Bayes SVM; từ đưa tốn áp dụng vào phân loại tin tức điện tử 3) Xây dựng mô hình, cài đặt thử nghiệm đánh giá kết phân loại tin tức điện tử tiếng Việt dựa hai thuật toán nghiên cức Kết thực nghiệm khẳng định thuật tốn Nạve Bayes cho kết phân loại tương đối tốt, đơn giản, dễ cài đặt đặc biệt chi phí tính tốn khơng cao; thuật toán SVM cho kết phân loại tốt địi hỏi chi phí tính tốn cho huấn luyện phân loại cao nhiều so với Naïve Bayes Do đó, luận văn lựa chọn Nạve Bayes làm phân loại cho ứng dụng phân loại tin tức điện tử Các kết nghiên cứu sử dụng làm sở cho việc xây dựng hệ thống phân loại tin tức điện tử tự động website Việt Nam Tuy nhiên, hạn chế mặt thời gian kiến thức nên luận văn chưa sâu vào nghiên cứu toán phân loại tin tức điện tử nhiều nhãn Trong tương lai, luận văn nghiên cứu hướng sau: Khi thực phân loại tin tức điện tử, phân lớp văn không bẩy lớp luận văn trình bày Tập lớp nhiều, điều dẫn đến tin tức thuộc nhiều lớp khác Luận văn phát triển theo hướng nghiên cứu mở rộng tập lớp nghiên cứu để phân loại tin tức vào nhiều lớp khác ... nhiên vào hay nhiều lớp cho trước 1.1.2 Phân loại toán phân lớp văn 1.2 Phân loại tin tức báo điện tử 1.2.1 Báo điện tử 1.2.2 Phân loại tin tức báo điện tử Bài toán phân loại tin tức điện tử phát... tài ? ?Phân loại văn ứng dụng vào phân loại tin tức điện tử? ?? làm đề tài luận văn thạc sĩ Luận văn gồm chương với nội dung sau: Chương 1: Tổng quan phân loại văn toán phân loại tin tức điện tử Chương... chất tin tức điện tử nhanh, xác dựa kết thực nghiệm trên, luận văn chọn phân loại Naïve Bayes đa thức để tạo ứng dụng phân loại tin tức điện tử 3.5 Phân lớp tin tức điện tử Tin tức điện tử lấy

Ngày đăng: 19/03/2021, 17:55

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan