Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 18 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
18
Dung lượng
300,03 KB
Nội dung
-i- LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung luận văn thực trực tiếp hướng dẫn cô giáo TS Nguyễn Thị Thu Hà Mọi tham khảo dùng luận văn trích dẫn rõ ràng tên tác giả, tên cơng trình, thời gian, địa điểm cơng bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, xin chịu hoàn toàn trách nhiệm Tác giả luận văn Nguyễn Thị Thùy Dương - ii - LỜI CẢM ƠN Lời tơi xin bày tỏ lịng biết ơn chân thành đến Ban Giám Hiệu, thầy giáo, cô giáo phịng Sau đại học trường Đại học Cơng Nghệ Thơng Tin & Truyền Thông, thầy giáo Viện Công Nghệ Thông Tin giảng dạy tạo điều kiện cho tơi học tập, nghiên cứu hồn thành luận văn Đặc biệt, xin bày tỏ kính trọng lịng biết ơn sâu sắc đến TS Nguyễn Thị Thu Hà, người tận tình hướng dẫn giúp đỡ tơi suốt q trình học tập, nghiên cứu hồn thành luận văn Tơi chân thành cảm ơn thầy cô Khoa Công nghệ thông tin, Trường Trung cấp nghề Phát Thanh Truyền Hình Thanh Hóa nơi công tác tạo điều kiện hỗ trợ suốt thời gian qua Tôi xin chân thành cảm ơn người thân, bạn bè giúp đỡ động viên suốt thời gian học tập thời gian thực luận văn Xin chân thành cảm ơn! Thái Nguyên, ngày 20 tháng 08 năm 2015 - iii - MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH SÁCH CÁC BẢNG v Chương 1: TỔNG QUAN VỀ PHÂN LOẠI VĂN BẢN 1.1 Giới thiệu toán phân loại văn tiếng Việt 1.1.1 Tổng quan toán phân loại văn 1.1.2 Mơ hình hệ thống phân loại văn 1.1.3 Các khái niệm phân loại văn 1.2 Các nghiên cứu liên quan 1.2.1 Đánh giá phân loại văn 11 1.2.2 Lý thuyết Naive Bayes 11 1.2.3 Khái niệm 12 1.3 Kết luận chương 17 Chương 2: PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN PHƯƠNG PHÁP NAIVE BAYES 18 2.1 Bộ phân loại Naive Bayes 18 2.2 Phân loại văn tiếng Việt 22 2.2.1 Ứng dụng Naive Bayes phân loại văn tiếng Việt 22 2.2.2 Rút trích đặc trưng 25 2.2.3 Phân loại văn tiếng Việt dựa Naive Bayes 39 2.3 Kết luận chương 42 Chương 3: PHÁT TRIỂN HỆ THỐNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN NAIVE BAYES 43 3.1 Mơ hình tổng qt hệ thống 43 3.2 Xây dựng tập ngữ liệu 44 3.2.1 Xây dựng tập liệu 44 3.2.2 Tiền xử lý chuẩn hóa liệu 47 3.2.3 Xây dựng từ điển danh từ 48 3.3 Môi trường cài đặt 50 3.3.1 Môi trường cài đặt hệ thống 50 - iv - 3.3.2 Cấu trúc chương trình 50 3.3.3 Giao diện chương trình 51 3.4 Kết thực nghiệm 56 3.5 Kết luận chương 57 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 59 TÀI LIỆU THAM KHẢO 60 -v- DANH SÁCH CÁC BẢNG Bảng1.2 Đánh giá phân loại văn 11 Bảng 2.1 Các từ chủ đề tập mô tả Andrews năm 2009 30 Bảng 2.2 Danh sách số chủ đề xây dựng 41 Bảng 3.1 Các chức chương trình 45 Bảng 3.2 Danh sách số từ tập từ chủ đề 49 Bảng 3.3 Độ triệu hồi thực truy vấn 57 - vi - DANH SÁCH HÌNH VẼ Hình 1.1 Q trình học phân loại văn Hình 1.2 Mơ hình SVM Hình 2.1 Mơ tả bước xây dựng phân lớp 21 Hình 2.2 Trực quan hóa liệu giảm chiều 26 Hình 2.3 Danh sách số từ dừng 27 Hình 2.4 Chỉ số ngữ nghĩa ẩn 28 Hình 2.5 Mô tả việc xếp văn vào chủ đề phù hợp 29 Hình 2.6 Mơ tả cách suy diễn chủ đề dựa thuật ngữ 30 Hình 2.7 Mơ hình chủ đề dựa mạng Bayesian 33 Hình 2.8 Mơ hình chủ đề dựa HMM 34 Hình 2.9 Quy trình phân loại văn tiếng Việt 36 Hình 2.10 Mơ hình chủ đề dựa xác suất 37 Hình 2.11 Thuật tốn xây dựng mơ hình chủ đề 39 Hình 3.1 Sơ đồ chức hệ thống xử lý văn tiếng Việt 43 Hình 3.2 Biểu đồ Use case tổng quát 44 Hình 3.2 Văn chuẩn hóa 48 Hình 3.3 Hệ thống VLSP 49 Hình 3.4 Giao diệntrang chủ 51 Hình 3.5 Giao diện thể loại tin 52 Hình 3.6 Giao diện tin huấn luyện 52 Hình 3.7 Giao diện danh sách từ khóa 53 Hình 3.8 Giao diện cài đặt huấn luyện 54 Hình 3.9 Giao diện huấn luyện phân loại 55 - vii - Hình 3.10 Giao diện danh sách tin tức 55 Hình 3.11 Giao diện người dùng 56 - viii - DANH SÁCH CÁC CHỮ VIẾT TẮT Viết tắt k- NN Tiếng Anh k- Nearest Neighbor Tiếng Việt k-Láng giềng gần SVM Support Vector Machine Máy véc tơ hỗ trợ RSS Really Simple Syndication Định dạng tập tin ML Machine Languages Ngôn ngữ máy LSI Latent Sematic Indexing Chỉ số ngữ nghĩa ẩn SVD Singular Value Decomposition Phân tích giá trị đơn -1- MỞ ĐẦU Lý chọn đề tài Với lượng thông tin đồ sộ, yêu cầu lớn đặt tổ chức tìm kiếm thơng tin có hiệu Phân loại thơng tin giải pháp hợp lý cho yêu cầu Nhưng thực tế khối lượng thông tin lớn, việc phân loại liệu thủ công điều khơng tưởng Hướng giải chương trình máy tính tự động phân loại thơng tin Đề tài “Nghiên cứu lý thuyết Naive Bayes ứng dụng phân loại văn Tiếng Việt” nhằm tìm hiểu thử nghiệm phương pháp phân loại văn áp dụng tiếng Việt Phân loại văn (Text classification) công cụ khai phá liệu dạng văn cách hữu hiệu, làm nhiệm vụ đưa văn có nội dung chủ đề giống lớp có sẵn Phân loại văn giúp người dùng dễ dàng việc tìm kiếm thơng tin cần thiết đồng thời lưu trữ thông tin theo chủ đề (topic) hay lớp (class) dựa thuật toán phân loại Đối tượng phạm vi nghiên cứu: Tìm hiểu lý thuyết Naive Bayes ứng dụng phân loại văn tiếng Việt Những nội dung nghiên cứu Chương 1: Tổng quan phân loại văn Tổng quan phân loại văn khái niệm lý thuyết Naive Bayes, phân loại Naive Bayes mơ hình xác suất Chương 2: Phân loại văn tiếng Việt dựa phương pháp Naive Bayes Trình bày phương pháp phân loại văn tiếng Việt dựa phân loại Naive Bayes cách giảm chiều đặc trưng nhằm tăng tốc q trình tính tốn xử lý cách sử dụng mơ hình chủ đề dùng cho tiếng Việt -2- Chương 3: Phát triển hệ thống phân loại văn Tiếng Việt Trình bày chi tiết từ phân tích thiết kế hệ thống giao diện hệ thống Phương pháp nghiên cứu - Tổng hợp thông tin liên quan, lựa chọn cách tiếp cận áp dụng thành công, tiến hành cài đặt thử nghiệm, đánh giá kết - Các tư liệu thông tin liên quan chủ yếu thu thập, tổng hợp từ nguồn: Các tạp chí khoa học chuyên ngành nước, Internet, Trao đổi với thầy hướng dẫn đồng nghiệp lĩnh vực nghiên cứu Ý nghĩa khoa học đề tài Ý nghĩa luận văn nhằm giải số vấn đề nhằm nâng cao hiệu hệ thống phân loại văn tiếng Việt tự động: - Phương pháp phân loại văn tiếng Việt tự động có kết hợp với giảm chiều nhằm giảm độ phức tạp tính tốn đồng thời tăng độ xác phương pháp đề xuất - Có ý nghĩa thực tiễn cao sống, hệ thống thực nghiệm xây dựng dựa phương pháp đề xuất mang lại tính ứng dụng hỗ trợ ngày tốt cho người dùng Internet -3- Chương 1: TỔNG QUAN VỀ PHÂN LOẠI VĂN BẢN Trong chương này, luận văn trình bày khái niệm phân loại văn tự động, mơ hình hệ thống phân loại văn tự động, từ giới thiệu số phương pháp nghiên cứu liên quan dựa cách tiếp cận học máy số phương pháp đánh giá hiệu hệ thống phân loại văn tự động 1.1 Giới thiệu toán phân loại văn tiếng Việt 1.1.1 Tổng quan toán phân loại văn Các nghiên cứu khai phá liệu dạng văn quan tâm thời gian gần số lượng tài liệu điện tử tăng nhanh chóng từ nhiều nguồn khác Khơng kể tới văn có cấu trúc, số lượng văn không cấu trúc cấu trúc tăng lên lớn Mục đích việc khai phá liệu văn cho phép người dùng trích xuất thơng tin nguồn văn sử dụng chúng thông qua công cụ như: tra cứu, hỏi đáp, phân loại tóm tắt sử dụng ngôn ngữ tự nhiên Phân loại văn phần quan trọng việc khai phá liệu văn bản, nhiều hệ thống phân loại văn sử dụng kỹ thuật dựa tri thức (knowledge based) dựa luật xây dựng sẵn để tạo thành tập hợp quy tắc logic để hiểu phân loại văn Mỗi loại (hay gọi lớp –class) tương đương với chủ đề ví dụ “thể thao”, “chính trị” hay “nghệ thuật” Nhiệm vụ phân loại bắt đầu xây dựng từ tập văn D = {d1,d2, ,dn} gọi tập huấn luyện tài liệu di gán nhãn cj với cjthuộc tập chủ đề C={c1,c2, ,cm} Nhiệm vụ xác định mơ hình phân loại mà gán lớp để tài liệu dk phân loại xác vào chủ đề tập chủ đề C [4] -4- Khái niệm [Phân loại văn bản]: Phân loại văn nhiệm vụ gán văn dj vào chủ đề ck thích hợp thuộc tập chủ đề C = {c1,c2, ,cm}theo nội dung văn 1.1.2 Mơ hình hệ thống phân loại văn Mơ hình tốn phân loại văn mơ tả hình sau: Hình 1.1 Quá trình học phân loại văn Một quy trình xử lý phân loại văn bao gồm pha chính: Pha huấn luyện pha phân loại - Pha huấn luyện: Các văn đầu vào gán nhãn trích chọn đặc trưng để nhận dạng sử dụng thuật toán học để lưu trữ lại giá trị đặc trưng theo mơ hình chuẩn - Pha phân loại: Văn đầu vào trích rút thành đặc trưng dựa mơ hình chuẩn học để phân theo nhãn Đối với toán xử lý phân loại đối tượng, việc quan trọng -5- xác định đặc trưng hầu hết toán này, số chiều đặc trưng dường lớn, thế, đề xuất trước [5] gặp phải khó khăn sau: - Thời gian tính tốn lớn (do số chiều đặc trưng cao) - Độ xác hiệu hệ thống bị hạn chế 1.1.3 Các khái niệm phân loại văn 1.1.3.1 Tập văn huấn luyện (Training documents set) Tập văn huấn luyện tập hợp liệu sử dụng trình tìm kiếm quan hệ, luật để dùng cho dự đoán dự báo sau 1.1.3.2 Tiền xử lý (Preprocessing) Tiền xử lý bước quan trọng trước nhận diện văn thực việc gán nhãn cho tập văn huấn luyện Đầu tiên cần biểu diễn văn dạng từ (word) rõ ràng Các văn chuẩn bị thực phân loại thường có số chiều đặc trưng lớn Thông thường, bước tiền xử lý bao gồm: Tokenization: Văn coi chuỗi, cần phân chia thành danh sách tokens (token ký tự, từ, ) Loại bỏ từ dừng: Loại bỏ từ dừng coi bước giúp lọc bỏ nhiễu, giúp hạn chế sai số trình tính tốn giảm bớt số chiều đặc trưng Các từ dừng “và”, “thôi”, “này” 1.1.3.3 Đánh số (Indexing) Biểu diễn văn kỹ thuật tiền xử lý, sử dụng để giảm độ phức tạp văn dễ dàng lưu trữ xử lý, văn biến đổi từ dạng chữ đầy đủ thành véc tơ văn Thông -6- thường sử dụng mơ hình véc tơ khơng gian Các văn biểu diễn véc tơ từ Ví dụ ma trận trọng số sau: T1 T2 Tαt ci D1 w11 w21 wt1 c1 D2 w12 w22 wt2 c2 Dn w1n w2n wtn cn Trong phần tử biểu diễn tần suất xuất tử văn wtn trọng số từ i văn n Có nhiều cách để xác định trọng số w ma trận trên, sử dụng phương pháp trọng số Boolean, trọng số tần xuất từ, mơ hình tf-idf, entropy, [3] 1.1.3.4 Trích chọn đặc trưng (Feature selection) Sau tiền xử lý đánh số, bước quan trọng phân loại văn trích chọn đặc trưng để xây dựng véc tơ khơng gian, để làm tăng chất lượng, độ xác phân loại văn Ý tưởng trích chọn đặc trưng lựa chọn tập đặc trưng từ văn gốc Trích chọn đặc trưng thực cách giữ lại từ có số cao theo độ đo xác định trước Bởi toán phân loại văn thường tốn có số chiều đặc trưng cao Một số độ đo đánh giá đặc trưng theo độ lợi ích thơng tin (information gain), tần suất từ (term frequency), độ tương hỗ thông tin (mutual information) 1.1.3.5 Kỹ thuật phân loại Phân loại văn tự động sử dụng số kỹ thuật để phân loại: kỹ thuật học giám sát, kỹ thuật học không giám sát kỹ thuật học bán giám sát Một số phương pháp phân loại như: Phân loại Bayes (Naive Bayes Classification), định (Decision tree), k - NN -7- Phương pháp k-NN [6] phương pháp truyền thống tiếng theo hướng tiếp cận thống kê nghiên cứu nhiều năm qua k - NN đánh giá phương pháp tốt sử dụng từ thời kỳ đầu nghiên cứu phân loại văn Ý tưởng phương pháp cần phân loại văn mới, thuật toán xác định khoảng cách (có thể áp dụng cơng thức khoảng cách Ơclit, Cô sin, Manhattan, …) tất văn tập huấn luyện đến văn để tìm k văn gần nhất, gọi k – NN, sau dùng khoảng cách đánh trọng số cho tất chủ đề Khi đó, trọng số chủ đề tổng tất khoảng cách văn k láng giềng có chủ đề, chủ đề không xuất k láng giềng có trọng số Sau chủ đề xếp theo giá trị trọng số giảm dần chủ đề có trọng số cao chọn làm chủ đề văn cần phân loại Trọng số chủ đề cj văn x tính sau: ( , )=∑ ∈{ } sin( , , ) - Trong đó: y (di, c) thuộc {0,1}, với: + y = : văn di không thuộc chủ đề cj + y = : văn di thuộc chủ đề cj sim (x , d) : độ giống văn cần phân loại x văn d Chúng ta sử dụng độ đo Cơ sin để tính khoảng cách: sin( , ) = cos ( , )= ‖ ‖ si học sử dụng + bj ngưỡng phân loại chủ đề cj tự động tập văn hợp lệ chọn từ tập huấn luyện Để chọn tham số k tốt cho thao tác phân loại, thuật toán cần chạy thử nghiệm nhiều giá trị k khác nhau, giá trị k lớn -8- thuật tốn ổn định sai sót thấp - Máy véc tơ hỗ trợ (SVM) Máy sử dụng véc tơ hỗ trợ (SVM) [1], [7] Cortess Vapnik giới thiệu năm 1995, phương pháp tiếp cận phân lớp hiệu để giải vấn đề nhận dạng mẫu lớp sử dụng nguyên lý Cực tiểu hóa Rủi ro có Cấu trúc (Structural Risk Minimization) Trong không gian véc tơ cho trước tập huấn luyện biểu diễn tài liệu điểm, thuật tốn SVM tìm siêu mặt phẳng h định tốt chia điểm không gian thành hai lớp riêng biệt tương ứng lớp “+” lớp “–“ Chất lượng siêu mặt phẳng phân cách định khoảng cách (gọi biên) điểm liệu gần lớp đến mặt phẳng Khoảng cách biên lớn mặt phẳng định tốt việc phân lớp xác Mục đích thuật tốn SVM tìm khoảng cách biên lớn Hình sau minh họa cho thuật tốn này: + + + + + + + + + h + - - - - Hình 1.2 Mơ hình SVM Cơng thức - - -9- Phương trình siêu mặt phẳng chứa véc tơ d i không gian: di w b Đặt = ( + b) = + 1, ( + ) >0 1, ( + ) < Từ h(di ) biểu diễn phân lớp d i vào lớp nói Có yi {1} với yi= +1, văn d i “+”; với yi= -1, văn d i “-” Lúc muốn có siêu mặt phẳng h, ta giải tốn sau: min‖ ‖, Tìm wi b thỏa mãn điều kiện: i 1, n : y i (sin g ( d i w b )) Khi ta sử dụng tốn tử Lagrange biến đổi thành dạng thức để giải toán Ở phương pháp SVM, mặt phẳng định phụ thuộc vào điểm gần (véc tơ hỗ trợ - support véc tơ) mà có khoảng cách đến là: Khi điểm khác bị xóa khơng ảnh hưởng đến kết || w || ban đầu 1.2 Các nghiên cứu liên quan Các nghiên cứu phân loại văn tập trung vào việc áp dụng phương pháp học giám sát, sử dụng kho liệu lớn tập văn phân loại theo chủ đề khác phương pháp Naive Bayes (McCalum, 1998; Ko, 2000), Phương pháp k - NN (Yang, 2002), Rocchio (Lewis, 1996) Đối với phân loại mạng nơ ron, mơ hình đơn giản đề xuất Dagan cộng (1997) Ng (1997) perceptron Một mơ hình đơn giản khác mạng nơ ron tuyến tính bổ sung kiểu hồi quy logic - 10 - đề xuất Schutze cộng vào năm 1995 mang lại hiệu tương đối cao Một mơ hình nơ ron khơng tuyến tính nhiều lớp sử dụng phân loại văn đề xuất Lam Lee vào năm 1999 thay cho mơ hình nơ ron tuyến tính đơn giản, loạt mơ hình mạng nơ ron nhiều lớp đề xuất Ruiz Srinivasan (1999), Weigend (1999); Yang and Liu (1999) Trong mơ hình nhiều lớp thể tương tác thuật ngữ có khả học tốt [9] Các nghiên cứu tiếng Việt phát triển từ năm 2004 2005, công bố phân loại văn tiếng Việt cịn so với tiếng Anh Mặt khác, kho liệu công cụ phục vụ cho nghiên cứu tiếng Việt thiếu hiệu chưa cao, số nghiên cứu dừng lại mức tìm hiểu, đề xuất phương pháp mà chưa xây dựng hệ thống hoàn chỉnh Các kho liệu chưa thống tự nhóm nghiên cứu tự xây dựng phục vụ cho nghiên cứu Chưa thành lập chuẩn đánh giá hiệu cho hệ thống phân loại văn Một số nghiên cứu phân loại tiếng Việt tập trung vào ứng dụng phương pháp máy học áp dụng phương pháp đề xuất hiệu cho tiếng Anh Phân loại văn nhóm tác giả Phạm Nguyên Khang, Đỗ Thanh Nghị, Francois Poulet đề xuất Phân loại văn tiếng Việt dựa tập thô nhóm tác giả Đỗ Phúc cộng đề xuất (2004) Phân loại văn Tiếng Việt phương pháp Support véc tơ Machines (Nguyễn Kim Ngân) Phân loại văn dựa mơ hình xác suất Bayes áp dụng cho tiếng Việt (Nguyễn Tuấn, Anh, 2003), Phương pháp “A comparative study for Vietnamese text classification” (Hoang Cong Duy Vu, Nguyen Le Nguyen, Ngo Quoc Hung, Dinh Dien, 2007), mơ hình tần suất (Tu Anh Hoang Nguyen, 2009)…