1. Trang chủ
  2. » Tất cả

Tìm hiểu phương pháp phân loại naïve bayes và nghiên cứu xây dựng ứng dụng tóm tắt văn bản tiếng việt

86 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

i LỜI CẢM ƠN Lời xin gửi lời cảm ơn chân thành lòng biết ơn sâu sắc TS Nguyễn Thị Thu Hà, người bảo hướng dẫn tận tình cho tơi đóng góp ý kiến quý báu suốt trình học tập, nghiên cứu thực luận văn Tôi xin trân trọng cảm ơn Ban giám hiệu Trường Đại học Công Nghệ Thông Tin Truyền Thông Đại học Thái Nguyên, khoa CNTT giúp đỡ tạo điều kiện cho chúng tơi học tập làm khóa luận cách thuận lợi Và cuối xin gửi lời cảm ơn đến gia đình, người thân bạn bè – người bên chỗ dựa giúp cho tơi vượt qua khó khăn Họ ln động viên tơi khuyến khích giúp đỡ sống công việc cho tâm hoàn thành luận văn Tuy nhiên thời gian có hạn, nỗ lực cố gắng luận văn khó tránh khỏi thiếu sót Rất mong bảo, góp ý tận tình Q thầy bạn Tôi xin chân thành cảm ơn! ` ii LỜI CAM ĐOAN Tôi xin cam đoan luận văn kết nghiên cứu tôi, không chép Nội dung luận văn có tham khảo sử dụng tài liệu liên quan, thông tin tài liệu đăng tải tạp chí trang website theo danh mục tài liệu luận văn Tác giả luận văn Ngô Thanh Hảo ` iii MỤC LỤC LỜI CẢM ƠN I LỜI CAM ĐOAN II MỤC LỤC III DANH MỤC HÌNH VẼ V DANH MỤC BẢNG BIỂU V DANH MỤC TỪ VIẾT TẮT VII LỜI MỞ ĐẦU CHƯƠNG : TỔNG QUAN VỀ TÓM TẮT VÀ TÓM TẮT VĂN BẢN TIẾNG VIỆT 1.1 Giới thiệu 1.1.1 Tổng quan tốn tóm tắt văn 1.1.2 Tỉ lệ tóm tắt văn 1.2 Đặc điểm ngôn ngữ tiếng Việt 1.2.1 Đặc điểm ngữ âm 1.2.2 Đặc điểm từ vựng 1.2.3 Đặc điểm ngữ pháp 10 1.2.4 Xử lý ngôn ngữ tiếng Việt máy tính 11 1.3 Một số phương pháp tóm tắt văn 13 1.4 Đánh giá tóm tắt văn 15 1.4.1 Đánh giá theo cách thủ công 15 1.4.2 Phương pháp đánh giá BLEU 15 1.4.3 Phương pháp đánh giá ROUGE 16 1.4.4 Độ đo precision độ đo recall 17 CHƯƠNG : PHƯƠNG PHÁP TÓM TẮT VĂN BẢN TIẾNG VIỆT DỰA TRÊN NAIVE BAYES 19 2.1 Một số phương pháp tóm tắt văn điển hình 19 2.1.1 Phương pháp tóm tắt văn định 19 2.1.2 Phương pháp tóm tắt văn mạng nơ ron 20 2.1.3 Phương pháp phân tích ngơn ngữ tự nhiên mức sâu 20 2.1.4 Phương pháp tóm tắt ngắn 24 ` iv 2.1.5 Phương pháp dựa mơ hình markov ẩn 24 2.1.6 Phương pháp tóm tắt dựa rút gọn câu 25 2.1.7 Phương pháp tóm tắt văn nạve bayes: 25 2.2 Phương pháp tóm tắt văn sử dụng lý thuyết phân loại Naïve Bayes 26 2.2.1 Phân loại Naïve Bayes 26 2.2.2 Lựa chọn đặc trưng cho trích chọn 33 2.3 Huấn luyện tính trọng số câu tập huấn luyện 41 2.4 Lựa chọn câu tạo tóm tắt 43 CHƯƠNG XÂY DỰNG VÀ CÀI ĐẶT HỆ THỐNG TÓM TẮT VĂN BẢN TIẾNG VIỆT DỰA TRÊN LÝ THUYẾT NAÏVE BAYES 48 3.1 Mơ hình hệ thống tóm tắt văn tiếng Việt dựa lý thuyết Naïve Bayes 48 3.2 Phân tích thiết kế hệ thống tóm tắt văn tiếng Việt dựa Naïve Bayes 54 3.3 Một số giao diện hệ thống tóm tắt văn tiếng Việt dựa Nạve Bayes 56 3.3.1 Giao diện trang chủ hệ thống tóm tắt văn tiếng Việt 56 3.3.2 Giao diện trang quản trị hệ thống tóm tắt văn tiếng Việt 57 3.4 Kết thực nghiệm phương pháp tóm tắt văn tiếng Việt dựa Naïve Bayes 63 3.4.1 Xây dựng tập liệu phục vụ huấn luyện 63 3.4.2 Xây dựng từ điển danh từ 64 3.4.3 Tiền xử lý chuẩn hóa liệu 64 3.4.4 Đánh giá kết hệ thống tóm tắt văn dựa Nạve Bayes 65 KẾT LUẬN 66 TÀI LIỆU THAM KHẢO 67 TIẾNG VIỆT 67 PHỤ LỤC 68 ` v DANH MỤC HÌNH VẼ Hình 1.1 Hệ Thống Tóm Tắt Văn Bản Text Compactor Hình 2.1 Cây Cấu Trúc Tu Từ 23 Hình 2.2 Mơ Hình Markov Ẩn Sử Dụng Trong Trích Rút Câu 25 Hình 2.3.Ma Trận Ví Dụ 35 Hình 2.4 Mơ Hình Giảm Chiều Véc Tơ 35 Hình 2.5 Văn Bản Ví Dụ 37 Hình 2.6 Quan Hệ Giữa Số Văn Bản Và Số Thuật Ngữ 38 Hình 2.7 Tách Từ Dựa Trên Hệ Thống Phân Tích Câu Vlsp 38 Hinh 2.8 Thuật Toan Tinh Trọng Số Của Cau 43 Hình 2.9 Thuật Tốn Trích Rút Câu 45 Hình 3.1 Mơ Hình Tóm Tắt Văn Bản Thơng Thường 49 Hình 3.2 Mơ Hình Tóm Tắt Văn Bản Trong Luận Văn Đề Xuất 51 Hình 3.3 Cơ sở liệu hệ thống…………………………………….….50 Hình 3.4 Sơ Đồ Usecase Tổng Quát 55 Hình 3.5 Usecase Trường Hợp Huấn Luyện 56 Hình 3.6 Giao Diện Trang Chủ Của Hệ Thống 57 Hình 3.7 Giao Diện Chính Của Trang Quản Trị 58 Hình 3.8 Lấy Tin Tự Động 58 Hình 3.9 Giao Diện Hiển Thị Dữ Liệu Lấy Về 59 Hình 3.10 Giao Diện Huấn Luyện Văn Bản 60 Hình 3.11 Giao Diện Quản Lý Từ 60 Hình 3.12 Hiển Thị Tin Tức Sau Khi Cập Nhật 61 Hình 3.13 Giao Diện Tóm Tắt Tin Tức 62 Hình 3.14 Giao Diện Tóm Tắt Văn Bản 62 ` vi DANH MỤC BẢNG BIỂU Bảng 1.1 Hiện Trạng Các Kho Ngữ Liệu Tiếng Việt 13 Bảng 2.1 : Ví dụ bảng huấn luyện…………………………………………28 Bảng 3.1 Bảng Kết Quả Thực Nghiệm 65 Formatted: Font: Not Bold, Vietnamese Bảng 2.1 Ví dụ bảng huấn luyện 30 Bảng 2.2 Bảng kết thực nghiệm 46 ` Formatted: Space After: pt, Line spacing: Multiple 1.6 li vii DANH MỤC TỪ VIẾT TẮT Kí hiệu tf Diễn giải Tần suất từ (Term frequency) Formatted: Font: 14 pt, Font color: Auto tần suất nghịch đảo văn (inverse document Idf Formatted: Font: 14 pt, Font color: Auto frequency) Hội thảo tra cứu văn (Text Retrieval REtrieval TREC Formatted: Font: 14 pt Conferrence) Formatted: Font: 14 pt, Font color: Auto Hội thảo hiểu văn (Document Understanding DUC Formatted: Font: 14 pt Conferrence) Formatted: Font: 14 pt, Font color: Auto Phương pháp đánh giá dịch máy tự động (Bilingual BLEU Formatted: Font: 14 pt, Font color: Auto Evaluation Under Study) Formatted: Font: 14 pt, Font color: Auto Viện công nghệ tiêu chuẩn quốc gia (National Field Code Changed NIST Formatted: Font: 14 pt, Font color: Auto Institute of Standards and Technology) Phương pháp đánh giá kết tóm tắt ROUGE Rouge (Recall – Evaluation) ` Oriented Understudy for Gisting Formatted: Font: 14 pt, Font color: Auto Formatted: Font: 14 pt, Font color: Auto ` LỜI MỞ ĐẦU Formatted Ngày thơng tin đóng vai trò quan trọng xã hội Sự phát triển mạnh mẽ Internet mang lại cho người thơng tin quan trọng bổ ích, với lượng lớn thông tin mang lại cho người tiện ích tra cứu thơng tin Các hệ thống tìm kiếm, tra cứu nghiên cứu, đề xuất xây dựng thỏa mãn phần yêu cầu người dùng đặt Tuy nhiên, khiến khó khăn việc tìm kiếm tổng hợp thông tin Các nhà nghiên cứu đề xuất giải pháp để xây dựng hệ thống, công cụ khai phá liệu như: phân loại liệu, phân cụm liệu, nén liệu, tra cứu thông tin, tóm tắt văn Một cơng cụ quan trọng tóm tắt văn Đối với liệu dạng văn bản, tóm tắt văn tóm tắt thơng tin từ văn gốc để nhận văn dạng ngắn chắt lọc thông tin quan trọng từ văn gốc Tóm tắt văn nhận nhiều quan tâm nghiên cứu nhà khoa học nhóm nghiên cứu cơng ty giới Bài tốn tóm tắt văn tiếng Việt khơng ngoại lệ khơng thể khai thác thơng tin tiếng Việt hiệu khơng có phương pháp tóm tắt văn tiếng Việt Trong khuôn khổ đề tài luận văn, sử dụng cách tiếp cận rút gọn câu dựa Naive Bayes để: - Nâng cao chất lượng hệ thống tóm tắt văn tiếng Việt tự động cách học giám sát Trên thực tế để giải tốn có nhiều phương pháp đưa sử dụng thuật toán Naïve Bayes, phương ` Formatted: Underline, English (U.S.) pháp định(Decision tree), Phương pháp tóm tắt văn mạng nơron nhân tạo(Artificial Neural Network), phương pháp tóm tắt ngắn, Phương pháp phân tích ngơn ngữ tự nhiên mức sâu, phương pháp học không giám sát, phương pháp máy học Mỗi phương pháp cho kết tốt, nhiên phương pháp tóm tắt văn tiếng Việt thuật tốn Nạve Bayes có chất lượng tóm tắt văn cao - Giảm độ phức tạp tính tốn mặt thời gian - Xây dựng hệ thống tự động tổng hợp tin tức trực tuyến tóm tắt - Xây dựng tập liệu huấn luyện gồm 200 văn tiếng Việt Luận văn chia thành chương với nội dung sau: Chương 1: Tổng quan tóm tắt tóm tắt văn tiếng Việt Chương 2: Phương pháp tóm tắt văn tiếng việt dựa Naive Bayes Chương 3: Xây dựng ứng dụng tóm tắt văn tiếng Việt dựa Formatted: Font: Italic, Expanded by 0.3 pt Naive Bayes Formatted: Underline ` 65 3.4.4 Đánh giá kết hệ thống tóm tắt văn dựa Nạve Bayes Luận văn sử dụng phương pháp đánh giá truyền thống độ đo Precision để đánh giá chất lượng tóm tắt, độ xác hệ thống so với người Để đánh giá với mức tóm tắt, số hệ thống khác phương pháp khác textcompactor [16], VTSonline [14], Le Thanh Ha [13] thường sử dụng tóm tắt theo tỉ lệ định nghĩa sau: Tỉ lệ r= chiều dài văn tóm tắt/ chiều dài văn gốc % Kết thể bảng sau Tỉ lệ Phương pháp 80% 60% 40% 20% Luận văn 0.88 0.86 0.82 0.6 HLT 0.82 0.75 0.69 0.54 Baseline 0.81 0.8 0.84 0.63 Textcompactor 0.85 0.82 0.65 0.57 VTSonline 0.72 0.68 0.51 0.48 Bảng 3.1 Bảng kết thực nghiệm Dựa vào bảng kết thực nghiệm thấy rằng, phương pháp luận văn sử dụng cài đặt hiệu hệ thống thực có hiệu gần với kết đánh giá người Formatted: Font: 14 pt ` 66 KẾT LUẬN Các phương pháp khai phá liệu ngày gần với yêu cầu người dùng mong muốn cho thông tin hữu ích vơ vàn lượng thơng tin Internet Trong đó, liệu dạng văn chiếm tới 80% kho liệu lớn có Để khai phá hiệu thông tin cần tới nhiều công cụ khác để khai phá, có cơng cụ tóm tắt văn Trong luận văn trình bày phương pháp tóm tắt văn tiếng Việt dựa lý thuyết Naïve Bayes để phân lớp câu có độ quan trọng so với tập liệu huấn luyện người dùng cho chất lượng tóm tắt tốt phương pháp đề xuất dựa cách tiếp cận học không giám sát Luận văn xây dựng cài đặt hệ thống chạy mơi trường web, góp phần đưa nghiên cứu gần với thực tế áp dụng thực tế với kết thử nghiệm chấp nhận Văn tóm tắt dễ đọc dễ hiểu gần với kết tóm tắt người Dù cố gắng để hoàn thành luận văn xây dựng hệ thống tóm tắt văn tiếng Việt tự động, nhiên, thời gian nghiên cứu có hạn nên khơng thể tránh khỏi sai sót Kính mong thầy cơ, đồng nghiệp, bạn bè đóng góp để luận văn hồn thiện Trân trọng cảm ơn! ` 67 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Phạm Công Cảnh, Phương pháp rút gọn câu tiếng Việt dựa mạng Bayesian, luận văn thạc sĩ, Học viện kỹ thuật quân sự, 2014 [2] La Đức Dũng, Khai phá liệu văn công cụ tập thô, luận văn thạc sĩ, Đại học công nghệ thông tin truyền thông Thái Nguyên, 2012 [3] Lê Mạnh Hùng, Tra cứu văn tiếng Việt dựa mô hình phân cụm phân cấp, luận văn thạc sĩ, học viện bưu viễn thơng, 2013 [4] Lương Chi Mai (2009), Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt, Chương trình KH&CN cấp nhà nước KC01/06-10, Đề tài KC01/06-10 [5] Hoàng Tất Thắng, Nguyễn Thị Bạch Nhạn, Nguyễn Quốc Dũng Lê Thị Hoài Nam, Trần Thị Quỳnh Nga, Tài liệu hướng dẫn ôn tập thi tốt nghiệp môn Tiếng Việt phương pháp giảng dạy tiếng Việt Tiểu học, trường đại học Huế, 2013 [6] Nguyễn Thị Ngọc Tú, Tóm tắt văn tiếng Việt dựa mạng nơ ron, luận văn thạc sĩ, đại học công nghệ thông tin – đại học quốc gia thành phố Hồ Chí Minh, 2014 Tiếng Anh [7] Chin-Yew Lin, Eduard Hovy (2003/5/27), Automatic evaluation of summaries using n-gram co-occurrence statistics, In Proceedings of the Human Technology Conference, Association for Computational Linguistics Volume 1, 71-78 [8] Clarke, J., & Lapata, M (2008), Global inference for sentence compression: An integer linear programming approach, Journal of Articial Intelligence Research, 31, 399-429 ` 68 [9] Dipanjan Das and Andre F.T Martins (2007), A Survey on Automatic Text Summarization, Language Technologies Institute, Carnegie Mellon University [10] Ha N.T.T, An optimization text summarization method based on Naïve Bayes and topic word for Single syllable Language, Applied Mathematical Sciences, Vol 8, No 3, pp 99-115, 2014 [11] Hovy, E and Lin, C , Automated text summarization and the summarist system, TIPSTER '98 Proceedings of a workshop on held at Baltimore, Maryland: October 13-15, 1998, pp.197–214, 1998 [12] Knight, K., & Marcu, D (2002), Summarization beyond sentence extraction: a probabilistic approach to sentence compression, Articial Intelligence, 139 (1), 91-107 Formatted: Bullets and Numbering [13] Thanh, Le Ha; Quyet, Thang Huynh; Chi, Mai Luong, A Primary Study on Summarization of Documents in Vietnamese, Proceedings of the First World Congress of the International Federation for Systems Research : The New Roles of Systems Sciences For a Knowledge-based Society 2005-11 Website [1].[14] http://labs.baomoi.com/demoTS.aspx [2].[15] http://vlsp.vietlp.org:8080/demo/ [3].[16] http://www.textcompactor.com/ [4].[17] http://www.tools4noobs.com/summarize PHỤ LỤC 1.Phần học văn public void Trainings(string typenewsId) { ` Formatted: Font: 12 pt 69 DataTable topword = dt.GetDataTable("Select * From tbWords where Type='0' and TypeNewsId='"+int.Parse(typenewsId)+"'"); if (topword != null) { foreach (DataRow row in topword.Rows) { row[2] = 0; row[3] = 0; row[4] = 0; row[5] = 0; row[6] = 0; } } string s1; int tong = 0; int dem = 0; for (int i = 0; i < 2; i++) { string sentence = st.GetSentence(i + "",typenewsId); if (topword != null) { foreach (DataRow row in topword.Rows) { s1 = Convert.ToString(row[1]); Regex thegex = new Regex(s1.ToLower()); MatchCollection theMatches = thegex.Matches(sentence); ` 70 int str = 0; foreach (Match theMatch in theMatches) { str++; } if (str > 0) { dem++; tong = Convert.ToInt32(row[i + 2]) + Convert.ToInt32(str.ToString()); row[i + 2] = Convert.ToInt32(str.ToString()); } } } } double xs = 0.0; for (int i = 0; i < 2; i++) { foreach (DataRow row1 in topword.Rows) { if (tong > 0) { xs = (Convert.ToDouble(row1[i + 2]) + 1) / (Convert.ToDouble(dem) + Convert.ToDouble(tong)); } else xs = 0.0; ` 71 row1[i + 4] = xs.ToString(); } } tw.Update(topword,typenewsId); DataTable noun = dt.GetDataTable("Select * From tbWords where Type='1' and TypeNewsId='"+int.Parse(typenewsId)+"'"); if (noun != null) { foreach (DataRow row in noun.Rows) { row[2] = 0; row[3] = 0; row[4] = 0; row[5] = 0; row[6] = 1; } } string s2; int tong2 = 0; int dem2 = 0; for (int i = 0; i < 2; i++) { string sentence = st.GetSentence(i + "",typenewsId); if (noun != null) { foreach (DataRow row in noun.Rows) ` 72 { s2 = Convert.ToString(row[1]); Regex thegex = new Regex(s2.ToLower()); MatchCollection theMatches = thegex.Matches(sentence); int str = 0; foreach (Match theMatch in theMatches) { str++; } if (str > 0) { dem2++; tong2 = Convert.ToInt32(row[i + 2]) + Convert.ToInt32(str.ToString()); row[i + 2] = Convert.ToInt32(str.ToString()); } } } } double xs2 = 0.0; for (int i = 0; i < 2; i++) { foreach (DataRow row1 in noun.Rows) { if (tong2 > 0) ` 73 { xs2 = (Convert.ToDouble(row1[i + 2]) + 1) / (Convert.ToDouble(dem2) + Convert.ToDouble(tong2)); } else xs2 = 0.0; row1[i + 4] = xs2.ToString(); } } tw.Update(noun,typenewsId); } 2.Phần Tóm tắt public string SummaryText(string text,string typenewsId) { DataTable topword = dt.GetDataTable("Select * From tbWords where Type='0' and TypeNewsId='"+int.Parse(typenewsId)+"'"); DataTable noun = dt.GetDataTable("Select * From tbWords where Type='1' and TypeNewsId='" + int.Parse(typenewsId) + "'"); string output = ""; string[] input = text.Split('.', '?', '!', ';'); for (int i = 0; i < input.Length; i++) { string s1 = ""; string s2 = ""; double ProbabilityYes = 0; double ProbabilityNo = 0; ` Formatted: Font: 12 pt 74 if (topword != null) { foreach (DataRow row in topword.Rows) { s1 = Convert.ToString(row[1]); Regex thegex = new Regex(s1); MatchCollection theMatches = thegex.Matches(input[i]); int s = 0; foreach (Match theMatch in theMatches) { ProbabilityYes += Convert.ToDouble(row[4].ToString()); ProbabilityNo += Convert.ToDouble(row[5].ToString()); } } } if (noun != null) { foreach (DataRow row in noun.Rows) { s2 = Convert.ToString(row[1]); Regex thegex = new Regex(s2); MatchCollection theMatches = thegex.Matches(input[i]); int s = 0; ` 75 foreach (Match theMatch in theMatches) { ProbabilityYes += Convert.ToDouble(row[4].ToString()); ProbabilityNo += Convert.ToDouble(row[5].ToString()); } } } if (ProbabilityYes > ProbabilityNo) { output += input[i] + " "; } } return output; } ` Page 23: [1] Formatted User 27/5/2014 16:53:00 PM HINH VE, None, Line spacing: single, Widow/Orphan control, Allow hanging punctuation, Adjust space between Latin and Asian text, Adjust space between Asian text and numbers, Font Alignment: Auto, Border: Top: (No border), Bottom: (No border), Left: (No b Page 23: [2] Formatted Microsoft Windows 17/8/2014 10:06:00 AM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 16:49:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 16:49:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 16:49:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 16:49:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 16:49:00 PM Vietnamese Page 23: [3] Formatted Font: 10.5 pt, Bold Page 23: [4] Formatted Font: 10.5 pt Page 23: [5] Formatted Centered Page 23: [6] Formatted Font: 10.5 pt, Bold Page 23: [7] Formatted Font: 10.5 pt Page 23: [8] Formatted Centered Page 23: [9] Formatted Font: 10.5 pt, Bold Page 23: [9] Formatted Font: 10.5 pt, Bold Page 23: [9] Formatted Font: 10.5 pt, Bold Page 23: [10] Formatted Font: 10.5 pt Page 23: [11] Formatted Centered Page 23: [12] Formatted Font: 10.5 pt, Bold Page 23: [13] Formatted Font: 10.5 pt Page 23: [14] Formatted Centered Page 23: [15] Formatted Font: 10.5 pt, Bold Page 23: [16] Formatted Font: 10.5 pt Page 23: [17] Formatted Centered Page 23: [18] Formatted User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 17:04:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 17:04:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 17:09:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 17:04:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 17:04:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 17:04:00 PM User 27/5/2014 19:33:00 PM Font: 10.5 pt, Bold Page 23: [19] Formatted Font: 10.5 pt Page 23: [20] Formatted Font: 10.5 pt Page 23: [21] Formatted Centered Page 23: [22] Formatted Font: 10.5 pt, Bold Page 23: [23] Formatted Font: 10.5 pt, Bold Page 23: [24] Formatted Font: 10.5 pt Page 23: [25] Formatted Centered Page 23: [26] Formatted Font: 10.5 pt, Bold Page 23: [27] Formatted Font: 10.5 pt, Bold Page 23: [28] Formatted Centered Page 23: [29] Formatted Font: 10.5 pt Page 23: [30] Formatted Centered Page 23: [31] Formatted Font: 10.5 pt, Bold Page 23: [32] Formatted Centered Page 23: [33] Formatted Font: 10.5 pt, Bold Page 23: [34] Formatted Font: 10.5 pt Page 23: [35] Formatted Centered Page 23: [36] Formatted Font: 10.5 pt, Bold Page 23: [37] Formatted User 27/5/2014 19:33:00 PM User 27/5/2014 17:04:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 17:04:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 17:04:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 17:04:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 17:09:00 PM User 27/5/2014 19:33:00 PM Font: 10.5 pt Page 23: [38] Formatted Centered Page 23: [39] Formatted Font: 10.5 pt, Bold Page 23: [40] Formatted Font: 10.5 pt Page 23: [41] Formatted Centered Page 23: [42] Formatted Font: 10.5 pt, Bold Page 23: [43] Formatted Font: 10.5 pt Page 23: [44] Formatted Centered Page 23: [45] Formatted Font: 10.5 pt, Bold Page 23: [46] Formatted Font: 10.5 pt Page 23: [47] Formatted Centered Page 23: [48] Formatted Font: 10.5 pt, Bold Page 23: [49] Formatted Font: 10.5 pt, Bold Page 23: [50] Formatted Font: 10.5 pt Page 23: [51] Formatted Centered Page 23: [52] Formatted Font: 10.5 pt, Bold ... TẮT VÀ TÓM TẮT VĂN BẢN TIẾNG VIỆT Trong chương này, luận văn trình bày khái niệm tổng quan tóm tắt văn tóm tắt văn tiếng Việt, kỹ thuật tóm tắt văn dựa máy học như: Naïve Bayes, Cây định, phương. .. tóm tắt văn tiếng Việt 56 3.3.2 Giao diện trang quản trị hệ thống tóm tắt văn tiếng Việt 57 3.4 Kết thực nghiệm phương pháp tóm tắt văn tiếng Việt dựa Naïve Bayes 63 3.4.1 Xây. .. tuyến tóm tắt - Xây dựng tập liệu huấn luyện gồm 200 văn tiếng Việt Luận văn chia thành chương với nội dung sau: Chương 1: Tổng quan tóm tắt tóm tắt văn tiếng Việt Chương 2: Phương pháp tóm tắt văn

Ngày đăng: 16/03/2023, 11:35

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w