TaNguyen@NCKHGV BỘ GIÁO DỤC ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG ******** BÁO CÁO NGHIÊN CỨU KHOA HỌC ĐỀ TÀI XÂY DỰNG HỆ THỐNG RÚT TRÍCH CÁC NỘI DUNG CHÍNH CỦA VĂN BẢN KHOA HỌC DỰA TRÊN CẤU TRÚC TẠ NGUYỄN[.]
BỘ GIÁO DỤC ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG ******** BÁO CÁO NGHIÊN CỨU KHOA HỌC ĐỀ TÀI : XÂY DỰNG HỆ THỐNG RÚT TRÍCH CÁC NỘI DUNG CHÍNH CỦA VĂN BẢN KHOA HỌC DỰA TRÊN CẤU TRÚC TẠ NGUYỄN Biên Hòa, Tháng 6/2012 MỤC LỤC Trang Mở đầu 1 Tóm lược đề tài Mục tiêu đề tài Nội dung thực đề tài Phạm vi ứng dụng Chương : Tổng quan tóm tắt văn tự động 1.1 Giới thiệu 1.2 Mô hình tóm tắt văn 1.3 Phân loại tốn tóm tắt văn 1.4 Các phương pháp tóm tắt văn 1.5 Tình hình nghiên cứu nước 10 1.5.1 Ngoài nước 10 1.5.2 Trong nước 12 1.6 Một số hệ thống tóm tắt văn giới 13 Chương : Cơ sở lý thuyết xử lý tóm tắt văn tiếng Việt 16 2.1 Một số đặc điểm ngôn ngữ tiếng Việt 16 2.1.1 Văn bản, chủ đề văn cấu trúc văn 16 2.1.2 Tiêu đề văn 17 2.1.3 Đoạn văn 18 2.1.4 Câu cấu trúc câu tiếng Việt 19 2.1.5 Từ 23 2.2 Bài toán tách câu 24 2.2.1 Giới thiệu toán 24 2.2.2 Dấu hiệu đặc trưng nhận dạng câu 25 2.3 Bài toán tách từ tiếng việt 26 2.3.1 Giới thiệu toán 26 2.3.2 Các phương pháp tách từ 28 2.3.2.1 Phương pháp dựa otomat 28 2.3.2.2 Dùng mơ hình n-gram phương pháp xác suất thống kê 30 2.3.2.3 Sử dụng giải thuật di truyền thống kê Internet 31 2.4 Các thách thức q trình rút trích văn khoa học 32 2.4.1 Văn phong 32 2.4.2 Lỗi văn phạm 32 Chương : Phương pháp rút trích ý văn tiếng Việt 33 3.1 Các phương pháp rút trích 33 3.1.1 Các phương pháp thống kê (Statistical Methods) 33 3.1.1.1 Phương pháp vị trí (Position-Based) 34 3.1.1.2 Phương pháp cụm từ gợi ý (Cue phrases-Based) 35 3.1.1.3 Phương pháp thống kê tần suất từ (Word frequency-Based) 36 3.1.2 Phương pháp mạng ngữ nghĩa 36 3.1.2.1 Phương pháp quan hệ lẫn 36 3.1.2.2 Phương pháp liên kết từ vựng ( Lexical Chains ) 36 3.1.2.3 Phương pháp Liên kết tham chiếu ( Word Coreferences ) 36 3.1.2.4 Phương pháp quan hệ câu ( Discourse-Based ) 37 3.1.3 Kết luận phương pháp giai đoạn phân tích 37 3.1.4 Hướng tiếp cận đề tài 38 3.2 Mơ hình rút trích ý văn khoa học 39 3.2.1 Mơ hình tổng qt 39 3.2.1.1 Giai đoạn tiền xử lý văn 41 3.2.1.2 Giai đoạn tách lọc câu 41 3.2.1.3 Giai đoạn rút trích sở 45 3.2.1.4 Giai đoạn phân lớp câu 55 3.2.1.5 Tính độ quan trọng câu 56 3.2.2 Đánh giá kết tóm tắt, rút trích 59 3.2.2.1 Phương pháp thủ công 61 3.2.2.2 Các phương pháp đánh giá khác 61 Chương : Thử nghiệm đánh giá kết 65 4.1 Kiến trúc chức chương trình 65 4.1.1 Tiền xử lý 65 4.1.2 Tách từ toàn văn 65 4.1.3 Tách câu 66 4.1.4 Lọc câu 66 4.1.5 Rút trích sở 67 4.1.6 Phân lớp câu 68 4.1.7 Đánh giá câu 68 4.1.8 Hiển thị kết xử lý 69 4.2 Thực nghiệm chương trình 69 4.2.1 Giao diện tiền xử lý, tách từ huấn luyện văn 70 4.2.2 Giao diện tách câu 71 4.2.3 Giao diện phân lớp câu 72 4.2.4 Giao diện hiển thị kết 73 4.2.5 Giao diện hiển thị thành phần quan trọng báo khoa học 73 4.3 Đánh giá kết 74 4.3.1 Đánh giá kết xử lý tổng quát 74 4.3.2 Đánh giá kết thực nghiệm từ hai công thức sử dụng 76 4.3.3 Đánh giá từ phía người đọc 83 Kết Luận 89 Tài liệu tham khảo 91 DANH MỤC HÌNH ẢNH Hình 1.1 : Mơ hình hệ thống tóm tắt văn Hình 1.2: Mơ hình hệ thống rút trích văn Hình 1.3 Giao diện kết trích rút văn Microsoft Word 14 Hình 1.4 Giao diện SweSUM - Hệ thống Tóm tắt đa ngơn ngữ 15 Hình Xây dựng ơtơmát âm tiết 28 Hình 2 Xây dựng ơtơmát từ vựng 29 Hình Một tình nhập nhằng 29 Hình Quy trình tổng qt rút trích ý văn khoa học 40 Hình Mơ hình tách từ tiếng Việt huấn luyện 65 Hình Mơ hình huấn luyện từ ghép 66 Hình Mơ hình tách câu 66 Hình 4 Mơ hình lọc câu 67 Hình Mơ hình Rút trích sở 67 Hình Mơ hình phân lớp câu 68 Hình Mơ hình đánh giá câu 69 Hình Giao diện tiền xử lý, tách từ huấn luyện 70 Hình Giao diện tách câu 71 Hình 10 Giao diện phân lớp đánh giá câu 72 Hình 11 Giao diện hiển thị kết 73 Hình 12 Giao diện hiển thị thành phần quan trọng báo khoa học 73 Hình 13 Kết rút trích theo quan niệm Makoto R.C Balabantara 80 DANH MỤC BẢNG BIỂU Bảng 3.1 Các ký hiệu kết thúc câu 41 Bảng 3.2 Một số trường hợp ngoại lệ nhận dạng tách câu 42 Bảng 3.3 Thống kê theo độ dài từ từ điển http://dict.vietfun.com 44 Bảng 3.4 Các thành phần báo khoa học 46 Bảng 3.5 Khảo sát xuất thành phần báo khoa học 50 Bảng 3.6 Ví dụ độ hồi tưởng 62 Bảng Lọc kết theo tỷ lệ 4.21% 74 Bảng Lọc kết theo tỷ lệ 7% 75 Bảng Kết 10 câu điểm cao ISS 77 Bảng 4 Kết 10 câu điểm cao Tf*Idf theo quan niệm thông thường 78 Bảng Kết khác ISS 79 Bảng Kết khác Tf*Idf theo quan niệm thông thường 79 Bảng Kết 10 câu điểm cao Tf*Idf theo quan niệm Makoto R.C Balabantara 81 Bảng Kết khác ISS so với Tf*Idf theo quan niệm Makoto R.C Balabantara 82 Bảng Kết khác Tf*Idf theo quan niệm Makoto R.C Balabantara 82 Bảng 10 Kết Tf*Idf theo quan niệm Makoto R.C Balabantara 83 Bảng 11 Chi tiết kết rút trích 84 Bảng 12 Kết tỷ lệ rút trích người EMIS 87 Mở đầu Tóm lược đề tài Hiện nay, với phát triển không ngừng công nghệ, máy tính nói chung hay Word Wide Web (www) nói riêng mơi trường phổ biến dùng để lưu trữ thông tin Với hàng tỷ trang web tồn tại, kèm với khối lượng thông tin vô to lớn Lượng thông tin khổng lồ đem lại lợi ích khơng nhỏ dành cho người Chính khổng lồ thơng tin dẫn đến việc tìm kiếm tổng hợp thơng tin khơng thuận lợi, gây nhiều khó khăn để có kết tìm kiếm mục đích tốn thời gian Người ta nhiều thời gian để đọc hết tài liệu điện tử vài chục trang chí nhiều để cuối rút kết luận nội dung tài liệu khơng mục đích tìm kiếm Rút trích ý văn cách tự động toán đặt trước nhu cầu thực tế đó, việc tự động rút trích ý tài liệu giúp người dùng tiết kiệm thời gian việc sàng lọc tổng hợp tri thức , nâng cao chất lượng tăng hiệu đánh mục cho máy tìm kiếm Đồng thời sở cho toán tóm tắt văn bản, truy hồi thơng tin,… Các dạng rút trích văn thường người xử lý, nghĩa người có hiểu biết tốt chuyên ngành đọc rút tri thức, không khỏi mang ý niệm chủ quan người xử lý văn bản, đặc điểm văn khoa học văn bản, tác giả – nhà khoa học – ln mong muốn trình bày, chí khẳng định ý tưởng khoa học, cần trình bày lại dù dạng tóm tắt cách khách quan[27] Khác với việc đọc tự rút cho ý tồn văn lâu người thường làm, đề tài muốn đề cập đến quy trình cho phép máy tính tự động rút trích ý từ văn tương đối xác mà cụ thể văn khoa học ngành công nghệ thông tin báo khoa học toàn văn báo cáo Nhận thấy đề tài mang tính khoa học cao, tảng nhiều ứng dụng thực tế quan trọng từ phương pháp nghiên cứu đề tài mở rộng để nghiên cứu việc rút trích ý nhiều loại văn khác thuộc lĩnh vực khác Nên tác giả định chọn đề tài Xây dựng hệ thống rút trích nội dung văn khoa học dựa cấu trúc để làm đề tài nghiên cứu Đề tài tập trung vào việc nghiên cứu, khảo sát, đánh giá đề xuất phương pháp rút trích ý văn khoa học phù hợp với ngơn ngữ tiếng Việt, bên cạnh áp dụng phương pháp vào việc xây dựng hệ thống rút trích văn khoa học với kết đầu tốt Mục tiêu đề tài Đề xuất quy trình rút trích câu có nội dung mang thông tin quan trọng văn khoa học dựa phương pháp thống kê cấu trúc tài liệu cách chặt chẽ, đưa thuật tốn phù hợp từ xây dựng ứng dụng phát triển hệ thống rút trích văn khoa học lĩnh vực công nghệ thông tin Nội dung thực đề tài - Nghiên cứu hệ thống từ vựng, câu tiếng Việt - Thu thập số lượng lớn báo khoa học, tin tức toàn văn báo cáo lĩnh vực công nghệ phần mềm ngành công nghệ thông tin Khảo sát cách viết cấu trúc loại tài liệu - Tìm hiểu cơng cụ xử lý văn nước ngồi - Tìm hiểu cách thức tương tác với văn - Tìm hiểu vấn đề với văn tiếng Việt cách giải - Xây dựng quy trình rút trích ý văn khoa học : § Xác định, phân loại đối tượng văn : báo khoa học, tồn văn … § Tiền xử lý, chuẩn hóa văn § Xác định thơng tin văn : tên tác giả, năm phát hành, tên văn bản, số trang, số từ § Xác định cấu trúc toàn văn : chương, phần, đoạn,… § Xác định chuỗi từ vựng quan trọng, từ khóa, chủ đề văn § Xác định câu chứa từ có tên đề tài Xác định câu hay đoạn có lúc từ thuộc chủ đề xuất nhiều § Xác định vị trí quan trọng văn thường chứa ý § Xây dựng từ điển cụm từ đặc trưng xác định ý (Các cụm từ mà theo sau hay đứng trước ý chính) § Chọn lựa câu chứa ý làm kết đầu tốt - Xác định ý tài liệu thu thập theo chủ quan thân Khảo sát cách xác định ý người có kinh nghiệm việc viết tài liệu, văn khoa học, từ đưa đánh giá, nhận xét ý văn khoa học - Nghiên cứu thuật tốn rút trích văn từ đưa giải pháp phù hợp - Xây dựng hệ thống rút trích ý văn khoa học tự động - Thử nghiệm hệ thống liệu thực tế để đánh giá tính hiệu độ xác quy trình đề xuất Phạm vi ứng dụng Chương trình xây dựng áp dụng xử lý tất văn khoa học tiếng Việt báo khoa học toàn văn báo cáo thuộc lĩnh vực Công nghệ thông tin Chương : Tổng quan tóm tắt văn tự động 1.1 Giới thiệu Tóm tắt văn tự động nội dung quan trọng lĩnh vực xử lý ngôn ngữ tự nhiên Qua việc tóm tắt, ý tài liệu sàng lọc trình bày cách đọng góp phần tạo văn ngắn gọn xúc tích mang đầy đủ thơng tin mà tài liệu muốn đề cập, có giá trị thực tiễn to lớn ứng dụng hiệu hệ thống tìm kiếm, trích lọc thơng tin Theo Inderjeet Mani tác giả đề tài Advances in AutomaticText Summarization, mục đích tóm tắt văn tự động là: “Tóm tắt văn tự động nhằm mục đích trích xuất nội dung từ nguồn thơng tin trình bày nội dung quan trọng cho người sử dụng theo khn dạng súc tích gây cảm xúc người sử dụng chương trình cần đến”[12] Và để thực cơng việc tóm tắt địi hỏi người đọc phải rút ý văn bản, nói q trình quan trọng cơng đoạn tóm tắt Bài tốn tóm tắt văn toán mang lại ứng dụng to lớn lĩnh vực khai phá văn Một số biến thể toán sinh mục lục tự động, sinh ý tài liệu, sinh tiêu đề văn Những thuật toán dùng tóm tắt văn áp dụng tốn tương tự tóm tắt hình ảnh, âm hay nói chung liệu đa phương tiện Điểm cốt lõi hệ thống tóm tắt văn tìm thành phần quan trọng văn cần tóm tắt Các thành phần gọi đơn vị văn Đơn vị văn hiểu đơn vị nhỏ mà ta chọn để trích rút mệnh đề câu Các đơn vị văn quan trọng có xác suất lớn để chứa ý hay nội dung quan trọng đoạn văn hay văn Sau chọn đơn vị văn quan trọng, hệ thống trích rút biến đổi chúng sau hiển thị hình, thống kê kết hay sinh liệu cho hệ thống khác 79 hết giáo viên thực tay thông qua bàn phím, cơng việc dễ gây nhàm chán, mệt mõi nhầm lẫn cho giáo viên trình nhập điểm, nhập điểm với số lượng nhiều 56 29 162 Tạo khả thích ứng với hệ thống quản lý điểm khác cho phần mềm hỗ trợ nhập điểm Việc áp dụng cơng nghệ nước ngồi vào nhận dạng giọng nói tiếng Việt gặp khó khăn định đa dạng phức tạp ngữ âm tiếng Việt Phần mềm hỗ trợ đọc lại điểm nhận dạng được, giúp người sử dụng biết 100.34694 0.2967 92 46.52041 0.2925 144 98.63265 0.27983 84 nhập sai Qua kết ta thấy hai công thức câu rút trích có điểm số cao 10 câu : 11, 10, 9, 37, 56, 166, 162, Cả hai phương pháp đánh giá cao giống 8/10 câu, tỷ lệ 80% Thực nghiệm tài liệu khác, kết dao động khoảng từ 70% - 90% Như ta thấy khơng có sai khác lớn việc sử dụng phương pháp này, câu mà hai phương pháp đánh giá cao mang tiêu chí đề có hàm lượng thơng tin cao Ta xét tiếp câu khác hai phương pháp : - Phương pháp ISS : Bảng Kết khác ISS Mã Nội dung 36 19 ISS Sau nghiên cứu, chúng tơi hồn thành phần mềm hỗ trợ nhập điểm sử dụng giọng nói tiếng Việt Việc xây dựng phần mềm sử dụng giọng nói tự nhiên nhập điểm có thuận lợi khó khăn định - Tf * Idf Số KýTự 93.85714 0.20237 98 79.56122 0.13699 104 Phương pháp Tf * Idf (Quan niệm thông thường): Bảng Kết khác Tf*Idf theo quan niệm thông thường Mã Nội dung 17 Tuy nhiên, nhập điểm học sinh vào hệ thống quản lý điểm hầu hết giáo viên thực tay thơng qua bàn phím, cơng ISS Tf * Idf 68.13265 0.33912 Số KýTự 277 80 việc dễ gây nhàm chán, mệt mõi nhầm lẫn cho giáo viên trình nhập điểm, nhập điểm với số lượng nhiều Việc áp dụng công nghệ nước ngồi vào nhận dạng giọng nói tiếng Việt 29 gặp khó khăn định đa dạng phức tạp ngữ âm tiếng 46.52041 0.2925 144 Việt Ta thấy phương pháp ISS câu 36 19 không mang thông tin cụ thể, không mô tả nghiên cứu gì, điểm thuận lợi, khó khăn Cịn phương pháp Tf * Idf câu 17 29 mang thông tin cụ thể, rõ ràng lý thực đề tài Qua thấy phương pháp Tf * Idf theo quan niệm có mức độ xác cao chút so với phương pháp ISS Tiếp tục so sánh kết rút trích với việc đánh giá câu theo quan niệm Makoto[15] R.C Balabantara [23] Hình 13 Kết rút trích theo quan niệm Makoto R.C Balabantara Thấy rõ qua bảng sau : 81 Bảng Kết 10 câu điểm cao Tf*Idf theo quan niệm Makoto R.C Balabantara Mã Nội dung ISS Tf * Idf Số Ký Tự Phần mềm có khả hỗ trợ cho hầu hết phần mềm quản lý điểm 37 với độ xác nhận dạng đạt sĩ 100% có khả thích ứng với 103.58163 0.40142 176 113.88776 0.39502 240 120.46939 0.3499 269 96.60204 0.33713 226 166 Đức), phần mềm thay cho việc nhập điểm tay trước 100.10204 0.30802 315 nhiều giọng nói khác Sau nghiên cứu, chúng tơi tích hợp thành cơng cơng nghệ nhận dạng 10 giọng nói Sphinx vào ứng dụng mình, hồn thành phần mềm VSMark có khả chuyển đổi giọng nói thành từ dạng điểm số xuất vị trí mong muốn Phần mềm Vsmark có khả hỗ trợ nhập điểm cho tất phần mềm quản 11 lý điểm với độ xác nhận dạng giọng nói đạt gần 100% giúp giáo viên cảm thấy dễ dàng, đơn giản đảm bảo xác nhập điểm vào hệ thống quản lý điểm khác Đặc điểm chung phần mềm quản lý điểm việc nhập điểm vào hệ thống thực tay thơng qua bàn phím, nhập điểm với số lượng nhiều dể gây nhàm chán, mệt mỏi nhầm lẫn cho giáo viên Tuy có thiếu sót định, phần mềm có khả ứng dụng vào thực tế (đã sử dụng thử nghiệm trường PTCS Phước Mỹ, THCS Hàm giáo viên, giúp giáo viên cảm thấy dể dàng, giảm mệt mỏi công việc nhập điểm học sinh 56 29 162 12 43 Tạo khả thích ứng với hệ thống quản lý điểm khác cho phần mềm hỗ trợ nhập điểm Việc áp dụng cơng nghệ nước ngồi vào nhận dạng giọng nói tiếng Việt gặp khó khăn định đa dạng phức tạp ngữ âm tiếng Việt Phần mềm hỗ trợ đọc lại điểm nhận dạng được, giúp người sử dụng biết nhập sai Tuy nhiên, phần mềm VSMark hoạt động chưa tốt môi trường tạp âm nhiều, tiếp tục phát triển khắc phục phiên sau Sphinx-4: cơng cụ nhận dạng giọng nói viết ngơn ngữ java, có tính linh hoạt cao, độ tin cậy tốt, thích hợp cho hệ thống yêu cầu độ xác cao 100.42857 0.28082 92 46.64286 0.27685 144 98.69388 0.26215 84 74.94898 0.24866 152 71 0.24146 153 82 Ta thấy: - So với kết ISS số câu kết giống : 37,10,11,7,166,56, 162 Tỷ lệ giống 70% - So với kết đánh giá câu theo quan niệm thông thường số câu kết giống : 37,10,11,7,166,56,29,162 Tỷ lệ giống 80% Xét tiếp phần khác kết theo quan niệm thông thường : Bảng Kết khác ISS so với Tf*Idf theo quan niệm Makoto R.C Balabantara Mã Nội dung ISS Tf * Idf Số Ký Tự Với công cụ phần mềm Sphinx, phần mềm mã nguồn mở chuyên công nghệ nhận dạng giọng nói đại học Carnegie Mellon University nghiên cứu phát triển, ngồi tiếng Anh ngơn ngữ 105.36735 0.38862 308 Sphinx hỗ trợ tốt khả huấn luyện nhận dạng số ngôn ngữ khác có tiếng Việt Tuy nhiên, nhập điểm học sinh vào hệ thống quản lý điểm hầu 17 hết giáo viên thực tay thơng qua bàn phím, cơng việc dễ gây nhàm chán, mệt mõi nhầm lẫn cho giáo viên trình 68.13265 0.33912 277 nhập điểm, nhập điểm với số lượng nhiều Và kết theo quan niệm Makoto R.C Balabantara : Bảng Kết khác Tf*Idf theo quan niệm Makoto R.C Balabantara Mã Nội dung ISS Tf * Idf Số Ký Tự Tuy nhiên, phần mềm VSMark hoạt động chưa tốt môi trường tạp 12 âm nhiều, tiếp tục phát triển khắc phục phiên 74.94898 0.24866 152 sau 43 Sphinx-4: công cụ nhận dạng giọng nói viết ngơn ngữ java, có tính linh hoạt cao, độ tin cậy tốt, thích hợp cho hệ thống yêu cầu độ xác cao 71 0.24146 153 Cả hai quan niệm cho kết câu có hàm lượng thơng tin cao theo tiêu chí rút trích Tuy nhiên thấy theo quan niệm Makoto R.C Balabantara câu từ chứa thơng tin quan trọng 83 bên Xét tiếp kết quan niệm Makoto R.C Balabantara (Ngoài 10 câu cao điểm nhất) : Bảng 10 Kết Tf*Idf theo quan niệm Makoto R.C Balabantara Mã Nội dung ISS 40 Các công cụ hỗ trợ hệ thống nhận dạng giọng nói Sphinx, bao gồm 68.58163 0.22212 69 41 15 46 Pocketsphinx: công cụ nhận dạng giọng nói nhỏ gọn viết ngơn ngữ C, thích hợp cho hệ thống nhúng Ở nước ta nay, trường học việc quản lý điểm học sinh hầu hết tin học hóa Sphinx3: cơng cụ nhận dạng ngơn ngữ C, tảng đời Sphinx-4 65 Thư viện hỗ trợ nhận dạng giọng nói Sphinx4-beta6 Tf * Idf Số Ký Tự 49.17347 0.22133 104 29.9898 0.2196 103 49.30612 0.21428 73 42.29592 0.21255 50 Việc nghiên cứu nhận dạng giọng nói tiếng Việt chưa có nhiều thành tựu 28 đáng kể chưa đưa thư viện hổ trợ cho trình xây dựng 56.76531 0.20617 150 ứng dụng 159 Tốc độ nhận dạng nhanh, có hỗ trợ đọc dãy điểm liên tục 42.42857 0.20448 59 Đến lúc ta thấy khuyết điểm quan niệm Makoto R.C Balabantara cho việc xử lý tiếng Việt, qua câu kết từ câu thứ 11 đến câu 17 xếp hạng giảm dần theo điểm tf*idf câu chứa từ không mang nghĩa đầy đủ hay không chứa nhiều thơng tin Chính để đạt kết tốt ta chọn lựa sử dụng phương pháp kết hợp độ đo cục toàn cục (Tf * Idf) với quan niệm câu chứa nhiều từ có độ quan trọng cao câu có độ quan trọng cao 4.3.3 Đánh giá từ phía người đọc Để đánh giá khách quan hơn, đề tài khảo sát kết đánh giá người, tất học tập làm việc lĩnh vực công nghệ thông tin Số lượng tài liệu khảo sát bao gồm tài liệu lĩnh vực cơng nghệ thơng tin Trong : 84 • Tài liệu : Xây dựng hệ thống mô phịng máy dùng quản lý hỏng hóc, sửa chữa tác giả Nguyễn Minh Sơn Phan Thị Hường (D1) • Tài liệu : Hệ thống điều khiển Robot di chuyển tự động theo mục tiêu màu ứng dụng Board DE2 tác giả Vũ Đức Lung, Trần Ngọc Đức Lê Phước Phát Đạt Đức.(D2) • Tài liệu : Enrichment Computer Science Bibliography tác giả Đỗ Văn Tiến, Nguyễn Phước Cường Huỳnh Ngọc Tín.(D3) • Tài liệu : Build social networking location-based services on Windows Phone environments tác giả Đoàn Ngọc Nam, Trần Lễ Nhơn, Phạm Thi Vương.(D4) • Tài liệu : Một số vấn đề xử lý ngữ nghĩa dịch tự động ngôn ngữ tự nhiên tác giả Trương Xuân Nam Hồ Sỹ Đàm(D5) Sau q trình khảo sát, kết rút trích người tham gia hệ thống rút trích ý (EMIS) thể qua bảng sau : Bảng 11 Chi tiết kết rút trích P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 (n(S)) (n(S)) (n(S)) (n(S)) (n(S)) (n(S)) (n(S)) (n(S)) (n(S)) (n(S)) 10(12, 11(11 12(1 11(14, 9(14,1 2(27,3 20(11, 8(11,2 6(14,3 11(11, 61,53,48, 13,24, ,12,1 1,12, 26,27, 5,46,4 2) 12,23, 3,26,2 6,44,5 12,24, 47,46,36, 32,45, 3,26, 14,1 36,46, 7,48,5 26,32, 8,32,3 3,61,6 29,31, 31,32,11, 46,47, 27,28 5,28, 47,48, 0,54,5 36,46, 6,55,6 7) 32,36, 12,23,13, D1 48,50, ,36,4 29,3 50,54, 5,56) 47,48, 5) 46,47, 14,58,26, (82 53) 8,53, 2,48, 55,56) 48,53) 15,27,10, 63,67 52,5 55,59, 29,24,16, ) 4,55, 61,62, 28,39,44, 56) 63,64, 55,57,56, 65,66, 59,54,52 câu) 50,53, EMIS 67) D2 (168 14(20, 28(16 11(2 23(15, 19(21, 29,30, ,17,1 1,24, 18,20, 31,32, 8,19, 34,3 34,36, 1(34) 4(21,6 5(20,2 5(20,2 9(11,2 19,20,21, 51,52, 9,70,1 4,34,7 1,70,1 0,21,2 22,29,30, 53,58, 34) 4,79) 34,141 2,31,3 31,32,36, 85 câu) 36,47, 25,28 6,47, 51,52, 60,71, 60,70, ,29,3 48,6 53,58, 88,97, 0,31, 0,10 107,10 32,34 8,134) 2,36,1 41,42,47, 72,73, 08,134 60,70,80, 60,61, 88,89, ) 108,134,4 3,13 71,72, 90,91, 3,11,44,1 ,41,7 4,13 73,88, 94,104 14,98,15, 4,75, 5) 89,90, ,107,1 34,100,10 76,80 96,104 09,110 ,105,45,9 ,81,8 ,107,1 ,123) 1,103,51, 2,83, 09,110 111,66,10 89,90 ,123) 9,53,52, ) ,91,9 40,106,88 2,103 ,59 ,104, 109,1 10,11 1) 10(22, 16(22 12(1 20(18, 9(18,1 10(30, 9(18,2 11(22, 7(22,2 12(22, 20,22,23, 23,35, ,23,3 7,22, 20,22, 9,30,6 45,46, 0,22,2 24,25, 3,35,6 23,35, 35,44,51, 59,68, 1,32, 23,3 23,29, 4,71,7 47,50, 3,35,4 26,44, 4,71,1 44,51, 59,60,64, 71,75, 33,34 2,33, 42,44, 3,90,9 59,73, 4,59,1 52,53, 35,138 59,60, 68,71,73, 88,90, ,44,4 44,6 48,50, 5,133) 75,76, 35,138 64,75, ) 68,71, 88,90,91, 98) 6,47, 4,68, 52,53, 90) ) 88,102 73,132 95,98,135 D3 59,75 71,9 59,60, ) ,135) ,16,132,8 (209 ,76,9 4,95, 61,64, 7,18,17,7 câu) 5,98, 98) 73,88, 6,82,131, 136,1 91,98, 45,34,103 38) 133) ,25,46,39, 48,63,42, 40,37,75, 53,32,43, 61,31 86 8(29,6 18(29 9(41, 14(29, 10(29, 16(35, 7(65,6 8(29,5 10(29, 6(23,2 29,40,41, 3,69,7 ,40,4 42,5 30,42, 36,42, 37,40, 9,72,1 2,69,7 42,52, 4,29,4 52,69,71, 1,114, 1,42, 2,53, 46,52, 52,69, 41,46, 06,110 2,106, 63,69, 0,71,1 109,114,1 124,12 52,53 60,1 53,63, 72,109 47,69, ,133,1 109,11 72,106 133) 23,133,63 7,142) ,60,6 09,1 64,69, ,110,1 71,106 34) 6,134) ,109,1 ,64,25,60, 1,62, 10,1 71,72, 14,115 ,109,1 14) 24,65,134 D4 69,10 14,1 106,10 ) 14,122 ,139,136, (186 9,110 39) 9,114) ,123,1 115,147,1 câu) ,114, 24,127 41,106,26 122,1 ,128) ,110,30,1 23,13 16,140,14 3,134 6,126,42, ) 28,48,91, 58,36,37, 127,35 D5 14(20, 13(16 17(2 16(18, 15(20, 16(28, 7(26,2 12(16, 8(16,2 10(26, 54,55,26, 22,23, ,18,2 6,28, 25,26, 22,23, 35,36, 8,72,7 26,28, 6,28,7 28,37, 73,117,10 37,38, 5,39, 29,3 28,37, 37,38, 37,38, 5,152, 48,54, 5,117, 38,54, 2,71,72,6 56,57, 46,54 5,36, 38,54, 54,65, 54,55, 158,20 62,71, 149,15 63,71, 3,85,86, 58,65, ,63,7 37,3 65,71, 66,67, 56,57, 1) 75,114 0,199) 72,73, 75,76,77, 66,67, 2,78, 8,54, 77,85, 71,77, 58,62, ,148,1 117) 78,118,11 77,85, 86,12 62,6 86,102 85,102 77,78, 49,150 4,116,55, 102) 8,144 3,75, ,148,1 ,148,1 85,86, ) 142,68,71 ,200) 76,7 49,150 52) 102) 7,85, ) (235 câu) ,69,147,1 40,139,14 102, 1,113,105 118, ,120,137, 200) 125,126,7 4,,94,103, 87,17 ,91,89,19 Chú thích bảng biểu 4.11 : - P : Người rút trích tài liệu - D: Tài liệu dùng để khảo sát 87 - n(S) : n số câu người dùng rút trích S tập câu rút trích với số nguyên mã câu sau EMIS xử lý - Tập câu nêu cột “EMIS” bao gồm tất câu EMIS rút xếp giảm dần theo điểm quan trọng - Các câu in đậm câu nằm thành phần quan trọng EMIS rút nên mặc định tính trùng khớp với EMIS - Các câu mà EMIS rút bảng không bao gồm câu phần tóm tắt kết luận báo khoa học – thành phần đặc biệt quan trọng mặc định rút trích Cách thức đánh giá : - Kết đánh giá theo số lượng câu mà người dùng rút để bảo đảm tính khách quan Ví dụ người dùng rút 12 câu đề tài lấy 12 câu có điểm cao mà EMIS xử lý để so sánh, người dùng rút câu lấy câu điểm cao EMIS để so sánh Sau bảng kết so sánh người EMIS : Bảng 12 Kết tỷ lệ rút trích người EMIS P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 Tổng Tỷ lệ D1 5/10 10/13 5/12 5/11 3/9 0/2 17/20 3/8 4/6 9/11 61/102 59.80% D2 11/14 11/28 4/10 10/23 8/19 0/1 2/4 1/5 4/5 6/9 57/118 48.31% D3 9/10 8/16 8/12 11/20 5/9 4/10 8/9 3/11 5/7 10/12 71/116 61.21% D4 5/8 10/17 7/9 8/14 6/10 7/16 3/7 4/8 6/10 3/6 59/105 56.19% D5 4/15 5/9 9/17 7/16 5/14 7/16 4/7 4/12 4/8 7/10 56/124 45.16% 34/57 44/83 33/60 41/84 27/61 18/45 34/47 15/44 23/36 35/48 304/565 Trung bình 53.81 % Chú thích bảng 4.12 : - m/n : m số câu rút trùng khớp người dùng EMIS, n tổng số câu dùng so sánh 88 Nhận xét : Qua bảng 4.11 ta thấy người tham gia khảo sát có khác biệt nhiều việc rút trích, người ý, câu quan trọng với người lại khơng có ý nghĩa với người khác Qua thấy phức tạp vấn đề rút trích, ngồi việc đáp ứng gần 100% tiêu chí đề tài đề cập phần đánh giá kết xử lý tổng quát (Mục 4.3.1) việc đáp ứng phía người dùng vơ quan trọng Qua bảng 4.12 ta thấy tổng số câu mà người dùng rút hay nói cách khác tổng số câu mà người dùng xem ý 565 câu có 304 câu trùng khớp với câu mà EMIS rút trích Như tỷ lệ trùng khớp 53.81% Cũng cần nói thêm [23] cơng bố năm 2012, cách đánh giá tác giả tương tự đề tài cho kết trung bình khoảng 60% có hai khác biệt lớn so với đề tài : - [23] xử lý ngôn ngữ tiếng Anh - Độ nén [23] thấp nhiều so với đề tài Trong khảo sát mà [23] trình bày việc rút trích đoạn văn khoảng 10 câu, rút từ 3-5 câu, độ nén khoảng 30-50% Trong với đề tài xử lý báo khoa học tồn văn số lượng câu lớn nhiều, báo( trung bình khoảng 180 câu) độ nén khoảng từ 4-10%, cịn tồn văn (trung bình khoảng 2500 câu) độ nén thấp từ 0.5-2% Chính xác suất xử lý đề tài lớn việc xử lý số lượng câu nhiều Hay nói việc chọn câu 10 câu xác suất trùng khớp cao việc chọn câu 100 câu Cho nên nói với tỷ lệ xử lý 53.81 % kết chấp nhận đề tài tiếp tục xây dựng thêm kho ngữ liệu qua việc huấn luyện cập nhật để nâng cao tính xác hệ thống 89 Kết Luận Bài tốn tóm tắt văn khơng phải vấn đề giới, có nhiều đề tài nghiên cứu vấn đề Nhưng đến chưa có hệ tóm tắt văn tiếng Việt hồn chỉnh đạt độ xác mong muốn, phần phức tạp tiếng Việt, phần miền giá trị xử lý số đề tài q rộng khơng đảm bảo độ xác mong muốn Đề tài hy vọng đem đến quy trình rút trích cho thể loại văn cụ thể dựa đặc trưng ngôn ngữ tiếng Việt, cấu trúc tài liệu đồng thời thử nghiệm phương pháp áp dụng thành công với tiếng Anh vào việc xử lý tiếng Việt Từ đưa đánh giá đề xuất quy trình rút trích ý mà sử dụng phương pháp cho kết tốt Kết thực nghiệm khảo sát cho thấy mức độ xác việc rút trích máy dựa quy trình đề xuất so với tiêu chí đề tốt so với người chấp nhận được, bước đầu tạo tiền đề xây dựng hệ tóm tắt văn tiếng Việt hồn chỉnh với độ xác cao Sau q trình nghiên cứu thực hiện, đề tài đạt kết sau : - Tìm hiểu hệ thống rút trích ý văn tiếng Việt dựa tốn tóm tắt văn tự động - Tìm hiểu tốn tách từ, tách câu tiếng Việt từ xây dựng module tách từ sử dụng mơ hình n-gram kết hợp so khớp từ điển rút gọn đem lại kết tách từ xác, tham gia vào việc huấn luyện tài liệu phục vụ cho việc tính tốn độ quan trọng từ câu - Xây dựng xử lý tính tốn độ quan trọng câu dựa nhiều phương pháp khác nhau, so sánh đánh giá kết để chọn phương pháp tốt - Xây dựng kho liệu cụm từ gợi ý nhấn mạnh, cụm từ xác định dư thừa phục vụ cho việc lọc phân lớp câu - Xây dựng quy trình rút trích ý văn tiếng Việt với giai đoạn chặt chẽ kết rút trích với độ xác tốt - Xây dựng chương trình rút trích ý văn khoa học thể quy trình đề xuất 90 Hướng phát triển đề tài : - Phát triển thêm kho ngữ liệu cụm từ gợi ý nhấn mạnh, cụm từ xác định dư thừa từ ghép chuyên ngành để tăng thêm độ xác việc tính tốn độ quan trọng câu - Cải thiện thuật toán phân lớp tính tốn câu để tăng tốc độ xử lý cho hệ thống - Mở rộng xử lý rút trích thêm lĩnh vực khác 91 Tài liệu tham khảo [1] Bùi Minh Toán, Lê A, Đỗ Việt Hùng, Giáo trình tiếng Việt thực hành, Nhà xuất Giáo dục, p.2 – 10,p.25-31 [2] Chin-Yew Lin and Eduard Hovy (2003) , Automatic Evaluation of Summaries Using N-gram Co-Occurrence Statistics, Information Sciences Institute-University of Southern California [3] Đặng Vũ Bình (2007), Hướng dẫn viết đề cương nghiên cứu báo cáo kết nghiên cứu khóa luận tốt nghiệp, Đại học Nông nghiệp I – Hà Nội [4] Đỗ Hữu Tài (2011), Quy định nội dung cách trình bày luận văn thạc sĩ, Đại học Lạc Hồng [5] Đỗ Phúc Hồng Kiếm, Rút trích ý từ văn tiếng Việt hỗ trợ tạo tóm tắt nội dung, Trung tâm Phát triển Cơng nghệ Thơng tin, Đại học Quốc gia TP Hồ Chí Minh [6] Đỗ Văn Long cộng sự, Xây dựng hệ thống tự động rút trích nội dung văn điện tử tiếng Việt, Phân viện Công nghệ thơng tin TP Hồ Chí Minh, Viện Khoa học Công nghệ Việt Nam [7]Dragomir Radev and et al, MEAD, University of Michigan, October -2003 [8] Elena Lloret and Manuel Palomar (2010), Challenging Issues of Automatic Summarization: Relevance Detection and Quality-based Evaluation , Department of Software and Computing Systems, University of Alicante, Spain [9]Eduard Hovy, Summarist – Automated Text Summarization, Information Sciences Institute of the University of Southern California,2003 [10] Ha Nguyen Thi Thu and Quynh Nguyen Huu (2011), Concatenate the Most Likelihood Substring for Generating Vietnamese Sentence Reduction, IACSIT International Journal of Engineering and Technology, Vol.3, No.3, June 2011 [11] Horacio Saggion, SumUM – Automatic summarization, the Department of Information and Communication Technologies, Universitat Pompeu Fabra in 92 Barcelona, 2000 [12] Inderjeet MANI, Summarization Evaluation: An Overview [13]Josef Steinberger and Karel Jeˇzek (2009), Evaluation measures for text summarization, Computing and Informatics, Vol 28, 2009 [14] M.Suneetha and S Sameen Fatima, Corpus based Automatic Text Summarization System with HMM Tagger, International Journal of Soft Computing and Engineering (IJSCE) ISSN: 2231-2307, Volume-1, Issue-3, July 2011 [15] Makoto Hirohata and et al (2005), Sentence extraction-based presentation summarization techniques and evaluation metrics, Department of Computer Science, Tokyo Institute of Technology [16]Martin Hassel and Hercules Dalianis, SweSum - Automatic Text Summarizer, School of Computer Science and Communication Royal Institute of Technology, Sweden, 2003 [17] Naresh Kumar Nagwani and Shrish Verma (2011), A Frequent Term and Semantic Similarity based Single Document Text Summarization Algorithm, International Journal of Computer Applications (0975 – 8887) Volume 17– No.2, March 2011 [18] Nguyễn Lê Minh Cao Hoàng Trụ (2006), Phân cụm từ Tiếng Việt phương pháp học máy cấu trúc, Advanced Institute of Science and Technology [19] Nguyễn Quý Minh (2009), Xây dựng công cụ quảng cáo theo ngữ cảnh tiếng Việt, Luận văn thạc sĩ ngành Khoa học máy tính – Trường Đại học Khoa học Tự Nhiên, TP Hồ Chí Minh [20] Nguyễn Thanh Hùng (2006), Hướng tiếp cận việc tách từ để phân loại văn tiếng Việt sử dụng giải thuật di truyền thống kê Internet, Trường PT Năng Khiếu-ĐHQG TP Hồ Chí Minh [21]Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương , Sử dụng gán nhán từ loại xác suất QTAG cho văn tiếng , Đại học Khoa học tự nhiên 93 Hà Nội, 2003 [22] Nguyễn Trọng Phúc Lê Thanh Hương (2006), Tóm tắt văn tiếng Việt dựa cấu trúc diễn ngôn, Đại học Bách Khoa Hà Nội [23] R.C Balabantara and et al (2012), Text Summarization using Term Weights, International Journal of Computer Applications (0975 – 8887) Volume 38– No.1, January 2012 [24] Regina Barzilay, Lexical Chains for Summarization, M.Sc Thesis, 11/97 [25] Trần Văn Lăng (2011), Cách thức viết báo khoa học, Khoa Công nghệ thông tin – trường Đại học Lạc Hồng [26] Vishal Gupta and Gurpreet Singh Lehal (2010), A Survey of Text Summarization Extractive Techniques, Journal of emerging technologies in web intelligence, vol 2, no 3, august 2010 [27] Vương Toàn (2007), Thử đề xuất quy trình tự động tóm tắt văn khoa học, Bản tin thư viện – Công nghệ thông tin [28] Wesley T Chuang and Jihoon Yang (2000) , Extracting Sentence Segments for Text Summarization: A Machine Learning Approach, SIGIR 2000 7/00 Athens, Greece © 2000 ACM 1-58113-226-3/00/0007 [29] Yiming Yang, Xin Liu, A re-examination for text categorization methods, Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’99), 1999