Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 58 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
58
Dung lượng
1,78 MB
Nội dung
LỜ I CAM ĐOAN Tơi xin cam đoan, tơi viết luận văn tìm hi ểu nghiên cứu thân Mọi k ết quả nghiên cứu như ý t ưở ng ng tác giả khác có đượ c trích dẫn nguồn gốc cụ thể Luận văn chưa đượ c bảo vệ tại b ất k ỳ m ột h ội đồng bảo v ệ luận văn thạc s ĩ nào toàn qu ốc như ở nướ c chưa đượ c công bố trên bất k ỳ một phươ ng ng tiện thông tin Tơi xin hồn tồn chịu trách nhiệm về những mà cam đoan Hà Nội, tháng 03 năm 2013 Học Viên Nguyễễn Thị Nguy Thị Thanh Huệ Huệ Trang LỜ I CẢ CẢM Ơ N Trong thờ i gian thực luận văn này, đượ c sự quan tâm, góp ý kiến c th ầy giáo PGS.TS Nguyễn Thanh Hươ ng ng Nhân dị p p xin bày t ỏ lờ i cảm ơ n chân thành tớ i thầy giáo PGS TS Nguyễn Thanh Hươ ng, ng, ngườ i tr ực tiế p hướ ng ng dẫn dành nhiều thờ i gian để sửa chữa, bổ sung vào trang thảo luận văn Tơi xin chân thành bày tỏ lịng biết ơ n đến tồn thể q Thầy Cơ Viện Cơng nghệ Thơng tin Truyền thông tr ườ ườ nngg Đại học Bách khoa Hà Nội, giảng viên truyền đạt kiến thức, k ỹ năng, kinh nghiệm nghề nghiệ p Tôi Tô i xin chân thành cảm ơ n ban Giám hiệu, tậ p thể giáo viên khoa Công nghệ Thông tin tr ườ ườ nngg Đại học Sư phạm K ỹ thuật Hưng Yên, gia đình bạn lớ p cao học Cơng nghệ Thơng tin khố 2011- 2013 tạo điều kiện giúp đỡ , động viên, chia sẻ để tơi hồn thành luận văn Bản luận văn nhiều thiếu sót, r ất mong đượ c thầy giáo hội đồng chấm luận văn xem xét, góp ý kiến để luận văn đượ c hồn thiện hơ nn Tơi xin chân thành cảm ơ n! n! Hà Nội, tháng 03 năm 2013 Trang MỤC LỤ LỤC LỜI CAM ĐOAN LỜI CẢM Ơ N DANH MỤC CÁC CHỮ VI VIẾT TẮT DANH MỤC CÁC BẢ NG NG DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU Lý chọn đề tài Mục đích nghiên cứu 10 Đối tượ ng, ng, phạm vi nghiên cứu 10 Cấu trúc luận văn 11 NỘI DUNG 12 CHƯƠ NG I: CƠ SỞ LÝ THUYẾT CHO BÀI TỐN TĨM T ẮT VĂ N BẢ N TIẾ NG VIỆT HƯỚ NG TRUY VẤ N 12 1.1 Bài toán tóm tắt văn tự động 12 1.1.1 Định ngh ĩ a 12 1.1.2 Tóm tắt văn tự động 12 1.2 Phân loại tốn tóm tắt văn 15 1.3 Đặc điểm chung văn tóm tắt 18 1.4 Tóm tắt văn hướ ng ng truy vấn 19 1.5 Ứ ng ng dụng tốn tóm tắt văn hướ ng ng truy vấn 20 1.6 Các tiêu chí đánh giá hệ thống tóm tắt văn hướ ng ng truy vấn 21 1.6.1 Độ bao phủ (Recall-R) 22 1.6.2 Độ chính xác (Precision-P) 22 Trang 1.6.3 Cách tính độ bao phủ và độ chính xác [3] 22 1.6.4 Phươ ng ng pháp tính độ chính xác dựa 11 điểm chuẩn độ bao phủ 23 1.7 Những thách thức gặ p phải đối vớ i tốn tóm tắt văn tiếng Việt hướ ng ng truy vấn 25 1.8 Nghiên cứu hướ ng ng giải đối vớ i tốn tóm tắt văn tiếng Việt hướ ng ng truy vấn 26 1.8.1 Phát biểu toán 26 1.8.2 Đề xuất hướ ng ng giải 26 1.8.3 Mơ hình tóm tắt văn tiếng Việt hướ ng ng truy vấn 28 1.9 Tổng k ết chươ ng ng 29 CHƯƠ NG II: CÁC K Ỹ THUẬT GIẢI QUYẾT BÀI TỐN TĨM TẮT VĂ N BẢ N TIẾ NG VIỆT HƯỚ NG TRUY VẤ N 30 2.1 Tiền xử lý văn 30 2.1.1 Tách câu công cụ vnSentDetector 30 2.1.2 Tách từ và công tự tách từ vnTagger 32 2.1.3 Loại bỏ từ dừng 34 2.1.4 Xử lý từ đồng ngh ĩ a 35 2.1.5 Biểu diễn văn theo mơ hình khơng gian vector (Vector Space Model – VSM) 37 2.2 Tính tr ọng số câu 41 2.2.1 Tính độ tươ nngg đồng ngữ ngh ĩ a câu văn vớ i câu truy vấn 41 2.2.2 Tính độ tươ nngg đồng về vị trí từ giữa câu văn vớ i câu truy vấn 42 2.2.3 Tính tr ọng số cho tồn câu 44 Trang 2.3 Trích rút, tạo văn tóm tắt 45 2.4 Tổng k ết chươ ng ng 46 CHƯƠ NG III: CÀI ĐẶT VÀ THỬ NGHI NGHIỆM CHƯƠ NG TRÌNH 47 3.1 Mô tả sơ l lượ c về hệ thống 47 3.1.1 Các bướ c triển khai chươ ng ng trình 47 3.1.2 Giao diện chươ ng ng trình 48 3.1.3 Cách sử dụng chươ ng ng trình 49 3.2 Đánh giá k ết quả 50 3.2.1 Tậ p dữ liệu thử nghiệm 50 3.2.2 K ết quả thử nghiệm 50 3.2 Tổng k ết chươ ng ng 53 K ẾT LUẬ N VÀ KIẾ N NGHỊ 54 K ết luận 54 Khuyến nghị 54 TÀI LIỆU THAM KHẢO 56 PHỤ LỤC 58 Trang DANH MỤ MỤC CÁC CHỮ CHỮ VIẾ VIẾT TẮ TẮT STT Từ viế Từ viết tắ tắt Ý ngh ĩ a CNTT Công nghệ thông tin TTVB Tóm tắt văn TF Term Frequency IDF Inverse Document Frequency TF.IDF TF.ISF VSM R Recall P Precision Term Frequency* Inverse Document Frequency Term Frequency * Inverse Sentence Frequency Vector Space Model Trang DANH MỤ MỤC CÁC BẢ BẢNG Bảng 1: Vấn đề tách từ trong tiếng Việt 33 Bảng 2: Một số từ dừng tiếng Việt 34 Bảng 3: Ví dụ về tính tr ọng số cho tồn bộ câu 45 Bảng 4: K ết quả tính tr ọng số câu 52 Bảng 5: K ết quả tr ả ra sau tóm tắt 52 Trang DANH MỤ MỤC CÁC HÌNH VẼ VẼ Hình 1: Mơ hình chung c hệ thống tóm tắt 14 Hình 2: Mơ hình tóm tắt vớ i kiểu tóm tắt tỉ lệ tóm tắt khác 18 Hình 3: Đồ thị biểu diễn hiệu suất thực thi hệ thống truy vấn 23 Hình 4: Đồ thị biểu diễn hiệu suất thực thi hệ thống truy vấn 24 Hình 5: Mơ hình xử lý tốn tóm tắt văn tiếng Việt hướ ng ng truy vấn n 28 Hình 6: Biểu diễn câu theo mơ hìn hìnhh khơng khơn g gian vector 38 Hình 7: Giao diện chươ ng ng trình 49 Trang MỞ ĐẦ ĐẦU U Lý chọ chọn đề tài đề tài Trong năm gần đây, thấy sự phát triển bùng nổ của internet lượ ng ng thông tin đượ c sinh liên tục ngày vớ i khối lượ ng ng lớ n n Vớ i việc gia tăng theo hàm mũ lượ ng ng thơng tin ng ườ i sẽ gặ p khó khăn việc tiế p cận thơng tin cần phải có phươ ng ng pháp để giải vấn đề Tóm tắt văn tự động đượ c đề cậ p đến như cách tiế p cận giúp ngườ i có đượ c lượ ng ng thơng tin nhiều lượ ng ng thờ i gian có hạn.Tuy nhiên, vấn đề đặt để chúng ta có thể tìm đượ c thơng tin mà quan tâm lượ ng ng thơng tin lớ n như vậy Tóm tắt văn hướ ng ng truy vấn có thể giúp làm điều Tóm tắt văn hướ ng ng truy vấn sẽ giúp tóm tắt nội dung nội dung từ một nguồn thơng tin theo truy vấn ngườ i sử dụng trình bày nội dung quan tr ọng theo khn dạng súc tích dễ hiểu Tóm tắt văn l ĩ ĩ nh nh vực quan tr ọng xử lý văn thu hút nhiều nhà nghiên cứu quan tâm Ứ ng ng d ụng tóm tắt văn nhiều l ĩ ĩ nh nh vực khác như sinh tiêu đề tự động ( headline generation ), rút g ọn thông tin sử dụng thiết bị cầm tay như PDA, điện thoại di động,… Đến thế giớ i c ũng có nhiều cơng trình nghiên cứu v ề tóm tắt văn bản hướ ng ng truy vấn hệ thống tóm tắt tỏ ra hiệu quả, nhiên nghiên cứu mớ i chỉ tậ p trung ngơn ngữ như tiếng Anh, Pháp, Trung, Nhật, Còn tiếng Việt đặc tr ưng ngơn ngữ khơng giống vớ i ngơn ngữ khác, ví dụ như tiếng Anh ngơn ngữ đa âm tiết, tiếng Việt ngôn ngữ đơ n âm tiết, việc xác định từ trong tiếng Việt khơng dựa dấu cách Bên cạnh tiếng Việt tồn r ất nhiều âm ngữ Hán Việt, nhiều phải giải ngh ĩ a từ này Hơ n nữa, nghiên cứu về tiếng Việt máy tính mớ i ở giai giai đoạn sơ khai, khai, kho ngữ liệu dùng cho tóm tắt v ăn tiếng Việt cịn r ất ít, công cụ hỗ tr ợợ cho cho việc tách từ, tách câu, thiếu hi ệu quả chưa cao Các yếu t ố này làm cho việc xử lý ngôn ngữ tự nhiên tiếng Việt tr ở ở Trang lên r ất khó khăn, đặc biệt việc đề xuất phươ ng ng pháp tóm tắt văn tiếng Việt hướ ng ng truy vấn Từ nhu cầu từ ứng dụng r ộng rãi thực tiễn động lực để khóa luận tậ p trung nghiên cứu về bài tốn tóm tắt văn bản, cụ thể là bài tốn “Tóm tắt văn hướ ng ng truy vấn” Mụ Mục đích nghiên cứ cứ u - Tìm hiểu cơ ssở lý lý thuyết phươ ng ng pháp tóm tắt văn hướ ng ng truy vấn - Nghiên cứu cách phân tích biểu diễn văn - Nghiên cứu cách xử lý từ đồng ngh ĩ a văn tiếng Việt - Nghiên cứu phươ ng ng pháp đo độ tươ nngg đồng ngữ ngh ĩ a hai câu để ứng dụng cho tốn tóm t văn hướ ng ng truy vấn - Xây dựng ứng dụng tóm tắt văn Tiếng Việt hướ ng ng truy vấn Đố Đốii ttượ ượ ng, ng, phạ phạm vi nghiên cứ cứ u - Nghiên cứu tóm tắt văn tiếng Việt - Đơ n văn bản, tóm tắt văn hướ ng ng truy vấn Phươ Phươ ng ng pháp nghiên cứ cứ u - Về lý thuyết: Tìm hiểu cơ sở lý lý thuyết phươ ng ng pháp tóm tắt văn hướ ng ng truy vấn, nghiên cứu cách phân tích biểu diễn văn bản, xử lý từ đồng ngh ĩ a văn tiếng Việt, nghiên cứu phươ ng ng pháp đo độ tươ nngg đồng ngữ ngh ĩ a hai câu để ứng dụng cho tốn tóm t văn hướ ng ng truy vấn - Về thực nghiệm: Xây dựng ứng dụng tóm tắt văn Tiếng Việt hướ nngg truy vấn Trang 10 √ 0.1 0.1822 82237 37 0.8 0.8177 17763 63 √ = 1- Từ k ết quả tr ả ra ta thấy độ tươ nngg đồng về vị trí từ của câu cho lớ nn 2.2.3 Tính tr ọng số cho cho tồn b ộ câu Độ tươ nngg đồng ngữ ngh ĩ a đại diện cho độ tươ ng ng tự về mặt từ vựng Mặt khác, độ tươ nngg đồng về vị trí từ cung cấ p thơng tin v ề mối quan hệ giữa từ: Những từ ướ c ho ặc sau từ khác Thông tin cả v ề ng ữ xuất hi ện câu t ừ đứng tr ướ ngh ĩ a cú pháp (vị trí từ) đóng vai trị quan tr ọng việc truyền đạt câu Như v ậy, độ t ươ nngg đồng cho toàn bộ câu (tr ọng s ố câu) đượ c định ngh ĩ a s ự k ết hợ p độ tươ nngg đồng ngữ ngh ĩ a độ tươ nngg đồng về vị trí từ hai câu [14] Như vậy, vớ i tốn tóm tắt văn hướ ng ng truy vấn việc tính tr ọng số câu tính mức độ quan tr ọng câu văn so vớ i câu truy vấn Gọi Si là vector ngữ ngh ĩ a câu thứ i văn b ản D Sq là vector ngữ ngh ĩ a c câu truy vấn Q, r i là vector vị trí từ trong câu i, r q là vector vị trí từ trong câu truy vấn Q Tr ọng số câu thứ i văn so vớ i câu truy vấn Q đượ c tính theo công thức [14]: , . , (9) Từ công thức (7), (8) (9) ta thu đượ c công thức sau: , , ∑ ,, , ∑ , ∑ , . ∑ ,, Trong đó: S(Si, Sq) là tr ọng số của câu thứ i o Wk,i là độ quan tr ọng từ thứ k câu i o Wk,q là độ quan tr ọng từ thứ k câu truy v ấn Q o n tổng số từ trong tậ p từ chung văn câu truy vấn o Trang 44 (10) r p,i là giá tr ị tại vị trí thứ p vector r i o r p,q là giá tr ị tại vị trí thứ p vector r q o t tổng s ố t ừ trong tậ p t ừ chung câu truy vấn câu thứ i o văn Vớ i δ ≤ định việc đóng góp tươ nngg đối v ề mặt ngữ ngh ĩ a thứ t ự t ừ tớ i tồn bộ câu Vì cú pháp (vị trí từ) đóng vai trị phụ cho việc xử lý ngữ ngh ĩ a văn [10] nên δ phải có giá tr ị lớ n hơ n 0.5 tức δ (0.5,1] Theo kinh nghiệm thu đượ c thông qua thử nghiệm cặ p câu cho thấy δ = 0.85 thườ ng ng cho k ết quả chính xác [13] Ví dụ: Cho câu truy vấn Q câu v ăn lần lượ t như sau: Q: Hùng vừ a đẩ y Lan ngã xuố ng ng sân 1: Hôm lên Hà N ội chơ i 2: Lan vừa đẩy Hùng ngã xuống sân 3: Tùng vừa đẩy Hoa ngã xuống sân 4: Hùng vừa đẩy Lan ngã xuống sân Sau tính tốn tr ọng s ố c câu văn b ản so vớ i câu truy vấn theo công thức (10), ta thu đượ c bảng k ết quả sau: STT Nộội dung câu N S(Si,Sq) Hôm lên Hà Nội chơ i Lan vừa đẩy Hùng ngã xuống sân 0.977514049330124 Tùng vừa đẩy Hoa ngã xuống sân 0.271163190721906 Hùng vừa đẩy Lan ngã xuống sân Bảng 3: Ví d ụ về tính tính tr ọng số cho cho tồn bộ câu 2.3. Trích rút, tạ tạo vă văn bả tóm tắ tắt Sau tính đượ c tr ọng số của câu văn so vớ i câu truy vấn, cứ vào k ết quả tính tốn S(Si,Sq) và tỷ lệ tóm tắt X đượ c xác định từ tr ướ ướ c hồn Trang 45 tồn có thể chọn câu thỏa mãn để tạo thành văn tóm tắt theo tr ật tự câu đượ c trích xuất t ừ văn gốc b ằng cách sắ p xế p theo thứ tự gi ảm dần giá tr ị tr ọng số câu câu văn so vớ i câu truy vấn 2.4. Tổng k ết chươ chươ ng ng Từ hướ ng ng giải đượ c đề xuất ở ch chươ ng ng 1, chươ ng ng trình bày k ỹ thuật c ụ th ể để giải đượ c toán đặt ra: Tiền xử lý văn ti ếng Việt (tách câu, tách từ, loại bỏ từ dừng, xử lý từ đồng ngh ĩ a, ), a, ), tính tr ọng số câu (tính độ tươ nngg đồng câu văn câu truy vấn, độ tươ nngg đồng về vị trí từ giữa câu văn câu truy vấn,…), trích rút, tạo văn tóm tắt Trong chươ ng ng tiế p theo luận văn sẽ trình bày về bướ c cài đặt thử nghiệm ng Việt hướ ng ng truy vấ n chươ ng ng trình Tóm t ắắ t văn tiế ng Trang 46 CHƯƠ CH ƯƠ NG NG III: CÀI ĐẶ ĐẶT T VÀ THỬ THỬ NGHIỆ NGHIỆM CHƯƠ CHƯƠ NG NG TRÌNH 3.1. Mô tả tả sơ sơ lượ lượ c về hệ hệ th thốống Căn c ứ vào k ết qquuả nghiên cứu c ơ ss ở lý lý thuyết để tốn tóm t văn bản tiếng Việt hướ ng ng truy vấn t ại chươ ng ng 2, về cơ hệ t thhống “Tóm t ắ ắt văn b ản tiế ng ng Việt h ướ ng ng truy vấ n” đượ c xây dựng đáp ứng đượ c yêu cầu c ơ bản mà toán đặt 3.1.1 Các bướ c tri ểể n ng trình khai chươ ng Bướ c 1: Tiề n xử lý lý văn tiế ng ng Việt : - Tại bướ c sẽ tiến hành tách câu văn việc sử dụng công cụ tách câu vnSentdetector đượ c cung cấ p miễn phí bở i nhóm tác giả Lê Hồng Phươ ng ng Hồ Tườ ng ng Vinh, câu tách xong s ẽ đượ c để trên dịng đề tiện cho q trình tách từ sau - Sau tách câu sử dụng chươ ng ng trình tách từ VnTagger tác giả Lê Hồng Phươ nngg để tách nội dung văn cần tóm tắt câu truy vấn thành đơ n vị từ - Từ danh sách câu, từ đượ c tách ta tiến hành loại bỏ các từ dừng thông qua bộ từ điển từ dừng Các từ dừng đượ c sử dụng chươ ng ng trình ://tratu.soha.vn đượ c lấy từ trang http://tratu.soha.vn - Tiế p theo chúng tơi sử dụng bộ từ điển đồng ngh ĩ a để tìm từ trong văn bản đầu vào đồng ngh ĩ a vớ i từ trong câu truy vấn thực việc thay thế t ừ b ằng t ừ trong câu truy vấn Và sau bướ c sẽ thu đượ c danh sách từ đượ c đồng nhất, điều sẽ giúp cho việc tính tốn độ ở nên tươ nngg đồng câu văn vớ i câu truy vấn tr ở nên dễ dàng xác hơ n n Các từ đồng ngh ĩ a đượ c sử dụng chươ ng ng trình đượ c lấy từ trang http://tratu.soha.vn Trang 47 - Đến th ờ i điểm có đượ c danh sách câu vớ i việc lo ại b ỏ các từ dừng đồng bộ hóa từ đồng ngh ĩ a từ trong văn vớ i từ trong câu truy vấn Để phục vụ cho bướ c tiế p theo the o ta tiến hành vector hóa câu văn Mỗi câu văn như câu truy vấn đượ c biểu diễn dướ i dạng vector Mỗi vector có số chiều số tậ p từ chung văn câu truy vấn, vị trí mà từ của câu khơng xuất danh sách tậ p từ chung giá tr ị sẽ là 0, cịn lại đượ c tính theo cơng thức (6) như đã nêu ở trên trên Bướ c 2: Tính tr ọng số câu: Dựa vào k ết quả vector hóa câu văn bản câu truy vấn, ta tiến hành tính tr ọng số câu qua bướ c sau: - Tính độ tươ nngg đồng câu văn vớ i câu truy vấn - Tính độ tươ nngg đồng về vị trí từ giữa câu văn vớ i câu truy vấn - Tính tr ọng số cho tồn bộ câu Bướ c 3: Trích rút, t ạo văn tóm t ắắ t: t: Sau tính đượ c tr ọng số cho toàn bộ câu, cứ vào k ết quả tính tốn S(Si,Sq) tỷ lệ tóm tắt X đượ c xác định từ tr ướ ướ c hồn tồn có thể chọn câu thỏa mãn để tạo thành văn tóm tắt đượ c trích xuất từ văn gốc thỏa mãn điều kiện chươ ng ng trình 3.1.2 Giao di ện chươ ng ng trình Trang 48 Hình 7: Giao diện chươ ng ng trình 3.1.3 Cách sử d d ụng chươ ng ng trình Bướ c 1: Chọn nội dung văn cần tóm tắt cách nhấn vào nút chọn đườ ng ng d ẫẫ n sau tìm đến file dạng v ăn bản, có thể copy văn b ản dán tr ực tiế p vào vùng chứa nội dung văn gốc như hình Bướ c 2: Nhậ p câu truy vấn Bướ c 3: Chọn tỷ lệ tóm tắt : 10%, 20%,…… Bướ c 4: Chọn kiểu k ết quả tóm tắt: + K ết quả hiển thị theo thứ tự các câu văn Trang 49 + K ết quả hiển thị theo thứ tự của giá tr ị tr ọng số câu Bướ c 5: Nhấn nút Thự c hiện để bắt đầu tóm tắt Sau tóm tắt xong k ết quả tóm sẽ đượ c hiển thị trong vùng chứa k ết quả tóm tắt Có thể lưu lại k ết quả bằng cách nhấn vào nút Lư u k ế ế t quả tóm t ắ ắt. t quả 3.2. Đánh giá k ết 3.2.1 T ậ p d ữ nghi ệm ữ li li ệu thử nghi Việc đánh giá k ết quả v ăn tóm tắt, đặc bi ệt tóm tắt hướ ng ng truy vấn, tài nguyên xử lý ngôn ngữ t ự nhiên tiếng Việt khơng có nhiều nên luận v ăn s ẽ ti ến hành việc đánh giá thông qua dữ liệu cụ thể Dữ liệu dùng để tóm tắt trang tin đượ c lấy từ các trang báo điện tử http://vnexpress.net, http://baomoi.com.vn , http://baomoi.com.vn , Việt Nam như: http://dantri.com.vn, http://dantri.com.vn, http://vnexpress.net, http://truyencotich.vn http://truyencotich.vn g g ồm 100 văn b ản c thể lo ại tin tức, truyện đưa vào tậ p huấn luyện 3.2.2 K ếế t quả thử nghi nghi ệm Việc đánh giá độ chính xác thuật tốn tóm tắt tiếng Việt gặ p nhiều khó khăn hạn chế về nguồn dữ liệu mẫu chuẩn Chưa có đơ n vị xây dựng tóm tắt mẫu vớ i số lượ ng ng lớ n công bố r ộng rãi Điều gây nhiều tr ởở ngại đối vớ i tác giả trong trình xây dựng hệ thống, bở i không đánh giá đượ c k ết quả chươ ng ng trình Vì chưa có hệ thống tóm tắt văn hướ ng ng truy vấn dành cho tiếng Việt, chưa thể so sánh, đánh giá đượ c độ xác hệ thống vừa xây dựng so vớ i hệ thống khác Tuy nhiên, đưa số ví dụ trên tậ p dữ liệu thử nghiệm so sánh k ết quả của hệ thống tóm tắt hướ nngg truy vấn vớ i k ết quả tóm tắt thủ cơng tậ p dữ liệu thử nghiệm K ết quả cho thấy hệ thống Tóm t ắắ t văn tiế ng ng Việt hướ ng ng truy vấ n chạy tươ nngg đối ổn định, cho k ết quả tốt tươ nngg đối sát vớ i q trình tóm tắt thủ cơng Từ đó hứa hẹn có thể tri ển khai đượ c thực t ế nh ằm giúp ngườ i trình tìm kiếm chắt lọc thơng tin Trang 50 Xét ví dụ sau: Văn bả đầu đầu vào: Ngày vậ y, sau giờ hhọc, em T, học sinh (HS) Tr ườ ườ ng ng tiể u học Lươ nngg Th r Vinh V nng TPHCM) c bác ơmlót màd ạgia ình p đồcác ng th hàng ấấ p, đ ình đ ónế Vinh ón ồi ch(Gò ở th thẳ g đế n nơ l iạhiọđượ c thêm sauxekhi qua loa.hợ Vào ứ ch chtháng ẵ n 2, 4, 6, em T học t ại nhà cô giáo chủ nhiệm vớ i mứ c phí 300.000 đồng/tháng Cịn thứ l l ẻ , T tiế p t ục theo học t ại nhà m ột giáo viên (GV) tr ườ ườ ng ng khác d ạ y giỏi có ườ i quen giớ i thiệu vớ i mứ c phí g ần g ấ ấ p r ưỡ ưỡ i số ti tiế ng ng mà bố m mẹ đượ c ng ườ tiề n ư việc học cho cháu M ẹ cháu T không ng ại thừ a nhận, gia đ ình ình muố n đầu t ư t ừ ừ ssớ m như ng ng xét thấ y việc học ở tr tr ườ ườ ng ng chư a đủ nên họ muố n đượ c thêm bên để nâng nâng cao kiế n tthhứ c c Nhấ t nhữ ng ng n ăm cu ố i ti ể u h ọc, h ọ mu ố n cháu ườ ng thật vữ ng ng vàng để sau sau có thể thi thi đậu vào Tr ườ ng Chuyên Tr ần Đại Nghĩ a a Việc ự nguy học thêm ở cô cô giáo chủ nhiệm gia đ ình ình hồn tồn t ự nguyện họ cũng muố n đượ c học thêm cả nhữ ng ng thầ y cô ngồi tr ườ ườ ng ng Đây khơng phải tr ườ ườ ng ng “cá biệt”, khơng HS khác hàng ngày c ũng đ ang ang “gánh” l ịch(PH) học tìm khủcho ng học khóa n các g, nhi ư về ậ y ườ ph ụ huynh conế pr ấấ nh t nhi u chNgoài ỗ để h hgi ọcờ thêm như tìm tìm đế nở h tr ọcườ ở ng, thề ầ yu có tiế ng ng tr ườ ườ ng ng tr ườ ườ ng, ng, trung tâm bồi d ưỡ ưỡ ng ng văn hóa, hay thuê gia sư vvề nhà nhà ườ ng Em H.T.Ng, H T.Ng, HS tr ườ ng THCS ở Q1, Q1, TPHCM cho hay, gi ờ học ở ườ ng ườ ng ưỡ ng ự Tr ọng 218 Vào nhữ nngg tr ườ ng em học thêm liên t ục t ại Tr ườ ng Bồi d ưỡ ng Lý T ự đợ t cao đ iể m nh ư thi ằ nngg thi cuố i k ỳ , cu ố i n ăm b ố m m ẹ còn mờ i gia sư đế n d ạ y cho r ằ ự hhọc khơng t ốố t,t , cần có ng ườ ườ i kèm cặ p thêm khả năng t ự ườ ng M ột giáo viên ở Tr Tr ườ ng THCS Sông Đà (Q Phú Nhuận) cho hay, t ỷ l ệ HS đ i ườ ng học thêm bên nhà tr ườ ng r ấấ t đ ơng, ơng, có nhữ ng ng l ớớ p có đế n 50% số em em theo học ở nh nhữ ng ng l ớ ớ p học thêm không GV ph ụ trách bộ môn giảng d ạ y Nhu cầu học thêm đ ông ừ ông đế n mứ c nhiề u GV, nhấ t GV giỏi khơng nhận HS chỉ nh nhận HS t ừ l ớ ng khác ớ p khác, tr ườ ườ ng Câu truy vấ vấn: tình tr ạng học thêm Tỷ l lệệ % trích xuấ xuất: chọn 30% K ết quả tính tốn củ chươ chươ ng ng trình - S ốố câu câu tách đượ c: c: 12 - Giá tr ị tr tr ọng số câu câu đượ c tính tốn: Trang 51 STT Câu S(Si,Sq) Sắp xếp theo trọng số câu [0] 0.154075174979131 [11] [1] 0.150265242404925 [5] [2] [3] 0.150206367740921 0.154576910054539 [8] [9] [4] [7] [5] 0.157204635035884 [3] [6] 0.15028556247084 [10] [7] 0.154777037306641 [0] [8] 0.155845013797387 [6] 10 [9] 0.154825831047861 [1] 11 12 [10] 0.15453632318657 [11] 0.157289430229966 [2] [4] Bảng 4: K ếế t quả tính tr ọng số câu câu - S ốố câu câu văn tóm t ắt thu đượ c: c: STT Sắp xếp theo trọng số câu S(Si,Sq) 0.157289430229966 [11] 0.157204635035884 [5] 0.155845013797387 [8] 0.154825831047861 [9] Bảng 5: K ếế t quả tr ả ra sau tóm t ắ ắt hệ K ết quả tóm tắ tắt ccủ hệ th thốống: - Hi ểể n th ị k k ếế t quả theo giá tr tr ọng số câu: câu: ị tr [11] Nhu cầu học thêm đ ông ông đế n mứ c nhiề u GV , nhấ t GV giỏi khơng nhận HS chỉ nh nhận HS t ừ ừ l l ớớ p khác , tr ườ ườ ng ng khác [5] Việc học thêm ở cô cô giáo chủ nhiệm gia đ ình ình hồn tồn t ự ự nguy nguyện họ muố n đượ c học thêm cả nhữ ng ng thầ y cô tr ườ ườ ng ng Trang 52 [8] Em H.T.Ng , HS tr ườ ườ ng ng THCS ở Q1 Q1 , TPHCM cho hay , giờ h học ở ườ ng ườ ng ưỡ ng ự Tr tr ườ ng em học thêm liên t ục t ại Tr ườ ng Bồi d ưỡ ng Lý T ự Tr ọng 218 [9] Vào nhữ nngg đợ t cao đ iể m nh ư thi thi cuố i k ỳ , cu ố i n ăm b ố m m ẹ cịn mờ i gia sư đế n d ạ y cho r ằằ ng n g khả t ự ự học khơng t ố ốt , cần có ng ườ ườ i kèm cặ p thêm - Hi ểể n th ị k k ếế t quả theo thứ t t ự câu văn bản: ự câu [5] Việc học thêm ở cô cô giáo chủ nhiệm gia đ ình ình hồn tồn t ự ự nguy nguyện họ muố n đượ c học thêm cả nhữ ng ng thầ y ngồi tr ườ ườ ng ng ườ ng [8] Em H.T.Ng , HS tr ườ ng THCS ở Q1 Q1 , TPHCM cho hay , giờ h học ở tr ườ ườ ng ng em học thêm liên t ục t ại Tr ườ ườ ng ng Bồi d ưỡ ưỡ ng ng Lý T ự ự Tr Tr ọng 218 [9] Vào nhữ nngg đợ t cao đ iể m như thi thi cuố i k ỳ , cuố i năm bố m mẹ còn mờ i gia sư đế n ự hhọc khơng t ố ố t , cần có ng ườ ườ i kèm cặ p d ạ y cho r ằằ ng ng khả năng t ự thêm [11] Nhu cầu h ọc thêm đ ông ông đế n m ứ c nhiề u GV , nhấ t GV giỏi khơng nhận HS chỉ nh nhận HS t ừ ừ l l ớớ p khác , tr ườ ườ ng ng khác 3.2. Tổng k ết chươ chươ ng ng Chươ ng ng trình bày bướ c xây dựng chươ ng ng trình mơ tả về chươ nngg trình sau hệ thống hồn thiện Việc đánh giá độ xác thuật tốn tóm tắt tiếng Việt gặ p nhiều khó khăn hạn chế về nguồn dữ liệu mẫu chuẩn Chưa có đơ n vị xây dựng tóm tắt mẫu vớ i số lượ ng ng lớ n công bố r ộng rãi, đặc bi ệt tóm tắt h ướ ng ng truy vấn dành cho tiếng Việt Do đó, có tiêu chí để đánh giá cho hệ thống tóm tắt hướ ng ng truy vấn khơng thể áp dụng khơng có hệ thống tươ ng ng tự để đối sánh nên báo cáo chúng tơi trình bày việc đánh giá hiệu suất chươ ng ng trình việc đưa tậ p dữ liệu thử nghiệm k ết quả thử nghiệm. Trang 53 K ẾT LUẬ LUẬN VÀ KIẾ KIẾN NGHỊ NGHỊ 1. K ết luậ luận Có thể thấy tốn TTVB tốn có giá tr ị ứng dụng r ất lớ n n Vớ i sự phát triển kho dữ liệu khổng l ồ và k ỹ thuật nâng cao khả năng tính tốn máy móc, ứng dụng TTVB sẽ đượ c thực ngày nhiều hơ n theo nhu cầu c ngườ i.i Các k ỹ thuật TTVB nói chung TTVB tiếng Việt nói riêng sẽ đượ c nghiên cứu phát triển thêm khoảng thờ i gian tớ ii Đề tài nghiên cứu đưa giải đượ c số vấn đề sau: - Nghiên cứu lý thuyết tổng quan về TTVB, phươ ng ng pháp về xu hướ ng ng giải toán - Nghiên cứu về tóm tắt văn hướ ng ng truy vấn - Phân tích k ỹ thuật có thể áp dụng cho toán TTVB tiếng Việt hướ ng ng truy vấn - Xây dựng hệ thống TTVB tiếng Việt hướ ng ng truy vấn có sử dụng đến k ỹ thuật trình bày ở trên trên - Thông qua thử nghiệm đánh giá cho thấy hệ thống đạt đượ c k ết quả tươ nngg đối tốt số dữ liệu thử nghiệm, từ đó hứa hẹn có thể triển khai đượ c thực tế 2. Khuy Khuyếến nghị nghị Hệ thống Tóm t ắắ t văn tiế ng ng Việt hướ ng ng truy vấ n sau hoàn thiện đưa vào hoạt động thực t ế có thể h ỗ tr t r ợợ chúng r ất nhiều trình tìm kiếm chắt l ọc thơng tin Tuy nhiên để h ệ th ống có thể hoạt động t ốt thực t ế thì cần phải có h ệ th ống kiểm th ử và đánh giá tự động Hơ n th ế n ữa, để độ chính xác cao hơ n cần phải phân tích xử lý k ỹ hơ n về cú pháp, ngữ ngh ĩ a ti ếng Việt bộ từ điển đồng ngh ĩ a cần phải hoàn chỉnh đầy đủ hơ nn Trang 54 Hướ ng ng phát triển hệ thống tươ ng ng lai: - Xử lý chặt chẽ hơ n về cú pháp, ngữ ngh ĩ a tiếng Việt - Hoàn thiện bộ từ điển đồng ngh ĩ a để k ết quả tóm tắt có độ chính xác cao hơ nn - Thực thử nghiệm vớ i tậ p dữ liệu lớ n hơ nn,, ở nhiều l ĩ ĩ nh nh vực hơ nn,, để có nhìn xác h ơ n về hệ thống - Triển khai hệ th ống ứng d ụng thực t ế để đánh giá khả n ăng ứng dụng thực tiễn hệ thống Trang 55 TÀI LIỆ LIỆU THAM KHẢ KHẢO [1] Nguyễn Vi ệt C ườ ng, ng, (2007), Xây d ựự ng ng mục l ục cho văn b ản, Luận văn thạc s ĩ , pp 23 [2] Đỗ Phúc, Hồng Kiếm, (2004), Rút trích ý t ừ ừ văn tiế ng ng Việt hỗ tr ợợ t ạo tóm t ắắ t nội dung”, Tạ p chí Bưu viễn thơng, chun san cơng trình nghiên cứu, triển khai viễn thơng & CNTT, số 13 [3] Vũ H ồ B ảo Khanh, Tr ần Qu ế H ươ ng, ng, Xây d ự ự ng ng b ộ ng ữ ữ li li ệu để đ ánh ánh giá bằ nngg tiế ng ng Việt chươ ng ng trình hỗ tr ợợ giúp giúp đ ánh ánh giá hệ thố ng ng tìm kiế m thơng tin, Luận văn thạc s ĩ , pp 41-48 [4] Nguyễn Thị Oanh, Slide giảng Tìm kiế m d ữ ữ li liệu đ a phươ ng ng tiện, Viện công nghệ thông tin truyền thông – Đại học Bách Khoa Hà Nội, chươ ng ng 2, pp 46-47 [5] Phạm Thị Thu Uyên, Hoàng Minh Hiền, Tr ần Mai Vũ, Hà Quang Thụy, (2008), Độ đ o t ươ ươ nngg đồng ng ữữ ngh ngh ĩ a gi ữ a hai câu ứ ng ng d ụng tóm t ắ ắt văn b ản ti ế ng ng Việt , Hội th ảo Quốc Gia Một s ố v ấn đề ch ọn l ọc v ề Công nghệ thông tin truyền thông lần thứ XI, Huế [6] Tr ần Mai Vũ,(2009), Tóm t ắắ t đ a văn d ự ự a vào trích xuấ t câu, Luận văn thạc s ĩ , ĐH Quốc Gia Hà Nội – Đại học Công nghệ Page age, InProc [7] AI Berger and Mittal, (2000), A System For Summarization Web P ACM SIGIR, pp 144-151 [8] Smaranda Mure Sean, (2001), Combining Linguistic and Machine Learning Teachniques For Email Summazization, Columbia University [9] G Salton and C Buckley, (1997), Term-weighting Approaches in Automatic Text Retrieval , Information Processing and Management 24, pp 513-523, 1988 Reprinted in: Sparck Jones K and Willet P (eds) Readings in Information Retrieval, Morgan Kaufmann, pp 323-328 Trang 56 [10] Masrah Azrifah Azmi Murad, Trevor Martinm, Similary-Based Estimation for Document Summarization using Fuzzy Sets, International Journal of Computer Security and Security, Volume (1): Issue(4) [11] P Wiemer-Hastings,(2000), Adding Syntactic Information to LSA, Proc 22nd Ann Conf Cognitive Science Soc.,pp 989-993 [12] Juan Rames, (2003), Using TF-IDF to Determine Word ReleVance in Document Queries, key:Citeulike:7616995 [13] J Larocca Neto, AD Santos, CAA Kaestner, and AA Freitas, (2000), Document Clustering and Text Summarization In N Mackin, editor, Proc 4th International Conference Practical Applications of Knowledge Discovery and Data Mining (PADD-2000) [14] Yuhua Li, David McLean, Zuhair Bandar, James O'Shea, Keeley A Crockett (2006) Sentence Similarity Based on Semantic Nets and Corpus Statistics IEEE Trans Knowl Data Eng.18(8): 1138-1150 Các công cụ cụ sử sử dụ dụng [15] Lê Hồng Phươ ng, ng, vnTagger. [16] Lê Hồng Phươ ng, ng, Hồ V ĩ nh nh Tườ ng, ng, vnSentdetector. Trang 57 PHỤ PH Ụ L LỤ ỤC 1. Danh mục công thức sử dụng báo cáo STT Công thứ thứ c Ý ngh ngh ĩ ĩ a Trang (1) Tính độ bao phủ 22 (2) Tính độ chính xác 23 (3) Tính tr ọng số từ trong văn TF 38 (4) Tính tr ọng số từ trong văn IDF 39 (5) Tính tr ọng số từ trong văn TF.IDF 39 (6) Tính tr ọng số từ trong câu TF.ISF 40 (7) Tính độ tươ nngg đồng câu văn vớ i 42 (8) (9) 10 (10) câu truy vấn Tính độ tươ nngg đồng vị trí từ giữa câu văn bản vớ i câu truy vấn Tính tr ọng số cho tồn bộ câu Cơng thức tổng hợ p để tính tr ọng số cho toàn bộ câu Trang 58 43 44 44 ... vào tốn tóm tắt, ngườ i ta có thể chia tóm tắt thành tóm tắt đa văn bản, tóm tắt đơ n văn Bài tốn tóm tắt đơ n văn giống như các tốn tóm tắt khác, q trình tóm tắt tự động vớ i đầu vào văn bản, đầu... thống tóm tắt vớ i số kiểu tóm tắt nhiều tỉ lệ tóm tắt khác Đầu vào hệ thống có thể là văn bản, nhiều văn bản, truy vấn Kiểu tóm tắt có thể trích rút, tr ừu tượ ng, ng, tóm tắt truy vấn, tóm tắt. .. chỉ thị “tối mật” Cịn tóm tắt thơng tin chỉ ra nội dung thơng tin - Tóm t ắt cơ ssở ? ?truy ? ?truy vấ n (Query-based) Tóm tắt cơ ss ở ? ?truy truy vấn nội dung văn b ản tóm tắt s ẽ d ựa truy vấn ngườ i