TÓM TẮT VĂN BẢN HƯỚNG TRUY VẤN - LUẬN VĂN CÔNG NGHỆ TRUYỀN THÔNG, ĐAI HỌC BÁCH KHOA

58 33 0
TÓM TẮT VĂN BẢN HƯỚNG TRUY VẤN - LUẬN VĂN CÔNG NGHỆ TRUYỀN THÔNG, ĐAI HỌC BÁCH KHOA

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

  LỜ I CAM ĐOAN Tơi xin cam đoan, tơi viết luận văn tìm hi ểu nghiên cứu thân Mọi k ết quả nghiên cứu như ý t ưở ng ng tác giả  khác có đượ c trích dẫn nguồn gốc cụ thể Luận văn chưa đượ c bảo vệ tại b ất k ỳ m ột h ội đồng bảo v ệ  luận văn thạc s ĩ  nào   toàn qu ốc như  ở   nướ c chưa đượ c công bố trên bất k ỳ một phươ ng ng tiện thông tin Tơi xin hồn tồn chịu trách nhiệm về những mà cam đoan Hà Nội, tháng 03 năm 2013 Học Viên Nguyễễn Thị Nguy Thị Thanh Huệ Huệ  Trang   LỜ I CẢ CẢM Ơ N Trong thờ i gian thực luận văn này, đượ c sự  quan tâm, góp ý kiến c th ầy giáo PGS.TS Nguyễn Thanh Hươ ng ng Nhân dị p  p xin bày t ỏ lờ i cảm ơ n chân thành tớ i thầy giáo PGS TS Nguyễn Thanh Hươ ng, ng, ngườ i tr ực tiế p hướ ng ng dẫn dành nhiều thờ i gian để  sửa chữa, bổ sung vào trang thảo luận văn Tơi xin chân thành bày tỏ lịng biết ơ n đến tồn thể q Thầy Cơ Viện Cơng nghệ Thơng tin Truyền thông tr ườ  ườ nngg Đại học Bách khoa Hà Nội, giảng viên truyền đạt kiến thức, k ỹ  năng, kinh nghiệm nghề nghiệ p Tôi Tô i xin chân thành cảm ơ n ban Giám hiệu, tậ p thể giáo viên khoa Công nghệ Thông tin tr ườ  ườ nngg Đại học Sư  phạm K ỹ  thuật Hưng Yên, gia đình bạn lớ  p cao học Cơng nghệ  Thơng tin khố 2011- 2013 tạo điều kiện giúp đỡ , động viên, chia sẻ để tơi hồn thành luận văn Bản luận văn nhiều thiếu sót, r ất mong đượ c thầy giáo hội đồng chấm luận văn xem xét, góp ý kiến để luận văn đượ c hồn thiện hơ nn Tơi xin chân thành cảm ơ n! n! Hà Nội, tháng 03 năm 2013 Trang   MỤC LỤ LỤC LỜI CAM ĐOAN LỜI CẢM Ơ N DANH MỤC CÁC CHỮ  VI  VIẾT TẮT DANH MỤC CÁC BẢ NG  NG DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU Lý chọn đề tài Mục đích nghiên cứu 10 Đối tượ ng, ng, phạm vi nghiên cứu 10 Cấu trúc luận văn 11  NỘI DUNG 12 CHƯƠ NG I: CƠ  SỞ  LÝ THUYẾT CHO BÀI TỐN TĨM T ẮT VĂ N BẢ N TIẾ NG VIỆT HƯỚ NG TRUY VẤ N 12 1.1 Bài toán tóm tắt văn tự động 12 1.1.1 Định ngh ĩ a 12 1.1.2 Tóm tắt văn tự động 12 1.2 Phân loại tốn tóm tắt văn 15 1.3 Đặc điểm chung văn tóm tắt 18 1.4 Tóm tắt văn hướ ng ng truy vấn 19 1.5 Ứ ng ng dụng tốn tóm tắt văn hướ ng ng truy vấn 20 1.6 Các tiêu chí đánh giá hệ thống tóm tắt văn hướ ng ng truy vấn 21 1.6.1 Độ bao phủ (Recall-R) 22 1.6.2 Độ chính xác (Precision-P) 22 Trang   1.6.3 Cách tính độ bao phủ và độ chính xác [3] 22 1.6.4 Phươ ng ng pháp tính độ chính xác dựa 11 điểm chuẩn độ bao phủ  23 1.7 Những thách thức gặ p phải đối vớ i tốn tóm tắt văn tiếng Việt hướ ng ng truy vấn 25 1.8 Nghiên cứu hướ ng ng giải đối vớ i tốn tóm tắt văn tiếng Việt hướ ng ng truy vấn 26 1.8.1 Phát biểu toán 26 1.8.2 Đề xuất hướ ng ng giải 26 1.8.3 Mơ hình tóm tắt văn tiếng Việt hướ ng ng truy vấn 28 1.9 Tổng k ết chươ ng ng 29 CHƯƠ NG II: CÁC K Ỹ THUẬT GIẢI QUYẾT BÀI TỐN TĨM TẮT VĂ N BẢ N TIẾ NG VIỆT HƯỚ NG TRUY VẤ N 30 2.1 Tiền xử lý văn 30 2.1.1 Tách câu công cụ vnSentDetector 30 2.1.2 Tách từ và công tự tách từ vnTagger 32 2.1.3 Loại bỏ từ dừng 34 2.1.4 Xử lý từ đồng ngh ĩ a 35 2.1.5 Biểu diễn văn theo mơ hình khơng gian vector (Vector Space Model – VSM) 37 2.2 Tính tr ọng số câu 41 2.2.1 Tính độ tươ nngg đồng ngữ ngh ĩ a câu văn vớ i câu truy vấn   41 2.2.2 Tính độ tươ nngg đồng về vị trí từ giữa câu văn vớ i câu truy vấn   42 2.2.3 Tính tr ọng số cho tồn câu 44 Trang   2.3 Trích rút, tạo văn tóm tắt 45 2.4 Tổng k ết chươ ng ng 46 CHƯƠ NG III: CÀI ĐẶT VÀ THỬ  NGHI  NGHIỆM CHƯƠ NG TRÌNH 47 3.1 Mô tả sơ  l lượ c về hệ thống 47 3.1.1 Các bướ c triển khai chươ ng ng trình 47 3.1.2 Giao diện chươ ng ng trình 48 3.1.3 Cách sử dụng chươ ng ng trình 49 3.2 Đánh giá k ết quả  50 3.2.1 Tậ p dữ liệu thử nghiệm 50 3.2.2 K ết quả thử nghiệm 50 3.2 Tổng k ết chươ ng ng 53 K ẾT LUẬ N VÀ KIẾ N NGHỊ 54 K ết luận 54 Khuyến nghị  54 TÀI LIỆU THAM KHẢO 56 PHỤ LỤC 58 Trang   DANH MỤ MỤC CÁC CHỮ  CHỮ  VIẾ  VIẾT TẮ TẮT STT Từ  viế Từ   viết tắ tắt Ý ngh ĩ a CNTT Công nghệ thông tin TTVB Tóm tắt văn TF Term Frequency IDF Inverse Document Frequency TF.IDF TF.ISF VSM R Recall P Precision Term Frequency* Inverse Document Frequency Term Frequency * Inverse Sentence Frequency Vector Space Model Trang   DANH MỤ MỤC CÁC BẢ BẢNG Bảng 1: Vấn đề tách từ trong tiếng Việt 33 Bảng 2: Một số từ dừng tiếng Việt 34 Bảng 3: Ví dụ về tính tr ọng số cho tồn bộ câu 45 Bảng 4: K ết quả tính tr ọng số câu 52 Bảng 5: K ết quả tr ả ra sau tóm tắt 52 Trang   DANH MỤ MỤC CÁC HÌNH VẼ VẼ  Hình 1: Mơ hình chung c hệ thống tóm tắt 14 Hình 2: Mơ hình tóm tắt vớ i kiểu tóm tắt tỉ lệ tóm tắt khác 18 Hình 3: Đồ thị biểu diễn hiệu suất thực thi hệ thống truy vấn 23 Hình 4: Đồ thị biểu diễn hiệu suất thực thi hệ thống truy vấn 24 Hình 5: Mơ hình xử lý tốn tóm tắt văn tiếng Việt hướ ng ng truy vấn n 28 Hình 6: Biểu diễn câu theo mơ hìn hìnhh khơng khơn g gian vector 38 Hình 7: Giao diện chươ ng ng trình 49 Trang   MỞ  ĐẦ ĐẦU U Lý chọ chọn đề tài đề tài Trong năm gần đây, thấy sự phát triển bùng nổ của internet lượ ng ng thông tin đượ c sinh liên tục ngày vớ i khối lượ ng ng lớ n n Vớ i việc gia tăng theo hàm mũ lượ ng ng thơng tin ng ườ i sẽ gặ p khó khăn việc tiế p cận thơng tin cần phải có phươ ng ng pháp để giải vấn đề  Tóm tắt văn tự  động đượ c đề  cậ p đến như  cách tiế p cận giúp ngườ i có đượ c lượ ng ng thơng tin nhiều lượ ng ng thờ i gian có hạn.Tuy nhiên, vấn đề đặt để chúng ta có thể tìm đượ c thơng tin mà quan tâm lượ ng ng thơng tin lớ n như vậy Tóm tắt văn hướ ng ng truy vấn có thể giúp làm điều Tóm tắt văn hướ ng ng truy vấn sẽ giúp tóm tắt nội dung nội dung từ một nguồn thơng tin theo truy vấn ngườ i sử dụng trình bày nội dung quan tr ọng theo khn dạng súc tích dễ hiểu Tóm tắt văn l  ĩ ĩ nh nh vực quan tr ọng xử lý văn thu hút nhiều nhà nghiên cứu quan tâm Ứ ng ng d ụng tóm tắt văn nhiều l ĩ   ĩ nh nh vực khác như  sinh tiêu đề  tự  động ( headline generation ), rút g ọn thông tin sử  dụng thiết bị cầm tay như PDA, điện thoại di động,… Đến thế  giớ i c ũng có nhiều cơng trình nghiên cứu v ề tóm tắt văn  bản hướ ng ng truy vấn hệ  thống tóm tắt tỏ ra hiệu quả, nhiên nghiên cứu mớ i chỉ  tậ p trung ngơn ngữ  như  tiếng Anh, Pháp, Trung, Nhật, Còn tiếng Việt đặc tr ưng ngơn ngữ  khơng giống vớ i ngơn ngữ khác, ví dụ  như  tiếng Anh ngơn ngữ  đa âm tiết, tiếng Việt ngôn ngữ đơ n âm tiết, việc xác định từ trong tiếng Việt khơng dựa dấu cách Bên cạnh tiếng Việt tồn r ất nhiều âm ngữ Hán Việt, nhiều phải giải ngh ĩ a từ này Hơ n nữa, nghiên cứu về tiếng Việt máy tính mớ i ở  giai   giai đoạn sơ  khai,   khai, kho ngữ liệu dùng cho tóm tắt v ăn tiếng Việt cịn r ất ít, công cụ  hỗ  tr ợợ   cho cho việc tách từ, tách câu, thiếu hi ệu quả  chưa cao Các yếu t ố này làm cho việc xử lý ngôn ngữ  tự nhiên tiếng Việt tr ở  ở  Trang   lên r ất khó khăn, đặc biệt việc đề xuất phươ ng ng pháp tóm tắt văn tiếng Việt hướ ng ng truy vấn Từ  nhu cầu từ  ứng dụng r ộng rãi thực tiễn động lực để khóa luận tậ p trung nghiên cứu về bài tốn tóm tắt văn bản, cụ thể là  bài tốn “Tóm tắt văn hướ ng ng truy vấn” Mụ Mục đích nghiên cứ  cứ u - Tìm hiểu cơ   ssở  lý  lý thuyết phươ ng ng pháp tóm tắt văn hướ ng ng truy vấn - Nghiên cứu cách phân tích biểu diễn văn - Nghiên cứu cách xử lý từ đồng ngh ĩ a văn tiếng Việt - Nghiên cứu phươ ng ng pháp đo độ  tươ nngg đồng ngữ  ngh ĩ a hai câu để  ứng dụng cho tốn tóm t văn hướ ng ng truy vấn - Xây dựng ứng dụng tóm tắt văn Tiếng Việt hướ ng ng truy vấn Đố Đốii ttượ  ượ ng, ng, phạ phạm vi nghiên cứ  cứ u - Nghiên cứu tóm tắt văn tiếng Việt - Đơ n văn bản, tóm tắt văn hướ ng ng truy vấn Phươ  Phươ ng ng pháp nghiên cứ  cứ u - Về lý thuyết: Tìm hiểu cơ   sở  lý   lý thuyết phươ ng ng pháp tóm tắt văn hướ ng ng truy vấn, nghiên cứu cách phân tích biểu diễn văn bản, xử lý từ  đồng ngh ĩ a văn tiếng Việt, nghiên cứu phươ ng ng pháp đo độ  tươ nngg đồng ngữ  ngh ĩ a hai câu để ứng dụng cho tốn tóm t văn hướ ng ng truy vấn - Về  thực nghiệm: Xây dựng ứng dụng tóm tắt văn Tiếng Việt hướ nngg truy vấn Trang 10   √     0.1 0.1822 82237 37  0.8 0.8177 17763 63   √  = 1-  Từ k ết quả tr ả ra ta thấy độ tươ nngg đồng về vị trí từ của câu cho lớ nn 2.2.3  Tính tr ọng số  cho  cho tồn b ộ câu Độ tươ nngg đồng ngữ ngh ĩ a đại diện cho độ tươ ng ng tự về mặt từ vựng Mặt khác, độ tươ nngg đồng về vị trí từ cung cấ p thơng tin v ề mối quan hệ giữa từ: Những từ  ướ c ho ặc sau từ khác Thông tin cả v ề ng ữ  xuất hi ện câu t ừ  đứng tr ướ  ngh ĩ a cú pháp (vị trí từ) đóng vai trị quan tr ọng việc truyền đạt câu  Như v ậy, độ t ươ nngg đồng cho toàn bộ câu (tr ọng s ố câu) đượ c định ngh ĩ a s ự  k ết hợ  p độ  tươ nngg đồng ngữ  ngh ĩ a độ  tươ nngg đồng về  vị trí từ  hai câu [14]  Như  vậy, vớ i tốn tóm tắt văn hướ ng ng truy vấn việc tính tr ọng số  câu tính mức độ quan tr ọng câu văn so vớ i câu truy vấn Gọi Si là vector ngữ ngh ĩ a câu thứ i văn b ản D Sq là vector ngữ  ngh ĩ a c câu truy vấn Q, r i là vector vị trí từ trong câu i, r q là vector vị trí từ trong câu truy vấn Q Tr ọng số  câu thứ i văn so vớ i câu truy vấn Q đượ c tính theo công thức [14]: ,  .   ,       (9) Từ công thức (7), (8) (9) ta thu đượ c công thức sau:       ,   ,  ∑   ,, ,    ∑    ,  ∑   ,     .  ∑    ,,   Trong đó:   S(Si, Sq) là tr ọng số của câu thứ i o   Wk,i là độ quan tr ọng từ thứ k câu i o   Wk,q là độ quan tr ọng từ thứ k câu truy v ấn Q o   n tổng số từ trong tậ p từ chung văn câu truy vấn o Trang 44 (10)     r  p,i là giá tr ị tại vị trí thứ p vector r i  o   r  p,q là giá tr ị tại vị trí thứ p vector r q  o   t tổng s ố t ừ trong tậ p t ừ chung câu truy vấn câu thứ i o văn Vớ i δ  ≤  định việc đóng góp tươ nngg đối v ề mặt ngữ ngh ĩ a thứ t ự t ừ  tớ i tồn bộ câu Vì cú pháp (vị trí từ) đóng vai trị phụ cho việc xử lý ngữ ngh ĩ a  văn [10] nên δ phải có giá tr ị lớ n hơ n 0.5 tức δ   (0.5,1] Theo kinh nghiệm thu đượ c thông qua thử nghiệm cặ p câu cho thấy δ = 0.85 thườ ng ng cho k ết quả chính xác [13] Ví dụ: Cho câu truy vấn Q câu v ăn lần lượ t như sau: Q: Hùng vừ a đẩ  y Lan ngã xuố ng ng sân  1: Hôm lên Hà N ội chơ i 2: Lan vừa đẩy Hùng ngã xuống sân 3: Tùng vừa đẩy Hoa ngã xuống sân 4: Hùng vừa đẩy Lan ngã xuống sân Sau tính tốn tr ọng s ố c câu văn b ản so vớ i câu truy vấn theo công thức (10), ta thu đượ c bảng k ết quả sau: STT Nộội dung câu N S(Si,Sq)  Hôm lên Hà Nội chơ i Lan vừa đẩy Hùng ngã xuống sân 0.977514049330124 Tùng vừa đẩy Hoa ngã xuống sân 0.271163190721906 Hùng vừa đẩy Lan ngã xuống sân  Bảng 3: Ví d ụ về  tính  tính tr ọng số  cho  cho tồn bộ câu 2.3.  Trích rút, tạ tạo vă văn bả tóm tắ tắt Sau tính đượ c tr ọng số của câu văn so vớ i câu truy vấn, cứ vào k ết quả tính tốn S(Si,Sq) và tỷ lệ tóm tắt X đượ c xác định từ tr ướ  ướ c hồn Trang 45   tồn có thể  chọn câu thỏa mãn để  tạo thành văn tóm tắt theo tr ật tự  câu đượ c trích xuất t ừ văn gốc b ằng cách sắ p xế p theo thứ tự gi ảm dần giá tr ị tr ọng số câu câu văn so vớ i câu truy vấn 2.4.  Tổng k ết chươ  chươ ng ng Từ hướ ng ng giải đượ c đề xuất ở  ch  chươ ng ng 1, chươ ng ng trình bày k ỹ  thuật c ụ th ể  để  giải đượ c toán đặt ra: Tiền xử lý văn ti ếng Việt (tách câu, tách từ, loại bỏ  từ  dừng, xử  lý từ  đồng ngh ĩ a, ), a, ), tính tr ọng số câu (tính độ tươ nngg đồng câu văn câu truy vấn, độ tươ nngg đồng về vị trí từ giữa câu văn câu truy vấn,…), trích rút, tạo văn tóm tắt Trong chươ ng ng tiế p theo luận văn sẽ  trình bày về  bướ c cài đặt thử  nghiệm ng Việt hướ ng ng truy vấ n chươ ng ng trình Tóm t ắắ  t văn tiế ng Trang 46   CHƯƠ  CH ƯƠ NG NG III: CÀI ĐẶ ĐẶT T VÀ THỬ  THỬ  NGHIỆ  NGHIỆM CHƯƠ  CHƯƠ NG NG TRÌNH 3.1.  Mô tả tả sơ   sơ   lượ  lượ c về hệ  hệ th  thốống Căn c ứ vào k ết qquuả nghiên cứu c ơ   ss ở  lý   lý thuyết để  tốn tóm t văn  bản tiếng Việt hướ ng ng truy vấn t ại chươ ng ng 2, về  cơ   hệ t thhống “Tóm t ắ  ắt  văn b ản tiế ng ng Việt h ướ ng ng truy vấ n” đượ c xây dựng đáp ứng đượ c yêu cầu c ơ    bản mà toán đặt 3.1.1  Các bướ c tri ểể n ng trình   khai chươ ng  Bướ c 1: Tiề n xử  lý  lý văn tiế ng ng Việt : - Tại bướ c sẽ  tiến hành tách câu văn việc sử  dụng công cụ tách câu vnSentdetector đượ c cung cấ p miễn phí bở i nhóm tác giả Lê Hồng Phươ ng ng Hồ Tườ ng ng Vinh, câu tách xong s ẽ đượ c để trên dịng đề tiện cho q trình tách từ sau - Sau tách câu sử  dụng chươ ng ng trình tách từ VnTagger tác giả Lê Hồng Phươ nngg để tách nội dung văn cần tóm tắt câu truy vấn thành đơ n vị từ  - Từ danh sách câu, từ  đượ c tách ta tiến hành loại bỏ các từ  dừng thông qua bộ  từ  điển từ  dừng Các từ  dừng đượ c sử  dụng chươ ng ng trình ://tratu.soha.vn   đượ c lấy từ trang http://tratu.soha.vn - Tiế p theo chúng tơi sử dụng bộ từ điển đồng ngh ĩ a để tìm từ trong văn  bản đầu vào đồng ngh ĩ a vớ i từ trong câu truy vấn thực việc thay thế  t ừ  b ằng t ừ trong câu truy vấn Và sau bướ c sẽ thu đượ c danh sách từ  đượ c đồng nhất, điều sẽ  giúp cho việc tính tốn độ  ở  nên tươ nngg đồng câu văn vớ i câu truy vấn tr ở  nên dễ dàng xác hơ n n Các từ  đồng ngh ĩ a đượ c sử dụng chươ ng ng trình đượ c lấy từ trang http://tratu.soha.vn  Trang 47   - Đến th ờ i điểm có đượ c danh sách câu vớ i việc lo ại b ỏ các từ  dừng đồng bộ hóa từ  đồng ngh ĩ a từ trong văn vớ i từ trong câu truy vấn Để  phục vụ cho bướ c tiế p theo the o ta tiến hành vector hóa câu văn Mỗi câu văn như câu truy vấn đượ c biểu diễn dướ i dạng vector Mỗi vector có số chiều số tậ p từ chung văn câu truy vấn, vị trí mà từ của câu khơng xuất danh sách tậ p từ chung giá tr ị sẽ là 0, cịn lại đượ c tính theo cơng thức (6) như đã nêu ở  trên  trên  Bướ c 2: Tính tr ọng số   câu: Dựa vào k ết quả vector hóa câu văn  bản câu truy vấn, ta tiến hành tính tr ọng số câu qua bướ c sau:  -  Tính độ tươ nngg đồng câu văn vớ i câu truy vấn -  Tính độ tươ nngg đồng về vị trí từ giữa câu văn vớ i câu truy vấn -  Tính tr ọng số cho tồn bộ câu  Bướ c 3: Trích rút, t ạo văn tóm t ắắ t:  t: Sau tính đượ c tr ọng số  cho toàn bộ  câu, cứ  vào k ết quả  tính tốn S(Si,Sq)  tỷ  lệ  tóm tắt X  đượ c xác định từ  tr ướ  ướ c hồn tồn có thể  chọn câu thỏa mãn để  tạo thành văn tóm tắt đượ c trích xuất từ  văn gốc thỏa mãn điều kiện chươ ng ng trình 3.1.2  Giao di ện chươ ng ng trình Trang 48    Hình 7: Giao diện chươ ng ng trình 3.1.3  Cách sử  d   d ụng chươ ng ng trình Bướ c 1: Chọn nội dung văn cần tóm tắt cách nhấn vào nút chọn đườ ng ng d ẫẫ  n sau tìm đến file dạng v ăn bản, có thể copy văn b ản dán tr ực tiế p vào vùng chứa nội dung văn gốc như hình Bướ c 2: Nhậ p câu truy vấn Bướ c 3: Chọn tỷ lệ tóm tắt : 10%, 20%,…… Bướ c 4: Chọn kiểu k ết quả tóm tắt: + K ết quả hiển thị theo thứ tự các câu văn Trang 49   + K ết quả hiển thị theo thứ tự của giá tr ị tr ọng số câu Bướ c 5: Nhấn nút Thự c hiện để bắt đầu tóm tắt Sau tóm tắt xong k ết quả tóm sẽ  đượ c hiển thị trong vùng chứa k ết quả tóm tắt Có thể lưu lại k ết quả bằng cách nhấn vào nút Lư u k ế  ế t quả tóm t ắ  ắt. t quả  3.2.  Đánh giá k ết 3.2.1  T ậ p d ữ  nghi ệm ữ  li    li ệu thử  nghi  Việc đánh giá k ết quả  v ăn tóm tắt, đặc bi ệt tóm tắt hướ ng ng truy vấn, tài nguyên xử lý ngôn ngữ t ự nhiên tiếng Việt khơng có nhiều nên luận v ăn s ẽ ti ến hành việc đánh giá thông qua dữ liệu cụ thể Dữ liệu dùng để tóm tắt trang tin đượ c lấy từ các trang báo điện tử  http://vnexpress.net, http://baomoi.com.vn , http://baomoi.com.vn , Việt Nam như: http://dantri.com.vn, http://dantri.com.vn, http://vnexpress.net, http://truyencotich.vn http://truyencotich.vn g  g ồm 100 văn b ản c thể lo ại tin tức, truyện đưa vào tậ p huấn luyện 3.2.2   K ếế  t quả thử  nghi   nghi ệm Việc đánh giá độ chính xác thuật tốn tóm tắt tiếng Việt gặ p nhiều khó khăn hạn chế  về  nguồn dữ  liệu mẫu chuẩn Chưa có đơ n vị  xây dựng tóm tắt mẫu vớ i số lượ ng ng lớ n công bố r ộng rãi Điều gây nhiều tr ởở   ngại đối vớ i tác giả trong trình xây dựng hệ  thống, bở i không đánh giá đượ c k ết quả chươ ng ng trình Vì chưa có hệ  thống tóm tắt văn hướ ng ng truy vấn dành cho tiếng Việt, chưa thể so sánh, đánh giá đượ c độ  xác hệ  thống vừa xây dựng so vớ i hệ thống khác Tuy nhiên, đưa số ví dụ trên tậ p dữ liệu thử nghiệm so sánh k ết quả của hệ thống tóm tắt hướ nngg truy vấn vớ i k ết quả tóm tắt thủ cơng tậ p dữ liệu thử nghiệm K ết quả  cho thấy hệ  thống Tóm t ắắ  t văn tiế ng ng Việt hướ ng ng truy vấ n chạy tươ nngg đối ổn định, cho k ết quả tốt tươ nngg đối sát vớ i q trình tóm tắt thủ cơng Từ đó hứa hẹn có thể tri ển khai đượ c thực t ế nh ằm giúp ngườ i trình tìm kiếm chắt lọc thơng tin Trang 50   Xét ví dụ sau: Văn bả đầu đầu vào:  Ngày vậ y, sau giờ   hhọc, em T, học sinh (HS) Tr ườ  ườ ng ng tiể u học Lươ nngg Th  r  Vinh V nng TPHCM) c bác ơmlót màd ạgia ình  p đồcác ng th hàng ấấ  p, đ ình đ  ónế  Vinh ón ồi ch(Gò ở   th thẳ  g  đế  n nơ l iạhiọđượ  c thêm sauxekhi  qua loa.hợ  Vào ứ  ch  chtháng ẵ n 2, 4, 6, em T học t ại nhà cô giáo chủ nhiệm vớ i mứ c phí 300.000 đồng/tháng Cịn thứ  l   l ẻ , T tiế  p t ục theo học t ại nhà m ột giáo viên (GV) tr ườ  ườ ng ng khác d ạ y giỏi có ườ i quen giớ i thiệu vớ i mứ c phí g ần g ấ  ấ p  r ưỡ  ưỡ i số  ti tiế ng ng mà bố   m mẹ đượ c ng ườ   tiề n ư  việc học cho cháu  M ẹ cháu T không ng ại thừ a nhận, gia đ ình ình muố n đầu t ư  t ừ  ừ  ssớ m như ng ng xét thấ  y việc học ở  tr   tr ườ  ườ ng ng chư a đủ nên họ muố n đượ c thêm bên để  nâng   nâng cao kiế n tthhứ c c Nhấ t nhữ ng ng n ăm cu ố i ti ể u h ọc, h ọ mu ố n cháu ườ ng thật vữ ng ng vàng để  sau  sau có thể  thi  thi đậu vào Tr ườ  ng Chuyên Tr ần  Đại Nghĩ a a Việc ự  nguy học thêm ở  cô  cô giáo chủ nhiệm gia đ ình ình hồn tồn t ự  nguyện họ cũng muố n đượ c học thêm cả nhữ ng ng thầ y cô ngồi tr ườ  ườ ng ng  Đây khơng phải tr ườ  ườ ng ng “cá biệt”, khơng HS khác hàng ngày c ũng đ ang ang “gánh” l ịch(PH) học tìm khủcho ng học khóa n các g, nhi ư   về ậ y ườ   ph ụ huynh conế  pr ấấ nh  t nhi u chNgoài ỗ   để  h  hgi ọcờ  thêm như  tìm   tìm đế nở h  tr  ọcườ  ở ng,   thề  ầ yu có tiế ng ng tr ườ  ườ ng ng tr ườ  ườ ng, ng, trung tâm bồi d ưỡ  ưỡ ng ng văn hóa, hay thuê gia sư   vvề  nhà  nhà ườ ng  Em H.T.Ng, H T.Ng, HS tr ườ  ng THCS ở  Q1,   Q1, TPHCM cho hay, gi ờ   học ở   ườ ng ườ ng ưỡ ng ự  Tr ọng 218 Vào nhữ nngg tr ườ  ng em học thêm liên t ục t ại Tr ườ  ng Bồi d ưỡ  ng Lý T ự  đợ t cao đ iể m nh ư  thi ằ nngg   thi cuố i k  ỳ , cu ố i n ăm b ố  m  m ẹ còn mờ i gia sư   đế n d ạ y cho r ằ  ự   hhọc khơng t ốố t,t  , cần có ng ườ  ườ i kèm cặ p thêm khả năng t ự ườ ng  M ột giáo viên ở  Tr   Tr ườ  ng THCS Sông  Đà (Q Phú Nhuận) cho hay, t  ỷ l ệ HS đ i ườ ng học thêm bên nhà tr ườ  ng r ấấ  t đ ơng, ơng, có nhữ ng ng l ớớ  p  có đế n 50% số  em  em theo học ở  nh  nhữ ng ng l ớ  ớ p  học thêm không GV ph ụ trách bộ môn giảng d ạ y Nhu cầu học thêm đ ông ừ  ông đế n mứ c nhiề u GV, nhấ t GV giỏi khơng nhận HS chỉ  nh  nhận HS t ừ  l ớ  ng khác ớ p  khác, tr ườ  ườ ng Câu truy vấ vấn: tình tr ạng học thêm  Tỷ l lệệ % trích xuấ xuất: chọn 30% K ết quả tính tốn củ chươ  chươ ng ng trình -   S ốố  câu    câu tách đượ c: c: 12 -  Giá tr  ị  tr   tr ọng số  câu  câu đượ c tính tốn: Trang 51   STT Câu S(Si,Sq)  Sắp xếp theo trọng số câu [0] 0.154075174979131 [11] [1] 0.150265242404925 [5] [2] [3] 0.150206367740921 0.154576910054539 [8] [9] [4] [7] [5] 0.157204635035884 [3] [6] 0.15028556247084 [10] [7] 0.154777037306641 [0] [8] 0.155845013797387 [6] 10 [9] 0.154825831047861 [1] 11 12 [10] 0.15453632318657 [11] 0.157289430229966 [2] [4]  Bảng 4: K ếế  t quả tính tr ọng số  câu  câu -   S ốố  câu   câu văn tóm t ắt thu đượ c: c: STT Sắp xếp theo trọng số câu S(Si,Sq)  0.157289430229966 [11] 0.157204635035884 [5] 0.155845013797387 [8] 0.154825831047861 [9]  Bảng 5: K ếế t  quả tr ả ra sau tóm t ắ  ắt  hệ K ết quả tóm tắ tắt ccủ hệ th  thốống: - Hi ểể  n th ị  k   k ếế t  quả theo giá tr   tr ọng số  câu:  câu:  ị  tr  [11] Nhu cầu học thêm đ ông ông đế n mứ c nhiề u GV , nhấ t GV giỏi khơng nhận HS chỉ  nh  nhận HS t ừ ừ   l l ớớ  p  khác , tr ườ  ườ ng ng khác [5] Việc học thêm ở  cô  cô giáo chủ nhiệm gia đ ình ình hồn tồn t ự  ự  nguy nguyện họ  muố n đượ c học thêm cả nhữ ng ng thầ y cô tr ườ  ườ ng ng Trang 52   [8] Em H.T.Ng , HS tr ườ  ườ ng ng THCS ở  Q1  Q1 , TPHCM cho hay , giờ  h  học ở   ườ ng ườ ng ưỡ ng ự  Tr  tr ườ  ng em học thêm liên t ục t ại Tr ườ  ng Bồi d ưỡ  ng Lý T ự  Tr ọng 218 [9] Vào nhữ nngg đợ t cao đ iể m nh ư  thi   thi cuố i k  ỳ  , cu ố i n ăm b ố  m  m ẹ cịn mờ i gia sư   đế n d ạ y cho r ằằ ng n  g khả  t ự ự   học khơng t ố  ốt  , cần có ng ườ  ườ i kèm cặ p thêm - Hi ểể  n th ị  k   k ếế t  quả theo thứ   t  t ự câu văn bản: ự   câu [5] Việc học thêm ở  cô  cô giáo chủ nhiệm gia đ ình ình hồn tồn t ự  ự  nguy nguyện họ  muố n đượ c học thêm cả nhữ ng ng thầ y ngồi tr ườ  ườ ng ng ườ ng [8] Em H.T.Ng , HS tr ườ  ng THCS ở  Q1  Q1 , TPHCM cho hay , giờ  h  học ở   tr ườ  ườ ng ng em học thêm liên t ục t ại Tr ườ  ườ ng ng Bồi d ưỡ  ưỡ ng ng Lý T ự  ự  Tr  Tr ọng 218 [9] Vào nhữ nngg đợ t cao đ iể m như  thi  thi cuố i k  ỳ , cuố i năm bố  m  mẹ còn mờ i gia sư  đế n ự   hhọc khơng t ố  ố t , cần có ng ườ  ườ i kèm cặ p d ạ y cho r ằằ  ng ng khả năng t ự thêm [11] Nhu cầu h ọc thêm đ ông ông đế n m ứ c nhiề u GV , nhấ t GV giỏi khơng nhận HS chỉ  nh  nhận HS t ừ ừ   l l ớớ  p  khác , tr ườ  ườ ng ng khác    3.2.  Tổng k ết chươ  chươ ng ng Chươ ng ng trình bày bướ c xây dựng chươ ng ng trình mơ tả  về  chươ nngg trình sau hệ  thống hồn thiện Việc đánh giá độ  xác thuật tốn tóm tắt tiếng Việt gặ p nhiều khó khăn hạn chế  về  nguồn dữ  liệu mẫu chuẩn Chưa có đơ n vị  xây dựng tóm tắt mẫu vớ i số  lượ ng ng lớ n công bố  r ộng rãi, đặc bi ệt tóm tắt h ướ ng ng truy vấn dành cho tiếng Việt Do đó, có tiêu chí để đánh giá cho hệ thống tóm tắt hướ ng ng truy vấn khơng thể áp dụng khơng có hệ  thống tươ ng ng tự  để  đối sánh nên báo cáo chúng tơi trình bày việc đánh giá hiệu suất chươ ng ng trình việc đưa tậ p dữ liệu thử nghiệm k ết quả thử nghiệm.  Trang 53   K ẾT LUẬ LUẬN VÀ KIẾ KIẾN NGHỊ NGHỊ  1.  K ết luậ luận Có thể thấy tốn TTVB tốn có giá tr ị ứng dụng r ất lớ n n Vớ i sự phát triển kho dữ liệu khổng l ồ và k ỹ thuật nâng cao khả năng tính tốn máy móc, ứng dụng TTVB sẽ đượ c thực ngày nhiều hơ n theo nhu cầu c ngườ i.i Các k ỹ thuật TTVB nói chung TTVB tiếng Việt nói riêng sẽ  đượ c nghiên cứu phát triển thêm khoảng thờ i gian tớ ii Đề tài nghiên cứu đưa giải đượ c số vấn đề sau: -   Nghiên cứu lý thuyết tổng quan về  TTVB, phươ ng ng pháp về  xu hướ ng ng giải toán -   Nghiên cứu về tóm tắt văn hướ ng ng truy vấn -  Phân tích k ỹ  thuật có thể  áp dụng cho toán TTVB tiếng Việt hướ ng ng truy vấn -  Xây dựng hệ  thống TTVB tiếng Việt hướ ng ng truy vấn có sử  dụng đến k ỹ thuật trình bày ở  trên  trên -  Thông qua thử nghiệm đánh giá cho thấy hệ thống đạt đượ c k ết quả tươ nngg đối tốt số dữ liệu thử nghiệm, từ đó hứa hẹn có thể  triển khai đượ c thực tế 2.  Khuy Khuyếến nghị nghị  Hệ thống Tóm t ắắ  t văn tiế ng ng Việt hướ ng ng truy vấ n sau hoàn thiện đưa vào hoạt động thực t ế có thể h ỗ tr   t r ợợ   chúng r ất nhiều trình tìm kiếm chắt l ọc thơng tin Tuy nhiên để h ệ th ống có thể hoạt động t ốt thực t ế thì cần  phải có h ệ th ống kiểm th ử và đánh giá tự  động Hơ n th ế n ữa, để  độ chính xác cao hơ n cần phải phân tích xử lý k ỹ hơ n về cú pháp, ngữ ngh ĩ a ti ếng Việt  bộ từ điển đồng ngh ĩ a cần phải hoàn chỉnh đầy đủ hơ nn Trang 54   Hướ ng ng phát triển hệ thống tươ ng ng lai: -  Xử lý chặt chẽ hơ n về cú pháp, ngữ ngh ĩ a tiếng Việt -  Hoàn thiện bộ  từ  điển đồng ngh ĩ a để  k ết quả tóm tắt có độ chính xác cao hơ nn -  Thực thử  nghiệm vớ i tậ p dữ  liệu lớ n hơ nn,, ở   nhiều l ĩ   ĩ nh nh vực hơ nn,, để có nhìn xác h ơ n về hệ thống -  Triển khai hệ th ống ứng d ụng thực t ế  để  đánh giá khả n ăng ứng dụng thực tiễn hệ thống Trang 55   TÀI LIỆ LIỆU THAM KHẢ KHẢO [1] Nguyễn Vi ệt C ườ ng, ng, (2007),  Xây d ựự  ng ng mục l ục cho văn b ản, Luận văn thạc s ĩ ,  pp 23 [2] Đỗ Phúc, Hồng Kiếm, (2004),  Rút trích ý t ừ  ừ  văn tiế ng ng Việt hỗ   tr ợợ   t ạo tóm t ắắ  t nội dung”, Tạ p chí Bưu viễn thơng, chun san cơng trình nghiên cứu, triển khai viễn thơng & CNTT, số 13 [3] Vũ H ồ B ảo Khanh, Tr ần Qu ế H ươ ng, ng,  Xây d ự  ự ng ng b ộ ng ữ  ữ li   li ệu để   đ ánh ánh giá bằ nngg tiế ng ng Việt chươ ng ng trình hỗ   tr ợợ   giúp giúp đ ánh ánh giá hệ  thố ng ng tìm kiế m thơng tin, Luận văn thạc s ĩ , pp 41-48 [4] Nguyễn Thị Oanh, Slide giảng Tìm kiế m d ữ  ữ li   liệu đ a phươ ng ng tiện, Viện công nghệ thông tin truyền thông – Đại học Bách Khoa Hà Nội, chươ ng ng 2, pp 46-47 [5] Phạm Thị  Thu Uyên, Hoàng Minh Hiền, Tr ần Mai Vũ, Hà Quang Thụy, (2008),  Độ  đ o t ươ  ươ nngg đồng ng ữữ   ngh ngh ĩ a gi ữ a hai câu ứ ng ng d ụng tóm t ắ  ắt  văn b ản ti ế ng ng Việt , Hội th ảo Quốc Gia Một s ố v ấn đề ch ọn l ọc v ề Công nghệ  thông tin truyền thông lần thứ XI, Huế [6] Tr ần Mai Vũ,(2009), Tóm t ắắ t  đ a văn d ự  ự a vào trích xuấ t câu, Luận văn thạc s ĩ , ĐH Quốc Gia Hà Nội – Đại học Công nghệ Page age, InProc [7] AI Berger and Mittal, (2000),  A System For Summarization Web P ACM SIGIR, pp 144-151 [8] Smaranda Mure Sean, (2001),  Combining Linguistic and Machine Learning Teachniques For Email Summazization, Columbia University [9] G Salton and C Buckley, (1997), Term-weighting Approaches in Automatic Text Retrieval , Information Processing and Management 24, pp 513-523, 1988 Reprinted in: Sparck Jones K and Willet P (eds) Readings in Information Retrieval, Morgan Kaufmann, pp 323-328 Trang 56   [10] Masrah Azrifah Azmi Murad, Trevor Martinm, Similary-Based Estimation for  Document Summarization using Fuzzy Sets, International Journal of Computer Security and Security, Volume (1): Issue(4) [11] P Wiemer-Hastings,(2000),  Adding Syntactic Information to LSA, Proc 22nd Ann Conf Cognitive Science Soc.,pp 989-993 [12] Juan Rames, (2003), Using TF-IDF to Determine Word ReleVance in Document Queries, key:Citeulike:7616995 [13] J Larocca Neto, AD Santos, CAA Kaestner, and AA Freitas, (2000),  Document Clustering and Text Summarization In N Mackin, editor, Proc 4th International Conference Practical Applications of Knowledge Discovery and Data Mining (PADD-2000) [14] Yuhua Li, David McLean, Zuhair Bandar, James O'Shea, Keeley A Crockett (2006) Sentence Similarity Based on Semantic Nets and Corpus Statistics IEEE Trans Knowl Data Eng.18(8): 1138-1150 Các công cụ cụ sử   sử  dụ  dụng [15] Lê Hồng Phươ ng, ng, vnTagger.  [16] Lê Hồng Phươ ng, ng, Hồ V ĩ nh nh Tườ ng, ng, vnSentdetector.  Trang 57   PHỤ PH Ụ L  LỤ ỤC 1.  Danh mục công thức sử dụng báo cáo STT Công thứ  thứ c Ý ngh ngh ĩ   ĩ a Trang (1) Tính độ bao phủ  22 (2) Tính độ chính xác 23 (3) Tính tr ọng số từ trong văn TF 38 (4) Tính tr ọng số từ trong văn IDF 39 (5) Tính tr ọng số từ trong văn TF.IDF 39 (6) Tính tr ọng số từ trong câu TF.ISF 40 (7) Tính độ tươ nngg đồng câu văn vớ i 42 (8) (9) 10 (10) câu truy vấn Tính độ tươ nngg đồng vị trí từ giữa câu văn  bản vớ i câu truy vấn Tính tr ọng số cho tồn bộ câu Cơng thức tổng hợ  p để tính tr ọng số cho toàn bộ  câu Trang 58 43 44 44 ... vào tốn tóm tắt, ngườ i ta có thể chia tóm tắt thành tóm tắt đa văn bản, tóm tắt đơ n văn Bài tốn tóm tắt đơ n văn giống như các tốn tóm tắt khác, q trình tóm tắt tự động vớ i đầu vào văn bản, đầu... thống tóm tắt vớ i số  kiểu tóm tắt nhiều tỉ  lệ  tóm tắt khác Đầu vào hệ thống có thể là văn bản, nhiều văn bản, truy vấn Kiểu tóm tắt có thể  trích rút, tr ừu tượ ng, ng, tóm tắt truy vấn, tóm tắt. .. chỉ thị “tối mật” Cịn tóm tắt thơng tin chỉ ra nội dung thơng tin - Tóm t ắt cơ   ssở ? ?truy ? ?truy vấ n (Query-based) Tóm tắt cơ   ss ở ? ?truy   truy vấn nội dung văn b ản tóm tắt s ẽ d ựa truy vấn ngườ i

Ngày đăng: 16/08/2020, 11:00

Tài liệu cùng người dùng

Tài liệu liên quan