1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tóm tắt văn bản tiếng việt theo định hướng truy vấn

58 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - HỒ THỊ QUỲNH ANH TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO ĐỊNH HƯỚNG TRUY VẤN LUẬN VĂN THẠC SỸ KỸ THUẬT CÔNG NGHỆ THÔNG TIN HÀ NỘI-NĂM 2013 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - HỒ THỊ QUỲNH ANH TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO ĐỊNH HƯỚNG TRUY VẤN CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SỸ KỸ THUẬT CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS LÊ THANH HƯƠNG HÀ NỘI- 2014 LỜI CAM ĐOAN Tơi xin cam đoan, tơi viết luận văn tìm hiểu nghiên cứu thân Mọi kết nghiên cứu nhƣ ý tƣởng tác giả khác có đƣợc trích dẫn nguồn gốc cụ thể Luận văn chƣa đƣợc bảo vệ hội đồng bảo vệ luận văn thạc sĩ toàn quốc nhƣ nƣớc ngồi chƣa đƣợc cơng bố phƣơng tiện thông tin Tôi xin hồn tồn chịu trách nhiệm mà tơi cam đoan Hà Nội, tháng 09 năm 2014 Học Viên Hồ Thị Quỳnh Anh Trang LỜI CẢM ƠN Sự động viên gia đình, bạn bè, đồng nghiệp, ngƣời bên động lực to lớn giúp tơi vƣợt qua bao khó khăn để đặt bút viết lên luận văn Trƣớc tiên, muốn gửi lời cảm ơn đặc biệt đến cô giáo hƣớng dẫn tôi, PGS.TS Lê Thanh Hƣơng, hƣớng dẫn tận tình khoa học Từ cô, học đƣợc cách lựa chọn vấn đề, cách giải vấn đề cách trình bày lời giải Tơi xin bày tỏ lịng biết ơn đến tồn thể q Thầy Cơ Viện Cơng nghệ thơng tin &Truyền thông, Viện Đào tạo Sau Đại học trƣờng Đại học Bách Khoa Hà Nội tạo điều kiện thuận lợi cho tơi suốt q trình thực luận văn Tôi xin cảm ơn tất ngƣời bạn tôi, ngƣời chia sẻ cổ vũ tơi lúc khó khăn tơi ln ghi nhớ điều Cuối cùng, tơi xin bày tỏ lịng biết ơn vơ hạn cha mẹ, gia đình gái nhỏ tơi ln ủng hộ, giúp đỡ tơi Bản luận văn cịn nhiều thiếu sót, mong đƣợc thầy giáo hội đồng chấm luận văn xem xét, góp ý kiến để luận văn đƣợc hồn thiện Tơi xin chân thành cảm ơn! Hà Nội, tháng 09 năm 2014 Trang LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ I MỞ ĐẦU Lý chọn đề tài Mục đích, nội dung nghiên cứu: Đối tƣợng, phạm vi nghiên cứu: 10 Phƣơng pháp nghiên cứu: 10 Bố cục luận văn: 10 NỘI DUNG 11 CHƢƠNG I: TỔNG QUAN VỀ TÓM TẮT VĂN BẢN TIẾNG VIỆT, TÓM TẮT VĂN BẢN TIẾNG VIỆT HƢỚNG TRUY VẤN 11 Tổng quan tóm tắt văn tiếng việt: 11 Phân loại tốn tóm tắt văn bản: 14 Tóm tắt văn tiếng việt hƣớng truy vấn: 16 3.1 Định nghĩa: 16 3.2 Các tiêu chí đánh giá hệ thống tóm tắt văn hƣớng truy vấn 17 3.3 Cách tính độ bao phủ độ xác: 18 3.4 Phƣơng pháp tính độ xác dựa 11 điểm chuẩn độ bao phủ 19 Nghiên cứu hƣớng giải toán tóm tắt văn tiếng Việt hƣớng truy vấn 21 Trang 4.1 Phát biểu toán: 21 4.2 Đề xuất hƣớng giải 21 4.3 Mơ hình tóm tắt văn tiếng Việt hƣớng truy vấn 22 Các đặc trƣng Tiếng việt: 23 5.1 Tổng quan tiếng việt: 23 5.2 Hiện trạng nghiên cứu tiếng Việt: 24 5.3 Đặc điểm tiếng việt: 25 CHƢƠNG II: CÁC HƢỚNG TIẾP CẬN, CÁC KỸ THUẬT GIẢI QUYẾT BÀI TỐN TĨM TẮT VĂN BẢN TIẾNG VIỆT HƢỚNG TRUY VẤN 28 Các hƣớng tiếp cận văn tiếng việt hƣớng Truy vấn: 28 1.1 Cách tiếp cận dựa đồ thị tài liệu: 28 1.2 Cách tiếp cận sử dụng ngôn ngữ: 29 1.3 Cách tiếp cận học máy: 29 1.4 Các hệ thống hƣớng ứng dụng: 30 Các kỹ thuật giải toán hƣớng truy vấn: 31 2.1 Tiền xử lý văn 31 2.2 Tính trọng số câu 40 2.3 Trích rút, tạo văn tóm tắt 46 2.4 Tổng kết chƣơng 46 CHƢƠNG III: CÀI ĐẶT VÀ THỬ NGHIỆM CHƢƠNG TRÌNH 47 Mô tả sơ lƣợc hệ thống 47 1.1 Đánh giá kết 47 1.2 Tổng kết chƣơng 50 KẾT LUẬN VÀ KIẾN NGHỊ 52 Trang Kết luận 52 Khuyến nghị: 52 TÀI LIỆU THAM KHẢO 54 Trang DANH MỤC CÁC CHỮ VIẾT TẮT STT Từ viết tắt Ý nghĩa CNTT Công nghệ thông tin TTVB Tóm tắt văn TF Term Frequency IDF Inverse Document Frequency TF.IDF TF.ISF VSM R Recall P Precision 10 ĐVVB Term Frequency* Inverse Document Frequency Term Frequency * Inverse Sentence Frequency Vector Space Model Đơn vị văn Trang DANH MỤC CÁC BẢNG Bảng Vấn đề tách từ tiếng Việt 343 Bảng Một số từ dừng tiếng Việt 36 Bảng 3: Ví dụ tính trọng số cho tồn câu 46 Bảng 4: Kết tính trọng số câu 50 Bảng 5: Kết trả sau tóm tắt 50 Trang DANH MỤC CÁC HÌNH VẼ Hình 2: Mơ hình chung hệ thống tóm tắt…………………………………12 Hình 3: Mơ hình tính độ bao phủ độ xác…………………………………17 Hình 4: Đồ thị biểu diễn hiệu suất thực thi hệ thống truy vấn 19 Hình 5: Đồ thị biểu diễn hiệu suất thực thi hệ thống truy vấn 20 Hình 6: Mơ hình xử lý tốn tóm tắt văn tiếng Việt hƣớng truy vấn 23 Hình 7: Biểu diễn câu theo mơ hình khơng gian vector 38 Hình 8: Giao diện chƣơng trình 48 Trang Độ tƣơng đồng ngữ nghĩa giá trị tin cậy phản ánh mối quan hệ ngữ nghĩa hai câu Trên thực tế, khó lấy giá trị có độ xác cao ngữ nghĩa đƣợc hiểu đầy đủ ngữ cảnh cụ thể Với không gian biểu diễn tài liệu đƣợc chọn không gian vector trọng số TF.ISF, độ đo tƣơng đồng đƣợc chọn Cosine góc hai vector tƣơng ứng hai câu i Q Gọi Si Sq hai vector ngữ nghĩa biểu diễn cho hai câu i Q, hai vector có dạng: Si = , với wk,i độ quan trọng từ thứ k câu i Sq= , với wk,q độ quan trọng từ thứ k câu truy vấn Q Sau tính đƣợc trọng số từ, ta đƣa đƣợc vector ngữ nghĩa S i cho câu Gọi Si vector ngữ nghĩa câu thứ i văn D Sq vector ngữ nghĩa câu truy vấn Q Việc tính độ tƣơng đồng ngữ nghĩa hai câu đƣợc quy việc tính độ tƣơng đồng hai vector Si Sqvà đƣợc tính theo cơng thức sau [5][9][14]: (7) Trong đó: o Sim(Si,Sq) độ tƣơng đồng ngữ nghĩa i với câu truy vấn Q o Wk,i độ quan trọng từ thứ k câu i o Wk,q độ quan trọng từ thứ k câu truy vấn Q o n tổng số từ tập từ chung văn câu truy vấn 2.2.2 Tính độ tƣơng đồng vị trí từ câu văn với câu truy vấn Mục tiêu việc tính độ tƣơng đồng vị trí từ từ câu ta đƣa đƣợc vector thứ tự từ cho câu Ví dụ ta xét hai câu i Q sau: i: Hùng vừa đẩy Lan ngã xuống sân Trang 42 Q: Lan vừa đẩy Hùng ngã xuống sân Tập từ chung T={Hùng, vừa, đẩy, Lan, ngã, xuống, sân} Nếu xét đến độ tƣơng đồng ngữ nghĩa câu giống hồn tồn Tuy nhiên thực tế lại khác, phân tích thấy câu khơng hồn tồn giống Vì vậy, để tính đƣợc độ tƣơng đồng câu cách chặt chẽ xác cần phải tính đến vị trí từ câu Cách ƣớc tính độ tƣơng đồng vị trí từ câu nhƣ sau: Nếu nhƣ từ tập từ chung mà có câu từ có vị trí với từ câu Ngƣợc lại, nhƣ từ tập từ chung không giống với từ câu vị trí Gọi r vector vị trí từ câu Với câu i Q ta có vector r i rq tƣơng ứng nhƣ sau: ri ={1 } rq ={4 } Công thức để tính độ tƣơng đồng vị trí từ câu nhƣ sau [14]: (8) Trong đó: o Sr độ tƣơng đồng vị trí từ hai câu i Q o rp,i giá trị vị trí thứ p vector r i o rp,q giá trị vị trí thứ p vector rq o t tổng số từ tập từ chung hai câu Nhƣ vậy, giá trị Sr nhỏ khoảng cách hai vector vị trí từ lớn Với ví dụ ta tính đƣợc độ tƣơng đồng vị trí từ câu nhƣ sau: Trang 43 Sr =1- = 1Từ kết trả ta thấy độ tƣơng đồng vị trí từ câu cho lớn 2.2.3 Tính trọng số cho toàn câu: Độ tƣơng đồng ngữ nghĩa đại diện cho độ tƣơng tự mặt từ vựng Mặt khác, độ tƣơng đồng vị trí từ cung cấp thông tin mối quan hệ từ: Những từ xuất câu từ đứng trƣớc sau từ khác Thông tin ngữ nghĩa cú pháp (vị trí từ) đóng vai trò quan trọng việc truyền đạt câu Nhƣ vậy, độ tƣơng đồng cho toàn câu (trọng số câu) đƣợc định nghĩa kết hợp độ tƣơng đồng ngữ nghĩa độ tƣơng đồng vị trí từ hai câu [14] Nhƣ vậy, với tốn tóm tắt văn hƣớng truy vấn việc tính trọng số câu tính mức độ quan trọng câu văn so với câu truy vấn Gọi Si vector ngữ nghĩa câu thứ i văn D Sq vector ngữ nghĩa câu truy vấn Q, ri vector vị trí từ câu i, rq vector vị trí từ câu truy vấn Q Trọng số câu thứ i văn so với câu truy vấn Q đƣợc tính theo cơng thức [14]: (9) Từ công thức (7), (8) (9) ta thu đƣợc cơng thức sau: (10) Trong đó: o S(Si, Sq) trọng số câu thứ i o Wk,i độ quan trọng từ thứ k câu i Trang 44 o Wk,q độ quan trọng từ thứ k câu truy vấn Q o n tổng số từ tập từ chung văn câu truy vấn o rp,i giá trị vị trí thứ p vector r i o rp,q giá trị vị trí thứ p vector rq o t tổng số từ tập từ chung câu truy vấn câu thứ i văn Với δ ≤ định việc đóng góp tƣơng đối mặt ngữ nghĩa thứ tự từ tới tồn câu Vì cú pháp (vị trí từ) đóng vai trị phụ cho việc xử lý ngữ nghĩa văn [10] nên δ phải có giá trị lớn 0.5 tức δ (0.5,1] Theo kinh nghiệm thu đƣợc thông qua thử nghiệm cặp câu cho thấy δ = 0.85 thƣờng cho kết xác [13] Ví dụ: Cho câu truy vấn Q câu văn lần lƣợt nhƣ sau: Q: Mạnh vừa đẩy Huy ngã xuống sân 1: Hôm lên Sapa chơi 2: Huy vừa đẩy Mạnh ngã xuống sân 3: Tùng vừa đẩy Hoa ngã xuống sân 4: Mạnh vừa đẩy Huy ngã xuống sân Sau tính tốn trọng số câu văn so với câu truy vấn theo công thức (10), ta thu đƣợc bảng kết sau: Nội dung câu STT S(Si,Sq) Hôm lên Hà Nội chơi Huy vừa đẩy Mạnh ngã xuống 0.977514049330124 sân Tùng vừa đẩy Hoa ngã xuống sân 0.271163190721906 Mạnh vừa đẩy Huy ngã xuống sân Trang 45 Bảng 3: Ví dụ tính trọng số cho tồn câu 2.3 Trích rút, tạo văn tóm tắt Sau tính đƣợc trọng số câu văn so với câu truy vấn, vào kết tính tốn S(Si,Sq) tỷ lệ tóm tắt X đƣợc xác định từ trƣớc hồn tồn chọn câu thỏa mãn để tạo thành văn tóm tắt theo trật tự câu đƣợc trích xuất từ văn gốc cách xếp theo thứ tự giảm dần giá trị trọng số câu câu văn so với câu truy vấn 2.4 Tổng kết chƣơng Từ hƣớng giải đƣợc đề xuất chƣơng 1, chƣơng trình bày kỹ thuật cụ thể để giải đƣợc toán đặt ra: Tiền xử lý văn tiếng Việt (tách câu, tách từ, loại bỏ từ dừng, xử lý từ đồng nghĩa, ), tính trọng số câu (tính độ tƣơng đồng câu văn câu truy vấn, độ tƣơng đồng vị trí từ câu văn câu truy vấn,…), trích rút, tạo văn tóm tắt Trong chƣơng luận văn trình bày bƣớc cài đặt thử nghiệm chƣơng trình Tóm tắt văn tiếng Việt hướng truy vấn Trang 46 CHƢƠNG III: CÀI ĐẶT VÀ THỬ NGHIỆM CHƢƠNG TRÌNH 3.1 Mô tả sơ lƣợc hệ thống Căn vào kết nghiên cứu sở lý thuyết để tốn tóm tắt văn tiếng Việt hƣớng truy vấn chƣơng 2, hệ thống “Tóm tắt văn tiếng Việt hướng truy vấn” đƣợc xây dựng đáp ứng đƣợc yêu cầu mà toán đặt 3.1.1 Các bước triển khai chương trình Bước 1: Tiền xử lý văn tiếng Việt: - Tại bƣớc tiến hành tách câu văn việc sử dụng công cụ tách câu vnSentdetector đƣợc cung cấp miễn phí nhóm tác giả Lê Hồng Phƣơng Hồ Tƣờng Vinh, câu tách xong đƣợc để dịng đề tiện cho q trình tách từ sau - Sau tách câu sử dụng chƣơng trình tách từ VnTagger tác giả Lê Hồng Phƣơng để tách nội dung văn cần tóm tắt câu truy vấn thành đơn vị từ - Từ danh sách câu, từ đƣợc tách ta tiến hành loại bỏ từ dừng thông qua từ điển từ dừng Các từ dừng đƣợc sử dụng chƣơng trình đƣợc lấy từ trang http://tratu.soha.vn - - Đến thời điểm có đƣợc danh sách câu với việc loại bỏ từ dừng câu truy vấn Để phục vụ cho bƣớc ta tiến hành vector hóa câu văn Mỗi câu văn nhƣ câu truy vấn đƣợc biểu diễn dƣới dạng vector Mỗi vector có số chiều số tập từ chung văn câu truy vấn, vị trí mà từ câu khơng xuất danh sách tập từ chung giá trị 0, cịn lại đƣợc tính theo cơng thức (6) nhƣ nêu Bước 2: Tính trọng số câu: Dựa vào kết vector hóa câu văn câu truy vấn, ta tiến hành tính trọng số câu qua bƣớc sau: Trang 47 - Tính độ tƣơng đồng câu văn với câu truy vấn - Tính độ tƣơng đồng vị trí từ câu văn với câu truy vấn - Tính trọng số cho tồn câu Bước 3: Trích rút, tạo văn tóm tắt: Sau tính đƣợc trọng số cho tồn câu, vào kết tính tốn S(Si,Sq) tỷ lệ tóm tắt X đƣợc xác định từ trƣớc hồn tồn chọn câu thỏa mãn để tạo thành văn tóm tắt đƣợc trích xuất từ văn gốc thỏa mãn điều kiện chƣơng trình 3.1.2 Giao diện chương trình Hình 7: Giao diện chương trình 3.1.3 Cách sử dụng chương trình Bƣớc 1: Chọn nội dung văn cần tóm tắt cách nhấn vào nút chọn đường dẫn sau tìm đến file dạng văn bản, copy văn dán trực tiếp vào vùng chứa nội dung văn gốc nhƣ hình Bƣớc 2: Nhập câu truy vấn: Nvidia gì? Trang 48 Bƣớc 3: Chọn tỷ lệ tóm tắt : 10%, 20%,…… Bƣớc 4: Nhấn nút xử lý để bắt đầu tóm tắt Sau tóm tắt xong kết tóm đƣợc lƣu lại thƣ mục Source code chƣơng trình theo định dạng : “DateTime_FileName.txt” 3.2 Đánh giá kết 3.2.1 Tập liệu thử nghiệm ` Văn đầu vào: Mới đây, NVIDIA - hãng sản xuất chip card đồ họa tiếng giới vơ tình xác nhận tồn máy tính bảng Nexus hệ gia công HTC mắt Q3 năm Ngoài ra, nhiều khả máy sử dụng vi xử lý NVIDIA sản xuất - với mạnh tảng đồ họa tốt cho game thủ mobile Được biết, nguồn tin rò rỉ cho HTC Nexus sở hữu hình inch, chạy vi xử lý Tegra K1, chưa rõ 32 bit hay 64 bit Tuy nhiên, điều hứa mang tới nhiều trải nghiệm lạ cho người dùng sử dụng Nexus với chipset hiệu tốt, đồ họa đẹp sau thời gian im lặng tiếng lâu NVIDIA Trước đó, có tin đồn cho thiết bị tích hợp hình 8,9 inch, độ phân giải 2.560 x 1.440 pixel, vi xử lý 64-bit Tegra chạy tảng hệ điều hành Android 5.0 với mã tên Lemon Meringue Pie Đặc biệt, tablet Nexus cho đạt số điểm 45.923, lộ diện cách không lâu test trình Benchmark - cao so với thiết bị  Tỷ lệ % trích xuất: chọn 10%  Câu truy vấn: Nvidia gì?  Kết tính tốn chƣơng trình - Số từ tách được: 239 từ - Số câu tách được: câu - Giá trị trọng số câu tính tốn: - Trang 49 Sắp xếp theo trọng số câu STT Câu S(Si,Sq) [1] 2.94090909090909 [1] [2] 1.37727272727274 [3] [3] 1.36818181818182 [4] [4] 0.950000000000007 [5] [5] 1.45 [2] [6] 0.445833333333333 [6] Bảng 4: Kết tính trọng số câu - Số câu văn tóm tắt thu được: STT Sắp xếp theo trọng số câu S(Si,Sq) 2.94090909090909 [1] Bảng 5: Kết trả sau tóm tắt  Kết tóm tắt hệ thống: - Hiển thị kết theo thứ tự câu văn bản: [1] Mới đây, NVIDIA - hãng sản xuất chip card đồ họa tiếng giới vơ tình xác nhận tồn máy tính bảng Nexus hệ gia công HTC mắt Q3 năm 1.2 Tổng kết chƣơng Chƣơng trình bày bƣớc xây dựng chƣơng trình mơ tả chƣơng trình sau hệ thống hồn thiện Việc đánh giá độ xác thuật tốn tóm tắt tiếng Việt gặp nhiều khó khăn hạn chế nguồn liệu mẫu chuẩn Chƣa có đơn vị xây dựng tóm tắt mẫu với số lƣợng lớn công bố rộng rãi, đặc biệt tóm tắt hƣớng truy vấn dành cho tiếng Việt Do đó, có tiêu chí để đánh giá cho hệ thống tóm tắt hƣớng truy vấn nhƣng khơng thể áp dụng khơng có hệ thống tƣơng tự để đối sánh nên báo cáo Trang 50 chúng tơi trình bày việc đánh giá hiệu suất chƣơng trình việc đƣa tập liệu thử nghiệm kết thử nghiệm Trang 51 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận Có thể thấy tốn TTVB tốn có giá trị ứng dụng lớn Với phát triển kho liệu khổng lồ kỹ thuật nâng cao khả tính tốn máy móc, ứng dụng TTVB đƣợc thực ngày nhiều theo nhu cầu ngƣời Các kỹ thuật TTVB nói chung TTVB tiếng Việt nói riêng cịn đƣợc nghiên cứu phát triển thêm khoảng thời gian tới Đề tài nghiên cứu đƣa giải đƣợc số vấn đề sau: - Nghiên cứu lý thuyết tổng quan TTVB, phƣơng pháp xu hƣớng giải tốn - Nghiên cứu tóm tắt văn hƣớng truy vấn - Phân tích kỹ thuật áp dụng cho tốn TTVB tiếng Việt hƣớng truy vấn - Xây dựng hệ thống TTVB tiếng Việt hƣớng truy vấn có sử dụng đến kỹ thuật trình bày - Thơng qua thử nghiệm đánh giá cho thấy hệ thống đạt đƣợc kết tƣơng đối tốt số liệu thử nghiệm, từ hứa hẹn triển khai đƣợc thực tế Khuyến nghị: Hệ thống Tóm tắt văn tiếng Việt theo định hướng truy vấn sau hoàn thiện đƣa vào hoạt động thực tế hỗ trợ nhiều trình tìm kiếm chắt lọc thơng tin Tuy nhiên để hệ thống hoạt động tốt thực tế cần phải có hệ thống kiểm thử đánh giá tự động Hơn nữa, để độ xác cao cần phải phân tích xử lý kỹ cú pháp, ngữ nghĩa tiếng Việt từ điển đồng nghĩa cần phải hoàn chỉnh đầy đủ Hƣớng phát triển hệ thống tƣơng lai: Trang 52 - Xử lý chặt chẽ cú pháp, ngữ nghĩa tiếng Việt - Hoàn thiện từ điển đồng nghĩa để kết tóm tắt có độ xác cao - Thực thử nghiệm với tập liệu lớn hơn, nhiều lĩnh vực hơn, để có nhìn xác hệ thống - Triển khai hệ thống ứng dụng thực tế để đánh giá khả ứng dụng thực tiễn hệ thống Trang 53 TÀI LIỆU THAM KHẢO [1] Nguyễn Việt Cƣờng, (2007), Xây dựng mục lục cho văn bản, Luận văn thạc sĩ, pp 23 [2] Phạm Thị Thu Uyên, Hoàng Minh Hiền, Trần Mai Vũ, Hà Quang Thụy, (2008), Độ đo tương đồng ngữ nghĩa hai câu ứng dụng tóm tắt văn tiếng Việt, Hội thảo Quốc Gia Một số vấn đề chọn lọc Công nghệ thông tin truyền thông lần thứ XI, Huế [3] AI Berger and Mittal, (2000), A System For Summarization Web Page, InProc ACM SIGIR, pp 144-151 [4] Smaranda Mure Sean, (2001), Combining Linguistic and Machine Learning Teachniques For Email Summazization, Columbia University [5] G Salton and C Buckley, (1997), Term-weighting Approaches in Automatic Text Retrieval, Information Processing and Management 24, pp 513-523, 1988 Reprinted in: Sparck Jones K and Willet P (eds) Readings in Information Retrieval, Morgan Kaufmann, pp 323-328 [6] Masrah Azrifah Azmi Murad, Trevor Martinm, Similary-Based Estimation for Document Summarization using Fuzzy Sets, International Journal of Computer Security and Security, Volume (1): Issue(4) [7] P Wiemer-Hastings,(2000), Adding Syntactic Information to LSA, Proc 22nd Ann Conf Cognitive Science Soc.,pp 989-993 [8] Juan Rames, (2003), Using TF-IDF to Determine Word ReleVance in Document Queries, key:Citeulike:7616995 [9] J Larocca Neto, AD Santos, CAA Kaestner, and AA Freitas, (2000), Document Clustering and Text Summarization In N Mackin, editor, Proc 4th International Conference Practical Applications of Knowledge Discovery and Data Mining (PADD-2000) Trang 54 [10] Yuhua Li, David McLean, Zuhair Bandar, James O'Shea, Keeley A Crockett (2006) Sentence Similarity Based on Semantic Nets and Corpus Statistics IEEE Trans Knowl Data Eng.18(8): 1138-1150 Các công cụ sử dụng [1] Lê Hồng Phƣơng, vnTagger [2] Lê Hồng Phƣơng, Hồ Vĩnh Tƣờng, vnSentdetector Trang 55 PHỤ LỤC Danh mục công thức sử dụng báo cáo Ý nghĩa STT Cơng thức Trang (1) Tính độ bao phủ 22 (2) Tính độ xác 23 (3) Tính trọng số từ văn TF 38 (4) Tính trọng số từ văn IDF 39 (5) Tính trọng số từ văn TF.IDF 39 (6) Tính trọng số từ câu TF.ISF 40 (7) Tính độ tƣơng đồng câu văn với 42 câu truy vấn (8) Tính độ tƣơng đồng vị trí từ câu văn 43 với câu truy vấn (9) Tính trọng số cho tồn câu 44 10 (10) Cơng thức tổng hợp để tính trọng số cho toàn 44 câu Trang 56 ... quan tóm tắt vản tiếng việt, tóm tắt văn tiếng việt hướng truy vấn: Chương 2: Trình bày hướng tiếp cận tóm tắt văn tiếng Việt hướng truy vấn, kỹ thuật giải tốn tóm tắt văn tiếng Việt hướng truy vấn. .. QUAN VỀ TÓM TẮT VĂN BẢN TIẾNG VIỆT, TÓM TẮT VĂN BẢN TIẾNG VIỆT HƢỚNG TRUY VẤN Tổng quan tóm tắt văn tiếng việt: Tóm tắt văn trình rút thơng tin quan trọng từ hay nhiều nguồn văn để tạo văn gọn... tóm tắt văn hƣớng truy vấn - Nghiên cứu cách tiếp cận tóm tắt văn tiếng việt theo định hƣớng Truy vấn - Nghiên cứu đặc trƣng Tiếng Việt - Đề xuất giải pháp tóm tắt văn tiếng việt hƣớng Truy vấn

Ngày đăng: 17/02/2022, 19:32

Xem thêm:

TỪ KHÓA LIÊN QUAN

Mục lục

    TÀI LIỆU THAM KHẢO

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w