Tóm tắt văn bản hướng truy vấn Tóm tắt văn bản hướng truy vấn Tóm tắt văn bản hướng truy vấn luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
NGUYỄN THỊ THANH HUỆ BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - Nguyễn Thị Thanh Huệ CƠNG NGHỆ THƠNG TIN TĨM TẮT VĂN BẢN HƯỚNG TRUY VẤN LUẬN VĂN THẠC SĨ KỸ THUẬT NGÀNH: CÔNG NGHỆ THÔNG TIN 2011 – 2013 Hà Nội – Năm 2013 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Nguyễn Thị Thanh Huệ TÓM TẮT VĂN BẢN HƯỚNG TRUY VẤN Chuyên ngành : Công nghệ thông tin LUẬN VĂN THẠC SĨ KỸ THUẬT NGÀNH: CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC : PGS.TS Lê Thanh Hương Hà Nội – Năm 2013 LỜI CAM ĐOAN Tơi xin cam đoan luận văn hồn thành sở nghiên cứu, tổng hợp phát triển nghiên cứu tóm tắt văn nước giới thực Luận văn mới, đề xuất luận văn tơi thực hiện, qua q trình nghiên cứu khơng chép nguyên từ nguồn tài liệu khác Trang MỤC LỤC LỜI CAM ĐOAN DANH MỤC CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU Lý chọn đề tài Mục đích nghiên cứu Đối tượng, phạm vi nghiên cứu Nội dung CHƯƠNG I: TỔNG QUAN VỀ BÀI TỐN TĨM TẮT VĂN BẢN TỰ ĐỘNG 11 1.1 Bài tốn tóm tắt văn tự động 11 1.1.1 Định nghĩa 11 1.1.2 Tóm tắt văn tự động 11 1.2 Phân loại tốn tóm tắt văn 14 1.3 Các yếu tố ảnh hưởng đến q trình tóm tắt văn 17 1.4 Đặc điểm chung văn tóm tắt 18 1.5 Các tiêu chí đánh giá hệ thống tóm tắt văn 19 1.6 Tổng kết chương 19 CHƯƠNG II: TÓM TẮT VĂN BẢN TIẾNG VIỆT HƯỚNG TRUY VẤN 20 2.1 Tóm tắt văn hướng truy vấn .20 2.2 Ứng dụng tốn tóm tắt văn hướng truy vấn 20 2.3 Những thách thức gặp phải tốn tóm tắt văn tiếng Việt hướng truy vấn 21 Trang 2.4 Nghiên cứu hướng giải tốn tóm tắt văn tiếng Việt hướng truy vấn 23 2.3.1 Phát biểu toán .23 2.3.2 Đề xuất hướng giải 23 2.3.3 Mơ hình tóm tắt văn tiếng Việt hướng truy vấn 25 2.5 Tóm tắt chương .25 CHƯƠNG III: CÁC KỸ THUẬT GIẢI QUYẾT BÀI TOÁN TÓM TẮT VĂN BẢN TIẾNG VIỆT HƯỚNG TRUY VẤN 26 3.1 Tiền xử lý văn 26 3.1.1 Tách câu 26 3.1.2 Tách từ .27 3.1.3 Loại bỏ từ dừng 29 3.1.4 Xử lý từ đồng nghĩa .30 3.1.5 Biểu diễn văn theo mơ hình khơng gian vector (Vector Space Model – VSM) 31 3.2 Tính trọng số câu 35 3.2.1 Tính trọng số từ 35 3.2.2 Tính trọng số vị trí từ 37 3.2.3 Tính độ tương đồng câu .38 3.2.4 Tính trọng số cho tồn câu 38 3.3 Trích rút, tạo văn tóm tắt 39 3.4 Tổng kết chương 40 CHƯƠNG IV: CÀI ĐẶT VÀ THỬ NGHIỆM CHƯƠNG TRÌNH 41 4.1 Mô tả sơ lược hệ thống .41 Trang 4.1.1 Các bước triển khai chương trình .41 4.1.2 Mơ hình xử lý tốn Tóm tắt văn tiếng Việt hướng truy vấn 42 4.1.3 Giao diện chương trình .44 4.1.4 Cách sử dụng chương trình 44 4.2 Đánh giá kết .45 4.2.1 Tập liệu thử nghiệm 45 4.2.2 Kết thử nghiệm 47 KẾT LUẬN VÀ KIẾN NGHỊ 48 Kết luận 48 Khuyến nghị 48 TÀI LIỆU THAM KHẢO 50 Trang DANH MỤC CÁC CHỮ VIẾT TẮT STT Từ viết tắt Ý nghĩa CNTT Công nghệ thông tin TTVB Tóm tắt văn TF TF*IDF VSM Term Frequency – Tần suất khái niệm Term Frequency* Inverse Document Frequency Vector Space Model Trang DANH MỤC CÁC BẢNG STT Số thứ tự hình Ý nghĩa Bảng Vấn đề tách từ tiếng Việt Bảng Các nhãn từ loại Bảng Một số từ dừng tiếng Việt Trang DANH MỤC CÁC HÌNH VẼ STT Số thứ tự hình Hình Hình Hình Hình Ý nghĩa Mơ hình chung hệ thống tóm tắt Mơ hình tóm tắt với kiểu tóm tắt tỉ lệ tóm tắt khác Mơ hình tóm tắt văn tiếng Việt hướng truy vấn Biểu diễn thành phần văn mơ hình khơng gian vector Giao diện chương trình Hình Tóm tắt văn tiếng Việt hướng truy vấn Hình Mơ hình xử lý tốn Tóm tắt văn tiếng việt hương truy vấn Trang MỞ ĐẦU Lý chọn đề tài Trong năm gần đây, thấy phát triển bùng nổ internet lượng thông tin sinh liên tục ngày với khối lượng lớn Với việc gia tăng theo hàm mũ lượng thơng tin người gặp khó khăn việc tiếp cận thơng tin cần phải có phương pháp để giải vấn đề Tóm tắt văn tự động đề cập đến cách tiếp cận giúp người có lượng thơng tin nhiều lượng thời gian có hạn.Tuy nhiên, vấn đề đặt để tìm thơng tin mà quan tâm lượng thông tin lớn Tóm tắt văn hướng truy vấn giúp làm điều Tóm tắt văn hướng truy vấn giúp tóm tắt nội dung nội dung từ nguồn thông tin theo câu truy vấn người sử dụng trình bày nội dung quan trọng theo khn dạng súc tích dễ hiểu Tóm tắt văn lĩnh vực quan trọng xử lý văn thu hút nhiều nhà nghiên cứu quan tâm Ứng dụng tóm tắt văn nhiều lĩnh vực khác sinh tiêu đề tự động ( headline generation ), rút gọn thông tin sử dụng thiết bị cầm tay PDA, điện thoại di động,… Đến giới có nhiều cơng trình nghiên cứu tóm tắt văn hướng truy vấn hệ thống tóm tắt tỏ hiệu quả, nhiên nghiên cứu tập trung ngôn ngữ tiếng Anh, Pháp, Trung, Nhật, Cịn tiếng Việt đặc trưng ngơn ngữ khơng giống với ngơn ngữ khác, ví dụ tiếng Anh ngôn ngữ đa âm tiết, tiếng Việt ngơn ngữ đơn âm tiết, việc xác định từ tiếng Việt không dựa dấu cách Bên cạnh tiếng Việt cịn tồn nhiều âm ngữ Hán Việt, nhiều phải giải nghĩa từ Hơn nữa, nghiên cứu tiếng Việt máy tính giai đoạn sơ khai, kho ngữ liệu dùng cho tóm tắt văn tiếng Việt cịn ít, công cụ hỗ trợ cho việc tách từ, tách câu, thiếu hiệu chưa cao Các yếu tố làm cho việc xử lý ngôn ngữ tự nhiên tiếng Việt trở Trang 3.2.2 Tính trọng số vị trí từ Việc tính trọng số vị trí từ việc ta tính độ tương đồng vị trí từ Mục tiêu phần từ câu, đưa vector thứ tự từ cho câu Ví dụ ta xét hai câu Si Sj sau: Si: Hùng vừa đẩy Lan ngã xuống sân Sj: Lan vừa đẩy Hùng ngã xuống sân Tập từ chung T={Hùng, vừa, đẩy, Lan, ngã, xuống, sân} Nếu xét đến độ tương đồng ngữ nghĩa câu giống hoàn toàn Tuy nhiên thực tế lại khác, phân tích thấy câu mang ý nghĩa hoàn toàn trái ngược Vì vậy, để tính độ tương đồng câu cách chặt chẽ xác cần phải tính đến thứ tự từ câu Cách ước tính độ tương đồng thứ tự từ câu sau: Nếu từ tập từ chung mà có câu từ có thứ tự với từ câu Ngược lại, từ tập từ chung không giống với từ câu thứ tự Gọi r vector thứ tự từ câu Với câu Si Sj ta có vector ri rj tương ứng sau: ri={1 } rj={4 } Cơng thức để tính độ tương đồng thứ tự từ câu sau: (3) Trong đó: o Sr độ tương đồng vị trí từ hai câu Si Sj o ri,k giá trị vị trí thứ k vector ri Trang 37 o rj,k giá trị vị trí thứ k vector rj o t tổng số từ tập từ chung Như vậy, giá trị Sr nhỏ độ tương đồng vị trí từ lớn 3.2.3 Tính độ tương đồng câu Với không gian biểu diễn tài liệu chọn không gian vector trọng số TF, độ đo tương đồng chọn Cosine góc hai vector tương ứng hai câu Si Sk Vector biểu diễn hai câu có dạng: Si= wi,k độ quan trọng từ thứ k câu i Sj= wj,k độ quan trọng từ thứ k câu j Sau tính trọng số từ, ta đưa vector ngữ nghĩa Si cho câu Gọi Si , Sj vector ngữ nghĩa câu thứ i câu thứ j văn D Độ tương đồng ngữ nghĩa hai câu tính theo cơng thức sau: (4) Trong đó: o Sim(Si,Sj) độ tương đồng ngữ nghĩa câu thứ i câu thứ j văn o Wi,k độ quan trọng từ thứ k câu i o Wj,k độ quan trọng từ thứ k câu j o n số thuật ngữ văn 3.2.4 Tính trọng số cho tồn câu Trọng số cho toàn câu định nghĩa kết hợp độ tương đồng câu trọng số vị trí từ câu Trang 38 Như vậy, với toán tóm tắt văn hướng truy vấn việc tính trọng số câu tính mức độ quan trọng câu văn so với câu truy vấn Gọi Si vector ngữ nghĩa câu thứ i văn D Sq vector ngữ nghĩa câu truy vấn Q Trọng số câu thứ i so với câu truy vấn Q tính theo công thức: (5) Với 0≤ δ ≤ 1, δ định việc đóng góp ngữ nghĩa thứ tự từ tới tồn câu Trong đó: o S(Si, Sq) trọng số câu thứ i văn o Wi,k độ quan trọng từ thứ k câu thứ i văn o Wq,k độ quan trọng từ thứ k câu truy vấn Q o n số thuật ngữ văn o ri,p giá trị vị trí thứ p vector ri o rq,p giá trị vị trí thứ p vector rq o t tổng số từ tập từ chung 3.3 Trích rút, tạo văn tóm tắt Sau tính trọng số câu văn so với câu truy vấn, vào kết tính tốn S(Si,Sq) tỷ lệ tóm tắt X xác định từ trước hồn tồn chọn câu thỏa mãn để tạo thành văn tóm tắt theo trật tự câu trích xuất từ văn gốc Trang 39 3.4 Tổng kết chương Từ hướng giải đề xuất chương 2, chương trình bày kỹ thuật cụ thể để giải toán đặt ra: Tiền xử lý văn tiếng Việt (tách câu, tách từ, loại bỏ từ dừng, xử lý từ đồng nghĩa, ), tính trọng số câu (tính trọng số từ, trọng số vị trí từ,…), trích rút, tạo văn tóm tắt Trong chương luận văn trình bày bước cài đặt thử nghiệm chương trình Tóm tắt văn tiếng Việt hướng truy vấn Trang 40 CHƯƠNG IV: CÀI ĐẶT VÀ THỬ NGHIỆM CHƯƠNG TRÌNH 4.1 Mô tả sơ lược hệ thống Căn vào kết nghiên cứu sở lý thuyết để tốn tóm tắt văn tiếng Việt hướng truy vấn chương 2, hệ thống “Tóm tắt văn tiếng Việt hướng truy vấn” xây dựng đáp ứng yêu cầu mà toán đặt 4.1.1 Các bước triển khai chương trình Bước 1: Tiền xử lý văn tiếng Việt: - Tại bước tiến hành tách câu văn bản, câu tách xong để dòng đề tiện cho trình tách từ sau - Sau tách câu chúng tơi sử dụng chương trình tách từ VnTagger nhóm tác giả Lê Hồng Phương để tách nội dung văn cần tóm tắt câu truy vấn thành đơn vị từ - Từ danh sách câu, từ tách ta tiến hành loại bỏ từ dừng thông qua từ điển từ dừng Các từ dừng sử dụng chương trình lấy từ trang http://tratu.soha.vn - Tiếp theo chúng sử dụng từ điển đồng nghĩa để tìm từ văn đầu vào đồng nghĩa với từ câu truy vấn thực việc thay từ từ câu truy vấn Và sau bước thu danh sách từ đồng nhất, điều giúp cho việc tính tốn độ tương đồng câu văn với câu truy vấn trở nên dễ dàng xác Các từ đồng nghĩa sử dụng chương trình lấy từ trang http://tratu.soha.vn - Đến thời điểm có danh sách câu với việc loại bỏ từ dừng đồng hóa từ đồng nghĩa từ văn với từ câu truy vấn Để phục vụ cho bước ta tiến hành vector hóa câu văn Trang 41 Mỗi câu văn biểu diễn dạng vector Mỗi vector có số chiều số thuật ngữ chung, vị trí mà từ câu khơng xuất danh sách thuật ngữ chung 0, cịn lại tính theo cơng thức nêu Bước 2: Tính trọng số câu: Dựa vào kết vector hóa câu văn ta tiến hành tính trọng số câu qua bước sau: - Tính trọng số từ - Tính trọng số vị trí từ - Tính độ tương đồng câu - Tính trọng số cho tồn câu Bước 3: Trích rút, tạo văn tóm tắt: Sau tính độ tương đồng câu văn với câu truy vấn, vào kết tính tốn độ tương đồng câu văn với câu truy vấn S(Si,Sq) tỷ lệ tóm tắt X xác định từ trước hồn tồn chọn câu thỏa mãn để tạo thành văn tóm tắt trích xuất từ văn gốc thỏa mãn điều kiện chương trình 4.1.2 Mơ hình xử lý tốn Tóm tắt văn tiếng Việt hướng truy vấn Trang 42 + Văn cần truy vấn + Câu truy vấn Kết tóm tắt Tỷ lệ % cần trích xuất Tách câu VnTagger Tách từ + Loại bỏ từ dừng + Xử lý từ đồng nghĩa Vector hóa câu văn + Danh sách từ dừng + Danh sách từ đồng nghĩa + Tính trọng số từ + Tính trọng số vị trí từ + Tính trọng số câu Sắp xếp kết theo thứ tự độ tương đồng câu truy vấn câu văn Tính độ tương đồng câu văn với câu truy vấn Hình 5: Mơ hình xử lý tốn tóm tắt văn tiếng Việt hướng câu truy vấn Trang 43 4.1.3 Giao diện chương trình Hình 6: Giao diện chương trình 4.1.4 Cách sử dụng chương trình Bước 1: Chọn nội dung văn cần tóm tắt cách nhấn vào nút chọn đường dẫn sau tìm đến file dạng văn bản, copy văn dán trực tiếp vào vùng chứa nội dung văn gốc hình Bước 2: Nhập câu truy vấn Bước 3: Chọn tỷ lệ tóm tắt : 10%, 20%,…… Bước 4: Chọn kiểu kết tóm tắt: Trang 44 + Kết hiển thị theo thứ tự câu văn + Kết hiển thị theo mức tương đồng với câu truy vấn Bước 5: Nhấn nút Thực để bắt đầu tóm tắt Sau tóm tắt xong kết tóm hiển thị vùng chứa kết tóm tắt Có thể lưu lại kết cách nhấn vào nút Lưu kết tóm tắt 4.2 Đánh giá kết 4.2.1 Tập liệu thử nghiệm Việc đánh giá kết văn tóm tắt, đặc biệt tóm tắt hướng truy vấn, tài nguyên xử lý ngơn ngữ tự nhiên tiếng Việt khơng có nhiều nên luận văn tiến hành việc đánh giá thông qua liệu cụ thể: Văn đầu vào: Ngày vậy, sau học, em T, học sinh (HS) Trường tiểu học Lương Thế Vinh (Gò Vấp, TPHCM) lại bác xe ơm mà gia đình hợp đồng hàng tháng đón chở thẳng đến nơi học thêm sau lót qua loa Vào thứ chẵn 2, 4, 6, em T học nhà giáo chủ nhiệm với mức phí 300.000 đồng/tháng Còn thứ lẻ, T tiếp tục theo học nhà giáo viên (GV) trường khác dạy giỏi có tiếng mà bố mẹ người quen giới thiệu với mức phí gần gấp rưỡi số tiền Mẹ cháu T khơng ngại thừa nhận, gia đình muốn đầu tư việc học cho cháu từ sớm xét thấy việc học trường chưa đủ nên họ muốn thêm bên để nâng cao kiến thức Nhất năm cuối tiểu học, họ muốn cháu thật vững vàng để sau thi đậu vào Trường Chuyên Trần Đại Nghĩa Việc học thêm giáo chủ nhiệm gia đình hồn tồn tự nguyện họ muốn học thêm thầy ngồi trường Đây khơng phải trường “cá biệt”, khơng HS khác hàng ngày “gánh” lịch học khủng khiếp Ngoài học khóa trường, nhiều phụ huynh (PH) tìm cho nhiều chỗ để học thêm tìm đến học thầy có tiếng trường ngồi trường, trung tâm bồi dưỡng văn hóa, hay thuê gia sư nhà Em Ng.M.N, HS trường THCS Q1, TPHCM cho hay, học trường em học thêm liên tục Trường Bồi dưỡng Lý Tự Trọng 218 Vào đợt cao điểm thi cuối kỳ, cuối năm bố mẹ mời gia sư đến dạy cho khả tự học khơng tốt, cần có người kèm cặp thêm Một giáo viên Trường THCS Sông Đà (Q Phú Nhuận) cho hay, tỷ lệ HS học thêm bên ngồi nhà trường đơng, có lớp có đến 50% số em theo học Trang 45 lớp học thêm không GV phụ trách môn giảng dạy Nhu cầu học thêm đông đến mức nhiều GV, GV giỏi không nhận HS nhận HS từ lớp khác, trường khác Phụ huynh đặt nặng kỳ vọng vào Lâu nay, bàn đến chuyện dạy thêm học thêm làm học sinh khơng có thời gian để chơi, người hay đề cập đến khía cạnh do… GV “bắt ép” Điều có so với nhu cầu cho học thêm PH nguyên nhân chiếm phần nhỏ Có thể thấy rõ việc trung tâm bồi dưỡng văn hóa, luyện thi… ln đơng người học, đến mùa cao điểm phụ huynh nườm nượp đưa đón học thêm Hay đến kỳ nghỉ hè, khơng có “ràng buộc” với GV HS thành phố đổ vô đến nơi học thêm xuất phát từ nhu cầu phụ huynh Có nhiều lý để phụ huynh “đẩy” đến lớp học học thêm Phần lớn họ rơi vào bắt buộc chương trình học nặng, không học thêm vượt qua kỳ thi, hay vào trường mong muốn Nhiều người thời gian làm bận bịu, khơng thể trông nên biện pháp yên tâm là đưa đến lớp học thêm Bên cạnh đó, nhiều phụ huynh đặt kỳ vọng lớn vào con, học họ khơng thấy vừa lịng muốn phải học nữa, phải học người khác, phải đạt thành tích nên trẻ phải “quay” vịng xốy học thêm Câu truy vấn: tình trạng học thêm Tỷ lệ % trích xuất: chọn 30% Kết quả: - Chọn theo thứ tự câu văn bản: [1] Vào thứ chẵn , , , em T học nhà cô giáo chủ nhiệm với mức phí 300,000 đồng/tháng [12] Lâu , bàn đến chuyện dạy thêm học thêm làm học sinh khơng có thời gian để chơi , người hay đề cập đến khía cạnh … GV bắt ép [13] Điều có so với nhu cầu cho học thêm PH nguyên nhân chiếm phần nhỏ [16] Có nhiều lý để phụ huynh đẩy đến lớp học học thêm [17] Phần lớn họ rơi vào bắt buộc chương trình học nặng , không học thêm vượt qua kỳ thi , hay vào trường mong muốn Trang 46 [19] Bên cạnh , nhiều phụ huynh đặt kỳ vọng lớn vào , học họ khơng thấy vừa lịng muốn phải học , phải học người khác , phải đạt thành tích nên trẻ phải quay vịng xốy học thêm - Chọn theo mức độ tương đồng với câu truy vấn [13] Điều có so với nhu cầu cho học thêm PH nguyên nhân chiếm phần nhỏ [12] Lâu , bàn đến chuyện dạy thêm học thêm làm học sinh khơng có thời gian để chơi , người hay đề cập đến khía cạnh … GV bắt ép [19] Bên cạnh , nhiều phụ huynh đặt kỳ vọng lớn vào , học họ khơng thấy vừa lịng muốn phải học , phải học người khác , phải đạt thành tích nên trẻ phải quay vịng xoáy học thêm [1] Vào thứ chẵn , , , em T học nhà cô giáo chủ nhiệm với mức phí 300,000 đồng/tháng [17] Phần lớn họ rơi vào bắt buộc chương trình học nặng , không học thêm vượt qua kỳ thi , hay vào trường mong muốn [16] Có nhiều lý để phụ huynh đẩy đến 4.2.2 Kết thử nghiệm Mặc dù chưa xây dựng tập liệu thử nghiệm chuẩn thông qua liệu cụ thể đưa vào hệ thơng tóm tắt cho kết tương đối tốt sát với trình tóm tắt thủ cơng người Từ hứa hẹn triển khai thực tế nhằm giúp người trình tìm kiếm chắt lọc thông tin Trang 47 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận Có thể thấy tốn TTVB tốn có giá trị ứng dụng lớn Với phát triển kho liệu khổng lồ kỹ thuật nâng cao khả tính tốn máy móc, ứng dụng TTVB thực ngày nhiều theo nhu cầu người Các kỹ thuật TTVB nói chung TTVB tiếng Việt nói riêng cịn nghiên cứu phát triển thêm khoảng thời gian tới Đề tài nghiên cứu đưa giải số vấn đề sau: - Nghiên cứu lý thuyết tổng quan TTVB, phương pháp xu hướng giải tốn - Nghiên cứu tóm tắt văn hướng truy vấn - Phân tích kỹ thuật áp dụng cho tốn TTVB tiếng Việt hướng truy vấn - Xây dựng hệ thống TTVB tiếng Việt hướng truy vấn có sử dụng đến kỹ thuật trình bày - Thông qua thử nghiệm đánh giá cho thấy hệ thống đạt kết tương đối tốt số liệu thử nghiệm, từ hứa hẹn triển khai thực tế Khuyến nghị Hệ thống Tóm tắt văn tiếng Việt hướng truy vấn sau hoàn thiện đưa vào hoạt động thực tế hỗ trợ nhiều q trình tìm kiếm chắt lọc thơng tin Tuy nhiên để hệ thống hoạt động tốt thực tế cần phải có hệ thống kiểm thử đánh giá tự động Hơn nữa, để độ xác cao cần phải phân tích xử lý kỹ cú pháp, ngữ nghĩa tiếng Việt từ điển đồng nghĩa cần phải hoàn chỉnh đầy đủ Trang 48 Hướng phát triển hệ thống tương lai: - Xử lý chặt chẽ cú pháp, ngữ nghĩa tiếng Việt - Hoàn thiện từ điển đồng nghĩa để kết tóm tắt có độ xác cao - Thực thử nghiệm với tập liệu lớn hơn, nhiều lĩnh vực hơn, để có nhìn xác hệ thống - Triển khai hệ thống ứng dụng thực tế để đánh giá khả ứng dụng thực tiễn hệ thống Trang 49 TÀI LIỆU THAM KHẢO [1] Đỗ Phúc, Trần Thế Lân, “Phân loại văn tiếng Việt dựa tập thô”, Hội thảo quốc gia CNTT, Đà Nẵng, 2004 [2] Phạm Thị Thu Uyên, Hoàng Minh Hiền, Trần Mai Vũ, Hà Quang Thụy, “Độ đo tương đồng ngữ nghĩa hai câu ứng dụng tóm tắt văn tiếng Việt”, Hội nghị Huế [3] Nguyễn Thị Thu Hà, “Nghiên cứu cải tiến số phương pháp học bán giám sát tóm tắt văn tiếng Việt” , Học viện Kỹ thuật Quân [4] Hà Thành Lê, Huỳnh Quyết Thắng, Lương Chi Mai, “Kết hợp phương pháp chọn lọc câu quan trọng xây dựng ứng dụng tóm tắt văn tiếng Việt”, Một số vấn đề chọn lọc công nghệ thông tin, 2006, pp 413-421 [5] Lương Chi Mai, Hồ Tú Bảo(2006), “Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt”, Tài liệu đề tài KC.01.01.06-10, Viện Công nghệ thông tin, Viện khoa học Công nghệ Việt Nam 2006 [6] Yajie Miao, Chunping Li, “Enhancing Query-Oriented Summarization based on Sentence Wikification”, School of Software Tsinghua University Beijing 100084, China [7] John M Conroy, Judith D Schlesinger, Jade Goldstein Stewart, “Query-Based Multi-Document Summarization” In DUC 05 Conference Proceedings, Boston, USA [8] Yllias Chali, “Query-Biased Text Summarization as Question-Answering Technique”, AAAI Technical Report FS-99-02 [9] Dr Manuel Palomar Sanz, “ Text Summarisation based on Human language Technologies and its Applications”, PhD Thesis, May 2011 [10] Hovy, Eduard, “Text summarization”, In R Mitkov, editor, The Oxford Handbook of Computational Linguistics, Oxford University Press, 1st edition, 2005 [11] Jack G Conrad, Jochen L Leidner, Frank Schilder, Ravi Kondadadi, “Querybased Opinion Summarization for Legal Blog Entries” In Proceedings of the 12th Trang 50 International Conference on Artificial Intelligence and Law (ICAIL 2009), ACM Press, Barcelona, Spain, 2009 [12] John M Conroy, Judith D Schlesinger, Jade Goldstein Stewart CLASSY, “Query-Based Multi-Document Summarization” In DUC 05 Conference Proceedings, Boston, USA, 2005 Các công cụ sử dụng [13] Le, P H vnTagger: http://www.loria.fr/~lehong/tools/vnTagger.php Trang 51 ... tóm tắt văn Chương luận văn trình bày chi tiết tốn tóm tắt văn tiếng Việt hướng truy vấn Trang 19 CHƯƠNG II: TÓM TẮT VĂN BẢN TIẾNG VIỆT HƯỚNG TRUY VẤN 2.1 Tóm tắt văn hướng truy vấn Tóm tắt văn. .. tốn tóm tắt văn hướng truy vấn - Xây dựng ứng dụng tóm tắt văn Tiếng Việt hướng truy vấn Đối tượng, phạm vi nghiên cứu - Nghiên cứu tóm tắt văn tiếng Việt - Đơn văn bản, tóm tắt văn hướng truy vấn. .. cho hệ thống tóm tắt văn Chương 2: Tóm tắt văn tiếng Việt hướng truy vấn: Chương trình bày tốn tóm tắt văn hướng truy vấn ứng dụng thực tiễn Nêu tốn Tóm tắt văn tiếng việt hướng truy vấn, Trang