1. Trang chủ
  2. » Giáo Dục - Đào Tạo

TÓM tắt đa văn bản dựa vào TRÍCH XUẤT câu

65 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 65
Dung lượng 914,14 KB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN MAI VŨ TÓM TẮT ĐA VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU LUẬN VĂN THẠC SĨ HÀ NỘI - 2009 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN MAI VŨ TÓM TẮT ĐA VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU Ngành: Cơng nghệ thơng tin Chun ngành: Hệ thống thông tin Mã số: 60.48.05 LUẬN VĂN THẠC SĨ Người hướng dẫn khoa học: PGS TS HÀ QUANG THỤY HÀ NỘI - 2009 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lời cảm ơn Lời xin gửi lời cảm ơn chân thành biết ơn sâu sắc tới PGS.TS Hà Quang Thuỵ, người thầy bảo hướng dẫn tận tình cho tơi suốt trình nghiên cứu khoa học thực luận văn Tôi xin chân thành cảm ơn giúp đỡ góp ý nhiệt tình GS.TS Kazuo Hashimoto trình nghiên cứu Đại học Tohoku, Nhật Bản Tôi xin chân thành cảm ơn giúp đỡ, tạo điều kiện khuyến khích tơi trình làm việc nghiên cứu tập thể anh chị em Phịng thí nghiệm Cơng nghệ tri thức Tương tác người máy, Trường Đại học Công nghệ Và cuối cùng, xin gửi lời cảm ơn tới gia đình, người thân bạn bè – người ln bên tơi lúc khó khăn nhất, ln động viên tơi, khuyến khích tơi sống công việc Tôi xin chân thành cảm ơn! Tác giả Trần Mai Vũ i LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lời cam đoan Tôi xin cam đoan luận văn hoàn thành sở nghiên cứu, tổng hợp phát triển nghiên cứu tóm tắt đa văn nước giới thực Luận văn mới, đề xuất luận văn tơi thực hiện, qua q trình nghiên cứu đưa khơng chép nguyên từ nguồn tài liệu khác ii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mục lục Lời cảm ơn i Lời cam đoan ii Mục lục iii Danh sách hình vẽ vi Danh sách bảng vii Danh sách bảng vii Bảng từ viết tắt viii Bảng từ viết tắt viii Mở đầu .1 Chương Khái qt tốn tóm tắt văn 1.1 Bài tốn tóm tắt văn tự động 1.2 Một số khái niệm tốn tóm tắt phân loại tóm tắt .4 1.3 Tóm tắt đơn văn 1.4 Tóm tắt đa văn 1.5 Tóm tắt chương Chương Tóm tắt đa văn dựa vào trích xuất câu .10 2.1 Hướng tiếp cận tốn tóm tắt đa văn 10 2.2 Các thách thức q trình tóm tắt đa văn 11 Trùng lặp đại từ đồng tham chiếu .11 Nhập nhằng mặt thời gian 12 Sự chồng chéo nội dung tài liệu 12 Tỷ lệ nén .14 2.3 Đánh giá kết tóm tắt 15 Phương pháp ROUGE 16 2.4 Tóm tắt đa văn dựa vào trích xuất câu .16 2.4.1 Loại bỏ chồng chéo xếp văn theo độ quan trọng 16 2.4.2 Phương pháp xếp câu 17 Nhận xét 18 2.5 Tóm tắt chương hai 18 iii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Độ tương đồng câu phương pháp tăng cường tính ngữ nghĩa cho độ tương đồng câu 19 3.1 Độ tương đồng 19 3.2 Độ tương đồng câu 19 3.3 Các phương pháp tính độ tương đồng câu 20 3.3.1 Phương pháp tính độ tương đồng câu sử dụng độ đo Cosine .20 3.3.2 Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn 21 Mơ hình độ tương đồng câu sử dụng chủ đề ẩn .22 Suy luận chủ đề tính độ tương đồng câu 23 3.3.3 Phương pháp tính độ tương đồng câu dựa vào Wikipedia 24 Giới thiệu mạng ngữ nghĩa Wikipedia 24 Kiến trúc Wikipedia .24 Độ tương đồng khái niệm mạng ngữ nghĩa Wikipedia 25 Độ tương đồng câu dựa vào mạng ngữ nghĩa Wikipedia 28 3.4 Tóm tắt chương ba 28 Chương Một số đề xuất tăng cường tính ngữ nghĩa cho độ tương đồng câu áp dụng vào mơ hình tóm tắt đa văn tiếng Việt 29 4.1 Đề xuất tăng cường tính ngữ nghĩa cho độ tương đồng câu tiếng Việt 29 4.1.1 Đồ thị thực thể mơ hình xây dựng đồ thị quan hệ thực thể 29 4.1.2 Độ tương đồng ngữ nghĩa câu dựa vào đồ thị quan hệ thực thể 32 Sự tương quan đồ thị quan hệ thực thể mạng ngữ nghĩa Wordnet, Wikipedia .32 Độ tương đồng ngữ nghĩa dựa vào đồ thị quan hệ thực thể 33 Nhận xét: 34 4.2 Độ tương đồng ngữ nghĩa câu tiếng Việt .34 4.3 Mơ hình tóm tắt đa văn tiếng Việt 35 4.4 Mơ hình hỏi đáp tự động tiếng Việt áp dụng tóm tắt đa văn 38 4.5 Tóm tắt chương bốn 39 Chương Thực nghiệm đánh giá 40 5.1 Môi trường thực nghiệm 40 5.2 Quá trình thực nghiệm 41 5.2.1 Thực nghiệm phân tích chủ đề ẩn .41 5.2.2 Thực nghiệm xây dựng đồ thị quan hệ thực thể 42 iv LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 5.2.3 Thực nghiệm đánh giá độ đo tương đồng .43 5.2.4 Thực nghiệm đánh giá độ xác mơ hình tóm tắt đa văn 45 5.2.5 Thực nghiệm đánh giá độ xác mơ hình hỏi đáp 46 Kết luận 49 Các cơng trình khoa học sản phẩm công bố 50 Tài liệu tham khảo 51 v LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách hình vẽ Hình 3.1 Tính độ tương đồng câu với chủ đề ẩn 22  Hình 3.2: Mối quan hệ đồ thị viết đồ thị chủ đề Wikipedia 25  Hình 4.1: Mở rộng mối quan hệ tìm kiếm thực thể liên quan .30  Hình 4.2: Mơ hình xây dựng đồ thị quan hệ thực thể .31  Hình 4.3: Mơ hình tóm tắt đa văn tiếng Việt .36  Hình 4.4: Mơ hình hỏi đáp tự động tiếng Việt áp dụng tóm tắt đa văn .38  vi LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách bảng Bảng 2.1: Bảng so sánh phương pháp tiếp cận tóm tắt đa văn .11  Bảng 2.2: Taxonomy mối quan hệ xuyên văn 14  Bảng 4.1: Sự tương quan đồ thị quan hệ thực thể, Wordnet Wikipedia 33  Bảng 4.2: Danh sách độ đo tương đồng ngữ nghĩa câu 35  Bảng 5.1: Các công cụ phần mềm sử dụng trình thực nghiệm 41  Bảng 5.3: Kết phân tích chủ đề ẩn .42  Bảng 5.4: 20 từ có phân phối xác suất cao Topic ẩn 97 42  Bảng 5.5: Kết liệu thu mơ hình xây dựng đồ thị quan hệ thực thể 43  Bảng 5.6: Một cụm liệu dùng để đánh giá độ tương đồng ngữ nghĩa 44  Bảng 5.7: Kết đánh giá độ đo cụm liệu bảng 5.2 44  Bảng 5.8: Độ xác đánh giá 20 cụm liệu tiếng Việt 10 cụm tiếng Anh 44  Bảng 5.9: Đánh giá kết thứ tự văn thứ tự 20 câu quan trọng 45  Bảng 5.10: Kết tóm tắt trả theo tỷ lệ trích xuất 10 câu 46  Bảng 5.11: Độ xác mơ hình hỏi đáp dựa vào tóm tắt đa văn cho snippet .47  Bảng 5.12: Độ xác mơ hình hỏi đáp dựa vào tóm tắt đa văn cho trang web 47  Bảng 5.13: Danh sách số câu kết trả lời hệ thống hỏi đáp 48  vii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bảng từ viết tắt STT Từ cụm từ Viết tắt Maximal Maginal Relevance MMR Question and Answering Q&A (Hệ thống hỏi đáp tự động) Document Understanding Conferences DUC (Hội nghi chuyên hiểu văn bản) Term Frequency TF (Tần suất từ/cụm từ văn bản) viii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com JGibbsLDA Tác giả: Nguyễn Cẩm Tú Công dụng: Xây dựng phân tích chủ đề ẩn Mulgara Tác giả: Northrop Grumman Corporation Website: http://www.mulgara.org Công dụng: Lưu trữ mạng ngữ nghĩa Wikipedia đồ thị quan hệ thực thể nển tảng công nghệ semantic web Lingpipe Tác giả: Alias-i Website: http://alias-i.com/lingpipe Công dụng: Nhận dạng tên thực thể (NER) tiếng Anh Bảng 5.1 Các công cụ phần mềm sử dụng trình thực nghiệm 5.2 Quá trình thực nghiệm 5.2.1 Thực nghiệm phân tích chủ đề ẩn • Dữ liệu phân tích chủ đề ẩn: – Bộ liệu 125 topic (vnexp-lda4-125topics) phân tích JGibbsLDA kho liệu báo thu thập từ trang web Vnexpress Sau q trình phân tích chủ đề ẩn câu xác định nằm chủ đề xác định trước liệu chủ đề ẩn Ví dụ: STT Câu Các chủ đề câu Cắt giảm thuế Topic_48 Topic_97 Tiếp tục giảm thuế nhiều mặt hàng nhập Topic_97 Những mặt hàng nằm diện cắt giảm thuế Topic_16 Topic_33 Topic_54 thời gian tới gồm rượu, bia, thuốc lá, cà Topic_62 Topic_97 Topic_106 41 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com phê, dầu thực vật, thịt chế biến Topic_123 Theo yêu cầu Chính phủ Liên Tài – Cơng thương tiếp tục thực lộ trình giá thị trường mặt hàng chiến lược có kiểm sốt Nhà Nước, nhằm khuyến khích cạnh tranh, hạn chế độc quyền Topic_13 Topic_33 Topic_41 Topic_47 Topic_67 Topic_78 topic_105 Topic_105 Topic_115 Topic_122 Bảng 5.3 Kết phân tích chủ đề ẩn Dễ dàng nhận thấy câu có nội dung liên quan đến chủ đề “Thuế” thấy xuất Topic_97 q trình phân tích chủ đề Dưới 20 từ có phân phối xác suất cao Topic_97: Topic 97: thương_mại 0.051798 11 kinh_tế 0.010271 wto 0.038748 12 hiệp_định 0.010070 đàm_phán 0.028651 13 phát_triển 0.009695 gia_nhập 0.021578 14 tự_do 0.009162 thành_viên 0.017416 15 tổ_chức 0.007909 nhập_khẩu 0.015039 16 dệt 0.007175 cam_kết 0.014520 17 asean 0.007131 thuế 0.013109 18 đạt 0.007117 xuất_khẩu 0.011164 19 bộ_trưởng 0.006872 10 vấn_đề 0.010848 20 nông_nghiệp 0.006757 Bảng 5.4: 20 từ có phân phối xác suất cao Topic ẩn 97 5.2.2 Thực nghiệm xây dựng đồ thị quan hệ thực thể • Dữ liệu xây dựng đồ thị quan hệ thực thể: – Dữ liệu mồi: 200 thực thể tiếng Việt 200 thực thể tiếng Anh thuộc lĩnh vực: Địa danh, tổ chức, nhân vật Thực nghiệm kết q trình thực thi mơ hình xây dựng đồ thị quan hệ thực thể đề xuất mục 4.1.1 cài đặt Trong thực nghiệm này, đồ thị 42 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com quan hệ thực thể xây dựng cho ngôn ngữ tiếng Anh tiếng Việt Phương pháp nhận dạng tên thực thể(NER) áp dụng mơ hình này: Đối với tiếng Anh: mơ hình học máy CRF, sử dụng công cụ Lingpipe Api Đối với tiếng Việt: sử dụng biểu thức quy Ngơn ngữ Số lượng thu Số lượng quan hệ Thời gian thực thi Tiếng Anh 48.365 thực thể 72.619 quan hệ ngày Tiếng Việt 21.693 thực thể 32.774 quan hệ ngày Bảng 5.5 Kết liệu thu mơ hình xây dựng đồ thị quan hệ thực thể 5.2.3 Thực nghiệm đánh giá độ đo tương đồng • Dữ liệu Wikipedia: – 99.679 viết Wikipedia Tiếng Việt (23/10/2009) – Download địa chỉ: http://download.wikimedia.org/viwiki/20091023 • Dữ liệu từ điển: – Từ điển đồng nghĩa: gồm 2393 nhóm từ đồng nghĩa phát triển dựa “Từ điển đồng nghĩa” Nguyễn Văn Tu, NXB Đại học Trung học chuyên nghiệp, 1985 • Dữ liệu đánh giá độ đo tương đồng ngữ nghĩa câu: – Sử dụng 20 cụm: cụm gồm 3-5 cặp câu, đánh giá tay theo thứ tự độ tương đồng mặt ngữ nghĩa (Thứ tự thấp độ tương đồng cao) Ví dụ: Số thứ tự Câu thứ Câu thứ hai Xếp hàng tay Tơi thích Hà Nội Anh u Hồ Gươm Tơi thích Hà Nội Em mến người Hà Thành 43 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tơi thích Hà Nội Cơ ngắm nhìn Tháp rùa Tơi thích Hà Nội Bạn thích Hà Giang Bảng 5.6 Một cụm liệu dùng để đánh giá độ tương đồng ngữ nghĩa Trong thực nghiệm này, độ đo tương đồng đánh giá nêu bảng 4.2 Các bước thực nghiệm: Tính độ đo tương đồng cặp câu độ đo khác nhau, - xếp theo thứ tự gần mặt ngữ nghĩa thứ tự thấp Độ xác tính số lượng câu giữ thứ tự xếp hạng - tay gán cho tập liệu thực nghiệm Số thứ tự câu Cos EntG Wiki Hidden All_1 All_2 2 2 2 1 3 4 3 1 3 4 Bảng 5.7 Kết đánh giá độ đo cụm liệu bảng 5.2 Trong việc đánh giá 10 cụm tiếng Anh, tác giả sử dụng hai độ đo tương đồng Cosine đồ thị quan hệ thực để đánh giá Ngôn ngữ Cos Hidden Wiki EntG All_1 All_2 Tiếng Việt 56% 72% 76% 69% 81% 89% Tiếng Anh 68% ~ ~ 83% ~ ~ Bảng 5.8 Độ xác đánh giá 20 cụm liệu tiếng Việt 10 cụm tiếng Anh Kết thực nghiệm cho thấy việc độ đo tương đồng ngữ nghĩa All_2 cho kết tốt độ đo khác Trong thực nghiệm tiếp theo, tác giả sử dụng All_2 làm đo tương đồng ngữ nghĩa 44 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 5.2.4 Thực nghiệm đánh giá độ xác mơ hình tóm tắt đa văn • Dữ liệu đánh giá độ mơ hình tóm tắt đa văn bản: – Sử dụng cụm trả từ trình phân cụm máy tìm kiếm tiếng Việt VnSen: cụm gồm 8-10 văn Các văn cụm 20 câu quan trọng văn xếp tay dựa vào độ tương đồng văn bản/câu với nhãn cụm Độ xác tính số lượng văn bản/câu giữ thứ tự xếp hạng tay gán cho tập liệu thực nghiệm Cụm Số lượng Số lượng văn câu Độ Nhãn cụm xác thứ tự văn 10 216 Lãi suất tiết kiệm 116 Độ xác thứ tự 20 câu quan trọng 80% 80% Cắt giảm thuế 87.5% 85% 127 Cơng cụ tìm kiếm Google 87.5% 80% 101 Laptop giá rẻ 75% 75% 86 Dịch tiêu chảy 75% 70% Bảng 5.9 Đánh giá kết thứ tự văn thứ tự 20 câu quan trọng Đối với cụm văn có nhãn “Lãi suất tiết kiệm”, với tỷ lệ trích xuất 10 câu, kết tóm tắt trả theo đánh giá trực quan tương đối tốt Văn tóm tắt [8][7] Hơm qua, Dong A Bank thông báo tăng lãi suất tiền gửi tiết kiệm VND dành cho khách hàng cá nhân với mức tăng bình quân 0,06% tháng [9][2] "Lãi suất ngân hàng cao Ai muốn bán tháo cổ phiếu lấy tiền gửi tiết kiệm 45 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com không được, phải vất vả bán thành công", chị Phúc cười vui vẻ [1][1] Lãi suất tiết kiệm đụng mốc 15% [10][1] Đổ xô đến ngân hàng gửi tiền ngắn hạn [10][25] Tuy nhiên, nhiều nhà băng ước đoán lượng gửi tiền với kỳ hạn ngắn chiếm ưu so với gửi tiết kiệm lâu dài [10][4] Cịn Ngân hàng Phương Đơng, chị Linh chuẩn bị sẵn 70 triệu đồng từ cuối tuần để gửi tiết kiệm linh hoạt 12 tháng [2][23] Một lãnh đạo ngân hàng VP nhận định: “Trong tuần có nhiều biến động lãi suất ngân hàng theo dõi động thái để điều chỉnh kịp thời mức lãi suất Chỉ có giữ chân khách hàng” [7][19] Mỗi tháng doanh nghiệp toán lãi tháng cho nhà băng gần 10 triệu đồng [7][11] Lãi suất cho vay ngân hàng điều chỉnh, cộng với tình hình số nhà băng ngừng cho vay tác động tức thời đến doanh nghiệp có nhu cầu vay tiền vào thời điểm [7][1] Lâm kẹt ngân hàng điều chỉnh cho vay Bảng 5.10 Kết tóm tắt trả theo tỷ lệ trích xuất 10 câu (hai số đầu dòng tương ứng thứ tự văn cụm thứ tự câu văn bản) 5.2.5 Thực nghiệm đánh giá độ xác mơ hình hỏi đáp • Dữ liệu đánh giá hệ thống hỏi đáp: – Dữ liệu: 500 câu hỏi dịch có lựa chọn chỉnh sửa từ liệu TREC (Lấy từ công cụ OpenEphyra) Các câu hỏi đưa kiểm tra trước máy tìm kiếm xem có xuất câu trả lời snippet trả hay không Đô tương đồng Cos Số trả lời 67 Độ xác 13.4% Thời gian trả lời trung bình 30 giây 46 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hidden 238 47.6% phút Wiki 142 28.4% 25 phút EntG 167 33.4% 15 phút All_1 318 63.6% 35 phút All_2 376 75.2% 40 phút Bảng 5.11 Độ xác mơ hình hỏi đáp dựa vào tóm tắt đa văn cho snippet Đô tương đồng Số trả lời Độ xác Thời gian trả lời trung bình Cos 101 21.6% phút Hidden 356 71.2% 15 phút Wiki 104 20.8% 45phút EntG 125 25.0% 15 phút All_1 359 71.8% 30 phút All_2 389 77.8% *Tốc độ khơng tính thời gian download trang web Bảng 5.12 Độ xác mơ hình hỏi đáp dựa vào tóm tắt đa văn cho trang web Câu hỏi Câu trả lời Người tìm châu mỹ ? Ai biết Cơ-lơm-bơ người tìm châu Mỹ Nhạc sĩ sáng tác hát người hà nội ? Người Hà Nội hát nhạc sĩ Nguyễn Đình Thi sáng tác Cà chua có tác dụng sức khỏe ? Cà chua có tác dụng phịng chống ung thư vú, ung thư dày 47 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bác Hồ sang pháp năm ? Mùa hè năm 1911, Bác đặt chân lên đất Pháp, Bác Người sáng lập google ? Tờ Financial Times bình chọn hai nhà đồng sáng lập cơng cụ tìm kiếm Google, Sergey Brin Larry Page, 32 tuổi Người đàn ông năm … … Bảng 5.13 Danh sách số câu kết trả lời hệ thống hỏi đáp 48 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kết luận Những vấn đề giải luận văn Luận văn tiến hành nghiên cứu giải tốn tóm tắt đa văn tiếng Việt dựa vào trích xuất câu Bài tốn xác định tốn có độ phức tạp cao tảng nhiều ứng dụng thực tế Phương pháp giải luận văn tập trung vào việc tăng cường tính ngữ nghĩa cho độ đo tương đồng hai câu q trình trích xuất câu quan trọng tập liệu đầu vào Dựa vào nghiên cứu chủ đề ẩn, mạng ngữ nghĩa Wikipedia phương pháp tác giả luận văn đề xuất, luận văn đưa độ đo tương đồng ngữ nghĩa câu để xây dựng mơ hình tóm tắt đa văn tiếng Việt Hơn nữa, luận văn trình bày mơ hình hệ thống hỏi đáp tiếng Việt áp dụng tóm tắt đa văn sử dụng liệu máy tìm kiếm tiếng Google, Yahoo làm tri thức Quá trình thực nghiệm đạt kết khả quan, cho thấy tính đắn việc lựa chọn kết hợp phương pháp, đồng thời hứa hẹn nhiều tiềm phát triển hồn thiện Cơng việc nghiên cứu tương lai - Phát triển mở rộng đồ thị quan hệ thực thể, nghiên cứu xây dựng phân cấp chủ đề thực thể cho đồ thị - Nghiên cứu áp dụng số giải thuật tính toán độ tương đồng ngữ nghĩa mạng ngữ nghĩa để cải tiến mơ hình tóm tắt đa văn tiếng Việt - Cải tiến trình lưu trữ đánh mục để tăng tốc cho việc tìm kiếm tính tốn đồ thị, qua tăng tốc độ trả lời câu hỏi cho mơ hình hỏi đáp tiếng Việt - Xây dựng triển khai hệ thống hỏi đáp tiếng Việt cho người sử dụng 49 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Các công trình khoa học sản phẩm cơng bố [VVU09] Vu Tran Mai, Vinh Nguyen Van, Uyen Pham Thu, Oanh Tran Thi and Thuy Quang Ha (2009) An Experimental Study of Vietnamese Question Answering System, International Conference on Asian Language Processing (IALP 2009): 152-155, Dec 7-9, 2009, Singapore [VUH08] Trần Mai Vũ, Phạm Thị Thu Uyên, Hoàng Minh Hiền, Hà Quang Thụy (2008) Độ tương đồng ngữ nghĩa hai câu áp dụng vào tốn sử dụng tóm tắt đa văn để đánh giá chất lượng phân cụm liệu máy tìm kiếm VNSEN, Hội thảo Công nghệ Thông tin & Truyền thông lần thứ (ICTFIT08): 94-102, ĐHKHTN, ĐHQG TP Hồ Chí Minh, Thành phố Hồ Chí Minh, 2008 Sản phẩm phần mềm [VTTV09] Trần Mai Vũ, Vũ Tiến Thành, Trần Đạo Thái, Nguyễn Đức Vinh (2009) Máy tìm kiếm giá cả, http://vngia.com 50 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tài liệu tham khảo Tiếng Việt [MB09] Lương Chi Mai Hồ Tú Bảo (2009) Báo cáo Tổng kết đề tài KC.01.01/0610 "Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt" Về xử lý tiếng Việt công nghệ thông tin (2006), Viện Công nghệ Thông tin, Viện Khoa học Công nghệ Việt Nam, 2009 Tiếng Anh [Ba07] Barry Schiffman (2007) Summarization for Q&A at Columbia University for DUC 2007, In Document Understanding Conference 2007 (DUC07), Rochester, NY, April 26-27, 2007 [BE97] Regina Barzilay and Michael Elhadad Using Lexical Chains for Text Summarization, In Advances in Automatic Text Summarization (Inderjeet Mani and Mark T Maybury, editors): 111–121, The MIT Press, 1999 [BKO07] Blake,C., Kampov, J., Orphanides, A., West,D., & Lown, C (2007) UNCCH at DUC 2007: Query Expansion, Lexical Simplification, and Sentence Selection Strategies for Multi-Document Summarization, In DUC07 [BL06] Blei, M and Lafferty, J (2006) Dynamic Topic Models, In the 23th International Conference on Machine Learning, Pittsburgh, PA [BME02] Regina Barzilay, Noemie Elhadad, and Kathleen R McKeown (2002) Inferring strategies for sentence ordering in multidocument news summarization, Journal of Artificial Intelligence Research: 35–55, 2002 [BME99] Barzilay R., McKeown K., and Elhadad M Information fusion in the context of multidocument summarization, Proceedings of the 37th annual meeting of the Association for Computational Linguistics: 550–557, New Brunswick, New Jersey, 1999 51 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [BMI06] D Bollegara, Y Matsuo, and M Ishizuka (2006) Extracting key phrases to disambiguate personal names on the web, In CICLing 2006 [CG98] Jaime Carbonell, Jade Goldstein (1998) The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries, In SIGIR-98, Melbourne, Australia, Aug 1998 [CSO01] John M Conroy, Judith D Schlesinger, Dianne P O'Leary, Mary Ellen Okurowski (2001) Using HMM and Logis-tic Regression to Generate Extract Summaries for DUC, In DUC 01, Nat’l Inst of Standards and Technology, 2001 [Ed69] H Edmundson (1969) New methods in automatic abstracting, Journal of ACM, 16 (2):264-285, 1969 [EWK] Website: http://en.wikipedia.org/wiki/Multi-document_summarization [FMN07] K Filippova, M Mieskes, V Nastase, S Paolo Ponzetto, M Strube (2007) Cascaded Filtering for Topic-Driven Multi-Document Summarization, In EML Research gGmbH, 2007 [GMC00] Jade Goldstein, Vibhu Mittal, Jaime Carbonell, Mark Kantrowitz (2000) Multi-Document Summarization By Sentence Extraction, 2000 [HHM08] Phan Xuan Hieu, Susumu Horiguchi, Nguyen Le Minh (2008) Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections, In The 17th International World Wide Web Conference, 2008 [HMR05] B Hachey, G Murray, D Reitter (2005) Query-Oriented Multi-Document Summarization With a Very Large Latent Semantic Space, In The Embra System at DUC, 2005 [Ji98] H Jing (1998) Summary generation through intelligent cutting and pasting of the input document, Technical Report, Columbia University, 1998 [KST02] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu (2002) Bleu: a method for automatic evaluation of machine translation, Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL): 311–318, 2002 52 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [LH03] Chin-Yew Lin and Eduard Hovy (2003) Automatic evaluation of summaries using n-gram co-occurrence statistics, In Human Technology Coference 2003 [LH97] Chin-Yew Lin and Eduard Hovy (1997) Identifying topics by position, Fifth Conference on Applied Natural Language Processing: 283–290, 1997 [LLB06] Yuhua Li, David McLean, Zuhair Bandar, James O'Shea, Keeley A Crockett (2006) Sentence Similarity Based on Semantic Nets and Corpus Statistics, IEEE Trans Knowl Data Eng 18(8): 1138-1150 [Lu58] H Luhn (1958) The automatic creation of literature abstracts, IBM Journal of Research and Development, 2(2):159-165, 1958 [Ma01] Inderjeet Mani (2001) Automatic Summarization, John Benjamins Publishing Co., 2001 [Mi04] Nguyen Le Minh (2004) Statistical Machine Learning Approaches to Cross Language Text Summarization, PhD Thesis, School of Information Science Japan Advanced Institute of Science and Technology, September 2004 [MM99] Inderjeet Mani and Mark T Maybury (eds) (1999) Advances in Automatic Text Summarization, MIT Press, 1999, ISBN 0-262-13359-8 [MR95] Kathleen R McKeown and Dragomir R Radev (1995) Generating summaries of multiple news articles, ACM Conference on Research and Development in Information Retrieval (SIGIR’95): 74–82, Seattle, Washington, July 1995 [PKC95] Jan O Pendersen, Kupiec Julian and Francine Chen (1995) A trainable document summarizer, Research and Development in Information Retrieval: 68– 73, 1995 [PSM07] Ponzetto, Simone Paolo, and Michael Strube (2007) Knowledge Derived from Wikipedia For Computing Semantic Relatedness, Journal of Artificial Intelligence Research, 30: 181-212, 2007 53 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [Ra00] Dragomir Radev (2000) A common theory of information fusion from multiple text sources, step one: Cross-document structure, In 1st ACL SIGDIAL Workshop on Discourse and Dialogue, Hong Kong, October 2000 [RFF05] Francisco J Ribadas, Manuel Vilares Ferro, Jesús Vilares Ferro (2005) Semantic Similarity Between Sentences Through Approximate Tree Matching IbPRIA (2): 638-646, 2005 [RJS04] Dragomir R Radev, Hongyan Jing, Malgorzata Sty´s, and Daniel Tam (2004) Centroid-based summarization of multiple documents, Information Processing and Management, 40:919–938, December 2004 [SD08] P Senellart and V D Blondel (2008) Automatic discovery of similar words Survey of Text Mining II: Clustering, Classification and Retrieval (M W Berry and M Castellanos, editors): 25–44, Springer-Verlag, January 2008 [Sen07] Pierre Senellart (2007) Understanding the Hidden Web, PhD thesis, Université Paris-Sud, Orsay, France, December 2007 [SP06] Strube, M & S P Ponzetto (2006) WikiRelate! Computing semantic relatedness using Wikipedia, In Proc of AAAI-06, 2006 [STP06] Krishna Sapkota, Laxman Thapa, Shailesh Bdr Pandey (2006) Efficient Information Retrieval Using Measures of Semantic Similarity, Conference on Software, Knowledge, Information Management and Applications: 94-98, Chiang Mai, Thailand, December 2006 [Su05] Sudarshan Lamkhede Multi-document summarization using concept chain graphs, Master Thesis, Faculty of the Graduate School of the State University of New York at Buffalo, September 2005 [Tu08] Nguyen Cam Tu (2008) Hidden Topic Discovery Toward Classification And Clustering In Vietnamese Web Documents, Master Thesis, Coltech of Technology, Viet Nam National University, Ha Noi, Viet Nam, 2008 54 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [VSB06] Lucy Vanderwende, Hisami Suzuki, Chris Brockett (2006) Task-Focused Summarization with Sentence Simplification and Lexical Expansion, Microsoft Research at DUC2006, 2006 [WC07] R Wang and W Cohen (2007) Language-independent set expansion of named entities using the web, In ICDM07, 2007 [YYL07] J.-C Ying, S.-J Yen, Y.-S Lee, Y.-C Wu, J.-C Yang (2007) Language Model Passage Retrieval for Question-Oriented Multi Document Summarization, DUC 07, 2007 [ZG07] T Zesch and I Gurevych (2007) Analysis of the Wikipedia Category Graph for NLP Applications, In Proc of the TextGraphs-2 Workshop, NAACL-HLT, 2007 [ZGM07] Torsten Zesch, Iryna Gurevych, and Max Muhlhauser (2007) Comparing Wikipedia and German Word-net by Evaluating Semantic Relatedness on Multiple Datasets, In Proceedings of NAACL-HLT, 2007 55 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... đánh giá cao cộng đồng nghiên cứu tóm tắt văn 2.4 Tóm tắt đa văn dựa vào trích xuất câu Tóm tắt đa văn dựa vào trích xuất câu phương pháp giải tốn tóm tắt đa văn theo hướng tiếp cận mức hình thái... cận dựa vào trích xuất dựa vào tóm lược Tuy nhiên, hạn chế phương pháp giải tóm tắt theo tóm lược nêu trên, phương pháp giải tóm tắt đa văn tập trung vào phương pháp tóm tắt đa văn dựa vào trích. .. trung vào hai loại tóm tắt là: tóm tắt theo trích xuất tóm tắt theo tóm lược Tóm tắt theo trích xuất Đa số phương tóm tắt theo loại tập trung vào việc trích xuất câu hay ngữ bật từ đoạn văn kết

Ngày đăng: 01/11/2022, 20:14

w