Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 53 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
53
Dung lượng
683,09 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hoàng Minh Hiền ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA GIỮA HAI CÂU VÀ ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2008 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ Hồng Minh Hiền ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA GIỮA HAI CÂU VÀ ỨNG DỤNG TRONG TĨM TẮT VĂN BẢN KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin Cán hướng dẫn: PGS TS Hà Quang Thụy Cán đồng hướng dẫn: Thạc Sỹ Đặng Thanh Hải HÀ NỘI - 2008 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lời cảm ơn Tôi xin gửi lời cảm ơn biết ơn sâu sắc tới Phó Giáo sư Tiến sĩ Hà Quang Thụy Thạc sỹ Đặng Thanh Hải bảo hướng dẫn tận tình cho tơi suốt q trình nghiên cứu Khoa học q trình thực khố luận Tơi chân thành cảm ơn thầy, cô tạo cho điều kiện thuận lợi để học tập nghiên cứu trường Đại học Công Nghệ Tôi xin gửi lời cảm ơn tới anh chị, bạn sinh viên nhóm nghiên cứu “Khai phá liệu khám phá tri thức” giúp đỡ, ủng hộ động viên tơi q trình nghiên cứu làm khố luận Đặc biệt, tơi xin cảm ơn Cử nhân Trần Mai Vũ, Nghiên cứu sinh Nguyễn Cẩm Tú Sinh viên Lê Diệu Thu, người hỗ trợ nhiều kiến thức chuyên môn, giúp tơi hồn thành khóa luận Cuối cùng, muốn gửi lời cảm ơn biết ơn vô hạn tới bố, mẹ, anh trai, tất bạn bè người thân yêu Xin chân thành cảm ơn! Sinh viên Hoàng Minh Hiền LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tóm tắt nội dung Hiện nay, tóm tắt văn tốn có tính ứng dụng thực tiễn cao Tóm tắt văn nhận nhiều quan tâm nghiên cứu nhiều nhà khoa học, hội nghị quốc tế hội nghị DUC (Document Understanding Conference), hội nghị Coling/ACL (Computational Linguistics/Association for Computational Linguistics), trung tâm nghiên cứu IBM, Microsoft… Khóa luận với đề tài “Độ tương đồng ngữ nghĩa hai câu ứng dụng tốn tóm tắt văn bản” tập trung nghiên cứu vào phương pháp tóm tắt văn bản; độ tương đồng câu phương pháp để tính tốn độ tương đồng câu Từ đó, sở số kết nghiên cứu có độ đo tương đồng câu Hidden Topic, khóa luận đề xuất mơ hình tóm tắt văn đơn có sử dụng Hidden Topic để tính tốn độ tương đồng ngữ nghĩa hai câu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mục lục Tóm tắt nội dung Mục lục Danh sách bảng Danh sách hình vẽ Bảng ký hiệu từ viết tắt Mở đầu 10 Chương Tổng quan tóm tắt văn độ tương đồng câu 12 1.1 Đặt vấn đề 12 1.2 Nền tảng kiến thức 13 1.2.1 Data Mining .13 1.2.2 Text Mining .13 1.2.3 Web Mining .14 1.3 Tóm tắt văn 15 1.4 Độ tương đồng hai câu 16 Chương Bài tốn tóm tắt văn số phương pháp tóm tắt văn 18 2.1 Bài tốn tóm tắt văn 18 2.1.1 Định nghĩa tóm tắt .18 2.1.2 Phân loại tóm tắt văn 19 2.1.3 Tóm tắt văn đơn 21 2.2 Các phương pháp tóm tắt văn đơn 21 2.2.1 Phương pháp Word frequencies .22 2.2.2 Phương pháp Edmundson 23 2.2.3 Tóm tắt văn tự động sử dụng trích chọn câu hai bước 26 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Độ tương đồng câu phương pháp tính độ tương đồng câu 32 3.1 Độ tương đồng .32 3.2 Độ tương đồng câu 32 3.3 Phương pháp để đo độ tương đồng câu .33 3.3.1 Phương pháp tính độ tương đồng câu sử dụng WordNet corpus .33 3.3.2 Phương pháp tính độ tương đồng câu sử dụng Hidden Topic 39 Chương Đề xuất mơ hình tóm tắt kết thực nghiệm 46 4.1 Đề xuất mơ hình tóm tắt 46 4.2 Thiết kế mơ hình thử nghiệm 47 4.3 Kết thực nghiệm .47 Kết luận hướng phát triển khóa luận 50 Tài liệu tham khảo 51 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách bảng Bảng Các kết so sánh độ đo .37 Bảng Trọng số câu văn [không dùng Hidden Topic] 48 Bảng Trọng số câu văn [dùng Hidden Topic] 49 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách hình vẽ Hình Mơ hình chung hệ thống tóm tắt văn 15 Hình Giá trị trung bình phương pháp 26 Hình Hệ thống tóm tắt sử dụng phương pháp trích chọn câu hai bước 27 Hình So sánh phương pháp Two-step phương pháp khác (Title) 31 Hình So sánh phương pháp Two-step phương pháp khác ( không sử dụng Title) 31 Hình Lược đồ tính tốn độ tương đồng câu 34 Hình Hệ thống phân cấp ngữ nghĩa 36 Hình Mơ hình biểu diễn LDA (Các khối vuông biểu diễn trình lặp) 40 Hình Mơ hình sinh cho LDA 41 Hình 10 Quá trình khởi tạo lấy mẫu lần đầu 42 Hình 11 Quá trình khởi tạo lấy mẫu lại 43 Hình 12 Quá trình đọc tham số đầu 44 Hình 13 Nội dung văn đơn tiếng Việt 47 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách từ viết tắt WAP : Wireless Application Protocol PDA : Personal digital assistant SMS : Short Message Service LDA : Latent Dirichlet Allocation IR : Information Retrieval TF : Term Frequency IDF : Inverted document frequency LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mở đầu Dữ liệu Internet sinh liên tục ngày, lượng thơng tin khổng lồ khiến người dùng trở nên bối rối không đủ thời gian đọc tất văn Tóm tắt văn tự động toán quan tâm nghiên cứu nhiều nhà khoa học Tóm tắt văn ứng dụng để tóm tắt tin với định dạng WAP SMS cho thiết bị PDA, điện thoại di động Trong máy tìm kiếm, ứng dụng tóm tắt văn đưa đoạn mơ tả kết tìm kiếm Người dùng dựa vào để chọn kết phù hợp với mong muốn Những ứng dụng đa dạng phong phú tóm tắt văn khẳng định cần thiết việc xây dựng hệ thống tóm tắt văn tự động hiệu Mục tiêu khóa luận tập trung vào việc khảo sát, nghiên cứu phương pháp giải tốn tóm tắt văn cách hiệu Để tiếp cận mục tiêu này, khóa luận giới thiệu kết nghiên cứu báo cáo [4]: phương pháp tính độ tương đồng câu sử dụng WordNet corpus; Đồng thời, khóa luận nghiên cứu, đề xuất phương pháp tính tốn độ tương đồng câu sử dụng mơ hình topic ẩn Ưu điểm phương pháp làm tăng tính ngữ nghĩa tính tốn độ tương đồng câu mà không cần dùng tới mạng ngữ nghĩa hay corpus khác Nội dung khóa luận chia thành chương sau: Chương Tổng quan tốn tóm tắt văn độ tương đồng câu: Đề cập tới nhu cầu ứng dụng tóm tắt văn bản, tảng kiến thức tốn tóm tắt Phần giới thiệu nội dung tốn tóm tắt văn độ tương đồng ngữ nghĩa hai câu Chương Bài tốn tóm tắt văn số phương pháp tóm tắt văn bản: Trình bày cụ thể tốn tóm tắt văn bao gồm định nghĩa tóm tắt, phân loại tóm tắt, cách đánh giá văn tóm tắt số phương pháp tóm tắt văn Chương Độ đo tương đồng câu phương pháp tính độ tương đồng câu Chương giới thiệu độ tương đồng, độ tương đồng câu hai phương pháp khác để tính độ tương đồng câu: Phương pháp tính độ tương đồng câu sử dụng WordNet corpus 10 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Với ≤ δ ≤ , δ định việc đóng góp ngữ nghĩa thứ tự từ tới toàn câu 3.3.2 Phương pháp tính độ tương đồng câu sử dụng Hidden Topic Mục tiêu làm để thu lợi từ nguồn tài nguyên lớn liệu trực tuyến nhằm tăng tính ngữ nghĩa việc tính độ tương đồng câu Phương pháp tiếp cận vấn đề dựa sở nghiên cứu thành công gần mơ hình phân tích topic ẩn LDA (Latent Dirichlet Allocation) … Ý tưởng mô hình với lần học, ta tập hợp tập liệu lớn gọi “Universal dataset” xây dựng mơ hình học liệu học tập giàu topic ẩn tìm từ tập liệu [6] 3.3.2.1 Latent Dirichlet Allocation (LDA) Latent Dirichlet Allocation (LDA) mơ hình sinh xác suất cho tập liệu rời rạc text corpora David Blei, Andrew Ng Michael Jordan phát triển LDA vào năm 2003 LDA dựa ý tưởng: tài liệu trộn lẫn nhiều topic, topic phân bố xác suất từ Về chất, LDA mơ hình Bayesian cấp (three-level hierarchical Bayes model: corpus level, document level, word level) phần tập hợp mơ mơ hình trộn hữu hạn sở tập xác suất topic Trong ngữ cảnh mơ hình văn bản, xác suất topic cung cấp biểu diễn tường minh tài liệu Trong phần thảo luận nhiều mơ hình sinh, ước lượng tham số inference LDA Mơ hình sinh LDA Cho corpus M tài liệu biểu diễn D={d1,d2, …, dM}, đó, tài liệu m corpus bao gồm Nm từ wi rút từ tập Vocabulary term {t1, …, tv}, V số từ LDA cung cấp mơ hình sinh đầy đủ kết tốt phương pháp trước Quá trình sinh document sau: 39 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình Mơ hình biểu diễn LDA [6] Các khối vng Hình biểu diễn trình lặp Tham số đầu vào: α β (corpus-level parameter) r α: Dirichlet prior on ϑm (theta) r β: Dirichlet prior on ϕ k r ϑ m (theta): phân phối topic document thứ m (document-level parameter) zm,n : topic index (word n văn m) wm,n: word n văn m zm,n (word-level variable, observed word) r ϕ k : phân phối từ sinh từ topic zm,n M: số lượng tài liệu Nm: số lượng từ tài liệu thứ m K: số lượng topic ẩn r LDA sinh tập từ wm,n cho văn d m cách: r • Với văn m, sinh phân phối topic ϑm cho văn • Với từ, zm,n lấy mẫu dựa vào phân phối topic r • Với topic index zm,n, dựa vào phân phối từ ϕ k , wm,n sinh 40 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com r • ϕ k lấy mẫu lần cho tịan corpus Mơ hình sinh đầy đủ (đã giải) biểu diễn Hình Hình Mơ hình sinh cho LDA Ở đây, Dir, Poiss and Mult phân phối Dirichlet, Poisson, Multinomial (Lấy mẫu theo phân phối Dirichlet, Poisson, Multinomial) Ước lượng tham số Inference thông qua Gibbs Sampling Cho trước tập văn bản, tìm xem topic model sinh tập văn Bao gồm: r - Tìm phân phối xác suất tập từ topic - ϕ k - Tìm phân phối topic tài liệu ϑm r Gibbs Sampling - Thuật toán nhằm lấy mẫu từ phân phối xác suất có điều kiện nhiều biến ngẫu nhiên - Quá trình ước lượng tham số cho LDA gồm bước: 41 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Khởi tạo: lấy mẫu lần đầu zero all count variables, n m( z ) , n m , n z(t ) , n z for all documents m ∈ [1, M ] for all words n ∈ [1, N m ] in document m sample topic index z m,n ~Mult(1/K) increment document-topic count: n m( s ) + increment document-topic sum: n m + increment topic-term count: n s(t ) + increment topic-term sum: n z + end for end for Hình 10 Quá trình khởi tạo lấy mẫu lần đầu Trong đó: nm( z ) : số topic z văn m nm : tổng số topic văn m n z(t ) : số term t topic z n z : tổng số term topic z Mỗi lần lấy mẫu cho từ, tham số term topic tăng lên 42 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Burn-in period: trình lấy mẫu lại đạt độ xác định while not finished for all documents m ∈ [1, M ] for all words n ∈ [1, N m ] in document m - for the current assignment of z to a term t for word wm ,n : decrement counts and sums: n m( z ) − ; n m − ; n z(t ) − ; n z − - multinomial sampling acc To Eq Error! Reference source not found (decrements from previous step): r r z ~ p ( z i | z −i , w ) sample topic index ~ - use the new assignment of z to the term t for word wm ,n to: r increment counts and sums: n m( z ) + ; n ztr + ; n zr + end for end for Hình 11 Quá trình khởi tạo lấy mẫu lại Trong lần lấy mẫu lại: tham số tương ứng với topic term cũ giảm 1, tham số tương ứng với topic term tăng lên 43 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Check convergence and read out parameters: Quá trình kết thúc, đọc tham số đầu Φ Θ if converged and L sampling iterations since last read out then - the different parameters read outs are averaged r read out parameter set Φ acc to Eq ϕ k r read out parameter set Θ acc to Eq ϑm end if end while Hình 12 Quá trình đọc tham số đầu r r phân phối ẩn ϕ k ϑm tính sau: ϕ k ,t = nk(t ) + β t V ∑n v =1 (v ) k ϑm ,k = + βv nm(k ) + α k K ∑ n( ) + α z =1 z m z Ước lượng tham số Để phát triển lấy mẫu Gibbs cho LDA, Heirich et al áp dụng phương pháp biến ẩn Biến ẩn z m,n , ví dụ, topic xuất với từ wm,n corpus Ở đây, không cần gộp tập tham số Θ Φ chúng thống kê kết hợp wm,n zm,n tương ứng, biến trạng thái chuỗi Markov 3.3.2.2 Sử dụng mơ hình chủ đề ẩn để tính độ tương đồng câu Với câu, sau inference topic nhận phân phối xác suất topic câu phân phối xác suất từ topic Tức với câu i, LDA sinh phân r phối topic ϑi cho câu Với từ câu, zi,j – topic index (từ j câu i) - đuợc lấy mẫu dựa theo phân phối topic Sau đó, dựa vào topic index zi,j ta làm giàu câu cách thêm từ Vector tương ứng với câu thứ i có dạng sau: s i = {t , t , , t K , w , , w |V | } 44 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Ở đây, K ∑ t i = i =1 |V | ∑w i =1 i = ti trọng số topic thứ i K topic phân tích (K tham số LDA); wi trọng số từ thứ i tập từ vựng V tất câu Ở đây, khơng cần phải tìm phân phối xác suất từ topic mức P(topic|câu), kết tóm tắt mang tính ngữ nghĩa bao qt Mỗi câu có nhiều phân phối xác suất topic Với hai câu thứ i j, sử dụng độ cosine để tính độ tương đồng hai câu làm giàu với Hidden Topic 45 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Đề xuất mơ hình tóm tắt kết thực nghiệm 4.1 Đề xuất mơ hình tóm tắt Khóa luận đề xuất mơ hình để giải tốn tóm tắt tính tốn độ tương tự câu sử dụng Hidden Topic Ưu điểm việc sử dụng Hidden Topic làm tăng tính ngữ nghĩa tính tốn độ tương đồng câu mà không cần dùng tới mạng ngữ nghĩa hay corpus khác Cụ thể quy trình tóm tắt văn gồm bước sau: Bước 1: Quá trình tiền xử lý: - Xử lý văn bản: Tách câu, đưa câu nằm dòng, bỏ câu ngắn theo ngưỡng xác định trước - Sử dụng công cụ JvnSegmente [25] để tách từ tiếng Việt cho kết trả từ bước trên; Loại bỏ từ stop-word khơng có ý nghĩa - Lưu câu vào cấu trúc liệu có dạng Sentence định nghĩa trước (trong class Sentence) Class Corpus quản lý tập liệu câu Bước 2: Quá trình tính tốn độ tượng tự ngữ nghĩa cặp câu: - Sử dụng JgibbsLD [24] xác định topic model sinh tập câu trên, tức tìm phân phối xác suất topic câu - Tính độ tương đồng cặp câu sử dụng Hidden Topic độ đo Cosine Bước 3: Q trình tóm tắt văn bản: - Tính trọng số cho câu phương pháp Aggregation Similarity [13] - Sắp xếp theo thứ tự tăng dần trọng số câu 46 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com - Dựa vào ngưỡng tỷ lệ tóm tắt cho trước, chọn số lượng câu có trọng số cao 4.2 Thiết kế mơ hình thử nghiệm Mô tả liệu - Input: Một văn tiếng Việt Dữ liệu dùng để tóm tắt trang tin lấy từ trang báo điện tử Việt nam http://vnexpress.net, http://dantri.com.vn, http://ngoisao.net - Output: Văn tóm tắt với tỷ lệ cho trước Mục tiêu: - Tính độ tương đồng câu độ đo Cosine - Tính độ tương đồng câu độ đo Cosine áp dụng thêm Hidden topic - Áp dụng độ đo vào tốn tóm tắt văn đơn 4.3 Kết thực nghiệm Nội dung trang web tóm tắt người VN tiền 'nước thần' Một người Việt Nam Nauy 180.000 kroner (35.000 USD) tin rằng, trộn lượng tiền mặt với thứ nước lỏng đặc biệt, số tiền tự sinh gấp đôi Trong tuần này, người đàn ơng 32 tuổi có quốc tịch Pháp phải hầu tịa Oslo bị cáo buộc tội lừa đảo "nước thần" Đầu năm nay, anh chàng dạy người Việt Nam cách làm giàu qua đêm Theo cách làm này, số tiền mặt xếp chung với lượng giấy trắng, nhúng vào chất lỏng đặc biệt để qua đêm Sáng hôm sau, số tiền tự sinh gấp đôi Sau nghe theo lời khuyên, nạn nhân tiền mặt dấu vết "thầy phù thủy" thức dậy vào sáng hôm sau Vào ngày 3/3, "thầy phù thủy" bị bắt tìm cách rời khỏi Nauy với 200.000 kroner hành lý Hình 13 Nội dung văn đơn tiếng Việt 47 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Áp dụng quy trình tóm tắt mục 4.1, tính độ tương đồng câu văn trọng số câu Trường hợp không sử dụng Hidden Topic, trọng số câu bảng sau: Câu Trọng số 2.547 1.902 2.342 2.247 1.479 1.802 1.913 1.937 1.668 10 1.766 Bảng Trọng số câu văn [khơng dùng Hidden Topic] Với tỷ lệ trích xuất 30% có kết tóm tắt sau: “Một người Việt Nam Nauy 180.000 kroner (35.000 USD) tin rằng, trộn lượng tiền mặt với thứ nước lỏng đặc biệt, số tiền tự sinh gấp đôi Đầu năm nay, anh chàng dạy người Việt Nam cách làm giàu qua đêm Theo cách làm này, số tiền mặt xếp chung với lượng giấy trắng, nhúng vào chất lỏng đặc biệt để qua đêm.” 48 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Trường hợp không sử dụng Hidden Topic, trọng số câu: Câu Trọng số 1.765 1.000 1.209 1.194 1.354 1.414 1.386 1.294 1.000 10 1.105 Bảng Trọng số câu văn [dùng Hidden Topic] Tương tự, với tỷ lệ trích xuất 30%, có kết tóm tắt: “Một người Việt Nam Nauy 180.000 kroner (35.000 USD) tin rằng, trộn lượng tiền mặt với thứ nước lỏng đặc biệt, số tiền tự sinh gấp đôi Sau nghe theo lời khuyên, nạn nhân tiền mặt dấu vết "thầy phù thủy" thức dậy vào sáng hôm sau Vào ngày 3/3, "thầy phù thủy" bị bắt tìm cách rời khỏi Nauy với 200.000 kroner hành lý.” Nhận xét, đánh giá Từ thực nghiệm, thấy rằng, mơ hình tóm tắt sử dụng Hidden Topic cho kết khả quan câu trả chưa thể ngữ nghĩa cách súc tích ngắn gọn Những câu có trọng số cao trích rút cho tóm tắt Tỷ lệ trích rút số lượng câu chọn cho văn tóm tắt 49 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kết luận hướng phát triển khóa luận Với nhu cầu thực tiễn ứng dụng tóm tắt văn nay, khóa luận tập trung nghiên cứu tốn tóm tắt văn nói chung tóm tắt văn đơn nói riêng Các kết cụ thể mà khóa luận đạt là: - Khảo sát, nghiên cứu phương pháp tóm tắt văn bản; áp dụng độ đo tương đồng câu vào tóm tắt - Khóa luận đề xuất mơ hình tóm tắt văn đơn dựa tính tốn độ tương đồng câu có sử dụng Hidden Topic - Thử nghiệm mơ hình đề xuất cho kết ban đầu khả quan Do hạn chế thời gian kiến thức sẵn có, khóa luận dừng lại mức thử nghiệm mơ hình Với kết thực nghiệm ban đầu, cần tiếp tục hồn thiện phương pháp tóm tắt để nâng cao hiệu suất tóm tắt Bên cạnh đó, tìm hiểu s ự khác văn đơn đa văn Từ áp dụng phương pháp tính độ tương đồng câu vào tóm tắt đa văn Mục tiêu cụ thể tiếp tục tăng tính ngữ nghĩa cho phương pháp tính độ tương đồng câu áp dụng vào tốn tóm tắt đa văn 50 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tài liệu tham khảo Tiếng Việt [1] Hà Thành Lê, Lương Chi Mai, Huỳnh Quyết Thắng, Định Thị Phương Thu (2006) Kết hợp phương pháp chọn câu quan trọng xây dựng ứng dụng tóm tắt văn tiếng Việt, Một số vấn đề chọn lọc công nghệ thông tin, 2006, 413-421 [2] Lương Chi Mai, Hồ Tú Bảo (2006) Về xử lý tiếng Việt công nghệ thông tin, Tài liệu Đề tài KC.01.01.06-10 "Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt", Viện Cơng nghệ Thơng tin, Viện Khoa học Công nghệ Việt Nam, 2006 [3] Đỗ Phúc, Hồ Anh Thư (2005) Rút trích tóm tắt nội dung trang web tiếng Việt, Phát triển khoa học - công nghệ, 2005, 8/(10):13-22 [4] Phạm Thị Thu Uyên, Hoàng Minh Hiền, Trần Mai Vũ, Hà Quang Thụy Độ tương đồng ngữ nghĩa hai câu ứng dụng tóm tắt văn tiếng Việt (gui Hoi nghi Hue) Tiếng Anh [5] Dang Thanh Hai, Nguyen Thu Trang, Ha Quang Thuy The Graph of Concepts based Text Summarization, College of Technology, Vietnam National University, Hanoi [6] Phan Xuan Hieu, Susumu Horiguchi, Nguyen Le Minh Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections, 17th International World Wide Web Conference, 2008 [7] Le Nguyen Minh (2004) Statistical Machine Learning Approaches to Cross Language Text Summarization, PhD thesis in School of Information Science Japan Advanced Institute of Science and Technology, September 2004 51 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [8] Cam-Tu Nguyen, Trung-Kien Nguyen, Xuan-Hieu Phan, Le-Minh Nguyen and Quang-Thuy Ha (2006) Vietnamese Word Segmentation with CRFs and SVMs: An Investigation The 20th Pacific Asia Conference on Language, Information and Computation (PACLIC20), November 1-3, 2006, Wuhan, China, 215-222 [9] Blake,C., Kampov,J., Orphanides,A., West,D., & Lown,C (2007) UNC-CH at DUC 2007: Query Expansion, Lexical Simplification, and Sentence Selection Strategies for Multi-Document Summarization, Document Understanding Conference 2007 (DUC 2007), Rochester, NY, April 26-27, 2007 [10] Dan Cohen Automatic Text Summarization Seminar in Natural Language Programming and Computational Linguistics http://www.cs.tau.ac.il/~nachumd/NLP/ [11] H Edmundson New methods in automatic abstracting Journal of ACM, 16(2):264-285, 1969 [12] Jiawei Han and Micheline Kamber Data Mining: Concepts and Techniques, 2nd ed The Morgan Kaufmann Series in Data Management Systems, Jim Gray, Series Editor Morgan Kaufmann Publishers, March 2006 ISBN 1-55860-901-6 [13] Wooncheol Jung, Youngjoong Ko, and Jungyun Seo (2004) Automatic Text Summarization Using Two-step Sentence Extraction, Proceedings of Asian Information Retrieval Symposium (AIRS 2004), in Beijing, China, pp.43-48, Oct, 2004 [14] Daniel Jurafsky, and James H Martin, 2000 Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics Prentice-Hall [15] H.P.Luhn The automatic creation of literature abstracts IBM Journal of Research Development, 2(2):159–165,1958 [16] Yuhua Li, David McLean, Zuhair Bandar, James O'Shea, Keeley A Crockett (2006) Sentence Similarity Based on Semantic Nets and Corpus Statistics IEEE Trans Knowl Data Eng 18(8): 1138-1150 52 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [17] A A Mohamed, S Rajasekaran, (2006) Query-Based Summarization Based on Document Graphs, Document Understanding Workshop, June 8-9, 2006 (DUC2006),New York Marriott, Brooklyn, New York USA [18] Inderjeet Mani and Mark T Maybury (eds) Advances in Automatic Text Summarization MIT Press, 1999 ISBN 0-262-13359-8 442 pp [19] Manabu Okumura Text Summarization Asian Applied Natural Language Processing for Linguistics Diversity and Language Resource Development (ADD2), Thailand Science Park, 2007 [20] Siddharth Patwardhan (2003) Incorporating Dictionary and Corpus Information into a Context Vector Measure of Semantic Relatedness MSc Thesis, University of Minnesota, Duluth, MN [21] P Senellart and V D Blondel (2008) Automatic discovery of similar words, Survey of Text Mining II: Clustering, Classification and Retrieval (M W Berry and M Castellanos, editors): 25–44 Springer-Verlag, January 2008 [22] Pierre Senellart (2007) Understanding the Hidden Web, PhD thesis in Computer science, Université Paris-Sud, Orsay, France, December 2007 [23] Krishna Sapkota, Laxman Thapa, Shailesh Bdr Pandey (2006) Efficient Information Retrieval Using Measures of Semantic Similarity, Conference on Software, Knowledge, Information Management and Applications, Chiang Mai, Thailand, December 2006, 9498 Các công cụ sử dụng [24] Phan Xuân Hiếu JGibbsLDA http://gibbslda.sourceforge.net/, School of Information Sciences Tohoku University Nguyễn Cẩm Tú, Phan Xuân Hiếu JvnSegmenter http://jvnsegmenter.sourceforge.net, Đại học Công nghệ - Đại học Quốc gia Hà Nội [25] 53 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... với đề tài ? ?Độ tương đồng ngữ nghĩa hai câu ứng dụng tốn tóm tắt văn bản? ?? tập trung nghiên cứu vào phương pháp tóm tắt văn bản; độ tương đồng câu phương pháp để tính tốn độ tương đồng câu Từ đó,... ta sử dụng độ đo cosine để tính độ tương đồng hai văn bản, văn biểu diễn vector Phân loại độ đo tương đồng, liệt kê số độ đo độ đo tương đồng từ, độ đo tương đồng văn bản, độ đo tương đồng nhiều... cầu ứng dụng tóm tắt văn bản, tảng kiến thức tốn tóm tắt Phần giới thiệu nội dung tốn tóm tắt văn độ tương đồng ngữ nghĩa hai câu Chương Bài tốn tóm tắt văn số phương pháp tóm tắt văn bản: Trình