Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 48 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
48
Dung lượng
1,2 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Trịnh Thị Thanh Nga TÓM TẮT VĂN BĂN TIẾNG VIỆT Chuyên ngành : Công nghệ thông tin LUẬN VĂN THẠC SĨ KĨ THUẬT CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN : PGS.TS Lê Thanh Hƣơng Hà Nội – Năm 2014 LỜI CAM ĐOAN Tôi xin cam đoan dƣới hƣớng dẫn PGS.TS Lê Thanh Hƣơng luận văn tơi với đề tài: Tóm tắt văn tiếng Việt đƣợc hồn thành với tìm hiểu thân, khơng chép tồn văn cơng trình khác Các kết nghiên cứu nhƣ ý tƣởng tác giả khác có đƣợc trích dẫn nguồn gốc cụ thể Tơi xin hồn tồn chịu trách nhiệm mà tơi cam đoan Hà Nội, tháng năm 2014 Học Viên Trịnh Thị Thanh Nga LỜI CẢM ƠN Lời đầu tiên, em xin bày tỏ lòng biết ơn chân thành sâu sắc tới PGS.TS Lê Thanh Hƣơng, ngƣời tận tình hƣớng dẫn em suốt trình làm luận văn Em xin chân thành cảm ơn đến tồn thể q thầy Viện Cơng nghệ Thông tin Truyền thông trƣờng Đại học Bách khoa Hà nội truyền đạt kiến thức tạo điều kiện thuận lợi cho em trình học tập nghiên cứu Tôi xin chân thành cảm ơn gia đình bạn lớp 12ACNTT-HY tạo điều kiện giúp đỡ, động viên, chia sẻ để tơi hồn thành luận văn Em xin chân thành cảm ơn! Hà nội, tháng năm 2014 MỤC LỤC LỜI CAM ĐOAN .2 LỜI CẢM ƠN .3 MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU .9 Lý lựa chọn đề tài Mục đích nghiên cứu 10 Đối tƣợng phạm vi nghiên cứu .10 Phƣơng pháp nghiên cứu 10 NỘI DUNG .12 CHƢƠNG 1: CƠ SỞ LÝ THUYẾT BÀI TỐN TĨM TẮT VĂN BẢN .12 1.1 Tổng quan tóm tắt văn 12 1.1.1 Khái niệm tóm tắt văn .12 1.1.2 Lịch sử phát triển tóm tắt văn bản: 12 1.1.3 Phân loại tóm tắt văn 13 1.2 Học máy .15 1.2.1 Giới thiệu học máy (Machine Learning): 15 1.2.2 Ứng dụng học máy .16 1.3 Một số hƣớng tiếp cận tóm tắt văn 17 1.3.1 Phƣơng pháp thống kê .17 1.3.2 Phƣơng pháp học máy .19 1.3.3 Phƣơng pháp phân tích ngơn ngữ tự nhiên 22 1.4 Tổng kết chƣơng 24 CHƢƠNG II : TÓM TẮT VĂN BẢN TIẾNG VIỆT DỰA TRÊN CRF 25 2.1 Phƣơng pháp học máy Conditional Random Field (CRF) 25 2.1.1 Giới thiệu CRF 25 2.1.2 Huấn luyện CRF 27 2.1.3 Suy diễn CRF 29 2.2 Tóm tắt văn sử dụng phƣơng pháp học máy CRF .31 2.2.1.Giới thiệu tốn tóm tắt văn tiếng việt phƣơng pháp CRF 31 2.2.2 Các đặc trƣng đƣợc sử dụng .32 2.3 Đánh giá hệ thống tóm tắt văn .33 2.3.1 Khó khăn việc đánh giá tóm tắt văn tự động 33 2.3.2 Một số phƣơng pháp đánh giá hệ thống tóm tắt văn 33 2.4 Tổng kết chƣơng .37 CHƢƠNG 3: CÀI ĐẶT VÀ THỬ NGHIỆM CHƢƠNG TRÌNH 39 3.1 Mô tả hệ thống 39 3.1.1 Thu thập chuẩn bị liệu 39 3.1.2 Mơ hình chức hệ thống 40 3.1.3 Giao diện cách sử dụng chƣơng trình 40 3.2 Thử nghiệm 41 3.2.1 Thiết lập tham số .41 3.2.2 Mô tả thử nghiệm đánh giá kết .42 3.3 Tổng kết chƣơng 46 KẾT LUẬN VÀ KIẾN NGHỊ 47 Kết luận 47 Kiến nghị 47 TÀI LIỆU THAM KHẢO 48 DANH MỤC CÁC TỪ VIẾT TẮT STT Viết tắt Từ cụm từ CRF Conditional Random Field SVM Support Vector Machines MEMM Maximum Markov Models HMM Hidden Markov Models TTVB Tóm tắt văn TF Term Frequency IDF Inverse Document Frequency TF-IDF Term Frequency- Inverse Document Frequency L-BFGS Limited – memory Broyden-Fletcher-Goldfarb-Shanno 10 R Recall 11 P Precision DANH MỤC CÁC BẢNG Bảng 3-1: Thống kê liệu sử dụng lĩnh vực 39 Bảng 3-2: Thiết lập tùy chọn cho CRF .42 Bảng 3-3: Kết thử nghiệm lần 43 Bảng 3-4: Kết thử nghiệm lần 43 Bảng 3-5: Kết thử nghiệm lần3 43 Bảng 3-6: Kết thử nghiệm lần 43 Bảng 3-7: Kết thử nghiệm lần 43 DANH MỤC CÁC HÌNH VẼ Hình 1-1: Mơ hình học máy 16 Hình 2-1: Đồ thị vơ hƣớng mơ tả CRF 26 Hình 3-1: Mơ hình chƣơng trình tóm tắt sử dụng phƣơng pháp CRF 40 Hình 3-2: Giao diện Training Test 40 Hình 3-3: Giao diện tóm tắt văn 41 MỞ ĐẦU Lý lựa chọn đề tài Sự phát triển nhanh chóng Cơng nghệ thơng tin Truyền thơng đem lại cho giới mặt mới, ứng dụng Công nghệ thông tin Truyền thông hầu hết lĩnh vực sống Sự bùng nổ Internet mạng thơng tin tồn cầu làm cho lƣợng thông tin đƣợc sinh liên tục ngày với khối lƣợng lớn Lƣợng thông tin khổng lồ đem lại lợi ích khơng nhỏ dành cho ngƣời, nhƣng dẫn đến việc tìm kiếm tổng hợp thơng tin khơng thuận lợi, gây nhiều khó khăn để có đƣợc kết tìm kiếm mục đích tốn thời gian Con ngƣời phải nhiều thời gian đọc hết tài liệu vài chục trang chí nhiều để thu thập đƣợc thơng tin cần thiết, có giá trị từ lƣợng thơng tin lớn nhƣ Tóm tắt văn tự động đƣợc đề cập đến nhƣ cách tiếp cận giúp ngƣời có đƣợc lƣợng thơng tin nhiều giúp ngƣời dùng tiết kiệm đƣợc thời gian nâng cao chất lƣợng, hiệu làm việc Tóm tắt văn q trình chắt lọc thơng tin quan trọng từ nguồn để tạo ngắn gọn đáp ứng nhiệm vụ cụ thể ngƣời dùng cụ thể Tóm tắt văn chọn câu hàm chứa ý chính, câu quan trọng Tóm tắt văn có nhiều ứng dụng ngành Công nghệ thông tin nhƣ ngôn ngữ học ngành khác Trong năm gần đây, tóm tắt văn tự động lĩnh vực nghiên cứu thu hút đƣợc nhiều nhà nghiên cứu quan tâm Ứng dụng tóm tắt văn nhiều lĩnh vực khác nhƣ sinh tiêu đề tự động (headline generation ), rút gọn thông tin sử dụng thiết bị cầm tay nhƣ PDA, điện thoại di động,… Các phƣơng pháp thƣờng dựa kỹ thuật đƣợc đề xuất Luhn, Edmundson Salton trích rút câu quan trọng (key sentences) từ văn gốc kết hợp lại thành văn tóm tắt Trên giới nghiên cứu tóm tắt văn hiệu nhƣng chủ yếu tóm tắt văn tiếng nƣớc ngồi Việc tóm tắt văn tiếng Việt cịn hạn chế đặc trƣng đơn âm tiết từ mƣợn tiếng Việt Từ nhu cầu ứng dụng rộng rãi tóm tắt văn tiếng Việt thực tiễn nên luận văn em xin trình bày tốn tóm tắt văn tiếng Việt Mục đích nghiên cứu - Nghiên cứu sở lý thuyết hƣớng tiếp cận toán TTVB: phƣơng pháp thống kê, phƣơng pháp học máy, phƣơng pháp phân tích ngơn ngữ tự nhiên - Nghiên cứu phƣơng pháp học máy Conditional Random Field (CRF) - Xây dựng hệ thống tóm tắt văn theo phƣơng pháp CRF Đối tƣợng phạm vi nghiên cứu - Nghiên cứu tóm tắt văn tiếng Việt -Tóm tắt đa văn theo hƣớng trích rút câu phƣơng pháp học máy CRF Phƣơng pháp nghiên cứu - Về lý thuyết: Tìm hiểu sở lý thuyết tóm tắt văn phƣơng pháp tóm tắt văn hƣớng trích rút phƣơng pháp học máy CRF - Về thực nghiệm: Xây dựng ứng dụng tóm tắt văn Tiếng Việt phƣơng pháp Conditional Random Field Cấu trúc luận văn Ngoài Lời cam đoan, Lời cảm ơn, Mở đầu, Kết luận, Danh sách tài liệu tham khảo, nội dung luận văn đƣợc trình bảy ba chƣơng Cụ thể: Chương 1: Cơ sở lý thuyết tốn tóm tắt văn Trong chƣơng này, luận văn trình bày khái niệm tóm tắt văn tự động, giới thiệu học máy số cách tiếp cận để tóm tắt văn tiếng việt Chương 2: Tóm tắt văn tiếng Việt dựa CRF Trình bày phƣơng pháp CRF tốn tóm tắt văn tiếng Việt phƣơng pháp CRF Chƣơng 10 Các vấn đề tồn việc đánh giá hệ thống tóm tắt đƣợc nhiều nhà nghiên cứu tìm cách giải quyết, với trình phát triển tốn tóm tắt có nhiều phƣơng pháp đánh giá ứng dụng TTVB đƣợc đƣa Phƣơng pháp đánh giá ứng dụng tóm tắt đƣợc chia thành loại: Đánh giá bên (Intrinsic Evaluation) - Độ chặt chẽ: Độ chặt chẽ mạch lạc phản ánh việc văn kết có mâu thuẫn cấu trúc hay ngữ nghĩa không Thƣờng vấn đề vi phạm vấn đề từ nối (Conjunct) hay từ trùng lặp (Dangling Anaphor) - Độ hàm chứa thông tin (Informationess): Độ hàm chứa thông tin phản ánh lƣợng thông tin chứa nội dung văn kết Khi ứng dụng tóm tắt giản lƣợc văn nguồn độ hàm chứa thông tin văn kết giảm Đánh giá bên - Độ phù hợp (Relevance): Đầu vào văn chủ đề, yêu cầu xác định độ phù hợp văn với chủ đề Chủ để thay câu truy vấn - Độ dễ học, dễ hiểu (Reading Comprehence): Một ngƣời đƣợc giao việc đọc văn kết quả, sau phải trả lời câu hỏi Hệ thống phải cho điểm từ đƣa phần trăm câu trả lời So sánh bên bên Các phƣơng pháp đánh giá bên thƣờng đƣợc thực trình đầu xây dựng tự kiểm nghiệm ứng dụng, nghĩa có ích cho ngƣời phát triển ứng dụng Ngƣợc lại, phƣơng pháp đánh giá bên thƣờng đƣợc dùng muốn đánh giá giá trị thực ứng dụng, giá trị thực tiễn có lợi cho ngƣời sử dụng Tuy vậy, phƣơng pháp đánh giá bên ngồi thƣờng khơng giúp cho ngƣời phát triển ứng dụng việc phản hồi lại kết đánh giá nhằm cải thiện chất lƣợng tóm tắt, lại chức quan trọng phƣơng pháp đánh giá bên Một số phƣơng pháp đánh giá: 34 - Phương pháp ROUGE (Recall-Oriented Understudy for Gisting Evaluation) Phƣơng pháp đánh giá đƣợc đề xuất Lin năm 2004 Nó phƣơng pháp đo lƣờng để tự động xác định chất lƣợng tóm tắt cách so sánh với tóm tắt ngƣời tạo Độ tính tốn số trùng lặp đơn vị ngữ liệu văn nhƣ n-gram, thứ tự từ cặp từ văn máy tính sinh với văn ngƣời tạo Trong gói đánh giá tóm tắt ROUGE gồm độ đo ROUGE gồm: ROUGE-N, ROUGE-L, ROUGE-W, ROUGE-S Công thức độ đo ROUGE-N nhƣ sau: Cho R=(r1, r2, …, rn) tập tóm tắt mẫu, s tóm tắt tự động, Ωn(d) vector biểu diễn mơ hình n-gram văn d, n={1,2,3,4} - Trong đó: R=(r , r , …, r ) tập tóm tắt mẫu, s bảntóm tắt tự động, n Ω (r) vector biểu diễn mơ hình n-gram văn r, n - Phương pháp BLEU(Bilingual Evaluation Understudy) Phƣơng pháp đáng giá tự động BLEU đƣợc đề xuất IBM (2002), đại diện cho tiêu chuẩn đánh giá dịch máy BLEU liên kết n-grams sinh tự động với n-grams tham khảo tính tốn số liên kết cấp độ câu Đại lƣợng tính tốn câu đƣợc kết hợp lại với tồn tập test Các liên kết không phụ thuộc vào vị trí chúng câu Cuối độ đo BLEU trung bình độ xác n-gram đƣợc điều chỉnh Độ đo BLEU nằm khoảng (0,1) BLEU độ đo dựa đồng n-gram, bao gồm 1-gram, 2gram, 3-gram, 4-gram 35 Công thức độ đo nhƣ sau: BLEU (D1, D2) = 𝛽 * exp ( 𝑁 𝑛=1 w(n)log 𝑃(𝑛)) Trong đó: - Sử dụng n-grams có độ dài N tổng trọng số xác định Wn với P (n)= Xk/Yk - D1 tóm tắt tự động(do chƣơng trình tạo ra) - D2 tóm tắt thủ công - Xk số k-gram trùng hai văn - Yk số k-gram văn D1 - β điểm phạt, đƣợc tính nhƣ sau: Với a độ dài văn D2, b độ dài văn D1 - Trong phương pháp holdout: Dữ liệu đƣa đƣợc phân chia ngẫu nhiên thành phần: tập liệu đào tạo tập liệu kiểm tra Việc chia tập ngẫu nhiên làm phần theo tỉ lệ thông thƣờng nhƣ sau: 1:1, 70:30 , 60:40 Thông thƣờng 2/3 liệu cấp cho tập liệu đào tạo, phần lại cho tập liệu kiểm tra - Phương pháp k-fold cross validation: Tập liệu ban đầu đƣợc chia ngẫu nhiên thành k tập (fold) có kích thƣớc xấp xỉ S1, S2 ,…, Sk Quá trình học test đƣợc thực k lần Tại lần lặp thứ i, Si tập liệu kiểm tra, tập lại hợp thành tập liệu đào tạo Có nghĩa là, việc dạy đƣợc thực tập S2, S3 …, Sk, sau test tập S1; tiếp tục q trình dạy đƣợc thực tập S1, S3, S4,…, Sk, sau test tập S2; tiếp tục Phƣơng pháp để đánh giá hệ thống tóm tắt văn luận văn kfold cross validation 36 Đại lƣợng đánh giá hệ thống: Việc đánh giá độ xác mơ hình tóm tắt văn quan Nó cho phép ta so sánh độ xác mơ hình tập liệu huấn luyện, nữa, so sánh độ xác mơ hình ta xây dựng với mơ hình phân đoạn từ có Có nhiều cách để đánh giá độ xác mơ hình tóm tắt, nhƣng cách phổ biến sử dụng độ đo nhƣ độ xác (precision), độ hồi tƣởng (recall), độ đo F1 - Độ hồi tƣởng (R): Là tỷ lệ số câu tóm tắt đƣợc trả tổng số câu cần có thực tóm tắt Nhƣ độ bao phủ cho biết khả hệ thống tìm kiếm đƣợc câu văn tóm tắt - Độ xác (P): Là tỷ lệ số câu tóm tắt đƣợc trả tổng số câu đƣợc trả tóm tắt Nhƣ độ xác cho biết khả hệ thống tìm đƣợc câu xác - Độ đo F1 số cân độ xác độ hồi tƣởng Nếu độ xác độ hồi tƣởng cao cân độ đo F1 lớn, cịn độ xác hồi tƣởng nhỏ khơng cân độ đo F1 nhỏ Mục tiêu ta xây dựng mơ hình tóm tắt có số F1 cao Độ đo dựa theo từ đƣợc tính theo cơng thức sau: Recall = 𝑐 𝑁 Precision = F1 = 𝑐 𝑛 × 𝑅𝑒𝑐𝑎𝑙𝑙 ×𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 Recall + Precision Trong đó: - Kí hiệu c số câu đƣợc hệ thống tóm tắt - Kí hiệu N số câu văn tóm tắt mẫu - Kí hiệu n số câu văn tóm tắt trả 2.4 Tổng kết chƣơng Trong chƣơng trình bày giới thiệu CRF dựa vào phƣơng pháp CRF để tóm tắt văn bản: huấn luyện CRF suy diễn CRF Chƣơng nêu 37 đƣợc khó khăn, phƣơng pháp, đại lƣợng việc đánh giá hệ thống tóm tắt nhƣ đặc trƣng đƣợc sử dụng hệ thống tóm tắt văn 38 CHƢƠNG 3: CÀI ĐẶT VÀ THỬ NGHIỆM CHƢƠNG TRÌNH 3.1 Mơ tả hệ thống 3.1.1 Thu thập chuẩn bị liệu a) Thu thập liệu Dữ liệu dùng cho huấn luyện đƣợc thu thập từ nhiều nguồn khác mạng internet nhƣ báo điện tử dân trí, Vnexpress, báo Việt Nam Net, công nghệ số Các báo thuộc nhiều lĩnh vực, em xin liệt kê cụ thể dƣới đây: Lĩnh vực STT Số lƣợng Kinh tế 30 Xã hội 41 Giáo dục 17 Thể thao 10 Pháp luật 22 Tổng cộng 110 Bảng 3-1: Thống kê liệu sử dụng lĩnh vực b) Chuẩn bị liệu Các liệu sau thu thập từ internet đƣợc lọc lấy nội dung Sau liệu đƣợc xử lý bán tự động qua giai đoạn, nhằm đảm bảo độ xác liệu dùng cho huấn luyện mơ hình Giai đoạn1: Tách câu, từ: Sử dụng phần mềm tách từ tự động vnTokenizer tác giả Lê Hồng Phƣơng Vì sau phân từ tự động, phần lớn liệu đƣợc phân xác Tuy nhiên, ta gặp khó khăn đặc điểm tiếng Việt, nhƣ đặc điểm liệu lấy từ internet nhƣ sau: • Nhập nhằng tiếng Việt • Từ khơng có từ điển, tiêu biểu từ tiếng nƣớc ngồi • Từ sai tả Giai đoạn 2: Bằng phƣơng pháp thủ công kiểm tra lại liệu ghi nhãn liệu Mỗi câu đƣợc ghi nhãn 39 3.1.2 Mô hình chức hệ thống Mơ hình chƣơng trình tóm tắt sử dụng phƣơng pháp CRF Hình 3-1: Mơ hình chương trình tóm tắt sử dụng phương pháp CRF Hệ thống gồm chức chính: - Đào tạo hệ thống (Trainning); - Kiểm tra hệ thống (Test); - Tóm tắt văn bản; - Lƣu văn tóm tắt 3.1.3 Giao diện cách sử dụng chƣơng trình Giao diện chính: Hình 3-2: Giao diện Training Test 40 Hình 3-3: Giao diện tóm tắt văn Cách sử dụng chƣơng trình: - Bƣớc 1: Chọn nội dung văn để training test cách nhấn vào nút chọn dòng training test sau tìm đến file dạng văn - Bƣớc 2: Chọn nút training, test - Bƣớc 3: Chọn nút Thử nghiệm để tóm tắt văn bản, chƣơng trình lên hộp thoại “Bạn có muốn thử nghiệm tóm tắt văn khơng” nhấn yes để tiếp tục chƣơng trình - Bƣớc 4: Ở hộp thoại chọn file/Open (Ctrl + O) để tìm đến văn muốn tóm tắt, sau nhấn nút tóm tắt để tóm tắt văn - Bƣớc 5: Nhấn nút Save để lƣu văn đƣợc tóm tắt 3.2 Thử nghiệm 3.2.1 Thiết lập tham số Các tham số cho mơ hình CRF đƣợc thiết lập nhƣ sau: 41 Tham số Giá trị sigma_square m_for_hessian 100 Ý nghĩa phƣơng sai σ2 Số kết xác đƣợc tìm tìm kiếm L-BFGS num_iterations 200 Số lần lặp đào tạo init_lambda_value 0.0 Giá trị ban đầu trọng số tính order (yes) Trình tự, thiết lập theo mơ hình CRF, thiết lập theo mơ hình Markov CRF model_dir epsForConvergence 0.0001 Thƣ mục chứa mơ hình hệ thống Giá trị cho ta điều kiện dừng vịng lặp huấn luyện, nhƣ |log_likelihood(t)log_likelihood(t-1)|