Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 56 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
56
Dung lượng
0,97 MB
Nội dung
LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Mọi kết nghiên cứu ý tưởng tác giả khác có trích dẫn nguồn gốc cụ thể Các kết nêu luận án trung thực chưa công bố cơng trình khác Tác giả Mai Thị Thảo LỜI CẢM ƠN Trong thời gian thực luận văn này, tơi ln quan tâm, góp ý kiến PGS.TS Lê Thanh Hương Nhân dịp xin bày tỏ lời cảm ơn chân thành tới PGS TS Lê Thanh Hương, người trực tiếp hướng dẫn dành nhiều thời gian để sửa chữa, bổ sung vào trang thảo luận văn Xin chân thành bày tỏ lịng biết ơn đến tồn thể q Thầy Cơ Viện Công nghệ Thông tin Truyền thông trường Đại học Bách khoa Hà Nội, giảng viên truyền đạt kiến thức, kỹ năng, kinh nghiệm nghề nghiệp Tơi xin chân thành cảm ơn gia đình bạn lớp cao học Cơng nghệ Thơng tin khố 2012A tạo điều kiện giúp đỡ, động viên, chia sẻ để tơi hồn thành luận văn Luận văn cịn nhiều thiếu sót, mong thầy cô giáo hội đồng chấm luận văn xem xét, góp ý kiến để luận văn hồn thiện Tôi xin chân thành cảm ơn! Hà Nội, tháng 04 năm 2015 DANH MỤC CÁC CHỮ VIẾT TẮT Ký hiệu STT Diễn giải TTVB Tóm tắt văn R Recall P Precision BLEU Phương pháp đánh giá dịch máy tự động (BiLingual Evaluation Under Study) ROUGE Phương pháp đánh giá dịch máy tự động (Recall-Oriented Understudy for Gisting Evaluation) TF Term Frequency IDF Inverse Document Frequency IFS Inverse Sentence Frequency TF.IDF Term Frequency Inverse Document Frequency 10 TF.ISF Term Frequency Inverse Sentence Frequency DANH MỤC HÌNH VẼ Hình Các kiểu TTVB với tỉ lệ tóm tắt khác .4 Hình 2: Mơ hình chung tóm tắt văn .16 Hình 3: Mơ hình trích rút văn .17 Hình 4: Mơ hình hệ thống tóm tắt văn tiếng Việt 28 Hình Giao diện hệ thống .42 Hình Giao diện trọng số câu 43 MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC CÁC CHỮ VIẾT TẮT DANH MỤC HÌNH VẼ MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ BÀI TỐN TĨM TẮT VĂN BẢN 1.1 Khái niệm Tóm tắt văn 1.2 Phân loại tốn Tóm tắt văn 1.3 Ứng dụng tốn Tóm tắt văn 1.4 Đánh giá hệ thống Tóm tắt văn .8 1.4.1 Các tiêu chí đánh giá 1.4.2 Các yếu tố ảnh hưởng tới việc đánh giá hệ thống tóm tắt 1.4.3 Các phương pháp đánh giá hệ thống tóm tắt 1.4.3.1 Phương pháp thủ công 10 1.4.3.2 Phương pháp dựa độ xác độ hồi tưởng .10 1.4.3.3 Phương pháp dựa độ đo ROUGE 11 1.4.3.4 Phương pháp BLEU 12 1.5 Một số hệ thống tóm tắt văn điển hình .13 1.6 Kết luận 15 CHƯƠNG 2: CÁC PHƯƠNG PHÁP TÓM TẮT VĂN BẢN .16 2.1 Quá trình tóm tắt văn 16 2.2 Các phương pháp áp dụng pha 17 2.2.1 Pha Phân tích 17 2.2.1.1 Phương pháp thống kê 17 2.2.1.2 Phương pháp cấu trúc .18 2.2.2 Các phương pháp áp dụng pha Biến đổi .19 2.2.2.1 Giản lược cấu trúc câu (Syntactic Condensation) .19 2.2.2.2 Giản lược mặt ngữ nghĩa (Semantic Condensation) 20 2.2.3 Các phương pháp pha hiển thị .22 2.2.3.1 Phương pháp hiển thị phân đoạn 22 2.2.3.2 Phương pháp Hiển thị liên kết 23 2.3 Các phương pháp tóm tắt văn .24 2.3.1 Phương pháp thống kê 24 2.3.2 Phương pháp thống kê TF.IDF .25 2.3.3 Phương pháp học máy 25 2.3.3.1 Phương pháp Naïve-Bayes 25 2.3.3.2 Phương pháp OPP (Optimal Position Policy) 26 2.3.3.3 Phương pháp Decision Tree .27 2.3.3.4 Phương pháp Log-Linear 27 2.4 Kết luận 27 CHƯƠNG 3: XÂY DỰNG HỆ THỐNG TÓM TẮT VĂN BẢN TIẾNG VIỆT 28 3.1 Mơ hình hệ thống 28 3.2 Giai đoạn tiền xử lý 29 3.2.1 Tách câu 29 3.2.2 Tách từ 31 3.2.3 Loại bỏ từ dừng .33 3.2.4 Mơ hình hóa văn 34 3.3 Giai đoạn xử lý 35 3.3.1 Tính độ tương đồng câu văn .35 3.3.1.1 Độ tương đồng câu 35 3.3.1.2 Phương pháp tính độ tương đồng câu sử dụng độ đo Cosine 35 3.3.2 Tính trọng số câu 36 3.3.2.1 Trọng số từ 36 3.3.2.2 Tính trọng số câu 39 3.3.3 Sinh câu tóm tắt 40 3.4 Giai đoạn hiển thị 40 CHƯƠNG 4: CÀI ĐẶT ỨNG DỤNG 41 4.1 Mô tả sơ lược hệ thống .41 4.1.1 Các bước triển khai chương trình 41 4.1.2 Một số giao diện chương trình .42 4.2 Kiểm thử, đánh giá .43 4.2.1 Bộ liệu mẫu 43 4.2.2 Phương pháp sử dụng cho việc đánh giá 44 4.2.3 Các kết kiểm thử 46 4.2.4 Nhận xét, đánh giá 46 KẾT LUẬN VÀ KIẾN NGHỊ 47 TÀI LIỆU THAM KHẢO 48 MỞ ĐẦU Lý chọn đề tài Hai thập kỷ gần đây, khắp nơi giới tràn ngập thông tin Chính phát triển nhanh chóng Cơng nghệ thông tin Truyền thông đem lại cho giới mặt Các ứng dụng Công nghệ thông tin - Truyền thông diện hầu hết ngành, lĩnh vực sống: kinh tế tri thức, hợp tác tồn cầu, cơng việc quản lý, vận hành hoạt động từ vi mô tới vĩ mơ doanh nghiệp, tin học hóa quy trình hành chính, điều khiển tác nghiệp, giải trí, liên lạc, trợ giúp Đặc biệt, đời Internet - Mạng thơng tin tồn cầu - coi ngun nhân chính, thúc đẩy bùng nổ thơng tin tồn giới Thơng qua Internet, thơng tin quý giá lĩnh vực sẵn sàng đợi khám phá lĩnh hội Tóm tắt văn q trình chắt lọc thơng tin quan trọng từ nguồn để tạo ngắn gọn đáp ứng nhiệm vụ cụ thể người dùng cụ thể Tóm tắt văn làm nhiệm vụ chọn câu hàm chứa ý chính, câu quan trọng nên chất thuộc lĩnh vực Khai phá văn Tuy nhiên q trình chắt lọc, rút gọn cần có áp dụng phương pháp Xử lý ngôn ngữ tự nhiên muốn kết văn dễ đọc, dễ hiểu mang ý nghĩa ngôn ngữ tự nhiên đầu vào Trên giới có nhiều ứng dụng Tóm tắt văn bản, với mục đích nghiên cứu thương mại Nhưng với khó khăn thách thức riêng, Tóm tắt văn chưa nghiên cứu nhiều Việt Nam Chính lý tơi chọn Tóm tắt văn tiếng Việt đề tài luận văn, mong muốn góp phần cơng sức cho phát triển Khai phá văn tiếng Việt nói riêng Cơng nghệ thơng tin Việt Nam nói chung Mục đích nghiên cứu - Tìm hiểu sở lý thuyết Tóm tắt văn nói chung tóm tắt đơn văn tiếng Việt nói riêng - Nghiên cứu phương pháp tóm tắt văn tiếng Việt - Xây dựng hệ thống tóm tắt văn tiếng việt Đối tượng, phạm vi nghiên cứu - Tin tức, cụ thể báo mạng lấy từ số trang Web lớn như: http://dantri.com.vn, http://vnexpress.com.vn, http://24h.com.vn,… - Định dạng đầu vào quy định dạng file txt - Nghiên cứu phạm vi đơn văn Nội dung Nội dung luận văn trình bày theo chương với nội dung cụ thể sau: Chương 1: Tổng quan tốn TTVB Trình bày khái niệm TTVB nói chung, phân loại tốn TTVB, ứng dụng TTVB phương pháp đánh giá hệ thống TTVB tự động Chương 2: Bài tốn tóm tắt đơn văn phương pháp tóm tắt văn Tiếng Việt Trình bày q trình tóm tắt văn bản, hướng tiếp cận cho việc giải tốn tóm tắt đơn văn Chương 3: Xây dựng hệ thống tóm tắt trích rút đơn văn tiếng Việt Trình bày chi tiết hệ thống tóm tắt trích rút đơn văn tiếng Việt gồm: mơ hình hệ thống, giai đoạn xử lý, cấu trúc chương trình Chương 4: Cài đặt ứng dụng Trình bày giao diện hệ thống, phương pháp kiểm thử, cách thức thu thập tài liệu mẫu, hiển thị kết trình kiểm thử CHƯƠNG 1: TỔNG QUAN VỀ BÀI TỐN TĨM TẮT VĂN BẢN 1.1 Khái niệm Tóm tắt văn Có nhiều định nghĩa khác nói TTVB Tùy thuộc vào mục đích u cầu tốn hay góc nhìn nhận đối tượng sử dụng mà có định nghĩa khác nhau: Là việc thể nội dung văn dạng giản lược cách tự động nhằm đáp ứng yêu cầu từ phía người dùng [10] Là q trình rút thông tin quan trọng từ hay nhiều nguồn văn để tạo văn gọn phục vụ cho công việc, nhiệm vụ hay người dùng cụ thể [10] “Cho văn bản, tìm tóm tắt chứa ý văn thỏa nhu cầu khai thác văn bản” Hoàng Kiếm Đỗ Phúc Một số ứng dụng hệ thống TTVB tiếng Việt tự động: Tóm tắt tự động tin tức báo điện tử Trợ giúp thông minh việc đọc khai thác thông tin Tóm lược danh sách tìm kiếm từ Search Engine Giản lược nội dung trình bày cho thiết bị cầm tay Sinh tự động chủ đề, tiêu đề, dẫn đường văn Hỗ trợ tóm lược nội dung họp, website, chương trình phát truyền hình, sổ tay cơng việc Ngồi ra, số module kết hệ thống đầu vào hay bước tiền xử lý cho toán khác Khai phá văn Vậy TTVB gì? TTVB kỹ thuật mà máy tính tự động tạo tóm tắt hay nhiều văn nói cách khác “TTVB trình rút gọn hóa thơng tin để đưa thông tin quan trọng văn bản” văn bản/thành phần văn Các biến thể mơ hình khơng gian véc tơ thưa dựa khác hàm đánh giá giá trị trọng số Đặc điểm quan trọng mơ hình khơng gian véc tơ chỗ độ tương tự văn bản/thành phần văn tính qua độ tương tự véc tơ đại diện chúng Mơ hình khơng gian véc tơ sử dụng rộng rãi tính đơn giản hiệu Khơng gian vector có kích thước số thuật ngữ danh sách thuật ngữ (từ) Mỗi phần tử độ quan trọng thuật ngữ (trọng số từ) tương ứng câu 3.3 Giai đoạn xử lý 3.3.1 Tính độ tương đồng câu văn 3.3.1.1 Độ tương đồng câu Phát biểu tốn độ tính tương đồng câu sau: Xét tài liệu d gồm có n câu: d = s1, s2, , sn Mục tiêu toán tìm giá trị hàm S(si, sj) với S(0,1) i, j = 1, , n Hàm S(si, sj) gọi độ đo tương đồng hai câu si sj Giá trị cao giống nghĩa hai câu nhiều Ví dụ: Xét hai câu sau: “Tơi nam” “Tơi nữ”, trực giác thấy hai câu có tương đồng cao Độ tương đồng ngữ nghĩa giá trị tin cậy phản ánh mối quan hệ ngữ nghĩa hai câu Trên thực tế, khó lấy giá trị có xác cao ngữ nghĩa hiểu đầy đủ ngữ cảnh cụ thể 3.3.1.2 Phương pháp tính độ tương đồng câu sử dụng độ đo Cosine Trong phương pháp tính độ này, câu biểu diễn theo mơ hình khơng gian vector Mỗi thành phần vector đến từ tương ứng danh sách mục từ Danh sách mục từ thu từ q trình tiền xử lý văn đầu vào, bước tiền xử lý gồm: tách câu, tách từ, loại bỏ câu không hợp lệ (không phải câu thực sự) biểu diễn câu khơng gian vectơ Khơng gian vector có kích thước số mục từ danh sách mục từ Mỗi phần tử độ quan trọng mục từ tương ứng câu Độ quan trọng từ i 35 tính TF sau: w ij tf ij j tfij2 (12) Trong đó, tfij tần số xuất mục từ i câu j Với không gian biểu diễn tài liệu chọn không gian vector trọng số TF, độ đo tương đồng chọn cosine góc hai vector tương ứng hai câu Si Sk Vector biểu diễn hai câu có dạng: Si = , với wti trọng số từ thứ t câu i Sk = , với wtk trọng số từ thứ t câu k Độ tương tự chúng tính theo cơng thức: Cos ( Si , S k ) t j 1 w t j 1 ji w ji w jk w t j 1 (13) jk 3.3.2 Tính trọng số câu Để tính trọng số câu trước hết ta phải tính trọng số từ câu 3.3.2.1 Trọng số từ Có số phương pháp tính trọng số từ sau: a Phương pháp tính trọng số từ dựa Tần suất thuật ngữ (TF - Term Frequency) - Là phương pháp để đánh giá thuật ngữ tài liệu Ý tưởng phương pháp xem xét đến tần suất xuất từ tài liệu Tức từ coi quan trọng tài liệu xuất nhiều lần Gọi wij giá trị trọng số thuật ngữ ti văn dj Các giá trị wij tính dựa tần số xuất thuật ngữ văn [8] Gọi fij số lần xuất thuật ngữ ti văn dj, wij tính công thức: wij = fij (14) wij = + log(fij) (15) 36 w ij (16) fif Trọng số wij tỷ lệ thuận với số lần xuất thuật ngữ ti văn dj Khi số lần xuất thuật ngữ ti văn dj lớn điều có nghĩa văn dj phụ thuộc vào thuật ngữ ti, thuật ngữ ti mang nhiều thông tin văn dj b Phương pháp tính trọng số từ dựa nghịch đảo tần số văn (IDF – Inverse Document Frequency): -Là phương pháp dựa nghịch đảo tần số văn Trong phương pháp trọng số từ tính dựa độ quan trọng từ văn Nếu từ xuất văn bản, điều có nghĩa xuất văn trọng số văn lớn hay điểm quan trọng để phân biệt văn với văn khác m log log( m) log( hi ) wij hi 0 Nếu thuật ngữ ti xuất tài liệu dj (17) Nếu ngược lại Trong m số lượng văn hi số văn mà thuật ngữ ti xuất Trọng số wij cơng thức tính dựa độ quan trọng thuật ngữ ti văn dj Nếu ti xuất văn bản, điều có nghĩa xuất dj trọng số văn dj lớn hay điểm quan trọng để phân biệt văn dj với văn khác hàm lượng thơng tin lớn Ví dụ thuật ngữ “tiền đạo”, “hậu vệ”, “thủ môn” xuất báo nói lĩnh vực bóng đá Như vậy, hàm lượng thơng tin bóng đá chứa đựng thuật ngữ lớn c Phương pháp tính trọng số từ dựa TF.IDF (Term Frequency Inverse Document Frequency) Mơ hình kết hợp mơ hình trên, giá trị ma trận trọng số tính sau: 37 m [1 log( f ij )] log nÕu hij wij hi ng-ợc lại (18) u im ca TF tận dụng tính thường xuyên thuật ngữ văn Ưu điểm IDF loại bỏ thuật ngữ xuất phổ biến sở liệu Trọng số wij tính tần số xuất thuật ngữ ti văn dj độ thuật ngữ ti tồn sở liệu Với mơ hình TF.IDF, trọng số wij có ý nghĩa kết hợp quan trọng ti văn dj với giá trị phân biệt ti văn d với văn khác d Phương pháp tính trọng số từ dựa TF.ISF (Term Frequency Inverse Sentence Frequency) Trong tốn tóm tắt văn Tiếng việt xét đối tượng tóm tắt khơng phải đa văn mà đơn văn bản, việc xử lý tiến hành câu thành phần vector biểu diễn câu văn Tương tự vậy, số lượng văn D công thức thay số lượng câu văn Do đó, phương pháp TF.ISF áp dụng tốn để tính trọng số từ i câu j, ký hiệu TF.ISF(i,j) tính theo cơng thức: Wij = tfij isfi Với giá trị tfij = + log(fij) m isfij = log hi Trong đó, fij số lần xuất từ thứ i câu j tfij ‘term frequency’ từ thứ i câu thứ j isfij ‘inverse sentence frequency’ từ thứ i câu thứ j m tổng số câu văn đầu vào hi số câu chứa từ thứ i 38 (19) Giải thuật tính trọng số câu giải thuật đơn giản hệ thống Mục đích tạo TTVB cách xây dựng hệ thống tính trọng số cho câu văn Sau dựa vào hệ số rút gọn để rút câu có điểm cao 3.3.2.2 Tính trọng số câu Trước mơ tả việc xây dựng giải thuật, đưa số nhận xét sau: - Các từ xuất tiêu đề thường từ quan trọng văn bản, dùng chúng để định độ quan trọng câu văn Có thể áp dụng cho giải thuật cách tăng trọng số từ theo hệ số - Thơng tin đưa vài câu đầu (nhiều đoạn văn đầu) văn hầu hết trường hợp có tính biểu lộ cao ý nghĩa văn Các câu quan trọng xuất cuối văn bản, so với đầu văn Vì vậy, với câu thuộc vị trí đầu cuối văn bản, tăng trọng số chúng theo hệ số - Với văn có mật độ thông tin dày đặc, đặc biệt văn lĩnh vực thương mại hay tài chính, khó khăn cho hệ thống trích rút Do độ xác tóm tắt thấp hơn, có nghĩa hệ thống bỏ qua nhiều thông tin quan trọng Điều hiển nhiên giới hạn lĩnh vực nội dung văn mà hệ thống thực Tuy nhiên, phải thừa nhận người tóm tắt văn thuộc loại gặp nhiều khó khăn Vì luận văn gán hệ số vị trí sau: - Hệ số vị trí 3 s câu tiêu đề hvt ( s ) 2 s đầu câu 1 s câu lại Tính trọng số câu Đầu vào: Các từ câu sau loại bỏ từ dừng Đầu ra: Trọng số câu Tính trọng số cho thuật ngữ t câu s: 39 m TF ISF (t , s) (1 log( fts )) log( ) hvt (t ) ht (20) Trong đó: m số lượng câu văn hvt (t) hệ số vị trí fts số lần xuất từ t câu s ht số lượng câu chứa từ t -Tính trọng số câu Score(s) = t (s) i 1 TF ISF (ti , s) (21) Trong đó: t(s) số thuật ngữ có câu s 3.3.3 Sinh câu tóm tắt Ở bước thực công việc sau đây: Loại bỏ câu cặp câu có độ tương đồng cao (là câu có khả trùng lặp nội dung) Ta thực loại bỏ câu có độ dài ngắn cặp câu cần loại Lấy danh sách câu theo tỷ lệ rút gọn Sắp xếp số câu chọn cho văn tóm tắt theo thứ tự giảm dần Lấy câu sau xếp tăng dần theo số gán ban đầu Đối với việc lựa chọn ngưỡng cho việc loại bỏ bớt câu có nội dung trùng văn cần có thời gian trải qua trình thực nghiệm kiểm thử áp dụng phương pháp hoc máy cho hiệu cao Do thời gian có hạn nên chưa thể đưa ngưỡng xác tổng quát cho tốn tóm tắt văn Tuy nhiên, luận văn đưa ngưỡng cho việc loại bỏ câu theo ý kiến chủ quan dựa trình thử nghiệm thủ cơng nhằm minh họa phần cho cách thức áp dụng module vào hệ thống Cụ thể, ngưỡng loại bỏ câu trùng đưa 0.8 3.4 Giai đoạn hiển thị Giai đoạn hiển thị đơn giản tiếp nhận câu chọn giai đoạn xử lý sau lấy nội dung ban đầu hiển thị chúng hình 40 CHƯƠNG 4: CÀI ĐẶT ỨNG DỤNG Chương trình tóm tắt đơn văn xây dựng môi trường NET ngôn ngữ C# Đây ngơn ngữ có khả xử lý tốt liệu phẳng, đồng thời có hỗ trợ đối tượng cấu trúc liệu hữu ích cho tốn tóm tắt văn 4.1 Mô tả sơ lược hệ thống 4.1.1 Các bước triển khai chương trình Bước 1: Tiền xử lý văn tiếng Việt: - Tại bước tiến hành tách câu văn việc sử dụng công cụ tách câu cung cấp miễn phí như: vnSentdetector phát triển nhóm tác giả Lê Hồng Phương Hồ Tường Vinh, câu tách xong để dịng đề tiện cho q trình tách từ sau sử dụng thuật toán để nhận dạng câu văn ký tự hết câu,… - Sau tách câu sử dụng chương trình tách từ VnTokenizer nhóm tác giả Nguyễn Thị Minh Huyền, Vũ Xuân Lương Lê Hồng Phương để tách nội dung văn cần tóm tắt thành đơn vị từ - Từ danh sách câu, từ tách ta tiến hành loại bỏ từ dừng thông qua từ điển từ dừng - Đến thời điểm có danh sách câu với việc loại bỏ từ dừng Để phục vụ cho bước ta tiến hành vector hóa câu văn Mỗi câu văn biểu diễn dạng vector Bước 2: Tính trọng số câu: Dựa vào kết vector hóa câu văn bản, ta tiến hành tính trọng số câu qua bước sau: Tính độ tương đồng câu văn Tính trọng số cho tồn câu Bước 3: Trích rút, tạo văn tóm tắt: Sau tính trọng số cho toàn câu, vào kết tính tốn tỷ lệ tóm tắt X xác định từ trước hồn tồn chọn câu thỏa 41 mãn để tạo thành văn tóm tắt trích xuất từ văn gốc thỏa mãn điều kiện chương trình 4.1.2 Một số giao diện chương trình Hệ thống gồm có giao diện: Giao diện Chọn văn cần tóm tắt Chọn tỉ lệ tóm tắt Chạy chương trình Hình Giao diện hệ thống Cách sử dụng chương trình Bước 1: Nhập văn cần tóm tắt Bước 2: Lựa chọn tỉ lệ cần để tóm tắt văn Bước 3: Thực xử lý văn + Kết hiển thị theo thứ tự câu văn + Kết hiển thị theo thứ tự giá trị trọng số câu Bước 4: Nhấn nút Thực để bắt đầu tóm tắt Sau tóm tắt xong kết tóm tắt lưu trữ lại theo để thực truy xuất liệu sau 42 Hình Giao diện trọng số câu 4.2 Kiểm thử, đánh giá 4.2.1 Bộ liệu mẫu Bộ liệu mẫu sử dụng cho trình kiểm thử luận văn gồm 70 văn với tóm tắt tương ứng sử dụng đề tài cấp PGS.TS Lê Thanh Hương [2] Các văn tóm tắt chương trình chọn tỉ lệ phần trăm để có độ dài tương đương với tóm tắt mẫu để kết đánh giá xác Các văn tập ngữ liệu lấy từ trang web tin tức tiếng Việt (như Dantri, VnExpress, v.v…) tin trang web Bộ Khoa học Công nghệ Các tin báo điện tử lấy từ lĩnh vực trị, khoa học giáo dục, kinh tế, văn hóa xã hội Độ dài tin từ 300 đến 1000 từ Các tin loại bỏ hình ảnh, liên kết đến văn khác, giữ lại phần nội dung thơng tin Bản tóm tắt có độ dài xấp xỉ 100 từ 43 4.2.2 Phương pháp sử dụng cho việc đánh giá Sử dụng phương pháp đánh giá ROUGE cho việc đánh giá hệ thống tóm tắt tự động mà luận văn xây dựng Bởi phương pháp đánh giá phổ biến sử dụng nhiều cho đánh giá tóm tắt đơn văn 4.2.3 Các kết kiểm thử Thực kiểm thử văn mẫu giới thiệu Kiểm thử sử dụng độ đo ROUGE với n-grams 1,2,3,4 Để hiểu rõ cho hệ thống tơi xin đưa ví dụ minh họa đầu vào, đầu hệ thống tóm tắt văn bản: Văn đầu vào: “Thắt” chi tiêu, gửi ngân hàngSau năm khủng hoảng kinh tế, dòng tiền từ khu vực dân cư vào khu vực bất động sản kinh doanh giảm mạnh, thay vào đó, trở thành cứu cánh cho huy động tổ chức tín dụng giai đoạn này.Báo cáo Ủy ban Giám sát Tài Quốc gia (NFSC) vừa cơng bố cho thấy, tình trạng tăng trưởng kinh tế thấp, tổng cầu kinh tế yếu tác động mạnh đến xu hướng đầu tư hộ gia đình.Kết khảo sát quan cho thấy, vòng năm kể từ tháng 3/2012 đến tháng 2/2013, đầu tư vào bất động sản sản xuất kinh doanh suy giảm mạnh.Nếu đầu năm 2012 có tới 25% số người hỏi cho biết đầu tư vào thị trường bất động sản thời điểm tháng 3/2013 có 10% đầu tư vào khu vực Tại khu vực sản xuất kinh doanh, có 8% cho biết đầu tư vào hoạt động năm 2013, giảm 32% so với thời điểm tháng năm ngối 40% Thay vào đó, khu vực hộ gia đình có xu hướng chuyển dịng tiền vào ngoại tệ đầu tư khác.Qua khảo sát, NSFC cho biết, giai đoạn 2008-2012 , tiền gửi ngân hàng hộ gia đình (hay huy động từ khu vực dân cư) tăng ổn định hỗ trợ tích cực khoản cho hệ thống TCTD nước.Theo đó, năm 2012, huy động từ khu vực dân cư tăng 22,01% đến 30/4/2013, tỷ lệ đạt 21,9% so với kỳ năm trước Cơ cấu huy động dân cư/tổng tài sản TCTD tăng 7,96 điểm phần trăm từ 27,32% năm 2008 lên 35,29% năm 2012, đáng lưu ý 44 giai đoạn hệ thống TCTD gặp phải nhiều khó khăn khả tốn NSFC nhận xét, khu vực dân cư cứu cánh cho TCTD giai đoạn Tuy nhiên, thu nhập hộ gia đình bị ảnh hưởng suy thối kinh tế đình trệ khu vực doanh nghiệp nên tốc độ tăng huy động từ khu vực từ 2011 bị giảm Bên cạnh đó, xu hướng thắt chặt chi tiêu hộ gia đình góp phần khiến khu vực doanh nghiệp khó phục hồi Đồng thời, thay đổi hành vi khu vực hộ gia đình theo hướng giảm sản xuất cung ứng dịch vụ nguyên nhân khiến phân khúc bán lẻ thị trường bất động sản tiếp tục suy giảm chưa có dấu hiệu phục hồi tháng đầu năm 2013 Văn mẫu kiểm thử Ủy ban Giám sát Tài Quốc gia cho biết tình trạng tăng trưởng kinh tế thấp, tổng cầu kinh tế yếu tác động mạnh đến xu hướng đầu tư hộ gia đình Đầu tư vào bất động sản sản xuất kinh doanh suy giảm mạnh Thay vào đó, xu hướng chuyển dòng tiền vào ngoại tệ đầu tư khác Trong đó, tiền gửi ngân hàng hộ gia đình tăng ổn định hỗ trợ tích cực khoản cho hệ thống TCTD nước Văn kết hệ thống “Thắt” chi tiêu, gửi ngân hàng Sau năm khủng hoảng kinh tế, dòng tiền từ khu vực dân cư vào khu vực bất động sản kinh doanh giảm mạnh, thay vào đó, trở thành cứu cánh cho huy động tổ chức tín dụng giai đoạn Báo cáo Ủy ban Giám sát Tài Quốc gia (NFSC) vừa cơng bố cho thấy, tình trạng tăng trưởng kinh tế thấp, tổng cầu kinh tế yếu tác động mạnh đến xu hướng đầu tư hộ gia đình Kết kiểm thử độ đo ROUGE N-GRAM-1: 0.4112781954887219 N-GRAM-2: 0.3785496183206107 N-GRAM-3: 0.32961240310077516 N-GRAM-4: 0.30519685039370075 45 4.2.4 Nhận xét, đánh giá Về mặt chất lượng văn tóm tắt: Theo kết đánh giá sử dụng độ đo ROUGE ta thấy văn đầu hệ thống có đồng lớn văn tóm tắt mẫu Bằng trực quan, trực tiếp quan sát văn đầu hệ thống thực tế mục đích trơi chảy văn đầu hệ thống cịn có nhiều hạn chế cách thức tóm tắt trích rút câu nên câu trích rút cịn rời rạc chưa có liên kết chặt chẽ mặt ngữ nghĩa, với mục đích tóm gọn nội dung văn tóm tắt đáp ứng tốt Về mặt thời gian Hệ thống tóm tắt có thời gian chạy chậm, số thuật toán chưa tối ưu Thời gian chạy hệ thống tỷ lệ thuận với độ dài văn đầu vào Khả ứng dụng hệ thống Hệ thống có khả thực tóm tắt hiệu văn ngắn trung bình báo, tin tức Internet Hệ thống tích hợp cơng cụ thu thập thơng tin dạng văn để đưa nhiều thơng tin xác tới người dùng 46 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận Có thể thấy tốn TTVB tốn có giá trị ứng dụng lớn Với phát triển kho liệu khổng lồ kỹ thuật nâng cao khả tính tốn máy móc, ứng dụng TTVB thực ngày nhiều theo nhu cầu người Các kỹ thuật TTVB nói chung TTVB tiếng Việt nói riêng nghiên cứu phát triển thêm khoảng thời gian tới Đề tài nghiên cứu đưa giải số vấn đề sau: - Nghiên cứu lý thuyết tổng quan TTVB, phương pháp xu hướng giải toán - Phân tích kỹ thuật áp dụng cho toán TTVB tiếng Việt - Xây dựng hệ thống TTVB tiếng Việt có sử dụng đến kỹ thuật trình bày - Thơng qua thử nghiệm đánh giá cho thấy hệ thống đạt kết tương đối tốt số liệu thử nghiệm, từ hứa hẹn triển khai thực tế Khuyến nghị Hệ thống Tóm tắt văn tiếng Việt sau hồn thiện đưa vào hoạt động thực tế hỗ trợ nhiều trình tìm kiếm chắt lọc thông tin Tuy nhiên để hệ thống hoạt động tốt thực tế cần phải phân tích xử lý kỹ cú pháp, ngữ nghĩa tiếng Việt Hướng phát triển hệ thống tương lai: - Xử lý chặt chẽ cú pháp, ngữ nghĩa tiếng Việt - Thực thử nghiệm với tập liệu lớn hơn, nhiều lĩnh vực hơn, để có nhìn xác hệ thống - Triển khai hệ thống ứng dụng thực tế để đánh giá khả ứng dụng thực tiễn hệ thống 47 TÀI LIỆU THAM KHẢO TIẾNG VIỆT [1] Đỗ Phúc, Hồng Kiếm, (2004), Rút trích ý từ văn tiếng Việt hỗ trợ tạo tóm tắt nội dung”, Tạp chí Bưu viễn thơng, chun san cơng trình nghiên cứu, triển khai viễn thông & CNTT, số 13 [2] Lê Thanh Hương 2014 Nghiên cứu số phương pháp tóm tắt văn tự động máy tính áp dụng cho tiếng Việt Đề tài cấp Bộ mã số B2012 - 01 – 24 [3] Lương Chi Mai Hồ Tú Bảo (2009) Báo cáo Tổng kết đề tài KC.01.01/06-10 "Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt"và Về xử lý tiếng Việt công nghệ thông tin (2006),Viện Công nghệ Thông tin, Viện Khoa học Công nghệ Việt Nam, 2009 [4] Phạm Thị Thu Uyên, Hoàng Minh Hiền, Trần Mai Vũ, Hà Quang Thụy, (2008), Độ đo tương đồng ngữ nghĩa hai câu ứng dụng tóm tắt văn tiếng Việt, Hội thảo Quốc Gia Một số vấn đề chọn lọc Công nghệ thông tin truyền thông lần thứ XI, Huế [5] Trần Mai Vũ,(2009), Tóm tắt đa văn dựa vào trích xuất câu, Luận văn thạc sĩ, ĐH Quốc Gia Hà Nội - Đại học Công nghệ TIẾNG ANH [6] Barry Schiffman (2007) Summarization for Q&A at Columbia University for DUC 2007, In Document Understanding Conference 2007 (DUC07), Rochester, NY, April 26-27, 2007 [7] Barzilay R., McKeown K., and Elhadad M Information fusion in the context of multidocument summarization, Proceedings of the 37thannual meeting of the Association for Computational Linguistics: 550–557, New Brunswick, New Jersey, 1999 [8] J Larocca Neto, AD Santos, CAA Kaestner, and AA Freitas, (2000), Document Clustering and Text Summarization In N Mackin, editor, Proc 4th 48 International Conference Practical Applications of Knowledge Discovery and Data Mining (PADD-2000) [9] Lin, Chin-Yew and E.H Hovy 2003 Automatic Evaluation of Summaries Using N-gram Co-occurrence Statistics In Proceedings of 2003 Language Technology Conference (HLT-NAACL 2003), Edmonton, Canada, May 27 - June 1, 2003 [10] Partha Lal, Text Summarization, Doctor thesis, 07/2002 [11] Regina Barzilay and Michael Elhadad Using Lexical Chains for Text Summarization, In Advances in Automatic TextSummarization (Inderjeet Mani and Mark T Maybury, editors): 111–121, The MIT Press, 19 [12] Udo Hahn, Automated Text Summarization- Methods, Systems, Evaluatio Các công cụ sử dụng [13] Nguyễn Thị Minh Huyền, Vũ Xuân Lương Lê Hồng Phương, vnTokenizer [14] Lê Hồng Phương, Hồ Vĩnh Tường, vnSentdetector Website [15] http://mim.hus.vnu.edu.vn/phuonglh/softwares 49 ... tốn tóm tắt đơn văn phương pháp tóm tắt văn Tiếng Việt Trình bày q trình tóm tắt văn bản, hướng tiếp cận cho việc giải tốn tóm tắt đơn văn Chương 3: Xây dựng hệ thống tóm tắt trích rút đơn văn tiếng. .. yêu cầu Tóm tắt đơn văn Tóm tắt đa văn bản: Khi xét đầu vào hệ thống TTVB, ta chia thành hai dạng tóm tắt đơn văn (SingleDocument) tóm tắt đa văn (Multi-Document) Tóm tắt đơn văn từ văn nguồn... đến tóm tắt văn phương pháp tóm tắt văn tiếng Việt Trong chương luận văn trình bày cụ thể phương pháp tóm tắt văn tiếng Việt dựa theo phương pháp thống kê TF.ISF tính trọng số câu để đưa văn tóm