ĐỀ TÀI XÂY DỰNG CHƯƠNG TRÌNH TÓM TẮT VĂN BẢN TIẾNG VIỆT

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG VIỆT HÀN KHOA KHOA HỌC MÁY TÍNH ĐỒ ÁN CHUYÊN NGÀNH ĐỀ TÀI: XÂY DỰNG CHƯƠNG TRÌNH TĨM TẮT VĂN BẢN TIẾNG VIỆT Sinh viên thực : ÔNG BỬU KHÁNH -18IT279 NGUYỄN NGỌC ANH KHOA-18IT280 Giảng viên hướng dẫn : PGS.TS HUỲNH CÔNG PHÁP Lớp : 18IT5 Đà nẵng, tháng 05 năm 2022 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG VIỆT HÀN KHOA KHOA HỌC MÁY TÍNH ĐỒ ÁN CHUYÊN NGÀNH ĐỀ TÀI: XÂY DỰNG CHƯƠNG TRÌNH TĨM TẮT VĂN BẢN TIẾNG VIỆT Sinh viên thực : ÔNG BỬU KHÁNH -18IT279 NGUYỄN NGỌC ANH KHOA-18IT280 Giảng viên hướng dẫn : PGS.TS HUỲNH CÔNG PHÁP Lớp : 18IT5 Đà nẵng, tháng 05 năm 2022 LỜI CẢM ƠN Đầu tiên, em xin chân thành cảm ơn thầy giáo PGS.TS Huỳnh Công Pháp – Đồ án chuyên ngành 2, Khoa CNTT - gợi ý hướng dẫn tận tình giúp đỡ em hồn thành đồ án Em xin chân thành cảm ơn thầy cô giáo khoa Công nghệ thông tin thầy cô giảng dạy trường Đại học CNTT Việt Hàn truyền đạt cho em kiến thức bổ ích suốt thời gian em học tập nghiên cứu trường Trong trình thực đồ án, thời gian kiến thức có hạn nên em khơng thể tránh khỏi thiếu sót định Vì em mong nhận giúp đỡ góp ý kiến từ phía thầy giáo bạn Một lần em xin chân thành cảm ơn! Đà Nẵng ngày 27 tháng 05 năm 2022 Sinh viên Ông Bửu Khánh Nguyễn Ngọc Anh Khoa Ông Bửu Khánh – Nguyễn Ngọc Anh Khoa Trang MỤC LỤC MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT .5 CHƯƠNG I – MỞ ĐẦU .6 1.1 Khai thác văn 1.1.1 Khai thác văn gì? 1.1.2 Một số toán tiêu biểu Khai thác văn 1.2 Bài toán TTVB - Automatic Text Summarization (ATS) 1.2.1 Tóm tắt văn (TTVB) 1.2.2 Ứng dụng tóm tắt văn (TTVB) 1.2.3 Giải toán TTVB 1.3 Mục đích lựa chọn đề tài 1.4 Các mục tiêu cụ thể đồ án 10 CHƯƠNG II - CÁC PHƯƠNG ÁN GIẢI QUYẾT BÀI TỐN TĨM TẮT VĂN BẢN .11 2.1 Một số khái niệm TTVB 12 2.1.1 Mơ hình hệ thống TTVB 12 2.1.1.1 Các loại TTVB 12 2.1.1.2 Các tiêu chí thực tóm tắt .13 2.1.1.3 Mơ hình bên ngồi hệ thống Tóm tắt 13 2.1.2 Qui trình thực TTVB 14 2.1.2.1 Quá trình tiền xử lý .15 2.1.2.2 Quá trình xử lý 16 2.1.2.3 Quá trình sinh kết 16 2.2 Các giải thuật TTVB 17 2.2.1 Kỹ thuật Word2Vec 17 2.2.1.1 Một số định nghĩa .18 2.2.2 Giải thuật dựa phân nhóm đoạn văn văn (Paragraphs Clustering for Summarization) 19 2.2.2.1 Định nghĩa phân nhóm .19 2.2.2.2 Giải thuật cho tốn phân nhóm 20 2.2.2.3 Áp dụng phân nhóm văn cho tốn TTVB .21 2.2.2.4 Đánh giá .21 Ông Bửu Khánh – Nguyễn Ngọc Anh Khoa Trang 2.2.3 Giải thuật sử dụng đặc trưng tóm tắt kết hợp thuật tốn học máy (Summarization using Machine Learning Algorithm) 22 2.2.3.1 Các đặc trưng tóm tắt (Summaried Features) .22 2.2.4 Giải thuật áp dụng đặc trưng liên kết ngữ nghĩa văn (Summarization using Cohesion Features) 23 2.2.4.1 Các định nghĩa .23 2.2.4.2 Liên kết ngữ nghĩa ứng dụng TTVB 25 2.2.4.3 Giải thuật áp dụng chuỗi từ vựng để TTVB (Summarization using Lexical Chains) .26 2.2.5 Giải thuật áp dụng đặc trưng liên kết cấu trúc văn (Summarization using Coherence Features) 26 2.2.5.1 Khái niệm liên kết cấu trúc (Coherence) .26 2.2.5.2 Áp dụng liên kết cấu trúc cho TTVB 27 2.2.6 Kết luận 27 CHƯƠNG III - TIỀN XỬ LÝ VĂN BẢN TIẾNG VIỆT 28 3.1 Phương pháp tách thuật ngữ tiếng Việt 29 3.2 Xây dựng từ điển 31 3.2.1 Tổ chức cấu trúc ghi từ điển 32 3.2.2 Tổ chức kết cấu 36 3.2.2.1 Lưu trữ theo danh sách xếp 36 3.3 Loại bỏ từ dừng (stop world) 36 3.4 Biểu diễn văn theo mơ hình hóa khơng gian véc tơ cho Tiếng Việt37 3.4.1 Mơ hình hóa khơng gian vector word2vec .37 3.4.2 Skip-gram Model 38 3.4.3 Word2vec cải tiến 40 3.4.3.1 Word2vec cải tiến 1(Xử lý cụm từ từ đơn) 40 3.4.3.2 Word2vec cải tiến 2(Loại bỏ từ thường xuyên lặp lại) .40 3.4.3.3 Word2vec cải tiến 3(Negative Sampling) 40 3.5 Kết word2Vec .40 CHƯƠNG IV – TRIỂN KHAI XÂY DỰNG 43 4.1 Các bước xử lý 44 4.1.1 Tiền xử lý văn 44 4.1.2 Tách câu văn 44 4.1.3 Chuyển câu sang vector 44 4.1.4 Phân cụm (K-mean Clustering) 45 4.1.5 Xây dựng đoạn văn cần tóm tắt .45 4.2 Giao diện chương trình kết .46 Ông Bửu Khánh – Nguyễn Ngọc Anh Khoa Trang TỔNG KẾT .47 TÀI LIỆU THAM KHẢO 48 Ông Bửu Khánh – Nguyễn Ngọc Anh Khoa Trang DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt Giải nghĩa ATS CSDL DM DTW FS hc IDF Inverse Document Frequency IPF Inverse Paragraph Frequency ISF Inverse Sentence Frequency 10 IR Information Retrieval 11 KDT Knowledge-Discovery in Text 12 MDS Multi Documents Summarization 13 PCS Paragraphs Clustering for Summarization 14 SDS Single Document Sumarization 15 SF 16 SMLA 17 TF Term Frequency 18 TM Text Mining 19 TRSM Tolerance Rough Set Model 20 TTVB Tóm Tắt Văn Bản 21 VSP Automatic Text Summarization Cơ Sở Dữ Liệu Data Mining Determining Term Weights Fuzzy Set Hierachical Clustering Summaried Feature Summarization using Machine Learning Algorithm Vector Space Model Ông Bửu Khánh – Nguyễn Ngọc Anh Khoa Trang CHƯƠNG I MỞ ĐẦU Ông Bửu Khánh – Nguyễn Ngọc Anh Khoa Trang 1.1 Khai thác văn 1.1.1 Khai thác văn ? Với phát triển vượt bậc khoa học công nghệ đặc biệt CNTT, ngày lượng thông tin tồn phương tiện truyền thông (internet, TV, news, email ) phát triển cách nhanh chóng Mỗi ngày lại có vô số thông tin tạo từ nhiều nguồn khác Chúng đòi hỏi phải lưu trữ để truy cập sử dụng cần thiết Đi từ nhu cầu thực tế đó, lĩnh vực khai thác liệu (Data Mining - DM) mà cụ thể khai thác văn (Text Mining - TM) đặt nhiều yêu cầu nghiên cứu khác liên quan phục vụ cho việc quản lý khai thác nguồn liệu khổng lồ Vậy khai thác liệu văn ? Khai thác liệu phương pháp trích chọn, sàng lọc để tìm thông tin cần thiết từ kho liệu ban đầu Các thông tin chưa biết trước, có giá trị tiềm sử dụng Văn (Text) kiểu liệu, cụ thể : tập hợp từ liền nhằm diễn đạt nội dung Do văn loại liệu khơng có cấu trúc bán cấu trúc Khai thác văn bản, biết đến phân tích văn thơng minh (inteligent text analysis), khai thác liệu văn (text data mining) khám phá tri thức văn (knowledge-discovery in text - KDT) liên quan đến q trình trích lọc thơng tin, tri thức cần thiết chưa khai phá có giá trị sử dụng từ kho văn Khai thác văn lĩnh vực kết hợp nhiều lĩnh vực nghiên cứu khác liên quan : tìm kiếm thông tin (information retrieval), khai thác liệu (data mining), học máy (machine learning), ngơn ngữ học máy tính (computer linguistics) Với 80% thông tin liệu lưu trữ dạng văn (theo thống kê Bách khoa toàn thư WIKIPEDIA), khai thác văn có tiềm ứng dụng lớn ngày trở nên quan trọng 1.1.2 Một số toán tiêu biểu Khai thác văn Có thể nêu số tốn có ứng dụng quan trọng lĩnh vực khai thác văn sau : - Phân loại văn (Text Categorization - Text Classification): Cho tập văn phân loại theo chủ đề cho trước (VD: kinh tế, triết học, thể thao, văn hoá, ….) Xuất văn chưa phân loại, vấn đề đặt xác định văn thuộc loại - chủ đề Ông Bửu Khánh – Nguyễn Ngọc Anh Khoa Trang - Lập nhóm văn (Text Clustering) : Từ tập hợp văn bất kỳ, cần lập nhóm văn theo độ tương tự nội dung chúng Số nhóm người dùng định hệ thống lựa chọn số nhóm thích hợp - Tóm tắt văn (Text Summarization) : Cho văn bất kỳ, cần đưa thể nội dung ngắn gọn cho văn - Tìm kiếm thơng tin (Information Retrievel) : Từ tập hợp liệu (ở đây, liệu hiểu văn bản) ban đầu, người dùng đưa truy vấn thơng tin cần tìm kiếm Hệ thống cung cấp danh sách liệu xếp loại thoả mãn yêu cầu thông tin 1.2 Bài tốn TTVB - Automatic Text Summarization (ATS) Trước tiên phải hiểu định nghĩa cụ thể cho tốn TTVB 1.2.1 Tóm tắt văn (TTVB) TTVB trình thực giảm độ dài, phức tạp văn giữ lại nội dung có giá trị TTVB nhằm đưa thể thể nội dung cách ngắn gọn văn Có thể phát biểu toán TTVB sau: Đầu vào: Một văn tập hợp văn Đầu ra: Nội dung ngắn gọn(tóm tắt) tập nội dung ngắn gọn chúng Hình 1: Định nghĩa tốn TTVB Thực TTVB xuất từ lâu, chúng thường thực cách truyền thống người Tác dụng tóm tắt kiểu để giúp đỡ cho người đọc có nhìn tổng qt nội dung trình bày tài liệu Trong hầu hết trường hợp, người đọc trước định xem có nên đọc văn khơng thường thích nhìn vào tóm tắt văn để xem nội dung có thoả mãn nhu cầu thơng tin hay khơng 1.2.2 Ứng dụng TTVB TTVB có nhiều ứng dụng thực tế Có thể nêu số ứng dụng như: Tóm tắt phục vụ máy tìm kiếm (Search engine hits): tóm tắt thư viện liệu khổng lồ để phục vụ cho mục đích tìm kiếm thơng tin Với tài ngun liệu lớn, lần thực tìm kiếm rà sốt thơng tin danh mục tóm tắt Ông Bửu Khánh – Nguyễn Ngọc Anh Khoa Trang yêu Bảng 3: Các cụm nguyên âm Như có tất 26 cụm nguyên âm không kèm phụ âm(26*6 tính dấu), 23 cụm ngun âm kèm phụ âm (23*6 tính dấu) Theo cách phân tích này, dùng 17 bit để lưu giữ từ đơn tiếng Việt nào, đó: - bit đầu để lưu trữ cụm phụ âm đầu (cần 26 giá trị) - bit để lưu giữ cụm nguyên âm trường hợp cụm nguyên âm không kèm (cần 156 giá trị) - bit để lưu giữ cụm nguyên âm trường hợp cụm nguyên âm có kèm (cần 138 giá trị) - bit để lưu giữ cụm phụ âm cuối trường hợp cụm nguyên âm có kèm (cần giá trị) Minh hoạ cho cách lưu trữ từ đơn sau: +) Cụm nguyên âm không kèm phụ âm Hình 11: Cấu trúc khơng kèm phụ âm cuối bit đầu lưu trữ cụm 26 phụ âm đầu Bit cho biết cụm nguyên âm không kèm với phụ âm cuối bít tiếp theo: từ bít đến 15 lưu trữ 162 giá trị cụm nguyên âm bít cuối có giá trị +) Cụm nguyên âm kèm phụ âm: Hình 12: Cấu trúc có kèm phụ âm cuối bit đầu lưu trữ cụm 26 phụ âm đầu Ông Bửu Khánh – Nguyễn Ngọc Anh Khoa Trang 35 bít tiếp theo: từ bít đến 13 lưu trữ 138 giá trị cụm nguyên âm Lưu ý giá trịlớn bit tương ứng với 138 10001001 bít khơng có giá trị Đây điểm phân biệt với từ cấu trúc mẫu bít cuối lưu trữ cụm phụ âm cuối kèm nguyên âm 3.2.2 Tổ chức kết cấu Có nhiều cách tổ chức kết cấu từ điển Mục đích chúng để phục vụ tốt cho trình tìm kiếm thuật ngữ Hai cách tổ chức kết cấu thông dụng lưu trữ theo danh sách xếp lưu trữ sử dụng bẳng băm: 3.2.2.1 Lưu trữ theo danh sách xếp Các thuật ngữ lưu lại đưới dạng danh sách Danh sách xếp theo thứ tự từ điển Sau lần so sánh thuật ngữ áp dụng phương pháp tìm kiếm để chọn thuật ngữ cần tìm Thơng thương phương pháp tìm kiếm sử dụng phương pháp tìm kiếm theo mốc nghĩa đặt mốc liệu so sánh thuật ngữ với mốc Ví dụ: Danh sách thuật ngữ với mốc: thuật ngữ bắt đầu ký tự “a”; thuật ngữ bắt đầu kứ tự “b” Với phương pháp lưu trữ này, tốc độ tìm kiếm đạt dược tốt sử dụng tìm kiếm nhị phân để đặt mốc danh mục 3.3 Loại bỏ từ dừng (stop world) Nhắc lại từ dừng, từ xuất thường xuyên văn không mang nghiều ý nghĩa nội dụng văn Đó loại từ mang tính hỗ trợ cho từ khác mang ý nghĩa mặt cấu trúc (lưu ý hệ thống phân tích cú pháp văn từ mang ý nghĩa biểu lộ cấu trúc lại có giá trị cao) Loại bỏ từ dừng đơn giản so sánh thuật ngữ tìm loại bỏ chúng khỏi biểu diễn văn Tuy vậy, quan trọng yếu tố: - Loại bỏ từ dừng làm đơn giản hố liệu, làm giảm chiều véc tơ biểu diễn văn độ phức tạp tính tốn chúng - Loại bỏ từ dừng để không gây nên “nhiễu” liệu (tránh cho hệ thống đánh giá nhầm mức độ quan trọng chúng dựa vào tần suất xuất hiện) Dưới bảng ví dụ từ dừng Có thể Nếu Ơng Bửu Khánh – Nguyễn Ngọc Anh Khoa Vì Trang 36 Sau Thì Nếu khơng Trước Vì Loại trừ Tất Cho nên Một số Những Nhưng Rõ ràng Phần lớn với Hầu Là Bởi Thay Tất Bảng 4: Một số từ dừng tiếng Việt Về cách phát từ dừng, thông thường người ta đặt ngưỡng: tần suất xuất từ vượt ngưỡng từ dừng StopWordSet = Ø; For ti TermSet If idf(ti) > StopWordsThresold then StopWordSet = ti StopWordSet; Hình 13: Thuật tốn tính tập từ dừng 3.4 Biểu diễn văn theo mơ hình hóa khơng gian vector cho Tiếng Việt Trong xử lý ngôn ngữ tự nhiên, việc biểu diễn từ thành vector đóng vai trị quan trọng Nó lợi ích nhiều việc thể tương đồng, đối lập ngữ nghĩa từ, giúp mơ hình hóa vector cho câu hay đoạn văn, tìm câu có nghĩa tương đồng, … 3.4.1 Mơ hình hóa khơng gian vector word2vec: Thay đếm xây dựng ma trận đồng xuất hiện, word2vec học trực tiếp word vector có số chiều thấp q trình dự đốn từ xung quanh từ Đặc điểm phương pháp nhanh dễ dàng kết hợp câu văn thêm vào từ vựng Word2vec mạng neural lớp với tầng ẩn, lấy đầu vào corpus lớn sinh không gian vector (với số chiều khoảng vài trăm), với từ corpus gắn với vector tương ứng không gian Các word vectors xác định không gian vector cho từ có chung ngữ cảnh corpus đặt gần không gian Dự đốn xác cao ý nghĩa từ dựa lần xuất trước Nếu ta gán nhãn thuộc tính cho vector từ giả thiết, vector biểu diễn theo word2vec có dạng sau: Ơng Bửu Khánh – Nguyễn Ngọc Anh Khoa Trang 37 Hình 14: Ví dụ vector biểu diễn theo word2vec Có cách xây dựng word2vec:  Sử dụng ngữ cảnh để dự đoán mục tiêu(CBOW)  Sử dụng từ để dự đoán ngữ cảnh mục tiêu(skip gram) (cho kết tốt với liệu lớn) Hình 15: Ví dụ CBOW Skip-gram 3.4.2 Skip-gram Model: Mục tiêu: Học trọng số lớp ẩn, trọng số words vector Ông Bửu Khánh – Nguyễn Ngọc Anh Khoa Trang 38 Cách thức: Cho từ cụ thể câu (input word), nhìn vào từ gần chọn ngẫu nhiên Mạng neural cho biết xác suất từ từ vựng việc trở thành từ gần mà chọn Dưới mơ hình kiến trúc mạng Skip-gram cách xây dựng training data Hình 16: Kiến trúc mạng Skip-gram Ví dụ: Xây dựng training data với windows size = Ở windows hiểu cửa sổ trượt qua từ Windows size = tức lấy từ bên trái bên phải từ trung tâm Hình 17: Ví dụ traning data Ơng Bửu Khánh – Nguyễn Ngọc Anh Khoa Trang 39 3.4.3 Word2vec cải tiến: Có cải tiến cho mơ hình word2vec truyền thống:  Xử lý cặp từ thông dụng cụm từ từ đơn  Loại bỏ từ thường xuyên lặp lại để giảm số lượng ví dụ huấn luyện  Sửa đổi mục tiêu tối ưu hóa kỹ thuật gọi “Negative Sampling” 3.4.3.1 Word2vec cải tiến 1(Xử lý cụm từ từ đơn): Ví dụ từ “thành_phố_Cảng” có nghĩa khác với từ “thành_phố” “cảng” Chúng ta coi từ nhất, với word vector riêng Điều làm tăng kích thước từ vựng 3.4.3.2 Word2vec cải tiến 2(Loại bỏ từ thường xuyên lặp lại): Các từ thường xuyên lặp lại “các”, “những” … không cho biết thêm nhiều ý nghĩa từ kèm nó, chúng xuất ngữ cảnh nhiều từ Chúng ta xác định xác suất loại bỏ, giữ lại từ từ vựng thông qua tần suất xuất 3.4.3.3 Word2vec cải tiến 3(Negative Sampling): Mỗi mẫu huấn luyện thay đổi tỷ lệ phần trăm nhỏ trọng số, thay tất chúng Khi huấn luyện mạng với cặp từ, đầu mạng one-hot vector, neural đưa cịn hàng ngàn neural khác đưa Chọn ngẫu nhiên số lượng nhỏ neural “negative” kết hợp với neural “positive” để cập nhật trọng số (chọn 5-20 hoạt động tốt với liệu nhỏ, 2-5 với liệu lớn) 3.5 Kết word2Vec: Qua vài kết thú vị sử dụng mơ hình word2vec Ví dụ ví dụ kinh điển mơ hình word2vec Word vector học từ mơ hình word2vec phù hợp để tìm quan hệ từ mặt ngữ nghĩa Chúng ta tìm mối quan hệ từ thơng qua phép tốn vector Ông Bửu Khánh – Nguyễn Ngọc Anh Khoa Trang 40 Hình 18: Kết word2vec Word vector học từ mơ hình word2vec phù hợp để trả lời cho câu hỏi: Nếu A B C là… Ví dụ, thủ China Bắc Kinh thủ Nga thành phố Moscow,… Hình 19: Ví dụ minh họa cho word2vec cụ thể Hay trường hợp mối quan hệ giới tính Các kết hồn tồn lấy từ mơ hình word2vec Ơng Bửu Khánh – Nguyễn Ngọc Anh Khoa Trang 41 Hình 20: Mối quan hệ giới tính qua mơ hình word2vec Ơng Bửu Khánh – Nguyễn Ngọc Anh Khoa Trang 42 CHƯƠNG IV TRIỂN KHAI XÂY DỰNG Ông Bửu Khánh – Nguyễn Ngọc Anh Khoa Trang 43 4.1 Các bước xử lý Với văn ban đầu ta thực bước sau: Hình 21: Các bước tóm tắt 4.1.1 Tiền xử lý văn bản: Văn đầu vào chứa nhiều ký tự thừa, dấu câu thừa, khoảng trắng thừa, từ viết tắt, viết hoa, … điều làm ảnh hưởng tới bước sau nên cần phải xử lý trước! Chúng ta cần biến đổi hết chữ thường loại bỏ khoảng trắng thừa contents_parsed = content.lower() #Biến đổi hết thành chữ thường contents_parsed = contents_parsed.replace('\n', ' ') #Đổi ký tự xuống dòng thành chấm câu contents_parsed = contents_parsed.strip() #Loại bỏ khoảng trắng thừa 4.1.2 Tách câu văn bản: Ở bước này, tách đoạn văn cần tóm tắt qua xử lý thành danh sách câu import nltk sentences = nltk.sent_tokenize(contents_parsed) 4.1.3 Chuyển câu sang vector: Ở bước này, xây dựng mơ hình chuyển đổi từ “Từ sang vector” (Word2Vec) Chúng ta train model cách chạy file word2vec.py Ta tách nhỏ câu thành từ, sau dùng mơ hình Word2Vec training cho Tiếng Việt, chuyển đổi từ sang vector số thực có chiều dài cố định Cuối cùng, vector câu mà em chuyển đổi tổng vector đại diện cho từ câu Chúng ta xử dụng thư viện genism để load lại model from gensim.models import KeyedVectors w2v = KeyedVectors.load_word2vec_format("vi_txt/vi.vec") Ông Bửu Khánh – Nguyễn Ngọc Anh Khoa Trang 44 Tiếp theo tách từ câu lấy tổng để vector cho câu danh sách mà vừa có vocab = w2v.wv.vocab #Danh sách từ từ điển from pyvi import ViTokenizer X = [] for sentence in sentences: sentence_tokenized = ViTokenizer.tokenize(sentence) words = sentence_tokenized.split(" ") sentence_vec = np.zeros((100)) for word in words: if word in vocab: sentence_vec+=w2v.wv[word] X.append(sentence_vec) 4.1.4 Phân cụm (K-Mean Clustering): Thuật toán giúp phân cụm câu có ý nghĩa giống nhau, để từ chọn lọc loại bỏ bớt câu có ý nghĩa Ta phân cụm vector đại diện cho câu văn vừa để biết câu mang ý nghĩa giống Thuật toán phân cụm đây, em chọn số cụm (Clusters) số câu mà muốn tóm tắt from sklearn.cluster import KMeans n_clusters = kmeans = KMeans(n_clusters=n_clusters) kmeans = kmeans.fit(X) 4.1.5 Xây dựng đoạn văn cần tóm tắt: Mỗi cụm mà phân trên, hiểu đại diện cho ý nghĩa văn gốc Tuy nhiên, để tóm gọn lại văn dài, với ý nghĩa chọn câu Câu chọn để đại diện câu có khoảng cách gần với trung tâm cụm Sau có câu văn tóm tắt, quan tâm xếp thứ tự cho hợp lý cách tính thứ tự trung bình cụm Sau lấy câu đại diện cụm theo thứ tự từ nhỏ đến lớn thứ tự xuất trung bình để tạo văn tóm tắt from sklearn.metrics import pairwise_distances_argmin_min avg = [] for j in range(n_clusters): idx = np.where(kmeans.labels_ == j)[0] avg.append(np.mean(idx)) closest, _ = pairwise_distances_argmin_min(kmeans.cluster_centers_, X) ordering = sorted(range(n_clusters), key=lambda k: avg[k]) summary = ' '.join([sentences[closest[idx]] for idx in ordering] Ông Bửu Khánh – Nguyễn Ngọc Anh Khoa Trang 45 4.2 Giao diện chương trình kết quả: Hình 22: Giao diện chương trình desktop Hình 23: Giao diện web tóm tắt văn Ông Bửu Khánh – Nguyễn Ngọc Anh Khoa Trang 46 TỔNG KẾT Có thể thấy tốn TTVB tốn có giá trị ứng dụng lớn Với phát triển kho liệu khổng lồ kỹ thuật nâng cao khả tính tốn máy móc, ứng dụng TTVB thực ngày nhiều theo nhu cầu người Các kỹ thuật TTVB nói chung TTVB tiếng Việt nói riêng cịn cịn nghiên cứu phát triển thêm khoảng thời gian tới Qua việc nghiên cứu thực đề tài này, tác giả đưa số tổng kết sau: (*) Các vấn đề giải quyết: Trong phạm vi đồ án, tác giả thực giải vấn đề: - Nghiên cứu lý thuyết tổng quan toán TTVB, phương pháp xu hướng giải tốn - Phân tích phương pháp áp dụng cho toán TTVB tiếng Việt Cụ thể phương pháp sử dụng kỹ thuật lượng giá, thống kê - Xây dựng hệ thống TTVB cho tiếng Việt dựa các kỹ thuật phân tích (*) Hướng phát triển: Trong thời gian tới tác giả hy vọng phát triển đề tài theo hướng: - Phát triển kỹ thuật lượng giá để tăng thêm tính hiệu cho hệ thống - Tìm kiếm số đặc trưng Tóm tắt cho kết cao tiếng Việt - Xây dựng từ điển đồng nghĩa phục vụ cho hệ thống, từ điển WordNet tiếng Việt để mở rộng hệ thống với kỹ thuật dựa độ liên kết ngữ nghĩa văn Đặc biệt kỹ thuật áp dụng chuỗi từ vựng (Lexical Chains) có tính khả thi - Nghiên cứu phương pháp làm “mượt” (smoothing) kết để từ tóm tắt Extract tạo nên tóm tắt Abstract - Phát triển hệ thống kết hợp với hệ thống tìm kiếm tiếng Việt Internet Ông Bửu Khánh – Nguyễn Ngọc Anh Khoa Trang 47 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] H Kiếm, Đ Phúc, “Rút trích ý từ văn tiếng Việt hỗ trợ tạo nội dung”, Trường Đại học Khoa học Tự Nhiên Tp HCM, Việt nam [2] P Liêm, “Ứng dụng mơ hình tập thơ dung sai xử lý văn bản”, Trường Đại học Bách Khoa Hà Nội, (2004) [3] C Trang, “Bài tốn phân nhóm văn tiếng Việt”, Trường Đại học Bách Khoa Hà Nội, (2004) Tiếng Anh: [4] J Larocca Neto, AD Santos, CAA Kaestner, and AA Freitas, “ Document Clustering and Text Summarization” In N Mackin, editor, Proc 4th International Conference Practical Applications of Knowledge Discovery and Data Mining (PADD-2000), (2000) [5] M Mitra, A Singhal, and C Buckley “Automatic text summarization by paragraph extraction” In ACL’97/EACL’97 Workshop on Intelligent Scalable Text Summarization, (1997) [6] H P Luhn, “The Automatic Creation of Literature Abstracts”, IBM Journal of Research Development, (1959) [7] R Barzilay and M Elhadad “Using lexical chains for text summarization”, (1997) [8] Chinatsu Aone, Mary Ellen Okurowski, James Gorlinsky, and Bjornar Larsen “A Scalable Summarization System Using Robust NLP”, (1997) [9] Jaime Carbonell and Jade Goldstein “The use of MMR, diversity-based reranking for reordering documents and producing summaries” In Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval, (1998) Ông Bửu Khánh – Nguyễn Ngọc Anh Khoa Trang 48 [10] D Radev, H Jing, and M Budzikowska “Centroid-based summarization of multiple documents: sentence extraction, utility-based evaluation and user studies”, (2000) [11] Karen Sparck-Jones and Tetsuya Sakai “Generic summaries for indexing in IR”, New Orleans, LA, (2001) [12] K Zechner “Fast generation of abstracts from general domain text corpora by extracting relevant sentences”, (1996) [13] J Kupiec, J Pedersen, F Chen, “A Trainable Document Summarizer”, Xerox Research Center, (1995) [14] AI Berger and Mittal, “A system for summarization web pages”, In Proc ACM SIGIR, (2000) [15] Darin Brezeale, “The Organization of Internet Web pages Using Wordnet and Self-Organizing maps”, MSC Thesis, The University of Texas at Arlington, USA, (1999) [16] Daniel Mallett, “Text summarization-an annotated bibliography”, (2003) [17] Smaranda Muresean, “Combining Linguistic and machine learning techniques for eamil summarization”, Columbia University, (2001) Ông Bửu Khánh – Nguyễn Ngọc Anh Khoa Trang 49

Định dạng
Số trang	51
Dung lượng	1,32 MB