Tóm tắt luận văn Thạc sĩ Kỹ thuật phần mềm: Nghiên cứu tóm tắt văn bản tự động và ứng dụng

24 25 0
Tóm tắt luận văn Thạc sĩ Kỹ thuật phần mềm: Nghiên cứu tóm tắt văn bản tự động và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trong luận văn này, tác giả đã tập trung nghiên cứu tóm tắt văn bản tự động theo hướng tóm lược, các mô hình kiến trúc mạng học sâu và các kỹ thuật xử lý những thách thức trong tóm tắt văn bản. Mời các bạn cùng tham khảo nội dung chi tiết.

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VIẾT HẠNH NGHIÊN CỨU TÓM TẮT VĂN BẢN TỰ ĐỘNG VÀ ỨNG DỤNG Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 TÓM TẮT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2018 MỤC LỤC MỤC LỤC .2 DANH MỤC HÌNH VẼ MỞ ĐẦU CHƯƠNG 1: KHÁI QT BÀI TỐN TĨM TẮT VĂN BẢN 1.1 Bài tốn tóm tắt văn tự động 1.2 Các hướng tiếp cận tóm tắt văn CHƯƠNG 2: MỘT SỐ NGHIÊN CỨU VỀ TÓM TẮT VĂN BẢN 2.1 Tóm tắt văn theo hướng trích chọn 2.2 Tóm tắt văn theo hướng tóm lược CHƯƠNG 3: MẠNG NƠ RON NHÂN TẠO 3.1 Mạng nơ ron nhân tạo ANN 3.1.1 Cấu trúc mạng nơ ron nhân tạo 3.1.2 Hoạt động mạng ANN .9 3.2 Mạng nơ ron hồi quy RNN .10 3.3 Mạng nơ ron có nhớ LSTM 10 CHƯƠNG 4: XÂY DỰNG HỆ THỐNG TÓM TẮT VĂN BẢN THEO HƯỚNG TÓM LƯỢC .12 4.1 Quy trình tóm tắt theo hướng tóm lược sử dụng mạng LSTM 12 4.2 Xây dựng liệu cho tóm tắt văn tiếng Việt 12 4.3 Word Embedding .13 4.3.1 Embedding dựa tần xuất xuất từ 13 4.3.1.1 Count vector 13 4.3.1.2 Phương pháp vector hóa TF-IDF 14 4.3.2 Word2Vec .14 4.3.2.1 CBOW (Continuous Bag of Word) .14 4.3.2.2 Mơ hình Skip-gram .15 4.4 Xây dựng mô hình .15 CHƯƠNG 5: THỬ NGHIỆM VÀ ĐÁNH GIÁ 17 5.1 Môi trường thử nghiệm .17 5.2 Quá trình thử nghiệm 18 5.2.1 Huấn luyện 18 5.2.2 Thử nghiệm .18 5.2.2.1 Thử nghiệm 18 5.2.2.4 Thử nghiệm 20 KẾT LUẬN 22 TÀI LIỆU THAM KHẢO .23 DANH MỤC HÌNH VẼ Hình 2.1 Mơ hình sequence-to-sequence với chế attention .8 Hình 2.2 Ví dụ văn tóm tắt sinh mơ hình pointer-generator networks Hình 3.2 Nguyên lý hoạt động mạng ANN .9 Hình 3.3 Đồ thị hàm kích hoạt phổ biến đạo hàm chúng 10 Hình 3.5 Cấu trúc mạng RNN tiêu biểu 10 Hình 3.7 Kiến trúc mạng LSTM 11 Hình 4.1 Mơ hình tốn tóm tắt văn 12 Hình 4.2 Quy trình thực tóm tắt văn tiếng Việt với LSTM 12 Hình 4.4 Ma trận M xây dựng theo phương pháp Count vector 13 Hình 4.5 Cách hoạt động CBOW 14 Hình 4.6 Mơ hình Skip-gram .15 Hình 4.12 Mơ hình mã hóa-giải mã 15 Hình 4.13 Kiến trúc mơ hình tóm tắt văn tiếng việt sử dụng LSTM 16 Hình 5.7 So sánh chất lượng mơ hình tập liệu tiếng Việt 20 DANH MỤC BẢNG Bảng 5.1 Đánh giá độ xác tập 11490 báo tiếng Anh 19 Bảng 5.2 So sánh số mơ hình học sâu cho tóm tắt văn tóm lược 19 Bảng 5.5 Thử nghiệm chất lượng mơ hình tập liệu tiếng Việt 20 MỞ ĐẦU Với phát triển mạnh mẽ công nghệ thông tin mạng máy tính, lượng tài liệu văn khổng lồ tạo với nhiều mục đích sử dụng khác khiến cho việc đọc hiểu trích lược thơng tin cần thiết khối tri thức đồ sộ tốn nhiều thời gian chi phí (đặc biệt chi phí cho hạ tầng truyền dẫn thơng tin đáp ứng yêu cầu cho số lượng ngày nhiều thiết bị cầm tay) Để tăng hiệu dễ dàng việc tiếp nhận thông tin người dùng, nhiều nghiên cứu khai phá liệu xử lý ngôn ngữ tự nhiên thực Một nghiên cứu quan trọng đóng vai trị then chốt tóm tắt văn tự động Bài tốn tóm tắt văn tiếng Việt nghiên cứu áp dụng nhiều kỹ thuật tiếng Anh; nhiên, tóm tắt văn nói riêng xử lý ngơn ngữ tự nhiên nói chung áp dụng cho tiếng Việt gặp nhiều thách thức Sở dĩ tiếng Việt với đặc trưng tiếng đơn âm có điệu nên việc tách từ, tách thành phần ngữ nghĩa câu tiếng Việt đòi hỏi xử lý phức tạp so với xử lý câu tiếng Anh, thêm vào đó, khơng có nhiều kho liệu tiếng Việt chuẩn hóa cơng bố Trong luận văn này, chúng tơi tập trung nghiên cứu tóm tắt văn tự động theo hướng tóm lược, mơ hình kiến trúc mạng học sâu kỹ thuật xử lý thách thức tóm tắt văn Bố cục luận văn tổ chức thành sau: Chương 1: Khái qt tốn tóm tắt văn giới thiệu tổng quan tốn tóm tắt văn tự động, định nghĩa hướng tiếp cận Chương 2: Một số nghiên cứu tóm tắt văn giới thiệu số phương pháp, kỹ thuật nghiên cứu áp dụng cho tốn tóm tắt văn tự động Chương 3: Mạng nơ ron nhân tạo giới thiệu sở lý thuyết cách hoạt động mơ hình kiến trúc từ mạng ANN tới RNN LSTM Chương 4: Xây dựng hệ thống tóm tắt văn theo hướng tóm lược trình bày mơ hình tốn tóm tắt văn tự động, quy trình thực giải tốn luận văn, xây dựng mơ hình học sâu dựa kiến trúc mạng LSTM áp dụng cho tốn tóm tắt văn Chương 5: Thử nghiệm đánh giá trình bày q trình thử nghiệm mơ hình xây dựng cho tập liệu tiếng Anh tiếng Việt thực đánh giá độ xác mơ hình phương pháp ROUGE Kết luận: phần tổng kết đóng góp kết đạt trình nghiên cứu thực luận văn, hướng phát triển tương lai để hoàn thiện kết nghiên cứu 7 CHƯƠNG 1: KHÁI QUÁT BÀI TỐN TĨM TẮT VĂN BẢN 1.1 Bài tốn tóm tắt văn tự động Tóm tắt văn tự động tác vụ để tạo tóm tắt xác hợp ngữ pháp giữ thơng tin ý nghĩa văn gốc Trong năm gần đây, có nhiều hướng tiếp cận nghiên cứu cho tóm tắt văn tự động áp dụng rộng rãi nhiều lĩnh vực Ví dụ, máy tìm kiếm sinh trích đoạn xem trước tài liệu [2], website tin tức sinh đoạn mô tả ngắn gọn cho viết (thường tiêu đề viết) [20] Mục tiêu tóm tắt văn tạo tóm tắt giống cách người tóm tắt, tốn đầy thách thức, người thực tóm tắt văn bản, thường đọc toàn nội dung dựa hiểu biết cảm thụ để viết lại đoạn tóm tắt nhằm làm bật ý văn gốc Nhưng máy tính khó có tri thức khả ngơn ngữ người, nên việc thực tóm tắt văn tự động công việc phức tạp 1.2 Các hướng tiếp cận tóm tắt văn Nhìn chung, có hai hướng tiếp cận cho tóm tắt văn tự động trích chọn (extraction) tóm lược (abstraction) Theo [32], tóm tắt văn phân loại dựa đầu vào (đơn hay đa văn bản), mục đích (tổng quát, theo lĩnh vực cụ thể, hay dựa truy vấn) loại đầu (trích chọn hay tóm lược) Phương pháp tóm tắt trích chọn thực đánh giá phần quan trọng văn đưa chúng cách nguyên vào tóm tắt, đó, phương pháp phụ thuộc vào việc trích chọn câu từ văn gốc dựa việc xếp hạng mức độ liên quan cụm từ để chọn cụm từ liên quan tới nội dung tài liệu gốc Trong đó, phương pháp tóm tắt tóm lược nhằm tạo văn tóm tắt khơng gồm từ hay cụm từ văn gốc Nó cố gắng hiểu đánh giá văn sử dụng kỹ thuật xử lý ngôn ngữ tự nhiên tiên tiến để tạo văn ngắn hơn, truyền đạt thông tin quan trọng từ văn gốc Mặc dù tóm tắt người thực thường khơng giống trích chọn, song hầu hết nghiên cứu tóm tắt văn tập trung vào tóm tắt phương pháp trích chọn tóm tắt sinh phương pháp trích chọn cho kết tốt so với tóm tắt phương pháp tóm lược Điều phương pháp tóm tắt tóm lược phải đối mặt với vấn đề thể hện ngữ nghĩa, suy luận sinh ngôn ngữ tự nhiên, vấn đề phức tạp nhiều lần so với việc trích chọn câu Hướng tiếp cận tóm tắt tóm lược khó so với tóm tắt trích chọn, song phương pháp kỳ vọng tạo văn tóm tắt giống cách người thực CHƯƠNG 2: MỘT SỐ NGHIÊN CỨU VỀ TĨM TẮT VĂN BẢN 2.1 Tóm tắt văn theo hướng trích chọn Các hệ thống tóm tắt văn theo hướng trích chọn thường gồm tác vụ: xây dựng đại diện trung gian (intermediate representation) văn đầu vào thể đặc điểm văn bản; tính điểm (xếp hạng) câu dựa đại diện trung gian xây dựng; chọn câu đưa vào tóm tắt [23] Mỗi hệ thống tóm tắt văn tạo số đại diện trung gian văn mà thực tóm tắt tìm nội dung bật dựa đại diện trung gian Có hai hướng tiếp cận dựa dại diện trung gian chủ đề đại diện (topic representation) đặc trưng đại diện (indicator representation) Các phương pháp dựa chủ đề đại diện biến đổi văn đầu vào thành đại diện trung gian tìm kiếm chủ đề thảo luận văn Kỹ thuật tóm tắt dựa chủ đề đại diện tiêu biểu phương pháp tiếp cận dựa tần xuất (word probability TF-IDF) Phương pháp dựa đặc trưng đại diện thực mô tả câu văn danh sách đặc trưng quan trọng chẳng hạn độ dài câu, vị trí câu tài liệu hay câu có chứa cụm từ định Tiêu biểu phương pháp dựa đặc trưng gồm phương pháp đồ thị (ví dụ TextRank) kỹ thuật học máy (ví dụ mơ hình Markov ẩn) Khi đại diện trung gian tạo ra, điểm số thể mức độ quan trọng gán cho câu Đối với phương pháp dựa chủ đề đại diện, điểm số câu thể mức độ giải thích câu vài chủ đề quan trọng văn Trong hầu hết phương pháp dựa đặc trưng đại diện, điểm số tính tổng hợp dấu hiệu từ đặc trưng khác Các kỹ thuật học máy thường sử dụng để tìm trọng số cho đặc trưng Cuối hệ thống tóm tắt lựa chọn câu quan trọng để tạo tóm tắt Có thể áp dụng thuật toán tham lam để chọn câu quan trọng từ văn gốc, biến việc lựa chọn câu thành tốn tối ưu xem xét ràng buộc tối đa hóa tầm quan trọng tổng thể gắn kết ngữ nghĩa tối thiểu hóa dư thừa Có nhiều yếu tố khác cần cân nhắc lựa chọn câu quan trọng, ví dụ ngữ cảnh tóm tắt hay loại tài liệu cần tóm tắt (bài báo tin tức, email, báo cáo khoa học) Các tiêu chí trở thành trọng số bổ sung cho việc lựa chọn câu quan trọng đưa vào tóm tắt 2.2 Tóm tắt văn theo hướng tóm lược Nallapati cộng [22] áp dụng mơ hình chuỗi sang chuỗi (sequence-to-sequence) với chế attention kết hợp với đặc trưng ngôn ngữ (part-of-speech, name-entity TF-IDF) để thực tóm tắt văn theo hướng tóm lược (hình 2.1) Kết cho thấy mơ hình có khả sinh từ khơng có văn đầu vào, nhiều ví dụ cho thấy mơ hình sinh đoạn tóm tắt gần giống với người viết Hình 2.1 Mơ hình sequence-to-sequence với chế attention Tác giả See cộng [28] đề xuất cải tiến mạng pointer-generator mơ hình chuỗi sang chuỗi cho phép thực chép (các từ) từ văn gốc vào văn tóm tắt trường hợp mơ hình sinh từ khơng có tập từ vựng (unknown word) Mơ hình thử nghiệm liệu tiếng anh báo CNN/DailyMail cho kết khả quan Hình 2.2 minh họa ví dụ chạy thử nghiệm tác giả cơng bố 9 Hình 2.2 Ví dụ văn tóm tắt sinh mơ hình pointer-generator networks CHƯƠNG 3: MẠNG NƠ RON NHÂN TẠO 3.1 Mạng nơ ron nhân tạo ANN Mạng nơ ron nhân tạo (ANN – Artificial Neural Network) mô xử lý thông tin, nghiên cứu từ hệ thống thần kinh người, giống não để xử lý thông tin Mạng ANN bao gồm số lượng lớn mối gắn kết cấp cao để xử lý thông tin mối liên hệ rõ ràng Nó có khả học kinh nghiệm từ huấn luyện, lưu kinh nghiệm thành tri thức áp dụng liệu tương lai 3.1.1 Cấu trúc mạng nơ ron nhân tạo Mỗi nơ ron (gọi nút mạng) yếu tố cấu tạo nên mạng nơ ron, tham gia vào xử lý thông tin mạng Các nơ ron mạng liên kết với nhau, xử lý chuyển tiếp thông tin dựa trọng số liên kết hàm kích hoạt Cấu trúc mạng nơ ron nhân tạo gồm ba lớp: lớp đầu vào (input layer), lớp ẩn (hidden layer) lớp đầu (output layer) Khi mạng ANN có nhiều hai lớp ẩn gọi mạng nơ ron sâu (deep neural network hay DNN) [8] 3.1.2 Hoạt động mạng ANN Hoạt động mạng ANN minh họa hình 3.2 [15] Thông tin tới nơ ron nhân với trọng số (mỗi đầu vào nhân với trọng số khác nhau), sau nơ ron tính tổng đầu vào tính trọng số tham số hiệu chỉnh (bias) xử lý tổng thơng qua hàm kích hoạt (activation function) hay cịn gọi chuyển đổi (transfer function) Hình 3.3 Nguyên lý hoạt động mạng ANN 10 Một số hàm kích hoạt thường sử dụng hàm bước nhảy (step function), hàm logit (hay hàm sigmoid), hàm hàm Rectified Linear Unit (ReLU) [8] Đồ thị hàm kích hoạt đạo hàm thể hình 3.3 Hình 3.4 Đồ thị hàm kích hoạt phổ biến đạo hàm chúng 3.2 Mạng nơ ron hồi quy RNN Việc sử dụng thơng tin có tính chuỗi tư tưởng cho việc nghiên cứu phát triển mạng nơ ron hồi quy RNN (Recurrent Neural Network) [6] Các mạng RNN gọi hồi quy (hay hồi tiếp) chúng thực thi tác vụ cho thành phần chuỗi với đầu phụ thuộc vào kết tính tốn trước Về lý thuyết mạng RNN xử lý thơng tin cho chuỗi dài tùy ý, song thực tế khả giới hạn vài bước [6] Một mạng RNN tiêu biểu có cấu trúc hình 3.5: Hình 3.5 Cấu trúc mạng RNN tiêu biểu Hình 3.5 minh họa mạng RNN trải thành mạng đầy đủ [6] Điều có nghĩa ta trải mạng RNN để xử lý cho chuỗi đầy đủ Ví dụ, chuỗi câu gồm năm từ, mạng trải thành năm lớp mạng nơ ron, lớp xử lý từ Các cơng thức tính tốn mạng RNN cụ thể sau: - xt đầu vào thời điểm t, ví dụ, x1 véc tơ one-hot tương ứng với từ thứ hai câu - st trạng thái ẩn thời điểm t Nó giống nhớ mạng, st tính dựa vào trạng thái ẩn trước đầu vào bước tại: st = f(Ux t + Wst-1) Hàm f thường hàm phi tuyến hàm hàm ReLU, st-1 thường khởi tạo tính tốn trạng thái ẩn thứ - Ot đầu (output) bước t Ví dụ với tốn dự đốn từ câu O t véc tơ xác suất từ từ điển: Ot = softmax(Vst) 3.3 Mạng nơ ron có nhớ LSTM Về lý thuyết mạng nơ ron hồi tiếp (recurrent neural network) hoạt động, thực tế nhiều nghiên cứu hạn chế mạng RNN hội tụ phân kỳ gradient (vanishing gradient 11 exploding gradient) [29] Hạn chế khiến RNN khơng hiệu tốn cần xử lý liệu theo thời gian đòi hỏi trạng thái nhớ trung gian LSTM (Long short term memory) [12] đời để giải hạn chế RNN việc đưa vào mạng đơn vị nhớ gọi memory unit hay Cell Đầu vào gồm ba thành phần Xt đầu vào bước h t-1 đầu từ khối LSTM trước C t-1 “nhớ” khối trước, điểm quan trọng LSTM Đầu gồm h t kết khối LSTM C t nhớ Như vậy, khối đơn LSTM đưa định dựa vào việc xem xét đầu vào tại, kết nhớ khối trước sinh đầu nhớ Một mơ hình mạng LSTM [4] minh họa hình 3.7 Hình 3.6 Kiến trúc mạng LSTM Cụ thể cách hoạt động LSTM [4] sau: Đầu tiên khối LSTM định thông tin loại bỏ khỏi cell state Quá trình định lớp sigmoid gọi “forget gate layer” thực Cổng bỏ nhớ lấy đầu vào h�−1 �� cho đầu giá trị nằm khoảng [0, 1] cho cell state ��−1 Nếu kết đầu thể cho việc “giữ lại thông tin”, thể “thông tin bị loại bỏ” Tiếp theo LSTM định thông tin lưu lại cell state Việc gồm hai phần, lớp sigmoid gọi “input gate layer” (lớp đầu vào) định giá trị cập nhật, lớp tạo véc tơ giá trị mới, , mà thêm vào cell state Kế tiếp, trạng thái cell state cũ Ct-1 cập nhật trạng thái cell state Ct theo công thức: Trạng thái nhớ cũ Ct-1 nhân với giá trị kết cổng bỏ nhớ ft, thực việc loại bỏ định loại bỏ bước trước Giá trị i t* thể giá trị ứng viên cho cell state định hệ số giãn nở it cụ thể cho việc cập nhật giá trị cho cell state Bước cuối cùng, khối LSTM định đầu dựa cell state Lớp sigmoid dùng để tính tốn thành phần cell state xuất Sau đó, giá trị cell state đưa vào hàm (kết 12 thuộc khoảng [-1,1]) nhân với kết đầu cổng sigmoid, để định khối LSTM xuất Cơng thức tính tốn cho thành phần bước sau: Mạng LSTM kết hợp khối LSTM kết nối qua theo chuỗi thời gian Hoạt động khối LSTM thời điểm đảm trách cổng: cổng bỏ nhớ ft, cổng đầu vào it cổng đầu ot, cổng bỏ nhớ điểm đáng ý LSTM, đem lại khả sử dụng thông tin tính tốn từ thời điểm trước CHƯƠNG 4: XÂY DỰNG HỆ THỐNG TÓM TẮT VĂN BẢN THEO HƯỚNG TĨM LƯỢC Bài tốn tóm tắt văn theo hướng tóm lược phát biểu sau: đầu vào toán văn x gồm M từ: x1, x2, …, xm Chúng ta ánh xạ chuỗi M từ thành chuỗi đầu y gồm N từ: y1, y2, …, yn; N

Ngày đăng: 17/04/2021, 15:22

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • DANH MỤC HÌNH VẼ

  • MỞ ĐẦU

  • CHƯƠNG 1: KHÁI QUÁT BÀI TOÁN TÓM TẮT VĂN BẢN

    • 1.1. Bài toán tóm tắt văn bản tự động

    • 1.2. Các hướng tiếp cận tóm tắt văn bản.

    • CHƯƠNG 2: MỘT SỐ NGHIÊN CỨU VỀ TÓM TẮT VĂN BẢN

      • 2.1. Tóm tắt văn bản theo hướng trích chọn.

      • 2.2. Tóm tắt văn bản theo hướng tóm lược

      • CHƯƠNG 3: MẠNG NƠ RON NHÂN TẠO

        • 3.1. Mạng nơ ron nhân tạo ANN

        • 3.1.1. Cấu trúc mạng nơ ron nhân tạo

        • 3.1.2. Hoạt động của mạng ANN

        • 3.2. Mạng nơ ron hồi quy RNN

        • 3.3. Mạng nơ ron có nhớ LSTM

        • CHƯƠNG 4: XÂY DỰNG HỆ THỐNG TÓM TẮT VĂN BẢN THEO HƯỚNG TÓM LƯỢC

          • 4.1. Quy trình tóm tắt theo hướng tóm lược sử dụng mạng LSTM

          • 4.2. Xây dựng bộ dữ liệu cho tóm tắt văn bản tiếng Việt

          • 4.3. Word Embedding

          • 4.3.1. Embedding dựa trên tần xuất xuất hiện của từ.

          • 4.3.1.1. Count vector

          • 4.3.1.2. Phương pháp vector hóa TF-IDF

          • 4.3.2. Word2Vec

          • 4.3.2.1. CBOW (Continuous Bag of Word)

Tài liệu cùng người dùng

Tài liệu liên quan