Tóm tắt Luận văn Thạc sĩ Công nghệ thông tin: Tóm tắt văn bản sử dụng các kỹ thuật trong deep learning

24 151 1
Tóm tắt Luận văn Thạc sĩ Công nghệ thông tin: Tóm tắt văn bản sử dụng các kỹ thuật trong deep learning

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bố cục luận văn được chia thành 6 chương tình bày về: Giới thiệu bài toán tóm tắt văn bản. Trình bày khái niệm và các phương pháp tiếp cận cho bài toán; cơ sở lý thuyết, trình bày những khái niệm và mô hình trong học sâu; mô hình đề xuất, trình bày cơ chế attention cùng thuật toán tìm kiếm chùm và áp dụng vào mô hình đề xuất; thực nghiệm và đánh giá, trình bày quá trình thử nghiệm và đưa ra một số đánh giá, nhận xét cùng kết quả đạt được.

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI ĐỒN XN DŨNG TĨM TẮT VĂN BẢN SỬ DỤNG CÁC KỸ THUẬT TRONG DEEP LEARNING Ngành: Công Nghệ Thông Tin Chuyên ngành: Khoa học máy tính Mã số chuyên ngành: 8480101.01 TĨM TẮT LUẬN VĂN THẠC SỸ NGÀNH CƠNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Xuân Hoài HÀ NỘI – 2018 MỤC LỤC Mở đầu Chương 1: Giới thiệu tóm tắt văn Chương 2: Cơ sở lý thuyết 2.1 Mạng nơ-ron 2.2 Mơ hình RNN 2.3 Mạng LSTM, GRU 2.3.1 Mạng LSTM 2.3.2 Mạng GRU 2.4 Mạng nơ-ron tích chập Chương 3: Mơ hình đề xuất 3.1 Cơ chế Attention 3.1.1 Kiến trúc RNN Encoder-Decoder 3.1.2 Cơ chế Attention 10 3.1.3 BiRNN 11 3.2 Thuật tốn tìm kiếm chùm (Beam search) 12 3.3 Mơ hình đề xuất 14 Chương 4: Thực nghiệm đánh giá 15 4.1 Dữ liệu thử nghiệm 15 4.1.1 Bộ liệu Gigaword 15 4.1.2 Bộ liệu CNN/Daily Mail 16 4.2 Cài đặt 16 4.3 Kết 17 4.3.1 Bộ liệu Gigaword 17 4.3.2 Bộ liệu CNN/Daily Mail 19 Kết luận 20 Tài liệu tham khảo 21 Mở đầu Ngày nay, người bước vào kỷ nguyên cách mạng công nghiệp 4.0, phải đối mặt với lượng thông tin khổng lồ mạng Internet Do nhu cầu tóm tắt thông tin văn vô cấp thiết Tóm tắt văn phương pháp rút gọn lại lượng lớn thông tin thành tóm tắt ngắn gọn lựa chọn thông tin quan trọng bỏ qua thông tin dư thừa Thơng thường tóm tắt văn chia thành tóm tắt trích chọn (extractive summarization) tóm tắt tóm lược (abstractive summarization) Tóm tắt trích chọn đưa tóm tắt việc chọn tập câu văn ban đầu Ngược lại, tóm tắt tóm lược đưa thơng tin thể lại theo cách khác Tóm tắt trích chọn bao gồm câu lấy từ văn bản, tóm tắt tóm lược sử dụng từ cụm từ khơng xuất văn gốc Tóm tắt trích chọn phương pháp đơn giản mạnh mẽ cho tóm tắt văn bản, liên quan đến việc ấn định điểm số cho thành phần văn chọn phần có điểm cao Tóm tắt tóm lược cần phải đọc hiểu văn để nhận thức nội dung, sau tóm tắt văn cho ngắn gọn Vì tóm tắt tóm lược cần kỹ thuật sâu xử lý ngôn ngữ Những năm gần chứng tỏ trở lại mạnh mẽ mạng nơ-ron nhân tạo mơ hình học tự động với tên gọi học sâu (Deep Learning) Học sâu áp dụng nhiều toán khác để thu kết tốt nhiều lĩnh vực khoa học máy tính Những nghiên cứu cho tốn tóm tắt văn sử dụng học sâu đưa nhóm tác giả Alexander Rush[2] Nhóm tác giả đề xuất mơ hình mạng nơ-ron attention kết hợp mơ hình xác suất với thuật toán sinh để đưa độ xác cho tốn tóm tắt Họ sử dụng lượng lớn liệu huấn luyện cặp văn tóm tắt, tận dụng sức mạnh phần cứng máy tính để học mơ hình huấn luyện Sau năm, nhóm tác giả Submit Chopra[3] mở rộng tốn tóm tắt tới kiến trúc mạng nơ-ron hồi quy – RNN Kết đạt tốt tập Gigaword DUC-2004 Tiếp đó, nhóm Ramesh Nallapti [19] đưa tóm tắt sử dụng mạng RNN Attention Encoder-Decoder Kết đạt cao hai liệu khác Gần đây, tác giả Nguyễn Viết Hạnh [25] nghiên cứu vấn đề tóm tắt văn sử dụng mơ hình LSTM học sâu, áp dụng cho tiếng Anh tiếng Việt Kết tác giả đưa cho thấy hiệu mơ hình học sâu tốn Mạng nơ-ron tích chập (CNN) áp dụng thành cơng lĩnh vực xử lý ảnh, xử lý video Trong xử lý ngôn ngữ tự nhiên, Yoo Kim[5] áp dụng nâng cao kết toán phân tích cảm xúc phân loại câu hỏi Nhóm Nal Kalchbrenner[6] mơ tả kiến trúc CNN động cho tốn gán nhãn ngữ nghĩa câu Yoo Kim[7] đưa kiến trúc mơ hình nơ-ron đơn giản kết hợp mạng nơ-ron tích chập mạng highway ký tự câu Tiếp theo đó, nhóm tác giả Jason Lee[8] giới thiệu mạng ký tự convolution với max pooling để mã hóa giảm chiều dài câu trình bày Kết họ chứng tỏ mơ hình ký tự cho kết cao mơ hình dịch máy Với thành cơng mạng nơ-ron tích chập xử lý ngôn ngữ tự nhiên, muốn cài đặt mạng nơ-ron tích chập mơ hình Deep learning vào tốn tóm tắt văn bản, kết tập liệu Gigaword DUC cho thấy hiệu phương pháp Ngoài phần mở đầu phần kết luận, luận văn chia thành chương sau: Chương 1: Giới thiệu tốn tóm tắt văn Trình bày khái niệm phương pháp tiếp cận cho toán Chương 2: Cơ sở lý thuyết Trình bày khái niệm mơ hình học sâu Chương 3: Mơ hình đề xuất Trình bày chế attention thuật tốn tìm kiếm chùm áp dụng vào mơ hình đề xuất Chương 4: Thực nghiệm đánh giá Trình bày trình thử nghiệm đưa số đánh giá, nhận xét kết đạt 2 Chương 1: Giới thiệu tóm tắt văn Tóm tắt văn trình trích rút thơng tin quan trọng từ văn để tạo phiên ngắn gọn, xúc tích mang đầy đủ lượng thơng tin văn gốc kèm theo tính đắn ngữ pháp tả Bản tóm tắt phải giữ thơng tin quan trọng tồn văn Bên cạnh đó, tóm tắt cần phải có bố cục chặt chẽ có tính đến thơng số độ dài câu, phong cách viết cú pháp văn Phụ thuộc vào số lượng văn bản, kỹ thuật tóm tắt chia làm hai lớp: đơn văn đa văn Tóm tắt đơn văn đơn giản rút gọn văn thành trình bày ngắn gọn Trong tóm tắt đa văn phải rút gọn tập văn thành tóm tắt Tóm tắt đa văn xem mở rộng tóm tắt đơn văn thường dùng với thông tin chứa cụm văn bản, để người dùng hiểu cụm văn Tóm tắt đa văn phức tạp tóm tắt đơn văn phải làm việc số lượng văn nhiều Xét phương pháp thực hiện, tóm tắt văn có hai hướng tiếp cận tóm tắt theo kiểu trích chọn – “extraction” tóm tắt theo kiểu tóm lược ý – “abstraction” Phương pháp tóm tắt trích chọn cơng việc chọn tập từ có, lời nói câu văn gốc để đưa vào khn mẫu tóm tắt Ngược lại phương pháp tóm tắt tóm lược xây dựng biểu diễn ngữ nghĩa bên sau sử dụng kỹ thuật xử lý ngơn ngữ để tạo tóm tắt gần gũi so với người tạo Bản tóm tắt chứa từ khơng có gốc Nghiên cứu phương pháp tóm tắt tóm lược bước tiến quan trọng tạo chủ động, nhiên ràng buộc phức tạp nên nghiên cứu chủ yếu tập trung vào phương pháp tóm tắt trích chọn Trong vài lĩnh vực ứng dụng, phương pháp tóm tắt trích chọn đem lại nhiều tri thức Một lượng lớn cách tiếp cận để xác định nội dung quan trọng cho việc tự động tóm tắt phát triển tới ngày Cách tiếp cận chủ đề nhận biểu diễn trung gian văn để đạt chủ đề thảo luận Dựa vào biểu diễn này, câu văn đầu vào ghi điểm theo độ quan trọng Theo cách tiếp cận khác, văn biểu diễn tập thuộc tính cho độ quan trọng mà không nhằm xác định chủ đề Các thuộc tính thơng thường kết nối lại sử dụng kỹ thuật học máy, giúp việc xác định điểm số cho độ quan trọng câu Cuối cùng, tóm tắt sinh việc lựa chọn câu theo cách tham lam Việc chọn câu thực tóm tắt 1-1 lựa chọn tối ưu toàn cục để chọn tập câu tốt cho tóm tắt Sau xin đưa cách nhìn tổng quan khía cạnh với cách biểu diễn, cách tính điểm lựa chọn chiến lược tóm tắt đảm bảo hiệu tóm tắt Tóm tắt tóm lược tạo tóm tắt hiệu so với tóm tắt trích chọn việc trích chọn thơng tin từ tập văn để khởi tạo tóm tắt thơng tin rõ ràng Một tóm tắt trình diễn thơng tin tóm tắt kết dính, dễ đọc ngữ pháp Tính dễ đọc hay chất lượng ngữ pháp chất xúc tác để cải thiện chất lượng tóm tắt Tóm tắt tóm lược chia theo cách tiếp cận cấu trúc, theo cách tiếp cận ngữ nghĩa gần theo cách tiếp cận học sâu 3 Chương 2: Cơ sở lý thuyết Những nghiên cứu cho tốn tóm tắt văn theo phương pháp mạng nơ-ron thuộc nhóm tác giả Alexander M Rush [2] Họ ước lượng mơ hình attention cục bộ, đưa từ tóm tắt dựa theo câu đầu vào Nghiên cứu dựa phát triển phương pháp dịch máy nơ-ron Họ kết hợp mơ hình xác suất với thuật tốn sinh để đưa độ xác tóm tắt Mặc dù mơ hình đơn giản cấu trúc dễ dàng huấn luyện end-to-end mở rộng với số lượng liệu huấn luyện lớn Ngay sau đó, Submit Chorpa cộng [3] giới thiệu mạng truy hồi RNN có điều kiện để đưa tóm tắt Ràng buộc điều kiện cung cấp mạng xoắn convolution attention encoder đảm bảo giải mã tập trung từ đầu vào phù hợp bước Mơ hình dựa vào khả học đặc trưng dễ dàng học end-to-end lượng lớn liệu Cùng với đó, nhóm Ramesh Nallapti [19] đưa tóm tắt sử dụng mạng RNN Attention Encoder-Decoder Kết đạt cao hai liệu khác Dưới xin trình bày khái niệm mơ hình lý thuyết mạng nơ-ron 2.1 Mạng nơ-ron [21] Phần cung cấp nhìn tổng quan mạng nơ-ron nhân tạo, với nhấn mạnh vào ứng dụng vào nhiệm vụ phân loại ghi nhãn Mạng nơ-ron nhân tạo (ANNs) phát triển mơ hình tốn học lực xử lý thông tin não sinh học (McCulloch Pitts, 1988; Rosenblatt, 1963; Rumelhart et al., 1986) Cấu trúc ANN mạng lưới tế bào nhỏ, nút, tham gia với kết nối trọng số Xét mặt mơ hình sinh học gốc, nút đại diện cho tế bào nơ-ron, trọng số kết nối đại diện cho sức mạnh khớp nơ-ron tế bào nơ-ron Các mạng kích hoạt cách cung cấp đầu vào cho số tất nút, kích hoạt sau lây lan khắp mạng kết nối trọng số Nhiều biến thể mạng ANNs xuất năm qua, với tính chất khác Một khác biệt quan trọng ANNs kết nối dạng chu kỳ kết nối khác dạng mạch hở ANNs với chu kỳ gọi mạng nơ-ron phản hồi đệ quy Mạng ANN khơng có chu trình gọi mạng lan truyền tiến (FNNs) Ví dụ tiếng FNNs bao gồm perceptron (Rosenblatt, 1958), mạng hàm sở xuyên tâm (Broomhead Lowe, 1988), đồ Kohonen (Kohonen, 1989) Hopfield lưới (Hopfield, 1982) Các hình thức sử dụng rộng rãi FNN ta tập trung vào phần này, Perceptron đa lớp (MLP, Rumelhart et al, 1986; Werbos, 1988; Bishop, 1995) Alex Graves [21] Hình 2.1: Một perceptron nhiều lớp Như minh họa hình 2.1, đơn vị Perceptron đa lớp bố trí lớp, với kết nối lan truyền tới lớp Mơ hình bắt nguồn từ lớp đầu vào, sau truyền qua lớp ẩn đến lớp Quá trình gọi lan truyền phía trước mạng Do đầu MLP phụ thuộc vào đầu vào tại, không đầu vào từ khứ hay tương lai, MLPs phù hợp cho mơ hình phân loại so với ghi nhãn theo thứ tự Một MLP chứa tập hợp giá trị trọng số định nghĩa hàm ánh xạ vector đầu vào tới vector đầu Bằng cách thay đổi trọng số, MLP có khả đại diện cho nhiều hàm khác Thực tế chứng minh (Hornik et al., 1989) MLP với lớp ẩn chứa số lượng đủ đơn vị khơng tuyến tính xấp xỉ hàm liên tục tên miền đầu vào đến độ xác tùy ý Vì lý MLPs cho hàm xấp xỉ tổng quát 2.2 Mơ hình RNN Ở phần trước ta xem xét mạng nơ-ron hướng tiến mà kết nối không tạo thành chu kỳ Nếu ta giả định điều kiện này, cho phép kết nối theo chu kỳ, đạt mạng nơ-ron hồi quy (Recurrent Neural Network - RNN) Điểm khác biệt mạng nơ-ron đa tầng mạng nơ-ron hồi quy đơn giản, ngụ ý việc học chuỗi tiếp cận sâu rộng Một mạng MLP ánh xạ từ đầu vào tới vector đầu ra, ngược lại RNN ánh xạ bắt nguồn từ tồn lịch sử đầu vào đằng trước tới đầu Tổng quát hơn, tương đương kết cho MLP RNN với số lượng đủ đơn vị ẩn ước tính chuỗi tới độ xác tùy ý Điểm mấu chốt kết nối hồi quy cho phép nhớ tầng đầu vào đằng trước tồn bên trạng thái mạng ảnh hưởng tới đầu mạng Alex Graves [21] Hình 2.3: Một mạng RNN Khi huấn luyện RNN, ta sử dụng kỹ thuật đạo hàm quay lui, để cộng dồn đạo hàm bước quay lại với Đây biện pháp để giải vấn đề đạo hàm hội tụ qua bước lặp cần điều chỉnh phù hợp để đạo hàm không phân kỳ Đó vấn đề đặt nhiều năm mạng LSTM (Hochreiter & Schmidhuber - 1997) mạng GRU (Cho - 2014) đề xuất để giải vấn đề 2.3 Mạng LSTM, GRU 2.3.1 Mạng LSTM Như trình bày phần trước, điểm thuận lợi mạng nơ-ron hồi quy khả sử dụng thông tin ngữ cảnh ánh xạ chuỗi đầu vào chuỗi đầu Tuy nhiên, với kiến trúc RNN tiêu chuẩn phạm vi ngữ cảnh truy cập hạn chế Vấn đề ảnh hưởng đầu vào tầng ẩn, đầu mạng suy giảm tăng lên cấp số nhân theo chu kỳ xung quanh kết nối hồi quy mạng Hiệu ứng gọi vấn đề biến đạo hàm (vanishing gradient problem) Một lượng lớn nghiên cứu đưa vào năm 1990 để giải vấn đề giảm đạo hàm cho mạng RNN Các nghiên cứu bao gồm trình huấn luyện khơng cần tính đạo hàm, thuật tốn giả mô rời rạc lỗi truyền, dùng thời gian trễ, thời gian ràng buộc Mạng LSTM (Long Short Term Memory) đưa cách tiếp cận giải vấn đề 5 Kiến trúc mạng LSTM bao gồm tập mạng kết nối hồi quy, gọi khối nhớ Các khối liên tưởng phiên khác chip nhớ máy tính số Mỗi khối nhớ chứa nhiều ô nhớ tự liên kết ba đơn vị: đầu vào, đầu cổng quên cung cấp khả liên tục viết, đọc hoạt động khởi động cho ô nhớ Alex Graves [21] Hình 2.4: Một khối nhớ LSTM với nhớ Một mạng LSTM tương đương với mạng RNN trừ việc đơn vị tổng hợp tầng ẩn thay khối nhớ Các khối LSTM hòa trộn với đơn vị tổng hợp không cần thiết Tầng đầu sử dụng cho mạng LSTM cho mạng RNN chuẩn Các cổng nhân lên cho phép ô nhớ LSTM lưu trữ truy cập thông tin thời gian dài, giảm nhẹ vấn đề biến đạo hàm Ví dụ cổng đầu vào đóng lại (có hàm kích hoạt gần 0), kích hoạt ô không bị ghi đè đầu vào đến mạng, cung cấp cho mạng sau cách mở cổng đầu LSTM thành công loạt nhiệm vụ yêu cầu nhớ phạm vi dài, áp dụng vấn đề giới thực cấu trúc thứ cấp proteion, sinh âm nhạc, nhận dạng âm thanh, nhận dạng chữ viết 2.3.2 Mạng GRU Mạng RNN làm việc biến x = (x1, x2,…,xT) việc trì trạng thái ẩn h thời gian Tại thời điểm t, trạng thái ẩn h cập nhật công thức: ( ) (2.1) Trong đó: f hàm kích hoạt Thơng thường f thực thi hàm chuyển tuyến tính vector đầu vào, tổng hợp lại thành hàm logistic sigmoid RNN sử dụng hiệu cho việc học phân phối biến việc học phân phối đầu vào p(xt+1|xt,…,x1) Ví dụ, trường hợp chuỗi đến K vector, phân phối học mạng RNN, đưa đầu ra: ( ) ∑ (2.2) Cho tất giá trị j = 1, ,K Trong đó, wj tất hàng ma trận trọng số W Kết phân phối: ∏ (2.3) Gần đây, Cho[12] giới thiệu mạng GRU (Gated Recurrent Units) mạng kích hoạt cho RNN Hàm kích hoạt làm tăng thêm hàm kích hoạt sigmoid với hai cổng gọi reset r, update z Mỗi cổng phụ thuộc vào trạng thái ẩn đằng trước h(t-1) đầu vào xt đưa luồng thông tin Kyunghyun Cho et al [12] Hình 2.5: Minh họa mạng GRU Đầu tiên cổng reset rj tính tốn sau: [ ] [ ] (2.4) Trong đó: σ làm kích hoạt logistic sigmoid [.]j xác định thành phần thứ j vector, x ht-1 đầu vào trạng thái ẩn đằng trước tương ứng Wr Ur ma trận trọng số cần học Tương tự cổng update z tính bẳng: [ ] [ ] (2.5) Trạng thái ẩn hj tính bẳng cơng thức: ̃ (2.6) Trong đó: ̃ [ ] [ ] (2.7) Khi cổng reset tiến gần tới 0, trạng thái ẩn dần bỏ qua có mặt trạng thái ẩn đằng trước ảnh hưởng đầu vào Điều cho phép trạng thái ẩn hủy bỏ thông tin không phù hợp tương lai, cho phép trình diễn gọn nhẹ 7 Mặt khác, cổng update điều khiển việc thông tin từ trạng thái ẩn đằng trước mang tới trạng thái ẩn Điều giúp RNN nhớ thông tin lâu 2.4 Mạng nơ-ron tích chập Mạng nơ-ron tích chập (Convolution Neural Network - CNN – LeCun, 1989) mạng nơ-ron cho xử lý liệu dạng lưới CNN áp dụng thành công ứng dụng xử lý ảnh, xử lý tiếng nói, xử lý âm thanh,… Tên gọi mạng nơ-ron tích chập có nghĩa mạng sử dụng biểu thức toán học gọi tích chập Tích chập dạng đặc biệt phép tuyến tính Như mạng CNN mạng nơ-ron đơn giản sử dụng phép tích chập phép nhân ma trận tầng Để dễ hình dung, ta xem tích chập cửa sổ trượt (sliding window) áp đặt lên ma trận Cơ chế tích chập qua hình minh họa: http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/#more-348 Hình 2.6: Phép tích chập Ma trận bên trái ảnh đen trắng Mỗi giá trị ma trận tương đương với điểm ảnh (pixel), màu đen, màu trắng (nếu ảnh grayscale giá trị biến thiên từ đến 255) Cửa sổ trượt gọi tên nhân, lọc Ở đây, ta dùng ma trận lọc 3x3 nhân thành phần tương ứng (element-wise) với ma trận bên trái Giá trị đầu tích thành phần cộng lại Kết tích chập ma trận sinh từ việc trượt ma trận lọc thực tích chập lúc lên tồn ma trận ảnh bên trái CNNs đơn giản bao gồm vài tầng convolution kết hợp với hàm kích hoạt phi tuyến (nonlinear activation function) ReLU hay để tạo thông tin trừu tượng cho tầng Trong mơ hình mạng nơ-ron truyền thẳng (FNN), tầng kết nối trực tiếp với thông qua trọng số w Các tầng gọi kết nối đầy đủ (full connected layer) Trong mô hình CNNs ngược lại Các tầng liên kết với thơng qua chế tích chập Tầng kết tích chập từ tầng trước đó, nhờ mà ta có kết nối cục Nghĩa nơron tầng sinh từ lọc áp đặt lên vùng ảnh cục nơ-ron tầng trước Mỗi tầng áp đặt lọc khác nhau, thông thường có vài trăm đến vài nghìn lọc Một số tầng khác tầng pooling/subsampling dùng để chặn lọc lại thơng tin hữu ích (loại bỏ thơng tin nhiễu) Trong suốt q trình huấn luyện, CNNs tự động học thông số cho lọc Ví dụ tác vụ phân lớp ảnh, CNNs cố gắng tìm thơng số tối ưu cho lọc tương ứng theo thứ tự raw pixel > edges > shapes > facial > higher-level features Tầng cuối dùng để phân lớp ảnh 8 http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/#more-348 Hình 2.7: Mạng CNN CNNs có tính bất biến có tính kết hợp cục (Location Invariance and Compositionality) Với đối tượng, đối tượng chiếu theo góc độ khác (translation, rotation, scaling) độ xác thuật tốn bị ảnh hưởng đáng kể Tầng Pooling cho bạn tính bất biến phép dịch chuyển (translation), phép quay (rotation) phép co giãn (scaling) Tính kết hợp cục cho ta cấp độ biểu diễn thông tin từ mức độ thấp đến mức độ cao trừu tượng thơng qua tích chập từ lọc Đó lý CNNs cho mơ hình với độ xác cao Cũng giống cách người nhận biết vật thể tự nhiên Ta phân biệt chó với mèo nhờ vào đặc trưng từ mức độ thấp (có chân, có đi) đến mức độ cao (dáng đi, hình thể, màu lơng) 9 Chương 3: Mơ hình đề xuất Các q trình xử lý mạng nơ-ron liên quan đến Attention nghiên cứu nhiều lĩnh vực thần kinh học Các nghiên cứu liên quan thực hóa Attention: nhiều loại động vật tập trung việc xác định thành phần cụ thể đầu vào để tính tốn phản hồi phù hợp Nguồn gốc có lượng lớn ảnh hưởng đến khoa học thần kinh phải lựa chọn thông tin phù hợp nhất, việc sử dụng tất thôn tin, chứa lượng lớn thông tin không phù hợp cho phản hồi nơ-ron Ý tưởng tập trung vào thành phần cụ thể đầu vào áp dụng ứng dụng học sâu nhận dạng tiếng nói, dịch máy, lý giải nhận dạng thị giác đối tượng Bài toán mở đầu là: Sinh tiêu đề cho ảnh Một hệ thống cổ điển sinh tiêu đề mã hóa hình ảnh, sử dụng q trình tiền xử lý CNN đưa tầng ẩn h Sau đó, giải mã tầng ẩn mạng RNN, sinh đệ quy từ tiêu đề Vấn đề đặt với phương pháp mơ hình cố gắng sinh từ tiêu đề, từ thường mơ tả phần hình ảnh Sử dụng toàn biểu diễn ảnh h để điều kiện hóa việc sinh từ khơng hiệu việc đưa từ khác cho thành phần khác ảnh Điều lý giải cho lợi ích kỹ thuật Attention Với kỹ thuật Attention, ảnh chia thành n thành phần chúng tính tốn với trình diễn CNN cho thành phần h1, ,hn Khi RNN sinh từ mới, kỹ thuật Attention tập trung vào thành phần phù hợp ảnh, trình giải mã sử dụng thành phần cụ thể ảnh https://blog.heuritech.com/2016/01/20/attention-mechanism/ Hình 3.2: Sơ đồ mơ hình Attention Trước sử dụng Cơ chế Attention, mơ hình tóm tắt có chế sử dụng Encoder-Decoder Tại bước encoder, đầu vào mạng RNN, LSTM, GRU vector tạo từ mã hóa chuỗi từ với mơ hình từ nhúng (word embedding) Pha decoder sử dụng mạng RNN, LSTM GRU tương ứng để sinh chuỗi từ dựa vào chuỗi đầu vào từ sinh phía trước Trong mơ hình tóm tắt văn tự động, thay tìm xác suất lớn từ sinh bước decoder, tạo danh sách từ ứng viên bước giải mã Sau sử dụng giải thuật tìm kiếm chùm (Beam Search) để lựa chọn từ ứng viên kết nối danh sách từ ứng viên lại thành câu có điểm số cao tạo chuỗi tóm tắt 3.1 Cơ chế Attention 3.1.1 Kiến trúc RNN Encoder-Decoder Được đề xuất Cho[12] Sutskever[10] kiến trúc đại học chỉnh dịch 10 Trong Encoder-Decoder, encoder đọc vào câu - chuỗi vector x = (x1,…,xTx) thành vector c Cách tiếp cận sau: ht = f(xt, ht-1) (3.1) c = q({h1,…,hTx}) (3.2) Trong ht trạng thái ẩn thời điểm t, ht ∈ ℝ n c vector sinh từ chuỗi trạng thái ẩn f q hàm phi tuyến Pha decoder, huấn luyện để dự đoán từ yt’ cho ngữ cảnh c tất từ dự đoán đằng trước {y1,…,yt’-1} Hiểu theo cách khác decoder định nghĩa xác xuất chuyển dịch y việc phân tích xác suất liên kết thành thứ tự điều kiện: { ∏ } (3.3) Trong y = (y1,…yTy) Với mạng RNN, xác suất có điều kiện mơ hình bởi: (3.4) Trong g hàm phi tuyến, yt đầu st trạng thái ẩn mạng RNN 3.1.2 Cơ chế Attention Kiến trúc Encoder-Decoder bị phá vỡ chuỗi đầu vào dài Nguyên nhân bước có vector ngữ cảnh c giao tiếp encoder decoder, vector phải mã hóa cho tồn chuỗi đầu vào, dẫn đến bị tan biến xử lý chuỗi ký tự dài Cơ chế Attention cho phép giải mã tập trung vào phần khác từ đầu encoder Định nghĩa xác suất có điều kiện sau: { } (3.5) Trong đó: Mỗi si trạng thái ẩn RNN thời điểm i, tính cơng thức: si = f(si-1, yi-1, ci) (3.6) Điều không giống với cách tiếp cận encoder-decoder, xác suất điều kiện ngữ cảnh riêng biệt ci cho từ mục tiêu yi Vector ngữ cảnh ci phụ thuộc vào chuỗi trạng thái (h1,…,hTx) – để encoder ánh xạ câu đầu vào Mỗi trạng thái hi chứa đựng thơng tin tồn câu với nhấn mạnh thành phần xung quanh từ thứ i câu đầu vào Ngữ cảnh c tính tốn trọng số tổng hợp trạng thái hi: 11 ∑ (3.7) Trong đó: trọng số αi,j trạng thái hj tính sau: ∑ (3.8) Với eij = a(si-1, hj) hình thức lề tính điểm khả đầu vào xung quanh vị trí j đầu vị trí i trùng Điểm số dựa trạng thái ẩn RNN si-1 trạng thái gán nhãn hj câu đầu vào Xác suất αij hay eij phản ánh độ quan trọng trạng thái hj với trạng thái ẩn đằng trước si-1 để định trạng thái si đưa nhãn yi Decoder định thành phần câu đầu vào để tập trung Encoder tồn thơng tin câu thành vector có độ dài cố định Thơng tin trải dài thành chuỗi gán nhãn, lựa chọn lấy lại pha decoder tương ứng Tồn mơ hình huấn luyện end-to-end việc cực tiểu hóa xác suất có điều kiện: ∑∑ (3.9) Trong đó: N số lượng cặp câu, Xn câu đầu vào, ytn nhãn đầu thứ t n cặp tương ứng 3.1.3 BiRNN Đối với nhiều nhiệm vụ gán nhãn chuỗi, việc truy cập vào thông tin tương lai có ích cho bối cảnh q khứ Ví dụ, phân loại chữ viết tay, hữu ích biết chữ đến từ đằng sau chữ đến từ đằng trước Tuy vậy, mạng RNN chuẩn xử lý chuỗi theo thứ tự thời gian, chúng bỏ qua tương lai ngữ cảnh Một giải pháp rõ ràng thêm cửa sổ trượt ngữ cảnh tương lai vào mạng đầu vào Tuy nhiên, làm tăng số lượng trọng số đầu vào Một cách tiếp cận khác tạo trễ yếu tố đầu vào mục tiêu, nhờ tạo cho mạng số mốc thời gian ngữ cảnh tương lai Phương pháp trì điểm mạnh mạng RNN biến dạng, yêu cầu phạm vi ngữ cảnh phải xác định tay Hơn đặt gánh nặng khơng cần thiết lên mạng cách buộc phải nhớ gốc đầu vào bối cảnh trước nó, suốt thời gian trễ Trong phương án trên, khơng có phương pháp loại bỏ không cân xứng thông tin khứ tương lai Mạng hai chiều RNN (BiRNN) đưa giải pháp phù hợp Ý tưởng BiRNN trình bày chuỗi tiến chuỗi lùi thành hai tầng ẩn hồi quy riêng biệt, hai kết nối với tới tầng giống Cấu trúc cung cấp cho tầng đầu với khứ hoàn chỉnh bối cảnh tương lai cho điểm chuỗi đầu vào, mà di dời đầu vào từ mục tiêu phù hợp BiRNN cải thiện kết lĩnh vực khác nhau, chúng hoạt động tốt RNN chiều gán nhãn chuỗi Thông thường RNN đọc câu đầu vào theo thứ tự bắt đầu câu từ điểm x1 tới điểm cuối xTx BiRNN đề xuất để tổng hợp từ không đằng trước từ mà từ đằng sau từ 12 BiRNN bao gồm chiều tiến RNN chiều quay lui RNN Chiều tiến ⃗ RNN đọc câu đầu vào theo thứ tự (từ x1 đến xTx) tính tốn trạng thái ẩn (⃗⃗⃗⃗ ,…,⃗⃗⃗⃗⃗⃗ ) Chiều quay lui RNN ⃐⃗ đọc câu đầu vào theo thứ tự ngược lại (từ xTx tới x1) Kết chuỗi quay lui trạng thái ẩn (⃐⃗⃗⃗⃗,…,⃐⃗⃗⃗⃗⃗⃗) Để đạt trạng thái cho từ xj, ta kết nối chiều trạng thái tiến ⃗ chiều quay lui ⃐⃗ [⃗⃗⃗⃗ ⃐⃗⃗⃗⃗] (3.10) Trạng thái gán nhãn hj bao gồm thông tin tổng hợp đằng trước đằng sau từ Phụ thuộc vào xu hướng RNN trình bày câu gần từ mà trạng thái ẩn hj tập trung xung quanh từ xj Chuỗi trạng thái sử dụng decoder model chỉnh để tính tốn vector ngữ cảnh Dzmitry Bahdanau et al [9] Hình 3.6: Minh họa chế Attention 3.2 Thuật tốn tìm kiếm chùm (Beam search) Trong mơ hình tóm tắt, giải mã điều khiển câu mã hóa để tạo câu Tại bước lặp t, giải mã cần đưa định từ sinh từ thứ t câu Vấn đề khơng biết xác chuỗi từ cần sinh để cực đại hóa xác suất có điều kiện tổng thể Để giải vấn đề thuật tìm kiếm chùm áp dụng Thuật tốn có độ rộng K cho bước đưa K đề xuất tiếp tục giải mã với số chúng Các mơ hình phát triển giải vấn đề sinh chuỗi thường hoạt động sinh phân phối xác suất thông qua từ điển từ đầu Chúng ta đối mặt với vấn đề lúc làm việc với mạng nơ-ron truy hồi (RNN), mà văn sinh đầu Ở tầng cuối mạng nơ-ron có mạng nơ-ron cho từ từ điển đầu hàm kích hoạt sử dụng để đưa khả từ từ vựng từ chuỗi Pha giải mã liên quan đến tìm kiếm thơng qua tất chuỗi đầu dựa khả chúng Kích thước tập từ vựng tới hàng ngàn, hàng triệu từ Vì vấn đề tìm kiếm số mũ chiều dài chuỗi đầu vấn đề NP khó để hồn tất tìm kiếm 13 Thơng thường, phương pháp tìm kiếm thơng minh sử dụng để đưa chuỗi đầu giải mã gần cho dự đoán Chuỗi ứng viên từ ghi điểm dựa khả chúng Phương pháp phổ biến tìm kiếm tham lam tìm kiếm chùm để định vị chuỗi ứng viên văn Khác với phương pháp thông minh, thuật tốn tìm kiếm chùm mở rộng thuật toán tham lam trả danh sách phù hợp chuỗi đầu thay tham lam chọn bước có khả chuỗi xây dựng, thuật tốn tìm kiếm chùm mở rộng khả bước k trường hợp phù hợp nhất, k tham số người dùng định kiểm soát số lượng chùm tìm kiếm song song thơng qua chuỗi xác suất Thông thường độ rộng chùm tương ứng với thuật tốn tìm kiếm tham lam giá trị 10 cho tiêu chuẩn chung dịch máy Độ rộng chùm kết lớn dẫn tới hiệu suất tốt mơ hình chuỗi ứng viên nhiều khả làm tăng khả kết hợp tốt chuỗi mục tiêu Sự tăng hiệu suất làm giảm tốc độ giải mã Cho (2014)[15] cài đặt thuật tốn tìm kiếm chùm tiêu chuẩn pha giải mã dịch máy (Koehn, 2004) cho hệ thống Encoder-Decoder GroundHog Thuật tốn chùm thành cơng việc giảm thiểu khơng gian tìm kiếm từ kích thước mũ sang kích thước đa thức Cho pha encoder, pha decoder đầu vào x, tìm kiếm chuỗi dịch tốt ŷ = argmaxyp(y|x) Một nhóm ngăn xếp sử dụng để lưu lại giả thuyết q trình tìm kiếm Kích thước chùm N sử dụng để điều kiển khơng gian tìm kiếm việc mở rộng đỉnh N giả thuyết ngăn xếp Với cài đặt bên trên, phần dịch y sinh từ từ theo chiều từ trái sang phải Ta định nghĩa giả thuyết hoàn tất câu chứa đầu EOS, EOS từ đặc biệt kết thúc câu 14 3.3 Mơ hình đề xuất Các mơ hình học sâu áp dụng tốn tóm tắt văn gồm: nhóm tác giả Rush [2] sử dụng mạng nơ-ron tích chập kết hợp với chế attention Sau đó, nhóm Chopra [3] sử dụng mạng nơ-ron tích chập mạng RNN kết hợp với chế attention Nhóm Nallapati[19] sử dụng mơ hình GRU chế attention đạt kết tốt nhóm Rush [2] Hơn mơ hình nhóm tác giả Nallapati[19] áp dụng liệu tóm tắt chứa nhiều câu văn Điều mà nhóm tác giả Rush[2] Chopra[3] chưa tiến hành thí nghiệm Do đó, tơi mở rộng nghiên cứu nhóm tác giả Nallapati[19] cách sử dụng mạng nơ-ron tích chập với mạng GRU kết hợp với chế Attention Câu đầu vào qua tầng Convolution đến tầng mạng Highway Đầu tầng Hìghway đầu vào mạng GRU vào chế Attention Hình 3.7: Mơ hình đề xuất Tầng nhúng (embedding): Giả sử ta có câu nguồn X = (x1, x2, xTx) ∈ Rd x Tx Trong đó: d số chiều từ Tầng convolution: Giả định ta có hàm lọc f ∈ Rd x w với độ rộng w, áp dụng biên đầu cuối câu X Do đó, biên câu tạo thành X’ ∈ Rd x (Tx + w -1) w-1 từ Ta áp dụng phép tích chập X’ f cho phần tử đầu thứ k tính sau: 15 ∑ [ ] (3.11) Trong đó: phép nhân phần ma trận phép toán * phép tích chập X’[:,k-w+1:k] tập X’ chứa tất hàng chứa w cột kề bên Kiểu lựa chọn lề gọi nửa tích chập (half convolution) Điều đảm bảo chiều dài đầu Y ϵ R1xTx Bên trên, ta minh họa trường hợp lọc tích chập cố định Để trích chọn mẫu thơng tin với chiều dài khác nhau, ta đưa tập lọc với chiều dài khác Cụ thể hơn, ta sử dụng tập lọc F = {f1, , fm} Trong đó, fi = Rd x i x ni tập ni lọc với độ rộng i Mơ hình tơi sử dụng m=5, trích chọn gram chiều dài Đầu tất hàm lọc xếp chồng lại, đưa biểu diễn đơn giản Y ϵ RNxTx, số chiều cột cho tổng lọc N = ∑i=1m ni Cuối tầng kích hoạt áp dụng theo phần tử trình diễn Tầng max pooling: Đầu tầng convolution phân thành cụm với chiều dài s, tầng max pooling áp dụng với cụm không giao Thủ tục lựa chọn đặc trưng bật đưa phân đoạn nhúng Mỗi tầng nhúng tóm tắt đoạn riêng biệt (hoặc chồng chéo) câu đầu vào Điều hoạt động đơn vị ngôn ngữ bên từ tầng đến tầng Sự rút ngắn biểu diễn nguồn theo s-fold: Y’ ϵ RNx(Tx/s) Theo kinh nghiệm, tơi sử dụng s=5 Mạng highway (nhóm tác giả Srivastava 2015 [14]): Mạng highway áp dụng số tầng mơ hình học sâu tăng lên với tăng độ phức tạp tính tốn Mạng highway sử dụng với hàng trăm tầng huấn luyện trực tiếp với phương pháp tối ưu SGD biến thể hàm kích hoạt Chuỗi ma trận nhúng sau qua tầng max pooling mạng nơ-ron tích chập đưa đến mạng highway Ý nghĩa tiềm ẩn mạng highway chuyển đổi đầu tầng max pooling thành khoảng ngữ nghĩa, giúp đặc trưng học xác Mạng chuyển đổi đầu vào x với chế cổng để điều chỉnh thông tin theo luồng: (3.12) Đẩu tầng mạng highway đưa tới mạng GRU hai chiều Cuối cùng, tầng mạng hướng tiến tính tốn điểm số attention từ mục tiêu để sản sinh cho cụm thể đầu vào Chương 4: Thực nghiệm đánh giá 4.1 Dữ liệu thử nghiệm Tôi sử dụng hai liệu để tiến hành thí nghiệm: Bộ liệu Gigaword liệu CNN/Daily Mail 4.1.1 Bộ liệu Gigaword 16 Bộ liệu lấy địa chỉ: https://github.com/harvardnlp/sent-summary Dữ liệu bao gồm liệu Gigaword chứa khoảng 3.8 triệu cặp câu gồm câu nguồn câu tóm tắt từ liệu CNN Dailymail Chúng chứa liệu DUC 2003 DUC 2004 Thống kê liệu: Số lượng câu Huấn luyện 38039957 Gigaword Phát triển 189651 Kiểm thử 1951 DUC2003 DUC2004 624 500 Tập kiểm thử Gigaword chứa file liệu gốc file người đánh giá Tập kiểm thử DUC2003 DUC2004 chứa file liệu gốc file người dùng đánh giá tương ứng 4.1.2 Bộ liệu CNN/Daily Mail Bộ liệu thứ hai, sử dụng liệu huấn luyện nhóm tác giả Jianpeng Cheng[20] Dữ liệu gồm báo CNN Daily mail Mỗi nguồn báo chia thành thư mục: Huấn luyện, phát triển kiểm thử Tôi gộp hai nguồn thành ba thư mục: Huấn luyện, phát triển kiểm thử Thống kê liệu: Dailymail CNN Tổng cộng Huấn luyện 193986 83568 277554 Phát triển 12147 1220 13367 Kiểm thử 10350 1093 11443 4.2 Cài đặt Tôi sử dụng framework dl4mt cho toán dịch máy sử dụng chế Attention với mạng GRU địa https://github.com/nyu-dl/dl4mt-tutorial Đối với liệu Gigaword, kích thước từ điển 3000 từ Số chiều từ sử dụng 300 Chiều dài câu tối đa 100 Đối với liệu CNN/Daily Mail, kích thước từ điển đầu vào 18000, kích thước từ điển đầu 60000, số chiều từ 128, độ dài đoạn văn tối đa 800 Phương pháp tối ưu sử dụng adadelta với hệ số học 0.0001 Tất trọng số khởi tạo phân phối chuẩn [-0.01, 0.01] Pha decode, tơi sử dụng thuật tốn beam search Kích thước beam search 20 cho tất mơ hình Cấu hình server chạy: Ubuntu server, 32 core, 96G RAM GPU Quadro K2200, nhớ 4G Tôi sử dụng mạng CNN với cấu sau: Bộ lọc 1: sử dụng kiểu lọc với số lượng lọc kiểu 200 Bộ lọc 2: sử dụng kiểu lọc với số lượng lọc kiểu 200 – 250 Bộ lọc 3: sử dụng kiểu lọc với số lượng lọc kiểu 200 – 250 – 300 Bộ lọc 4: sử dụng kiểu lọc với số lượng lọc kiểu 200 – 250 – 300 – 300 17 Bộ lọc 5: sử dụng kiểu lọc với số lượng lọc kiểu 200 – 250 – 300 – 300 – 400 4.3 Kết Để đánh giá kết phương pháp, sử dụng hệ thống độ đo ROUGE, điều chỉnh DUC hệ thống ước lượng cho tóm tắt văn Nó bao gồm năm độ đo, để xác định chất lượng tóm tắt máy so với tóm tắt người, là: ROUGE-N, ROUGE-L, ROUGE-W, ROUGE-S ROUGE-SU Sự đo lường thực số lượng đơn vị trùng lặp N-grams, chuỗi từ, cặp từ văn tóm tắt ứng cử văn tóm tắt dẫn xuất ROUGE-N ước lượng độ phủ N-grams văn tóm tắt ứng cử văn tóm tắt dẫn xuất ∑ ∑ ∈ ∑ ∈ ∈ ∑ ∈ (4.1) Trong N chiều dài N-grams, Countmatch(N-gram) số lượng lớn N-grams xuất hai tóm tắt tương ứng, Count(N-gram) số lượng N-grams trong văn tóm tắt dẫn xuất ROUGE-L sử dụng độ đo chuỗi có độ dài lớn (LCS – Longest Common Subsequence) để ước lượng tóm tắt Mỗi câu xem chuỗi từ LCS văn tóm tắt ứng cử văn tóm tắt dẫn xuất xác định ROUGE-L tính tốn tỉ lệ độ dài LCS chiều dài văn tóm tắt dẫn xuất { (4.2) Trong đó: |R| và|S| tương ứng chiều dài văn dẫn xuất R văn ứng viên S LCS(R,S) LCS R S PLCS(R,S) độ xác LCS(R,S) RLCS(R,S) độ phủ LCS(R,S) β PLCS(R,S) / RLCS(R,S) 4.3.1 Bộ liệu Gigaword Kết chạy với cấu hình lọc mơ hình CNN Với liệu Gigaword Bộ lọc Bộ lọc Bộ lọc Bộ lọc Bộ lọc RG-1 25.86 25.54 27.00 26.62 26.75 RG-2 8.69 8.78 9.62 9.23 9.47 RG-L 23.95 23.78 24.70 24.49 24.79 18 Với liệu kiểm thử DUC-2003 Bộ lọc Bộ lọc Bộ lọc Bộ lọc Bộ lọc RG-1 15.39 14.38 16.69 14.83 16.15 RG-2 3.72 3.67 4.64 3.87 4.12 RG-L 14.31 13.36 15.27 13.84 14.99 RG-2 3.22 3.06 3.73 3.26 3.31 RG-L 11.78 11.30 12.93 11.63 12.39 Với liệu kiểm thử DUC-2004 Bộ lọc Bộ lọc Bộ lọc Bộ lọc Bộ lọc RG-1 12.89 12.39 14.23 12.63 13.63 Kết tập kiểm thử cho thấy, độ xác tốt đạt sử dụng lọc Tức tập đặc trưng 1-grams, 2-grams 3-grams cho kết tốt Kết liệu kiểm thử Gigaword đạt cao nhất, sau đến liệu DUC-2003 DUC-2004 Nguyên nhân sử dụng liệu Gigaword để huấn luyện mơ hình Tơi so sánh kết với kết chạy mơ hình words-lvt2k-1sent (GRU với chế Attention) nhóm tác giả Nallapati[19]: Gigaword DUC-2003 DUC-2004 RG-1 16.59 6.41 5.69 RG-2 4.26 1.11 0.81 RG-L 15.74 6.12 5.47 Kết so sánh cho thấy hiệu rõ ràng mơ hình CNN áp dụng vào mạng GRU với chế Attention Ví dụ đầu mơ hình đề xuất: Ví dụ the sri lankan government on wednesday announced the closure of government schools with immediate effect as a military campaign against tamil separatists escalated in the north of the country Câu tóm tắt sri lanka closes schools as war escalates Câu sinh sri lanka announces UNK of schools Ví dụ police arrested five anti-nuclear protesters thursday after they sought to disrupt loading of a french antarctic research and supply vessel , a spokesman for the protesters said Câu tóm tắt protesters target french research ship Câu sinh french police arrest five protesters Ví dụ factory orders for manufactured goods rose #.# percent in september , the commerce 19 department said here thursday Câu tóm tắt us september factory orders up #.# percent Câu sinh us factory orders up #.# percent in september Kết cho thấy câu sinh gần giống với câu tóm tắt, nhiên số câu sinh gặp phải vấn đề như:    Ngữ pháp không Vấn đề từ (từ UNK) xuất câu Vấn đề lặp từ Đây vấn đề thách thức đặt cho nhà nghiên cứu tìm phương pháp giải 4.3.2 Bộ liệu CNN/Daily Mail Tơi chạy thí nghiệm với kiểu lọc 3: sử dụng ba lọc với kích thước tương ứng 200 – 250 – 300 Do cấu hình máy huấn luyện hạn chế nên dừng lại trình huấn luyện epoch 10 để kiểm tra kết Kết Ví dụ đầu ra: Ví dụ RG-1 18.39 RG-2 2.95 RG-L 13.76 the Michigan has decided to proceed with a screening of the film " American Sniper " despite objections from some students more than 200 students signed a petition asking the school not to show the movie as part of UMix , a series of social events the university stages for students Bradley Cooper was nominated for an Oscar for his portrayal of Kyle , a Navy seal and the most lethal sniper in American military history Kyle was fatally shot at a Texas shooting range in 2013 some students believed the movie 's depiction of the Iraq War reflected negatively on the Middle East and people from that region Michigan 's Detroit metropolitan area is home to the nation 's largest Arab - American population but there was a backlash to the decision to yank the movie , and a counter-petition asked school officials to reconsider on wednesday , E Royster Harper , Michigan 's vice president for student life , said in a statement that " it was a mistake to cancel the showing of the movie ' American Sniper ' on campus as part of a social event for students " and that the show will go on " the initial decision to cancel the movie was not consistent with the high value the Michigan places on freedom of expression and our respect for the right of students to make their own choices in such matters , " the statement said UMix will offer a screening of the family - friendly " Paddington " for those who would rather not attend " American Sniper " the announcement drew praise from Michigan head football coach Jim Harbaugh Văn some *complained* about the film 's depiction of the Iraq War a petition asked the university tóm tắt not to show the Bradley Cooper film Văn the video was posted on the website of the UNK Academy in Michigan the video shows the sinh school students at the school in Michigan Kết cho thấy, đoạn tóm tắt đưa chưa thể nội dung tóm tắt người dùng, chúng sai ngữ pháp gặp nhiều vấn đề khác tương tự với liệu Gigaword 20 Kết luận Luận văn nghiên cứu cho tốn tóm tắt văn theo hướng tóm lược ý, thực nghiệm tiến hành liệu tiếng Anh Nghiên cứu có kết bước đầu cho tốn tóm tắt văn Luận văn trình bày số vấn đề sau:     Tìm hiểu tổng quan tóm tắt văn sâu vào tóm tắt tóm lược Trình bày hiểu biết mơ hình mạng học sâu mạng nơ-ron đa lớp, mạng LSTM, mạng GRU, mạng nơ-ron tích chập Đề xuất mơ hình dựa mạng nơ-ron tích chập mạng GRU kèm theo chế attention Tiến hành thử nghiệm với hai liệu khác biệt với cấu hình mạng CNN khác Kết cho thấy hiệu rõ ràng mơ hình đề xuất so với mơ hình words-lvt2k-1sent nhóm tác giả R Nallapati [19] Mặc dù cố gắng nỗ lực, thời gian nghiên cứu trình độ thân có hạn với cấu hình máy chạy chưa đủ mạnh nên luận văn chưa đạt kết mong muốn Trong tương lai, tiếp tục hướng nghiên cứu dùng mơ hình Deep learning cho tốn tóm tắt văn theo hướng tóm lược:    Sử dụng Cơ chế bao phủ [19], [23]: Sự lặp lại từ tính tốn tăng lên liên tục ý tới từ cụ thể Sử dụng mạng Pointer [23]: Các tóm tắt cần chép chứa lượng từ xuất văn nguồn Sử dụng phương pháp học tăng cường [24]: dựa vào độ đo ROUGE để định nghĩa hàm lỗi 21 Tài liệu tham khảo Ani Nenkova and Kathleen McKeown, Automatic Summarization, Foundations and Trends in Information Retrieval, Vol 5: No 2–3, pp 103-233 Alexander M Rush and Sumit Chopra and Jason Weston (2015), A Neural Attention Model for Abstractive Sentence Summarization, Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pp 379-389 Sumit Chopra and Michael Auli and Alexander M Rush (2016), Abstractive Sentence Summarization with Attentive Recurrent Neural Networks, The 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, San Diego California, USA, pp 93-98 Qingyu Zhou and Nan Yang and Furu Wei and Ming Zhou (2017), Selective Encoding for Abstractive Sentence Summarization, Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, pp 1095-1104 Yoon Kim (2014), Convolutional Neural Networks for Sentence Classification, Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, Doha, Qatar, pp 17461751 Nal Kalchbrenner and Edward Grefenstette and Phil Blunsom (2014), A Convolutional Neural Network for Modelling Sentences, Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, Baltimore, MD, USA, pp 655-665 Yoon Kim and Yacine Jernite and David Sontag, Alexander M Rush (2016), Character-Aware Neural Language Models, Proceedings of the Thirtieth Conference on Artificial Intelligence, Phoenix, Arizona, USA Jason Lee and Kyunghyun Cho and Thomas Hofmann (2017), Fully Character-Level Neural Machine Translation without Explicit, Transactions of the Association for Computational Linguistics, pp 365-378 Dzmitry Bahdanau and Kyunghyun Cho and Yoshua Bengio (2015), Neural Machine Translation by Jointly Learning to Align and Translate, International Conference on Learning Representations 10 Ilya Sutskever and Oriol Vinyals and Quoc V Le (2014), Sequence to Sequence Learning with Neural Networks, Advances in Neural Information Processing Systems 27: Annual Conference on Neural Information Processing Systems 2014, Montreal, Quebec, Canada, pp 3104-3112 11 Thang Luong and Hieu Pham and Christopher D Manning (2015), Effective Approaches to Attention-based Neural Machine Translation, Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, Lisbon, Portugal, pp 1412-1421 12 Kyunghyun Cho and Bart van Merrienboer and Caglar Gulcehre and Dzmitry Bahdanau and Fethi Bougares and Holger Schwenk and Yoshua Bengio (2014), Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation, Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, Doha, Qatar, pp.1724-1734 13 Junyoung Chung and KyungHyun Cho and Yoshua Bengio (2014), Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling, Advances in Neural Information Processing Systems 2014 Deep Learning and Representation Learning Workshop 14 Rupesh Kumar Srivastava and Klaus Greff and Jurgen Schmidhuber (2015), Training Very Deep Networks, Advances in Neural Information Processing Systems 28: Annual Conference on Neural Information Processing Systems 2015, Montreal, Quebec, Canada 15 Kyunghyun Cho and Bart van Merrienboer and Dzmitry Bahdanau, Yoshua Bengio (2014), On the Properties of Neural Machine Translation: Encoder-Decoder Approaches, Proceedings of SSST@EMNLP 2014, Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation, Doha, Qatar, pp 103-111 22 16 Lin, Chin-Yew (2004), ROUGE: a Package for Automatic Evaluation of Summaries, Proceedings of the Workshop on Text Summarization Branches Out (WAS 2004), Barcelona, Spain, pp 74-81 17 Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, Yann N Dauphin (2017), Convolutional Sequence to Sequence Learning, Proceedings of the 34th International Conference on Machine Learning, Sydney, NSW, Australia 18 Ian Goodfellow and Yoshua Bengio, and Aaron Courville (2016), Deep Learning, MIT Press 19 R Nallapati, B Zhou, C Gulcehre, B Xiang (2016), Abstractive Text Summarization using Sequenceto-Sequence RNNs and Beyond, The SIGNLL Conference on Computational Natural Language Learning, pp 280-290 20 Jianpeng Cheng and Mirella Lapata (2016), Neural summary by extracting sentences and words, Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, Berlin, Germany, pp 484-494 21 Alex Graves (2012), Supervised Sequence Labelling with Recurrent Neural Networks, Studies in Computational Intelligence, Springer 22 N Moratanch, S Chitrakala (2016), A survey on abstractive text summarization, International Conference on Circuit, Power and Computing Technologies 23 Abigail See, Peter J Liu, Christopher D Manning (2017), Get To The Point: Summarization with Pointer-Generator Networks, Annual Meeting of the Association for Computational Linguistics, pp 1073-1083 24 Romain Paulus, Caiming Xiong, Richard Socher (2018), A Deep Reinforced Model for Abstractive Summarization, 6th International Conference on Learning Representations 25 Nguyễn Viết Hạnh (2018), Nghiên cứu tóm tắt văn tự động ứng dụng, Luận văn thạc sĩ, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội ... rút gọn tập văn thành tóm tắt Tóm tắt đa văn xem mở rộng tóm tắt đơn văn thường dùng với thông tin chứa cụm văn bản, để người dùng hiểu cụm văn Tóm tắt đa văn phức tạp tóm tắt đơn văn phải làm... phong cách viết cú pháp văn Phụ thuộc vào số lượng văn bản, kỹ thuật tóm tắt chia làm hai lớp: đơn văn đa văn Tóm tắt đơn văn đơn giản rút gọn văn thành trình bày ngắn gọn Trong tóm tắt đa văn. .. lại theo cách khác Tóm tắt trích chọn bao gồm câu lấy từ văn bản, tóm tắt tóm lược sử dụng từ cụm từ không xuất văn gốc Tóm tắt trích chọn phương pháp đơn giản mạnh mẽ cho tóm tắt văn bản, liên

Ngày đăng: 16/01/2020, 09:06

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan