Trong luận văn này, tác giả tập trung nghiên cứu tóm tắt văn bản tự động theo hướng tóm lược, các mô hình kiến trúc mạng học sâu và các kỹ thuật xử lý những thách thức trong tóm tắt văn bản. Bố cục của luận văn được tổ chức thành như sau: Chương 1. Khái quát bài toán tóm tắt văn bản; chương 2. Một số nghiên cứu về tóm tắt văn bản; chương 3. Mạng nơ ron nhân tạo; chương 4. Xây dựng hệ thống tóm tắt văn bản theo hướng tóm lược, chương 5. Thử nghiệm và đánh giá.
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VIẾT HẠNH NGHIÊN CỨU TÓM TẮT VĂN BẢN TỰ ĐỘNG VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI – 2018 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VIẾT HẠNH NGHIÊN CỨU TÓM TẮT VĂN BẢN TỰ ĐỘNG VÀ ỨNG DỤNG Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS NGUYỄN VĂN VINH HÀ NỘI - 2018 LỜI CAM ĐOAN Tôi Nguyễn Viết Hạnh, học viên lớp Kỹ Thuật Phần Mềm K22 xin cam đoan báo cáo luận văn đƣợc viết dƣới hƣớng dẫn thầy giáo, tiến sỹ Nguyễn Văn Vinh Tất kết đạt đƣợc luận văn q trình tìm hiểu, nghiên cứu riêng tơi Trong toàn nội dung luận văn, điều đƣợc trình bày kết cá nhân tơi đƣợc tổng hợp từ nhiều nguồn tài liệu khác Các tài liệu tham khảo có xuất xứ rõ ràng đƣợc trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày … tháng …… năm 2018 Ngƣời cam đoan Nguyễn Viết Hạnh LỜI CẢM ƠN Lời đầu tiên, xin bày tỏ cảm ơn chân thành Thầy giáo TS Nguyễn Văn Vinh – giáo viên hƣớng dẫn trực tiếp Thầy Vinh cho gợi ý dẫn quý báu q trình nghiên cứu hồn thiện luận văn thạc sĩ Tôi xin gửi lời cảm ơn tới thầy cô khoa Công nghệ thông tin, trƣờng Đại học Công Nghệ, Đại học Quốc gia Hà Nội hƣớng dẫn, bảo tạo điều kiện cho học tập nghiên cứu trƣờng suốt thời gian qua Tôi xin đƣợc cảm ơn gia đình, ngƣời thân, đồng nghiệp bạn bè quan tâm, động viên, giới thiệu tài liệu hữu ích thời gian học tập nghiên cứu luận văn tốt nghiệp Mặc dù cố gắng hồn thành luận văn nhƣng chắn khơng tránh khỏi sai sót, tơi kính mong nhận đƣợc thông cảm bảo thầy cô bạn Tôi xin chân thành cảm ơn! MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC BẢNG CÁC TỪ VIẾT TẮT DANH MỤC HÌNH VẼ MỞ ĐẦU 10 CHƢƠNG 1: KHÁI QT BÀI TỐN TĨM TẮT VĂN BẢN 12 1.1 Bài toán tóm tắt văn tự động 12 1.2 Các hƣớng tiếp cận tóm tắt văn 12 CHƢƠNG 2: MỘT SỐ NGHIÊN CỨU VỀ TÓM TẮT VĂN BẢN 14 2.1 Tóm tắt văn theo hƣớng trích chọn 14 2.1.1 Phƣơng pháp chủ đề đại diện dựa tần xuất 15 2.1.1.1 Word probability 15 2.1.1.2 Phƣơng pháp TF-IDF 16 2.1.2 Phƣơng pháp đặc trƣng đại diện 16 2.1.2.1 Phƣơng pháp đồ thị cho tóm tắt văn 16 2.1.2.2 Kỹ thuật học máy cho tóm tắt văn 17 2.2 Tóm tắt văn theo hƣớng tóm lƣợc 17 CHƢƠNG 3: MẠNG NƠ RON NHÂN TẠO 19 3.1 Mạng nơ ron nhân tạo ANN 19 3.1.1 Cấu trúc mạng nơ ron nhân tạo 19 3.1.2 Hoạt động mạng ANN 20 3.2 Mạng nơ ron hồi quy RNN 21 3.3 Mạng nơ ron có nhớ LSTM 23 CHƢƠNG 4: XÂY DỰNG HỆ THỐNG TÓM TẮT VĂN BẢN THEO HƢỚNG TÓM LƢỢC 29 4.1 Quy trình tóm tắt theo hƣớng tóm lƣợc sử dụng mạng LSTM 29 4.2 Xây dựng liệu cho tóm tắt văn tiếng Việt 30 4.3 Word Embedding 32 4.3.1 Embedding dựa tần xuất xuất từ 33 4.3.1.1 Count vector 33 4.3.1.2 Phƣơng pháp vector hóa TF-IDF 34 4.3.2 Word2Vec 36 4.3.2.1 CBOW (Continuous Bag of Word) 36 4.3.2.2 Mơ hình Skip-gram 38 4.4 Xây dựng mơ hình 41 CHƢƠNG 5: THỬ NGHIỆM VÀ ĐÁNH GIÁ 45 5.1 Môi trƣờng thử nghiệm 45 5.2 Quá trình thử nghiệm 46 5.2.1 Huấn luyện 46 5.2.2 Thử nghiệm 47 5.2.2.1 Thử nghiệm 47 5.2.2.2 Thử nghiệm 51 5.2.2.3 Thử nghiệm 53 5.2.2.4 Thử nghiệm 54 KẾT LUẬN 60 TÀI LIỆU THAM KHẢO 61 BẢNG CÁC TỪ VIẾT TẮT STT Từ viết tắt thuật ngữ Từ/Cụm từ đầy đủ Giải thích ANN Artificial Neural Network Mạng nơ ron nhân tạo đƣợc nghiên cứu từ hệ thống thần kinh ngƣời, giống nhƣ não để xử lý thông tin LSTM Kiến trúc mạng học sâu cải tiến RNN, giải hạn chế mạng RNN với Long-Short Term Memory toán cần xử lý liệu theo thời gian đòi hỏi trạng thái nhớ trung gian NLTK Natural Language Toolkit Một công cụ xử lý ngôn ngữ tự nhiên mạnh môi trƣờng Python RNN Recurrent Neural Network Mạng nơ ron hồi tiếp sử dụng để xử lý thơng tin có tính chuỗi ROUGE Recall Oriented Understudy for Gist Evaluation Phƣơng pháp đánh giá độ xác văn tóm tắt TF-IDF Term Frequency -Inverse Document Frequency Một phƣơng pháp đánh giá độ quan trọng từ văn DANH MỤC HÌNH VẼ Hình 2.1 Mơ hình sequence-to-sequence với chế attention 18 Hình 2.2 Ví dụ văn tóm tắt đƣợc sinh mơ hình pointer-generator networks 18 Hình 3.1 Cấu trúc mạng nơ ron nhân tạo 19 Hình 3.2 Nguyên lý hoạt động mạng ANN 20 Hình 3.3 Đồ thị hàm kích hoạt phổ biến đạo hàm chúng 21 Hình 3.4 Ví dụ toán dự đoán từ 22 Hình 3.5 Cấu trúc mạng RNN tiêu biểu 22 Hình 3.6 Kiến trúc LSTM 24 Hình 3.7 Kiến trúc mạng LSTM 25 Hình 3.8 Ống nhớ khối LSTM 25 Hình 3.9 Cổng bỏ nhớ LSTM 26 Hình 3.10 LSTM tính tốn giá trị lƣu cell state 26 Hình 3.11 Cập nhật giá trị Cell State 27 Hình 3.12 Đầu khối LSTM 28 Hình 4.1 Mơ hình tốn tóm tắt văn 29 Hình 4.2 Quy trình thực tóm tắt văn tiếng Việt với LSTM 30 Hình 4.3 Thu thập liệu cho tóm tắt văn tiếng Việt 31 Hình 4.4 Ma trận M đƣợc xây dựng theo phƣơng pháp Count vector 34 Hình 4.5 Cách hoạt động CBOW 37 Hình 4.6 Mơ hình Skip-gram 38 Hình 4.7 Kiến trúc mạng mơ hình skip-gram 39 Hình 4.8 Ma trận trọng số lớp ẩn word2vec 40 Hình 4.9 Lớp ẩn hoạt động nhƣ bảng tra cứu 40 Hình 4.10 Tƣơng quan hai từ thực với word2vec 41 Hình 4.11 Mơ hình chuỗi sang chuỗi 41 Hình 4.12 Mơ hình mã hóa-giải mã 42 Hình 4.13 Kiến trúc mơ hình tóm tắt văn tiếng việt sử dụng LSTM 43 Hình 5.1 Minh họa kết word embedding 47 Hình 5.2 Tƣơng quan từ với từ “income” 48 Hình 5.3 Runing Average Loss 48 Hình 5.4 Word2vec cho tập liệu tiếng Việt 51 Hình 5.5 Running Avarage Loss với liệu tiếng Việt 52 Hình 5.6 Running Avarage Loss với liệu 4000 báo tiếng Việt 53 Hình 5.7 So sánh chất lƣợng mơ hình tập liệu tiếng Việt 55 DANH MỤC BẢNG Bảng 4.1 Count matrix M có kích thƣớc 2x6 33 Bảng 4.2 Minh họa phƣơng pháp TF-IDF 35 Bảng 5.1 Đánh giá độ xác tập 11490 báo tiếng Anh 49 Bảng 5.2 So sánh số mơ hình học sâu cho tóm tắt văn tóm lƣợc 50 Bảng 5.3 Đánh giá độ xác tập 316 báo tiếng Việt 52 Bảng 5.4 Đánh giá độ xác tập 500 báo tiếng Việt 54 Bảng 5.5 Thử nghiệm chất lƣợng mơ hình tập liệu tiếng Việt 54 10 MỞ ĐẦU Với phát triển mạnh mẽ công nghệ thông tin mạng máy tính, lƣợng tài liệu văn khổng lồ đƣợc tạo với nhiều mục đích sử dụng khác khiến cho việc đọc hiểu trích lƣợc thông tin cần thiết khối tri thức đồ sộ tốn nhiều thời gian chi phí (đặc biệt chi phí cho hạ tầng truyền dẫn thông tin đáp ứng yêu cầu cho số lƣợng ngày nhiều thiết bị cầm tay) Để tăng hiệu nhƣ dễ dàng việc tiếp nhận thông tin ngƣời dùng, nhiều nghiên cứu khai phá liệu xử lý ngôn ngữ tự nhiên đƣợc thực Một nghiên cứu quan trọng đóng vai trị then chốt tóm tắt văn tự động Bài tốn tóm tắt văn tiếng Việt đƣợc nghiên cứu áp dụng nhiều kỹ thuật nhƣ tiếng Anh; nhiên, tóm tắt văn nói riêng xử lý ngơn ngữ tự nhiên nói chung áp dụng cho tiếng Việt gặp nhiều thách thức Sở dĩ tiếng Việt với đặc trƣng tiếng đơn âm có điệu nên việc tách từ, tách thành phần ngữ nghĩa câu tiếng Việt đòi hỏi xử lý phức tạp so với xử lý câu tiếng Anh, thêm vào đó, khơng có nhiều kho liệu tiếng Việt đƣợc chuẩn hóa cơng bố Trong luận văn này, chúng tơi tập trung nghiên cứu tóm tắt văn tự động theo hƣớng tóm lƣợc, mơ hình kiến trúc mạng học sâu kỹ thuật xử lý thách thức tóm tắt văn Bố cục luận văn đƣợc tổ chức thành nhƣ sau: Chƣơng 1: Khái qt tốn tóm tắt văn giới thiệu tổng quan tốn tóm tắt văn tự động, định nghĩa hƣớng tiếp cận Chƣơng 2: Một số nghiên cứu tóm tắt văn giới thiệu số phƣơng pháp, kỹ thuật đƣợc nghiên cứu áp dụng cho tốn tóm tắt văn tự động Chƣơng 3: Mạng nơ ron nhân tạo giới thiệu sở lý thuyết cách hoạt động mơ hình kiến trúc từ mạng ANN tới RNN LSTM Chƣơng 4: Xây dựng hệ thống tóm tắt văn theo hƣớng tóm lƣợc trình bày mơ hình tốn tóm tắt văn tự động, quy trình thực giải tốn luận văn, xây dựng mơ hình học sâu dựa kiến trúc mạng LSTM áp dụng cho toán tóm tắt văn 49 Để đánh giá độ xác mơ hình, chúng tơi tiến hành chạy mơ hình với liệu test gồm 11490 mẫu, sử dụng phƣơng pháp ROUGE [16] ROUGE viết tắt Recall Oriented Understudy for Gist Evaluation, phƣơng pháp đƣợc coi chuẩn mực đƣợc sử dụng rộng rãi nghiên cứu tóm tắt văn Điểm ROUGE-N đƣợc xác định nhƣ sau: ROUGE − N = 𝑆∈{𝑅𝑒𝑓𝑒𝑟𝑒𝑛𝑐𝑒𝑆𝑢𝑚𝑚𝑎𝑟𝑦 } 𝑔𝑟𝑎𝑚 𝑛 ∈𝑆 𝐶𝑜𝑢𝑛𝑡𝑚𝑎𝑡𝑐 (𝑔𝑟𝑎𝑚𝑛 ) 𝑆∈{𝑅𝑒𝑓𝑒𝑟𝑒𝑛𝑐𝑒𝑆𝑢𝑚𝑚𝑎𝑟𝑦 } 𝑔𝑟𝑎𝑚 𝑛 ∈𝑆 𝐶𝑜𝑢𝑛𝑡(𝑔𝑟𝑎𝑚𝑛 ) Trong 𝐶𝑜𝑢𝑛𝑡𝑚𝑎𝑡𝑐 (𝑔𝑟𝑎𝑚𝑛 ) số lƣợng n-grams lớn có văn tóm tắt sinh văn tóm tắt tham chiếu 𝐶𝑜𝑢𝑛𝑡(𝑔𝑟𝑎𝑚𝑛 ) số lƣợng n-grams có văn tóm tắt tham chiếu Độ xác mơ hình với tập liệu test đƣợc thể bảng 5.1, chúng tơi tính tốn điểm ROUGE sử dụng công cụ pyrouge [10] Bảng 5.1 Đánh giá độ xác tập 11490 báo tiếng Anh ROUGE-1 ROUGE-2 ROUGE-L Precision 37.38 16.02 33.99 Recall 36.76 15.62 33.39 F-score 35.90 15.30 32.62 ROUGE-1 ROUGE-2 đƣợc đánh giá dựa số 1-gram 2-gram có văn tóm tắt mơ hình sinh văn tóm tắt tham chiếu Và ROUGE-L đƣợc đánh giá dựa chuỗi chung dài có văn tóm tắt sinh văn tóm tắt tham chiếu, tham số quan trọng để đánh giá chất lƣợng mơ hình sinh tóm tắt Điểm ROUGE-L F-score mơ hình tập liệu CNN/DailyMail 32.62 Bảng 5.2 thể kết đối sánh mơ hình chúng tơi xây dựng mơ hình cơng bố tác giả Nallapati [22] tác giả See [28] 50 Bảng 5.2 So sánh số mơ hình học sâu cho tóm tắt văn tóm lƣợc Tham số Nallapati et al See et al Our Model Mẫu huấn luyện 287226 287226 287226 Mẫu kiểm thử 11490 11490 11490 150,000 50,000 20,000 Số đặc trƣng word2vec 100 128 128 Số nơ ron ẩn RNN 200 Thuật toán tối ƣu Adadelta Adagrad Adam Tốc độ học 0.001 0.15 0.001 Huấn luyện 600K iterations ~ days 230K iterations ~ 3days+4 hours 90.3K iterations ~ 1day+17 hours Tesla K40 Tesla K40m GTX 1050Ti 5 29.47 36.38 32.62 Số lƣợng từ vựng GPU Beam size ROUGE-L FScore Single LSTM 256 2-Stacked LSTM 256 Bảng 5.2 thể kết mơ hình thực tóm tắt văn tự động theo hƣớng tóm lƣợc đƣợc huấn luyện đánh giá liệu CNN/DailyMail Dựa điểm ROUGE-L F-score, nhận xét mơ hình chúng tơi xây dựng cho kết tốt mơ hình tác giả Nallapati liệu So với mô hình tác giả See, mơ hình chúng tơi xây dựng cho điểm ROUGE-L Fscore thấp liệu CNN/Daily Mail, nhiên, mơ hình chúng tơi xây dựng đƣợc huấn luyện với số lƣợng từ vựng (20,000 từ so với 50,000 từ) thời gian ngắn phần cứng cấu hình thấp đáng kể so với tác giả See; đó, nhìn chung độ xác mơ hình chấp nhận đƣợc 51 5.2.2.2 Thử nghiệm Trong thử nghiệm thứ 2, tiến hành thử nghiệm mô hình với tập liệu tiếng việt Hiện chƣa có liệu cho tóm tắt văn tiếng Việt đƣợc công bố, nên tiến hành thu thập mẫu báo website tin tức trực tuyến Sau có mẫu liệu, tiến hành tiền xử lý liệu chuyển dạng nhị phân Tập liệu tiếng Việt thử nghiệm gồm 1120 báo cho huấn luyện 316 báo cho kiểm thử Các văn đầu vào đƣợc tách thành token Chúng sử dụng thƣ viện Pyvi để thực tokenize Các token đƣợc véc tơ hóa phƣơng pháp word2vec trƣớc đƣợc đƣa vào mơ hình Hình 5.4 minh họa kết word embedding cho tập liệu thử nghiệm Hình 5.4 Word2vec cho tập liệu tiếng Việt 52 Kết hàm lỗi trình huấn luyện với liệu 1120 báo tiếng việt đƣợc thể hình 5.5 Hình 5.5 Running Avarage Loss với liệu tiếng Việt Độ xác mơ hình với tập liệu gồm 316 báo tiếng việt đƣợc thực phƣơng pháp ROUGE đƣợc thể bảng 5.3 Bảng 5.3 Đánh giá độ xác tập 316 báo tiếng Việt ROUGE-1 ROUGE-2 ROUGE-L Precision 50.53 14.39 32.60 Recall 52.92 14.83 33.79 F-score 49.80 14.08 31.93 Trong thử nghiệm này, mơ hình đƣợc huấn luyện với 1120 mẫu kiểm thử với 316 mẫu, số lƣợng mẫu huấn luyện Tuy nhiên, tập liệu sử dụng báo đƣợc thu thập ngẫu nhiên trang báo tin tức (báo Tiền Phong) khơng giới hạn chủ đề viết, văn tóm tắt mơ hình sinh giới hạn độ dài 53 khoảng từ 35 tới 100 token, không bị ràng buộc theo định dạng cố định Điểm ROUGE-L F-score thu đƣợc cao 5.2.2.3 Thử nghiệm Trong thử nghiệm thứ 3, tiến hành thử nghiệm mơ hình với tập liệu tiếng Việt gồm 4000 báo cho huấn luyện 500 báo cho kiểm thử Các siêu tham số khác đƣợc thiết lập giống nhƣ hai thử nghiệm trƣớc, nhiên thử nghiệm sử dụng 25000 từ cho tập từ vựng kích thƣớc batch size Mơ hình đƣợc huấn luyện qua 10000 bƣớc lặp, kết hàm lỗi đƣợc thể hình 5.6 Hình 5.6 Running Avarage Loss với liệu 4000 báo tiếng Việt Độ xác mơ hình đánh giá tập thử nghiệm 500 báo tiếng Việt đƣợc thể bảng 5.4 54 Bảng 5.4 Đánh giá độ xác tập 500 báo tiếng Việt ROUGE-1 ROUGE-2 ROUGE-L Precision 50.93 17.44 34.00 Recall 55.45 19.01 36.89 F-score 51.32 17.57 34.17 Từ kết tính tốn điểm ROUGE-L F-score mơ hình bảng 5.4 thấy rằng, chất lƣợng mơ hình đƣợc cải thiện đƣợc huấn luyện với nhiều mẫu sử dụng tập từ vựng với nhiều từ 5.2.2.4 Thử nghiệm Từ hai thử nghiệm trƣớc với tiếng Việt, nhận thấy mô hình cho kết tốt thử nghiệm số đƣợc huấn luyện với số lƣợng mẫu nhiều số lƣợng từ tập từ vựng nhiều Để kiểm chứng điều này, thử nghiệm mơ hình với bốn tập liệu có số lƣợng mẫu huấn luyện số từ sử dụng tập từ vựng tăng dần nhƣ thể bảng 5.5 Bảng 5.5 Thử nghiệm chất lƣợng mơ hình tập liệu tiếng Việt Tham số Dataset Dataset Dataset Dataset Mẫu huấn luyện 1120 2000 3000 4000 Mẫu kiểm thử 500 500 500 500 10000 15000 20000 25000 128 128 128 128 Số lƣợng từ vựng Số đặc trƣng word2vec 55 Số nơ ron ẩn LSTM 256 256 256 256 Thuật toán tối ƣu Adam Adam Adam Adam Tốc độ học 0.001 0.001 0.001 0.001 Beam size 5 5 Tập liệu kiểm thử giống bốn liệu dùng để so sánh chất lƣợng mơ hình Hình 5.7 thể điểm F-score đƣợc tính theo phƣơng pháp ROUGE mơ hình tập liệu test gồm 500 báo tiếng Việt Chất lƣợng mơ hình tập liệu tiếng Việt 51.32 51.15 34.17 50.7 49.74 ROUGE-1 33.74 17.57 16.65 15.56 13.76 ROUGE-2 32.95 Dataset Dataset Dataset Dataset 31.6 ROUGE-L Hình 5.7 So sánh chất lƣợng mơ hình tập liệu tiếng Việt Từ kết thu đƣợc từ hình 5.7 thấy rằng, chất lƣợng mơ hình đƣợc cải thiện đƣợc huấn luyện với nhiều mẫu sử dụng tập từ vựng phong phú 56 Tuy nhiên hạn chế khả tính tốn mơi trƣờng phần cứng, thực thử nghiệm với tập từ vựng gồm nhiều từ nữa, nhƣng tin rằng, với việc đa dạng hóa tập liệu huấn luyện tăng chất lƣợng tập từ vựng, tốn tóm tắt văn tự động theo hƣớng tóm lƣợc cho kết khả quan Kết số mẫu kiểm thử cho mơ hình đƣợc thể phần luận văn, Model kết huấn luyện mơ hình với Dataset 1, model là kết huấn luyện mơ hình với Dataset 2, tƣơng tự với model model Bài báo: Sáng 18/11 , buổi tiếp xúc cử tri trƣớc kỳ họp HĐND TP Hà Nội , nhiều cử tri quận Cầu Giấy bày tỏ xúc lo lắng trƣớc tình trạng buông lỏng lỏng quản lý hoạt động kinh doanh karaoke dẫn đến việc xảy vụ cháy gây thiệt hại lớn Cử tri Vũ Thị Liên cho , thời gian vừa qua địa bàn thành phố xảy số vụ cháy quán karaoke , có vụ lớn , vụ nhỏ Song nhiều gây hoang mang , lo sợ , bất an cho nhân dân Điển hình vụ cháy quán karaoke số 68 Trần Thái Tông vừa qua làm 13 ngƣời thiệt mạng Đây vụ cháy kinh hồng đau xót , gây hậu lớn ngƣời Sự việc cho thấy cấp lãnh đạo ngành chủ quan buông lỏng quản lý hoạt động kinh doanh , cử tri Vũ Thị Liên xúc Theo cử tri Vũ Thị Liên vụ cháy quán karaoke số 68 đƣờng Trần Thái Tơng cịn phản ánh việc tun truyền , tập huấn cho sở karaoke ngành hàng khác địa bàn chủ quan , chƣa , chế tài xử lý chƣa nghiêm khắc , đến việc xảy gây hậu vào liệt Từ vụ việc , cử tri đề nghị thành phố phải có kế hoạch rõ ràng việc quản lý karaoke địa bàn nhƣ hoạt động kinh doanh khác Ông Dƣơng Cao Thanh trả lời ý kiến cử tri Trả lời kiến nghị cử tri , ông Dƣơng Cao Thanh , Chủ tịch UBND quận Cầu Giấy cho , quận xảy vụ cháy ngày 1/11/2016 68 Trần Thái Tông lịch sử 19 năm thành lập quận đến cố nặng nề nhƣ thành phố , chết nhiều ngƣời , thiệt hại nhiều tài sản Ngay sau việc xảy , lãnh đạo thành phố tập trung khắc phục cố nhƣ hỗ trợ an táng nạn nhân , ơng Thanh nói Theo ơng Thanh , qua kiểm tra , sở kinh doanh karaoke phải có loại giấy tờ gồm đăng ký kinh doanh thẩm định phòng cháy chữa cháy Giấy chứng nhận đủ điều kiện phòng cháy chữa cháy Sau Cơng an quận cấp giấy chứng nhận đảm bảo an ninh trật tự , có giấy UBND quận cấp giấy phép kinh doanh Tuy nhiên kiểm tra 57 sở có loại giấy tờ đăng ký kinh doanh thẩm định thiết kế loại giấy tờ quan trọng khác chƣa có Q trình kiểm tra vịng chƣa đầy 20 ngày quận lần kiểm tra , lần bắt cam kết có đầy đủ giấy phép đƣa vào hoạt động kinh doanh Tuy nhiên đến 1/11 , vừa cho khách vào lại vừa sửa chữa tầng phát cháy Lãnh đạo quận Cầu Giấy cho hay , qua kiểm tra 88 sở kinh doanh karaoke có giấy phép địa bàn quận sở dừng , cịn lại 85 sở có vấn đề phịng cháy chữa cháy Quan điểm chúng tơi cho tạm dừng tất sở vi phạm khơng đủ điều kiện nạn , cứu nạn vấn đề liên quan đến phòng cháy , chữa cháy , nhƣ vật liệu Đây khơng phải bị lo làm chuồng nhƣ trƣớc việc xảy thứ phải ngăn chặn , thứ hai phải triển khai biện pháp để đảm bảo an tồn tính mạng , nhƣ tài sản nhân dân Đồng thời hồi chuông cảnh tỉnh với công tác phịng cháy chữa cháy , ơng Thanh nói Lãnh đạo quận Cầu Giấy cho hay , triển khai liệt việc chấn chỉnh , yêu cầu quán karaoke tháo dỡ biển quảng cáo sai phép , che chắn lối thoát hiểm , ảnh hƣởng khả tiếp cận lực lƣợng PCCC Đồng thời , triển khai sang nhà nghỉ , dỡ tất biển hiệu quảng cáo 20m2 che khuất tầm nhìn tất sở kinh doanh , kể ngân hàng hay sở massage Đồng thời kiểm tra sở kinh doanh gas , sở nằm lòng khu dân cƣ phải di dời Chúng tơi triển khai nội dung theo đạo thành phố , quận Uỷ việc kiểm điểm trách nhiệm tập thể , cá nhân liên quan đến vụ cháy , ông Thanh nhấn mạnh Mẫu tóm tắt: Ơng Dƣơng Cao Thanh , Chủ tịch UBND quận Cầu Giấy cho biết , sau vụ cháy quán karaoke khiến 13 ngƣời tử vong , quan chức yêu cầu quán karaoke tháo dỡ biển quảng cáo che chắn lối thoát hiểm , ảnh hƣởng khả tiếp cận lực lƣợng PCCC Đồng thời , triển khai sang nhà nghỉ , sở massage hay ngân hàng Model 1: [UNK] [UNK] quận Cầu [UNK] điều_tra đề_nghị xô_xát xảy nhằm biết , đề_nghị ngành karaoke karaoke [UNK] cho cử_tri đề_nghị ngƣời lãnh_đạo , tập_trung cử_tri đình_chỉ địa_bàn , cử_tri 13 ngƣời quản_lý nhằm thúc_đẩy quản_lý nạn_nhân m3 lớn Model 2: cử_tri đề_nghị có ngành_hàng quản_lý hoạt_động kinh_doanh karaoke , cử_tri đề_nghị thành_phố phải tham_gia sự_cố gây thiệt_hại lớn cho ngƣời chết địa_bàn thành_phố xảy tối thành_phố quận Cầu Giấy 58 trao lỏng gây thiệt_hại Model 3: [UNK] cơ_sở quán karaoke cơ_sở karaoke ngành_hàng khác địa_bàn chủ_quan , chƣa bài_bản , chế_tài xử_lý chƣa nghiêm_khắc , đến sự_việc xảy vụ cháy gây thiệt_hại Model 4: tập_huấn cho cơ_sở karaoke ngành_hàng khác địa_bàn chủ_quan , chƣa bài_bản , chế_tài xử_lý chƣa nghiêm_khắc , đến sự_việc xảy vụ cháy gây thiệt_hại lớn Bài báo: Mới , mạng xã hội xuất đoạn clip ghi lại cảnh tai nạn giao thông nghiêm trọng , khiến ngƣời xem lạnh sống lƣng Theo ngƣời đăng tải clip , vụ tai nạn xảy vào tối 11/11 , địa bàn huyện Thống Nhất , Đồng Nai Player Loading xảy vào đêm 11/11 , KM 12+350 QL20 đoạn qua xã Gia Tân , huyện Thống Nhất , Đồng Nai Ngƣời điều khiển xe máy sang đƣờng anh Vũ Quỳnh Nhƣ Còn ngƣời điều khiển xe máy với tốc độ nhanh ơng Phạm Trí Đức Hiện vụ việc đƣợc Công an huyện Thống Nhất điều tra xử lý theo thẩm quyền Qua đoạn clip cho thấy , vụ tai nạn xảy đoạn đƣờng vắng vẻ , thời điểm , xe máy lao nhanh với tốc độ kinh hoàng đâm phải xe máy khác niên điều khiển sang đƣờng Sau cú đâm , ngƣời niên sang đƣờng ngã văng xuống đất , ngƣời điều khiển xe phóng với tốc độ cao phƣơng tiện trƣợt dài hàng chục mét mặt đƣờng , tạo tia lửa bắn tung tóe Vụ tai nạn làm bị thƣơng nặng , đƣợc ngƣời đƣờng nhanh chóng đƣa vào bệnh viện cấp cứu Tuy nhiên thƣơng tích q nặng , ngƣời đàn ơng điều khiển xe phóng nhanh tử vong bệnh viện Trong , chiều 12/11 , lãnh đạo Phịng CSGT đƣờng đƣờng sắt Công an tỉnh Đồng Nai xác nhận với báo Dân Trí , địa bàn huyện Thống Nhất , tỉnh Đồng Nai đoạn qua QL20 xảy vụ tai nạn giao thông nghiêm trọng làm ngƣời thƣơng vong Mẫu tóm tắt: Nam niên điều khiển xe máy qua đƣờng bất ngờ bị xe máy khác chạy với tốc độ kinh hồng đâm trúng Sau cú đâm , ngƣời tơng xe phƣơng tiện bị kéo lê hàng chục mét , toé lửa đêm Model 1: [UNK] tờ [UNK] , nhóm chuyến nặng , gã đàn_ơng điều_khiển bệnh_viện , bị lực_lƣợng lại cảnh tai_nạn giao_thông Trong , [UNK] [UNK] [UNK] , lãnh_đạo Phịng tỉnh Đồng_Nai , tỉnh Đồng_Nai yêu_cầu , [UNK] bị_thƣơng xảy bệnh_viện 59 Model 2: [UNK] chƣa đƣợc đoạt xong ngƣời thanh_niên sang đƣờng sang đƣờng phóng nhanh xe_máy đƣờng đƣờng [UNK] , sau nhiều ngƣời dân bị tai_nạn dã_man đâm chết Model 3: Qua đoạn clip điều_khiển xe_máy sang đƣờng điều_khiển xe_máy với ngƣời điều_khiển xe phóng với tốc_độ cao phƣơng_tiện trƣợt dài hàng chục mét đất , ngƣời điều_khiển xe phóng với tốc_độ cao phƣơng_tiện – huyện Thống_Nhất , Đồng_Nai Model 4: ngƣời điều_khiển xe phóng với tốc_độ cao phƣơng_tiện trƣợt dài hàng chục mét mặt_đƣờng qua xã Gia_Tân , huyện Thống_Nhất , tỉnh Đồng_Nai , khiến nạn_nhân phải nhập_viện cấp_cứu Từ kết sinh tóm tắt model cho hai ví dụ thấy rằng, model sinh văn tóm tắt tốt hơn, dễ hiểu model cịn lại, văn tóm tắt sinh chép nguyên vẹn câu văn gốc mà có chọn lựa ghép câu Đặc biệt ví dụ thứ 2, model có khả sinh từ khơng có báo gốc đƣa vào văn tóm tắt, từ “nạn nhân” từ “nhập viện”, kết cho thấy việc áp dụng mơ hình LSTM cho tốn tóm tắt văn tự động theo hƣớng tóm lƣợc cho kết khả quan, có khả tạo văn tóm tắt gần giống với cách ngƣời thực tóm tắt 60 KẾT LUẬN Những vấn đề đƣợc giải luận văn Luận văn tiến hành nghiên cứu giải tốn tóm tắt văn tự động, tập trung vào tóm tắt văn theo hƣớng tóm lƣợc (abstractive summarization) Bài tốn đƣợc đánh giá có độ phức tạp cao làm sở cho nhiều ứng dụng thực tế Phƣơng pháp giải luận văn tập trung vào xây dựng mơ hình học sâu dựa mạng Long-Short Term Memory (LSTM) Dựa nghiên cứu mơ hình mạng LSTM, mơ hình chuỗi sang chuỗi (sequence-to-sequence), kỹ thuật vec tơ hóa từ văn bản, luận văn xây dựng kiến trúc mơ hình học sâu sử dụng LSTM cho tốn tóm tắt văn tự động với tham số đƣợc tối ƣu hóa cho việc huấn luyện thử nghiệm máy tính cá nhân Luận văn xây dựng tập liệu cho tóm tắt văn tiếng Việt, sẵn sàng chia sẻ cho mục đích nghiên cứu áp dụng tóm tắt văn tiếng Việt Bộ liệu gồm liệu thô liệu đƣợc xử lý dạng nhị phân Luận văn thử nghiệm mô hình xây dựng với liệu tiếng Anh tiếng Việt đánh giá phƣơng pháp ROUGE Thử nghiệm với liệu tiếng Việt tin tức từ báo Tiền Phong số báo khác cho kết khả quan Định hƣớng nghiên cứu tƣơng lai Để tăng độ xác cho mơ hình, điều kiện quan trọng xây dựng tập liệu đầu vào word2vec chất lƣợng hơn, thể xác tƣơng quan, mối liên hệ từ, token Do đó, việc xây dựng tập liệu lớn phong phú chủ đề, đa dạng mặt từ vựng cần thiết cho mơ hình tóm tắt văn tiếng Việt 61 TÀI LIỆU THAM KHẢO Tiếng Anh [1] Alex M (2015), Word2Vec Tutorial Part I: The Skip-gram Model Retrieved from http://mccormickml.com/2016/04/27/word2vec-resources/#alex-minnaarstutorials [2] Andrew T., Yohannes T., David H., and Hugh E.W (2007), “Fast generation of result snippets in web search”, In Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval, pp 127-134 [3] Bahdanau D., Cho K., Bengio Y (2015), "Neural machine translation by jointly learning to align and translate" In International Conference on Learning Representations (ICLR) [4] Christopher O (2015), Understanding LSTM Networks Retrieved from http://colah.github.io/posts/2015-08-Understanding-LSTMs/ [5] Corochann (2017), Recurrent Neural Network (RNN) introduction Retrieved from http://corochann.com/recurrent-neural-network-rnn-introduction-1286.html [6] Denny B (2015), Recurrent Neural Networks Tutorial, Part – Introduction to RNNs Retrieved from http://www.wildml.com/2015/09/recurrent-neural-networkstutorial-part-1-introduction-to-rnns/ [7] Diederik P K., Jimmy L.B (2015), "Adam: A Method for Stochastic Optimization" International Conference on Learning Representations [8] Géron A (2017), Hands-on Machine Learning with Scikit-Learn and Tensorflow – Concepts, Tools, and Techniques to Build Intelligent Systems Published by O‟Reilly Media, Inc., 1005 Gravenstein Highway North, Sebastopol, CA 95472 [9] Graff D., Kong J., Chen K., and Maeda K (2003) English gigaword Linguistic Data Consortium, Philadelphia 62 [10] Heinzerling B., Johannsen A (2016), A Python wrapper for the ROUGE summarization evaluation package Retrieved from https://pypi.org/project/pyrouge/ [11] Hermann K.M., Kocisky T., Grefenstette E., Espeholt L., Kay W., Suleyman M., Blunsom P (2015) “Teaching machines to read and comprehend” In Neural Information Processng Systems [12] Hochreiter S., Schmidhuber J (1997), “LONG SHORT-TERM MEMORY” Neural Computation 9(8), pp 1735-1780 [13] Ibrahim A.H (2017), Understanding Word2vec for Word Embedding I Retrieved from https://ahmedhanibrahim.wordpress.com/2017/04/25/thesistutorials-i-understanding-word2vec-for-word-embedding-i/ [14] John M.C., Dianne P.O (2001), “Text summarization via hidden markov models” In Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval ACM, pp 406-407 [15] Krenker A., Bester J., Kos A (2011), "Introduction to the Artificial Neural Networks" Artificial Neural Networks - Methodological Advances and Biomedical Applications, ISBN: 978-953-307-243-2, InTech [16] Lin C.Y (2004) "Rouge: A package for automatic evaluation of summaries" In Proceedings of Workshop on Text Summarization Branches Out, PostConference Workshop of ACL [17] Lucas O.Y (2016) “Newspaper3K Article scraping library” Retrieved from https://github.com/codelucas/newspaper [18] Lucy V., Hisami S., Chris B., and Ani N (2007), “Beyond SumBasic: Taskfocused summarization with sentence simplification and lexical expansion”, Information Processing & Management, 43 (6), pp 1606-1618 [19] McCormick C (2016), Word2Vec Tutorial - The Skip-Gram Model Retrieved from http://www.mccormickml.com [20] Mehdi A., Seyedamin P., Mehdi A., Saeid S.,Elizabeth D T., Juan B G., Krys K (2017), “Text Summarization Techniques: A Brief Survey”, arXiv 63 [21] Mikolov T., Chen K, Corrado G., Dean J (2013), Efficient Estimation of Word Representations in Vector Space International Conference on Learning Representations [22] Nallapati R., Zhou B., Santos C.D., (2016), "Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond", Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning (CoNLL), pp 280-290 [23] Nenkova A., McKeown K (2012), “A survey of text summarization techniques”, In Mining Text Data Springer, pp 43-76 [24] Rada M., Paul T (2004), "TextRank: Bringing order into texts", Association for Computational Linguistics [25] Radev D.R., Hovy E., and McKeown K (2002), “Introduction to the special issue on summarization”, Computational linguistics, 28(4), pp 399-408 [26] Rush A.M., Chopra S., Weston J (2015), "A Neural Attention Model for Sentence Summarization" In Empirical Methods in Natural Language Processing [27] Sarwan N.S (2017), An Intuitive Understanding of Word Embeddings: From Count Vectors to Word2Vec Retrieved from https://www.analyticsvidhya.com/blog/2017/06/word-embeddings-countword2veec/ [28] See A., Peter J L., Christopher D.M (2017), "Get To The Point: Summarization with Pointer-Generator Networks", arXiv [29] Shi Yan (2016), Understanding LSTM and its diagrams Retrieved from https://medium.com/mlreview/understanding-lstm-and-its-diagrams-37e2f46f1714 [30] Sutskever I., Vinyals O., Quoc V.L (2014), “Sequence to Sequence Learning with Neural Networks”, arXiv [31] Trung V.T (2017) “Python Vietnamese Toolkit” https://pypi.python.org/pypi/pyvi Retrieved from [32] Yogan J K., Ong S G., Halizah B., Ngo H C and Puspalata C S (2016), "A Review on Automatic Text Summarization Approaches", Journal of Computer Science, 12 (4), pp 178-190 ... ĐẠI HỌC CÔNG NGHỆ NGUYỄN VIẾT HẠNH NGHIÊN CỨU TÓM TẮT VĂN BẢN TỰ ĐỘNG VÀ ỨNG DỤNG Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN... trọng từ văn gốc, văn tóm tắt khơng dài hơn 50% độ dài văn gốc thông thƣờng tóm tắt có độ dài ngắn, ngắn nhiều so với 50% độ dài văn gốc 1.1 Bài tốn tóm tắt văn tự động Tóm tắt văn tự động tác... thuật tóm tắt trích chọn sinh đoạn tóm tắt cách chọn tập câu văn gốc Các đoạn tóm tắt chứa câu quan trọng đầu vào Đầu vào đơn văn đa văn Trong khuôn khổ luận văn này, đầu vào tốn tóm tắt văn đơn văn