1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tóm tắt Luận văn Thạc sĩ Công nghệ thông tin: Xây dựng mô hình đối thoại cho Tiếng Việt trên miền mở dựa vào phương pháp học chuỗi liên tiếp

23 59 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 23
Dung lượng 753,55 KB

Nội dung

Trong đề tài này, tác giả tiến hành nghiên cứu, xây dựng một mô hình đối thoại cho tiếng Việt, dựa trên phương pháp học chuỗi liên tiếp, sequence-to-sequence, để sinh ra câu trả lời từ một chuỗi đầu vào tương ứng. Lợi thế của phương pháp này là mô hình có thể được huấn luyện end-to-end trên tập dữ liệu có sẵn, và yêu cầu ít hơn các luật bằng tay. Mời các bạn cùng tham khảo tài liệu để nắm biết thêm về kết quả của đề tài nghiên cứu này.

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  NHỮ BẢO VŨ XÂY DỰNG MƠ HÌNH ĐỐI THOẠI CHO TIẾNG VIỆT TRÊN MIỀN MỞ DỰA VÀO PHƯƠNG PHÁP HỌC CHUỖI LIÊN TIẾP Ngành: Công nghệ thông tin Chun ngành: Hệ thống thơng tin Mã số: 60480104 TĨM TẮT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Văn Nam HÀ NỘI – 2016 LỜI CAM ĐOAN Tôi Nhữ Bảo Vũ, học viên khóa K21, ngành Cơng nghệ thơng tin, chun ngành Hệ Thống Thông Tin Tôi xin cam đoan luận văn “Xây dựng mơ hình đối thoại cho tiếng Việt miền mở dựa vào phương pháp học chuỗi liên tiếp” tơi nghiên cứu, tìm hiểu phát triển hướng dẫn TS Nguyễn Văn Nam Luận văn chép từ tài liệu, cơng trình nghiên cứu người khác mà khơng ghi rõ tài liệu tham khảo Tôi xin chịu trách nhiệm lời cam đoan Hà Nội, ngày tháng năm 2016 MỤC LỤC LỜI CAM ĐOAN MỤC LỤC .3 DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT .4 DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ .5 TÓM TẮT CHƯƠNG 1: TỔNG QUAN VỀ HỆ THỐNG TRẢ LỜI TỰ ĐỘNG 1.1 Động lực nghiên cứu tính cấp thiết tốn thực tế .7 1.2 Tình hình nghiên cứu nước 1.3 Phân loại mơ hình trả lời tự động .8 CHƯƠNG 2: CƠ SỞ MẠNG NƠ RON NHÂN TẠO .9 2.1 Kiến trúc mạng nơ ron nhân tạo .9 2.3 Mạng nơ-ron tái phát ứng dụng 10 2.3.1 Mạng nơ-ron tái phát 10 2.3.2 Các ứng dụng mạng RNN 10 2.4 Mạng Long Short Term Memory (LSTM) .10 2.4.1 Vấn đề phụ thuộc dài 10 CHƯƠNG 3: MƠ HÌNH ĐỐI THOẠI VỚI MẠNG NƠ-RON .12 3.1 Hệ thống đối thoại người máy 12 3.2 Mơ hình ngơn ngữ 12 3.3 Mơ hình chuỗi liên tiếp seq2seq .13 3.4 Mô hình đối thoại Seq2seq .13 3.5 Những thách thức chung xây dựng mơ hình đối thoại .15 3.5.1 Phụ thuộc bối cảnh .15 3.5.2 Kết hợp tính cách .15 CHƯƠNG 4: THỰC NGHIỆM XÂY DỰNG MƠ HÌNH ĐỐI THOẠI CHO TIẾNG VIỆT 16 4.1 Dữ liệu công cụ thực nghiệm 16 4.2 Tách từ tập liệu tiếng Việt 17 4.3 Thực nghiệm xây dựng mơ hình đối thoại tiếng Việt 18 KẾT LUẬN 21 TÀI LIỆU THAM KHẢO .22 DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Từ viết tắt NLP ANN RNN CNN LSTM Từ chuẩn Natural Languague Processing Artificial Nerual Network Recurrent Neural Network Convolutional Neural Networks Long short-term memory VNTK NLTK Vietnamese Languague Toolkit Natural Language Toolkit Python Nodejs Python Nodejs SDK CPU GPU API QA BLEU Support Development Kit Central Processing Unit Graphics Processing Unit Application Programming Interface Question Answering Bilingual Evaluation Understudy Diễn giải Xử lý ngôn ngữ tự nhiên Mạng nơ ron nhân tạo Mạng nơ ron tái phát Mạng nơ ron tích chập Mạng cải tiến để giải vấn đề phụ thuộc dài Bộ công cụ xử lý ngôn ngữ tiếng Việt Bộ công cụ xử lý ngôn ngữ tự nhiên Python Ngơn ngữ lập trình python Nền tảng lập trình phía Server sử dụng ngơn ngữ lập trình javascript Bộ công cụ hỗ trợ phát triển Bộ xử lý trung tâm Bộ vi xử lý chuyên dụng nhận nhiệm vụ tăng tốc, xử lý đồ họa cho vi xử lý trung tâm CPU Giao diện lập trình ứng dụng Các cặp câu hỏi đáp Thuật toán để đánh giá chất lượng văn sinh từ mơ hình ngơn ngữ tự nhiên DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ Hình 2.1: Kiến trúc mạng nơ-ron nhân tạo Hình 2.2: RNN phụ thuộc long-term 11 Hình 3.1: Mơ hình đối thoại seq2seq 14 Hình 3.2: Thách thức phụ thuộc bối cảnh tính cách xây dựng mơ hình đối thoại 15 TÓM TẮT Trong bối cảnh mạng xã hội trở lên phổ biến nay, người kết nối với người thông qua mạng xã hội, thời gian nơi đâu Sẽ thật tốt có hệ thống tự động thông minh hỗ trợ người cách trị chuyện, có khả nhắc nhở, làm trợ lý cơng việc theo dõi tình trạng sức khỏe cá nhân lúc, nơi Mơ hình hóa đối thoại nhiệm vụ quan trọng tốn hiểu ngơn ngữ tự nhiên, máy học thơng minh Các phương pháp tiếp cận trước thường giới hạn lĩnh vực cụ thể, ví dụ đặt vé trực tuyến, tư vấn ghi danh trực tuyến, tìm kiếm thơng tin y tế, … u cầu phải thiết kế luật học tay, nhiều công sức mà hiệu đạt không cao, khó mở rộng mơ hình ứng dụng có liên quan Trong đề tài này, chúng tơi nghiên cứu, xây dựng mơ hình đối thoại cho tiếng Việt, dựa phương pháp học chuỗi liên tiếp, sequence-to-sequence, để sinh câu trả lời từ chuỗi đầu vào tương ứng Lợi phương pháp mơ hình huấn luyện end-to-end tập liệu có sẵn, u cầu luật tay Kết chúng tơi đạt mơ hình đối thoại sử dụng mạng học sâu để sinh câu trả lời tiếng Việt, tương ứng với câu hỏi chuỗi đầu vào Mơ hình ban đầu cho kết tính cực, giải vấn đề ngữ nghĩa, ngữ cảnh tính cách riêng hệ thống đối thoại 1 1.1 CHƯƠNG 1: TỔNG QUAN VỀ HỆ THỐNG TRẢ LỜI TỰ ĐỘNG Động lực nghiên cứu tính cấp thiết tốn thực tế Khái niệm Trợ lý ảo, Chatbot, hay Hệ thống trả lời tự động chủ đề nóng từ đầu năm 2016, thức công ty lớn Microsoft (Cortana), Google (Google Assistant), Facebook (M), Apple (Siri), Samsung (Viv), WeChat, Slack giới thiệu trợ lý ảo mình, hệ thống trả lời tự động Chính thức đặt cược lớn vào chơi chatbot, với mong muốn tạo trợ lý ảo thực thông minh tồn hệ sinh thái sản phẩm Tình hình nước, số công ty Hồ sơ y tế điện tử ERM.,JSC Vietcare phát triển tạo hệ thống trả lời tự động kiến thức y khoa, hỏi đáp sức khỏe thông tin y tế, hay RiveHub, Subiz cố gắng tạo cho hệ thống hỗ trợ, chăm sóc khách hàng bán hàng tự động Nhằm trợ giúp người dùng, khách hàng có trải nghiệm tốt sản phẩm cách dịch vụ cung cấp 1.2 Tình hình nghiên cứu ngồi nước Hệ thống trả lời tự động nhà nghiên cứu quan tâm từ lâu rồi, bao gồm trường đại học, viện nghiên cứu doanh nghiệp Việc nghiên cứu hệ thống trả lời tự động có ý nghĩa khoa học thực tế Đã có nhiều hội nghị thường niên xử lý ngôn ngữ tự nhiên, khai phá liệu, xử lý liệu lớn, tương tác người máy, … TREC, CLEF, Việt Nam có KSE, RIVF, ATC, … Với đời framework sequence-to-sequence [7], nhiều hệ thống huấn luyện gần sử dụng mạng nơ-ron tái phát (RNN) để sinh câu trả lời đưa vào mạng câu hỏi thông điệp Với giúp đỡ mô hình ngơn ngữ tiền huấn luyện, chúng mã hóa tin nhắn vào vector đại diện Để loại bỏ cần thiết cho mơ hình ngơn ngữ, Serban cộng (2015) [3] thử huấn luyện end-to-end mạng RNN Họ bắt đầu hệ thống với word embeddings huấn luyện từ trước 1.3 Phân loại mơ hình trả lời tự động Mơ hình trả lời tự động dựa vào số kỹ thuật tiêu chí khác nhau, như:     Phân loại theo miền ứng dụng Phân loại theo khả trả lời mẫu hỏi Phân loại theo mức độ dài, ngắn đoạn đối thoại Phân loại theo hướng tiếp cận CHƯƠNG 2: CƠ SỞ MẠNG NƠ RON NHÂN TẠO Chương giới thiệu sở lý thuyết mạng nơ rơn nhân tạo sở thực xây dựng mơ hình đối thoại luận văn 2.1 Kiến trúc mạng nơ ron nhân tạo Mạng nơ ron nhân tạo (Artificial Neural Network – ANN) mơ hình xử lý thông tin mô dựa hoạt động hệ thống thần kinh sinh vật, bao gồm số lượng lớn Nơ-ron gắn kết để xử lý thông tin ANN hoạt động giống não người, học kinh nghiệm (thông qua việc huấn luyện), có khả lưu giữ tri thức sử dụng tri thức việc dự đốn liệu chưa biết (unseen data) Hình 2.1: Kiến trúc mạng nơ-ron nhân tạo Kiến trúc chung ANN gồm thành phần Input Layer, Hidden Layer Output Layer (Xem hình trên) 2.3 Mạng nơ-ron tái phát ứng dụng Mạng nơ-ron tái phát Recurrent Neural Network (RNN) mô hình Deep learning đánh giá có nhiều ưu điểm tác vụ xử lý ngôn ngữ tự nhiên (NLP) Trong phần này, tơi trình bày khái niệm, đặc điểm ứng dụng RNNs toán thực tế 2.3.1 Mạng nơ-ron tái phát Ý tưởng RNNs thiết kế Neural Network cho có khả xử lý thơng tin dạng chuỗi (sequential information), ví dụ câu chuỗi gồm nhiều từ Recurrent có nghĩa thực lặp lại tác vụ cho thành phần chuỗi Trong đó, kết đầu thời điểm phụ thuộc vào kết tính tốn thành phần thời điểm trước Nói cách khác, RNN mơ hình có trí nhớ (memory), có khả nhớ thơng tin tính tốn trước Khơng mơ hình Neural Network truyền thống thơng tin đầu vào (input) hồn tồn độc lập với thơng tin đầu (output) Về lý thuyết, RNNs nhớ thơng tin chuỗi có chiều dài bất kì, thực tế mơ hình nhớ thơng tin vài bước trước 2.3.2 Các ứng dụng mạng RNN  Mơ hình ngơn ngữ phát sinh văn (Generating text)  Dịch máy (Machine Translation)  Phát sinh mô tả cho ảnh (Generating Image Descriptions) 2.4 Mạng Long Short Term Memory (LSTM) 2.4.1 Vấn đề phụ thuộc dài Ý tưởng ban đầu RNN kết nối thơng tin trước nhằm hỗ trợ cho xử lý Nhưng đôi khi, cần dựa vào số thông tin gần để thực tác vụ Ví dụ, mơ hình hóa ngơn ngữ, cố gắng dự đoán từ dựa vào từ trước Nếu dự đốn từ cuối câu “đám_mây bay bầu_trời”, khơng cần truy tìm q nhiều từ trước đó, ta đốn từ “bầu_trời” Hình 2.2: RNN phụ thuộc long-term Về lý thuyết, RNN hoàn toàn có khả xử lý “long-term dependencies” [14], nghĩa thơng tin có nhờ vào chuỗi thơng tin trước Đáng buồn là, thực tế, RNN dường khơng có khả Vấn đề Hochreiter (1991) [German] and Bengio, et al (1994) đưa thách thức cho mơ hình RNN Rất may có mạng LSTM giải vấn đề này! 3.1 CHƯƠNG 3: MƠ HÌNH ĐỐI THOẠI VỚI MẠNG NƠ-RON Hệ thống đối thoại người máy Các hệ thống đối thoại người máy (Dialogue systems), gọi trợ lý tương tác hội thoại, trợ lý ảo gọi với thuật ngữ chatbot, sử dụng rộng rãi ứng dụng khác nhau, từ dịch vụ kỹ thuật cơng cụ học ngơn ngữ giải trí [17] Các hệ thống đối thoại chia thành hệ thống hướng mục tiêu, ví dụ dịch vụ hỗ trợ kỹ thuật, hệ thống khơng có định hướng mục tiêu, ví dụ cơng cụ học ngơn ngữ nhân vật trị chơi máy tính [3] Trong luận văn này, tập trung vào trường hợp thứ hai, xây dựng mơ hình đối thoại cho tiếng Việt miền mở có sẵn nguồn liệu lớn từ phụ đề Phim tiếng Việt lấy OpenSubtitles năm 2016 [1] 3.2 Mơ hình ngơn ngữ Nền tảng việc xây dựng mơ hình chuỗi (ví dụ, mơ hình dịch máy) mơ hình ngơn ngữ Ở mức cao, mơ hình ngơn ngữ đón nhận chuỗi phần tử đầu vào, nhìn vào phần tử chuỗi cố gắng để dự đoán phần tử chuỗi văn Có thể mơ tả q trình phương trình hàm số sau đây: Yt = f (Yt-1 ) Trong đó, Y(t) phần tử chuỗi thời điểm t, Y(t-1) phần tử chuỗi thời điểm trước (t – 1), f hàm ánh xạ phần tử trước chuỗi sang phần tử chuỗi Bởi đề cập đến mơ hình chuỗi sử dụng mạng nơ-ron, f đại diện cho mạng nơ-ron mà dự đoán phần tử chuỗi, cho trước phần tử chuỗi Khơng giống với mơ hình ngơn ngữ đơn giản dự đoán xác suất cho từ cho từ tại, mơ hình RNN chụp lại tồn bối cảnh chuỗi đầu vào Đo đó, RNN dự đốn xác suất tạo từ dựa từ tại, tất từ trước 3.3 Mơ hình chuỗi liên tiếp seq2seq RNN sử dụng mơ hình ngơn ngữ cho việc dự đoán phần tử chuỗi cho phần tử trước chuỗi Tuy nhiên, thiếu thành phần cần thiết cho việc xây dựng mơ hình đối thoại, hay mơ hình máy dịch, thao tác chuỗi đơn, việc dịch hoạt động hai chuỗi – chuỗi đầu vào chuỗi dịch sang Một mô hình ngơn ngữ đơn giản cho phép mơ hình hóa chuỗi đơn giản việc dự đốn chuỗi cho từ trước chuỗi Thêm thấy q trình xây dụng mơ hình phức tạp có phân tách bước mã hóa chuỗi đầu vào thành bối cảnh, sinh chuỗi đầu việc sử dụng mạng nơ-ron tách biệt Mơ hình chuỗi sang chuỗi Seq2seq, [5] giới thiệu báo “Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation”, kể từ trở thành mơ hình cho hệ thống đối thoại (Dialogue Systems) Máy dịch (Machine Translation) 3.4 Mơ hình đối thoại Seq2seq Bản thân mơ hình seq2seq bao gồm hai mạng RNN: Một cho mã hóa, cho giải mã Bộ mã hóa nhận chuỗi (câu) đầu vào xử lý phần tử (từ câu) bước Mục tiêu chuyển đổi chuỗi phần tử vào vectơ đặc trưng có kích thước cố định mà mã hóa thông tin quan trọng chuỗi bỏ qua thơng tin khơng cần thiết Có thể hình dung luồng liệu mã hóa dọc theo trục thời gian, giống dịng chảy thơng tin cục từ phần tử kết thúc chuỗi sang chuỗi khác Hình 3.1: Mơ hình đối thoại seq2seq Mỗi trạng thái ẩn ảnh hưởng đến trạng thái ẩn trạng thái ẩn cuối xem tích lũy tóm tắt chuỗi Trạng thái gọi bối cảnh hay vector suy diễn, đại diện cho ý định chuỗi Từ bối cảnh đó, giải mã tạo chuỗi, phần tử (word) thời điểm Ở đây, bước, giải mã bị ảnh hưởng bối cảnh phần tử sinh trước Có vài thách thức việc sử dụng mơ hình Một vấn đề đáng ngại mơ hình khơng thể xử lý chuỗi dài Bởi tất ứng dụng chuỗi sang chuỗi, bao gồm độ dài chuỗi Vấn đề kích thước từ vựng Bộ giải mã phải chạy hàm softmax tập lớn từ vựng (khoảng 20,000 từ) cho từ xuất Điều làm chậm trình huấn luyện, cho dù phần cứng bạn đáp ứng khả xử lý Đại diện từ quan trọng Làm để biểu diễn từ chuỗi ? Sử dụng one-hot vector có nghĩa phải đối mặt với vector thưa thớt lớn, kích thước vốn từ vựng lớn mà khơng có ý nghĩa mặt ngữ nghĩa từ mã hóa bên vector one-hot Sau cách giải số vấn đề mà gặp phải  PADDING – Tạo độ dài cố định  BUCKETING – Tránh lu mờ thông tin  Word Embedding – Mật độ dày đặc 3.5 Những thách thức chung xây dựng mơ hình đối thoại Có số thách thức thể cách rõ ràng thấy rõ xây dựng mơ hình đối thoại nói chung tâm điểm ý nhiều nhà nghiên cứu 3.5.1 Phụ thuộc bối cảnh Để sinh câu trả lời hợp lý, hệ thống đối thoại cần phải kết hợp với hai bối cảnh ngôn ngữ bối cảnh vật lý Trong hội thoại dài, người nói cần theo dõi nhớ nói thơng tin trao đổi Đó ví dụ bối cảnh ngơn ngữ Phương pháp tiếp cận phổ biến nhúng hội thoại vào Vector, việc làm đoạn hội thoại dài thách thức lớn Các thử nghiệm nghiên cứu [3], [15] theo hướng Hướng nghiên cứu cần kết hợp loại bối cảnh như: Ngày/giờ, địa điểm, thông tin người 3.5.2 Kết hợp tính cách Khi phát sinh câu trả lời, hệ thống trợ lý ảo lý tưởng tạo câu trả lời phù hợp với ngữ nghĩa đầu vào cần quán giống Ví dụ, muốn nhận câu trả lời với mẫu hỏi “Bạn tuổi?” hay “Tuổi bạn mấy?” Điều nghe đơn giản, việc tổng hợp, tích hợp kiến thức qn hay “có tính cách” vào mơ hình đối thoại vấn đề khó để nghiên cứu Hình 3.2: Thách thức phụ thuộc bối cảnh tính cách xây dựng mơ hình đối thoại Rất nhiều hệ thống huấn luyện để trả lời câu hỏi thỏa đáng với ngôn ngữ, chúng không huấn luyện để sinh câu trả lời qn ngữ nghĩa Mơ nghiên cứu [10], tạo bước tập trung vào hướng mơ hình hóa tính cách 4 CHƯƠNG 4: THỰC NGHIỆM XÂY DỰNG MƠ HÌNH ĐỐI THOẠI CHO TIẾNG VIỆT Chương tiến hành thực nghiệm xây dựng mơ hình đối thoại cho tiếng Viết việc áp dụng mơ hình đối thoại Seq2seq miền mở 4.1 Dữ liệu công cụ thực nghiệm Chúng thử nghiệm liệu miền mở sử dụng liệu phụ đề phim tiếng Việt lấy từ nguồn mở OpenSubtitles 2016 [1] Đây phiên công bố năm 2016, cải thiện hội thoại, gióng câu, kiểm tra song ngữ, siêu liệu khác, gồm:       60 ngôn ngữ, 1,689 bitexts Tổng số file: 2,815,754 Tổng số tokens: 17.18G Tổng số câu: 2.60G Trang chủ: http://www.opensubtitles.org/vi Download: http://opus.lingfil.uu.se/OpenSubtitles2016.php Sau tiền xử lý liệu, thu thập liệu bao gồm 2,078,696 câu văn tiếng Việt Các công đoạn làm xử lý liệu, thực qua bước sau:  Loại bỏ ký tự đặc biệt chữ chữ số (bắt đầu, kết thúc bên câu tiếng Việt), ex: - Xin chào, bạn!,  Xóa bỏ ký tự phân tách câu dấu chấm, dấu hỏi dấu chấm than, ex: @#$%^&*,  Xóa bỏ bình luận, thích ý nghĩa từ, thuật ngữ câu, ex: Chatbot (chương trình tự động trả lời),  Xóa bỏ ký tự lặp, ký tự phân tách khơng có ý nghĩa, ex: -,, ,  Xóa bỏ thẻ html, ex: Khi mặt trời ló dạng,  Biến đổi bảng mã html dạng câu có ý nghĩa, ex: Cho ch#250;ng t#244;i xem c#225;i c#242;n l#7841;i l#224; g#236; n#224;o  Biến đổi bảng mã Unicode tổ hợp dạng unicode dựng sẵn, ex:  Loại bỏ cặp câu khơng có ý nghĩa, ex: Phụ_đề dịch Unknow Subteam 2pi, Công cụ sử dụng:  NLTK: Công cụ xử lý ngôn ngữ tự nhiên mã nguồn mở  VNTK: Vietnamese languague toolkit, xây dựng phát triển để xử lý vấn đề tiếng Việt  Subsent: Cơng cụ hỗ trợ bóc tách liệu từ file phụ đề, xây dựng phát triển  Dongdu: Thư viện hỗ trợ tách từ tiếng Việt [11], tác giả Lưu Tuấn Anh  Tensorflow: Framework machine learning  Python: Ngơn ngữ lập trình để xây dựng mơ hình đối thoại tiếng Việt 4.2 Tách từ tập liệu tiếng Việt Tách từ trình xử lý nhằm mục đích xác định ranh giới từ câu văn, hiểu đơn giản tách từ trình xác định từ đơn, từ ghép… có câu Đối với xử lý ngơn ngữ, để xác định cấu trúc ngữ pháp câu, xác định từ loại từ câu, yêu cầu thiết đặt phải xác định đâu từ câu Vấn đề tưởng chừng đơn giản với người máy tính, tốn khó giải Chính lý tách từ xem bước xử lý quan trọng hệ thống Xử Lý Ngôn Ngữ Tự Nhiên, đặc biệt ngơn ngữ thuộc vùng Đơng Á theo loại hình ngơn ngữ đơn lập, ví dụ: tiếng Trung Quốc, tiếng Nhật, tiếng Thái, tiếng Việt Với ngôn ngữ thuộc loại hình này, ranh giới từ khơng đơn giản khoảng trắng ngôn ngữ thuộc loại hình hịa kết tiếng Anh…, mà có liên hệ chặt chẽ tiếng với nhau, từ cấu tạo nhiều tiếng Vì ngơn ngữ thuộc vùng Đơng Á, vấn đề tốn tách từ khử nhập nhằng ranh giới từ Bởi lý trên, trước đưa vào mơ hình huấn luyện trả lời câu hỏi chúng tơi thực tách từ tiếng Việt sử dụng công cụ DongDu tác giả Lưu Tuấn Anh [11] với độ xác tới 98% tính theo từ Kết sau làm liệu, tiền xử lý, tách từ, lựa chọn tập liệu học thu liệu, sau:  120,885 words  362,655 tokens  1,824,063 QA 4.3 Thực nghiệm xây dựng mơ hình đối thoại tiếng Việt Do liệu thu thập lớn, chia làm tập nhỏ tập 500,000 câu đối thoại phụ đề phim tiếng Việt Và thử nghiệm tập liệu với tham số khác nhau, gồm: Profile 1:       Profile 2: 26,746 words 74,870 QA Max length Thời gian huấn luyện: 25 RAM: 4GB CPU: Core x4 @ 2.4GHz Profile 3:     40,348 words 320,419 QA 10 Max length Thời gian huấn luyện: 270  RAM: 4GB  CPU: Core x4 @ 2.4GHz     37,693 words 180,700 QA Max length Thời gian huấn luyện: 125  RAM: 4GB  CPU: Core x4 @ 2.4GHz Profile 4:     43,033 words 381,474 QA 12 Max length Thời gian huấn luyện: 1,000  RAM: 4GB  CPU: Core x4 @ 2.4GHz Trong lần thử nghiệm huấn luyện mơ hình mạng sử dụng hai lớp mạng LSTM (kích thước lớp ẩn 256) kích thước embeding 25 Kết sử dụng huấn luyện với profile 1, tức mẫu hỏi / câu trả lời có độ dài tối đa Và mạng cho kết tốt ! Q: Xin chào A: chào Q: Tạm_biệt A: tạm_biệt Q: Xin chào ! A: xin chào ! Q: Tạm_biệt anh A: tạm_biệt Q: Chào A: chào Q: Tạm_biệt cô A: tạm_biệt em Q: Chào bạn A: ward ! Q: Tên Vũ A: chào mừng Q: Anh ? A: Q: Gặp anh sau A: tạm_biệt Q: Ồ A: mà Q: Gặp anh sau ! A: chúc may_mắn ! Q: Thật không ? A: thật Q: Cá có_thể bơi khơng ? A: khơng Q: Có tin không ? A: uh Q: Anh bao_nhiêu tuổi ? A: 20 Q: Ai ? A: anh st Q: Anh bao_nhiêu tuổi ? A: 19 Q: Anh đâu ? A: tư_gia Q: Cô bao_nhiêu tuổi ? A: 19 Một số trường hợp fail, kết chưa tốt profile Q: Hôm_nay tháng A: okay Q: Ai John ? A: tao làm_việc giải_thích Q: Anh A: em ổn Q: 2000 A: miriam ! Q: Anh khỏe ? A: chào anh gray Q: Tình_yêu ? A: qua nhân_sự thùng Q: Con chó đâu ? A: thanh_tra montgomery Q: Cơ ghét ? A: Q: Tên anh ? A: jonesy_._jonesy Q: Chim có_thể bay khơng ? A: quan_tâm buồn_cười Q: Anh cịn sống khơng ? A: kyle , tương_lai Q: Ai có_thể hát ? A: khơng có họ Các thử nghiệm với câu dài so với input huấn luyện Kết sử dụng huấn luyện với profile 3, tức mẫu hỏi / câu trả lời có độ dài tối đa 10 với liệu 40,348 words 320,419 QA Đúng mong đợi, kết cho lần huấn luyện đạt tốt mặt ngữ nghĩa Các câu trả lời sát nghĩa hơn, bám sát với ý câu hỏi, với cặp hội thoại đưa vào kiểm nghiệm với kết sau: Human: Xin chào Machine: chào Human: Tạm_biệt Machine: tạm_biệt Human: Xin chào ! Machine: xin chào ! Human: Tạm_biệt anh Machine: tạm_biệt Human: Chào Machine: chào Human: Tạm_biệt cô Machine: tạm_biệt Human: Chào bạn Machine: chào Human: Tên Vũ Machine: gwen Human: Anh ? Machine: yeah Human: Gặp anh sau Machine: tạm_biệt Human: Ồ Machine: phải Human: Gặp anh sau ! Machine: chúc may_mắn ! Human: Thật không ? Machine: thật Human: Cá có_thể bơi khơng ? Machine: tơi khơng biết Human: Có tin khơng ? Machine: khơng Human: Anh bao_nhiêu tuổi ? Machine: Human: Ai ? Machine: Human: Anh bao_nhiêu tuổi ? Machine: 19 Human: Anh đâu ? Machine: Human: Cô bao_nhiêu tuổi ? Machine: 19 Một số kết fail profile 1, có chất lượng cải thiện đáng kể bảng đây, thay phớt lờ thơng tin trả lời cách thẳng thắn câu „Tôi không biết“ Human: Hôm_nay tháng Machine: Human: Ai John ? Machine: Human: Anh Machine: anh Human: 2000 Machine: khoản Human: Anh khỏe ? Machine: Human: Tình_yêu ? Machine: cháu KẾT LUẬN Luận văn đưa lý thuyết vấn đề trình thiết lập, huấn luyện xây dựng hệ thống đối thoại cho tiếng Việt miền mở Từ đó, xây dựng mơ hình đối thoại tự động cho tiếng Việt miền liệu mở lấy từ kho phụ đề mã mở OpenSubtitles2016 [1] Kết ban đầu đạt tiền đề để tạo trợ lý ảo, xây dựng ứng dụng thơng minh hiểu ngơn ngữ tiếng Việt Có khả áp dụng vào tốn thực tế, ví dụ hệ thống hỗ trợ hỏi đáp y khoa, tư vấn mua hàng, hỗ trợ giải đáp kỹ thuật cho khách hàng, dịch vụ khác, … Đặc biệt, tạo trợ lý ảo mà theo dõi sức khỏe tương tác với cá nhân mà hướng tới Từ kết thực nghiệm luận văn này, chúng tơi có số nhận xét: Với chuỗi câu dài mạng huấn luyện nhiều thời gian Sau khoảng 300,000 lần lặp với độ dài 10 từ mạng cung cấp câu trả lời lảng tránh, phớt lờ câu hỏi (bằng việc trả lời câu “Tơi khơng biết”, hiểu cần tích hợp số ngữ nghĩa Bằng việc thay đổi mơ hình cách điều chỉnh độ dài mạng tối ưu cục cặp câu hỏi-đáp cho kết với chất lượng tốt nhiều, bám sát ngữ nghĩa Qua kết đạt ban đầu, chúng nhận thấy nhiều việc phải làm, cần phải tối ưu Nhưng cách tiếp cận ban đầu cho kết tích cực đắn, giải vấn đề ngữ nghĩa, ngữ cảnh tính cách hệ thống đối thoại Định hướng nghiên cứu tiếp theo, tiếp tục làm mượt liệu, để tạo mơ hình có khả trả lời sát với ngữ cảnh, đạt chất lượng cao hơn, giảm khả lảng tránh đưa tính cá nhân vào đoạn hội thoại TÀI LIỆU THAM KHẢO Pierre Lison and Jörg Tiedemann, 2016, OpenSubtitles2016: Extracting Large Parallel Corpora from Movie and TV Subtitles In Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC 2016) Ryan Lowe, Nissan Pow, Iulian Serban, Joelle Pineau, Feb 2016 “The Ubuntu Dialogue Corpus: A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems” Iulian V Serban, Alessandro Sordoni, Yoshua Bengio, Aaron Courville, Joelle Pineau, Apr 2016 “Building End-To-End Dialogue Systems Using Generative Hierarchical Neural Network Models” Wojciech Zaremba, Ilya Sutskever, Oriol Vinyals, 19 Feb 2015 “Recurrent Neural Network Regularization” Kyunghyun Cho, Bart van Merrienboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, Yoshua Bengio, Sep 2014 “Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation” Oriol Vinyals, Quoc Le, 22 Jul 2015 “A Neural Conversational Model” Ilya Sutskever, Oriol Vinyals, Quoc V Le, 14 Dec 2014 “Sequence to Sequence Learning with Neural Networks” pp 1–9 Lifeng Shang, Zhengdong Lu, Hang Li, 27 Apr 2015 “Neural Responding Machine for Short-Text Conversation” Alessandro Sordoni, Michel Galley, Michael Auli, Chris Brockett, Yangfeng Ji, Margaret Mitchell, Jian-Yun Nie, Jianfeng Gao, Bill Dolan, 22 Jun 2015 “A Neural Network Approach to Context-Sensitive Generation of Conversational Responses” 10 Jiwei Li, Michel Galley, Chris Brockett, Georgios P Spithourakis, Jianfeng Gao, Bill Dolan, Jun 2016 “A Persona-Based Neural Conversation Model” 11 Lưu Tuấn Anh, Yamamoto Kazuhide, 16 Feb 2013 “Pointwise for Vietnamese Word Segmentation” 12 S Hochreiter and J Schmidhuber, 1997 “Long Short-Term Memory” Neural Computation, vol 9, pp 1735–1780 13 S Sukhbaatar, A Szlam, J Weston, and R Fergus, 31 Mar 2015 “EndTo-End Memory Networks” pp 1–11 14 Christopher Olah, 27 Aug 2015 “Understanding LSTM Networks” 15 Kaisheng Yao, Geoffrey Zweig, Baolin Peng, 29 Oct 2015 “Attention with Intention for a Neural Network Conversation Model” 16 Jacob Andreas, Marcus Rohrbach, Trevor Darrell, Dan Klein, Jan 2016 “Learning to Compose Neural Networks for Question Answering” 17 Young, M Gasic, B Thomson, and J D Williams, 2013 “POMDP-based statistical spoken dialog systems: A review Proceedings of the IEEE”, 101(5):1160–1179 18 Williams, A Raux, D Ramachandran, and A Black The dialog state tracking challenge In Special Interest Group on Discourse and Dialogue (SIGDIAL), 2013 19 S Kim, L F DHaro, R E Banchs, J Williams, and M Henderson Dialog state tracking challenge 2015 20 Wen, M Gasic, D Kim, N Mrksic, P Su, D Vandyke, and S Young Stochastic language generation in dialogue using recurrent neural networks with convolutional sentence reranking Special Interest Group on Discourse and Dialogue (SIGDIAL), 2015 ... Vũ, học viên khóa K21, ngành Cơng nghệ thơng tin, chun ngành Hệ Thống Thông Tin Tôi xin cam đoan luận văn ? ?Xây dựng mơ hình đối thoại cho tiếng Việt miền mở dựa vào phương pháp học chuỗi liên tiếp? ??... cháu KẾT LUẬN Luận văn đưa lý thuyết vấn đề trình thiết lập, huấn luyện xây dựng hệ thống đối thoại cho tiếng Việt miền mở Từ đó, xây dựng mơ hình đối thoại tự động cho tiếng Việt miền liệu mở lấy... trung vào hướng mơ hình hóa tính cách 4 CHƯƠNG 4: THỰC NGHIỆM XÂY DỰNG MƠ HÌNH ĐỐI THOẠI CHO TIẾNG VIỆT Chương tiến hành thực nghiệm xây dựng mơ hình đối thoại cho tiếng Viết việc áp dụng mơ hình

Ngày đăng: 17/01/2020, 13:14

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w