3. CHƯƠNG 3: MÔ HÌNH ĐỐI THOẠI VỚI MẠNG NƠ-RON
Chương này sẽ giới thiệu về mô hình ngôn ngữ có thể sản sinh ra văn bản sau khi được huấn luyện bởi một mạng nơ-ron, đồng thời đề cập đến mô hình chuỗi tuần tự liên tiếp sequence to sequence. Và sẽ đi xem xét làm thế nào để xây dựng được một mô hình đối thoại sử dụng mạng nơ-ron.
3.1 Mô hình ngôn ngữ phát sinh văn bản
Nền tảng của việc xây dựng mô hình chuỗi tuần tự (ví dụ, mô hình dịch máy) là mô hình ngôn ngữ. Ở mức cao, một mô hình ngôn ngữ đón nhận chuỗi các phần tử đầu vào, nhìn vào từng phần tử của chuỗi và cố gắng để dự đoán các phần tử tiếp theo của chuỗi văn bản. Có thể mô tả quá trình này bằng phương trình hàm số sau đây:
𝑌𝑡 = 𝑓(𝑌𝑡−1)
Trong đó, 𝑌𝑡 là phần tử chuỗi ở thời điểm t, 𝑌𝑡−1 là phần tử chuỗi ở thời điểm trước đó (t – 1), và f là hàm ánh xạ các phần tử trước đó của chuỗi sang phần tử tiếp theo của chuỗi. Bởi vì chúng ta đang đề cập đến mô hình chuỗi sử dụng mạng nơ-ron, f đại diện cho mạng nơ-ron mà có thể dự đoán được phần tử tiếp theo của một chuỗi, được cho trước bởi một phần tử hiện tại trong chuỗi đó.
Mô hình ngôn ngữ có thể sinh sản, khi được huấn luyện thì chúng có thể được sử dụng để sinh ra các chuỗi thông tin bằng cách cho kết quả đầu ra ở bước trước trở lại làm đầu vào của mô hình. Hình vẽ dưới đây là sơ đồ cho thấy việc huấn luyện và quá trình sinh sản của một mô hình ngôn ngữ.
Cho một chuỗi là ABCD. Một chuỗi đầu vào là một lát cắt của chuỗi cho đến phần tử cuối. Chuỗi đích target là một lát cắt của chuỗi từ phần tử thứ 2.