Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét,đánh giá được chính tác giả thu thập từ các nguồn khác nhau có ghi rõ trongphần tài liệu tham khảo.Ngoài ra, trong
Trang 1KHOA CÔNG NGHỆ THÔNG TIN
HỌ VÀ TÊN SINH VIÊN 1 - MSSVHỌ VÀ TÊN SINH VIÊN 2 - MSSV
TÊN ĐỀ TÀIBÁO CÁO GIỮA KỲ
NHẬP MÔN
XỬ LÝ NGÔN NGỮ TỰ NHIÊN
THÀNH PHỐ HỒ CHÍ MINH, NĂM …
Trang 2KHOA CÔNG NGHỆ THÔNG TIN
HỌ VÀ TÊN SINH VIÊN 1 - MSSVHỌ VÀ TÊN SINH VIÊN 2 - MSSV
TÊN ĐỀ TÀIBÁO CÁO GIỮA KỲ
Trang 4CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi và được sựhướng dẫn khoa học của TS Nguyễn Văn A Các nội dung nghiên cứu, kết quảtrong đề tài này là trung thực và chưa công bố dưới bất kỳ hình thức nào trướcđây Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét,đánh giá được chính tác giả thu thập từ các nguồn khác nhau có ghi rõ trongphần tài liệu tham khảo.
Ngoài ra, trong Dự án còn sử dụng một số nhận xét, đánh giá cũng nhưsố liệu của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thíchnguồn gốc
Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu tráchnhiệm về nội dung Dự án của mình Trường Đại học Tôn Đức Thắng không
liên quan đến những vi phạm tác quyền, bản quyền do tôi gây ra trong quá trìnhthực hiện (nếu có).
TP Hồ Chí Minh, ngày … tháng … năm20
Tác giả(Ký tên và ghi rõ họ tên)
Trang 6MỤC LỤC
DANH MỤC HÌNH VẼ
DANH MỤC CÁC CHỮ VIẾT TẮT
CHƯƠNG 1 CƠ SỞ LÝ THUYẾT
2.1 Mạng neural hồi quy
2.1.1 Recurrent Neural Network (RNN)
2.1.2 Long Short-term Memory (LSTM)
2.2 Mô hình Transformer
2.2.1 Encoder và Decoder
2.2.2 Attention
CHƯƠNG 2 NỘI DUNG BÁO CÁO
TÀI LIỆU THAM KHẢO
Trang 7DANH MỤC HÌNH VẼ
Hình 2.1: Scaled Dot-Product Attention
Trang 8DANH MỤC CÁC CHỮ VIẾT TẮT
BERT Bidirectional Encoder Representations from Transformers
GEC Grammatical Error Correction
NLP Natural Language ProcessingNSP Next Sentence Prediction
Trang 9CHƯƠNG 1 CƠ SỞ LÝ THUYẾT
1.1 Mạng neural hồi quy
1.1.1 Recurrent Neural Network (RNN)
Về mặt toán học, mạng RNN có thể được mô tả như trong công thức (2.1) và(2.2) Công thứ (2.1), xt là vectơ đầu vào tại bước thứ t ht là trạng thái ẩn tại bướcthứ t f là một hàm phi tuyến tính (nonlinear function), thường là hàm tanh hayReLu W là ma trận trọng số cho trạng thái ẩn ở bước trước đó ht −1, U là ma trậntrọng số cho đầu vào Như vậy có thể thấy rằng, trạng thái ẩn ở bước thứ t được tínhdựa trên trạng thái ẩn ở bước trước đó t−1 và dữ liệu đầu vào ở bước hiện tại.
h ft= (W ht−1+U x) (2.1)
yt=softmax (V ht (2.2)Trong công thức (2.2), V là ma trận trọng số cho đầu ra của mạng, yt là mộtphân phối xác suất trên từ điển tại bước thứ t Trạng thái ẩn ht được xem như là bộnhớ của RNN, nó lưu trữ thông tin tính toàn được thực hiện ở các bước trước đó.Không giống như các mạng nơ-ron truyền thống, RNN chia sẽ chung bộ trọng số [
W, U, V] cho tất cả các bước, nghĩa là các phép tính toán sẽ được thực hiện tươngtự nhau cho tất cả các bước lặp chỉ các dữ liệu đầu vào Đây là một ưu điểm củaRNN giúp giảm số lượng tham số cần học cho mô hình.
1.1.2 Long Short-term Memory (LSTM)
Mạng RNN chia sẽ chung một bộ trọng số giữa các bước lặp nên giảm đángkể số lượng tham số, tuy nhiên nó vẫn là một mạng rất sâu Trong quá trình lantruyền ngược (backward), phải thực hiện nhiều bước để có tính được đạo hàm chonhững đầu vào đầu tiên của một chuỗi dữ liệu dài, do đó kết quả đạo hàm thườnglớn hơn hoặc nhỏ hơn 1 đáng kể, dẫn đến giá trị của đạo hàm thường bị bùng nổ(exploding) hoặc mất mát (vanishing) Long Short-term Memory là một biến thể cảitiếng của RNN được đề xuất bởi (Hochreiter & Schmidhuber, 1997) nhằm khắcphục hai vấn đề trên
Trang 101.2 Mô hình Transformer
1.2.1 Encoder và Decoder1.2.2 Attention
Attention của mô hình Transformer bao gồm 02 kỹ thuật là Scaled Product Attention và Multi-head Attention.
Dot-1.2.2.1 Scaled Dot-Product Attention
Hình 2.1: Scaled Dot-Product Attention(Nguồn: (Vaswani et al., 2023))
Sẽ có 03 ma trận Q, K và V được sử dụng trong kỹ thuật attention này, tươngứng với các khái niệm query, key và value Các dòng trong trong ma trận Q và K sẽcó kích thước dk, các dòng trong ma trận V sẽ có kích thước dk Các ma trận nàyđược tạo ra từ việc cho vector embedding đầu vào đi qua 03 bộ trọng số WQ, WK và
1.2.2.2 Multi-head Attention
Trang 11CHƯƠNG 2 NỘI DUNG BÁO CÁO
2.1 Dữ liệu thực nghiệm
Dữ liệu trong VLSP-2016 đã được chia sẵn thành hai tập huấn luyện và kiểmthử Thống kê chi tiết của các kiểu thực thể và các tập dữ liệu được mô tả trong
Bgng 4.1.
Bảng 4.1: Thống kê kiểu thực thể trong tập VLSP 2016
Trang 12TÀI LIỆU THAM KHẢO
Tiếng Việt…Tiếng Anh
[1] Maurice D Weir, Joel Hass, George B Thomas, [2010], Thomas'calculus, Pearson Education, Boston.
[2] R L Burden, J D Faires, [2011], Numerical Analysis, 9th edition,Brooks/Cole, Boston
[3] James Stewart, [2012], Calculus, Brooks/Cole, Belmont.
[4] R W Hamming, [1986], Numerical methods for scientists andengineers, Dover, New York.
[5] Steven C Chapra, [2012], Applied numerical methods with MATLABfor engineers and scientists, McGraw-Hill Education, New York.
[6] Timothy A Davis, [2011], MATLAB primer, CRC Press, Boca Raton.