1. Trang chủ
  2. » Luận Văn - Báo Cáo

báo cáo giữa kỳ nhập môn xử lý ngôn ngữ tự nhiên

12 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét,đánh giá được chính tác giả thu thập từ các nguồn khác nhau có ghi rõ trongphần tài liệu tham khảo.Ngoài ra, trong

Trang 1

KHOA CÔNG NGHỆ THÔNG TIN

HỌ VÀ TÊN SINH VIÊN 1 - MSSVHỌ VÀ TÊN SINH VIÊN 2 - MSSV

TÊN ĐỀ TÀIBÁO CÁO GIỮA KỲ

NHẬP MÔN

XỬ LÝ NGÔN NGỮ TỰ NHIÊN

THÀNH PHỐ HỒ CHÍ MINH, NĂM …

Trang 2

KHOA CÔNG NGHỆ THÔNG TIN

HỌ VÀ TÊN SINH VIÊN 1 - MSSVHỌ VÀ TÊN SINH VIÊN 2 - MSSV

TÊN ĐỀ TÀIBÁO CÁO GIỮA KỲ

Trang 4

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi và được sựhướng dẫn khoa học của TS Nguyễn Văn A Các nội dung nghiên cứu, kết quảtrong đề tài này là trung thực và chưa công bố dưới bất kỳ hình thức nào trướcđây Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét,đánh giá được chính tác giả thu thập từ các nguồn khác nhau có ghi rõ trongphần tài liệu tham khảo.

Ngoài ra, trong Dự án còn sử dụng một số nhận xét, đánh giá cũng nhưsố liệu của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thíchnguồn gốc

Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu tráchnhiệm về nội dung Dự án của mình Trường Đại học Tôn Đức Thắng không

liên quan đến những vi phạm tác quyền, bản quyền do tôi gây ra trong quá trìnhthực hiện (nếu có).

TP Hồ Chí Minh, ngày … tháng … năm20

Tác giả(Ký tên và ghi rõ họ tên)

Trang 6

MỤC LỤC

DANH MỤC HÌNH VẼ

DANH MỤC CÁC CHỮ VIẾT TẮT

CHƯƠNG 1 CƠ SỞ LÝ THUYẾT

2.1 Mạng neural hồi quy

2.1.1 Recurrent Neural Network (RNN)

2.1.2 Long Short-term Memory (LSTM)

2.2 Mô hình Transformer

2.2.1 Encoder và Decoder

2.2.2 Attention

CHƯƠNG 2 NỘI DUNG BÁO CÁO

TÀI LIỆU THAM KHẢO

Trang 7

DANH MỤC HÌNH VẼ

Hình 2.1: Scaled Dot-Product Attention

Trang 8

DANH MỤC CÁC CHỮ VIẾT TẮT

BERT Bidirectional Encoder Representations from Transformers

GEC Grammatical Error Correction

NLP Natural Language ProcessingNSP Next Sentence Prediction

Trang 9

CHƯƠNG 1 CƠ SỞ LÝ THUYẾT

1.1 Mạng neural hồi quy

1.1.1 Recurrent Neural Network (RNN)

Về mặt toán học, mạng RNN có thể được mô tả như trong công thức (2.1) và(2.2) Công thứ (2.1), xt là vectơ đầu vào tại bước thứ t ht là trạng thái ẩn tại bướcthứ t f là một hàm phi tuyến tính (nonlinear function), thường là hàm tanh hayReLu W là ma trận trọng số cho trạng thái ẩn ở bước trước đó ht −1, U là ma trậntrọng số cho đầu vào Như vậy có thể thấy rằng, trạng thái ẩn ở bước thứ t được tínhdựa trên trạng thái ẩn ở bước trước đó t−1 và dữ liệu đầu vào ở bước hiện tại.

h ft= (W ht−1+U x) (2.1)

yt=softmax (V ht (2.2)Trong công thức (2.2), V là ma trận trọng số cho đầu ra của mạng, yt là mộtphân phối xác suất trên từ điển tại bước thứ t Trạng thái ẩn ht được xem như là bộnhớ của RNN, nó lưu trữ thông tin tính toàn được thực hiện ở các bước trước đó.Không giống như các mạng nơ-ron truyền thống, RNN chia sẽ chung bộ trọng số [

W, U, V] cho tất cả các bước, nghĩa là các phép tính toán sẽ được thực hiện tươngtự nhau cho tất cả các bước lặp chỉ các dữ liệu đầu vào Đây là một ưu điểm củaRNN giúp giảm số lượng tham số cần học cho mô hình.

1.1.2 Long Short-term Memory (LSTM)

Mạng RNN chia sẽ chung một bộ trọng số giữa các bước lặp nên giảm đángkể số lượng tham số, tuy nhiên nó vẫn là một mạng rất sâu Trong quá trình lantruyền ngược (backward), phải thực hiện nhiều bước để có tính được đạo hàm chonhững đầu vào đầu tiên của một chuỗi dữ liệu dài, do đó kết quả đạo hàm thườnglớn hơn hoặc nhỏ hơn 1 đáng kể, dẫn đến giá trị của đạo hàm thường bị bùng nổ(exploding) hoặc mất mát (vanishing) Long Short-term Memory là một biến thể cảitiếng của RNN được đề xuất bởi (Hochreiter & Schmidhuber, 1997) nhằm khắcphục hai vấn đề trên

Trang 10

1.2 Mô hình Transformer

1.2.1 Encoder và Decoder1.2.2 Attention

Attention của mô hình Transformer bao gồm 02 kỹ thuật là Scaled Product Attention và Multi-head Attention.

Dot-1.2.2.1 Scaled Dot-Product Attention

Hình 2.1: Scaled Dot-Product Attention(Nguồn: (Vaswani et al., 2023))

Sẽ có 03 ma trận Q, K và V được sử dụng trong kỹ thuật attention này, tươngứng với các khái niệm query, key và value Các dòng trong trong ma trận Q và K sẽcó kích thước dk, các dòng trong ma trận V sẽ có kích thước dk Các ma trận nàyđược tạo ra từ việc cho vector embedding đầu vào đi qua 03 bộ trọng số WQ, WK và

1.2.2.2 Multi-head Attention

Trang 11

CHƯƠNG 2 NỘI DUNG BÁO CÁO

2.1 Dữ liệu thực nghiệm

Dữ liệu trong VLSP-2016 đã được chia sẵn thành hai tập huấn luyện và kiểmthử Thống kê chi tiết của các kiểu thực thể và các tập dữ liệu được mô tả trong

Bgng 4.1.

Bảng 4.1: Thống kê kiểu thực thể trong tập VLSP 2016

Trang 12

TÀI LIỆU THAM KHẢO

Tiếng Việt…Tiếng Anh

[1] Maurice D Weir, Joel Hass, George B Thomas, [2010], Thomas'calculus, Pearson Education, Boston.

[2] R L Burden, J D Faires, [2011], Numerical Analysis, 9th edition,Brooks/Cole, Boston

[3] James Stewart, [2012], Calculus, Brooks/Cole, Belmont.

[4] R W Hamming, [1986], Numerical methods for scientists andengineers, Dover, New York.

[5] Steven C Chapra, [2012], Applied numerical methods with MATLABfor engineers and scientists, McGraw-Hill Education, New York.

[6] Timothy A Davis, [2011], MATLAB primer, CRC Press, Boca Raton.

Ngày đăng: 07/05/2024, 16:18

w