Mô hình Transformer

Mô hình học bằng cách s d ng thu t toán Gradient descent [6] ử ụ ậ để tìm được điểm c c ti u c a hàm s d a trên giá tr o hàm c a hàm m t mát ự ể ủ ố ự ị đạ ủ ấ , , tương ứng v i b tham s U, V, W và c p nh t l i giá tr cho chúng. ớ ộ ố ậ ậ ạ ị Đố ới v i tham s U và V giá tr o hàm ch ố ị đạ ỉ phụ thu c vào ộ thời điểm hi n tệ ại đang xét, nhưng v i tham s W thì l i khác, ví d ớ ố ạ ụ xét t = 3 ta được:

Công thức tổng quát:

Mà luôn có giá tr trong khoị ảng [-1,1] do sử d ng hàm tanh, dụ ẫn đến s n gẽ tiế ần đến 0 theo hàm s ố mũ nếu k càng l n cho nên các ớ ở vector v ịtrí đầu giá tr ịđạo hàm x p x 0 ấ ỉ khiến vi c c p nh t tham s W không ệ ậ ậ ố đáng kể, hiểu đơn giản mô hình s không h c thêm ẽ ọ được gì nhữở ng t v trí ừ ị đầu tiên trong quá trình truyền ngược.

Hiện tượng này g i là Vanishing Gradient, x y ra khi hu n luy n các ọ ả ấ ệ mạng nơ ron nhiề ớu l p, khi n mô hình RNN kém hi u qu và ch có th ế ệ ả ỉ ể lưu trữ thông tin ng n h n (Short-Term Memory) [7]. Khi hu n luy n, giá tr ắ ạ ấ ệ ị đạo hàm là thông tin ph n h i c a quá trình lan truyả ồ ủ ền ngược, giá tr này tr nên ị ở vô cùng nh t i các lỏ ạ ớp nơ ron đầ- u tiên khi n cho vi c c p nh t tr ng s ế ệ ậ ậ ọ ố m ng không ạ thể ả x y ra.

Các mô hình như LSTM (Long Short-Term Memory) và GRU (Gated Recurrent Units) được ra đời để h n ch tình tr ng này x y ra b ng cách thêm ạ ế ạ ả ằ các tham s cố ổng được gọi là “gates”. Nh ng c ng này giúp mô hình hữ ổ ọc được thêm các thông tin quan tr ng và xóa các thông tin không quan tr ng ọ ọ trong lớp ẩn c a mô hình RNN. ủ

Nhưng v n không th ẫ ể giải quy t triế ệt để hiện tượng Vanishing Gradient, v i nhớ ững câu độ dài lớn mô hình v n g p hẫ ặ ạn ch trong quá trình h c và d ế ọ ự

đoán, không những th ế việc thêm các tham s ố khiến mô hình LSTM và GRU

trở nên ph c t p, th i gian ứ ạ ờ huấn luy n ệ lâu hơn rất nhi u. Trong luận văn này ề

tôi s không áp dẽ ụng mô hình RNN để xây dựng Chatbot, thay vào đó sẽ

nghiên cứu và áp d ng mô hình Transformer, m t mô hình h c sâu m nh m ụ ộ ọ ạ ẽ khắc ph c các nhược điểụ m c h u c a mô hình RNN. ố ữ ủ

2.3 Mô hình Transformer

Transformer [8] là môt mô hình học sâu được gi i thiớ ệu vào năm 2017, và

đã trở thành thu t toán hiậ ện đại nhất trong lĩnh vực x lý ngôn ng t nhiên. Là ử ữ ự

tiền đề ạ t o ra BERT (Bidirectional Encoder Representations from Transformers)

m t k thu t h c máy ng d ng mô hình Transformer ộ ỹ ậ ọ ứ ụ dùng để ọ h c bi u di n cể ễ ủa các t t t nh t hi n từ ố ấ ệ ại và là bước ngo t l n cho cặ ớ ộng đồng NLP năm 2019, và chính Google cũng đã áp dụng BERT trong công c tìm ki m c a h . ụ ế ủ ọ

Trước khi được công b , h u h t các tác v x lý ngôn ng t nhiên s d ng ố ầ ế ụ ử ữ ự ử ụ kiến trúc mạng nơ-ron h i quy RNN, đi m y u cồ ể ế ủa phương pháp này xảy ra ở những câu dài không th ể tìm được m i liên h ố ệ giữa các t trong câu và từ ốc độ hu n ấ luy n ệ chậm do x ử lý đầu vào m t cách tu n t . Transformer ộ ầ ự ra đời đã khắc ph c ụ được c ả 2 nhược điểm này.

Thành p hn mã hóa ầ

Đánh giá mô hình DIET