Cơ chế attention

2 Kiến thức nền tảng

2.6 Cơ chế attention

Ta đã biết các vấn đề về trí tuệ nhân tạo, học máy chính là sự mơ phỏng lại q trình xử lý, tính tốn, ra quyết định của não người, từ đó các mơ hình học máy được ra đời và phát triển. Lấy một vài ví dụ thực tế như khi ta đọc một bài văn hay một bài báo mỗi câu, mỗi đoạn có thể mang một thơng tin riêng của nó, hoặc nhiều câu chỉ là bổ sung ý cho một câu một đoạn khác. Nghe qua ta có thể thấy chỉ việc đọc một mẫu báo nhỏ thôi cũng đã rất nhiều thơng tin, nhưng não chúng ta lại có thể chú ý vào các từ khóa cốt yếu để có thể tóm tắt lại nội dung chính của bài văn, bài báo ấy một cách nhanh chóng. Hoặc điển hình trong xử lý ảnh, mắt người có tầm nhìn rất rộng tuy nhiên khi lái xe chúng ta hầu như chỉ xử lý một phần nhỏ của hình ảnh mà mắt thu được và đưa ra quyết định một cách chính xác cho việc di chuyển. Cơ chế này giúp não bộ có thể xử lý nhanh chóng thơng tin, với một mức năng lượng cần thiết thấp mà vẫn đem lại kết quả đáng tin cậy. Để mô phỏng lại cơ chế chú ý ấy, các nghiên cứu về cơ chế attention trong học máy ra đời.

Như ta đã biết người nhiều nghiên cứu thường dùng các mơ hình RNN cho bài tốn nhiều-nhiều (hay chuỗi sang chuỗi) mà điển hình nhất là bài tốn máy dịch ngơn ngữ. Đối với bài tốn này, mạng nhân tạo thường được cấu thành từ hai thành phần chính là bộ mã hóa (encoder) và bộ giải mã (decoder). Với đầu vào của bộ mã hóa là một câu ở ngơn ngữ gốc mà ta cần dịch, và đầu ra là một véc-tơ thông tin mang tồn bộ thơng tin của câu nói cần dịch. Sau đó bộ mã hóa sẽ sử dụng véc-tơ thơng tin đó để thực hiện q trình giải mã qua từng mốc thời gian để đưa ra kết quả cuối cùng là một câu ở ngơn ngữ đích mong muốn. Việc thực hiện mã hóa các câu có độ dài khác

nhau thành một véc-tơ cố định khiến cho các câu dài khơng hồn tồn tốt, mặc dù các mơ hình cải biến của RNN như LSTM hay GRU đã giảm bớt vấn đề biến mất của radient. Trong bài báo “Neural machine translation by jointly learning to align and translate” [25], tác giả đã đề xuất một cơ chế giúp mơ hình có thể chú trọng vào những thành phần quan trọng hay còn gọi là cơ chế attention.

Trong bài tốn máy dịch ngơn ngữ ta có một chuỗi văn bản gốc ban đầu

x với độ dài n và một chuỗi văn bản dịch y với độ dài là m, ta có x= [x1,x2, ...,xn],

y = [y1,y2, ...,ym].

Với mỗi giá trị đầu ra của bộ mã hóa yi sẽ phụ thuộc vào giá trị yi−1, trạng thái ẩn của RNN si và véc-tơ thông tin c, với g là một hàm phi tuyến ta có

p(yi|y1, ...,yi−1,x) = g(yi−1,si,ci).

Trạng thái ẩn si sẽ phụ thuộc vào trạng thái ẩn si−1 từ yi−1 và một véc-tơ thông tin ci thông qua RNN được biểu diễn như sau

si =f(si−1,yi−1,ci).

Véc-tơ thông tin được tạo bởi tổng trọng số của các giá trị đầu ra hj tại thời điểm j, với αij (alignment score) là trọng số thể hiện mức độ chú ý của từng giá trị hj. Khi đó ci được tính như sau

ci =

j=1

αijhj.

Với một hàm số z nhận giá trị đầu vào là trạng thái ẩn trước đó của bộ giải mã si−1 và giá trị đầu ra của bộ mã hóa hj, khi đó giá trị đầu ra của

hàm z là một véc-tơ năng lượng chú ý eij, ta có thể biểu diễn αij như sau

eij =a(si−1,hj),

αij = exp(eij)

Biến đổi Fourier rời rạc

Quá trình thực hiện các bộ lọc Mel-scale