Cơ chế hồi quy cấp phân đoạn tái sử dụng giá trị trạng thái

Một phần của tài liệu Tổng hợp âm nhạc sử dụng học sâu (Trang 45 - 47)

2.10 Mơ hình TransformerXL

2.10.1 Cơ chế hồi quy cấp phân đoạn tái sử dụng giá trị trạng thái

Để giải quyết hạn chế về độ dài ngữ cảnh của Transformer, tác giả đã đê xuất sử dụng cơ chế hồi quy. Nhưng khác với mạng hồi quy, cấp độ hồi quy ở đây không phải hồi quy theo thời gian, mà là hồi quy theo cấp phận đoạn: trạng thái ẩn (hidden state) được tính ở phân đoạn trước là bất biến, khơng tiếp tục tính tốn grandient, và sẽ được sử dụng để tính tốn trạng thái ẩn của phân đoạn hiện tại. Cơ chế này được gọi là hồi quy cấp độ phân đoạn tái sử dụng giá trị trạng thái. Cơ chế này được biểu diễn qua 4 công thức dưới đây:

Kí hiệu:

sτ = [xτ,1, ...,xτ,L]biểu diễn cho phân đoạn thứτ có chiều dài L.

hn

τ ∈RL×d biểu diễn cho trạng thái của phân đoạnsτ

Trong đó:

n = số lớp ẩn (hidden layer) d = số chiều của mỗi lớp ẩn

Khi đó, trong phân đoạnsτ+1, trạng thái ẩn của lớp thứ n sẽ được tính như sau:

e hτ+1n−1= [SG(hτ n−1)◦hτ+1 n−1] (2.5) qτ+1n ,knτ+1,vτ+1n =hτ+1 n−1WT q,ehτ+1n−1WT k,ehτ+1n−1WT v (2.6) hτ+1

n =Trans f ormer−Layer(qτ+1n ,kτ+1n ,vτ+1n ) (2.7) Theo đó:

(2.6): Là cơng thức tính trạng thái ẩn mở rộngn−1của phân đoạnτ+1. SG biểu diễn

cho hàm stop-gradient,[hu◦hv]biểu thị cho phép nối (concatenation) 2 ma trận theo kích thước chiều dài (length dimension). Nhưng vậy, trạng thái ẩn mở rộng tại lớp ẩnn−1của phân đoạnτ+1sẽ được kết hợp từ trạng thái ẩn tại lớpn−1của phân đoạnτ và τ+1,

trong đó trạng thái ẩn ở lớpn−1của phân đoạn liền trước sẽ bị ngăn khơng tiếp tục tính tốn gradient bằng hàm stop-gradient.

(2.7): Là cơng thức tính tốn các vector truy vấn (q), khoá (k), giá trị (v) của lớp ẩn

thứ n của phân đoạnτ+1. Wlà ma trận chứa các tham só có khả năng học (learnable parameters) của mơ hình. Khố và giá trị sẽ được tính tốn dựa vào trạng thái ẩn mở rộng ở cơng thức (2.6), cịn truy vấn chỉ sử dụng trạng thái ẩn hτ+1

n−1 của phân đoạn hiện tại

τ+1.

(2.8): Là cơng thức tính trạng thái ẩn tại lớp ẩnncủa phân đoạnτ+1. Trạng thái ẩn tại

lớpnsẽ được tính như mơ hình Transformer với các ma trận truy vấn, khố và giá trị vừa tìm được ở bước trên.

Điểm mới của thiết kế này so với mơ hình Transformer truyền thống, là tác giả đã đưa ra cơ chế mở rộng ngữ cảnh (2.6) và sử dụng ngữ cảnh mở rộng này trong việc tính tốn các ma trận khố và giá trị (2.7). Vì trạng thái ẩnhτ

n−1 được tính tính từ trạng thái ẩn liền trước, và hồi quy như vậy, ngữ cảnh có thể truyền đi xuyên suốt các phân đoạn, vượt trên mức 2 phân đoạn liền kề.

Hình 2.25:Minh hoạ mơ hình TransformerXL với chiều dài phân đoạn bằng 4 (Nguồn: [23])Với việc đưa ra cơ chế hồi quy cấp phân đoạn tái sử dụng giá trị trạng thái, tác giả đã thành công Với việc đưa ra cơ chế hồi quy cấp phân đoạn tái sử dụng giá trị trạng thái, tác giả đã thành công giải quyết được hạn chế của mơ hình Transformer truyền thống trong việc nắm bắt ngữ cảnh và phụ thuộc xa. Đồng thời, nhờ ngữ cảnh được truyền đi xuyên suốt, mà chi phí cho việc đánh giá mơ hình đã giảm đi rất nhiều. Thay vì phải dịch (shift) từng token một để tạo ra từng phân đoạn mới và đầu ra mới như Transformer truyền thống, thì TransformerXL có thể dịch từng phân đoạn bởi khả năng nắm bắt ngữ cảnh của mình. Kết quả đánh giá mơ hình TransformerXL đã vượt kiến trúc RNN cả về độ chính xác và thời gian huấn luyện, trong mơ hình ngơn ngữ cấp độ kí tự. TransformerXL đã đánh bại mơ hình hồi quy trong cả mơ hình ngơn ngữ cấp độ từ vựng và kí tự.

Tuy nhiên, nếu chỉ có cơ chế hồi quy cấp phân đoạn thì khơng thể tạo nên sức mạnh của TransformerXL. Bởi lẽ, mơ hình Transformer truyền thống vẫn đang sử dụng cơ chế mã hố dựa vào vị trí tuyệt đối (absolute positional encoding) của token trong phân đoạn. Điều này dẫn đến, những token thuộc những phân đoạn khác nhau, sẽ có cùng giá trị mã hố vị trí. Do đó sẽ dẫn đến sự sai sót trong tính tốn, vì mơ hình sẽ khơng phân biệt được sự khác biệt về vị trí giữa những token này. Đó là lý do ra đời của kĩ thuật mã hố vị trí tương đối (relative positional encoding).

Một phần của tài liệu Tổng hợp âm nhạc sử dụng học sâu (Trang 45 - 47)

Tải bản đầy đủ (PDF)

(94 trang)