Ví dụ biểu diễn nhịp điệu

Một phần của tài liệu Tổng hợp âm nhạc sử dụng học sâu (Trang 66 - 67)

Như ví dụ trong hình nốt nhạc được mã hóa là token n45 d8 tương ứng với chỉ số 6, 7 trong danh sách tuy nhiên thực chất nốt nhạc được mã hóa đó được vang lên cùng lúc với các nốt trước đó. Vị trí của các token trong dãy mã hóa khơng thể hiện được thời điểm nốt nhạc được vang lên do vậy cần cung cấp thêm cho mơ hình dữ liệu ngữ cảnh về thời điểm các nốt nhạc được chơi trong bài hát.

Việc kết hợp mã hóa token bài hát và thêm vào đó là mã hóa nhịp điệu, giúp mơ hình sẽ nhận được nhiều thơng tin hơn về bối cảnh của bài hát khi huấn luyện. Từ đó, làm cho mơ hình sẽ "cảm nhận" tốt hơn tính thời gian trong âm nhạc.

4.4.1.3 Tăng cường dữ liệu (Data augmentation)

Trong âm nhạc, một bài hát được chơi ở âm trưởng hay âm thứ này có thể chuyển qua âm trưởng hay âm thứ khác thông qua việc tịnh tiến cao độ của các nốt, mà vẫn đảm bảo được cấu trúc và tính hài hồ của giai điệu.

Do đó, có thể thấy vị trí tương đối giữa các nốt nhạc trong bài hát, hay nói cách khác là mối quan hệ về cao độ của các nốt, có tính quan trọng hơn so với vị trí cao độ tuyệt đối của các nốt nhạc trong bài hát. Nhận thấy điểm này, tác giả đã thực hiện chuyển tông/giọng cho các bài hát nhằm làm tăng dữ liệu cho việc huấn luyện mơ hình. Thêm vào đó, việc tăng dữ liệu dường như giúp tổng quát hóa các âm giai và nhịp. Sau đây là ví dụ cho việc chuyển âm trưởng của một

đoạn nhạc nhỏ.

1 # Key of C

2 Tokens : xxbos xxpad n60 d4 n52 d8 n45 d8 xxsep d4 n62 d4

3 # Tranpose to key of E

4 Tokens : xxbos xxpad n64 d4 n56 d8 n49 d8 xxsep d4 n66 d4

4.4.2 Kiến trúc mô hình

4.4.2.1 Mơ hình sinh nhạc MusicTransformerXL

Nếu hình dung âm nhạc dưới dạng chuỗi (sequence) các token - là các nốt, hợp âm,.. đã được mã hoá, được sắp xếp theo thứ tự thời gian, thì bài tốn sinh nhạc sẽ tương tự với bài toán sinh văn bản (text generation). Một trong những mơ hình đã đạt được những kết quả rất đáng kinh ngạc trong bài tốn sinh văn bản, chính là mơ hình TransformerXL.

Mơ hình sinh nhạc được nhóm lựa chọn dựa trên mơ hình xử lý ngơn ngữ tự nhiên Trans- formerXL. Như đã phân tích ở trên, mục đích của mơ hình sẽ là dự đốn token âm nhạc tiếp theo dưa trên chuỗi token âm nhạc đầu vào. Dưới đây là hình ảnh minh hoạ kiến trúc mơ hình:

Một phần của tài liệu Tổng hợp âm nhạc sử dụng học sâu (Trang 66 - 67)

Tải bản đầy đủ (PDF)

(94 trang)