Mơ hình học máy LSTM song trục

Một phần của tài liệu Tổng hợp âm nhạc sử dụng học sâu (Trang 59 - 60)

Khi đó, ý tưởng về kiến trúc của mơ hình đã hồn thiện. Vì kiến trúc này, các xử lý đầu vào của mơ hình cũng khá phức tạp và đặc biệt. Với kiến trúc trên, ta không thể truyền đầu vào và một vectorv(t) biểu diễn toàn bộ nốt được nữa. Thay vào đó, mơ hình sẽ được truyền 2 vector đầu vào: vector cửa số cục bộ (local window)w(n,t) và vector tập các thùng (bin) z(n,t). Vector cửa sổ cục bộw(n,t)là một phần của vector nốtv(t), thoảw(n,t)i =v(t)n−13+ivới1≤i≤25. Vector này

cung cấp thông tin các nốt lân cận trong phạm vi 1 quãng 8 ở trên và dưới nốt đang xét. Nếu như cửa sổ cục bộ vượt quá giới hạn củavthì những nốt nằm ngoài vùng giới hạn này sẽ được gán giá trị 0. Bên cạnh đó, mỗi thùngzisẽ chứa giá trị đúng bằng số lượng các nốt cách nốt hiện tại 1 khoảng i xét trên mọi quãng 8.

z(n,t)i = ∞

m=−∞

v(t)i+m+12n (4.3)

Cách làm này tương đương với việc quét tất cả các nốt trên mỗi lớp cao độ (pitchclass) và thực hiện tính tốn quan hệ từng nốt với nốt hiện tại. Lấy ví dụ, nốt hiện tại ở lớp cao độ D, thìz2sẽ là tổng số nốt thuộc lớp cao độ E trên mọi quãng 8.

Dưới đây là hình ảnh minh hoạ của cơ chế window and bin:

Bên cạnh đó, mặc dù âm nhạc mang tính bất biến theo nốt, tuy nhiên vẫn có sự khác biệt giữa nốt cao và nốt trầm trong thực tế. Do đó, ngoại trừ các thơng tin đã đươc đề cập ở trên, tác giả còn bổ sung cho đầu giá trị MIDI biểu diễn cao độ tương ứng của mỗi nốt. Ngoài ra, như đã đề cập ở trên, tác giả mong muốn mơ hình có thể học được về nhịp, tác giả cịn bổ sung vào đầu vào cho mơ hình các bit biểu diễn nhịp. Tóm lại, đầu vào sẽ được biểu diễn như sau:

Một phần của tài liệu Tổng hợp âm nhạc sử dụng học sâu (Trang 59 - 60)

Tải bản đầy đủ (PDF)

(94 trang)