Biểu diễn dữ liệu

Mô hình DeepJ sử dụng các biểu diễn các bài hát khá tương tự như mô hình Biaxial nhưng cải tiến hơn về phương thức biểu diễn tiết tấu.

Cường độ trong âm nhạc được định nghĩa là âm lượng tương đối của một nốt nhạc. Đặc tính này rất quan trọng trong biểu diễn, giúp tăng tính cao trào và cảm xúc của bài nhạc. Tập tin MIDI dữ liệu biểu thị độ to của một nốt nhạc trong khoảng từ 0 tới 127. Nhóm tác giả đã nhận thấy đặc tính này và đã thêm nó vào biểu diễn đầu vào của mô hình: thay vì sử dụng 2 giá trị nhị phân 0 và 1 để biểu diễn nốt có đang được chơi hay không như mô hình Biaxial-LSTM, tác giả đã dùng các số thực trong khoảng từ 0 đến 1 (với giá trị 1 là giá trị biểu thị âm lượng lớn nhất) để đồng thời biểu thị cả âm lượng chơi của nốt. Tệp tin MIDI bài hát được biểu diễn bởi ma trận có kích thước N x T, trong đó N là số các nốt nhạc xuất hiện trong bài hát xét về cao độ, T là độ dài về thời gian của bài hát. Dưới đây là ví dụ cho N = 4 (nốt) qua T = 4 (timestrep), trong đó có 2 nốt được ngân qua 2 timestep liên tiếp với cường độ chơi là 0.4 .

tdynamics=     0 0 0 0 0.4 0.4 0 0 0 0 0 0 0.4 0.4 0 0    

Để đạt được mục tiêu sinh nhạc theo một loại nhạc, mô hình DeepJ có thêm biểu diễn về loại nhạc bài hát thuộc về và phong cách sáng tác của tác giả bài hát. Các nhạc sĩ sáng tác được gom vào một thể loại âm nhạc cụ thể. Phong cách sáng tác âm nhạc được mã hóa bởi kiểu biểu diễn one-hot cho tất cả cá nhà soạn nhạc. Nếu một dòng nhạc gồm nhiều nhạc sĩ, dòng nhạc đó sẽ được biểu diễn bởi một vector được chuẩn hóa có tổng giá trị tại chỉ số thứ tự của các nhạc sĩ trong dòng nhạc đó tổng bằng 1. Dưới đây là ví dụ vector biểu diễn cho dòng nhạc baroque chứa bài hát của bốn nhạc sĩ có số thứ tự từ 1 tới 4.

sbaroque=

0.25,0.25,0.25,0.25,0,0, ...

Ngoài ra, nhóm tác giả biểu diễn thêm ngữ cảnh đầu vào để mô hình có thể nắm bắt được cấu trúc bài hát và tạo ra âm nhạc có cấu trúc tốt. Mô hình được cung cấp vị trí nhịp của thanh nhạc hiện tại bởi vector one-hot có số chiều là q, số lượng qui định nhịp trên mỗi thanh. Mô hình DeepJ cóq=16để có thể ghi lại được các nốt nhạc ngắn và đồng thời không tốn quá nhiều chi phí cho việc tính toán.

Mơ hình mạng Recurrent Neural Networks

Minh hoạ mơ hình Multihead-attention