1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tổng hợp âm nhạc sử dụng học sâu

94 32 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH ✯✯✯ BK TP.HCM LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC TỔNG HỢP ÂM NHẠC SỬ DỤNG HỌC SÂU NGÀNH: KHOA HỌC MÁY TÍNH HỘI ĐỒNG: KHOA HỌC MÁY TÍNH 11 GVHD: PGS TS QUẢN THÀNH THƠ GVPB: TS NGUYỄN ĐỨC DŨNG SVTH 1: HỒ MINH HOÀNG 1710094 SVTH 2: NGUYỄN VIỆT LONG 1712025 SVTH 3: NGUYỄN NGỌC THU PHƯƠNG 1712725 TP Hồ Chí Minh, tháng 10/2021 TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KH & KT MÁY TÍNH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc -Ngày 01 tháng 08 năm 2021 PHIẾU CHẤM BẢO VỆ LVTN (Dành cho người hướng dẫn/phản biện) Họ tên SV: Hồ Minh Hoàng, Nguyễn Việt Long, Nguyễn Ngọc Thu Phương MSSV: 1710094, 1712025, 1712725 Ngành (chuyên ngành): KHMT Đề tài: Tổng hợp âm nhạc sử dụng học sâu Họ tên người hướng dẫn/phản biện: Nguyễn Đức Dũng Tổng quát thuyết minh: Số trang: Số chương: Số bảng số liệu Số hình vẽ: Số tài liệu tham khảo: Phần mềm tính tốn: Hiện vật (sản phẩm) Tổng quát vẽ: - Số vẽ: Bản A1: Bản A2: Khổ khác: - Số vẽ vẽ tay Số vẽ máy tính: Những ưu điểm LVTN: Nhóm xây dựng hệ thống tổng hợp âm nhạc tự động với cách tiếp cận sử dụng mơ hình học sâu Mơ hình sinh nhạc nhóm dựa transformerXL Nhóm tìm hiểu đầy đủ vấn đề liên quan đến cấu trúc nhạc, giới hạn nhạc đơn giản nhạc cổ điển Các mơ hình học sâu liên quan khảo sát kỹ Nhóm xây dựng ứng dụng hỗ trợ việc sinh nhạc Những thiếu sót LVTN: Mặc dù xây dựng mơ hình sinh nhạc, chất mơ hình tất định Với đề tài liên quan đến sáng tạo nhóm cần khảo sát kỹ cách tiếp cận có khả tạo tính đa dạng khơng phải theo hướng truyền thống seq2seq Đặt điểm mơ hình sinh nhạc overfit liệu huấn luyện Do hầu hết giai điệu sinh thường quen thuộc gần giống với nhạc dùng trình huấn luyện Việc đánh giá tốn khó mang tính cảm tính cao, chất lượng phụ thuộc nhiều vào chuyên môn người làm khảo sát số liệu mang tính chất tham khảo Đề nghị: Được bảo vệ o Bổ sung thêm để bảo vệ o câu hỏi SV phải trả lời trước Hội đồng: a Nhóm làm muốn tạo tính đa dạng nhạc? Khơng bảo vệ o b Có giới hạn cho chiều dài chuỗi nhập không? c Phần chuỗi nhập định nhạc sinh có giai điệu gì? giải thích 10 Đánh giá chung (bằng chữ: giỏi, khá, TB): Giỏi Điểm: /10 Ký tên (ghi rõ họ tên) Nguyễn Đức Dũng LỜI CAM ĐOAN Chúng tơi xin cam đoan cơng trình nghiên cứu riêng giám sát hướng dẫn PGS.TS Quản Thành Thơ Việc lựa chọn thực đề tài xuất phát từ nhu cầu thực tiễn nguyện vọng thân thành viên nhóm Nội dung nghiên cứu kết trung thực chưa công bố trước Các số liệu sử dụng cho q trình phân tích, nhận xét thu thập từ nhiều nguồn khác ghi rõ phần tài liệu tham khảo Ngoài ra, chúng tơi có sử dụng số nhận xét, đánh giá số liệu tác giả khác, quan tổ chức khác Tất có trích dẫn thích nguồn gốc Nếu phát có gian lận nào, chúng tơi xin hoàn toàn chịu trách nhiệm nội dung Luận văn tốt nghiệp đại học Trường đại học Bách Khoa thành phố Hồ Chí Minh khơng liên quan đến vi phạm tác quyền, quyền gây trình thực TP HCM, NGÀY 26 THÁNG NĂM 2021 NHÓM TÁC GIẢ LỜI CẢM ƠN Lời đầu tiên, xin gửi lời cảm ơn chân thành đến PGS TS Quản Thành Thơ, người thầy gắn bó với nhóm q trình thực luận văn suốt thời gian qua Nhờ hướng dẫn tận tình, chu đáo thầy kiến thức q báu, nhờ điều giúp chúng tối hoàn thành Luận văn tốt nghiệp đại học lần Chúng xin gửi lời cảm ơn đến TS Nguyễn Đức Dũng, giảng viên phản biện đề tài trình Đề cương luận văn Luận văn tốt nghiệp đại học, với góp ý định hướng thầy dành cho nhóm Xin gửi lời cảm ơn đến thầy cô trường Đại học Bách Khoa - Đại học Quốc gia Thành phố Hồ Chí Minh, đặc biệt thầy khoa Khoa học Kỹ thuật Máy tính truyền đạt kiến thức quý báu năm học qua để giúp chúng tơi có kiến thức, tảng để thực Luận văn tốt nghiệp đại học Cuối cùng, xin cảm ơn anh, chị, bạn bè, người giúp đỡ, chia sẻ kiến thức, góp ý hỗ trợ chúng tơi suốt thời gian hồn thành luận văn tổng hợp âm nhạc NHÓM TÁC GIẢ iii TÓM TẮT Hiện nay, Deep learning (học sâu) sử dụng nhiều lĩnh vực cuốc sống thực tế Trong năm gần đây, có phát triển vượt bậc mức độ phổ biến tính hữu dụng nhờ vào phát triển sức mạnh phần cứng máy tính, bùng nổ liệu kỹ thuật đưa vào mơ hình học sâu Trong đề tài luận văn lần này, nhóm chúng tơi xây dựng mơ hình học sâu ứng dụng vào việc tổng hợp âm nhạc Mơ hình học sâu đưa vào hệ thống để hỗ trợ cho việc soạn nhạc cho người dùng, giúp người dùng có gợi ý cho tác phẩm nghệ thuật MỤC LỤC Tóm tắt iii Danh mục hình ảnh vii Danh mục bảng biểu ix Danh mục chữ viết tắt x Chương TỔNG QUAN 1.1 Giới thiệu đề tài 1.2 Mục tiêu phạm vi đề tài 1.3 Cấu trúc luận văn 2 Chương KIẾN THỨC NỀN TẢNG 2.1 Lý thuyết âm nhạc 2.1.1 Nhịp 2.1.2 Cung Quãng 2.1.3 Hợp âm 2.1.4 Giai điệu 2.2 Cách biểu diễn one-hot vector 2.2.1 Dữ liệu Categorical (Categorical Data) 2.2.2 Cách biểu diễn one-hot vector 2.3 Cách biểu diễn embbeding 2.4 Mơ hình mạng Multilayer Perceptron 2.4.1 Một số hàm Activation 2.5 Mô hình mạng Recurrent Neural Networks 2.5.1 Tổng quan 2.5.2 Một số ứng dụng RNN 2.5.3 Mơ hình mạng Long Short Term Memory 2.6 Mơ hình Seq2Seq 2.6.1 Chi tiết mã hóa - Encoder mơ hình Seq2Seq 2.6.2 Chi tiết giải mã - Decoder mơ hình Seq2Seq 2.7 Cơ chế Attention 2.7.1 Tầng tập trung tích vơ hướng - Dot product attention 2.7.2 Tập trung perceptron đa tầng - Multilayer perceptron attention 2.7.3 Mơ hình Seq2Seq áp dụng Cơ chế Attention 2.7.4 Mơ hình Multihead-Attention 2.8 Mơ hình Transformer 2.8.1 Mạng truyền xi theo vị trí - Position-wise feed-forward network 2.8.2 Cộng chuẩn hóa 2.8.3 Biểu diễn vị trí - Positional Encoding 2.8.4 Khối Encoder Decoder kiến trúc Transformer 2.9 Biểu diễn Mã hóa hai chiều từ Transformer (BERT) 2.9.1 Biểu diễn đầu vào 2.9.2 Những tác vụ Tiền huấn luyện 2.10 Mơ hình TransformerXL 5 7 7 8 10 13 13 14 16 18 18 19 19 20 21 21 22 23 24 24 25 25 25 27 28 29 v MỤC LỤC 2.10.1 Cơ chế hồi quy cấp phân đoạn tái sử dụng giá trị trạng thái 2.10.2 Kĩ thuật mã hố vị trí tương đối Chương CƠNG NGHỆ SỬ DỤNG 3.1 Ngơn ngữ lập trình 3.1.1 Python 3.1.2 JavaScript 3.2 Thư viện tảng sử dụng 3.2.1 Thư viện Music21 3.2.2 Thư viện Numpy 3.2.3 Thư viện Pytorch 3.2.4 Thư viện fastai 3.2.5 Thư viện Flask 3.2.6 Thư viện React 3.2.7 Thư viện Pymongo 3.3 Công cụ sử dụng 3.3.1 Môi trường Google Colaboratory 3.3.2 MongoDB 30 32 34 35 35 35 35 35 36 36 37 37 37 38 38 38 38 40 41 45 46 46 47 48 49 49 52 56 57 57 57 58 58 60 60 61 62 62 Chương KIỂM ĐỊNH VÀ ĐÁNH GIÁ 6.1 Kiểm thử hệ thống - System Test 6.1.1 Kiểm thử giao diện 6.1.2 Kiểm thử chức 6.2 Phương pháp đánh giá mơ hình 6.3 Kết đánh giá mơ hình 6.3.1 Nhóm đối tượng có khơng có kiến thức chuyên sâu âm nhạc 6.3.2 Nhóm đối tượng có kiến thức chuyên sâu âm nhạc 66 67 67 67 68 68 68 71 Chương CÁC CÔNG TRÌNH LIÊN QUAN 4.1 Mơ hình Biaxial LSTM 4.2 Mô hình DeepJ 4.2.1 Biểu diễn liệu 4.2.2 Hàm mục tiêu 4.2.3 Mơ hình 4.3 Đánh giá mơ hình Biaxial LSTM DeepJ 4.4 Mơ hình MusicAutobot 4.4.1 Tiền xử lý liệu 4.4.2 Kiến trúc mơ hình Chương HIỆN THỰC HỆ THỐNG 5.1 Thu thập liệu 5.1.1 Tập tin MIDI - Musical Instrument Digital Interface 5.1.2 Tập liệu thu thập 5.1.3 Lọc liệu 5.2 Hiện thực mơ hình 5.3 Mô tả thực hệ thống tổng hợp nhạc 5.3.1 Kiến trúc tổng thể 5.3.2 Sơ đồ tình sử dụng (Use Case Diagram) 5.3.3 Kiến trúc vật lý 5.3.4 Mô tả chức hệ thống MỤC LỤC vi Chương TỔNG KẾT 7.1 Các kết đạt 7.2 Các hạn chế đề tài 7.3 Các hướng phát triển 73 74 74 75 Tài liệu tham khảo 75 CHƯƠNG HIỆN THỰC HỆ THỐNG Hình 5.8: Kết hát tạo server trả Hình 5.9: Trang xem lại hát lưu 65 KIỂM ĐỊNH VÀ ĐÁNH GIÁ Trong chương này, chúng tơi xin trình bày tiêu chí đánh giá kiểm thử hệ thống, kết huấn luyện mơ hình tổng hợp, phương thức đánh giá kết so sánh với mơ hình tương tự Biaxial LSTM, DeepJ đề cập mục 4.1 4.2 đồng thời nêu hạn chế mơ hình Mục lục 6.1 Kiểm thử hệ thống - System Test 67 6.2 Phương pháp đánh giá mơ hình 68 6.3 Kết đánh giá mơ hình 68 67 CHƯƠNG KIỂM ĐỊNH VÀ ĐÁNH GIÁ 6.1 Kiểm thử hệ thống - System Test Kiểm thử giai đoạn quan trọng thiếu q trình phát triển phần mềm Nó giúp phát sớm lỗi để khắc phục kịp thời, đảm bảo phần mềm hoạt động xác, với yêu cầu đặt Có nhiều dạng kỹ thuật kiểm thử nhiên phạm vi luận văn, nhóm thực số dạng kiểm thử kiểm thử hệ thống (System Test) Kiểm thử hệ thống thuộc loại kiểm thử hộp đen (black box) Kiểu kiểm thử tập trung vào kiểm tra chức hệ thống Ở phần nhóm tiến hành kiểm thử giao diện chức năng, giao diện hệ thống xem có đảm bảo với yêu cầu đặt ban đầu 6.1.1 Kiểm thử giao diện Nội dung kiểm thử mô tả cụ thể bảng 6.1 STT Yêu cầu test Giao diện trang web với nút bấm, trang hiển thị nhạc Trang web sử dụng nhiều kích thước độ phân giải khác Yêu cầu kết Giao diện trang web hiển thị đầy đủ nút bấm, ô lựa chọn, trang hiển thị nhạc đảm bảo hiển thị kí hiệu nhạc đầy đủ Giao diện trang web đáp ứng việc hiển thị đầy đủ kích thước độ phân giải khác Bảng 6.1: Bảng kiểm thử giao diện trang web hệ thống 6.1.2 Kiểm thử chức Nội dung kiểm thử mô tả cụ thể bảng 6.2 Kết PASS PASS 68 CHƯƠNG KIỂM ĐỊNH VÀ ĐÁNH GIÁ STT Yêu cầu test Đăng ký, đăng nhập Sự cố kết nối mạng Hỗ trợ người dùng soạn nhạc Kết hát trả người dùng Hiển thị liệu hát người dùng lưu Yêu cầu kết Hệ thống phản hồi người dùng đăng nhập ký Khi bị cố kết nối mạng, trang web thông báo cho người dùng để kiểm tra lại kết nối Trang web hỗ trợ người dùng soạn nhạc mức với nốt nhạc nhịp chọn Máy chủ trả kết hát sinh tự động từ đầu vào nhận từ người dùng Khi người dùng đăng nhập vào hệ thống, lưu hát soạn trước trang web hiển thị hát, khơng khơng hiển thị Kết PASS PASS PASS PASS PASS Bảng 6.2: Bảng kiểm thử chức hệ thống 6.2 Phương pháp đánh giá mơ hình Bởi âm nhạc mơn nghệ thuật sáng tạo trừu tượng, sử dụng âm để diễn đạt cung bậc cảm xúc, tình cảm người Vì kết huấn luyện mơ hình tự sinh âm nhạc tập trung để đánh giá định lượng phản ánh chất lượng mơ hình cần phương thức kiểm định khảo sát đánh giá định tính dựa vào phản hồi người nghe Với lý trên, nhóm định khơng tập trung vào kết đánh giá độ xác mơ hình lĩnh vực khác, tập trung vào giá trị mơ hình dự đốn hát có tập huấn luyện mà khơng phải tên gọi tự động sinh âm nhạc, tạo tính đa dạng đột phá kết đầu so với tập huấn luyện Vì việc đánh giá kết mơ hình tập trung vào chất lượng định tính mơ hình Với phương pháp đánh giá định tính, nhóm thực khảo sát kết phản hồi từ người nghe Khảo sát thực nhóm đối tượng: nhóm đối tượng có khơng có kiến thức chuyên sâu âm nhạc; nhóm đối tượng có kiến thức âm nhạc đào tạo chuyên sâu từ nhạc viện Chi tiết nhóm đối tượng, kết khảo sát nhóm, trình bày phần 6.3 Kết đánh giá mơ hình 6.3.1 Nhóm đối tượng có khơng có kiến thức chuyên sâu âm nhạc Nhóm tiến hành khảo sát gần 200 cá nhân nhằm để đánh giá kết đầu mơ hình học máy tự sinh âm nhạc nhóm Đối tượng khảo sát chủ yếu bạn sinh viên Thành CHƯƠNG KIỂM ĐỊNH VÀ ĐÁNH GIÁ 69 phố Hồ Chí Minh với độ tuổi giao động từ 18 đến 24, có khơng có kiến thức liên quan âm nhạc Tuy số lượng không nhiều phản hồi đưa đánh giá sâu sắc chất lượng ưu nhược điểm kết mơ hình Trong khảo sát, nhóm đưa câu hỏi nhằm để kiểm định so sánh kết mơ hình với mơ hình tảng lĩnh vực tự sinh âm nhạc Biaxial-LSTM [24] DeepJ [31] giới thiệu mục trước 6.3.1.1 Phép thử Turing Câu hỏi có nội dung "chọn nhạc mà bạn nghĩ người sáng tác" Những lựa chọn bao gồm nhạc mơ hình học máy DeepJ, Biaxial-LSTM MusicAutobot tạo Còn nhạc cuối Sonata XVI:33 tác giả Franz Joseph Haydn Phương thức khảo sát gọi phép thử Turing Phép thử Turing - Turing Test phương pháp đơn giản để xác định xem cỗ máy chứng minh trí thơng minh giống với não người hay khơng, nói cách khác trường hợp này, kết âm nhạc máy sinh so với nhạc thật kết đủ chất lượng để thuyết phục người chúng sản phẩm sáng tạo người hay khơng Bởi mục đích kiểm định nên phương pháp đưa vào khảo sát để có kết khách quan mơ hình MusicAutobot Kết khảo sát câu hỏi trên: Hình 6.1: Kết phép thử Turing với Track 1, Track 2, Track 3, Track nhạc model DeepJ, Biaxial-LSTM, MusicAutobot sinh Sonata XVI:33 tác giả Franz Joseph Haydn Nhận xét: Những người tham gia khảo sát chọn nhạc người viết với gần 76, 8% Khi so sánh với nhạc cịn lại kết MusicAutobot (43.2%) hoàn toàn vượt qua kết model Biaxual-LSTM [24] (38%) DeepJ [31] (22.2%) việc thuyết phục người nghe độ giống sáng tác người Tuy nhiên nhạc MusicAutobot cịn lẫn số hợp âm chói tai khơng hợp lý khoảng nghỉ kéo dài thông thường dẫn đến người nghe phát nghi vấn tính giống người sáng tác mơ hình CHƯƠNG KIỂM ĐỊNH VÀ ĐÁNH GIÁ 6.3.1.2 70 So sánh kết đầu mơ hình với mơ hình tảng khác Ở câu hỏi thứ 2, nhóm đưa nhạc sinh từ ba mơ hình để người nghe so sánh đánh giá chất lượng nhạc dựa tiêu chí hay hài hoà Người nghe xếp nhạc theo mức độ hay hài hoà dựa quan điểm cảm nhận họ, tương ứng track hay, hài hoà nhất; track hay, hài hoà playlist Dưới kết khảo sát câu hỏi trên: Hình 6.2: Kết so sánh định tính đầu mơ hình tự động sinh nhạc với Track 1, Track 2, Track nhạc model Biaxual-LSTM, MusicAutobot, DeepJ với tiêu chí hay hài hoà Nhận xét: Khi đặt lên bàn cân đánh giá mơ hình, ta thấy kết đánh giá hay hài hịa mơ hình MusicAutobot với 41, 85% Đồng thời, kết nhạc từ mơ hình MusicAutobot nhận lượt lựa chọn hát hài hòa hay hát 6.3.1.3 Đánh giá định tính mơ hình với tiêu chí khác Với câu hỏi thứ 3, người nghe nghe nhạc mơ hình nhóm sinh đánh giá nhạc vừa nghe theo tiêu chí độ hài hịa, độ bắt tai tính cảm xúc giai điệu thang điểm từ 1-5, tương ứng tốt, tệ Và kết khảo sát câu hỏi trên: Nhận xét: Về tổng quan tiêu chí, kết đầu MusicAutobot đạt kết trung bình thang điểm với độ hài hịa 3,41/5, độ bắt tai 3.55/5 tính cảm xúc 3,12/5 Đồng thời 70% người nghe đánh giá tiêu chí từ điểm trở lên với lên đến 84% cho tiêu chí bắt tai giai điệu đầu mơ hình Độ bắt tai tiêu chí nhận số điểm phản hồi tích cực nhất, theo sát độ hài hồ, cho thấy mơ hình tương đối thành cơng việc mơ đặc tính cấu trúc nhạc Bên cạnh đó, tính cảm xúc tiêu chí có số điểm thấp nhất, đồng thời nhận nhiều góp ý cải thiện từ người nghe Đây khơng điểm yếu riêng mơ hình nhóm sử dụng, mà cịn điểm yếu chung CHƯƠNG KIỂM ĐỊNH VÀ ĐÁNH GIÁ 71 Hình 6.3: Kết đánh giá định tính đầu mơ hình nhóm với tiêu chí độ hài hịa, độ bắt tai tính cảm xúc giai điệu thang điểm từ 1-5 hầu hết mơ hình sinh nhạc tại, tính cảm xúc yếu tố trừu tượng, đòi hỏi sáng tạo đặc trưng người 6.3.1.4 Nhận xét chủ quan người nghe Như nhóm đề cập, cá nhân tham gia khảo sát đưa nhận xét chất lượng có tâm kết mơ hình Đồng thời nhóm khảo sát khuyết điểm mơ "chưa cảm nhận tính cảm xúc đa số track", "có khoảng nghỉ đánh đơn nốt kèm theo số hợp âm mà ko có nhạc lí nghe chói tai nên dễ nhận ra", "chưa thấy hài hịa êm dịu", " mắc lỗi cung với quãng, chưa phù hợp với quy chuẩn âm nhạc nên nghe không mượt, phần hợp âm thừa nhiều", Đối với nhận xét nhóm xin ghi nhận tóm gọn lại phần khuyết điểm mơ hình Mơ hình đạt hài hịa tính cảm xúc định nhiên phạm khoảng đoạn sinh chưa thật hợp lý mắc lỗi nhạc lý bản, đồng thời đạt tính cảm xúc giai điệu chưa đủ để làm hài lịng người nghe 6.3.2 Nhóm đối tượng có kiến thức chuyên sâu âm nhạc Nhóm thực gửi kết sinh từ mơ hình đến số cá nhân có kiến thức nhạc lý đào tạo từ nhạc viện, xin phản hồi góp ý kết Nhóm xin trích dẫn phản hồi nhận sau: " Về hình thức âm nhạc, nhạc máy sinh thể tốt từ hình thức Sonata thời kì cổ điển, cấu trúc đoạn phức, đoạn phức, hay hình thức nhỏ tương tự CHƯƠNG KIỂM ĐỊNH VÀ ĐÁNH GIÁ 72 Invention thời kì Baroque thể cách rõ nét Tuyệt vời khơng có lỗi nhịp, nghĩa mặt hình thức, máy học cách tuyệt đối từ nhạc mẫu Phong cách âm nhạc thứ làm tơi bất ngờ máy thể đặc thù nhạc sĩ tượng đài thời kì cổ điển Có thể cảm nhạc âm nhạc Beethoven track (câu hỏi 2), hay Handel track (câu hỏi 1) track (câu hỏi 2), tính triết lí cách viết nhạc đối âm Bach track (câu hỏi 1), cuối nét duyên dáng âm nhạc Mozart, Haydn cảm nhận track (câu hỏi 2) Một vài khuyết điểm: Đôi máy sinh câu nhạc ngắn thời gian nghỉ dài, khiến cho người nghe có đơi chút lạc, kéo dài tiết tấu nốt giữ đoạn nhạc tốt Một điểm đơi có hợp âm chưa thực sẽ, vịng hồ âm, bị pha tạp vài nốt khơng có hợp âm, khiến cho âm nhạc đơi “jazzy” ngồi ý muốn, điều nên khắc phục " TỔNG KẾT Trong chương này, nhóm nêu tổng kết q trình hoàn thiện Luận văn tốt nghiệp, bao gồm kết đạt được, số mặt hạn chế đề tài hướng phát triển tương lai Mục lục 7.1 Các kết đạt 74 7.2 Các hạn chế đề tài 74 7.3 Các hướng phát triển 75 CHƯƠNG TỔNG KẾT 7.1 74 Các kết đạt Sau khoảng thời gian nghiên cứu thực luận văn, nhiều hướng tiếp cận thử nghiệm khác nhau, cơng việc mà nhóm đạt được: • Hiểu thêm kiến thức nhạc lý, kỹ thuật học sâu đại, xử lí ngơn ngữ tự nhiên xử lý định dạng âm chuẩn hóa đại (MIDI) • Tiến hành huấn luyện mơ hình học máy tự tổng hợp âm nhạc • Mơ hình học dạng liệu âm nhạc với tối đa khung nhạc (cơ cho hầu hết nhạc nay) • Tổng hợp đánh giá kết thực hiện, hạn chế mơ hình • Xây dựng ứng dụng hỗ trợ tự sinh âm nhạc cho cá nhân có đam mê hứng thú với âm nhạc • Kết hợp sức mạnh mơ hình Deep Learning đại Attention, Seq2Seq, TransformerXL, vào ứng dụng nhóm • Tổ chức đánh giá chất lượng đầu mô hình thu phản hồi tích cực từ người nghe 7.2 Các hạn chế đề tài Một số hạn chế đề tài phải kể đến như: • Tự sinh âm nhạc lĩnh vực tương đối mẻ nên việc tìm kiếm, tham khảo tài liệu liên quan hạn chế nhiều thời gian để có kiến thức tảng nhạc lý ban đầu • Mơ hình chưa đủ sức để học nhạc hịa âm thính phịng có nhiều khung nhạc với nhiều loại nhạc cụ khác • Khơng có thước đo định lượng cụ thể cho âm nhạc nên khó khăn để đánh giá mơ hình phải phụ thuộc hồn tồn vào đánh giá định tính • Kết mơ hình học sâu đạt hài hòa tính cảm xúc định chưa đủ thuyết phục người nghe có chun mơn sâu rộng CHƯƠNG TỔNG KẾT 7.3 75 Các hướng phát triển Tuy mơ hình ứng dụng nhóm đạt số kết khả quan thành công định, lâu dài cần cải tiến số vấn đề sau: • Cải thiện kết đầu mơ hình với cách tăng liệu huấn luyện tìm cách mở rộng hạn chế số lượng khung nhạc liệu đầu vào • Mở rộng mơ hình sinh âm thể loại âm nhạc đại khác thể loại cổ điển • Phát triển thêm tính ngồi tính hệ thống gợi ý trình viết nhạc, mở rộng số lượng nhạc sở hữu người dùng, • Phát triển ứng dụng di động cho hệ thống nhóm BIBLIOGRAPHY [1] T T H Thu (2012) “Giáo trình mơn lý thuyết âm nhạc bản,” [Online] Available: https://www.slideshare.net/ThinngTnhYu/ly-thuyetamnhaccoban [2] Wikipedia, Hợp âm [Online] Available: https://vi.wikipedia.org/wiki/H%E1% BB%A3p_%C3%A2m [3] ——, Giai điệu [Online] Available: https://vi.wikipedia.org/wiki/Giai_%C4% 91i%E1%BB%87u [4] J Brownlee (2017) “Why one-hot encode data in machine learning?” [Online] Available: https://machinelearningmastery.com/why-one-hot-encode-data-inmachine-learning/ [5] V H Tiệp (2019) “Machine learning bản,” [Online] Available: https://github com/tiepvupsu/ebookMLCB [6] W Koehrsen (2018) “Neural network embeddings explained,” [Online] Available: https: //towardsdatascience.com/neural-network-embeddings-explained-4d028e6f0526 [7] G Novack (2020) “Building a one hot encoding layer with tensorflow,” [Online] Available: https : / / towardsdatascience com / building - a - one - hot - encoding layer-with-tensorflow-f907d686bf39 [8] T Matiisen (2018) “The use of embeddings in openai five,” [Online] Available: https: //neuro.cs.ut.ee/the-use-of-embeddings-in-openai-five/ [9] K G Dan Hendrycks, “Gaussian error linear units (gelus),” 2020 eprint: arXiv:1606 08415 [10] D Britz (2015) “Recurrent neural networks tutorial, part – introduction to rnns,” [Online] Available: http : / / www wildml com / 2015 / 09 / recurrent - neural networks-tutorial-part-1-introduction-to-rnns/ [11] I Sutskever, O Vinyals, and Q V Le, “Application of long short-term memory (lstm) neural network for flood forecasting,” 2019 eprint: https : / / www researchgate net / publication / 334268507 _ Application _ of _ Long _ Short - Term _ Memory _ LSTM_Neural_Network_for_Flood_Forecasting [12] S Amidi, Recurrent neural networks cheatsheet [Online] Available: https://stanford edu/~shervine/teaching/cs-230/cheatsheet-recurrent-neural-networks [13] I Sutskever, O Vinyals, and Q Le, “Sequence to sequence learning with neural networks,” Advances in Neural Information Processing Systems, vol 4, Sep 2014 CHƯƠNG BIBLIOGRAPHY 77 [14] K Cho, B van Merriăenboer, C Gulcehre, F Bougares, H Schwenk, and Y Bengio, “Learning phrase representations using rnn encoder-decoder for statistical machine translation,” Jun 2014 DOI: 10.3115/v1/D14-1179 [15] A Zhang, Z C Lipton, M Li, and A J Smola, “Dive into Deep Learning,” arXiv eprints, arXiv:2106.11342, arXiv:2106.11342, Jun 2021 arXiv: 2106.11342 [cs.LG] [16] A Vaswani, N Shazeer, N Parmar, J Uszkoreit, L Jones, A Gomez, L Kaiser, and I Polosukhin, “Attention is all you need,” Jun 2017 [17] T Mikolov, K Chen, G Corrado, and J Dean, “Efficient estimation of word representations in vector space,” Proceedings of Workshop at ICLR, vol 2013, Jan 2013 [18] T Mikolov, I Sutskever, K Chen, G Corrado, and J Dean, “Distributed representations of words and phrases and their compositionality in: Conference on advances in neural information processing systems,” Distributed Representations of Words and Phrases and Their Compositionality, pp 3111–3119, Jan 2013 [19] J Pennington, R Socher, and C Manning, “Glove: Global vectors for word representation,” EMNLP, vol 14, pp 1532–1543, Jan 2014 DOI: 10.3115/v1/D14-1162 [20] M Peters, M Neumann, M Iyyer, M Gardner, C Clark, K Lee, and L Zettlemoyer, “Deep contextualized word representations,” Feb 2018 [21] S Radford Narasimhan and Sutskever, “Improving language understanding by generative pre-training,” Feb 2018 [22] J Devlin, M.-W Chang, K Lee, and K Toutanova, “Bert: Pre-training of deep bidirectional transformers for language understanding,” Oct 2018 [23] Z Dai, Z Yang, Y Yang, J Carbonell, Q V Le, and R Salakhutdinov, “Transformer-xl: Attentive language models beyond a fixed-length context,” 2019 eprint: arXiv:1901 02860 [24] D D Johnson, “Generating polyphonic music using tied parallel networks,” pp 128– 143, 2017 [25] B L T Sturm (2015) “Recurrent neural networks for folk music teneration,” [Online] Available: https : / / highnoongmt wordpress com / 2015 / 05 / 22 / lisls - stis recurrent-neural-networks-for-folk-music-generation [26] Eck, Douglas, Schmidhuber, and Juergen, “A first look at music composition using lstm recurrent neural networks,” Tech Rep., 2002 [27] Boulanger-Lewandowski, Nicolas, B Y., and P Vincent, “Modeling temporal dependencies in high-dimensional sequences: Application to polyphonic music generation and transcription,” Jun 2012 [28] A Swift, “A brief introduction to midi,” 1997 CHƯƠNG BIBLIOGRAPHY 78 [29] MMA () “Standard midi files (smf) specification,” [Online] Available: https://www midi.org/specifications-old/item/standard-midi-files-smf [30] W Crawford, “Midi and wave: Coping with the language,” 2018 [31] H Mao, T Shin, and G Cottrell, “Deepj: Style-specific music generation,” Jan 2018 CHƯƠNG BIBLIOGRAPHY 79 ... vào mơ hình học sâu Trong đề tài luận văn lần này, nhóm chúng tơi xây dựng mơ hình học sâu ứng dụng vào việc tổng hợp âm nhạc Mơ hình học sâu đưa vào hệ thống để hỗ trợ cho việc soạn nhạc cho người... bày kiến thức tảng sử dụng trình thực luận văn bao gồm lý thuyết nhạc bản, khái niệm thường sử dụng mạng học sâu mô hình học sâu ứng dụng luận văn Mục lục 2.1 Lý thuyết âm nhạc ... 2.1.3 Hợp âm Định nghĩa: hợp âm [2] tạo thành nhiều nốt nhạc vang lên thời điểm theo quy luật sáng tác định Hợp âm thành phần để tạo nhạc cho giai điệu, sử dụng nhiều đệm hát Một số loại hợp âm

Ngày đăng: 03/06/2022, 11:30

Xem thêm:

HÌNH ẢNH LIÊN QUAN

Hình 2.3: MLP với hai hidden layer (Nguồn: [5]). - Tổng hợp âm nhạc sử dụng học sâu
Hình 2.3 MLP với hai hidden layer (Nguồn: [5]) (Trang 24)
Hình 2.4: Các kí hiệu và công thức tính toán trong MLP (Nguồn: [5]). - Tổng hợp âm nhạc sử dụng học sâu
Hình 2.4 Các kí hiệu và công thức tính toán trong MLP (Nguồn: [5]) (Trang 25)
Hình 2.5: Đồ thị hàm Tanh (Nguồn: [5]). - Tổng hợp âm nhạc sử dụng học sâu
Hình 2.5 Đồ thị hàm Tanh (Nguồn: [5]) (Trang 26)
Hình 2.6: Đồ thị hàm Sigmoid (Nguồn: [5]). - Tổng hợp âm nhạc sử dụng học sâu
Hình 2.6 Đồ thị hàm Sigmoid (Nguồn: [5]) (Trang 26)
Hình 2.7: Ví dụ về đầu vào và đầu ra của hàm softmax với 3 lớp (Nguồn: [5]). - Tổng hợp âm nhạc sử dụng học sâu
Hình 2.7 Ví dụ về đầu vào và đầu ra của hàm softmax với 3 lớp (Nguồn: [5]) (Trang 27)
Hình 2.14: Many-to-many RNN loại 2 (Nguồn: [12]). - Tổng hợp âm nhạc sử dụng học sâu
Hình 2.14 Many-to-many RNN loại 2 (Nguồn: [12]) (Trang 31)
Hình 2.15: Kiến trúc của LSTM (Nguồn: [11]). - Tổng hợp âm nhạc sử dụng học sâu
Hình 2.15 Kiến trúc của LSTM (Nguồn: [11]) (Trang 32)
2.6 Mô hình Seq2Seq - Tổng hợp âm nhạc sử dụng học sâu
2.6 Mô hình Seq2Seq (Trang 33)
Hình 2.17: Minh hoạ cơ chế Attention (Nguồn: [15]) - Tổng hợp âm nhạc sử dụng học sâu
Hình 2.17 Minh hoạ cơ chế Attention (Nguồn: [15]) (Trang 35)
2.7.3 Mô hình Seq2Seq áp dụng Cơ chế Attention - Tổng hợp âm nhạc sử dụng học sâu
2.7.3 Mô hình Seq2Seq áp dụng Cơ chế Attention (Trang 36)
Hình 2.19: Minh hoạ kiến trúc Self-Attention (Nguồn: [15]) - Tổng hợp âm nhạc sử dụng học sâu
Hình 2.19 Minh hoạ kiến trúc Self-Attention (Nguồn: [15]) (Trang 37)
Hình 2.21: Minh hoạ kiến trúc Transformer (Nguồn: [15]) - Tổng hợp âm nhạc sử dụng học sâu
Hình 2.21 Minh hoạ kiến trúc Transformer (Nguồn: [15]) (Trang 39)
Hình 2.22: So sánh giữa ELMO, GPT, và BERT. (Nguồn: [15]) - Tổng hợp âm nhạc sử dụng học sâu
Hình 2.22 So sánh giữa ELMO, GPT, và BERT. (Nguồn: [15]) (Trang 42)
Hình 2.23: Embedding của chuỗi đầu vào BERT là tổng các embedding của token, embedding đoạn và embedding vị trí - Tổng hợp âm nhạc sử dụng học sâu
Hình 2.23 Embedding của chuỗi đầu vào BERT là tổng các embedding của token, embedding đoạn và embedding vị trí (Trang 43)
Điểm mới của thiết kế này so với mô hình Transformer truyền thống, là tác giả đã đưa ra cơ chế mở rộng ngữ cảnh (2.6) và sử dụng ngữ cảnh mở rộng này trong việc tính toán các ma trận khoá và giá trị (2.7) - Tổng hợp âm nhạc sử dụng học sâu
i ểm mới của thiết kế này so với mô hình Transformer truyền thống, là tác giả đã đưa ra cơ chế mở rộng ngữ cảnh (2.6) và sử dụng ngữ cảnh mở rộng này trong việc tính toán các ma trận khoá và giá trị (2.7) (Trang 46)
Hình 4.1: Mô hình học sâu CNN (Nguồn: [24]). - Tổng hợp âm nhạc sử dụng học sâu
Hình 4.1 Mô hình học sâu CNN (Nguồn: [24]) (Trang 58)
Hình 4.3: Mô hình học máy LSTM song trục (Nguồn: [24]). - Tổng hợp âm nhạc sử dụng học sâu
Hình 4.3 Mô hình học máy LSTM song trục (Nguồn: [24]) (Trang 59)
4.4.2 Kiến trúc mô hình - Tổng hợp âm nhạc sử dụng học sâu
4.4.2 Kiến trúc mô hình (Trang 67)
4.4.2.2 Mô hình hỗ trợ Seq2Seq - Tổng hợp âm nhạc sử dụng học sâu
4.4.2.2 Mô hình hỗ trợ Seq2Seq (Trang 68)
Hình 4.12: Kiến trúc mô hình Seq2Seq ("dịch" từ giai điệu sang hợp âm) - Tổng hợp âm nhạc sử dụng học sâu
Hình 4.12 Kiến trúc mô hình Seq2Seq ("dịch" từ giai điệu sang hợp âm) (Trang 69)
Hình 4.13: Mô hình lớp encoder kết hợp với phương pháp masked language modeling sử dụng BERT - Tổng hợp âm nhạc sử dụng học sâu
Hình 4.13 Mô hình lớp encoder kết hợp với phương pháp masked language modeling sử dụng BERT (Trang 70)
Cấu hình của mô hình dựa trên cấu hình TransformerXL của fastai và được chỉnh sửa một số thông số: - Tổng hợp âm nhạc sử dụng học sâu
u hình của mô hình dựa trên cấu hình TransformerXL của fastai và được chỉnh sửa một số thông số: (Trang 75)
• Server side bao gồm máy chủ API (Server REST API) và mô hình học sâu tổng hợp nhạc (Model). - Tổng hợp âm nhạc sử dụng học sâu
erver side bao gồm máy chủ API (Server REST API) và mô hình học sâu tổng hợp nhạc (Model) (Trang 76)
Hình 5.1: Kiến trúc tổng thể - Tổng hợp âm nhạc sử dụng học sâu
Hình 5.1 Kiến trúc tổng thể (Trang 76)
Hình 5.3: Kiến trúc vật lý của hệ thống - Tổng hợp âm nhạc sử dụng học sâu
Hình 5.3 Kiến trúc vật lý của hệ thống (Trang 78)
Hình 5.8: Kết quả bài hát được tạo rado server trả về - Tổng hợp âm nhạc sử dụng học sâu
Hình 5.8 Kết quả bài hát được tạo rado server trả về (Trang 80)
Nội dung kiểm thử được mô tả cụ thể ở bảng 6.1 - Tổng hợp âm nhạc sử dụng học sâu
i dung kiểm thử được mô tả cụ thể ở bảng 6.1 (Trang 82)
Bảng 6.2: Bảng kiểm thử các chức năng của hệ thống - Tổng hợp âm nhạc sử dụng học sâu
Bảng 6.2 Bảng kiểm thử các chức năng của hệ thống (Trang 83)
6.3.1.2 So sánh kết quả đầu ra của mô hình với những mô hình nền tảng khác - Tổng hợp âm nhạc sử dụng học sâu
6.3.1.2 So sánh kết quả đầu ra của mô hình với những mô hình nền tảng khác (Trang 85)
Hình 6.3: Kết quả đánh giá định tính đầu ra của mô hình nhóm với 3 tiêu chí độ hài hòa, độ bắt tai và tính cảm xúc của giai điệu trên thang điểm từ 1-5. - Tổng hợp âm nhạc sử dụng học sâu
Hình 6.3 Kết quả đánh giá định tính đầu ra của mô hình nhóm với 3 tiêu chí độ hài hòa, độ bắt tai và tính cảm xúc của giai điệu trên thang điểm từ 1-5 (Trang 86)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN