bản nhạc do model DeepJ, Biaxial-LSTM, MusicAutobot sinh ra và bản Sonata XVI:33 của tác giả Franz Joseph Haydn.
Nhận xét:Những người tham gia khảo sát hầu như đều đã chọn đúng bản nhạc do con người viết với gần76,8%. Khi được so sánh với những bản nhạc cịn lại thì kết quả của MusicAutobot
(43.2%) hoàn toàn vượt qua kết quả 2 model Biaxual-LSTM [24] (38%) và DeepJ [31] (22.2%) trong việc thuyết phục người nghe về độ giống sáng tác của con người của mình. Tuy nhiên trong bản nhạc MusicAutobot vẫn cịn lẫn một số hợp âm chói tai khơng hợp lý và những khoảng nghỉ kéo dài hơn thông thường dẫn đến người nghe phát hiện và nghi vấn tính giống con người sáng tác của mơ hình này.
6.3.1.2 So sánh kết quả đầu ra của mơ hình với những mơ hình nền tảng khác
Ở câu hỏi thứ 2, nhóm cũng đưa ra 3 bản nhạc được sinh ra từ ba mơ hình trên để người nghe có thể so sánh và đánh giá chất lượng của những bản nhạc này dựa trên tiêu chí hay và hài hồ nhất. Người nghe sẽ sắp xếp các bản nhạc trên theo mức độ hay và hài hoà dựa trên quan điểm các cảm nhận của họ, trong đó 1 tương ứng là track hay, hài hoà nhất; 3 là track kém hay, kém hài hoà nhất trong playlist.
Dưới đây là kết quả khảo sát của câu hỏi trên:
Hình 6.2:Kết quả so sánh định tính đầu ra giữa các mơ hình tự động sinh nhạc với Track 1, Track 2, Track 3 lần lượt là các bản nhạc do model Biaxual-LSTM, MusicAutobot, DeepJ với tiêu chí hay và hài hồ nhất.
Nhận xét:Khi được đặt lên bàn cân đánh giá giữa các mơ hình, ta thấy rằng kết quả được đánh giá là hay và hài hịa nhất chính là mơ hình MusicAutobot với41,85%. Đồng thời, kết quả bài
nhạc từ mơ hình MusicAutobot cũng nhận được ít nhất lượt lựa chọn là bài hát kém hài hòa và hay trong 3 bài hát.
6.3.1.3 Đánh giá định tính mơ hình với các tiêu chí khác nhau
Với câu hỏi thứ 3, người nghe sẽ nghe một bản nhạc do mơ hình nhóm sinh ra và đánh giá bản nhạc vừa nghe theo 3 tiêu chí độ hài hịa, độ bắt tai và tính cảm xúc của giai điệu trên thang điểm từ 1-5, tương ứng 5 là rất tốt, và 1 là rất tệ. Và đây là kết quả khảo sát của câu hỏi trên:
Nhận xét:Về tổng quan về 3 tiêu chí, kết quả đầu ra của MusicAutobot đều đạt kết quả trên trung bình trên thang điểm 5 với độ hài hịa 3,41/5, độ bắt tai 3.55/5 và tính cảm xúc 3,12/5. Đồng thời hơn 70% người nghe đều đánh giá lần lượt 3 tiêu chí từ điểm 3 trở lên với lên đến 84% cho tiêu chí bắt tai của giai điệu của đầu ra mơ hình. Độ bắt tai là tiêu chí nhận được số điểm phản hồi tích cực nhất, theo sát là độ hài hồ, cho thấy mơ hình đã tương đối thành cơng trong việc mơ phỏng các đặc tính và cấu trúc của bài nhạc. Bên cạnh đó, tính cảm xúc là tiêu chí có số điểm thấp nhất, đồng thời cũng nhận được nhiều góp ý cải thiện nhất từ người nghe. Đây không chỉ là điểm yếu riêng của mơ hình nhóm sử dụng, mà nó cịn là điểm yếu chung của
Hình 6.3:Kết quả đánh giá định tính đầu ra của mơ hình nhóm với 3 tiêu chí độ hài hịa, độ bắttai và tính cảm xúc của giai điệu trên thang điểm từ 1-5. tai và tính cảm xúc của giai điệu trên thang điểm từ 1-5.
hầu hết các mơ hình sinh nhạc hiện tại, vì tính cảm xúc là một yếu tố trừu tượng, đòi hỏi sự sáng tạo đặc trưng của con người.
6.3.1.4 Nhận xét chủ quan của người nghe
Như nhóm đã đề cập, các cá nhân tham gia khảo sát đã đưa ra những nhận xét chất lượng và có tâm về kết quả của mơ hình. Đồng thời nhóm khảo sát này cũng đã chỉ ra được rất khuyết điểm của mơ hình như "chưa cảm nhận được tính cảm xúc trong đa số các track", "có những khoảng nghỉ đánh đơn nốt kèm theo 1 số hợp âm mà ko có trong nhạc lí nghe chói tai nên dễ nhận ra", "chưa thấy hài hòa êm dịu", " mắc lỗi cung với quãng, chưa phù hợp với quy chuẩn trong âm nhạc nên nghe không mượt, hơn nữa phần hợp âm thừa cũng hơi nhiều", ...
Đối với những nhận xét trên nhóm xin ghi nhận và tóm gọn lại về phần khuyết điểm của mơ hình. Mơ hình tuy đã đạt được sự hài hịa và tính cảm xúc nhất định tuy nhiên vẫn cịn phạm những khoảng đoạn khi được sinh ra chưa thật sự hợp lý và mắc lỗi nhạc lý cơ bản, đồng thời tuy đã đạt được tính cảm xúc trong giai điệu nhưng vẫn chưa đủ để làm hài lịng những người nghe.
6.3.2 Nhóm đối tượng có kiến thức chuyên sâu về âm nhạc
Nhóm thực hiện gửi kết quả sinh được từ mơ hình đến một số cá nhân có kiến thức nhạc lý được đào tạo từ nhạc viện, xin phản hồi và góp ý về kết quả. Nhóm xin trích dẫn một phản hồi nhận được như sau:
"...Về hình thức âm nhạc, các bản nhạc do máy sinh ra thể hiện rất tốt từ các hình thức Sonata thời kì cổ điển, cấu trúc 3 đoạn phức, 4 đoạn phức, hay hình thức nhỏ hơn tương tự như trong
các bản Invention thời kì Baroque được thể hiện một cách rõ nét. Tuyệt vời hơn là khơng có bất kì lỗi nào về nhịp, nghĩa là về mặt hình thức, máy có thể học một cách tuyệt đối từ nhạc mẫu. Phong cách âm nhạc là thứ làm tơi bất ngờ khi máy có thể thể hiện được sự đặc thù của những nhạc sĩ tượng đài trong thời kì cổ điển. Có thể cảm nhạc được âm nhạc Beethoven trong track 1 (câu hỏi 2), hay Handel trong track 1 (câu hỏi 1) và track 2 (câu hỏi 2), tính triết lí cũng như cách viết nhạc đối âm của Bach trong track 3 (câu hỏi 1), cuối cùng là nét duyên dáng của âm nhạc Mozart, Haydn cảm nhận được trong track 3 (câu hỏi 2).
Một vài khuyết điểm: Đôi khi máy sinh ra những câu nhạc rất ngắn và thời gian nghỉ rất dài, khiến cho người nghe có đơi chút lạc, nếu có thể kéo dài tiết tấu của những nốt giữ của đoạn nhạc này sẽ tốt hơn. Một điểm nữa là đơi khi có những hợp âm chưa thực sự sạch sẽ, mặc dù cơ bản vẫn đi đúng vịng hồ âm, nhưng bị pha tạp một vài nốt khơng có trong hợp âm, khiến cho âm nhạc đơi khi “jazzy” ngồi ý muốn, đây cũng là điều nên được khắc phục..."
7
TỔNG KẾT
Trong chương này, nhóm nêu ra những tổng kết trong q trình hồn thiện Luận văn tốt nghiệp, bao gồm các kết quả đã đạt được, một số mặt hạn chế của đề tài và hướng phát triển trong tương lai.
Mục lục
7.1 Các kết quả đạt được . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
7.2 Các hạn chế của đề tài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
7.1 Các kết quả đạt được
Sau khoảng thời gian nghiên cứu và hiện thực luận văn, trên nhiều hướng tiếp cận và thử nghiệm khác nhau, những cơng việc mà nhóm đã đạt được:
• Hiểu thêm về kiến thức nhạc lý, các kỹ thuật học sâu hiện đại, xử lí ngơn ngữ tự nhiên và xử lý định dạng âm thanh chuẩn hóa hiện đại (MIDI).
• Tiến hành huấn luyện các mơ hình học máy có thể tự tổng hợp âm nhạc.
• Mơ hình đã có thể học được những dạng dữ liệu âm nhạc với tối đa 2 khung nhạc (cơ bản cho hầu hết các bản nhạc hiện nay).
• Tổng hợp và đánh giá kết quả thực hiện, chỉ ra những hạn chế của mơ hình hiện tại.
• Xây dựng được một ứng dụng hỗ trợ tự sinh âm nhạc cho những cá nhân có đam mê và hứng thú với âm nhạc.
• Kết hợp sức mạnh của các mơ hình Deep Learning hiện đại như Attention, Seq2Seq, TransformerXL, ... vào ứng dụng của nhóm.
• Tổ chức đánh giá chất lượng đầu ra của mơ hình và thu được phản hồi tích cực từ người nghe.
7.2 Các hạn chế của đề tài
Một số hạn chế của đề tài phải kể đến như:
• Tự sinh âm nhạc là một lĩnh vực tương đối mới mẻ nên việc tìm kiếm, tham khảo các tài liệu liên quan còn hạn chế và mất nhiều thời gian để có những kiến thức nền tảng nhạc lý ban đầu.
• Mơ hình vẫn chưa đủ sức để học được những bản nhạc hịa âm thính phịng có nhiều hơn 2 khung nhạc với nhiều loại nhạc cụ khác nhau.
• Khơng có một thước đo định lượng cụ thể nào cho âm nhạc nên khó khăn để đánh giá mơ hình phải phụ thuộc hồn tồn vào bản đánh giá định tính.
• Kết quả mơ hình học sâu tuy đã đạt được sự hài hịa và tính cảm xúc nhất định nhưng vẫn chưa đủ thuyết phục những người nghe có chun mơn sâu rộng.
7.3 Các hướng phát triển
Tuy mơ hình và ứng dụng của nhóm đã đạt được một số kết quả khả quan và thành công nhất định, nhưng về lâu về dài cần cải tiến một số vấn đề sau:
• Cải thiện kết quả đầu ra của mơ hình với bằng cách tăng dữ liệu huấn luyện và tìm cách mở rộng hạn chế số lượng khung nhạc của dữ liệu đầu vào.
• Mở rộng mơ hình sinh âm các thể loại âm nhạc hiện đại khác ngoài thể loại cổ điển hiện tại.
• Phát triển thêm các tính năng ngồi những tính năng cơ bản hiện tại của hệ thống như gợi ý trong quá trình viết nhạc, mở rộng số lượng bản nhạc sở hữu của 1 người dùng, ...
[1] T. T. H. Thu. (2012). “Giáo trình mơn lý thuyết âm nhạc cơ bản,” [Online]. Available:
https://www.slideshare.net/ThinngTnhYu/ly-thuyetamnhaccoban.
[2] Wikipedia,Hợp âm. [Online]. Available:https://vi.wikipedia.org/wiki/H%E1% BB%A3p_%C3%A2m.
[3] ——,Giai điệu. [Online]. Available:https://vi.wikipedia.org/wiki/Giai_%C4% 91i%E1%BB%87u.
[4] J. Brownlee. (2017). “Why one-hot encode data in machine learning?” [Online]. Avail- able:https://machinelearningmastery.com/why-one-hot-encode-data-in- machine-learning/.
[5] V. H. Tiệp. (2019). “Machine learning cơ bản,” [Online]. Available:https://github. com/tiepvupsu/ebookMLCB.
[6] W. Koehrsen. (2018). “Neural network embeddings explained,” [Online]. Available:https: //towardsdatascience.com/neural-network-embeddings-explained-4d028e6f0526.
[7] G. Novack. (2020). “Building a one hot encoding layer with tensorflow,” [Online]. Avail- able: https : / / towardsdatascience . com / building - a - one - hot - encoding - layer-with-tensorflow-f907d686bf39.
[8] T. Matiisen. (2018). “The use of embeddings in openai five,” [Online]. Available:https: //neuro.cs.ut.ee/the-use-of-embeddings-in-openai-five/.
[9] K. G. Dan Hendrycks, “Gaussian error linear units (gelus),” 2020. eprint:arXiv:1606.
08415.
[10] D. Britz. (2015). “Recurrent neural networks tutorial, part 1 – introduction to rnns,” [Online]. Available: http : / / www . wildml . com / 2015 / 09 / recurrent - neural - networks-tutorial-part-1-introduction-to-rnns/.
[11] I. Sutskever, O. Vinyals, and Q. V. Le, “Application of long short-term memory (lstm) neural network for flood forecasting,” 2019. eprint: https : / / www . researchgate . net / publication / 334268507 _ Application _ of _ Long _ Short - Term _ Memory _ LSTM_Neural_Network_for_Flood_Forecasting.
[12] S. Amidi,Recurrent neural networks cheatsheet. [Online]. Available:https://stanford. edu/~shervine/teaching/cs-230/cheatsheet-recurrent-neural-networks.
[13] I. Sutskever, O. Vinyals, and Q. Le, “Sequence to sequence learning with neural net- works,”Advances in Neural Information Processing Systems, vol. 4, Sep. 2014.
[14] K. Cho, B. van Merriăenboer, C. Gulcehre, F. Bougares, H. Schwenk, and Y. Bengio, “Learning phrase representations using rnn encoder-decoder for statistical machine trans- lation,” Jun. 2014.DOI:10.3115/v1/D14-1179.
[15] A. Zhang, Z. C. Lipton, M. Li, and A. J. Smola, “Dive into Deep Learning,”arXiv e- prints, arXiv:2106.11342, arXiv:2106.11342, Jun. 2021. arXiv:2106.11342 [cs.LG]. [16] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. Gomez, L. Kaiser, and I.
Polosukhin, “Attention is all you need,” Jun. 2017.
[17] T. Mikolov, K. Chen, G. Corrado, and J. Dean, “Efficient estimation of word representa- tions in vector space,”Proceedings of Workshop at ICLR, vol. 2013, Jan. 2013.
[18] T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean, “Distributed representations of words and phrases and their compositionality. in: Conference on advances in neural information processing systems,”Distributed Representations of Words and Phrases and Their Compositionality, pp. 3111–3119, Jan. 2013.
[19] J. Pennington, R. Socher, and C. Manning, “Glove: Global vectors for word representa- tion,”EMNLP, vol. 14, pp. 1532–1543, Jan. 2014.DOI:10.3115/v1/D14-1162.
[20] M. Peters, M. Neumann, M. Iyyer, M. Gardner, C. Clark, K. Lee, and L. Zettlemoyer, “Deep contextualized word representations,” Feb. 2018.
[21] S. Radford Narasimhan and Sutskever, “Improving language understanding by generative pre-training,” Feb. 2018.
[22] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “Bert: Pre-training of deep bidirec- tional transformers for language understanding,” Oct. 2018.
[23] Z. Dai, Z. Yang, Y. Yang, J. Carbonell, Q. V. Le, and R. Salakhutdinov, “Transformer-xl: Attentive language models beyond a fixed-length context,” 2019. eprint: arXiv:1901. 02860.
[24] D. D. Johnson, “Generating polyphonic music using tied parallel networks,” pp. 128– 143, 2017.
[25] B. L. T. Sturm. (2015). “Recurrent neural networks for folk music teneration,” [Online]. Available: https : / / highnoongmt . wordpress . com / 2015 / 05 / 22 / lisls - stis - recurrent-neural-networks-for-folk-music-generation.
[26] Eck, Douglas, Schmidhuber, and Juergen, “A first look at music composition using lstm recurrent neural networks,” Tech. Rep., 2002.
[27] Boulanger-Lewandowski, Nicolas, B. Y., and P. Vincent, “Modeling temporal depen- dencies in high-dimensional sequences: Application to polyphonic music generation and transcription,” Jun. 2012.
[29] MMA. (). “Standard midi files (smf) specification,” [Online]. Available:https://www. midi.org/specifications-old/item/standard-midi-files-smf.
[30] W. Crawford, “Midi and wave: Coping with the language,” 2018.