Kết quả của phép thử Turing

bản nhạc do model DeepJ, Biaxial-LSTM, MusicAutobot sinh ra và bản Sonata XVI:33 của tác giả Franz Joseph Haydn.

Nhận xét:Những người tham gia khảo sát hầu như đều đã chọn đúng bản nhạc do con người viết với gần76,8%. Khi được so sánh với những bản nhạc còn lại thì kết quả của MusicAutobot (43.2%) hoàn toàn vượt qua kết quả 2 model Biaxual-LSTM [24] (38%) và DeepJ [31] (22.2%) trong việc thuyết phục người nghe về độ giống sáng tác của con người của mình. Tuy nhiên trong bản nhạc MusicAutobot vẫn còn lẫn một số hợp âm chói tai không hợp lý và những khoảng nghỉ kéo dài hơn thông thường dẫn đến người nghe phát hiện và nghi vấn tính giống con người sáng tác của mô hình này.

6.3.1.2 So sánh kết quả đầu ra của mô hình với những mô hình nền tảng khác

Ở câu hỏi thứ 2, nhóm cũng đưa ra 3 bản nhạc được sinh ra từ ba mô hình trên để người nghe có thể so sánh và đánh giá chất lượng của những bản nhạc này dựa trên tiêu chí hay và hài hoà nhất. Người nghe sẽ sắp xếp các bản nhạc trên theo mức độ hay và hài hoà dựa trên quan điểm các cảm nhận của họ, trong đó 1 tương ứng là track hay, hài hoà nhất; 3 là track kém hay, kém hài hoà nhất trong playlist.

Dưới đây là kết quả khảo sát của câu hỏi trên:

Hình 6.2:Kết quả so sánh định tính đầu ra giữa các mô hình tự động sinh nhạc với Track 1, Track 2, Track 3 lần lượt là các bản nhạc do model Biaxual-LSTM, MusicAutobot, DeepJ với tiêu chí hay và hài hoà nhất.

Nhận xét:Khi được đặt lên bàn cân đánh giá giữa các mô hình, ta thấy rằng kết quả được đánh giá là hay và hài hòa nhất chính là mô hình MusicAutobot với41,85%. Đồng thời, kết quả bài nhạc từ mô hình MusicAutobot cũng nhận được ít nhất lượt lựa chọn là bài hát kém hài hòa và hay trong 3 bài hát.

6.3.1.3 Đánh giá định tính mô hình với các tiêu chí khác nhau

Với câu hỏi thứ 3, người nghe sẽ nghe một bản nhạc do mô hình nhóm sinh ra và đánh giá bản nhạc vừa nghe theo 3 tiêu chí độ hài hòa, độ bắt tai và tính cảm xúc của giai điệu trên thang điểm từ 1-5, tương ứng 5 là rất tốt, và 1 là rất tệ. Và đây là kết quả khảo sát của câu hỏi trên:

Nhận xét:Về tổng quan về 3 tiêu chí, kết quả đầu ra của MusicAutobot đều đạt kết quả trên trung bình trên thang điểm 5 với độ hài hòa 3,41/5, độ bắt tai 3.55/5 và tính cảm xúc 3,12/5. Đồng thời hơn 70% người nghe đều đánh giá lần lượt 3 tiêu chí từ điểm 3 trở lên với lên đến 84% cho tiêu chí bắt tai của giai điệu của đầu ra mô hình. Độ bắt tai là tiêu chí nhận được số điểm phản hồi tích cực nhất, theo sát là độ hài hoà, cho thấy mô hình đã tương đối thành công trong việc mô phỏng các đặc tính và cấu trúc của bài nhạc. Bên cạnh đó, tính cảm xúc là tiêu chí có số điểm thấp nhất, đồng thời cũng nhận được nhiều góp ý cải thiện nhất từ người nghe. Đây không chỉ là điểm yếu riêng của mô hình nhóm sử dụng, mà nó còn là điểm yếu chung của

Hình 6.3:Kết quả đánh giá định tính đầu ra của mô hình nhóm với 3 tiêu chí độ hài hòa, độ bắttai và tính cảm xúc của giai điệu trên thang điểm từ 1-5. tai và tính cảm xúc của giai điệu trên thang điểm từ 1-5.

hầu hết các mô hình sinh nhạc hiện tại, vì tính cảm xúc là một yếu tố trừu tượng, đòi hỏi sự sáng tạo đặc trưng của con người.

6.3.1.4 Nhận xét chủ quan của người nghe

Như nhóm đã đề cập, các cá nhân tham gia khảo sát đã đưa ra những nhận xét chất lượng và có tâm về kết quả của mô hình. Đồng thời nhóm khảo sát này cũng đã chỉ ra được rất khuyết điểm của mô hình như "chưa cảm nhận được tính cảm xúc trong đa số các track", "có những khoảng nghỉ đánh đơn nốt kèm theo 1 số hợp âm mà ko có trong nhạc lí nghe chói tai nên dễ nhận ra", "chưa thấy hài hòa êm dịu", " mắc lỗi cung với quãng, chưa phù hợp với quy chuẩn trong âm nhạc nên nghe không mượt, hơn nữa phần hợp âm thừa cũng hơi nhiều", ...

Đối với những nhận xét trên nhóm xin ghi nhận và tóm gọn lại về phần khuyết điểm của mô hình. Mô hình tuy đã đạt được sự hài hòa và tính cảm xúc nhất định tuy nhiên vẫn còn phạm những khoảng đoạn khi được sinh ra chưa thật sự hợp lý và mắc lỗi nhạc lý cơ bản, đồng thời tuy đã đạt được tính cảm xúc trong giai điệu nhưng vẫn chưa đủ để làm hài lòng những người nghe.

6.3.2 Nhóm đối tượng có kiến thức chuyên sâu về âm nhạc

Nhóm thực hiện gửi kết quả sinh được từ mô hình đến một số cá nhân có kiến thức nhạc lý được đào tạo từ nhạc viện, xin phản hồi và góp ý về kết quả. Nhóm xin trích dẫn một phản hồi nhận được như sau:

"...Về hình thức âm nhạc, các bản nhạc do máy sinh ra thể hiện rất tốt từ các hình thức Sonata thời kì cổ điển, cấu trúc 3 đoạn phức, 4 đoạn phức, hay hình thức nhỏ hơn tương tự như trong

các bản Invention thời kì Baroque được thể hiện một cách rõ nét. Tuyệt vời hơn là không có bất kì lỗi nào về nhịp, nghĩa là về mặt hình thức, máy có thể học một cách tuyệt đối từ nhạc mẫu. Phong cách âm nhạc là thứ làm tôi bất ngờ khi máy có thể thể hiện được sự đặc thù của những nhạc sĩ tượng đài trong thời kì cổ điển. Có thể cảm nhạc được âm nhạc Beethoven trong track 1 (câu hỏi 2), hay Handel trong track 1 (câu hỏi 1) và track 2 (câu hỏi 2), tính triết lí cũng như cách viết nhạc đối âm của Bach trong track 3 (câu hỏi 1), cuối cùng là nét duyên dáng của âm nhạc Mozart, Haydn cảm nhận được trong track 3 (câu hỏi 2).

Một vài khuyết điểm: Đôi khi máy sinh ra những câu nhạc rất ngắn và thời gian nghỉ rất dài, khiến cho người nghe có đôi chút lạc, nếu có thể kéo dài tiết tấu của những nốt giữ của đoạn nhạc này sẽ tốt hơn. Một điểm nữa là đôi khi có những hợp âm chưa thực sự sạch sẽ, mặc dù cơ bản vẫn đi đúng vòng hoà âm, nhưng bị pha tạp một vài nốt không có trong hợp âm, khiến cho âm nhạc đôi khi “jazzy” ngoài ý muốn, đây cũng là điều nên được khắc phục..."

TỔNG KẾT

Trong chương này, nhóm nêu ra những tổng kết trong quá trình hoàn thiện Luận văn tốt nghiệp, bao gồm các kết quả đã đạt được, một số mặt hạn chế của đề tài và hướng phát triển trong tương lai.

Mục lục

7.1 Các kết quả đạt được . . . 74

7.2 Các hạn chế của đề tài . . . 74

7.1 Các kết quả đạt được

Sau khoảng thời gian nghiên cứu và hiện thực luận văn, trên nhiều hướng tiếp cận và thử nghiệm khác nhau, những công việc mà nhóm đã đạt được:

• Hiểu thêm về kiến thức nhạc lý, các kỹ thuật học sâu hiện đại, xử lí ngôn ngữ tự nhiên và xử lý định dạng âm thanh chuẩn hóa hiện đại (MIDI).

• Tiến hành huấn luyện các mô hình học máy có thể tự tổng hợp âm nhạc.

• Mô hình đã có thể học được những dạng dữ liệu âm nhạc với tối đa 2 khung nhạc (cơ bản cho hầu hết các bản nhạc hiện nay).

• Tổng hợp và đánh giá kết quả thực hiện, chỉ ra những hạn chế của mô hình hiện tại.

• Xây dựng được một ứng dụng hỗ trợ tự sinh âm nhạc cho những cá nhân có đam mê và hứng thú với âm nhạc.

• Kết hợp sức mạnh của các mô hình Deep Learning hiện đại như Attention, Seq2Seq, TransformerXL, ... vào ứng dụng của nhóm.

• Tổ chức đánh giá chất lượng đầu ra của mô hình và thu được phản hồi tích cực từ người nghe.

7.2 Các hạn chế của đề tài

Một số hạn chế của đề tài phải kể đến như:

• Tự sinh âm nhạc là một lĩnh vực tương đối mới mẻ nên việc tìm kiếm, tham khảo các tài liệu liên quan còn hạn chế và mất nhiều thời gian để có những kiến thức nền tảng nhạc lý ban đầu.

• Mô hình vẫn chưa đủ sức để học được những bản nhạc hòa âm thính phòng có nhiều hơn 2 khung nhạc với nhiều loại nhạc cụ khác nhau.

• Không có một thước đo định lượng cụ thể nào cho âm nhạc nên khó khăn để đánh giá mô hình phải phụ thuộc hoàn toàn vào bản đánh giá định tính.

• Kết quả mô hình học sâu tuy đã đạt được sự hài hòa và tính cảm xúc nhất định nhưng vẫn chưa đủ thuyết phục những người nghe có chuyên môn sâu rộng.

7.3 Các hướng phát triển

Tuy mô hình và ứng dụng của nhóm đã đạt được một số kết quả khả quan và thành công nhất định, nhưng về lâu về dài cần cải tiến một số vấn đề sau:

• Cải thiện kết quả đầu ra của mô hình với bằng cách tăng dữ liệu huấn luyện và tìm cách mở rộng hạn chế số lượng khung nhạc của dữ liệu đầu vào.

• Mở rộng mô hình sinh âm các thể loại âm nhạc hiện đại khác ngoài thể loại cổ điển hiện tại.

• Phát triển thêm các tính năng ngoài những tính năng cơ bản hiện tại của hệ thống như gợi ý trong quá trình viết nhạc, mở rộng số lượng bản nhạc sở hữu của 1 người dùng, ...

[1] T. T. H. Thu. (2012). “Giáo trình môn lý thuyết âm nhạc cơ bản,” [Online]. Available:

https://www.slideshare.net/ThinngTnhYu/ly-thuyetamnhaccoban.

[2] Wikipedia,Hợp âm. [Online]. Available:https://vi.wikipedia.org/wiki/H%E1% BB%A3p_%C3%A2m.

[3] ——,Giai điệu. [Online]. Available:https://vi.wikipedia.org/wiki/Giai_%C4% 91i%E1%BB%87u.

[4] J. Brownlee. (2017). “Why one-hot encode data in machine learning?” [Online]. Avail- able:https://machinelearningmastery.com/why-one-hot-encode-data-in- machine-learning/.

[5] V. H. Tiệp. (2019). “Machine learning cơ bản,” [Online]. Available:https://github. com/tiepvupsu/ebookMLCB.

[6] W. Koehrsen. (2018). “Neural network embeddings explained,” [Online]. Available:https: //towardsdatascience.com/neural-network-embeddings-explained-4d028e6f0526. [7] G. Novack. (2020). “Building a one hot encoding layer with tensorflow,” [Online]. Avail-

able: https : / / towardsdatascience . com / building - a - one - hot - encoding - layer-with-tensorflow-f907d686bf39.

[8] T. Matiisen. (2018). “The use of embeddings in openai five,” [Online]. Available:https: //neuro.cs.ut.ee/the-use-of-embeddings-in-openai-five/.

[9] K. G. Dan Hendrycks, “Gaussian error linear units (gelus),” 2020. eprint:arXiv:1606.

08415.

[10] D. Britz. (2015). “Recurrent neural networks tutorial, part 1 – introduction to rnns,” [Online]. Available: http : / / www . wildml . com / 2015 / 09 / recurrent - neural - networks-tutorial-part-1-introduction-to-rnns/.

[11] I. Sutskever, O. Vinyals, and Q. V. Le, “Application of long short-term memory (lstm) neural network for flood forecasting,” 2019. eprint: https : / / www . researchgate . net / publication / 334268507 _ Application _ of _ Long _ Short - Term _ Memory _ LSTM_Neural_Network_for_Flood_Forecasting.

[12] S. Amidi,Recurrent neural networks cheatsheet. [Online]. Available:https://stanford. edu/~shervine/teaching/cs-230/cheatsheet-recurrent-neural-networks. [13] I. Sutskever, O. Vinyals, and Q. Le, “Sequence to sequence learning with neural net-

[14] K. Cho, B. van Merri¨enboer, C. Gulcehre, F. Bougares, H. Schwenk, and Y. Bengio, “Learning phrase representations using rnn encoder-decoder for statistical machine trans- lation,” Jun. 2014.DOI:10.3115/v1/D14-1179.

[15] A. Zhang, Z. C. Lipton, M. Li, and A. J. Smola, “Dive into Deep Learning,”arXiv e- prints, arXiv:2106.11342, arXiv:2106.11342, Jun. 2021. arXiv:2106.11342 [cs.LG]. [16] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. Gomez, L. Kaiser, and I.

Polosukhin, “Attention is all you need,” Jun. 2017.

[17] T. Mikolov, K. Chen, G. Corrado, and J. Dean, “Efficient estimation of word representations in vector space,”Proceedings of Workshop at ICLR, vol. 2013, Jan. 2013.

[18] T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean, “Distributed representations of words and phrases and their compositionality. in: Conference on advances in neural information processing systems,”Distributed Representations of Words and Phrases and Their Compositionality, pp. 3111–3119, Jan. 2013.

[19] J. Pennington, R. Socher, and C. Manning, “Glove: Global vectors for word representa- tion,”EMNLP, vol. 14, pp. 1532–1543, Jan. 2014.DOI:10.3115/v1/D14-1162.

[20] M. Peters, M. Neumann, M. Iyyer, M. Gardner, C. Clark, K. Lee, and L. Zettlemoyer, “Deep contextualized word representations,” Feb. 2018.

[21] S. Radford Narasimhan and Sutskever, “Improving language understanding by generative pre-training,” Feb. 2018.

[22] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “Bert: Pre-training of deep bidirec- tional transformers for language understanding,” Oct. 2018.

[23] Z. Dai, Z. Yang, Y. Yang, J. Carbonell, Q. V. Le, and R. Salakhutdinov, “Transformer-xl: Attentive language models beyond a fixed-length context,” 2019. eprint: arXiv:1901. 02860.

[24] D. D. Johnson, “Generating polyphonic music using tied parallel networks,” pp. 128– 143, 2017.

[25] B. L. T. Sturm. (2015). “Recurrent neural networks for folk music teneration,” [Online]. Available: https : / / highnoongmt . wordpress . com / 2015 / 05 / 22 / lisls - stis - recurrent-neural-networks-for-folk-music-generation.

[26] Eck, Douglas, Schmidhuber, and Juergen, “A first look at music composition using lstm recurrent neural networks,” Tech. Rep., 2002.

[27] Boulanger-Lewandowski, Nicolas, B. Y., and P. Vincent, “Modeling temporal depen- dencies in high-dimensional sequences: Application to polyphonic music generation and transcription,” Jun. 2012.

[29] MMA. (). “Standard midi files (smf) specification,” [Online]. Available:https://www. midi.org/specifications-old/item/standard-midi-files-smf.

[30] W. Crawford, “Midi and wave: Coping with the language,” 2018.

Mơ hình mạng Recurrent Neural Networks

Minh hoạ mơ hình Multihead-attention