Sáng tác nhạc tự động sử dụng máy học

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN ĐỨC THUẬN SÁNG TÁC NHẠC TỰ ĐỘNG SỬ DỤNG MÁY HỌC Chuyên ngành: Kỹ Thuật Viễn Thông Mã số: 8520208 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng năm 2023 Cơng trình hồn thành tại: Trường Đại Học Bách Khoa –ĐHQG -HCM Cán hướng dẫn khoa học : TS Võ Tuấn Kiệt Cán chấm nhận xét : PGS.TS Võ Nguyễn Quốc Bảo Cán chấm nhận xét : PGS.TS Đỗ Hồng Tuấn Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 10 tháng 01 năm 2023 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: Chủ tịch Hội đồng: GS.TS Lê Tiến Thường Thư ký Hội đồng: PGS.TS Hà Hoàng Kha Phản biện 1: PGS.TS Võ Nguyễn Quốc Bảo Phản biện 2: PGS.TS Đỗ Hồng Tuấn Ủy viên: TS Huỳnh Thế Thiện Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG GS.TS Lê Tiến Thường TRƯỞNG KHOA ĐIỆN-ĐIỆN TỬ ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: NGUYỄN ĐỨC THUẬN MSHV: 1970669 Ngày, tháng, năm sinh: 11/11/1995 Nơi sinh: Đồng Nai Chuyên ngành: Kỹ thuật Viễn thông Mã số : 8520208 TÊN ĐỀ TÀI (Tiếng Việt Tiếng Anh): Tên Tiếng Việt: Sáng tác nhạc tự động sử dụng máy học Tên Tiếng Anh: Music generation using machine learning NHIỆM VỤ VÀ NỘI DUNG: - Tìm hiểu, khảo sát tín hiệu âm nhạc - Xây dựng giải thuật máy học để tự động tạo nhạc - Xây dựng phần mềm tạo nhạc sử dụng máy học đánh giá kết NGÀY GIAO NHIỆM VỤ : 05/09/2022 NGÀY HOÀN THÀNH NHIỆM VỤ: 18/12/2022 CÁN BỘ HƯỚNG DẪN : TS VÕ TUẤN KIỆT Tp HCM, ngày 22 tháng 06 năm 2022 CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên chữ ký) (Họ tên chữ ký) TRƯỞNG KHOA ĐIỆN-ĐIỆN TỬ (Họ tên chữ ký) Sáng tác nhạc tự động sử dụng máy học _ LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời cảm ơn chân thành sâu sắc đến thầy Võ Tuấn Kiệt người tận tình bảo hướng dẫn em suốt trình thực đề cương luận văn Thầy giúp đỡ, dạy bảo em không mặt kiến thức, mà kỹ để học tập làm việc Đó học, kinh nghiệm quý báu đồng hành em suốt chặng đường học tập, nghiên cứu làm việc sau Em xin gửi lời cảm ơn đến thầy cô giáo trường Đại học Bách Khoa TPHCM giảng dạy, truyền đạt cho em kiến thức tốt nhất, kỹ sống Đó tảng để em vững bước chặng đường sau Cuối em xin gửi lời cảm ơn tới bố mẹ, gia đình, bạn bè, người ln bên cạnh em hoàn cảnh, tạo cho em điều kiện tốt để em phát huy, tìm hiểu đam mê, sở thích lĩnh vực Tp Hồ Chí Minh, ngày 15 tháng năm 2022 Học viên Nguyễn Đức Thuận Lời cảm ơn iv HV: Nguyễn Đức Thuận Sáng tác nhạc tự động sử dụng máy học _ TÓM TẮT Máy học gần trở thành lĩnh vực phát triển nhanh chóng sử dụng thường xuyên cho nhiệm vụ phân loại dự đoán, chẳng hạn nhận dạng hình ảnh, nhận dạng giọng nói dịch thuật Nhưng lĩnh vực ngày quan tâm việc ứng dụng kỹ thuật máy học việc tạo nội dung Nội dung thuộc nhiều loại: hình ảnh, văn âm nhạc Trong nội dung luận văn, kết hợp ứng dụng mạng Autoencoder mạng Transformer để tạo nhạc Ban đầu sử dụng mạng Autoencoder để tạo ý tưởng cho nhạc sau đưa ý tưởng vào mạng đặc biệt gồm hai mạng Transformer tương ứng với giải mã mã hóa đặt số vịng lặp định để biến đổi ý tưởng thành chuỗi thống mặt nội dung Cuối chuỗi đưa qua mạng Transformer training để tạo phần lại nhạc sau chúng chuyển thành nhạc piano dạng file midi Kết đánh giá người có chun mơn âm nhạc _ Tóm tắt v HV: Nguyễn Đức Thuận Sáng tác nhạc tự động sử dụng máy học _ ABSTRACT Machine Machine learning has recently become a rapidly evolving field and is now frequently used for classification and prediction tasks, such as image recognition, speech recognition, or translation But one area of growing interest in the application of machine learning techniques is content creation Content can be of many types: images, text, and music In the content of the thesis, the application of Autoencoder network and Transformer network is combined to create music Initially using the Autoencoder network to generate ideas for the song then fed that idea to a special network of two Transformer networks, corresponding to the decoder and encoder in a certain number of loops, used to generate turn ideas into a unified sequence of content Finally the sequence will be passed through trained Transformer networks to generate the remainder then they will be converted to a piano song in the form of a midi file The results will be evaluated by both music professionals and nonmusicians _ Abtract vi HV: Nguyễn Đức Thuận Sáng tác nhạc tự động sử dụng máy học _ LỜI CAM ĐOAN Tôi tên Nguyễn Đức Thuận học viên cao học chuyên ngành Kỹ Thuật Viễn Thơng, khóa 2019, Trường Đại học Bách Khoa - Đại học Quốc gia thành phố Hồ Chí Minh Tơi xin cam đoan nội dung sau thật: - Cơng trình nghiên cứu hồn tồn tơi thực với hướng dẫn TS Võ Tuấn Kiệt - Các tài liệu tham khảo sử dụng luận văn trích dẫn đầy đủ, rõ ràng, công bố hội nghị, tạp chí uy tín - Các số liệu kết luận văn thực cách độc lập trung thực Những báo khoa học tơi thực liệt kê cụ thể Tp Hồ Chí Minh, ngày tháng năm Nguyễn Đức Thuận _ Lời cam đoan vii HV: Nguyễn Đức Thuận Sáng tác nhạc tự động sử dụng máy học _ MỤC LỤC DANH SÁCH HÌNH ẢNH X DANH SÁCH BẢNG XII CHƯƠNG GIỚI THIỆU TỔNG QUAN 1.1 1.2 1.3 1.4 1.5 LÝ DO CHỌN ĐỀ TÀI: CÁC NGHIÊN CỨU LIÊN QUAN: CÁC THÁCH THỨC CỦA HỆ THỐNG TẠO NHẠC TỰ ĐỘNG CÁC ĐÓNG GÓP CỦA LUẬN VĂN .4 NỘI DUNG LUẬN VĂN .5 CHƯƠNG CƠ SỞ LÝ THUYẾT 2.1 LÝ THUYẾT NHẠC LÝ VÀ CƠ SỞ SÁNG TÁC NHẠC: Nhạc lý: Nốt nhạc (Note): Số nhịp: .9 Hợp âm : 10 Sáng tác nhạc: .11 2.2 BỘ DỮ LIỆU VÀ THƯ VIỆN: .11 MIDI file 11 Bộ liệu EMOPIA 12 MusPy 15 2.3 MỘT SỐ KIẾN TRÚC SỬ DỤNG TRONG BÀI 16 Fully Connected 16 Autoencoder 17 Transformer: 18 CHƯƠNG XỬ LÝ DATA 35 3.1 DỮ LIỆU TRAINING: 35 3.2 TIỀN XỬ LÝ DỮ LIỆU: .36 Chuyển đổi liệu từ mid sang Dataset tensorflow 36 Chuyển đổi Time sang Delta Time 37 Note chồng 37 CHƯƠNG XÂY DỰNG MƠ HÌNH 39 4.1 TỔNG QUÁT VỀ HỆ THỐNG .39 4.2 CẤU TẠO VÀ NGUYÊN LÝ HOẠT ĐỘNG: 40 Khởi tạo ý tưởng: 40 _ Mục lục viii HV: Nguyễn Đức Thuận Sáng tác nhạc tự động sử dụng máy học _ Thống nội dung .44 Khối tạo nhạc: .45 Tổng hợp thành file MIDI: 50 CHƯƠNG KẾT QUẢ ĐẠT ĐƯỢC 51 5.1 KẾT QUẢ ĐƯỢC ĐÁNH GIÁ BỞI NGƯỜI 51 Người có chuyên môn về âm nhạc 51 Người không có chuyên môn về âm nhạc 53 5.2 KIỂM TRA BẢN QUYỀN BẰNG CÔNG CỤ CỦA YOUTUBE 55 5.3 KIỂM TRA VÀ SO SÁNH VỚI MẠNG TRONG BÀI BÁO EMOPIA[37] 56 Surface-level objective metrics .56 Emotion-related objective metrics 57 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .58 6.1 NHỮNG KẾT QUẢ ĐÃ ĐẠT ĐƯỢC 58 6.2 HƯỚNG PHÁT TRIỂN .58 TÀI LIỆU THAM KHẢO 59 PHỤ LỤC A: KHẢO SÁT CỦA NGƯỜI CĨ CHUN MƠN 63 LÝ LỊCH TRÍCH NGANG 65 _ Mục lục ix HV: Nguyễn Đức Thuận Sáng tác nhạc tự động sử dụng máy học _ DANH SÁCH HÌNH ẢNH Hình 2-1: Hình nốt giá trị độ dài tương đối hình nốt .7 Hình 2-2: Mối tương quan độ dài nốt Hình 2-3: Biểu diễn MIDI theo độ cao note trường thời gian 12 Hình 2-4: Violin plots of the distribution in (a) note density, (b) length, and (c) velocity for clips from different classes .13 Hình 2-5: Histogram of the keys (left / right: major / minor 249 keys) for clips from different emotion classes [37] 13 Hình 2-6: Russell’s circumplex model [39] 14 Hình 2-7: Lớp Fully Connected 16 Hình 2-8: cấu trúc mạng Autoencoder 18 Hình 2-9: Kiến trúc tổng quát mạng Transformer [38] 19 Hình 2-10: Lớp embedding positional encoding [38] 20 Hình 2-11: Add normalize [38] 21 Hình 2-12: Lớp ý [38] 22 Hình 2-13: Tự ý 22 Hình 2-14: Chú ý nhiều đầu 23 Hình 2-15: Lớp Cross Attention [38] 24 Hình 2-16: Lớp self attention tồn cầu [38] 25 Hình 2-17: Lớp causal self attention [38] 25 Hình 2-18: Feed forward network [38] .26 Hình 2-19: Lớp Encoder [38] 27 Hình 2-20: Encoder[38] 28 Hình 2-21: Lớp Decoder[38] 29 Hình 2-22: Bộ Decoder[38] 30 Hình 2-23: Hyperparameters mơ hình.[38] .31 Hình 3-1: Sơ đồ tiền xử lý liệu 36 Hình 3-2: Lưu đồ giải thuật thuật tốn tính tốn Note chồng 38 Hình 4-1: Sơ đồ khối hệ thống 39 _ Danh sách hình ảnh x HV: Nguyễn Đức Thuận Sáng tác nhạc tự động sử dụng máy học _ CHƯƠNG KẾT QUẢ ĐẠT ĐƯỢC Kết quả đánh giá người 5.1 Người có chuyên môn âm nhạc Tám nhạc lấy ngẫu nhiên nhận xét người có chuyên môn https://drive.google.com/drive/folders/1hzH7Aw0-ePTMoVcaiwH0eSzDUCny6qlJ ?usp=share_link Bảng 5-1: Kết đánh giá từ người có chun mơn âm nhạc Chủ âm Nhịp phách Âm sắc Hợp âm clip clip có khơng có khơng khơng khơng có khơng clip clip có có có có khơng khơng có có clip khơng có khơng có clip clip clip có khơng khơng có khơng có có khơng khơng có khơng có Nhận xét Bị vài lỗi chưa có cảm xúc rõ ràng Rất khó nghe Khơng q khó nghe số chỗ bị lỗi tương đối ổn định giống đàn cách ngẫu nhiên đàn Âm cịn cứng thơ q khó nghe Âm q thơ Cách yếu tố kiểm tra bao gồm: - Chủ âm yếu tố quan trọng nhạc Theo nhận định người có chun mơn âm nhạc nhạc hay đoạn nhạc phải có chủ âm Nhịp phách: người kiểm tra dùng hai phách để gõ theo nhịp nhạc Âm sắc: sắc thái âm liên quan nhiều tới cảm xúc âm nhạc Hợp âm: Note vang lên cùng lúc Nhận xét: nhận xét cá nhân người kiểm tra _ - Kết luận hướng phát triển 51 HV: Nguyễn Đức Thuận Sáng tác nhạc tự động sử dụng máy học _ Bảng 5-2: Tổng hợp kết đánh giá từ người có chun mơn âm nhạc Chủ âm Nhịp phách Âm sắc Hợp âm Bài nhạc có 6 Bài nhạc khơng có Theo nhận định người có chun mơn tương đối có chủ âm cịn gần khơng có Trong có chủ âm có chuyển giọng đột ngột gây rối tai tạo cảm giác khó chịu mang tính tương đối khơng có chủ âm chuẩn cho Và chủ âm tương đối ổn định dễ nghe Còn khơng có chủ âm Có nghe chói tai có nghe tương đối êm tai giống đánh loạn đàn piano Nhịp phách kiểm tra cách sử dụng hai phách để đánh nhịp theo nhạc Theo kiểm tra có có nhịp phách cịn cịn lại khơng thể xác định Những đáp ứng chủ âm nhịp phác tương đối dễ nghe xem đoạn nhạc,khi thiếu yếu tố tương đối khó nghe số trường hợp nghe cịn thiếu hai yếu tố nghe khó chịu Về âm sắc có đạt tiêu ch̉n, cịn cịn lại khơng Và đáp ứng yếu tố người có chun mơn Hợp âm có tương đối dùng hợp âm cịn lại note chồng loạn lên Theo nhận định người đánh giá đáp ứng việc có chủ âm thêm yếu tố cịn lại nhạc chấp nhận đạt tiêu chuẩn lại thiếu yếu tố chủ âm chất lượng từ ta có biểu đồ sau: _ - Kết luận hướng phát triển 52 HV: Nguyễn Đức Thuận Sáng tác nhạc tự động sử dụng máy học _ Hình 5-1: Đánh giá người có chun mơn âm nhạc Nhìn chung tỷ lệ chấp nhận không chấp nhận người có chun mơn đánh giá ngang Tuy số không đáp ứng tồn tiêu chí tổng thể khơng khó nghe Những thiếu âm sắc mặt âm nhạc coi đoạn nhạc Nhưng thiếu nhiều hai yếu tố dẫn đến nhạc sinh bị lỗi ngày khó nghe Cịn thiếu yếu tố nhạc đánh loạn xạ khó nghe Và hệ thống tạo nhạc yếu tố trở lên với tỷ lệ tầm 50% Người không có chuyên môn âm nhạc Số người tình nguyện tham gia khảo sát gồm người tuổi khoảng từ 21 đến 40 Trong có nam nữ Mỗi người kiểm ngẫu nhiên https://drive.google.com/drive/folders/1hzH7Aw0-ePTMoVcaiwH0eSzDUCny6qlJ ?usp=share_link có người chọn kiểm bài, người chọn kiểm và người kiểm 12 Mỗi người chọn riêng biệt nghe riêng biệt với Đánh giá cách cho điểm từ đến 10 Với mức 0-3 khoảng điểm cho tệ, không muốn nghe hết Với mức 4-5 cho nghe hết cảm nhận nghe xong tệ Với mức 6-7 tương đối nghe xong mang lại cảm giác không q tệ khơng muốn nghe lại nhiều lần Cịn mức 8-10 mức tốt nghe xong mang cảm giác tốt đồng thời muốn nghe lại nhiều lần _ - Kết luận hướng phát triển 53 HV: Nguyễn Đức Thuận Sáng tác nhạc tự động sử dụng máy học _ Bảng 5-3: Tổng hợp kết đánh giá từ người có chun mơn âm nhạc Tốt (8-10) Tương đối (6-7) Tệ (4-5) Rất tệ (0-3) số nhạc 24 11 Có bị đánh giá tệ, hỗn loạn khơng có chút âm nhạc Nhưng chiếm phần nhỏ nhiều đánh giá nghe tốt với khoảng điểm từ đến 10 điểm tới 24 Còn lại số nghe tương đối nghe tệ có tỉ lệ gần với số tương ứng 11 Theo mức độ cảm nhận người nghe chia hai mức tồi tệ với thang điểm từ 0-5 cho mang lại cảm giác không tốt nghe xong Còn thang điểm từ 6-10 cho mang lại cảm giác tốt nghe xong Từ ta có biểu đồ sau Hình 5-2: Đánh giá người nghe không chuyên môn âm nhạc Số lượng hát chấp nhận có tỷ lệ nhiều so với đánh giá chuyên gia Ngươi nghe quan tâm xem liệu nhạc có nghe êm tai hay không không ý nhiều đến nhạc lý Nhìn chung xét độ chấp nhận người nghe tương đối cao tầm 73% _ - Kết luận hướng phát triển 54 HV: Nguyễn Đức Thuận Sáng tác nhạc tự động sử dụng máy học _ 5.2 Kiểm tra bản quyền công cụ của Youtube Bằng cách đăng lên youtube, kiểm tra quyền tool hỗ trợ Youtube Đây đầu cuối mong muốn người sử dụng Nếu qua kiểm tra quyền Youtube video chấp nhận xuất Những đăng lên không bị vi phạm quyền https://www.youtube.com/channel/UCUjcIOdobz8DEe0Q41iCb8g Hình 5-3: Kiểm tra quyền Youtube Và đăng ngẫu nhiên tương đối người nghe chấp nhận, số có từ 100 lượt xem trở lên nhiên có có _ - Kết luận hướng phát triển 55 HV: Nguyễn Đức Thuận Sáng tác nhạc tự động sử dụng máy học _ 5.3 Kiểm tra so sánh với mạng báo EMOPIA[37] Surface-level objective metrics Trong báo [37] sử dụng metrics để đánh giá: - Pitch range (PR), phạm vi cao độ Number of unique pitch classes used (NPC) số lượng nốt sử dụng Number of notes being played concurrently (POLY) số lượng trung bình nốt chơi đồng thời POLY định nghĩa số cao độ trung bình phát lúc, đánh giá bước thời gian có cao độ bật Drum tracks bị bỏ qua Trả lại NaN khơng tìm thấy note Dùng 87 tạo tính trung bình số đo từng ta có bảng sau: Bảng 5-4: So sánh kết data thực tế nhạc tạo PR NPC POLY Data real 56.4 8.7 6.0 Luận văn 56.7 11.4 5.6 Data real nhạc thư viện dùng để training, cịn mục luận văn kết 87 nhạc tạo Hai số PR POLY gần sát với data thực tế có số NPC có khác nhiều Nó cho thấy nhạc tạo sử dụng nhiều note xuất lần đoạn nhạc nhiều Nhưng phạm vi cao độ số note chơi đồng thời (hợp âm) gần sát Bảng 5-5: So sánh với mạng báo [37] Delta PR Delta NPC Delta POLY LSTM+GA[37] 8.1 0.79 2.51 CP Transformer[37] 2.4 0.72 2.42 CP Transformer w/ pre-training[37] 1.4 0.06 1.5 Luận văn 0.3 2.7 0.4 _ - Kết luận hướng phát triển 56 HV: Nguyễn Đức Thuận Sáng tác nhạc tự động sử dụng máy học _ Tính chênh lệch data thực tế nhạc tạo ta có bảng Hai số PR POLY đạt kết tốt có số NPC khơng Về mạng tạo nhạc luận văn làm tốt hai thông số đánh giá Emotion-related objective metrics Sử dụng lại mạng training [37] để đánh giá Sử dụng 87 tạo để đánh giá 87 đưa qua mạng với trọng số cung cấp từ báo dùng Accuracy làm thang đánh giá Accuracy cao kết tốt Bảng 5-6: So sánh kết sử dụng LSTM-Attn+REMI emotion classifier để đánh giá 4Q Arousal Valence classification classification classification 0.238 0.5 0.498 0.418 0.69 0.583 LSTM+GA[37] CP Transformer [37] CP Transformer w/ pretraining [37] 0.403 0.643 0.59 Luận văn 0.552 0.931 0.736 Kết sử dụng mạng phân loại để đánh giá mạng luận văn cho kết tốt mạng trình bày [37] Accuracy mục cao so với mạng đưa _ - Kết luận hướng phát triển 57 HV: Nguyễn Đức Thuận Sáng tác nhạc tự động sử dụng máy học _ CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Những kết quả đã đạt 6.1 Một số kết đạt được: - Đã tạo nhạc hoàn chỉnh đáp ứng cấu trúc cảm xúc tỉ lệ đáp ứng toàn yếu tố chưa cao Những tỉ lệ đáp ứng yếu tốt cấu trúc tương đối cao Chỉ có đáp ứng cảm xúc tương đối thấp - Đã tạo nhạc người nghe chấp nhận đánh giá nghe bắt tai - Đã tạo ứng dụng tự động tạo nhạc - Đã tạo nhạc có chứa hợp âm - Đã tạo nhạc không bị bắt quyền youtube Hướng phát triển 6.2 Một số hướng phát triển tương lai: - Mở rộng thư viện liệu cho việc training dùng clip (chỉ có 250 đoạn) để training - Tăng độ phức tạp cho mạng Transformer để tăng hiệu mạng _ - Kết luận hướng phát triển 58 HV: Nguyễn Đức Thuận Sáng tác nhạc tự động sử dụng máy học _ TÀI LIỆU THAM KHẢO [1] K Hevner, “Experimental Studies of the Elements of Expression in Music,” Am J Psychol., vol 48, no 2, p 246, 1936, doi: 10.2307/1415746 [2] T A Journal, “Factors Determining the Characterization of Musical Phrases,” vol 47, no 4, pp 624–643, 2015 [3] P Gomez and B Danuser, “Relationships between musical structure and psychophysiological measures of emotion,” Emotion, vol 7, no 2, pp 377– 387, 2007, doi: 10.1037/1528-3542.7.2.377 [4] Nielzen, Soren, and Zvonimir Cesarec, "Emotional experience of music as a function of musical structure," Psychology of Music, vol 10, no 2, pp 7-17, 1982, doi: 10.1177/0305735682102002 [5] M Bretan, G Weinberg, and L Heck, “A unit selection methodology for music generation using deep neural networks,” Proc 8th Int Conf Comput Creat ICCC 2017, pp 1–13, 2017, doi: 10.48550/arXiv.1612.03789 [6] B L Sturm, J F Santos, O Ben-Tal, and I Korshunova, “Music transcription modelling and composition using deep learning,” 2016 [Accessed on 10 Oct 2022] [Online] Available: http://arxiv.org/abs/1604.08723 [7] G Hadjeres and F Nielsen, “Interactive Music Generation with Positional Constraints using Anticipation-RNNs,” pp 1–9, 2017 [Accessed on 10 Oct 2022] [Online] Available: http://arxiv.org/abs/1709.06404 [8] A Roberts, J Engel, C Raffel, C Hawthorne, and D Eck, “A hierarchical latent vector model for learning long-term structure in music,” 35th Int Conf Mach Learn ICML 2018, vol 10, pp 6939–6954, 2018, doi: 10.48550/arXiv.1803.05428 [9] G Zixun, D Makris, and D Herremans, “Hierarchical Recurrent Neural Networks for Conditional Melody Generation with Long-term Structure,” Proc Int Jt Conf Neural Networks, vol 2021-July, 2021, doi: 10.1109/IJCNN52387.2021.9533493 [10] K Choi, J Park, W Heo, S Jeon, and J Park, “Chord conditioned melody generation with transformer based decoders,” IEEE Access, vol 9, pp 42071–42080, 2021, doi: 10.1109/ACCESS.2021.3065831 [11] L C Yang, S Y Chou, and Y H Yang, “Midinet: A convolutional generative adversarial network for symbolic-domain music generation,” Proc 18th Int Soc Music Inf Retr Conf ISMIR 2017, pp 324–331, 2017, doi: 10.48550/arXiv.1703.10847 [12] T Le Paine et al., “Fast Wavenet Generation Algorithm,” pp 1–6, 2016 [Accessed on 10 Oct 2022] [Online] Available: _ Tài liệu tham khảo 59 HV: Nguyễn Đức Thuận Sáng tác nhạc tự động sử dụng máy học _ http://arxiv.org/abs/1611.09482 [13] A van den Oord et al., “WaveNet: A Generative Model for Raw Audio,” pp 1–15, 2016 [Accessed on 10 Oct 2022] [Online] Available: http://arxiv.org/abs/1609.03499 [14] P Dhariwal, H Jun, C Payne, J W Kim, A Radford, and I Sutskever, “Jukebox: A Generative Model for Music,” 2020 [Accessed on 10 Oct 2022] [Online] Available: http://arxiv.org/abs/2005.00341 [15] K Zheng et al., “EmotionBox: A music-element-driven emotional music generation system based on music psychology,” Front Psychol., vol 13, 2022, doi: 10.3389/fpsyg.2022.841926 [16] R Madhok, S Goel, and S Garg, “SentiMozart: Music generation based on emotions,” ICAART 2018 - Proc 10th Int Conf Agents Artif Intell., vol 2, pp 501–506, 2018, doi: 10.5220/0006597705010506 [17] H Davis and S M Mohammad, “Generating music from literature,” Proc 3rd Work Comput Linguist Lit CLfL 2014 14th Conf Eur Chapter Assoc Comput Linguist EACL 2014, pp 1–10, 2014, doi: 10.3115/v1/w14-0901 [18] I Wallis, T Ingalls, and E Campana, “Computer-Generating emotional music: The design of an affective music algorithm,” Proc - 11th Int Conf Digit Audio Eff DAFx 2008, pp 7–12, 2008, doi: 10.48550/arXiv.2301.06890 [19] L N Ferreira and J Whitehead, “Learning to generate music with sentiment,” Proc 20th Int Soc Music Inf Retr Conf ISMIR 2019, pp 384– 390, 2019, doi: 10.48550/arXiv.2103.06125 [20] X Tan and M Antony, Automated Music Generation for Visual Art through Emotion, Proc 11th Int Conf Comput Creat., pp 247–250, 2020 [Accessed on 10 Oct 2022] [Online] Available: https://underline.io/lecture/2766automated-music-generation-for-visual-art-through-emotion [21] K Zhao, S Li, J Cai, H Wang, and J Wang, “An emotional symbolic music generation system based on LSTM networks,” Proc 2019 IEEE 3rd Inf Technol Networking, Electron Autom Control Conf ITNEC 2019, no Itnec, pp 2039–2043, 2019, doi: 10.1109/ITNEC.2019.8729266 [22] Y H Yang and H H Chen, “Machine recognition of music emotion: A review,” ACM Trans Intell Syst Technol., vol 3, no 3, 2012, doi: 10.1145/2168752.2168754 [23] J.-P Briot, G Hadjeres, and F.-D Pachet, Deep Learning Techniques for Music Generation A Survey 2017 [Accessed on 10 Oct 2022] [Online] Available: http://arxiv.org/abs/1709.01620 [24] L Lu, D Liu, and H J Zhang, “Automatic mood detection and tracking of _ Tài liệu tham khảo 60 HV: Nguyễn Đức Thuận Sáng tác nhạc tự động sử dụng máy học _ music audio signals,” IEEE Trans Audio, Speech Lang Process., vol 14, no 1, pp 5–18, 2006, doi: 10.1109/TSA.2005.860344 [25] J Grekow, “Audio Features Dedicated to the Detection of Four Basic Emotions,” Computer Information Systems and Industrial Management, Warsaw, Poland: Springer, vol 9339, pp 583–591, 2015, doi: 10.1007/978-3319-24369-6 [26] B G Patra, D Das, and S Bandyopadhyay, “Labeling data and developing supervised framework for hindi music mood analysis,” J Intell Inf Syst., vol 48, no 3, pp 633–651, 2017, doi: 10.1007/s10844-016-0436-1 [27] J A Russell, “A circumplex model of affect,” J Pers Soc Psychol., vol 39, no 6, pp 1161–1178, 1980, doi: 10.1037/h0077714 [28] F Weninger, F Eyben, and B Schuller, “On-line continuous-time music mood regression with deep recurrent neural networks,” ICASSP, IEEE Int Conf Acoust Speech Signal Process - Proc., vol 338164, no 338164, pp 5412–5416, 2014, doi: 10.1109/ICASSP.2014.6854637 [29] E Coutinho, G Trigeorgis, S Zafeiriou, and B Schuller, “Automatically estimating emotion in music with deep long-short term memory recurrent neural networks,” CEUR Workshop Proc., vol 1436, pp 15–17, 2015 [30] J Grekow, “Music emotion maps in the arousal-valence space,” Stud Comput Intell., vol 747, no October, pp 95–106, 2018, doi: 10.1007/978-3319-70609-2_9 [31] R Delbouys, R Hennequin, F Piccoli, J Royo-Letelier, and M Moussallam, “Music mood detection based on audio and lyrics with deep neural net,” Proc 19th Int Soc Music Inf Retr Conf ISMIR 2018, pp 370–375, 2018 doi: 10.48550/arXiv.1809.07276 [32] J Grekow, “Musical performance analysis in terms of emotions it evokes,” J Intell Inf Syst., vol 51, no 2, pp 415–437, 2018, doi: 10.1007/s10844-0180510-y [33] D Williams, A Kirke, E R Miranda, E Roesch, I Daly, and S Nasuto, “Investigating affect in algorithmic composition systems,” Psychol Music, vol 43, no 6, pp 831–854, 2015, doi: 10.1177/0305735614543282 [34] M Scirea, P Eklund, J Togelius, and S Risi, “Can you feel it? Evaluation of affective expression in music generated by MetaCompose,” GECCO 2017 Proc 2017 Genet Evol Comput Conf., no July, pp 211–218, 2017, doi: 10.1145/3071178.3071314 [35] A Valenti, A Carta, and D Bacciu, “Learning style-aware symbolic music representations by adversarial autoencoders,” Front Artif Intell Appl., vol 325, pp 1563–1570, 2020, doi: 10.3233/FAIA200265 _ Tài liệu tham khảo 61 HV: Nguyễn Đức Thuận Sáng tác nhạc tự động sử dụng máy học _ [36] R Guo, I Simpson, T Magnusson, C Kiefer, and D Herremans, “A variational autoencoder for music generation controlled by tonal tension,” no 2020, 2020 [Accessed on 10 Oct 2022] [Online] Available: http://arxiv.org/abs/2010.06230 [37] H.-T Hung, J Ching, S Doh, N Kim, J Nam, and Y.-H Yang, “EMOPIA: A Multi-Modal Pop Piano Dataset For Emotion Recognition and Emotionbased Music Generation,” 2021 [Accessed on 10 Oct 2022] [Online] Available: http://arxiv.org/abs/2108.01374 [38] A Vaswani et al., “Attention is all you need,” Adv Neural Inf Process Syst., vol 2017-Decem, pp 5999–6009, 2017 [39] D P Kingma and J L Ba, “Adam: A method for stochastic optimization,” 3rd Int Conf Learn Represent ICLR 2015 - Conf Track Proc., pp 1–15, 2015 doi: 10.48550/arXiv.1412.6980 _ Tài liệu tham khảo 62 HV: Nguyễn Đức Thuận Sáng tác nhạc tự động sử dụng máy học _ PHỤ LỤC A: Khảo sát của người có chuyên môn Clip 1: Name 87 (tên 87 thư mục khảo sát) Hòa âm nghe âm chủ, dễ nghe nhiên đoạn từ giây 18 - 25 bắt đầu có chuyển giọng phần hòa âm đoạn nghe bị rối bất quy tắc nên gây cảm giác khó chịu Nhịp phách rõ ràng đặn hơn, có vài chỗ chệch nhịp xíu, minh đốn rơi vào nhịp 3/4 Note nhạc đè lên hịa âm, có hịa hợp nhiều Về cảm xúc nhạc ( chuyên môn tỉ nghĩ bạn cần đề cập đến sắc thái), nghe đoạn âm to nhỏ khác tiếng đàn khơng có cảm xúc, đoạn to nhỏ chưa xếp hợp lý thay đổi dòng chảy âm chưa rõ ràng => Nhìn chung cảm thấy có đủ yếu tố cần có nhạc vài lỗi chưa có mạch cảm xúc rõ ràng Clip 2: Name 77 (tên 77 thư mục khảo sát) Hịa âm khơng nghe chủ âm, khơng có hịa hợp nốt nhạc, lộn xộn Nhịp phách : khơng có nhịp phách, khơng thể nghe nhịp Note nhạc đè lên khơng có quy luật Về cảm xúc nhạc ( chun mơn tỉ nghĩ bạn cần đề cập đến sắc thái) hoàn toàn khơng có => Nhìn chung khó nghe gần giống từng nghe qua,không nhịp điệu, không quy luật, không sắc thái, âm vang lên nốt đánh đại lên phím đàn chói tai khó nghe Clip 3: Name 66 (tên 66 thư mục khảo sát) Hòa âm : Đoạn đầu tương đối có chủ âm, nghe tương đối ổn nhiên khơng tn theo quy luật khơng có chủ âm ch̉n cho nhạc Nhịp phách : tương đối có nhịp phách nhiên số phách ô nhịp không nên không nghe nhịp cụ thể Note nhạc đè lên nhìn chung tồn không cùng quy luật Về cảm xúc nhạc ( chun mơn tỉ nghĩ bạn cần đề cập đến sắc thái) hoàn toàn khơng có => Nhìn chung tương đối khơng q khó nghe khơng thể xem dân Clip 4: Name 81 (tên 81 thư mục khảo sát) Hịa âm : Tương đối có chủ âm, nghe tương đối ổn định Nhịp phách : tương đối có nhịp phách, đốn rơi vào nhịp 2/4 nốt làm cảm giác khó nghe Note nhạc để lên nhìn chung tồn tương đối ổn có quy luật nhiên đoạn chồng nhiều Về cảm xúc nhạc ( chuyên môn tí nghĩ bạn cần đề cập đến sắc thái) khơng có sắc thái to nhỏ mạch cảm xúc => Nhìn chung tương đối ổn định, chưa có sắc thái cảm xúc, nhìn chung tất cần hạn chế đoạn có qua nhiều nốt chồng lên nhau, cùng lúc nên có nốt nằm quãng không xa hợp lý _ Phụ lục A 63 HV: Nguyễn Đức Thuận Sáng tác nhạc tự động sử dụng máy học _ Clip 5: Name 47(tên 77 thư mục khảo sát) Nhịp phách có, số phách ô nhịp không nhau, dẫn đến đoạn cuối bị hụt phách Các nốt nhạc đè lên ( hỏa âm) tốt nghe rõ ràng khơng cịn bị rối trước Tuy nhiên khơng có giọng chủ đạo vòng hợp âm phù hợp theo giọng dẫn đến chưa giống nhạc hoàn chỉnh, giống nhạc đàn random đàn nhiều Cảm xúc nhạc thi hồn tồn khơng có Clip 6: Name (tên thư mục khảo sát) Nhịp phách có, số phách nhịp ổn định, nằm nhịp Bài tương đối có hợp âm chủ, nghe đảng nhạc sáng tác hơn, nghe thuận tai người Các nốt nhạc đè lên tương đối dễ nghe không nhiều khiến bị Cảm xúc nhạc nói đến sắc thái gọi có, có điểm nhấn, điểm nhẹ nhàng nhiên thiếu mềm mại âm thanh, nhìn chung âm cịn cứng thơ Clip 7: Name 11 (tên 11 thư mục khảo sát) Nhịp phách khơng đều, đoạn đầu chậm nhịp bị dồn dập dần lại chậm lại, khơng có nhịp nên khơng tính nhịp phách Các nốt nhạc đè lên bị tải cùng lúc nghe khơng giai điệu khơng có chủ âm Nhìn chung nghe có cảm giác bị “đấm vào tai" , khơng có sắc thái cảm xúc hay bắt kỳ điểm để cảm thấy muốn nghe Clip 8: Name 37 (tên 37 thư mục khảo sát) Bài tương đối có nhịp phách nhằm nhịp xác định (4/4) Tuy nhiên nhìn chung chưa có nhịp hồn tồn từ đầu đến cuối có vài chỗ bị rớt nhịp xíu Các nốt nhạc đè lên tương đối ổn số lượng nốt phát lúc, nhiên phản hóa âm khơng có âm chủ khơng có vịng hợp âm phù hợp Với cá nhân chưa nhạc hồn chỉnh khó để đánh giá đến cảm xúc âm thanh, nhìn nhận âm không quan tâm đến vấn đề khác thi thật âm cứng không thấy nhẹ nhàng bên hay gọi yếu tố người, âm bị cộc so với âm thật đàn dàn _ Phụ lục A 64 HV: Nguyễn Đức Thuận Sáng tác nhạc tự động sử dụng máy học _ LÝ LỊCH TRÍCH NGANG Họ tên: Nguyễn Đức Thuận Ngày, tháng, năm sinh: 11/11/1995 Nơi sinh: Đồng Nai E-mail liên lạc: nguyenducthuan111195@gmail.com QUÁ TRÌNH ĐÀO TẠO a Đại học Nơi đào tạo: Trường Đại học Bách Khoa - ĐHQG TP.HCM Ngành học: Điện tử - Viễn thơng (Hệ quy) Điểm trung bình tích lũy: 6.79 Thời gian đào tạo từ 09/2013 đến 04/2019 b Sau đại học Nơi đào tạo: Trường Đại học Bách Khoa - ĐHQG TP.HCM Ngành học: Kỹ Thuật Viễn Thơng (Hướng ứng dụng) Điểm trung bình tích lũy: 7.99 (38 tín chỉ) + 7.1 (12 tín luận văn Thạc sĩ) Thời gian đào tạo từ 10/02/2020 đến 18/12/2022 Q TRÌNH CƠNG TÁC Nơi làm việc: Bosch Global Software Technologies Vị trí: Kỹ sư Thời gian làm việc từ 05/2019 đến _ Lý lịch trích ngang 65 HV: Nguyễn Đức Thuận

Định dạng
Số trang	78
Dung lượng	2,23 MB