Thiết kế mô hình gan lstm cho tạo sinh âm nhạc

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐỖ QUANG THỊNH THIẾT KẾ MƠ HÌNH GAN-LSTM CHO TẠO SINH ÂM NHẠC Chuyên ngành: Kĩ thuật Điện tử Mã số: 8520203 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng năm 2023 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM Cán hướng dẫn khoa học : PGS TS Hoàng Trang Cán chấm nhận xét : TS Huỳnh Hữu Thuận Cán chấm nhận xét : TS Nguyễn Minh Sơn Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 10 tháng năm 2023 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ luận văn thạc sĩ) Chủ tịch hội đồng: PGS TS Trương Quang Vinh Phản biện 1: TS Huỳnh Hữu Thuận Phản biện 2: TS Nguyễn Minh Sơn Ủy viên: TS Trần Hoàng Linh Thư ký: TS Nguyễn Lý Thiên Trường Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA ĐIỆN – ĐIỆN TỬ i ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: ĐỖ QUANG THỊNH MSHV:1970431 Ngày, tháng, năm sinh: 25/03/1997 Nơi sinh: Lâm Đồng Chuyên ngành: Kĩ thuật Điện tử Mã số : 8520203 I TÊN ĐỀ TÀI: Thiết kế mơ hình GAN-LSTM cho tạo sinh âm nhạc (GANLSTM model: A design for Music Generation) II NHIỆM VỤ VÀ NỘI DUNG: Xây dựng mơ hình trí tuệ nhân tạo cho ứng dụng tạo sinh âm nhạc có tên gọi GAN-LSTM phần mềm lẫn phần cứng, qua đưa đánh giá, nhận xét cụ thể nhằm làm rõ đóng góp nghiên cứu mở hướng phát triển tương lai III NGÀY GIAO NHIỆM VỤ: 06/09/2021 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 22/05/2022 V CÁN BỘ HƯỚNG DẪN: PGS TS Hoàng Trang Tp HCM, ngày tháng … năm 2023 CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên chữ ký) TRƯỞNG KHOA ĐIỆN – ĐIỆN TỬ (Họ tên chữ ký) ii Lời cám ơn Khơng có tự thân mà thành cơng, q trình học tập nghiên cứu tiến triển giúp đỡ đến từ phía thầy đồng bạn từ trường Đại học Bách khoa, Đại học Quốc gia TPHCM; yếu quan trọng tận tâm bảo đến từ thầy PGS TS Hoàng Trang, người trực tiếp hướng dẫn thực luận văn Chẳng thể biết tương lai sao, trình nghiên cứu thực luận văn chắn mang lại cho nhiều kiến thức kinh nghiệm bổ ích để tơi sử dụng bước tiến phía trước Một lần nữa, xin chân thành cảm ơn iii Tóm tắt luận văn thạc sĩ Trí tuệ nhân tạo ngày sử dụng rộng rãi tất lĩnh vực đời sống, sử dụng nguồn tạo liệu thay cho người, với âm nhạc loại liệu bật Các mô hình dùng tạo âm nhạc, GAN LSTM, có ưu điểm tồn nhiều hạn chế riêng Cụ thể, mơ hình GAN có khả tập trung vào đạc trưng toàn thể liệu, có yêu cầu hạn chế mặt kích thước liệu Ở chiều ngược lại, LSTM có khả liên kết nốt theo chuỗi, liên kết suy yếu kích thước liệu tăng dần lên Trên sở nghiên cứu nhận định trước đó, luận văn tập trung vào ba cơng việc chính: a) Kết hợp hai mơ hình AI phổ biến GAN LSTM để cấu thành mơ hình GAN-LSTM có khả tận dụng ưu điểm chúng ; b) Thực thi mơ hình GAN-LSTM phần mềm phần cứng nhằm đưa nhận định khả liên quan ; c) sử dụng mơ hình GAN-LSTM cho xây dựng liệu dạng hát gồm nhiều phần, phần có chuyển điệu hợp lý Để thực công việc này, nhiều phương pháp đưa ra, bao gồm phương pháp thu thập liệu, phương pháp xây dựng tiền xử lý liệu, phương pháp xây dựng mơ mơ hình, phương pháp đánh giá định lượng định tính đưa ra, qua cung cấp cho người đọc góc nhìn khác khả mơ hình GAN-LSTM Những kết thu q trình thực luận văn chứng minh tính khả thi nghiên cứu ưu điểm mơ hình nghiên cứu, Đồng thời, kết đưa hạn chế cần khắc phục, nhiều hướng phát triển cho tương lai iv Thesis Abstract Artificial Intelligence is becoming widely used in every aspects of human life, and is currently implemented as a source of generating data in place of human, which includes the notable music data Music generation models recently, including GAN and LSTM, have their own benefits and drawbacks To be specific, GAN models are able to look into global characteristics of data, while imposing some restrictions on the data sizes On the opposite, LSTM model can create a chain of notes with mutual bonds, although these links may be weakened when the data created becomes larger and larger Based on the researches conducted in the past and some considerations, this thesis concentrated on three tasks: a) Task for combining two most popular AI music models of GAN and LSTM to form GAN-LSTM model where the advantages of each component model are gained; b) Task for implementing that GAN-LSTM model on both software and hardware to discuss some thoughts and related probabilities; and c) Task for using GAN-LSTM model to create data in form of a song with several parts, between which the transitions are made to be smooth To tackle these task, various methods were adopted, including data collecting methods, data preparation and preprocessing methods, constructing and simulating methods of the models, as well as quantitative and qualitative methods for evaluation, so that readers may look at different aspects of the abilities of GAN-LSTM model Results collected in the process of conducting this thesis have proved the viability of the research, as well as the beneficial effects of the associated AI model Also, those results make some crucial points of the remaining detrimental effects that are in need of discussion, and promote some gradual developments of the model that can take place in the near future v Lời cam đoan tác giả Tôi xin cam đoan luận văn đề tài “ THIẾT KẾ MƠ HÌNH GAN-LSTM CHO TẠO SINH ÂM NHẠC” cơng trình nghiên cứu cá nhân thời gian qua Mọi số liệu sử dụng phân tích luận văn kết nghiên cứu tơi tự tìm hiểu, phân tích cách khách quan, trung thực, có nguồn gốc rõ ràng chưa công bố hình thức Tơi xin chịu hồn tồn trách nhiệm có khơng trung thực thơng tin sử dụng cơng trình nghiên cứu vi Mục lục CHƯƠNG 1: MỞ ĐẦU 1.1 Lý chọn đề tài 1.2 Mục đích, đối tượng phạm vi nghiên cứu 1.3 Ý nghĩa khoa học thực tiễn đề tài nghiên cứu 1.4 Bố cục luận văn CHƯƠNG 2: TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU 2.1 Tình hình nghiên cứu nước 2.2 Mục tiêu nhiệm vụ nghiên cứu CHƯƠNG 3: CƠ SỞ LÝ LUẬN VÀ GIẢ THUYẾT KHOA HỌC 3.1 Mạng đối nghịch tạo sinh GAN (Generative Adversarial Network) 3.1.1 Giới thiệu 3.1.2 Các thành phần 11 3.1.3 GAN có điều kiện (Conditioning GAN) 16 3.2 Ứng dụng Machine Learning âm nhạc 17 3.2.1 Cơ âm nhạc 17 3.2.2 Tệp MIDI cách thức lưu trữ âm nhạc máy tính 20 3.2.3 Long-Short Term Memory (LSTM) 22 3.2.4 Cấu trúc hát mối liên hệ với Machine Learning 27 3.3 Mơ hình mạng GAN-LSTM cho âm nhạc 27 3.3.1 Những vấn đề tồn đọng cụ thể 27 3.3.2 Phương pháp 29 CHƯƠNG 4: PHƯƠNG PHÁP NGHIÊN CỨU 34 4.1 Phương pháp xây dựng liệu 34 4.2 Phương pháp thu thập tiền xử lý liệu 36 4.3 Phương pháp xây dựng mô hình GAN-LSTM 37 4.3.1 Xây dựng mơ hình học máy Python 37 4.3.2 Xây dựng mơ hình thực thi Verilog 42 4.4 Phương pháp mô 46 4.4.1 Mô kiểm chứng khả học hỏi mơ hình Python 46 4.4.2 Mô chức phần cứng synthesis (tổng hợp) 46 vii 4.5 Phương pháp đánh giá kết 47 4.5.1 Đánh giá định lượng 47 4.5.2 Đánh giá định tính 49 CHƯƠNG 5: KẾT QUẢ NGHIÊN CỨU VÀ CÁC PHÂN TÍCH LIÊN QUAN 54 5.1 Phân tích kết theo đánh giá định lượng 54 5.1.1 Phân tích theo tập liệu gốc 54 5.1.2 Phân tích theo q trình huấn luyện 57 5.1.3 Phân tích quãng chuyển Verse-Chorus điểm kết Chorus 59 5.2 Phân tích phiên thực thi phần cứng mơ hình 62 5.2.1 Phân tích kết mơ 62 5.2.2 Phân tích mặt thời gian (Timing) 63 5.3 Phân tích kết theo đánh giá định tính 68 5.3.1 Khảo sát mức độ chân thực âm nhạc 69 5.3.2 Khảo sát tác động cảm xúc âm nhạc 70 5.3.3 Khảo sát nhận diện quãng chuyển Verse-Chorus 71 CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 73 6.1 Kết luận đề tài 73 6.2 Hướng phát triển 73 Danh mục cơng trình khoa học 75 Danh mục tài liệu tham khảo 76 viii Danh mục hình ảnh Hình Mơ hình mạng nơ-ron Hình Cấu trúc mạng nơ-ron Hình Các loại mạng nơ-ron Hình Quá trình huấn luyện GAN 10 Hình Cấu trúc lớp dense 11 Hình Đồ thị hàm sigmoid ReLU 12 Hình Ví dụ lan truyền ngược lớp dense 14 Hình Quy trình thực chuẩn hóa batch 16 Hình Mơ hình GAN với condition 17 Hình 10 Trường độ nốt âm nhạc 18 Hình 11 Khoảng cách cung nửa cung nốt chuẩn 19 Hình 12 Tần số nốt nhạc âm nhạc 20 Hình 13 Cấu trúc mạng LSTM 23 Hình 14 Cấu trúc hoạt động LSTM 24 Hình 15 Cơ chế có ý hoạt động với LSTM 26 Hình 16 Cấu trúc mơ hình GAN-LSTM 31 Hình 17 Cách thức mơ hình nhiều phần hát tạo nên thông qua khối chuyển điệu 33 Hình 18 Xây dựng chuỗi liệu theo cao độ tính liên tục 35 Hình 19 Ví dụ phần Verse ca khúc Crazy Little Thing Called Love hooktheory.com 36 Hình 20 Mơ hình GAN tổng hợp trình: Verse, kết nối Verse-Chorus Chorus 38 Hình 21 Thơng số mạng LSTM 39 Hình 22 Thơng số mạng nơ-ron cho generator 40 Hình 23 Thơng số mạng nơ-ron cho discriminator 41 Hình 24 Phương thức chuyển đổi cách tiếp cận sử dụng mơ hình GAN-LSTM thơng qua phần cứng 44 Hình 25 Bảng khảo sát tính chân thực âm nhạc 50 Hình 26 Bảng khảo sát đánh giá cảm xúc 51 Hình 27 Bảng khảo sát nhận diện quãng chuyển 52 Hình 28 So sánh ma trận chuyển đổi cao độ nốt tập liệu gốc tập liệu GANLSTM tạo 55 Hình 29 So sánh ma trận chuyển đổi trường độ nốt tập liệu gốc tập liệu GANLSTM tạo 56 Hình 30 Biểu đồ phân bố nốt theo trường độ tập liệu GAN-LSTM tạo 57 Hình 31Ma trận chuyển đổi cao độ nốt quãng chuyển Verse-Chorus 60 Hình 32 Báo cáo điều kiện thời gian hold mơ hình phần cứng 65 Hình 33 Báo cáo điều kiện thời gian setup mơ hình phần cứng 66 66 Hình 33 Báo cáo điều kiện thời gian setup mơ hình phần cứng 67 Để thể ưu mặt thời gian mơ hình phần cứng so với phần mềm, tác giả dẫn tính tốn sau Thời gian để mơ hình GAN-LSTM Python tạo mẫu liệu khoảng 0.3 giây (thơng số thu thập từ q trình mô Jupyter Notebook) Đối với thiết kế phần cứng, trình tạo mẫu liệu vào khoảng 5400-5600 chu kỳ, bao gồm việc xử lý qua hàm đánh giá kết cuối Như tổng thời gian tối đa để mơ hình GAN-LSTM tạo mẫu liệu chọn lọc qua 1000 mẫu là: 𝑡𝐻𝑎𝑟𝑑𝑤𝑎𝑟𝑒 (1000) = 1000 ∗ 5600 ∗ 4.55 ∗ 10−9 = 0.02548 giây 𝑡𝑆𝑜𝑓𝑡𝑤𝑎𝑟𝑒 = 0.3 giây 𝑡𝑠𝑜𝑓𝑡𝑤𝑎𝑟𝑒 𝑡ℎ𝑎𝑟𝑑𝑤𝑎𝑟𝑒(1000) = 0.3 0.02548 = 11.77 lần Con số 11.77 lần cho thấy tốc độ vượt trội mơ hình phần cứng (dù chọn lọc qua 1000 mẫu) so với mơ hình phần mềm (chỉ tạo mẫu) Tuy nhiên, phép so sánh không mang giá trị xác tuyệt đối Nguyên nhân thứ nhất, trình bày trên, tần số hoạt động thiết kế phần cứng bị suy giảm ràng buộc liên quan Nguyên nhân thứ hai thân phần cứng thực thi mơ hình phần mềm luận văn máy tính cá nhân, phần cứng thay đổi lên cấu hình mạnh làm tăng cao tốc độ tạo liệu mơ hình phần mềm Tóm lại, tác giả luận văn muốn nhấn mạnh điểm sau, người thực mơ hình GAN-LSTM tận dụng ưu tốc độ phần cứng nhằm chọn lọc liệu có đặc tính tốt từ số mẫu liệu lớn thời gian tương đương mà phần mềm tạo mẫu liệu tương tự 68 5.3 Phân tích kết theo đánh giá định tính Đối tượng khảo sát luận văn tập thể 187 người độ tuổi ngành nghề khác (Bảng 10) Trong đó, độ tuổi giới hạn 15 đến 30, độ tuổi phù hợp với thể loại nhạc pop soft rock tập âm nhạc gốc Cũng theo bảng 8, thấy đối tượng khảo sát có thiên hướng thiên nam giới, ngành nghề liên quan đến mặt kĩ thuật Điều ảnh hưởng nhiều đến khả nhận định xác họ với khảo sát Tuy nhiên, tác giả đạt đến giới hạn việc tìm kiếm đối tượng khảo sát, nữa, thể loại âm nhạc lựa chọn thể loại phổ biến, không đòi hỏi yêu cầu kiến thức hàn lâm âm nhạc Bảng 10 Thống kê đối tượng khảo sát theo độ tuổi nghề nghiệp Tiêu chí Tuổi Nghề nghiệp Tổng cộng Phân loại Số lượng người tham gia Tỉ lệ (%) Nam Nữ 15-18 (Học sinh THPT) 20 15 18.72 18-22 (Sinh viên) 52 15 35.83 22-26 31 22 28.34 25-30 15 17 17.11 Kĩ thuật 48 33 43.32 Nông-lâm-ngư nghiệp 5.35 Kinh doanh 14 28 22.46 Quân đội 3.21 Hành 34 14 25.67 187 113 74 100 Ngồi ra, mơ hình tạo liệu cung cấp cho khảo sát mô hình GAN-LSTM phần cứng, mà liệu chọn lọc kĩ thông qua hàm đánh giá kết cuối, qua đưa lựa chọn liệu có đặc tính tốt 69 5.3.1 Khảo sát mức độ chân thực âm nhạc Bảng 11 12 cho thấy thống kê câu trả lời người khảo sát cho bảng khảo sát thứ nhất, theo độ tuổi theo ngành nghề Cụ thể theo độ tuổi, nhóm người từ 18-26 có xu hướng nhận diện xác tính chân thực âm nhạc (lần lượt 77.6 88.7%) Theo nghề nghiệp, đa phần nhóm ngành dự đốn xác với xác suất vượt ngưỡng 50% Điều chứng tỏ nhóm đối tượng khảo sát này, độ tuổi định khả nhận định tốt phân loại theo ngành nghề Mức độ chắn nhóm người tham dự khảo sát theo kết dự đoán, với đa phần câu trả lời có mức độ chắn khoảng 50-70% Bảng 11 Kết khảo sát mức độ chân thực âm nhạc theo độ tuổi Đối tượng Số lượng Xác suất trả lời Xác suất mức độ chắn (trong (%) trường hợp trả lời đúng) Đúng Sai 100% 70% 50% 20% 35 62.9 37.1 3.4 53.2 38.2 5.2 67 77.6 22.4 3.9 64.8 29.8 1.4 22-26 53 88.7 11.3 6.9 61.6 21.4 10.1 25-30 32 43.8 56.3 2.5 55.0 42.5 0.0 15-18 (Học sinh THPT) 18-22 (Sinh viên) 70 Bảng 12 Kết khảo sát mức độ chân thực âm nhạc theo nghề nghiệp Đối tượng Số lượng Xác suất trả lời Mức độ chắn (trong trường hợp trả lời đúng) Đúng Sai 100% 70% 50% 20% 81 75.3 24.7 3.9 62.5 29.2 4.4 10 40.0 60.0 10.0 63.8 26.3 0.0 Kinh doanh 42 71.4 28.6 3.8 58.2 29.8 8.2 Quân đội 66.7 33.3 7.5 53.8 38.8 0.0 Hành 48 75.0 25.0 6.1 60.4 29.3 4.2 Kĩ thuật Nông-lâm-ngư nghiệp Nếu xét riêng khả đánh lừa GAN-LSTM việc làm người nghe tin tưởng vào mức độ thật liệu mà tạo ra, GAN-LSTM mức trung bình (khoảng 30% người nghe bị đánh lừa) Điều chứng tỏ cần có thêm cải thiện để làm tăng cường chất lượng GAN-LSTM tạo 5.3.2 Khảo sát tác động cảm xúc âm nhạc Để đánh giá trực quan tác động đến cảm xúc người dùng, thống kê liệu GAN-LSTM tạo thống kê, theo bảng 13 Có thể thấy hai điều theo bảng Thứ nhất, điểm đánh giá trung bình liệu 6.81 Đây số ổn biết người khảo sát nhận định cho điểm tuyệt đối mà chọn số thấp Thứ hai, xác suất cho điểm từ 7-9 có xu hướng cao xác suất cho điểm số thấp Điều xuất phát từ nguyên nhân chủ quan người khảo sát, tránh thực hành vi có ý nghĩa mang tính tiêu cực (cho điểm thấp) Nói tóm lại, quan điểm người khảo sát khảo sát cho thấy đánh giá cao liệu mà GAN-LSTM tạo 71 Bảng 13 Kết khảo sát mức độ tác động cảm xúc liệu GAN-LSTM tạo Đối tượng Xác suất cho điểm (%) Điểm trung bình 10.0 7-0-9.0 4.0-6.0 0.0-3.0 7.01 1.6 70.9 27.3 0.2 18-22 (Sinh viên) 6.72 0.5 60.8 38.7 0.0 22-26 7.14 2.3 68.1 29.6 0.0 25-30 6.35 0.0 58.2 41.1 0.7 Trung bình 6.81 1.10 64.50 34.18 0.22 15-18 (Học sinh THPT) 5.3.3 Khảo sát nhận diện quãng chuyển Verse-Chorus Thống kê cuối liên quan đến khảo sát nhận diện quãng chuyển VerseChorus (bảng 14) Qua bảng này, thấy nhận diện quãng chuyển vấn đề với đa số người khảo sát Tuy nhiên, xác suất người khảo sát nhận trường hợp có quãng nghỉ Verse Chorus khả quan, đạt 33.1%, chứng tỏ trường hợp hát chuyển điệu kiểu này, người nghe dễ dàng nhận ra, GAN-LSTM tạo mơ hình chuyển điệu kiểu Trên thực tế, nhận diện q trình chuyển điệu hát khơng phải dễ dàng, mà thân người nghe (là người) sau phát tính lặp lại Chorus hay đoạn Verse nhận diện Chorus đâu Bảng 14 Kết khảo sát nhận diện quãng chuyển Verse-Chorus Xác suất câu trả lời (%) Đối tượng 15-18 (Học sinh THPT) 18-22 (Sinh viên) Khơng nhận Cao độ Có quãng nghĩ Tiết tấu diện tăng dần Verse Chorus nhanh 46.9 5.8 32.4 14.9 54.7 7.3 28.3 9.7 72 22-26 48.3 5.4 34.6 11.7 25-30 35.7 10.6 37.1 16.6 Trung bình 46.4 7.3 33.1 13.2 73 CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Chương có mục đích tóm tắt, đưa kết luận chung trình thực nghiên cứu, làm sở cho việc thực nghiên cứu tương lai 6.1 Kết luận đề tài Sau thực nghiên cứu luận văn này, tác giả rút kết luận sau: - Mơ hình kết hợp GAN LSTM hồn tồn có khả thực công việc tương tự với mơ hình riêng lẻ, khơng nói đến số ưu điểm thể trình đánh giá kết - Mơ hình GAN-LSTM thực thi phần cứng lẫn phần mềm, qua mở khả tăng cường thực thi hệ thống AI phần cứng cách hiệu - Mơ hình GAN-LSTM có khả tạo hát gồm nhiều phần, với quãng chuyển hợp lý, nhận diện người nghe phần lớn trường hợp Tóm lại, kết luận văn đáp ứng mục tiêu nhiệm vụ đề ban đầu, thời gian quy định không gặp phải sai sót nghiêm trọng 6.2 Hướng phát triển Sau thực luận văn nhận định thiếu sót khả có thể, tác giả đề số hướng phát triển cho nghiên cứu tương lai: 74 - Chuyển đổi mơ hình từ đơn nhạc cụ (monophonic) sang đa nhạc cụ (polyphonic) Âm hòa tấu từ nhiều nhạc cụ có tác động mạnh mẽ đến cảm xúc người nghe cho thật - Xem xét thêm yếu tố, đặc tính ảnh hưởng đến tính hợp lý âm nhạc mà luận văn chưa thể bao quát được, bao gồm khóa (key), thời gian chuẩn (time signature) hay chord progression - Nghiên cứu cấu trúc hát gồm nhiều phần hơn, đặc biệt tìm cách hướng dẫn mơ hình AI khả tạo giai điệu có tính lặp lại thường hay xuất Verse Chorus 75 Danh mục cơng trình khoa học Kỷ yếu hội nghị quốc tế: T Hoang, and Q T Do "Convolutional Neural Network Hardware Implementation for Flower Classification." 2021 International Conference on Advanced Technologies for Communications (ATC) IEEE, 2021 Q T Do, and T Hoang "Enhanced Model of Long-Short Term Memory for Music Generation in Hardware." 2022 IEEE Ninth International Conference on Communications and Electronics (ICCE) IEEE, 2022 76 Danh mục tài liệu tham khảo [1] I J Goodfellow et al “Generative adversarial networks”, presented at Conference Neural Information Processing Systems, Montreal, Canada, 2014 [2] Y Cheng et al “Sequential attention GAN for interactive image editing,” in Proceedings of the 28th ACM International Conference on Multimedia, Seattle, United States, 2020, pp 4383-4391 [3] D Foster Generative Deep Learning – Teaching Machines to Paint, Write, Compose and Play Sebastopol, CA: O’Reilly Media, 2019 [4] X Liang et al “MIDI-Sandwich2: RNN-based Hierarchical Multi-modal Fusion Generation VAE networks for multi-track symbolic music generation.” Internet: https://arxiv.org/abs/1909.03522, Sep 8, 2019 [5] M Zhu et al “DM-GAN: Dynamic Memory Generative Adversarial Networks for TextTo-Image Synthesis,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2019, pp 5802-5810 [6] P Isola et al “Image-to-Image Translation with Conditional Adversarial Networks.” Internet: https://arxiv.org/abs/1611.07004, Nov 21, 2016 [7] T Wang et al “A Joint Model for Question Answering and Question Generation.” Internet: https://arxiv.org/abs/1706.01450, Jul 5, 2017 [8] A Alankrita et al “Generative adversarial network: An overview of theory and applications,” International Journal of Information Management Data Insights,” vol 1, iss 1, pp 95-111, Apr 2021 [9] G Jie, et al “A review on generative adversarial networks: Algorithms, theory, and applications,” IEEE Transactions on Knowledge and Data Engineering, Early Access, Nov 2021 [10] S Sakib and A Noora “How can generative adversarial networks impact computer generated art? Insights from poetry to melody conversion,” International Journal of Information Management Data Insights,” vol 2, iss 1, pp 16-22, Mar 2022 77 [11] H Dong et al “MuseGAN: Multi-Track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment.” Internet: https://arxiv.org/abs/1709.06298, Sep 19, 2017 [12] Y Adrien and E Benetos "A study on LSTM networks for polyphonic music sequence modelling,” presented at 18th International Society for Music Information Retrieval Conference, Suzhou, China, 2017 [13] K Nikhil and P Young "Generating music using an LSTM network." Internet: https://arxiv.org/abs/1804.07300, Apr 18, 2018 [14] F Prasenjeet et al “A hybrid model for music genre classification using LSTM and SVM,” in Proceedings of the 2018 Eleventh International Conference on Contemporary Computing (IC3), 2018, pp 1-3 [15] Google Magenta Project, “Make Music and Art Using Machine Learning.” Internet: https://magenta.tensorflow.org, Apr 24, 2022 [16] S Wang “Artificial neural network,” in Interdisciplinary computing in java programming, 1st ed., G Potter, Ed Boston: Springer, 2003, pp 81-100 [17] S Sagar et al “Activation functions in neural networks.” Internet: https://towardsdatascience.com/activation-functions-neural-networks1cbd9f8d91d6, Sep 6, 2017 [18] A Forest et al "Learning activation functions to improve deep neural networks." Internet: https://arxiv.org/abs/1412.6830, Jun 15, 2014 [19] W Qi, et al "A comprehensive survey of loss functions in machine learning," Annals of Data Science, vol 9, pp 187-212, Apr 2020 [20] R Sebastian "An overview of gradient descent optimization algorithms." Internet: https://arxiv.org/abs/1609.04747, Sep 15, 2016 [21] S Shibani, et al "How does batch normalization help optimization?,” in Proceedings of Advances in neural information processing systems 31, 2018, pp 573-583 [22] I Sergey and S Christian “Batch normalization: Accelerating deep network training by reducing internal covariate shift,” in Proceedings of International conference on machine learning (PMLR), 2015, pp 448-456 78 [23] M Mirza and S Osindero, “Conditional Generative Adversarial Nets.” Internet: https://arxiv.org/abs/1411.1784, Nov 6, 2014 [24] D Philip What is Music?: Solving a Scientific Mystery, Morrisville, NC: Lulu com, 2005 [25] A Wright et al "Music perception and octave generalization in rhesus monkeys," Journal of Experimental Psychology: General, vol 129, pp 291-307, Sep 2000 [26] Kent State University, “The MIDI file format.” Internet: http://personal.kent.edu/~sbirch/Music_Production/MP-II/MIDI/midi_file_format.htm, Mar 23, 2009 [27] H Sepp and S Jürgen “Long Short-term Memory,” Neural Computation, vol 9, pp 1735-1780, Nov 1997 [28] L Gang, and J Guo "Bidirectional LSTM with attention mechanism and convolutional layer for text classification," Neurocomputing, vol 337, pp 325-338, Apr 2019 [29] M Brian, and D Ellis "Analyzing Song Structure with Spectral Clustering," presented at 15th International Society for Music Information Retrieval Conference, Taipei, Taiwan, 2014 [30] HookTheory, “Create Amazing Music.” Internet: https://www.hooktheory.com/theorytab, Oct 25, 2022 [31] S Ji et al "A Comprehensive Survey on Deep Music Generation: Multi-level Representations." Internet: https://arxiv.org/abs/2011.06801, Nov 13, 2020 [32] L Yang and A Lerch "On the evaluation of generative models in music," Neural Computing and Applications, vol 32, pp 4773-4784, Sep 2020 [33] B Jean-Pierre, and F Pachet "Deep learning for music generation: challenges and directions," Neural Computing and Applications, vol 32, pp 981-993, Sep 2020 [34] Anaconda, “Anaconda Manual User Guide.” Internet: https://docs.anaconda.com/anaconda/user-guide/index.html, Dec 13, 2022 [35] Jupyter Lab, “Jupyter Notebook User Documentation.” Internet: https://jupyternotebook.readthedocs.io/en/latest/notebook.html, Dec 15, 2022 79 [36] Synopsys Inc., “VCS® MX/VCS MXi™ User Guide.” Internet: https://www.synopsys.com/support/licensing-installation-computeplatforms/synopsysdocumentation.html, Sep 13, 2012 [37] Synopsys Inc., “Design Compiler® User Guide Version D-2010.03-SP2.” Internet: https://www.synopsys.com/support/licensing-installation-computeplatforms/synopsysdocumentation.html, May 25, 2010 [38] M Essam "Accuracy in forecasting: A survey," Journal of forecasting, vol 3, pp 139159, Apr 1984 [39] G Asela and G Shani "A survey of accuracy evaluation metrics of recommendation tasks," Journal of Machine Learning Research, vol 10, pp 367-385, Aug 2009 [40] L Austern Music, sensation, and sensuality Abingdon, Oxford: Routledge, 2013 80 PHẦN LÝ LỊCH TRÍCH NGANG Họ tên: Đỗ Quang Thịnh Ngày, tháng, năm sinh: 25/03/1997 Nơi sinh: Lâm Đồng Địa liên lạc: 854 Tạ Quang Bửu, phường 5, quận 8, TP.HCM QUÁ TRÌNH ĐÀO TẠO 2015-2019 Trường đại học Bách khoa, Đại học Quốc gia Thành phố Hồ Chí Minh Q TRÌNH CƠNG TÁC 2018-2020 Kĩ sư, Công ty Arrive Technologies Việt Nam 2020-2021 Kĩ sư, Công ty TNHH Inphi Việt Nam 2021-nay Nghiên cứu viên, Trường đại học Bách khoa, Đại học Quốc gia Thành phố Hồ Chí Minh

Định dạng
Số trang	91
Dung lượng	1,61 MB