Luận văn đề xuất ra phương pháp mới kết hợp bởi học sâu và phân tích tương quan chính tắc và sử dụng mô hình đề xuất để truy hồi chéo cho nhạc và lời bài hát. Đồng thời luận văn cũng đánh giá và so sánh hiệu quả của phương pháp đề xuất với các phương pháp điển hình khác để chứng minh phương pháp đề xuất khả quan để ứng dụng vào thực tiễn.
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VƢƠNG THỊ HỒNG TRUY HỒI CHÉO MƠ HÌNH CHO NHẠC VÀ LỜI BÀI HÁT Ngành: Hệ thống thông tin Chun ngành: Hệ thống thơng tin Mã Số: 8480104.01 TĨM TẮT LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Hà nội, tháng 10/2018 Chƣơng 1: Giới thiệu Chương trình bày ngữ cảnh đề tài luận văn, mục đích ý nghĩa Giới thiệu tổng quan liệu đa phương thức, truy hồi thông tin truy hồi chéo mơ hình Cách phân loại truy hồi chéo mơ hình dựa biểu diễn khơng gian chung cho liệu Phát biểu toán luận văn 1.1 Dữ liệu đa phƣơng thức truy hồi thông tin Phần 1.1 trình bày tổng quan liệu đa phương thức truy hồi thông tin Dữ liệu đa phương thức ứng dụng cho truy hồi chéo mơ hình, hệ tư vấn phát chủ đề ẩn Dữ liệu dạng hình ảnh, âm hay văn đề cập tới kiện, chủ đề chúng có mối tương quan ngữ nghĩa Bên cạnh phát triển liệu đa phương thức, phương pháp, kỹ thuật để lập mục tìm kiếm liệu đa phương thức quan tâm nghiên cứu Tuy nhiên, kỹ thuật tìm kiếm chủ yếu dựa mơ hình dựa từ khóa nội dung truy xuất cho phép thực tìm kiếm tương tự loại liệu, ví dụ truy hồi văn bản, truy hồi hình ảnh, truy hồi Do đó, u cầu địi hỏi để thúc đẩy truy hồi thơng tin phát triển mơ hình truy hồi hỗ trợ tìm kiếm tương tự cho nhiều kiểu liệu đề cập tới chủ đề hay kiện gọi truy hồi chéo mơ hình 1.2 Phân loại truy hồi chéo mơ hình Đối với truy hồi chéo mơ hình dựa nội dung liệu đa phương thức, theo nhóm tác giả Wang cộng [16], truy hồi thông tin chéo chia thành loại dựa học biểu diễn giá trị thực [13, 14, 18] học biểu diễn giá trị nhị phân [5, 17, 22] Truy hồi thông tin chéo dựa biểu diễn giá trị thực, không gian biểu diễn chung học cho kiểu liệu giá trị thực trích xuất dựa nội dung kiểu liệu Cịn với truy hồi thơng tin chéo dựa biểu diễn giá trị nhị phân, không gian đại diện chung học cho kiểu liệu giá trị nhị phân cho kiểu liệu giá trị nhị phân với bit bit chuyển đổi từ nội dung liệu tương ứng Phương pháp học biểu diễn nhị phân mục tiêu chuyển đổi kiểu liệu khác thành không gian Hamming chung Do đó, ứng dụng thực tiễn mà quan trọng tốc độ xử lý ưu tiên việc sử dụng phương pháp học biểu diễn nhị phân Tuy nhiên, với việc biểu diễn mã hóa mã nhị phân nên độ xác truy hồi thường giảm nhẹ mát thơng tin q trình mã hóa Tuy nhiên với ứng dụng thực tiễn mà quan trọng độ xác truy hồi thơng tin ưu tiên nên sử dụng phương pháp học biểu diễn giá trị thực Khóa luận tập trung vào truy hồi chéo mơ hình dựa học giá trị thực cách trích xuất đặc trưng liệu đa phương thức kỹ thuật học máy dựa nội dung liệu 1.3 Phát biểu toán Để tận dụng tối đa liệu đa phương tiện nói chung sử dụng tối ưu cơng nghệ đa phương tiện phát triển nhanh chóng, chế tự động cần thiết để thiết lập liên kết tương tự từ liệu dạng sang liệu dạng khác chúng có liên quan ngữ nghĩa Xuất phát từ ứng dụng thực tế cần xây dựng hệ thống truy hồi chéo thông tin liệu đa phương tiện Luận văn tập trung vào giải tốn cải tiến độ xác cho truy hồi chéo mơ hình nhạc lời hát Đầu vào: Tập liệu nhạc, liệu lời hát nhãn cảm xúc tương ứng với cặp liệu 4 Đầu ra: Mô hình học đại diện chung cho nhạc lời hát Sử dụng mơ hình để truy hồi chéo mơ hình nhạc lời hát Cụ thể luận văn giải hai toán con: Xây dựng mơ hình cho phép truy hồi thơng tin chéo nhạc lời hát Cụ thể tìm không gian đại diện S = {SA, ST} với hàm không gian đại diện với d chiều cho nhạc lời hát ánh xạ hàm fA, fT : SA = fA(A, θA), ST = fT(T, θT), θA, θT tham số học Mơ hình cho phép sử dụng nhạc truy vấn truy xuất danh sách lời hát xếp hạng ngược lại, sử dụng lời hát truy vấn truy xuất danh sách nhạc xếp hạng Sử dụng mơ hình biểu diễn chung cho truy hồi chéo mơ hình đánh giá hiệu mơ hình độ đo xếp hạng Luận văn trình bày bốn chương Chương trình bày ngữ cảnh, nghiên cứu có vấn đề cần giải quyết, sở khoa học thực tiễn đề tài, mục tiêu đề tài, cấu trúc luận văn Chương trình bày phương pháp truy hồi chéo mơ hình số khái niệm phục vụ cho đề tài Chương trình bày mơ hình đề xuất luận văn Chương trình bày thực nghiệm đánh giá Kết luận hướng phát triển cho đề tài tài liệu tham khảo Chƣơng 2: Các phƣơng pháp truy hồi chéo mơ hình Phƣơng pháp học khơng gian Tính tốn đo tương tự liệu mơ hình khác cho truy hồi chéo mơ hình tốn khó Phương pháp học khơng gian phương pháp phổ biến 5 Mục đích phương pháp tìm khơng gian chung chia sẻ liệu mơ hình khác Học không gian bán giám sát sử dụng thông tin cặp để học không gian ẩn chung cho liệu đa phương thức Chúng buộc cặp gần liệu đa phương thức thành khơng gian chung Phân tích tương quan tắc (Canonical Correlation Analyis) CCA phương pháp học không gian để xác định mối quan hệ chéo mơ hình liệu từ mơ hình khác CCA phương pháp thống kê thăm dò phổ biến, cho phép phân tích mối quan hệ tồn hai tập biến Việc chuyển đổi tuyến tính tốt cho hai tập liệu đa chiều, cho phép tương quan tối đa chúng đạt sử dụng CCA CCA áp dụng thành công cho nhiều lĩnh vực khoa học y sinh quan trọng sử dụng rộng rãi cho toán truy hồi chéo đa phương thức [18, 19, 20] Phần 2.1 trình bày chi tiết (a) khái niệm bản, cơng thức phương pháp phân tích tương quan tắc CCA (b) RCCA với tham số chuẩn hóa tham số co 2 Phƣơng pháp học sâu Phần 2.2 trình bày phương pháp học sâu cho tốn truy hồi chéo mơ hình: phân tích tương quan tắc sâu (DCCA) mạng cạnh tranh sinh (Generative Adversarial Nets) Dữ liệu đa phương thức kiểu liệu khác mô tả kiện chủ đề Ví dụ, nội dung người dùng tạo thường chứa nhiều loại liệu khác ảnh, văn video Điều thách thức lớn với phương pháp truyền thống tìm biểu diễn chung cho nhiều mơ hình Gần đây, phát triển học sâu cộng đồng nghiên cứu quan tâm ứng dụng vào giải toán đem lại kết hiệu so với phương pháp truyền thống Học sâu thiết kế nhiều mạng để học đặc trưng sâu mơ hình khác để thu biểu diễn học hiệu [12, 15, 18] đặc biệt cho xử lý ảnh hay truy hồi chéo ảnh văn [6, 14, 21] Đầu tiên, sử dụng mơ hình mức riêng biệt để học biểu diễn mức thấp cho mơ hình hay cịn gọi tiền xử lý trích xuất đặc trưng từ nội dung liệu đa phương thức, sau kết hợp biểu diễn theo kiến trúc học sâu mức độ biểu diễn cao a) Phân tích tương quan tắc sâu (DCCA) Trình bày sở lý thuyết, áp dụng học sâu phân tích tương quan tắc b) GAN Trình bày sở lý thuyết áp dụng GAN vào ứng dụng thực tế nhận dạng ảnh 2.3 Một số phƣơng pháp khác Phần 2.3 trình bày mơ hình chủ đề ẩn ứng dụng rộng rãi cho toán truy hồi chéo mơ hình bám giám sát [16] Để tính tốn tương tự ảnh văn mơ tả cho ảnh đó, LDA mơ hình (latent dirichlet allocation) mở rộng để học không gian kết nốt chung cho liệu đa phương thức Corr-LDA (correspondence LDA), tr-mm LDA (topicregression multi-modal LDA) Corr-LDA sử dụng chủ đề ẩn biến ẩn để chia sẻ nơi mà biểu diễn tương quan chéo cho liệu đa phương thức Tr-mm LDA học hai tập riêng biệt chủ đề ẩn mô đun hồi quy nơi mà bắt hình thức liên kết tổng quát cho phép chủ đề dự đốn tuyến tính từ chủ đề khác Một số kỹ thuật phương pháp dựa xếp hạng học không gian chung danh sách hạng Yao cộng đề xuất RCCA (ranking canonical correlation analysis) cho truy hồi chéo văn ảnh [16] RCCA sử dụng điều chỉnh không gian học CCA để xếp mối quan hệ liên quan liệu Trong [16] đề cập nhóm tác giả Lu cộng đề xuất giải thuật xếp hạng chéo mơ hình gọi LSCMR ( latent semantic cross-modal ranking) Họ sử dụng SVM để học số liệu cho xếp hạng liệu tạo khoảng cách từ truy vấn tối ưu hóa so với độ đo xếp hạng Chƣơng 3: Mơ hình đề xuất Chương trình bày mơ hình đề xuất luận văn Truy hồi chéo mơ hình cho nhạc lời hát thực ba pha chính: trích chọn đặc trưng, học biểu diễn chéo mơ hình, truy hồi chéo mơ hình Pha thứ trích chọn đặc trưng cho nhạc lời hát cho bước huấn luyện Pha thứ hai, sử dụng vector đặc trưng qua mạng nơ ron để huấn luyện tìm khơng gian chung cho phép tính tốn tương tự chéo nhạc lời hát Áp dụng học sâu cạnh tranh theo [14] để tìm khơng gian biểu diễn chung cho nhạc lời hát Sau sử dụng phân tích tương quan tắc để tìm số lượng thành phần tắc hiệu cho việc truy hồi chéo mơ hình Pha thứ ba sử dụng mơ hình đề xuất để truy hồi chéo mơ hình đánh giá kết truy hồi chéo mơ hình Luận văn đề xuất mơ hình giải tốn hình 3.1 3.1 Trích chọn đặc trƣng Phần 3.1 trình bày trích xuất đặc trưng Mỗi hát biểu diễn theo cặp nhạc, lời nhạc nhãn tương ứng Mỗi vector đặc trưng âm có 3220 chiều đại diện cho nhạc vector đặc trưng lời có 300 chiều đại diện cho lời hát a) Trích chọn đặc trưng âm Đối với nhạc, đặc trưng tín hiệu âm tham số dùng để phân biệt, nhận dạng hát với Kích thước tồn tín hiệu âm lớn, tín hiệu âm dễ bị biến đổi điều kiện khác nên khơng thể sử dụng tồn liệu âm hát làm vector đặc trưng Do đó, trích chọn đặc trưng tín hiệu âm vấn đề quan trọng hệ thống xử lý tín hiệu âm nói chung Cách tiếp cận truyền thống, vector đặc trưng tín hiệu âm xây dựng từ đặc trưng vật lý âm độ to, độ cao, lượng, phổ tần số Trong luận văn trích chọn đặc trưng nhạc, biểu diễn tín hiệu số âm dựa vào tần số Mel – thang đo diễn tả tốt nhạy cảm tai người với âm Trong nhận dạng tiếng nói, âm nói chung, kỹ thuật trích chọn đặc trưng MFCC (Mel-Frequency Cepstral Coeficients) phương pháp phổ biến [20] Kỹ thuật dựa việc thực biến đổi để chuyển liệu âm thành đầu vào biến đổi Fourier cho phổ thang đo tần số Mel Tín hiệu âm rời rạc hóa bao gồm mẫu liên tiếp nhau, mẫu giá trị thực, thể giá trị biên độ âm thời điểm định Trong luận văn, hát lấy 30 giây lấy mẫu với tần số 22050 Hz, đoạn mẫu với số lượng định tạo thành frame Trích chọn đặc trưng MFCC cho tập đặc trưng frame Kết hát sau sử dụng kỹ thuật trích chọn đặc trưng MFCC thư viện Librosa có 646 giá trị đặc trưng cho frame tổng số lượng frame 20 b) Trích chọn đặc trưng lời hát Lời hát tiền xử lý tách từ tách câu, loại bỏ nhiễu, lỗi Các phương pháp trích chọn đặc trưng cho văn phổ biến biểu diễn túi từ (bag of words), túi từ n gram tính tốn mức độ quan trọng từ tài liệu tf-idf (term frequency – inverse document frequency) Phương pháp túi từ làm ngữ nghĩa không quan tâm tới thứ tự từ, túi tùi n-gram xem xét ngữ cảnh ngắn không tốt liệu thưa thớt số chiều lớn Phương pháp tf-idf không tốt liệu thưa thớt, khó khăn việc chọn ngưỡng với số chiều nhỏ Khắc phục nhược điểm phương pháp trên, Word2vec sử dụng tập copus qua mạng nơ ron biểu diễn từ thành vector, vector giữ lại tính chất ngữ nghĩa Tức từ mang ý nghĩa tương tự với gần không gian vector Trong xử lý ngôn ngữ tự nhiên, Word2vec phương thức biểu diễn từ (word embedding) Doc2vec không cho phép biểu diễn từ, câu mà cho phép biểu diễn đoạn văn Khi sử dụng Doc2vec mơ hình cho phép dễ dàng vector hóa đoạn văn thành vector có số chiều cố định nhỏ Cũng Word2vec, Doc2vec có hai mơ hình DBOW( Distributed Bag Of Words) DM (Distributed Memory) Mơ hình DBOW không quan tâm thứ tự từ, huấn luyện nhanh hơn, không sử dụng ngữ cảnh cục Sau huấn luyện xong có vector biểu diễn văn Mơ hình DM nối từ vào tập từ câu Trong trình huấn luyện, vector từ đoạn văn cập nhật 3.2 Học sâu Phần 3.2 trình bày phương pháp học sâu Học đối kháng thực thi hai trình chạy đối lập cố gắng 10 làm tốt q trình cịn lại Q trình thứ ánh xạ đặc trưng (feature projector) coi pha sinh mẫu (Generative) cố gắng tạo biểu diễn mô hình khơng gian chung đối kháng lại với pha Q trình thứ hai phân lớp mơ hình (modality classifier) coi pha phân biệt (Discriminative) cố gắng phân biệt mơ hình khác dựa biểu diễn không gian chung Phương pháp đối kháng học tập đặc trưng nhạc A lời hát T để tìm khơng gian chung S = {SA, ST} cho phép truy hồi chéo mơ hình nhạc lời hát Ở hai hàm ánh xạ fA, fT : SA = fA(A, θA), ST = fT(T, θT), thực chuyển đổi giá trị đặc trưng nhạc, lời hát tương ứng sang không gian S với số chiều đặc trưng với mạng truyền thẳng (feedforward networks) tầng Các tầng kết nối hoàn toàn (fully connected) có thơng số để đảm bảo đủ khả biểu diễn giá trị thống kê nhạc lời hát Sau đó, ánh xạ đặc trưng phân lớp mơ hình huấn luyện để học đối kháng nhằm mục đích tìm mơ hình phân biệt đặc trưng nhạc lời dựa nhãn 3.3 Phân tích tƣơng quan tắc Phần 3.3 trình bày khái niệm CCA ứng dụng CCA cho truy hồi chéo mơ hình nhạc lời hát theo công thức (16) 3.4 Truy hồi chéo mơ hình Pha truy hồi chéo mơ hình sử dụng mơ hình học ở pha trước, đầu vào nhạc lời hát đầu danh sách lời hát nhạc liên quan tới truy vấn Để đánh giá kết truy hồi chéo mơ hình, luận văn sử dụng độ đo 11 trung bình xếp hạng liên quan MRR (mean reciprocal rank), độ hồi tưởng R (Recall) MRR độ đo xem xét vị trí xếp hạng đối tượng liên quan trả tính theo cơng thức (20) Độ hồi tưởng R@k tính trung bình tất truy vấn theo cơng thức (21) Chƣơng 4: Thực nghiệm đánh giá Chương mơ tả liệu trình bày kịch thực nghiệm đánh giá hiệu phương pháp đề xuất 4.1 Dữ liệu trích xuất đặc trƣng Phần 4.1 mơ tả liệu, cơng cụ trích xuất đặc trưng bảng 4.1 4.2 Môi trƣờng công cụ thực nghiệm Phần 4.2 mô tả công cụ thực nghiệm bảng 4.2 4.3 Kịch thực nghiệm Luận văn thực kịch thực nghiệm: thực nghiệm phương pháp đề xuất, thực nghiệm so sánh với RCCA, thực nghiệm so sánh với phương pháp khác [20] liệu đánh giá kết thực nghiệm độ đo - Thực nghiệm phương pháp đề xuất: thực nghiệm kiểm thử chéo tập (cross-validation) truy hồi chéo mơ hình cho nhạc lời hát với độ đo Đánh giá kết độ đo trung bình tập kiểm tra 12 - Thực nghiệm với RCCA: so sánh kết thực nghiệm truy hồi chéo mơ hình cho nhạc lời hát với CCA - Thực nghiệm so sánh với phương pháp [20]: PretrainCNN-CCA, DCCA, PretrainCNN-DCCA, JointTrainDCCA liệu để đánh giá So sánh đánh giá thực nghiệm với phương pháp đề xuất [20] JointTrainDCCA 4.3 Kết thực nghiệm đánh giá Phần 4.3 trình bày Thực nghiệm đánh giá thực độ đo MRR mức độ thực thể mức độ nhãn MRR mức độ thực thể tính dựa độ tương tự co-sin mà khơng quan tâm tới nhãn nhạc lời hát, kí hiệu I-MRR-A, IMRR-L với A, L sử dụng nhạc, lời hát đầu vào truy vấn tương ứng MRR mức độ nhãn tính dựa nhãn nhạc lời hát Thực nghiệm đánh giá với độ đo R@1A, R@1-L, R@5-A R@5-L a) Kết thực nghiệm phương pháp đề xuất Kết độ đo MRR mức độ thực thể, mức độ nhãn, R@1, R@5 phương pháp đề xuất bảng 4.3 b) Kết thực nghiệm với RCCA Kết độ đo với phương pháp RCCA chọn tham số chuẩn tốt r = 1e-04 bảng 4.4 c) So sánh với phương pháp khác So sánh phương pháp đề xuất với bốn phương pháp [20] với độ đo MRR mức độ thực thể, mức độ nhãn, R@1, R@5 bảng 4.5, 4.6, 4.7, 4.8, 4.9 4.10 tương ứng với sử dụng nhạc, lời hát truy vấn 13 KẾT LUẬN Truy hồi chéo mơ hình khơng chủ đề quan tâm cộng đồng nghiên cứu giới mà nhận quan tâm công nghiệp Các nghiên cứu ứng dụng nhằm cải tiến đáp ứng nhu cầu truy vấn chéo thông tin liệu đa phương thức người dùng Cùng góp phần vào trào lưu nghiên cứu giới, luận văn có tên đề tài truy hồi chéo mơ hình cho nhạc lời hát thực để xây dựng mô hình cho phép truy hồi chéo sử dụng nhạc truy vấn sử dụng lời hát truy vấn Luận văn đề xuất phương pháp kết hợp học sâu phân tích tương quan tắc sử dụng mơ hình đề xuất để truy hồi chéo cho nhạc lời hát Đồng thời luận văn đánh giá so sánh hiệu phương pháp đề xuất với phương pháp điển hình khác để chứng minh phương pháp đề xuất khả quan để ứng dụng vào thực tiễn Kết độ đo MRR, R@1, R@5 phương pháp đề xuất luận văn sử dụng nhạc hay sử dụng lời hát truy vấn từ 30% đến 50% tập liệu âm nhạc Phương pháp đề xuất luận văn ứng dụng cho hệ thống tìm kiếm chéo trang âm nhạc nhằm đáp ứng nhu cầu truy vấn người dùng 14 TÀI LIỆU THAM KHẢO Andrew, G., Arora, R., Bilmes, J., Livescu, K.: Deep canonical correlation analysis In International Conference on Machine Learning pp 1247-1255 (2013) Boutell, M., Luo, J.: Photo classification by integrating image content and camera metadata In Pattern Recognition, 2004 ICPR 2004 Proceedings of the 17th International Conference on vol 4, pp 901-904 IEEE (2004) Chaudhuri, K., Kakade, S.M., Livescu, K., Sridharan, K.: Multi-view clustering via canonical correlation analysis In Proceedings of the 26th annual international conference on machine learning pp 129-136 ACM (2009) De Bie, T., De Moor, B.: On the regularization of canonical correlation analysis Int Sympos ICA and BSS pp 785-790 (2003) Feng, F., Li, R., Wang, X.: Deep correspondence restricted boltzmann machine for cross-modal retrieval Neurocomputing 154, 50-60 (2015) Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., Bengio, Y.: Generative adversarial nets In: Advances in neural information processing systems pp 2672-2680 (2014) Hu, X., Downie, J.S., Ehmann, A.F.: Lyric text mining in music mood classification American music 183(5,049), 2-209 (2009) Le, Q., Mikolov, T.: Distributed representations of sentences and documents In International Conference on Machine Learning pp 1188-1196 (2014) Mandal, A., Maji, P.: Regularization and shrinkage in rough set based canonical correlation analysis In International Joint Conference on Rough Sets pp 432-446 Springer (2017) 15 10 Mandal, A., Maji, P.: Faroc: fast and robust supervised canonical correlation analysis for multimodal omics data IEEE transactions on cybernetics 48(4), 1229-1241 (2018) 11 McAuley, J., Leskovec, J.: Image labeling on a network: using social-network metadata for image classification In European conference on computer vision pp 828-841 Springer (2012) 12 Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., Ng, A.Y.: Multimodal deep learning In Proceedings of the 28th international conference on machine learning (ICML-11) pp 689-696 (2011) 13 Peng, Y., Huang, X., Qi, J.: Cross-media shared representation by hierarchical learning with multiple deep networks In IJCAI pp 3846-3853 (2016) 14 Wang, B., Yang, Y., Xu, X., Hanjalic, A., Shen, H.T.: Adversarial cross-modal retrieval In Proceedings of the 2017 ACM on Multimedia Conference pp 154- 162 ACM (2017) 15 Wang, K., He, R., Wang, W., Wang, L., Tan, T.: Learning coupled feature spaces for cross-modal matching In Proceedings of the IEEE International Conference on Computer Vision pp 2088-2095 (2013) 16 Wang, K., Yin, Q., Wang, W., Wu, S., Wang, L.: A comprehensive survey on cross-modal retrieval arXiv preprint arXiv:1607.06215 (2016) 17 Xia, R., Pan, Y., Lai, H., Liu, C., Yan, S.: Supervised hashing for image retrieval via image representation learning In AAAI vol 1, p (2014) 18 Yan, F., Mikolajczyk, K.: Deep correlation for matching images and text In Proceedings of the IEEE conference on computer vision and pattern recognition pp 3441-3450 (2015) 19 Yao, T., Mei, T., Ngo, C.W.: Learning query and image similarities with ranking canonical correlation analysis In 16 Proceedings of the IEEE International Conference on Computer Vision pp 28-36 (2015) 20 Yu, Y., Tang, S., Raposo, F., Chen, L.: Deep crossmodal correlation learning for audio and lyrics in music retrieval arXiv preprint arXiv:1711.08976 (2017) 21 Zhang, H., Xu, T., Li, H., Zhang, S., Huang, X., Wang, X., Metaxas, D.: Stackgan: Text to photo-realistic image synthesis with stacked generative adversarial networks arXiv preprint (2017) 22 Zhang, J., Peng, Y., Yuan, M.: Unsupervised generative adversarial cross-modal hashing arXiv preprint arXiv:1712.00358 (2017) ... Mơ hình học đại diện chung cho nhạc lời hát Sử dụng mơ hình để truy hồi chéo mơ hình nhạc lời hát Cụ thể luận văn giải hai tốn con: Xây dựng mơ hình cho phép truy hồi thông tin chéo nhạc lời hát. .. CCA cho truy hồi chéo mơ hình nhạc lời hát theo cơng thức (16) 3.4 Truy hồi chéo mơ hình Pha truy hồi chéo mơ hình sử dụng mơ hình học ở pha trước, đầu vào nhạc lời hát đầu danh sách lời hát nhạc. .. xây dựng hệ thống truy hồi chéo thông tin liệu đa phương tiện Luận văn tập trung vào giải tốn cải tiến độ xác cho truy hồi chéo mơ hình nhạc lời hát Đầu vào: Tập liệu nhạc, liệu lời hát nhãn