Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 87 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
87
Dung lượng
3,66 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUỐC TẾ HỒNG BÀNG PHẠM ĐÌNH TÀI XÂY DỰNG CHƯƠNG TRÌNH NHẬN DIỆN BÀI HÁT DẠNG MP3 QUA ĐOẠN GHI ÂM CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC TS VŨ THANH HIỀN TP HỒ CHÍ MINH – NĂM 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUỐC TẾ HỒNG BÀNG PHẠM ĐÌNH TÀI XÂY DỰNG CHƯƠNG TRÌNH NHẬN DIỆN BÀI HÁT DẠNG MP3 QUA ĐOẠN GHI ÂM LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH – NĂM 2017 CHUẨN Y CỦA HỘI ĐỒNG BẢO VỆ LUẬN VĂN Luận văn tựa đề “Xây dựng chương trình nhận diện hát dạng MP3 qua đoạn ghi âm” học viên Phạm Đình Tài thực nộp nhằm thỏa mãn yêu cầu tốt nghiệp Thạc sĩ ngành Khoa Học Máy Tính Ngày bảo vệ luận văn, TPHCM, ngày … tháng … năm 2017 Viện Đào Tạo Sau Đại Học Người Hướng Dẫn KH TS Thái Hữu Tuấn TS Vũ Thanh Hiền Ngày … tháng … năm 2017 Đại học Công Nghệ TP Hồ Chí Minh Ngày … tháng … năm 2017 LÝ LỊCH CÁ NHÂN – SƠ YẾU LÝ LỊCH - Họ tên: Phạm Đình Tài 08 tháng 01 năm 1984 - Ngày sinh: - Nơi sinh: Khuyến Nông – Triệu Sơn – Thanh Hoá - Tốt nghiệp PTTH Trƣờng Phan Bội Châu, T.T Krông Năng, huyện Krông Năng, tỉnh Đắk Lắk - Địa liên lạc: 26A, HT 49, KP1, phƣờng Hiệp Thành, quận 12, Tp HCM - Điện thoại: 0985.73.39.39 - Email: dinhtai2003@gmail.com - QUÁ TRÌNH HỌC TẬP: THỜI GIAN NƠI HỌC TẬP 2003 -2006 Trƣờng CĐSP Đắk Lắk 2006 - 2008 Trƣờng Đại học Mở Thành phố Hồ Chí Minh - QUÁ TRÌNH CÔNG TÁC: THỜI GIAN 2008 - 2013 2013 - Nay NƠI CÔNG TÁC 442, Nguyễn Thị Minh Khai, quận CHỨC VỤ Nhân viên Lan & Hardware CV Phần Mềm Quang Trung, Chuyên viên Quản trị hệ quận 12 thống hạ tầng i LỜI CAM ĐOAN Tôi xin cam đoan đề tài “Xây dựng chương trình nhận diện hát dạng MP3 qua đoạn ghi âm” công trình nghiên cứu Ngoại trừ tài liệu tham khảo đƣợc trích dẫn luận văn này, cam đoan toàn phần hay phần nhỏ luận văn chƣa đƣợc công bố sử dụng để nhận cấp nơi khác Không có sản phẩm, nghiên cứu ngƣời khác đƣợc sử dụng luận văn mà không đƣợc trích dẫn theo quy định TP Hồ Chí Minh, ngày … tháng … năm 2017 Tác giả luận văn Phạm Đình Tài ii LỜI CẢM ƠN Để thực đƣợc luận văn này, em nhận đƣợc nhiều hƣớng dẫn, giúp đỡ góp ý quý báu từ quý thầy cô, bạn bè đồng nghiệp Trƣớc hết, em xin gửi lời cảm ơn chân thành đến thầy TS Vũ Thanh Hiền định hƣớng tận tình hƣớng dẫn giúp đỡ em hoàn thành luận văn Em xin chân thành cảm ơn P.CNTT thuộc Ngân Hàng TMCP Á Châu Trung Tâm liệu Datacenter Quang Trung tạo điều kiện mặt thời gian để em bƣớc hoàn thành đề tài Nhân đây, em xin tỏ lòng biết ơn sâu sắc tới quý thầy cô trƣờng ĐH Quốc tế Hồng Bàng truyền cho em kiến thức quý báu năm học vừa qua Đồng thời, em xin cảm ơn bạn học viên lớp KHMT K2Đ1, xin cảm ơn gia đình, bạn bè, đồng nghiệp ủng hộ, góp ý giúp đỡ em trình thực đề tài nghiên cứu Mặc dù cố gắng hoàn thành luận văn với tất nỗ lực nhƣng hạn chế thời gian, chắn luận văn thiếu sót, mong nhận đƣợc đóng góp quý báu thầy cô bạn TP Hồ Chí Minh, ngày … tháng … năm 2017 Tác giả luận văn Phạm Đình Tài iii TÓM TẮT Nhận diện âm nói chung nhận diện âm qua đoạn ghi âm nói riêng kỹ thuật nhận diện phần nhỏ nội dung toàn âm đƣợc ghi âm từ nguồn tổng hợp cho trƣớc Nhận diện âm đƣợc bƣớc phát triển to lớn từ năm trƣớc Có nhiều nhiều công trình nghiên cứu đƣợc đƣa nhằm tăng tính hiệu quả, kết ngày đƣợc hoàn thiện có độ xác cao Trong luận văn chủ yếu tập tìm hiểu trình chuyển đổi âm thanh, biến đổi âm thanh, cách thức xử lý liệu âm thanh, phân tích trình so khớp nguồn âm ghi âm với liệu đƣợc lấy mẫu Phân tích nhằm đƣa thuật toán nhận diện tần số âm đặc trƣng, tiến hành lƣu trữ, so khớp đánh giá trình trả kết iv ABSTRACT An audio fingerprint in general and an audio fingerprint through the recording in particular is the technique which identifies a small portion of all sounds that recorded from a given source An audio fingerprint had many tremendous development steps from previous years Many studies were published to increase effectiveness and result is more perfect and accurate The thesis primarily focuses on understanding the process of sound converting, sound modifying, the way to process sound data, analyzing the process which compares recorded sound sources to sampled data The analysis aims to provide an algorithm that identifies low sound characteristic frequencies, conducts storage, compares, and evaluates the result return process v NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN TP Hồ Chí Minh, ngày … tháng … năm 2017 vi NHẬN XÉT CỦA GIẢNG VIÊN PHẢN BIỆN TP Hồ Chí Minh, ngày … tháng … năm 2017 vii Điều tạo linh hoạt nhận biết hát đoạn ghi âm vị trí đoạn đầu, đoạn hay đoạn cuối hát CSDL Cuối cùng, trình nghi âm lấy mẫu, việc tiến hành phân tích trả kết phải trải qua nhiều giai đoạn, kết trả kết tối ưu, kết chưa xác Đoạn ghi âm bao gồm nhiều tiếng ồn, âm tạp, việc lấy mẩu bi thất thoát Vì vậy, thay cố gắng để loại bỏ chúng, kết trả list tập hợp hát có nội dung gần nội dung nhận diện giảm dần theo thức tự từ tốt đến xấu đồng thời bái muốn nhận diện năm danh sách hát Khi thỏa mản yêu cầu đặt ra, chương trình đưa kết xác định hát tối ưu -52 CHƢƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 CHUẨN BỊ CHƢƠNG TRÌNH 4.1.1 Cở sở liệu thực nghiệm Các danh sách hát tìm kiếm từ nguồn internet dạng *.mp3 Bao gồm nhiều nguồn khác nhau, từ hát xuất từ năm đầu thập niên trước đến năm để so sánh Quá trình lấy mẩu lưu trữ đẩy xuống dạng file *.xml Việc lựa chọn file *.xml để thuận tiện cho trình test thực nghiệm so sớp với thời gian chương trình chạy Tiến hình lấy mẩu lấy file thêm vào, thư mục chứa tất hát dạng mp3 Việc chọn file âm phù hợp dạng *.mp3, có bitrate la 192kbps samplerate la 44,100 Hz 4.1.2 Ngôn ngữ lập trình chƣơng trình thực nghiệm Để thuận tiện cho trình cài đặt, xây dựng test chương trình, luận văn chọn: + Ngôn ngữ lập trình Java + Công cụ hỗ trợ lập trình mà nguồn mở Eclipse (IBM) java EE IDE, phiên Neon Release (4.6.0) [1] + Các thư viện mã nguồn addon java + Tool thiết kế giao diện Java FX Scenne Builder 8.2.0 [2] 4.2 XÂY DỰNG CHƢƠNG TRÌNH TÌM KIẾM BÀI HÁT MP3 QUA ĐOẠN GHI ÂM 4.2.1 Giao diện Dưới dây giao diện tiến hành chạy chương trình: + Chương trình chạy hệ điều hành Windows 10, hệ thống ghi âm mặc định mở + Âm nhạc phát để ghi âm từ thiết bị thứ điện thoại, trực tiếp từ máy tính -53 Hình 4.1: Giao diện chương trình - Hệ thống Menu - Tổng danh sách hát lấy mẫu - Danh sách tên hát lấy mẫu -54 4.2.2 Modun lấy mẩu, thêm hát vào CSDL Hình 4.2: Quá trình lấy mẫu hát vào CSDL - Bài hát: Lựa chọn hát dạng mp3 đưa vào CSDL để phân tích - Thư mục: Lưa chọn quét tất hát dạng mp3 lưu vào CSDL Quá trình quét tất thư mục - Thêm: Quá trình xử lý lấy mẩu, rút trích, lọc bỏ đảm bảo lấy âm có tần số cao (Quá trình thực liên tục quét tất hát) - Trở về: Quay lại giao diện chương trình 4.2.3 Phân tích tìm kiếm hát - Tiến hành ghi âm đoạn hát cần tìm kiếm, trình ghi âm khoảng thời gian quy định 10 giây - Bắt đầu: Tiến hành trình so khớp trả kết -55 - Bài hát: Hiện thị danh sách hát trả với mức độ so trùng tốt giam dần Hình 4.3: Phân tích trình nhận diện hát Chọn số kết thị để chương trình trả list danh sách tên hát ca sĩ trình bày Hình 4.4: Kết thị theo list danh sách Bài hát xác nhất: Trả kết tối ưu nhận diện Bài hát xác có Max Count có giá trị cao Và phân biệt với hát lại -56 Hình 4.5: Kết trả kết thúc trình nhận diện Trong trình test, muốn tạm ngưng lấy mẫu đồng thời hoán chuyển trạng thái nút sau để chương trình ghi nhận kết trả (Quá trình lấy mẫu 2s, 3s, 5s, 10s, 15s ) Hình 4.6: Hoán chuyển trạng thái nút để kết thúc trình lấy mẫu Hình 4.7: Kết tốt -57 4.3 So trùng 4.3.1 Kết thực nghiệm chƣơng trình Thể đồ thị với trực X, tập hợp toàn tần số trích lọc lưu trữ file liệu Những tần số rút trích lưu trữ đại diện việc lấy mẫu (Dữ liệu hát theo thời gian) Trực Y, tập hợp tần số rút trích Dữ liệu ghi âm theo thời gian thời điểm khoảng khắc đoạn ghi âm (Dữ liệu đoạn nhạc ghi âm) [11] 25 20 15 10 10 20 30 40 50 60 70 Dữ liệu hát theo thời gian Hình 4.8: Đồ thị mô tả tần số CSDL Sự xuất điểm đoạn ghi âm điểm hát lưu trữ có thiên hướng trùng tịnh tiến theo thời gian (Vòng tròn màu xanh Dữ liệu ghi âm theo thời gian điểm đoạn ghi âm, màu đen tập hợp liệu hát) 25 20 15 10 10 20 30 40 50 60 70 Dữ liệu hát theo thời gian Hình 4.9: Đồ thị so trùng liệu lấy mẫu liệu CSDL -58 Hiện thực hóa trình trùng khớp điểm đoạn ghi âm điểm Dữ liệu ghi âm theo thời gian CSDL thành biểu đồ 25 20 15 10 10 30 20 40 50 60 70 Dữ liệu hát theo thời gian Hình 4.10: Đồ thị thiên hướng trùng lắp đoạn lấy mẫu liệu CSDL Với trùng lắp lớn việc xác định hát đạt hiệu có độ xác cao [12] 4.3.2 So sánh thời gian xử lý lấy mẫu Thực nghiệm chương trình với quy chuẩn sau đây: + Số lượng hát CSDL 200 hát + Tên hát nhận diện: Happy Birdthday - Kid Joy.mp3 + Số lần tìm kiếm 10 + Kết theo thứ tự tên hát (Hình mô tả cho lần tìm kiếm) + Tỷ lệ: Số lần tìm kiếm xác 10 lần + Max count: Tính xác trả so khớp -59 Thời gian (s) Bài hát Tên hát tìm Max Kết theo thứ tự CSDL kiếm count (5 hát) 200 Happy Tỷ lệ % 0% 0% 40% 21 80% 24 90% 29 95% 41 99% 61 100% Birdthday - Kid Joy.mp3 200 Happy Birdthday - Kid Joy.mp3 200 Happy Birdthday - Kid Joy.mp3 200 Happy Birdthday - Kid Joy.mp3 200 Happy Birdthday - Kid Joy.mp3 200 Happy Birdthday - Kid Joy.mp3 10 200 Happy Birdthday - Kid Joy.mp3 12 200 Happy Birdthday - Kid Joy.mp3 Bảng 4.1: Thông số thực nghiệm chương trình lấy mẫu theo thời gian -60 Biểu đồ mô tả kết kiểm tra độ xác BIỂU ĐỒ KẾT QUẢ KIỂM TRA ĐỘ CHÍNH XÁC 120% Độ xác (%) 100% 80% 60% 40% 20% 0% 10 12 Thời gian lấy mẫu (s) Hình 4.11: Biểu đồ kết kiểm tra độ xác 4.3.3 So sánh cách thức thực chƣơng trình trƣớc Thực nghiệm so sánh với chương trình trước đây: Download chương trình Shazam, SoundHound, MusicID điện thoại thông minh, kết nối internet tiến hành test thực nghiệm máy, ứng với thời điểm + Chương trình Shazam + Chương trình SoundHound + MusicID -61 BẢNG SO SÁNH CÁC CHƢƠNG TRÌNH NHẬN DIỆN Tên chương trình Tên hát tìm kiếm Thời gian lấy mẫu (s) Tỷ lệ % Shazam 100% SoundHoud We Don_t Talk Anymore - Charlie Puth_ Se MisucID Luận Văn 100% 100% 100% Bảng 4.2: So sánh chương trình với Luận văn thực 4.4 ĐÁNH GIÁ 4.4.1 Kết đạt đƣợc luận văn Luận văn “Xây dựng chương trình nhận diện hát dạng mp3 qua đoạn nghi âm” hoàn thành yêu cầu đặt lý luận thực nghiệm Không cần phải ghi nhớ nhiều nội dung hát, việc tìm kiếm diễn môi trường khác nhau, quán cà phê, sóng radio, khu trung tâm thương mại… âm nhạc cất lên, nghe rõ giai điệu hát đo ứng dụng công nghệ để tìm hiểu hát yêu thích phát gì? Ca sĩ ai? Trong trình xây dựng Luận văn trình bày hệ thống trình nhận dạng hát, thử nghiệm sở liệu hát tập hợp từ nhiều nguồn khác Sau chuẩn hóa thành dạng MP3 chuẩn để tiến hành phân tích Đầu tiên, giải thuật tự động xác định hát lấy mẫu chuyển hóa liệu hát lấy mẫu từ dạng tín hiệu liên tục sang dạng rời rạc Một phương pháp biến đổi từ miền thời gian sang miền tần số theo khái niệm xử lý tín hiệu số Phương pháp biến đổi nhanh Fourier đặc biệt hiệu làm giảm kích thời gian chuyển đổi, trình chuyển đổi diễn nhanh trình lấy mẫu trình phân tích Kế tiếp, dựa vào tần số cao xác định ngưỡng, loại bỏ liệu có tần số thấp không cần thiết ghi tần số cao vào mạng hash Những tần số đưa so sánh qua trình ghi âm hát tìm kiếm -62 Bước cuối so khớp tần số thời gian lưu trữ, liệu hát có tần số thời gian khớp xác với đoạn lấy mẫu đưa kết luận Luận văn cụ thể đạt số kết sau: + Tìm hiểu tổng quan âm định dạng âm thanh, chuyển đổi âm hệ thống xử lý tín hiệu số + Quá trình hình thành nốt nhạc ứng với tần số tương ứng + Vận dụng phép biến đổi Fourier (DFT) cách thức chuyển đổi DFT sang biến đổi nhanh Fourier (FFT) + Xây dựng phương pháp lược bỏ tần số không cần thiết ngưỡng nghe tai người (40 Hz – 180 Hz) + Ứng dụng Fuzzy trình thực nghiệm + Lưu trữ trình lấy mẫu vào máy tính thành file Song.xml + Thiết kế chương trình demo theo giao diện gồm phần: * Phần lấy mẫu: Tiến hành lấy mẫu khoảng thời gian định, lưu trữ file lấy mẫu vào file * Phần nhận diện: Thực việc ghi âm mặc định khoảng 15s để tiến hành việc lấy mẫu, đồng thời đưa so sánh Trả kết gần kết xác Luận văn mang tính xây dựng nên tìm hiểu quà trình hình thành đưa vào thuật toán làm tăng độ nhanh chóng xác truy xuất so khớp trình lấy mẫu đoạn ghi âm hát mẫu sở liệu Kết đạt độ xác cao trình so khớp khoảng thời gian lấy mẫu 10s – 15s, thời gian lấy mẫu cao độ xác lớn 4.4.2 Những hạn chế luận văn Tiến hành tách phần Server (quá trình lấy mẫu Server riêng biệt với Client) Server đảm nhận vai trò lưu trữ CSDL tiến hành so khớp trả kết Phần Client thực máy tính hay điện thoại để tăng khả tiện lợi, thích hợp với việc di chuyển Chương trình điện thoại thực việc lấy mẫu đoạn ghi âm, tiến hành kết nối với máy máy chủ (Server trên) kết trình so khớp máy Client -63 Chương trình thuật toán nhận diện lấy mẫu khoảng thời gian ngắn, phụ thuộc vào yếu tố thời gian Cần cải tiến để việc nhận diện tốt 4.4.3 Kiến nghị hƣớng phát triển Do nhiều hạn chế nên đề tài chưa phát huy hết khả của chương trình nhằm phục vụ tốt cho tất nhu cầu người dùng người dùng điện thoại di dộng, đề tài khả phát triển lớn Cải tiến chương trình: + Phát triển chương trình điện thoại Smart phone (Iso, android, PC) + Tìm trả kết thu âm hát khoảng – giây + Có thể nhận diện hát dang âm khác + Kết trả thêm nhiều thông tin như: Tên tác giả, lời hát … Dựa mô hình cần phát triển mong muốn tương lai hoàn thiện chương trình đầy đủ, đáp ứng nhu cầu cần thiết người dùng -64 TÀI LIỆU THAM KHẢO [1] Gluon (2016), " JavaFX Scene Builder 8.0 ", in Gluon, Ltd [2] IBM (2016), " Eclipse Neon ", in IBM, Ltd [3] Swati V Sutar, DG Bhalke (2015), " Audio Fingerprinting using Fractional Fourier Transform ", Department of Electronics & Telecommunication, JSPM’s RSCOE college of Engineering Pune, India [4] Ts Nguyễn Thanh Bình, Ths Võ Nguyễn Quốc Bảo (2007), " Xử lý âm hình ảnh ", Đại học Bưu Chính Viễn Thông [5] Ts Trịnh Thu Hoài (2012), " Giáo Trình Môn Lý Thuyết Âm Nhạc Cơ Bản ", Trường Đại Học Sư Phạm Nghệ Thuật Trung Ương [6] Trần Viết Cường (2012), " Tiêu chuẩn MP3 - Định dạng âm nén MP3 ", Cục Ứng dụng Công Nghệ Thông Tin [7] Feng Shuyu (2007), " Efficient And Robust Audio Fingerprinting ", B.Eng, Wuhan University, PRC [8] Nguyễn Quốc Trung (2001), " Xử lý tín hiệu lọc số ", Tập 1,2 Nhà xuất Khoa học Kỹ Thuật, Hà Nội [9] Th.s Nguyễn Hoàng Huy (2010), " Bài giảng điện tử thông tin ", Trường Đai học Tôn Đức Thắng, TP Hồ Chí Minh [10] Ngoc Q K Duong, Hien-Thanh Duong (2015), " A Review of Audio Features and Statistical Models Exploited for Voice Pattern Design ", Technicolor 975 avenue des Champs Blancs 35576 Cesson Sevign´e,France and Faculty of Information Technology Hanoi University of Mining and Geology Hanoi city, Vietnam [11] A Wang (2003), " An Industrial-Strength Audio Search Algorithm ", in Proceedings of ISMIR [12] Stephen Shum (2011), " The Basics of Audio Fingerprinting ", Operations Research from MIT [13] Đinh Đức Anh Vũ (2010), " Biến đổi Fourier nhanh ", ĐH Bách Khoa TP Hồ Chí Minh [14] https://www.shazam.com/ Ngày truy cập 10/02/2016 [15] https://soundhound.com/ Ngày truy cập 10/02/2016 [16] http://musicid.com/ Ngày truy cập 11/02/2016 -65 [17] http://vi.wikipedia.org/wiki/Fourier_nhanh/ Ngày truy cập 10/02/2016 [18] http://www.soyoucode.com/2011/how-does-shazam-recognize-song/ Ngày truy cập 16/4/2016 [19]http://www.royvanrijn.com/blog/2010/06/creating-shazam-in-java/, Ngày truy cập 20/4/2016 [20]http://www.toptal.com/algorithms/shazam-it-music-processingfingerprinting-and-recognition/ Ngày truy cập 20/4/2016 [21] http://coding-geek.com/how-shazam-works/ Ngày truy cập 20/4/2016 [22]http://introcs.cs.princeton.edu/java/97data/FFT.java.html/ Ngày truy cập 20/5/2016 -66 ... TÀI XÂY DỰNG CHƯƠNG TRÌNH NHẬN DIỆN BÀI HÁT DẠNG MP3 QUA ĐOẠN GHI ÂM LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH – NĂM 2017 CHUẨN Y CỦA HỘI ĐỒNG BẢO VỆ LUẬN VĂN Luận văn tựa đề Xây dựng chương trình nhận. .. TÓM TẮT Nhận diện âm nói chung nhận diện âm qua đoạn ghi âm nói riêng kỹ thuật nhận diện phần nhỏ nội dung toàn âm đƣợc ghi âm từ nguồn tổng hợp cho trƣớc Nhận diện âm đƣợc bƣớc phát triển to lớn... tin đoạn ghi âm hát cho trước Nội dung đoạn ghi âm thu khoảng từ 10 giây đến 20 giây đoạn hát Ở Việt Nam, có nhiều công trình nghiên cứu nhận diện âm hầu hết tập trung nghiên cứu chủ yếu nhận dạng