Phương pháp nhận dạng cảm xúc âm nhạc trên cơ sở học máy

26 75 0
Phương pháp nhận dạng cảm xúc âm nhạc trên cơ sở học máy

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG HUỲNH THỊ HOÀNG CHI PHƯƠNG PHÁP NHẬN DẠNG CẢM XÚC ÂM NHẠC TRÊN CƠ SỞ HỌC MÁY Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 TĨM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2016 Công trình hồn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TS LÊ VĂN SƠN Phản biện 1: PGS TS Nguyễn Thanh Bình Phản biện 2: PGS TS Lê Mạnh Thạnh Luận văn bảo vệ Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Kỹ thuật họp Đại học Đà Nẵng vào ngày 25 tháng năm 2016 Có thể tìm hiểu luận văn tại: Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng MỞ ĐẦU Lý chọn đề tài Thông thường, việc phân loại âm nhạc sử dụng thẻ tên album, tên ca sĩ, tên hát; nhiên phương pháp không làm hài lòng người số trường hợp yêu cầu cụ thể Ví dụ, người ta cần nhạc với nhịp độ chậm để thư giãn thể dễ ngủ Hay bữa tiệc cần số hát vui nhộn với nhịp độ nhanh để giúp người thỏa mãn hứng thú, niềm đam mê Trong trường hợp này, phân loại nhạc theo cảm xúc hợp lý so với cách truyền thống người khơng có đủ thời gian kiên nhẫn để tìm nhạc thích hợp cách kiểm tra Gần nhận dạng cảm xúc âm nhạc (Music Emotion Recognition - MER) trở thành đề tài nghiên cứu thiết thực Đề tài giải cách cách tiếp cận phân loại Vấn đề cách tiếp cận phân loại khái niệm cảm xúc nhóm cảm xúc áp dụng kỹ thuật học máy để huấn luyện máy phân loại Các khái niệm cảm xúc đa dạng; nghiên cứu khác sử dụng cảm xúc khác Đó nhược điểm lớn cách tiếp cận phân loại lớp cảm xúc nhỏ so với cảm nhận phong phú âm nhạc người Vì vậy, vấn đề liên quan đến lớp cảm xúc lớp nên sử dụng dường bỏ ngõ Bên cạnh đó, việc phát triển hệ thống tự động phân loại âm nhạc cách xác thành nhiều lớp khó khăn Người ta quan sát thấy độ xác phân loại mơ hình tự động tỷ lệ nghịch với số lượng lớp xem xét Trong đề tài cảm xúc: hạnh phúc, giận dữ, buồn bã, sợ hãi, dịu dàng sử dụng để phân loại thay cảm xúc phần lớn nghiên cứu trước Kích thước tập liệu âm nhạc cơng trình trước liên quan đến MER thường không đủ lớn Để cải thiện tính xác nhận dạng cảm xúc, 400 clip âm nhạc sử dụng để tạo mô hình huấn luyện đề tài Vì lý trên, đề xuất chọn đề tài luận văn cao học: “Phương pháp nhận dạng cảm xúc âm nhạc sở học máy” Mục tiêu nghiên cứu Mục tiêu đề tài đề xuất phương pháp nhận dạng cảm xúc âm nhạc sở học máy Đề tài tập trung vào nhiệm vụ cụ thể sau: - Tìm hiểu lý thuyết nhận dạng cảm xúc - Tìm hiểu mối quan hệ đặc tính âm nhạc nhận thức cảm xúc - Tìm hiểu phương pháp nhận dạng cảm xúc Đối tƣợng phạm vi nghiên cứu  Đối tượng nghiên cứu - Các phương pháp nhận dạng cảm xúc - Các đặc tính âm nhạc  Phạm vi nghiên cứu - Nghiên cứu lĩnh vực âm nhạc sở học máy Phƣơng pháp nghiên cứu  Phƣơng pháp nghiên cứu lý thuyết - Tiến hành thu thập nghiên cứu tài liệu có liên quan đến đề tài - Tổng hợp tài liệu - Chọn lọc tài liệu nghiên cứu để báo cáo luận văn  Phƣơng pháp nghiên cứu thực nghiệm - Xây dựng mơ hình nhận dạng cảm xúc âm nhạc - Xây dựng tập liệu âm nhạc - Xây dựng mơ hình huấn luyện công cụ Weka - Kiểm tra, thử nghiệm đánh giá kết Ý nghĩa khoa học thực tiễn đề tài - Áp dụng lý thuyết tính toán cảm xúc học máy để nhận dạng cảm xúc âm nhạc - Đề xuất giải pháp góp phần phân loại tổ chức âm nhạc hiệu hơn, giúp cho người thưởng thức âm nhạc dễ dàng tìm kiếm nhạc theo cảm xúc mong muốn Bố cục luận văn Luận văn bao gồm chương sau : Chƣơng Nhận dạng cảm xúc âm nhạc Chƣơng Mối quan hệ đặc tính âm nhạc nhận thức cảm xúc Chƣơng Xây dựng mơ hình nhận dạng cảm xúc âm nhạc kết thực nghiệm CHƯƠNG NHẬN DẠNG CẢM XÚC ÂM NHẠC 1.1 TỔNG QUAN VỀ NHẬN DẠNG CẢM XÚC ÂM NHẠC 1.1.1 Tầm quan trọng việc nhận dạng cảm xúc âm nhạc Âm nhạc đóng vai trò quan trọng sống hàng ngày, đặc biệt thời đại kỹ thuật số Với số lượng nội dung không ngừng tăng lên, phương pháp quản lý âm nhạc truyền thống khơng đủ khả để đáp ứng yêu cầu Ta cần phải mở rộng cách thức tổ chức tìm kiếm thông tin âm nhạc để đáp ứng nhu cầu tiếp cận thông tin dễ dàng hiệu ngày gia tăng Mặc dù việc tìm kiếm thơng tin âm nhạc dựa cảm xúc tương đối thời điểm đó, khảo sát tiến hành vào năm 2004 cho thấy 28.2% số người tham gia coi cảm xúc tiêu chí quan trọng q trình tìm kiếm tổ chức thơng tin âm nhạc Từ đó, việc tìm kiếm thơng tin âm nhạc dựa cảm xúc nhận nhiều quan tâm từ giới học giả ngành công nghiệp 1.1.2 Nhận dạng nhận thức cảm xúc âm nhạc Chúng ta nhận thức cảm xúc thể hát (nhận thức cảm xúc) cảm nhận cảm xúc hát (cảm ứng cảm xúc) Cả cảm xúc nhận thức cảm xúc cảm nhận, đặc biệt cảm xúc cảm nhận, phụ thuộc vào tác động lẫn yếu tố âm nhạc, cá nhân tình Trong luận văn này, chúng tơi tập trung vào cảm xúc nhận thức, loại cảm xúc không chịu nhiều ảnh hưởng yếu tố tình (mơi trường, tâm trạng, …) q trình nghe 1.1.3 Các vấn đề nhận dạng cảm xúc âm nhạc a Vấn đề mơ hồ cụ thể mơ tả cảm xúc b Tính chủ quan nhận thức cảm xúc c Khoảng cách ngữ nghĩa tín hiệu âm mức độ thấp nhận thức người cấp độ cao 1.2 CÁC PHƢƠNG PHÁP MÔ TẢ CẢM XÚC TRONG ÂM NHẠC 1.2.1 Phƣơng pháp phân loại Phương pháp tiếp cận phân loại khái niệm hóa cảm xúc coi cảm xúc mà người trải qua xếp theo thể loại khác Điểm mấu chốt phương pháp khái niệm cảm xúc Mỗi cảm xúc “cơ bản” định nghĩa theo chức kiện có liên quan đến mục tiêu xảy thường xuyên trình tiến hóa Một phương pháp tiếp cận phân loại tiêu biểu khác danh sách tính từ Hevner [10], [11] Thơng qua thí nghiệm, tám nhóm tính từ thể cảm xúc phát trình bày dạng vòng tròn Danh sách tính từ Hevner (đề xuất năm 1935) sau được Schubert điều chỉnh thành chín nhóm vào năm 2003 1.2.2 Phƣơng pháp không gian Phương pháp không gian lại tập trung vào việc xác định cảm xúc dựa vị trí chúng số lượng nhỏ “chiều” cảm xúc với trục đặt tên tương ứng với biểu diễn cảm xúc bên người Các chiều cảm xúc bên phát thơng qua việc phân tích mối tương quan từ ngữ cảm xúc Để thực phân tích này, đối tượng tham gia yêu cầu sử dụng lượng lớn thang đánh giá từ cảm xúc để miêu tả cảm xúc kích thích âm nhạc, sau sử dụng kỹ thuật phân tích yếu tố để thu lượng nhỏ yếu tố (chiều) từ mối tương quan thang đo Có thể nhận thấy hầu hết nhân tố tương ứng với hai chiều cảm xúc sau đây: valence (sự lôi cuốn), arousal (mức độ lượng kích thích) 1.2.3 Phƣơng pháp phát biến đổi cảm xúc âm nhạc 1.3 CÁC PHƢƠNG PHÁP NHẬN DẠNG CẢM XÚC 1.3.1 Phƣơng pháp phân loại a Thu thập liệu b Xử lý liệu Để so sánh cách xác, đoạn nhạc thường chuyển sang dạng tiêu chuẩn (ví dụ: tần số lấy mẫu 22,050 Hz, độ xác 16 bit, kênh đơn sắc) Hơn nữa, nhạc hồn chỉnh chứa phân đoạn với cảm xúc khác nhau, đoạn có độ dài 20 đến 30 giây tiêu biểu cho hát thường lựa chọn để giảm biến đổi cảm xúc đoạn Trên thực tế, người ta thường điều chỉnh âm lượng nhạc đến giá trị tiêu chuẩn để giảm thiểu tác động sản xuất (tức là, số hát thu âm với âm lượng cao hơn, khác thu âm với âm lượng thấp hơn) Một phương pháp tương đối khả thi chuẩn hóa âm lượng tìm âm lượng to dạng sóng âm thanh, sau khuếch đại giảm bớt tồn dạng sóng âm âm lượng to đạt đến giá trị cụ thể Phương pháp thực công cụ biên tập âm nhạc phổ biến phần mềm Cool Edit Pro c Thử nghiệm chủ quan Bởi cảm xúc có tính chất chủ quan, việc thu thập liệu thực tế phải tiến hành cẩn thận Có thể nhóm phương pháp mơ tả cảm xúc thành hai nhóm: phương pháp dựa vào chuyên gia phương pháp dựa vào đối tượng Phương pháp dựa vào chuyên gia lựa chọn số chuyên gia âm nhạc (thường năm người) để mô tả cảm xúc Những nhạc khơng có thống cảm xúc chuyên gia bị bỏ qua Trong phương pháp dựa vào đối tượng, nhà nghiên cứu tiến hành thử nghiệm chủ quan lựa chọn số lượng lớn đối tượng không chuyên âm nhạc tham gia vào việc mô tả cảm xúc Dữ liệu thực tế thường định cách lấy trung bình ý kiến tất đối tượng Thông thường hát có mười đối tượng mơ tả d Trích xuất đặc trưng Một số đặc trưng âm nhạc trích xuất từ tín hiệu âm nhạc để thể chiều cảm nhận khác nghe nhạc, giai điệu, âm sắc nhịp điệu Sau rút trích đặc trưng, việc chuẩn hóa đặc trưng thường áp dụng để tạo phạm vi so sánh đặc trưng Phương pháp chuẩn hóa phổ biến bao gồm chuẩn hóa theo đường thẳng phạm vi [0, 1] đặc trưng (chuẩn hóa tuyến tính) chuẩn hóa đặc trưng đến trung bình độ lệch chuẩn đơn vị (chuẩn hóa zscore) e Mơ hình huấn luyện Sau có nhãn liệu thực tế đặc trưng âm nhạc, bước huấn luyện mơ hình học máy để nghiên cứu mối quan hệ cảm xúc âm nhạc Việc phân loại cảm xúc âm nhạc thường tiến hành thuật toán phân loại thiết lập sẵn, thuật toán mạng neural (neural network), thuật toán k-láng giềng gần (k-NN), thuật toán hợp lý cực đại (maximum likelihood), định (decision tree) máy vectơ hỗ trợ (support vector machine) 1.3.2 Phƣơng pháp khơng gian a Khái niệm hóa cảm xúc theo khơng gian Hình 1.4 Mặt phẳng cảm xúc valence – arousal 2D b Phương pháp hồi quy  Lý thuyết hồi quy  Xây dựng toán  Thuật tốn hồi quy  Hồi quy tuyến tính đa biến  Hồi quy vector hỗ trợ  Cây hồi quy AdaBoost c Sơ đồ hệ thống hồi quy Tiền xử Hình 1.5 Sơ đồ hệ thống phương pháp hồi quy d Thực  Thu thập liệu Các sở liệu âm nhạc lựa chọn album số nước phương Tây, Trung Quốc Nhật Bản theo hai tiêu chí sau: (1) Cảm xúc hát phải phân bố bốn góc phần tư mặt phẳng cảm xúc; (2) nhạc nên có cảm xúc chi phối định Để so sánh đoạn nhạc cách công bằng, nhạc chuyển đổi sang định dạng thống (22,050 Hz, 16 bits, đơn kênh PCM WAV) chuẩn hóa đến mức âm lượng  Rút trích thuộc tính Sau q trình tiền xử lý, Chúng tơi sử dụng công cụ PsySound [2] Marsyas [35] sử dụng để rút trích thuộc tính âm nhạc xây dựng thành khơng gian thuộc tính 10 tần tới hạn Bark (số lượng băng tần tới hạn thực tế phụ thuộc vào tần suất lấy mẫu tín hiệu âm thanh) TL tính tập hợp SONE dựa phương pháp Stevens, lấy tổng hệ số SONE lớn tỷ lệ 0,15 tổng hệ số lại Theo mặc định, tất đặc tính rút thành khung thời gian ngắn (23 ms, chồng chéo 50%) sau tổng hợp cách lấy độ lệch trung bình độ lệch chuẩn để tích hợp thời gian 2.2 CÁC ĐẶC TÍNH NHỊP ĐIỆU Nhịp điệu biểu đồ nhịp/ nốt có cơng suất khác Nó thường mơ tả nhịp độ, nhịp nhạc, hay cách phân nhịp Một hát với nhịp độ nhanh thường coi có arousal cao Bên cạnh đó, nhịp lưu lốt/ uyển chuyển thường liên kết với valence dương, nhịp điệu cứng nhắc gắn với valence âm Chúng ta sử dụng Marsyas (version 0.1) để tính tốn biểu đồ tần suất nhịp điệu âm nhạc từ tạo sáu đặc trưng, bao gồm công suất nhịp, biên độ thời gian đỉnh thứ hai biểu đồ tần suất nhịp điệu, tỷ lệ cường độ hai đỉnh tính theo bpm (nhịp phút) Các biểu đồ tần suất nhịp điệu xây dựng cách tính tự tương quan đường bao tín hiệu băng tần số octa Cuối cùng, năm đặc tính nhịp điệu sau chứng minh có liên quan đến valence arousal: cường độ nhịp điệu, tính quy tắc nhịp điệu, tính rõ nét nhịp điệu, tần số khởi động trung bình, nhịp độ trung bình 2.3 CÁC ĐẶC TÍNH THỜI GIAN Các đặc tính thời gian bao gồm tỷ lệ biến thiên qua điểm không (zero-crossing rate), trọng tâm thời gian (temporal centroid), thời gian thiết lập nhật ký (log attack time) để nắm bắt chất lượng thời gian âm nhạc 11 Zero-crossing rate, thước đo tính ồn tín hiệu, tính cách lấy giá trị trung bình độ lệch chuẩn số lượng giá trị tín hiệu qua trục khơng cửa sổ thời gian ∑ | ( ) ( )| ( ) (2.1) Trong đó: T chiều dài cửa sổ thời gian st độ lớn mẫu miền thời gian thứ t w (·) cửa sổ hình chữ nhật Trọng tâm thời gian đơn giản thời gian trung bình đường bao lượng, thời gian thiết lập nhật ký logarit thời gian thời gian tín hiệu bắt đầu thời gian tín hiệu đạt giá trị lượng tối đa 2.4 CÁC ĐẶC TÍNH PHỔ Các đặc tính phổ đặc tính tính tốn từ STFT tín hiệu âm bao gồm trọng tâm phổ, làm giảm dao động phổ, thông lượng phổ, độ đo mức độ phẳng phổ (SFMSpectral Flatness Measure), hệ số đỉnh phổ (SCF-Spectral crest Factor) Những đặc tính trích xuất khung sau cách lấy giá trị trung bình độ lệch chuẩn cho giây Trình tự vectơ đặc tính sau thu nhỏ thành vector đơn đại diện cho tồn tín hiệu cách lấy lại giá trị trung bình độ lệch chuẩn Trọng tâm phổ (Spectral centroid) có nghĩa trọng tâm phổ biên độ STFT ∑ ∑ (2.2) Trong Ant biên độ phổ khung thứ t bin tần số thứ n, N tổng số bin Trọng tâm thước đo hình dạng phổ Trọng tâm phổ cao cho thấy kết cấu âm "sáng hơn" Hàm phổ dốc định nghĩa tần số κt gồm phần 12 định tổng lượng ∑ ∑ (2.3) Thông lượng phổ định nghĩa bình phương chênh lệch biên độ chuẩn hóa khung ∑ ( ) (2.4) Các độ đo mức độ phẳng phổ hệ số đỉnh phổ hai liên quan đến âm điệu tín hiệu âm Âm điệu thường liên quan đến nhận thức cảm xúc; giai điệu vui tươi bình theo thang âm, giai điệu giận không theo thang âm (giống tiếng ồn) SFM tỷ lệ giá trị trung bình hình học phổ cơng suất trung bình số học SCF tỷ số biên độ đỉnh biên độ -bình phương –gốc (∏ ) ∑ ∑ (2.5) (2.6) Trong Bk biểu thị giải băng tần số thứ k, Nk số bin Bk 2.5 CÁC ĐẶC TÍNH HỊA ÂM Hòa âm đặc trưng tính tốn từ mơ hình tín hiệu hòa âm hình sin Rất nhiều âm tự nhiên, đặc biệt âm nhạc, thể hài hòa - âm bao gồm loạt tần số tỷ lệ bội số tần số thấp nhất, gọi tần số f0 Chúng ta sử dụng toolbox MIR để tạo hai đặc trưng cao độ (cao độ bật trọng tâm sắc phổ) ba đặc trưng âm điệu (độ rõ nét điệu, điệu, thay đổi hòa âm) Toolbox MIR ước lượng cao độ, tần số bản, khung thời gian ngắn (50 ms, 1/2 chồng chéo) dựa thuật toán phát đa cường độ mô tả 13 Tolonen Karjalainen [33] Các thuật tốn phân tách dạng sóng âm thành hai băng tần (dưới kHz), tính hàm tự tương quan đường bao băng con, cuối tạo ước lượng cao độ cách chọn đỉnh từ tổng hai hàm tự tương quan Ước lượng cao độ tương ứng với đỉnh cao trả cao độ bật Toolbox MIR sử dụng thuật tốn mơ tả [8] để tính vectơ đặc tính chiều gọi trọng tâm âm từ sắc phổ sử dụng để phát thay đổi hòa âm (ví dụ, thay đổi hợp âm) âm nhạc Thay đổi hòa âm cao khác biệt lớn nội dung hòa âm khung liên tiếp Các đặc trưng ngắn hạn tổng hợp cách lấy trung bình độ lệch chuẩn CHƯƠNG XÂY DỰNG MƠ HÌNH NHẬN DẠNG CẢM XÚC ÂM NHẠC VÀ KẾT QUẢ THỰC NGHIỆM 3.1 MƠ HÌNH NHẬN DẠNG CẢM XÚC ÂM NHẠC Hệ thống đề nghị chia thành hai giai đoạn: xây dựng mơ hình huấn luyện phân loại cảm xúc hình 3.1 Đầu tiên, 400 clip âm nhạc thu thập từ All Music Guide (AMG) Sau đó, hệ thống trích xuất giá trị đặc trưng âm clip âm nhạc openSMILE, lựa chọn đặc trưng từ liệu ban đầu Tập liệu đặc trưng sử dụng để tạo mơ hình huấn luyện thuật tốn phân loại Mơ hình sau sử dụng để dự đốn nhận thức cảm xúc tập tin âm nhạc 14 Hình 3.1 Mơ hình huấn luyện phân loại cảm xúc 3.2 XÂY DỰNG MƠ HÌNH 3.2.1 Xây dựng sở liệu âm nhạc Trong luận văn này, chúng tơi sử dụng 400 hát từ AMG Nó cơng ty âm nhạc sử dụng tâm trạng cho việc tổ chức truy tìm thơng tin âm nhạc Bộ sưu tập âm nhạc dán nhãn với năm cảm xúc bản: tức giận (anger), hạnh phúc (happiness), buồn bã (sadness), sợ hãi (fear), dịu dàng (tenderness) Ngồi ra, để đối phó với khác biệt biên độ nhạc sở liệu (ví dụ, số hát có âm lượng cao so với khác), nhạc cần chuyển đổi sang định dạng thống chuẩn hóa đến mức âm lượng Để thực nhiệm vụ này, sử dụng công cụ Cool edit pro công cụ chỉnh sửa âm Tất 400 hát lấy mẫu 44,1 KHz 16 bit 3.2.2 Trích xuất đặc trƣng âm OpenSMILE sử dụng để trích xuất đặc trưng âm âm nhạc Nó cơng cụ mã nguồn mở trích xuất đặc tính linh động sử dụng cho ứng dụng xử lý tín hiệu học máy Chúng chạy openSMILE với 'emobase 2010' (tập hợp cấu hình 15 nhất) 80 file nhạc 30 giây cho cảm xúc sở liệu âm nhạc Tổng cộng có 400 clip nhạc, chia cho năm cảm xúc hạnh phúc, giận dữ, buồn bã, sợ hãi, dịu dàng Sau đó, chúng xử lý để trích xuất 1,430 đặc trưng từ clip âm nhạc Các tập tin ARFF tạo chứa đặc trưng từ clip âm nhạc sau nạp vào Weka để phân tích thêm 1,430 đặc trưng bao gồm 34 mơ tả mức độ thấp (LLD) 21 hàm chức (được trình bày mục 3.3.1) áp dụng để tính toán LLD 3.2.3 Lựa chọn đặc trƣng Lựa chọn đặc trưng xác định quy trình với hai bước sau: 1) lựa chọn phương pháp đánh giá thuộc tính; 2) chọn phương pháp lựa chọn thuộc tính Bước đầu tiên, phương pháp đánh giá thuộc tính mà sử dụng CfsSubsetEval Phương pháp đánh giá giá trị tập thuộc tính cách xem xét khả dự báo riêng thuộc tính đối chiếu tập với mức độ dư thừa Nói cách khác, tính tốn mối tương quan thuộc tính lớp loại bỏ thuộc tính coi không cần thiết để đạt tương quan lớn Bước thứ hai, cần phải xác định phương pháp lựa chọn thuộc tính Phương pháp lựa chọn thuộc tính phổ biến Best First Best First tìm kiếm khơng gian tập thuộc tính kỹ thuật leo núi (greedy hill-climbing) lặp lại nhiều lần việc: - Đánh giá tập hợp thuộc tính (S1) đề xuất - Chỉnh sửa tập cách thêm thuộc tính đề xuất (S2) - Đánh giá xem tập (S2) có phải phiên cải tiến tập cũ (S1) - Nếu có, thêm thuộc tính vào tập hợp đề xuất 16 Ngồi có khả Backtracking, tức bắt đầu với tập hợp thuộc tính rỗng tìm kiếm tiến, bắt đầu với tập hợp thuộc tính đầy đủ tìm kiếm lùi, chí bắt đầu điểm tìm kiếm theo hai hướng 3.2.4 Huấn luyện mơ hình WEKA sử dụng để xây dựng mơ hình huấn luyện Nó cung cấp đầy đủ thuật tốn áp dụng liệu Các phân loại nhận dạng cảm xúc phổ biến phân loại khác biệt tuyến tính (LDC) phân loại k-láng giềng gần (kNN) Tuy nhiên, ngày nay, chúng bị phân loại máy vector hỗ trợ (SVM) – phân loại vượt trội hẳn - vượt mặt Tuy SVM chưa phân loại tốt cho nhóm, hiệu suất chúng khiến chúng coi phân loại tiến tiến Trong luận văn này, tập trung vào lựa chọn nghiên cứu mà chúng tơi có Chúng tơi định thử nghiệm số phân loại nằm gói Weka nhằm mục đích so sánh phân loại có tính chất khác là: SMO, LMT, Tree.J48 Đối với tùy chọn kiểm tra, sử dụng kỹ thuật 10-fold cross-validation (trình bày mục 3.4.1) tham số WEKA thiết lập sẵn để đánh giá hiệu suất thuật toán phân loại lựa chọn chúng tơi Mơ hình huấn luyện kiểm tra trình bày hình 3.2 17 Hình 3.2 Sơ đồ mơ hình huấn luyện kiểm tra 3.3 TRÍCH CHỌN CÁC ĐẶC TRƢNG ÂM THANH 3.3.1 OpenSMILE Bộ công cụ openSMILE rút trích thuộc tính linh hoạt dạng module mã nguồn mở dùng cho ứng dụng xử lý tín hiệu học máy Phần mềm tập trung vào thuộc tính tín hiệu âm thanh, cho phép người dùng rút trích khơng gian thuộc tính âm lớn theo thời gian thực 18 3.3.2 Weka Weka phần mềm mã nguồn mở phát hành theo giấy phép GNU, với phiên 3.8.0 Đó tập hợp thuật toán học máy dùng cho tác vụ khai thác liệu Đây chắn công cụ hiệu mà sử dụng giai đoạn xử lý thí nghiệm Khả tương tác phần mềm với file Arff chứng minh, chúng tơi áp dụng thuật tốn khai thác liệu vào file đầu openSMILE có chứa đặc trưng rút trích để dùng cho việc nhận dạng cảm xúc Hình 3.5 Danh sách số thuật tốn phân loại Weka 19 Hình 3.6 Màn hình phân loại hồn thành 3.4 CÁC KỸ THUẬT ĐƢỢC SỬ DỤNG TRONG MƠ HÌNH 3.4.1 Kỹ thuật 10-fold cross validation 10-fold cross validation phương pháp thống kê đánh giá so sánh thuật toán học cách chia thành hai phần: dùng để huấn luyện mơ hình, phần loại dùng để kiểm tra mơ hình Một trường hợp đặc biệt phương pháp kiểm tra chéo k phần Tại đây, liệu trước hết phân thành k phần có kích thước Sau đó, số lần lặp k việc huấn luyện kiểm tra thực vậy, theo lần lặp, phần liệu khác sử dụng để kiểm tra k-1 lại sử dụng cho việc huấn luyện 20 Hình 3.8 Ví dụ qua lần kiểm tra Đối với mục đích khai thác liệu, phương pháp đóng vai trò quy trình chuẩn để ước tính hiệu suất lựa chọn mơ hình Chúng tơi sử dụng kỹ thuật 10-fold cross validation để làm tham số Weka thiết lập trước cho việc ước tính hiệu suất thuật toán học/phân loại chọn Phương pháp coi phương pháp kiểm tra chéo tốt Chúng sử dụng lặp lặp lại 90% liệu có (thuộc tính âm rút trích) để xây dựng mơ hình thử nghiệm độ xác 10% lại Vì chúng tơi làm thí nghiệm nhiều phân loại, ước tính độ tin cậy cao cho hiệu suất đưa theo kết kiểm tra 3.4.2 Ma trận nhầm lẫn (Confusion Matrix) Tính tốn phân tích ma trận nhầm lẫn thành phần quan trọng nhằm đưa kết luận xem phương pháp mà thực tốt hay xấu, đồng thời phân loại thuộc tính liệu Việc tính tốn phần kết cuối Weka trình bày sau hoàn thành việc phân loại Các ma trận nhầm lẫn sử dụng rộng rãi công cụ đồ họa phản ánh cách hoạt động thuật toán Mỗi cột ma trận thể đối tượng lớp dự đốn, hàng ma trận 21 thể đối tượng lớp ban đầu Do đó, ta dễ dàng hình dung hóa sai số phân loại, tìm cách dự đốn xác trường hợp lớp ban đầu 3.5 KẾT QUẢ THỰC NGHIỆM Đầu tiên xây dựng sở liệu 400 clip âm nhạc Bộ sưu tập âm nhạc dán nhãn với năm cảm xúc: vui vẻ (happy), giận (anger), buồn bã (sadness), sợ hãi (fear), dịu dàng (tender) Sau sử dụng cơng cụ openSMILE để trích xuất đặc trưng âm Những đặc trưng lưu tập tin Arff nạp vào Weka để huấn luyện phân lớp Bảng 3.5 trình bày kết so sánh việc đánh giá cách sử dụng phân loại: SMO, LMT, Tree.J48 Cuối cùng, định chọn phân loại SMO mà thuộc họ phân loại SVM áp dụng thuật toán tối thiểu John C.Platt cho trình huấn luyện SMO chứng minh xử lý nhanh tốt so với thuật tốn SVM Ngồi ra, độ xác SMO có tỉ lệ cao Bảng 3.5 Kết so sánh việc đánh giá phân loại 3.5.1 Kết mơ hình huấn luyện phân loại SMO Sau nạp tập tin Arff vào Weka, phân lớp SMO chọn bắt đầu thử nghiệm Weka trả lại cho tóm tắt với hình thức nhật ký văn bản, gắn liền ba bảng sau 22 Bảng 3.6 Thống kê tổng quát Bảng 3.7 Chi tiết độ xác tham số lớp Bảng 3.8 Ma trận nhầm lẫn 3.5.2 Phát cảm xúc Sau huấn luyện, mơ hình áp dụng để phân loại cảm xúc nhạc đầu vào Một hát thường bao gồm nhiều cảm xúc Vì vậy, để phát cảm xúc, 23 nhạc chia thành nhiều phân đoạn độc lập, số có chứa cảm xúc đồng Trong nghiên cứu này, chiều dài đoạn nhạc 30 giây Các đặc trưng trích xuất openSMILE từ tất clip âm nhạc 30s để tạo tập tin Arff Các tập tin bao gồm 86 thuộc tính sau loại bỏ tính khơng cần thiết Sau sử dụng để dự đốn cảm xúc từ tập tin âm nhạc Bảng 3.8 cho thấy ví dụ kết việc nhận biết cảm xúc hát Bảng 3.9 Kết việc nhận biết cảm xúc hát 24 KẾT LUẬN Việc tìm kiếm nhận dạng hát sở liệu vấn đề khó Mục tiêu đề tài phát triển hệ thống nhận dạng cảm xúc âm nhạc để tìm kiếm file âm nhạc dựa cảm xúc Để nâng cao hiệu nhận biết cảm xúc âm nhạc, chúng tơi đề xuất mơ hình, 1430 đặc trưng âm nhạc dễ dàng trích xuất cơng cụ mã nguồn mở openSMILE Sau 86 đặc trưng lựa chọn từ 1430 đặc trưng để làm giảm thời gian tính tốn Ngồi ra, 400 clip âm nhạc sử dụng để xây dựng mơ hình phân lớp Độ xác phân loại trung bình thuật toán đề xuất SMO 74.25% với năm cảm xúc: vui vẻ, giận dữ, sợ hãi, buồn bã dịu dàng Luận văn thực được:  Đã nghiên cứu phương pháp nhận dạng cảm xúc âm nhạc  Đã nghiên cứu mối quan hệ đặc tính âm nhạc nhận thức cảm xúc  Đã xây dựng mơ hình nhận dạng cảm xúc âm nhạc cho kết tốt Tuy nhiên luận văn số hạn chế cần phát triển thêm:  Các lớp cảm xúc hạn chế so với cảm xúc cảm thụ âm nhạc phong phú người  Nhận dạng cảm xúc âm nhạc thực ngoại tuyến Trong phần sau hướng phát triển luận văn:  Tăng kích thước tập liệu huấn luyện để đạt độ xác cao việc nhận dạng cảm xúc  Hệ thống sử dụng đặc trưng âm mức độ thấp kết hợp với đặc trưng mức độ trung bình lời hát, hòa âm, thể loại siêu liệu để phát cảm xúc ... lượng thấp hơn) Một phương pháp tương đối khả thi chuẩn hóa âm lượng tìm âm lượng to dạng sóng âm thanh, sau khuếch đại giảm bớt tồn dạng sóng âm âm lượng to đạt đến giá trị cụ thể Phương pháp thực... vectơ đặc tính chiều gọi trọng tâm âm từ sắc phổ sử dụng để phát thay đổi hòa âm (ví dụ, thay đổi hợp âm) âm nhạc Thay đổi hòa âm cao khác biệt lớn nội dung hòa âm khung liên tiếp Các đặc trưng... cảm xúc đoạn Trên thực tế, người ta thường điều chỉnh âm lượng nhạc đến giá trị tiêu chuẩn để giảm thiểu tác động sản xuất (tức là, số hát thu âm với âm lượng cao hơn, khác thu âm với âm lượng thấp

Ngày đăng: 26/05/2020, 17:34

Tài liệu cùng người dùng

Tài liệu liên quan