Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
561,93 KB
Nội dung
Header Page of 133 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG - TÀO NGỌC BIÊN ĐỀ TÀI: TÌM KIẾM ÂM NHẠC TRÊN CƠ SỞ NỘI DUNG VÀ ỨNG DỤNG TẠI TRƯỜNG ĐẠI HỌC VĂN HÓA, THỂ THAO VÀ DU LỊCH THANH HĨA CHUN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2012 Footer Page of 133 Header Page of 133 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS TS ĐẶNG VĂN ĐỨC Phản biện 1: …………………………………………………………………………… Phản biện 2: ………………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thông Footer Page of 133 Header Page of 133 MỞ ĐẦU Cùng với phát triển Cơng nghệ thơng tin khối lượng liệu đa phương tiện thu thập lưu trữ ngày nhiều dẫn tới việc tìm kiếm liệu đa phương tiện trở nên khó khăn Do cần có hệ thống tìm kiếm thơng tin hỗ trợ người sử dụng tìm kiếm cách xác nhanh chóng thơng tin mà họ cần từ kho liệu khổng lồ Hiện có số hệ thống tìm kiếm Google, Yahoo, MSN, DTSearch, Lucene, nhiên hệ thống sử dung kỹ thuật tìm kiếm đơn giản nên hiệu cịn chưa cao Vì mục tiêu luận văn nhằm tìm hiểu số kỹ thuật nâng cao tìm kiếm thơng tin, cụ thể tìm kiếm âm nhạc theo nội dung sở liệu đa phương tiện nhằm đáp ứng nhu cầu cấp thiết thời đại bùng nổ thông tin điện tử đồng thời ứng dụng vào trường đại học Văn hóa, Thể thao Du lịch Thanh Hóa Con người có khả phân biệt kiểu âm Cho trước đoạn âm thanh, ta nói loại âm (tiếng nói, âm nhạc hay nhiễu), tốc độ (nhanh hay chậm), tâm trạng (vui, buồn ) xác định tính tương đồng với đoạn âm khác Tuy nhiên, máy tính coi đoạn âm dãy giá trị mẫu Cho đến tại, phương pháp chung để xâm nhập âm dựa sở tiêu đề tên tệp Do tên tệp mô tả văn không đầy đủ chủ quan việc tìm đoạn âm thõa mãn người sử dụng khó khăn Thêm nữa, kỹ thuật truy tìm khơng hỗ trợ câu truy vấn “tìm đoạn âm tương tự đoạn nghe” (truy vấn theo thí dụ) Để giải vấn đề này, kỹ thuật truy tìm âm sở nội dung cần thiết Truy tìm âm sở nội dung đơn giản sử dụng so sánh mẫu với mẫu câu truy vấn đoạn âm lưu trữ Tiệm cận không hoạt động tốt tín hiệu âm biến đổi đoạn âm khác biểu diễn với tốc độ mẫu khác sử dụng tổng số bit lấy mẫu khác Do vậy, truy tìm âm sở nội dung thực sở tập đặc tính âm trích chọn cường độ trung bình hay phân bổ tần số Footer Page of 133 Header Page of 133 Nhận thấy tiện ích Cơ sở liệu đa phương tiện việc tìm kiếm âm nhạc sở nội dung, em lựa chọn thực đề tài “Tìm kiếm âm nhạc sở nội dung ứng dụng trường Đại học Văn hóa, Thể thao Du lịch Thanh Hóa” nhằm nghiên cứu sở liệu đa phương tiện, kỹ thuật tìm kiếm âm sở nội dung xây dựng ứng dụng Cấu trúc luận văn Ch ơng 1: Tổng quan Cơ sở liệu âm - Tình hình nghiên cứu ngồi nước CSDL đa phương tiện - Giới thiệu chung hệ thống thông tin đa phương tiện - Tổng quan hệ quản trị CSDL đa phương tiện - Các kỹ thuật chủ yếu tìm kiếm âm sở liệu - Các nguyên lý chung thiết kế sở liệu âm - Tiến trình tìm kiếm liệu Đa phương tiện - Các giai đoạn phát triển MDBMS Ch ơng 2: Kỹ thuật tìm kiếm sở liệu âm nhạc - Đặc trưng âm - Phân lớp âm - Chỉ số hóa truy tìm âm nhạc - Kỹ thuật đối sánh sở liệu âm Ch ơng 3: Phát triển hệ thống thử nghiệm ứng dụng tr ờng Đại học Văn hóa, Thể thao Du lịch Thanh Hóa - Nhu cầu tìm kiếm âm nhạc theo nội dung phục vụ giảng dạy - Trình bày thuật tốn tìm kiếm âm theo nội dung - Phân tích, thiết kế, xây dựng cài đặt thử nghiệm Kết luận h ớng phát triển Footer Page of 133 Header Page of 133 Ch ơng - TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ÂM THANH 1.1 Tình hình nghiên cứu ngồi n ớc Cơ sở liệu đa ph ơng tiện 1.2 Tổng quan hệ quản trị CSDL đa ph ơng tiện Trung tâm hệ thống thông tin đa phương tiện hệ quản trị CSDL đa phương tiện (MDBMS - Multimedia Database Management System) Một CSDL MM tập loại liệu Multimedia văn bản, hình ảnh, video, âm thanh, đối tượng đồ hoạ… Một hệ quản trị CSDL MM cung cấp hỗ trợ cho loại liệu MM việc tạo lập, lưu trữ, truy cập, truy vấn kiểm sốt 1.2.1 Mục đích MDBMS 1.2.2 Các u cầu MDBMS 1.2.2.1 Khả quản trị lưu trữ lớn Các yêu cầu khả lưu trữ hệ thống MM đặc trưng khả lưu trữ lớn cách thức tổ chức theo thứ bậc (dạng kim tự tháp) hệ thống lưu trữ Việc lưu trữ theo thứ bậc đặt đối tượng liệu MM hệ thống phân bậc bao gồm thiết bị khác nhau, trực tuyến (online), không trực tuyến (offline) Một cách tổng quát, mức cao hệ thống cho ta hiệu suất cao nhất, khả lưu trữ nhỏ nhất, chi phí cao cố định Các lớp cao hệ thống phân cấp sử dụng để lưu trữ đối tượng tóm tắt nhỏ liệu MM hồn chỉnh với mục đích cung cấp khả duyệt xem trước nhanh nội dung liệu 1.2.2.2 Hỗ trợ truy vấn khai thác liệu Truy vấn liệu MM bao gồm kiểu liệu khác nhau, từ khoá, thuộc tính, nội dung vv…Do người dùng có cách suy nghĩ khác liệu MM kết thu từ việc truy vấn liệu MM khơng hồn tồn xác kết tương tự phần kết kết chuẩn xác Footer Page of 133 Header Page of 133 1.2.2.3 Tích hợp phương tiện, tổng hợp thể Giả sử tính đa dạng kiểu liệu hỗ trợ, MDBMS phải cung cấp khả để tích hợp loại liệu để tạo nên kiểu liệu MM thể liệu có yêu cầu khung thời gian yêu cầu Độ phức tạp việc tích hợp, tổng hợp thể bị tăng thêm đặc tính liệu MM tính liên tục (tạm thời) liệu MM đặc biệt với kiểu liệu video, hoạt hình âm 1.2.2.4 Giao diện tương tác Sự khác chất liệu MM địi hỏi phải có giao diện khác để tương tác với liệu Thông thường, loại liệu có phương thức truy nhập thể riêng mình, ví dụ liệu video âm đòi hỏi giao diện người dùng khác để thể truy vấn Đối với vài ứng dụng MM, đặc biệt có mặt loại liệu có tính liên tục người dùng thường địi hỏi phải có khả tương tác với liệu 1.2.2.5 Hiệu suất Hiệu suất vấn đề quan trọng cần xem xét MDBMS Các hệ thống CSDL MM tạo hiệu suất dựa tối ưu hoá việc truy nhập tới media, lưu trữ, số hoá, khai thác truy vấn Sự có tham gia nhiều kiểu liệu khác CSDL MM địi hỏi số phương thức đặc biệt để tối ưu hoá việc truy cập, lưu trữ, số hoá khai thác Các yêu cầu bao gồm hiệu quả, tính ổn định, đảm bảo đồng việc trao đổi liệu, chất lượng dịch vụ (QoS – Quality of service) 1.2.3 Các vấn đề MDBMS 1.2.3.1 Mơ hình hố liệu MM Có hai cách tiếp cận việc mơ hình hoá liệu MM là: - Ph ơng pháp thứ nhất: xây dựng mơ hình liệu MM tảng mơ hình liệu CSDL truyền thống (thường CSDL quan hệ Footer Page of 133 Header Page of 133 CSDL hướng đối tượng) cách sử dụng giao diện tương ứng liệu MM Các vấn đề nẩy sinh với cách tiếp cận cấu trúc bên (của CSDL truyền thống) không thiết kế dành cho liệu MM, khác biệt yêu cầu CSDL truyền thống CSDL MM khiến cho giao diện trở thành nơi nghẽn cổ chai toàn hệ thống Các vấn đề dẫn tới cách tiếp cận thứ hai - Ph ơng pháp thứ hai: phát triển mơ hình liệu thực thụ dành cho liệu MM từ đầu không xây dựng sở CSDL truyền thống, nhiên người trí nỗ lực phải dựa kỹ thuật hướng đối tượng 1.2.3.2 Lưu trữ đối tượng MM Lưu trữ vật lý liệu Multimedia đòi hỏi phương thức để chuyển đổi, quản lý, trao đổi phân phối số lượng liệu khổng lồ, hệ thống Multimedia thông thường sử dụng phương thức phân cấp thiết bị lưu trữ Với việc xếp lưu trữ phân cấp, đối tượng MM lưu trữ mức độ khác nhau, mà tỷ lệ sử dụng đối tượng liệu MM thay đổi đối tượng cần phải phân phối lại lưu trữ thiết bị khác, mức khác hệ thống lưu trữ 1.2.3.3 Tích hợp Multimedia, thể chất lượng dịch vụ Khác với liệu truyền thống, liệu MM đòi hỏi ràng buộc thể điều bắt nguồn từ đặc tính liên tục số kiểu liệu MM mà chúng đòi hỏi thể số lượng định liệu khoảng thời gian định mà kết đem lai cho người dùng phải đảm bảo đặc trưng kiểu liệu Khi mà liệu MM bố trí phân tán truyền mạng vấn đề thể trở nên cấp thiết hơn, bắt gặp điều trường hợp băng thông hạn chế Footer Page of 133 Header Page of 133 1.2.3.4 Chỉ số hoá Multimedia Cũng CSDL truyền thống, liệu MM khai thác thông qua định danh, thuộc tính, từ khố liên kết chúng Các từ khoá phương thức chiếm ưu việc sử dụng để số hoá liệu MM Con người thường chọn từ khoá từ tập từ vựng định, điều tạo số khó khăn áp dụng liệu MM chúng thường làm cách thủ công tốn thời gian kết thường chủ quan hạn chế phụ thuộc vào từ vựng Một phương thức khác sử dụng dựa việc truy cập nội dung, xem xét đến nội dung thực liệu MM xuất phát từ ngữ cảnh thông tin Trong thời gian gần đây, việc nghiên cứu số hoá dựa nội dung tiến hành mạnh mẽ với mục đích số hố liệu MM dựa đặc trưng xác định thu trực tiếp từ liệu Các đặc trưng khác mầu sắc, hình dạng, kết cấu bề mặt, chuỗi đặc trưng đặc trưng khác dùng để số hoá ảnh 1.2.3.5 Hỗ trợ truy vấn Multimedia, khai thác duyệt qua 1.2.3.6 Quản trị CSDL MM phân tán 1.2.3.7 Sự hỗ trợ hệ thống 1.4 Các kỹ thuật chủ yếu tìm kiếm âm sở liệu 1.4.1 Đo tính tương tự 1.4.1.1 Thuật toán LSH (Locality Sensitve Hashing) Đưa đoạn giai điệu định nghĩa điểm pi, tìm đoạn tương tự mục tìm kiếm hàng xóm gần (NNs) điểm pi ví dụ tất điểm mà khoảng cách nhỏ ngưỡng cụ thể r Điều làm việc đo khoảng cách đơn giản pi đến tất vector sở liệu Footer Page of 133 Header Page of 133 Để thu thời gian tuyến tính cách phức tạp, sử dụng vị trí hàm băm miền nhạy cảm LSH thuật toán ngẫu nhiên cho việc tìm kiếm khoảng cách hàng xóm gần khơng gian nhiều chiều Thuật tốn LSH thuật tốn tìm kiếm K hàng xóm gần tìm kiếm xấp xỉ K hàng xóm gần 1.4.1.2 Thuật toán DTW(Dynamic Time Warping) Cho chuỗi âm tiết đầu vào w w1, w2 , wL có độ dài L có chuỗi vector đặc tính X x 1, x , xT , nhiệm vụ hệ thống phải nhận dạng xem chuỗi âm đầu vào ký tự trình xử lý cần phải giảm thiểu tối đa sai số định Mỗi tín hiệu âm tiết đầu vào Wl so sánh với mẫu Yl Mỗi Yl chuỗi vector đặc tính tín hiệu âm tiết Wl Nhằm tăng khả nhận dạng, âm tiết có tập hợp mẫu khác nhau: Yl,1, ,Yl,M Quá trình l định âm tiết phù hợp với mẫu dựa theo nguyên tắc sau: * l argminmin D( X ,Yl,m ) m l Như âm tiết Wl* âm tiết phù hợp với mẫu Yl tìm Khoảng cách D(X,Y) liệu đầu vào liệu mẫu Y=y1….ys có độ dài thời gian khác S T xác định tổng khoảng cách cục d ij d(x i , y j ) đường trình biến dạng thời gian Khoảng cách tích luỹ D ij D(x1 xi , y1 y j )được xác định theo công thức 0 dDDD ,,min ijjijiji I=J=0 I>0, J>0 Và khoảng cách tổng D(X,Y)=DTS 1.4.1.3 Thuật tốn HMM (Hidden Markov Model ) Mơ hình Markov ẩn sử dụng việc thống kê mô hình tạo âm Tính hiệu mơ hình thể việc mơ tả tín hiệu âm theo dạng toán học dễ dàng cho việc xử lý tín hiệu Các trạng thái HMM có Footer Page of 133 Header Page 10 of 133 trước thực việc xử lý trạng thái Như đầu vào HMM chuỗi thông số vector rời rạc theo thời gian Mơ hình Markov ẩn tập trạng thái hữu hạn, mà trạng thái có liên quan đến hàm phân phối xác xuất Việc chuyển tiếp trạng thái định nghĩa tập xác suất gọi xác suất chuyển tiếp 1.4.2 Các kiểu truy vấn 1.4.2.1 Truy vấn sở meta-data 1.4.2.2 Truy vấn sở mô tả 1.4.2.3 Truy vấn sở mẫu hay đặc trưng 1.4.2.4 Truy vấn theo thí dụ 1.4.2.5 Truy vấn ứng dụng cụ thể 1.5 Các nguyên lý chung thiết kế sở liệu âm 1.5.1 Mơ hình tổng qt liệu âm 1.5.1.1 Biểu diễn nội dung âm metadata Tổng quát metadata sử dụng để biểu diễn nội dung âm xem tập đối tượng trải dài theo đường thời gian, tương tự video Các đối tượng, đặc trưng hoạt động xảy âm hoàn toàn tương tự video Sự khác biệt chỗ, âm để nghe, cịn video để nghe nhìn Như vậy, số hóa metadata kết hợp với âm theo cách tương tự cách số hoá video, kỹ thuật xử lý truy vấn video sử dụng lại Phần lớn CSDL âm tồn sử dụng lược đồ số hoá sở metadata 1.5.1.2 Nội dung âm sở tín hiệu CSDL âm có thể số hóa tín hiệu âm theo cách sau đây: Footer Page 10 of 133 Header Page 12 of 133 10 - Độ (Brightness): Độ tín hiểutong cửa sổ w thước đo độ “sạch” âm Thí dụ, âm ngẹt âm kính vỡ 1.5.2 Thu thập nội dung âm thơng qua biến đổi rời rạc Khi xem xét dải tần số người nghe từ 15 Hz đến 20 kHz, đoạn ghi âm ngắn (khoảng 10 phút) có tới 100000 cửa sổ với giả sử cửa sổ biểu diễn tín hiệu tương đối trơn tru 1.5.3 Chỉ số hóa liệu âm Chỉ số hoá liệu âm sở tín hiệu thực theo cách khơng phức tạp Giả sử có tập 1, ,K tín hiệu kho âm Gọi N số nguyên xác định tổng số cửa sổ mà người phát triển ứng dụng muốn gán cho tín hiệu âm i Khi chọn N, có nghĩa muốn lưu trữ tập véctơ N chiều Tuy nhiên, quan sát véctơ, ta thấy khó xác định suy diễn từ tín hiệu âm Do vậy, ta giả sử véctơ có độ dài (N+1) Trường phụ cuối chứa số i tín hiệu i mà véctơ suy diễn từ Bây ta phát triển CSDL âm bước sau đây, sử dụng quan niệm TV để số hoá liệu nhiều chiều Thuật toán CreateAudioIndex(K, N) Index = NIL; (*Ban đầu số có giá trị rỗng*) for i=1 to K { i for j=0 to (N-1) A [j]=DFT(i); Ai[N]=i; (*Chèn véctơ Ai[j] vào TV*) Index = Insert(Ai[j].Index) } Footer Page 12 of 133 Header Page 13 of 133 11 end 1.6 Tiến trình tìm kiếm liệu Đa ph ơng tiện Queries Information Items Processing and feature extraction Preprocessing and indexing Indexed information items Query features Similarity computation Retrieval of similar items Hình 1.12 Mơ hình tìm kiếm liệu đa ph ơng tiện 1.7 Các giai đoạn phát triển MMDBMS Footer Page 13 of 133 Header Page 14 of 133 12 Ch ơng - KỸ THUẬT TÌM KIẾM CƠ SỞ DỮ LIỆU ÂM NHẠC 2.1 Đặc tr ng âm 2.1.1 Đặc trưng miền thời gian Biểu diễn miền thời gian hay thời gian - biên độ kỹ thuật trình diễn tín hiệu nhất, tín hiệu biểu diễn biên độ biến đổi theo thời gian Giá trị tín hiệu âm hay dương phụ thuộc vào áp suất âm cao hay thấp áp suất cân im lặng Giả sử sử dụng 16 bít để mã hóa mẫu audio, ta có giá trị tín hiệu khoảng từ 32767 đến -32767 Từ cách biểu diễn ta dễ dàng có lượng trung bình, tốc độ vượt qua (zero crossing rate) tỷ lệ câm (silence ratio) 2.1.1.1 Năng lượng trung bình Năng lượng trung bình âm lượng (loudness) tín hiệu audio Có nhiều cách để tính Một cách tính đơn giản sau: N 1 x(n) E N 0 N đó, E lượng trung bình đoạn audio, N tổng số mẫu đoạn audio, x(n) giá trị mẫu n 2.1.1.2 Tốc độ vượt qua Tốc độ vượt qua tần số thay đổi dấu biên độ tín hiệu Nói cách khác tần số trung bình tín hiệu Tốc độ vượt qua tính sau: Hình 2.1 Tín hiệuNâm số miền thời | sgn x(n) sgn x(n 1) | gian n ZC 2N đó, sgn x(n) dấu x(n) có giá trị x(n) dương, giá trị -1 x(n) có giá trị âm Footer Page 14 of 133 Header Page 15 of 133 13 2.1.1.3 Tỷ lệ câm Tỷ lệ câm kích thước đoạn âm câm Câm định nghĩa chu kỳ giá trị biên độ tuyệt đối số mẫu nhỏ ngưỡng Có hai loại ngưỡng: ngưỡng biên độ ngưỡng thới gian Tỷ lệ câm tính tỷ lệ tổng chu kỳ câm tổng độ dài đoạn âm 2.1.2 Đặc trưng miền tần số 2.1.2.1 Phổ âm Biểu diễn miền thời gian không thành phần tần số phân bổ tần số tín hiệu âm Biểu diễn miền tần số suy diễn từ biểu diễn miền không gian biến đổi Fourier Biến đổi Fourier xem tách tín hiệu thành thành phần tần số Trong miền số, tín hiệu biểu diễn biên độ biến đổi theo tần số, tổng lượng tần số khác Biểu diễn miền tần số tín hiệu gọi phổ tín hiệu Vì quan tâm đến tín hiệu số ta sử dụng DFT để suy diễn phổ tín hiệu Cơng thức tính DFT sau: N 1 jn X (k) x(n)e k n0 đó, k 2k , x(n) tín hiệu rời rạc với N mẫu, k DFT bin N Nếu tần số lấy mẫu tín hiệu fs Hz tần số fk bin k là: fk fs k k fs N 2 Nếu x(n) có giới hạn thời gian N khơi phục hoàn toàn IDFT N mẫu tần số sau: N 1 x(n) X (k)e jnk N k0 Footer Page 15 of 133 Header Page 16 of 133 14 Như nói trên, DFT làm việc với tín hiệu rời rạc có giới hạn độ dài (N) Thực tế, nhiều tín hiệu khoảng thời gian dài Rất khó tính tốn DFT với N lớn Để giải vấn đề này, người ta sử dụng STFT (Short Time Fourier Transform) Trong đó, tín hiệu với độ dài tùy ý chia thành khối gọi frame DFT áp dụng cho frame Frame hình thành cách nhân tín hiệu gốc với hàm cửa sổ Thông thường độ dài frame khoảng 10 đến 20 ms sử dụng vào phân tích không gian 2.1.2.2 Băng thông Băng thông dải tần số âm Tín hiệu nhạc thường có băng thơng cao tín hiệu tiếng nói Cách tính băng thông đơn giản lấy chênh lệch tần số tần số cao với tần số thấp thành phần phổ khác không Trong số trường hợp, “nonzero” xác định khoảng dB mức câm 2.1.2.3 Phân bổ lượng Từ phổ tín hiệu, dễ dàng nhận thấy phân bổ tín hiệu theo thành phần tần số Việc tính toán lượng dải tần số cao tần số thấp cần thiết Thực sự, khái niệm “low”, “high” phụ thuộc vào ứng dụng Thí dụ tần số tín hiệu tiếng nói vượt qua kHz Do vậy, ta chia tồn phổ dọc theo đường ngang kHz: nửa thuộc tần số thấp nửa thuộc tần số cao Tổng lượng cho băng tính tổng lượng mẫu băng Một đặc trưng quan trọng suy diễn từ phân bổ lượng trọng tâm phổ (centroid) Nó điểm phân bổ lượng phổ tín hiệu Tiếng nói có trọng tâm thấp so với âm nhạc Trọng tâm cịn gọi độ chói (brightness) 2.1.2.4 Điều hòa Đặc trưng thứ hai miền tần số âm điều hòa Trong âm điều hòa, thành phần phổ số lần nguyên tần số thấp tần số thường xuyên cao Tần số thấp gọi tần số Âm nhạc Footer Page 16 of 133 Header Page 17 of 133 15 thường điều hòa âm khác Để xác định âm có điều hịa hay khơng kiểm tra xem tần số thành phần trội số lần tần số hay khơng Thí dụ, phổ âm nốt G4 tiếng sáo có dãy tần số cao độ (pitch) sau: 400 Hz, 800 Hz, 1200 Hz, 1600 Hz 2.1.2.5 Cao độ Đặc trưng thứ ba miền tần số cao độ Thuộc tính cảm nhận tần số âm gọi pitch Tần số cao pitch cao bước sóng ngắn Có thể xếp hàng âm theo mức độ cao độ Cao độ đặc trưng chủ quan, quan hệ khơng tương đương với tần số Tuy nhiên, thực tế sử dụng tần số để xấp xỉ cao độ 2.1.3 Đặc trưng ảnh phổ Biểu diễn âm lượng - thời gian phổ hai biểu diễn tín hiệu đơn giản Hạn chế biểu diễn âm lượng - thời gian không thành phần tần số tín hiệu phổ, không thành phần tần số khác xuất Để giải vấn đề này, biểu diễn tổ hợp hay gọi ảnh phổ sử dụng Ảnh phổ tín hiệu quan hệ ba biến: nội dung tần số, thời gian cường độ Trong ảnh phổ, nội dung tần số biểu diễn theo trục tung, thời gian theo trục hoành Cường độ (intensity, power) thành phần tần số khác tín hiệu độ xám, cường độ lớn biểu diễn mức độ xám cao 2.1.4 Đặc trưng âm MFCC MFCC (Mel Frequency Cepstral Coefficients) hệ số biểu diễn phổ phổ (spectrum-of-a-spectrum) đoạn âm Các hệ số ceptral c(k) cách thuận tiện cho việc mơ hình hóa phân bổ lượng phổ Các hệ số ceptral tính tốn cho khoảng thời gian ngắn tín hiệu âm Footer Page 17 of 133 Header Page 18 of 133 16 Hệ số ceptral sử dụng MMDBMS (tìm kiếm âm thanh) nhận dạng tiếng nói Mel đơn vị độ cao âm (pitch) Một cặp âm cảm nhận có độ cao giá trị mel chúng Mel-scale: Xấp xỉ tuyến tính kHz, loga kHz 2.2 Phân lớp âm 2.2.1 Đặc điểm lớp âm Mọi phương pháp phân lớp âm sở tính tốn giá trị đặc trưng Chúng khác chỗ đặc trưng sử dụng Nhóm thứ nhất: đặc trưng sử dụng riêng rẽ bước phân lớp Nhóm thứ hai: tập đặc trưng sử dụng chung véctơ để tính tốn mức độ “gần gũi” đầu vào đến tập huấn luyện 2.2.2 Phân lớp âm 2.2.2.1 Phân lớp âm theo bước Trong phân lớp âm theo bước, ta sử dụng riêng biệt đặc trưng audio để xác định âm âm nhạc hay tiếng nói Mỗi đặc trưng xem tiêu chí lọc hay trích chọn Tại bước lọc, đoạn âm xác định kiểu hay kiểu khác Trước hết tính trọng tâm của đoạn âm Nếu trọng tâm cao ngưỡng cho trước âm nhạc Nếu khơng đoạn âm tiếng nói hay âm nhạc (vì khơng phải âm nhạc có trọng tâm cao) Tiếp theo tính tỷ lệ câm Nếu đoạn âm có tỷ lệ câm thấp chúng âm nhạc Nếu khơng, tiếng nói hay nhạc solo Cuối tính ZCR đoạn âm có biến đổi ZCR cao, tiếng nói Nếu khơng nhạc solo Footer Page 18 of 133 Header Page 19 of 133 17 Trong tiệm cận phân lớp này, điều quan trọng xác định trình tự đặc trưng khác sử dụng để phân lớp Trình tự thơng thường định độ phức tạp tính tốn khả phân biệt (differentiating power) đặc trưng khác Đặc trưng phức tạp, có khả phân biệt cao sử dụng trước Điều làm giảm tổng số bước thực lọc đoạn âm nhạc, dẫn tới làm giảm đáng kể tính tốn địi hỏi 2.2.2.2 Phân lớp âm theo vectơ đặc trưng Trong phân lớp âm sở véctơ đặc trưng, giá trị tập đặc trưng tính tốn sử dụng véctơ đặc trưng Trong giai đoạn huấn luyện, véctơ đặc trưng trung bình tìm cho lớp âm Trong trình phân lớp, véctơ đặc trưng đoạn âm vào tính khoảng cách véctơ đặc trưng vào véctơ tham chiếu tính tốn Âm vào phân lớp từ có khoảng cách nhỏ đến véctơ đầu vào Khoảng cách Euclit thường sử dụng để tính tốn khoảng cách véctơ đặc trưng Tiệm cận giả sử rằng, đoạn âm lớp gần không gian đặc trưng Các đoạn âm thuộc lớp khác xa không gian đặc trưng 2.2.2.3 Phân lớp âm ứng dụng mạng nơron Mạng nơ ron nhân tạo (ANN - Artificial Neural Networks) sử dụng rộng rãi vào nhận dạng mẫu Một ANN hệ thống xử lý thơng tin mơ tiến trình nhận thức não người ANN bao gồm nhiều neuron nối với liên kết có trọng số Nhận dạng tiếng nói với ANN bao gồm hai giai đoạn: huấn luyện nhận dạng Trong giai đoạn huấn luyện, véctơ đặc trưng liệu tiếng nói huấn luyện sử dụng để huấn luyện ANN Trong giai đoạn nhận dạng, ANN nhận âm vị có khă sở véctơ đặc trưng đầu vào 2.2.3 Chỉ số hóa truy tìm âm Sau phân lớp âm thành âm nhạc tiếng nói, ta áp dụng kỹ thuật riêng cho lớp Tiệm cận số hóa truy tìm tiếng nói Footer Page 19 of 133 Header Page 20 of 133 18 áp dụng kỹ thuật nhận dạng tiếng nói để chuyển đổi tín hiệu tiếng nói thành văn sau áp dụng kỹ thuật IR để số hóa tìm kiếm 2.3 Chỉ số hóa truy tìm âm nhạc 2.3.1 Chỉ mục truy tìm âm nhạc cấu trúc hiệu ứng âm Âm nhạc cấu trúc hiệu ứng âm phù hợp truy vấn địi hỏi đối sánh xác câu truy vấn tệp âm CSDL Người sử dụng trình tự nốt làm câu truy vấn tương đối dễ tìm tệp âm cấu trúc chứa trình tự nốt nhạc Mặc dù tìm trình tự nốt phù hợp hồn tồn, âm sinh từ tệp chưa phải mà người sử dụng mong đợi tệp âm ấu trúc phát âm khác thiết bị khác 2.3.2 Chỉ mục truy tìm âm nhạc sở mẫu 2.3.2.1 Truy tìm âm nhạc sở tập đặc trưng Trong tiệm cận truy tìm âm nhạc này, tập đặc trưng âm học trích chọn cho âm Tập N đặc trưng biểu diễn N-véctơ Tính tương tự câu truy vấn đoạn âm lưu trữ tính tốn sở khoảng cách gần véctơ đặc trưng tương ứng chúng Tiệm cận áp dụng cho loại âm âm nhạc, tiếng nói hiệu ứng âm 2.3.2.2 Truy tìm âm sở độ cao Tiệm cận tương tự truy tìm âm nhạc cấu trúc sở độ cao Sự khác độ cao nốt phải trích chọn ước lượng trường hợp Trích chọn ước lượng độ cao gọi chung tracking độ cao Tracking dạng đơn giản việc tự động chuyển đổi âm nhạc thành biểu diễn ký tự Ý tưởng tiệm cận đơn giản Mỗi nốt nhạc biểu diễn độ cao Vậy, đoạn nhạc biểu diễn trình tự hay xâu độ cao Quyết định truy tìm dựa sở tính tương tự câu truy vấn xâu ứng viên Hai nhiệm vụ tracking độ cao đo tính tương tự xâu Footer Page 20 of 133 Header Page 21 of 133 19 2.4 Kỹ thuật đối sánh sở liệu âm 2.4.1 Mơ hình véctơ đa chiều Vector Space Model - Terms: {t1, , tm} Rn - Audio: {d1, , dm} Rn - Ma trận Term X Giai điệu: A - Tij – độ đo mức độ quan trọng (trọng số) khái niệm i giai điệu j Có thể nhị nguyên, tf.idf hay loại khác Giai điệu Dj truy vấn Qj biểu diễn véctơ n-chiều trọng số Di Ti1,Ti2 , ,Tik , ,TiN Q j Q j1, Q j2 , ,Qjk , ,QjN Mơ hình khơng gian véctơ đánh giá mức độ tương tự Giai điệu Di với câu truy vấn Qj tính tương quan hai véctơ N S(Di , Q j ) Tik.Q jk k1 Chuẩn hóa kích thước Di Qj: Mức độ tương tự xác định cosine góc hai véctơ N Di.Qj S(Di , Qj ) cos | Di || Qj | T ik Qjk k1 N Tik k1 N Q jk k1 2.4.2 Kỹ thuật phân cụm liệu Ý tưởng xếp đối tượng/véctơ đặc trưng tương tự vào nhóm/cụm việc tìm kiếm thực cụm liên quan Mỗi cụm biểu diễn trọng tâm véctơ đặc trưng cụm Trong truy vấn, ta tính toán độ tương tự câu truy vấn cụm Cụm có mức độ tương tự lớn ngưỡng cho trước chọn Tiếp theo đối sánh véctơ câu truy vấn với véctơ đặc trưng cụm k đối tượng gần kết Footer Page 21 of 133 Header Page 22 of 133 20 * Thuật toán phân cụm Phương pháp phân cấp - Input: O – Danh sách đối tượng CSDL - Out: T – Cây phân cấp Gán giai điệu O vào cụm riêng, tạo lập danh sách cụm L (khởi đầu giá trị T): L = O1, O2, O3, , On-1, On Tính tốn véctơ đại diện cặp phần tử L để tìm hai cụm gần {Oi, Oj} Hủy bỏ Oi Oj khỏi L Trộn Oi Oj để hình thành nút Oij T, cha Oi Oj kết Lặp lại bước (2) tập 2.4.3 Lọc sở bất đẳng thức tam giác Hầu hết độ đo khoảng cách đặc trưng độ đo metric thỏa mãn tính chất bất đẳng thức tam giác Khoảng cách hai đối tượng nhỏ hiệu khoảng cách chúng tới đối tượng khác d(i, q) d(i, k) d(q, k) đó, d-độ đo khoảng cách, i, q, k - véctơ đặc trưng Bất đẳng thức với k, đối sánh nhiều đặc trưng ta có: d (i, q) max 1 jm d (i, k j ) d (q, k j ) đó, m-tổng số đặc trưng sử dụng để đối sánh Footer Page 22 of 133 Header Page 23 of 133 21 Ch ơng – PHÁT TRIỂN HỆ THỐNG THỬ NGHIỆM ỨNG DỤNG TẠI TR ỜNG ĐẠI HỌC VĂN HÓA, THỂ THAO VÀ DU LỊCH THANH HÓA 3.1 Nhu cầu tìm kiếm âm nhạc theo nội dung phục vụ giảng dạy Tính tốn độ tương tự tín hiệu âm chủ đề lớn bắt đầu nghiên cứu lĩnh vực xử lý âm từ năm 1960 Kỹ thuật nhận dạng âm có nhiều ứng dụng rộng rãi Đối với trường Đại học Văn hóa, Thể thao Du lịch Thanh Hóa sử dụng hệ tìm kiếm âm để đối sánh giai điệu nhạc việc bảo vệ quyền âm nhạc, sử dụng hệ tìm kiếm âm để đối sánh chất giọng sinh viên ngành Thanh nhạc Sư phạm âm nhạc với kho sở liệu mẫu, tìm kiếm âm nhạc sở nội dung 3.2 Trình bày thuật tốn tìm kiếm âm theo nội dung 3.2.1 Đặc trưng MFCC 3.2.2 Phương pháp phân tích MFCC 3.2.2.1 Q trình lọc theo thang Mel Cepstral 3.2.2.2 Lấy mẫu 3.2.2.3 Phân khung tín hiệu 3.2.2.4 Lấy cửa sổ tín hiệu 3.2.2.5 Biến đổi Fourier nhanh 3.2.2.6 Chuyển đổi sang thang tần số Mel 3.2.2.7 Biến đổi Cosin rời rạc 3.3.3 Kỹ thuật phân cụm K-means Thuật toán Kmean thực theo bước sau: Bước 1: Đặt K điểm vào vùng phân cụm đối tượng Các điểm mơ tả nhóm trung tâm Bước 2: Gán đối tượng vào nhóm có điểm trung tâm gần Footer Page 23 of 133 Header Page 24 of 133 22 Bước 3: Khi tất đối tượng đưa vào nhóm, tính tốn lại vị trí K điểm trung tâm Bước 4: Thực lặp lại bước bỏ điểm trung tâm xa Điều giúp phân cách đối tượng thành nhóm có kích thước nhỏ Thủ tục lặp ln kết thúc điểm trung tâm không thay đổi Tuy nhiên, cần lưu ý thuật tốn khơng thiết phải đưa kết tối ưu 3.3 Phân tích, thiết kế, xây dựng cài đặt thử nghiệm Hệ thống nhận dạng người nói SpeakIden phát triển ngơn ngữ lập trình kỹ thuật Matlab phiên R2009a, sử dụng số thư viện mã nguồn mở tác giả Roger Jang thuộc nhóm phát triển Mirlab [] thư viện mã nguồn mở Voicebox tác giả Mike Brookes, khoa kỹ thuật điện điện tử, đại học kỹ thuật Hoàng gia, London, UK [] Hệ thống tìm kiếm âm nhạc dựa đặc trưng MFCC, sử dụng kỹ thuật phân cụm k-means, độ đo khoảng cách Ơclit 3.3.1 Mơ hình hệ thống 3.3.2.Các tham số thực nghiệm 3.3.3 Một số chức chương trình Footer Page 24 of 133 Header Page 25 of 133 23 KẾT LUẬN VÀ H ỚNG PHÁT TRIỂN KẾT LUẬN Việc xây dựng sở liệu đa phương tiện nhiều nhà khoa học ngồi nước quan tâm có nhiều ứng dụng thực tế Trong năm trước đây, nghiên cứu tập trung vào xây dựng quy trình kỹ thuật liên quan tới q trình truyền thơng đa phương tiện Khi có khối lượng liệu khổng lồ, vấn đề đặt cần có phương pháp tìm kiếm nhanh Tìm kiếm âm theo nội dung nói chung tìm kiếm âm nhạc nói riêng vấn đề khó, địi hỏi kết hợp nhiều phương pháp khác nhau, sử dụng nhiều tham số đặc trưng khác Luận văn thực được: - Nghiên cứu cấu phần, nguyên lý nhiệm vụ thiết kế sở liệu đa phương tiện nói chung sở liệu âm nói riêng - Tìm hiểu đặc trưng âm thanh, âm nhạc tiếng nói - Nghiên cứu, khảo sát số giải pháp kỹ thuật phân loại, phân lớp âm Nghiên cứu đặc trưng phục vụ việc trích chọn đặt trưng truy tìm âm nhạc sở nội dung - Tìm hiểu phương pháp trích chọn đặc trưng sử dụng MFCC - Tìm hiểu số kỹ thuật phân cụm liệu K-means DTW - Đề xuất mơ hình cho hệ thống tìm kiếm âm nhạc sở nội dung Cài đặt phần mềm thử nghiệm Matlab Hệ thống tìm kiếm âm nhạc dựa đặc trưng MFCC, sử dụng kỹ thuật phân cụm k-means, độ đo khoảng cách Ơclit Tuy nhiên Luận văn số hạn chế cần phát triển thêm : - Bộ liệu thử nghiệm nhỏ - Chưa nghiên cứu cài đặt kỹ thuật mục cho sở liệu - Chưa khảo sát đánh giá tính hiệu mặt thời gian tìm kiếm ảnh hưởng tham số độ dài tệp nhận dạng, số lượng mẫu cần huấn luyện, số hệ số MFCC số băng lọc sử dụng… Footer Page 25 of 133 Header Page 26 of 133 24 H ỚNG PHÁT TRIỂN CỦA LUẬN VĂN Tìm kiếm âm nhạc sở nội dung đề tài có tính khoa học tính thực tế cao Với nhiệm vụ nghiên cứu, luận văn đáp ứng số yêu cầu hệ thống Tuy nhiên để trở thành ứng dụng thực tế để triển khai cho người sử dụng địi hỏi phải thêm nhiều chức mở rộng để chương trình hồn thiện Do hướng phát triển luận văn sau: - Nghiên cứu cài đặt kỹ thuật mục cho sở liệu - Khảo sát đánh giá tính hiệu mặt thời gian tìm kiếm ảnh hưởng tham số độ dài tệp nhận dạng, số lượng mẫu cần huấn luyện, số hệ số MFCC số băng lọc sử dụng… - Cài đặt thử nghiệm chương trình liệu lớn Footer Page 26 of 133 ... thấy tiện ích Cơ sở liệu đa phương tiện việc tìm kiếm âm nhạc sở nội dung, em lựa chọn thực đề tài ? ?Tìm kiếm âm nhạc sở nội dung ứng dụng trường Đại học Văn hóa, Thể thao Du lịch Thanh Hóa? ?? nhằm... trường Đại học Văn hóa, Thể thao Du lịch Thanh Hóa sử dụng hệ tìm kiếm âm để đối sánh giai điệu nhạc việc bảo vệ quyền âm nhạc, sử dụng hệ tìm kiếm âm để đối sánh chất giọng sinh viên ngành Thanh nhạc. .. trưng âm - Phân lớp âm - Chỉ số hóa truy tìm âm nhạc - Kỹ thuật đối sánh sở liệu âm Ch ơng 3: Phát triển hệ thống thử nghiệm ứng dụng tr ờng Đại học Văn hóa, Thể thao Du lịch Thanh Hóa - Nhu cầu tìm