h, Biến đổi Cosin rời rạc
2.2.1.1. Giới thiệu về phân lớp âm thanh
Việc phân âm thanh thành các lớp cụ thể có ý nghĩa rất quan trọng. Do với mỗi lớp âm thanh khác nhau có các giá trị đặc trƣng khác nhau (ví dụ, lớp giọng nói có giá trị đặc trƣng ZR lớn hơn so với âm nhạc). Các giá trị đặc trƣng khác nhau của mỗi lớp âm thanh của mỗi lớp âm thanh sẽ giúp cho việc chỉ mục và tìm kiếm các loại âm thanh khác nhau đƣợc thuận tiện và nhanh chóng hơn. Mặt khác, việc phân lớp âm thanh khác nhau có ý nghĩa tƣơng ứng với mỗi ứng dụng trên thực tế khác nhau (ví dụ, ứng dụng trong lĩnh vực nhận dạng giọng nói, chuyển giọng nói thành văn bản... từ lớp âm thanh là giọng nói, hoặc ngƣời ta có thể dựa vào giai điệu để tìm bài hát tƣơng ứng từ lớp âm thanh là âm nhạc). Tóm lại, việc phân lớp âm thanh có các ý nghĩa sau đây:
1, Các lớp âm thanh khác nhau đòi hỏi các tiến trình xử lý và các kỹ thuật truy tìm, chỉ mục khác nhau.
2, Các lớp âm thanh khác nhau có ý nghĩa đối với các ứng dụng khác nhau.
3, Việc phân lớp âm thanh rất hữu ích đối với một số ứng dụng.
4, Không gian tìm kiếm sau khi phân lớp sẽ giảm đáng kể, phục vụ cho việc phân thành các lớp âm thanh riêng biệt hơn hoặc để xử lý, truy tìm âm thanh.
Hiện nay, một số phƣơng pháp phân lớp âm nhạc, giọng nói và các âm thanh khác đƣợc đề xuất nhƣ: Saunders sử dụng phƣơng pháp tốc độ vƣợt 0 (ZCR) trung bình và năng lƣợng thời gian ngắn (Short Time Energy) làm các
Số hóa bởi Trung tâm Học liệu 35 http://www.lrc-tnu.edu.vn/
đặc trƣng, và áp dụng một phƣơng pháp giới hạn đơn giản để phân biệt giọng nói và âm nhạc từ đài phát thanh. Scheirer và các đồng nghiệp thì sử dụng mƣời ba đặc trƣng đồng thời để phân lớp âm thanh. Kimber đƣa ra một cách tiếp cận về việc phân đoạn âm thanh, phần lớn đƣợc ứng dụng trong việc phân đoạn âm thanh trong bản ghi âm các hội nghị. Zang phân các lớp âm thanh bằng phƣơng pháp di truyền thành hai giai đoạn. Giai đoạn đầu, các tín hiệu âm thanh đƣợc phân đoạn và phân thành các lớp thô là giọng nói, âm nhạc, bài hát, giọng nói kèm nhạc nền, tiếng động của môi trƣờng kèm với nhạc nền, sáu loại tiếng động của môi trƣờng và tĩnh lặng (âm câm). Trong giai đoạn hai, sự phân lớp đƣợc nâng ở mức cao hơn và đƣợc đƣa vào từng loại cơ bản. Giọng nói đƣợc phân loại bằng giọng của ngƣời nam, nữ và trẻ em. Âm nhạc đƣợc phân lớp thành các lớp nhƣ loại nhạc blue, nhạc jazz, nhạc rock & roll, nhạc kèm lời và nhạc không lời, tùy theo các loại hoặc các nhạc cụ. Âm thanh môi trƣờng đƣợc phân lớp thành các lớp theo ngữ nghĩa ví dụ nhƣ tiếng vỗ tay, tiếng chuông kêu, tiếng bƣớc chân, tiếng gió bão, tiếng cƣời, tiếng chim hót...Theo Lu, một phƣơng pháp phân lớp âm thanh gồm hai giai đoạn thô để phân lớp âm thanh thành giọng nói, âm nhạc, tiếng động của môi trƣờng và tĩnh lặng. Còn Xi Shao, Changsheng Xu và Mohan S Kankanhalli đƣa ra phƣơng pháp phân lớp âm thanh tự động bằng cách: ban đầu, trích chọn các đặc trƣng từ nội dung âm thanh và xây dựng ra các vectơ đặc trƣng, sau đó, ứng dụng mạng nơron để tiến hành phân lớp âm thanh, và sử dụng giải thuật di truyền với giải thuật BP đồng thời để huấn luyện mạng. [4]