Cài đặt các phƣơng pháp mã hóa tiếng nói dùng MRTD trên MATLAB

Một phần của tài liệu Nghiên cứu phương pháp nén tiếng nói tốc độ bít thấp bằng kỹ thuật phân rã tiếng nói theo thời gian (Trang 56 - 61)

5. Ý nghĩa khoa học và thực tiễn

3.3. Cài đặt các phƣơng pháp mã hóa tiếng nói dùng MRTD trên MATLAB

MATLAB

Môi trƣờng để cài đặt là MATLAB 7.0. Thƣ viện các hàm phân tích, xử lý tiếng nói STRAIGHT đƣợc lấy từ website của tác giả Kawahara tại địa chỉ:

http://www.wakayama-u.ac.jp/~kawahara/STRAIGHTadv/index_e.html

Thƣ viện hàm tính toán đánh giá khách quan PESQ đƣợc lấy từ thƣ viện của tác giả Rix Antony.

Hình 3.2. Thuật toán mã hóa và đánh giá chất lƣợng tiếng nói mã hóa bằng MRTD

Thuật toán cài đặt hệ thống mã hóa tiếng nói dùng MRTD đƣợc mô tả trong hình 3.2, trong đó chúng tôi chỉ thực hiện mã hóa MRTD với tham số phổ LSF với tỉ lệ sự kiện tƣơng ứng với tỉ lệ nén. Nói cách khác tỉ lệ nén đƣợc cố định. Sau đó chất lƣợng tiếng nói đƣợc tái tạo đƣợc so sánh với chất lƣợng tiếng nói nguồn. Đây chưa phải hệ thống mã hóa hoàn thiện (bao gồm cả các khối mã hóa F0, AP), tuy nhiên đủ để đánh giá chất lƣợng tiếng nói tái tạo khi mã hóa nén tham số phổ với một tỉ lệ nén cho trƣớc.

3.4. Tiêu chí đánh giá khách quan và chủ quan

Trong đánh giá chất lƣợng tiếng nói thì cả các phƣơng pháp khách quan (máy đánh giá theo công thức) và chủ quan (ngƣời nghe đánh giá) đều đƣợc sử dụng. Mỗi phƣơng pháp có những ƣu nhƣợc điểm riêng. Dƣới đây chúng ta sẽ xem xét cụ thể từng tiêu chí của từng phƣơng pháp.

Tiêu chí chủ quan:

Tiêu chí đánh giá chủ quan là tiêu chí sử dụng ngƣời nghe để đánh giá chất lƣợng tiếng nói. Tiêu chí chủ quan đƣợc xem là quan trọng hơn do mục tiêu cuối cùng của tiếng nói mã hóa vẫn phải là đảm bảo ngƣời nghe hiểu đƣợc, chấp nhận đƣợc. Tuy nhiên để thực hiện các đánh giá chủ quan là tốn kém, mất thời gian, cần thiết bị nghe và phòng nghe chuyên dụng để tránh nhiễu môi trƣờng. Ngoài ra, các phƣơng pháp chủ quan khó đảm bảo sự tin cậy hoàn toàn do ngƣời nghe có thể mất tập trung, không chú tâm vào việc đánh giá hoặc thậm chí cố tình cho điểm sai. Các điểm yếu của các phƣơng pháp chủ quan có thể khắc phục bằng cách tăng số lƣợng ngƣời nghe, số lƣợng phép test để đảm bảo các giá trị thống kê có sự ổn định và tin cậy.

Trong luận văn này chúng tôi sử dụng phƣơng pháp của Scheffe [16]. Trong đó 5 sinh viên có khả năng nghe bình thƣờng đƣợc lựa chọn để thực hiện các đánh giá nghe chủ quan mỗi loại tiếng nói (có nén, không nén) 20

mẫu. Mỗi ngƣời đƣợc hỏi để phân loại chất lƣợng tiếng nói nghe đƣợc theo thang từ -2 đến 2 khi so sánh hai mẫu tiếng nói nguồn và mã hóa trong một cặp.

Bảng 3.3. Thang điểm Scheffe

Chất lƣợng tiếng nói Điểm

Rất tốt 2 Tốt 1 Trung bình 0 Kém -1 Rất kém -2 Tiêu chí khách quan:

Nhằm khắc phục các yếu điểm của tiêu chí đánh giá chủ quan, nhiều phƣơng pháp đánh giá khách quan đã đƣợc xây dựng. Các phƣơng pháp đánh giá khách quan truyền thông theo cách tiếp cận so sánh trực tiếp hai tín hiệu nguồn và mã hóa để tính toán sai số khác biệt đã chứng tỏ không hiệu quả do khả năng nghe của con ngƣời không tỉ lệ tuyến tính với sai số. Nói cách khác hai tín hiệu có sai khác lớn có thể ngƣời nghe sẽ thấy giống hơn hai tín hiệu có sai khác nhỏ (nhƣng các điểm khác là các điểm quan trọng với tai ngƣời). Các phƣơng pháp đánh giá khách quan hiện đại nhất đƣợc sử dụng là các phƣơng pháp mô hình hóa khả năng nghe của con ngƣời để “chủ quan hóa” các tham số khách quan, từ đó đƣa ra các phƣơng pháp tính toán khách quan phù hợp nhất với khả năng nghe của con ngƣời.

Trong số các phƣơng pháp đánh giá chất lƣợng tiếng nói khách quan thì phƣơng pháp PESQ [17] đƣợc sử dụng phổ biến nhất và cũng đƣợc sử dụng trong luận văn này. Đây là một tiêu chí khách quan mô phỏng tiêu chí chủ quan mô tả trong hình 3.3 bằng cách xây dựng một mô hình nghe nhân tạo tích hợp các phân tích về khả năng cảm thụ âm của con ngƣời. Trong đó chất lƣợng tiếng nói đƣợc đánh giá theo thang 5 điểm nhƣ trong bảng 3.4, với tiếng nói chuẩn đƣợc quy chiếu ở thang điểm cao nhất 5 điểm.

Hình 3.3. Mô hình hóa ngƣời nghe trong PESQ

Hình 3.4. Tích hợp phân tích khả năng cảm thụ con ngƣời để tính điểm chất lƣợng tiếng nói nhân tạo

Bảng 3.4. Thang điểm PESQ

Chất lƣợng tiếng nói Điểm

Rất tốt 5

Tốt 4

Trung bình 3

Kém 2

Rất kém 1

Một phần của tài liệu Nghiên cứu phương pháp nén tiếng nói tốc độ bít thấp bằng kỹ thuật phân rã tiếng nói theo thời gian (Trang 56 - 61)

Tải bản đầy đủ (PDF)

(66 trang)