Thu thập dữ liệu tiếng nói

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm (Trang 45)

5. Ý nghĩa khoa học và thực tiễn

3.1. Thu thập dữ liệu tiếng nói

3.1.1. Ngữ âm tiếng Việt

Tiếng Việt là ngôn ngữ chính thức tại Việt Nam. Nó được hơn 90 triệu người Việt sử dụng hàng ngày. Khoảng hơn 3 triệu người Việt ở nước ngoài cũng thường xuyên sử dụng tiếng Việt.

Tóm tắt về ngữ âm tiếng Việt được trình bày dưới đây được tham khảo từ nghiên cứu của Đoàn Thiện Thuật [6] và Hoàng Phê [5].

3.1.1.1. Cấu trúc âm tiết tiếng Việt

Tiếng Việt là một ngôn ngữ đơn âm có thanh điệu điển hình [6]. Tổng số âm tiết (syllable) có thể phát âm trong tiếng Việt là khoảng 19.000 tuy nhiên chỉ có khoảng 7000 âm tiết được sử dụng và giảm xuống 1200 âm tiết nếu bỏ qua sự khác biệt về thanh điệu (tone). Cấu trúc âm tiết tiếng Việt được mô tả trong Hình 3.1. Mỗi âm tiết được xem là một tổ hợp của phần đầu (initial), phần vần (final) và thanh điệu. Có 22 phần đầu, 155 phần vần và 6 thanh điệu trong tiếng Việt [5].

Phần đầu thông thường là phụ âm (consonant), nhưng cũng có thể bị khuyết trong một số âm tiết. Phần vần có thể phân tách thành ba thành phần, bao gồm đầu vần (onset), nhân âm tiết (nucleus), và đuôi vần (coda). Phần đầu vần và đuôi vần có thể không tồn tại với một số âm tiết còn nhân âm tiết là thành phần chính của mọi âm tiết. Nhân âm tiết có thể là một nguyên âm (vowel) hoặc một nguyên âm đôi (diphthong). Đuôi vần có thể là một phụ âm hoặc một bán nguyên âm (semi- vowel). Có tất cả một phần đầu vần, 16 nhân âm tiết, và 8 đuôi vần trong tiếng Việt.

3.1.1.2. Thanh điệu tiếng Việt

Thanh điệu là một thành phần siêu phân đoạn (super-segmental) tồn tại duy nhất trong các ngôn ngữ có thanh điệu. Có sáu thanh điệu phân biệt trong tiếng Việt như trong Bảng 3.2 và Hình 3.1 (dấu ? ở thanh ngã chỉ ra rằng đường F0 của thanh ngã không thống nhất giữa các mẫu ở vùng giữa). Mỗi thanh điệu có một đường tần số cơ bản (F0) xác định.

Trong tiếng Việt, có hai loại âm tiết được phân biệt là âm đóng và âm mở. Âm tiết đóng kết thúc với các đuôi vần /p/, /t/, /k/ chỉ có thể kết hợp với các thanh sắc và nặng trong khi âm tiết mở và các âm tiết đóng khác có thể kết hợp với tất cả sáu thanh điệu để cấu thành một âm tiết có thanh có nghĩa.

Hình 3.1. Đường F0 sáu thanh điệu tiếng Việt Bảng 3.1. Cấu trúc âm tiết tiếng Việt

Thanh điệu

Phần đầu âm tiết

Phần vần

Đầu vần Nhân âm tiết Đuôi vần

Bảng 3.2. Sáu thanh điệu tiếng Việt

Số thứ tự thanh Tên tiếng Việt Tên tiếng Anh

1 Ngang Level 2 Huyền Falling 3 Ngã Broken 4 Hỏi Curve 5 Sắc Rising 6 Nặng Drop

3.1.2. Cơ sở dữ liệu tiếng nói tiếng Việt

Trong phần này, học viên giới thiệu một số bộ cơ sở dữ liệu tiếng nói tiếng Việt trung bình và lớn phổ biến.

3.1.2.1 Cơ sở dữ liệu tiếng nói phát thanh VOV

Bộ cơ sở dữ liệu này được xây dựng tại Viện Công nghệ thông tin, Viện hàn lâm, khoa học và công nghệ Việt Nam [4]. Bộ cơ sở dữ liệu gồm các câu chuyện, báo cáo, bản tin,… được Đài tiếng nói Việt Nam VOV phát thanh và được sưu tập từ 15 người nói giọng Hà Nội chuẩn. Âm thanh dạng RealAudio được sưu tập từ website của VOV và được chuyển đổi về dạng âm thanh PCM WAV với tốc độ bit 256 kbps, tần số lấy mẫu là 16 KHz.

Bộ cơ sở dữ liệu bao gồm 29062 câu với độ dài trung bình 10 âm tiết. Số lượng các âm tiết phân biệt là 4379 trong khi số lượng các âm tiết phân biệt không tính thanh điệu là 1646 bao phủ gần như toàn bộ các âm tiết tiếng Việt. Kích cỡ bộ cơ sở dữ liệu khoảng 2.5 GB.

Bộ cơ sở dữ liệu được lựa chọn cân bằng giữa mỗi người nói và mỗi phiên và được gán nhãn bằng tay chỉ ở mức âm tiết. Mặc dù đây là một bộ cơ sở dữ liệu lớn, việc sử dụng bộ cơ sở dữ liệu này cho nghiên cứu là khá khó khăn do chưa có nhãn gán ở mức âm vị.

3.1.2.2 Cơ sở dữ liệu DEMEN567

Bộ cơ sở dữ liệu này cũng được xây dựng tại Viện Công nghệ thông tin, Viện hàn lâm, khoa học và công nghệ Việt Nam [4]. Kịch bản văn bản được trích ra từ câu chuyện Dế mèn phiêu lưu ký nổi tiếng. Người nói là một nữ phát thanh viên giọng Hà Nội chuẩn. Tiếng nói được ghi âm ở dạng PCM WAV, tần số lấy mẫu là 11025 Hz, mã hóa 16 bit/mẫu. Cơ sở dữ liệu bao gồm 567 câu với độ dài mỗi câu khoảng 15 âm tiết. Kích cỡ bộ cơ sở dữ liệu vào khoảng 70 MB và độ dài vào khoảng gần 1 giờ nói.

Bộ cơ sở dữ liệu được gán nhãn bằng tay ở cả mức âm tiết và âm vị bao gồm thông tin thanh điệu. Đây là bộ cơ sở dữ liệu kích cỡ trung bình với chất lượng cao do việc thiết kế kịch bản văn bản đảm bảo độ cân bằng âm cao cũng như việc gán nhãn ở mức âm vị là khá chính xác.

3.1.2.3 Cơ sở dữ liệu MICA VNSpeech

Đây là bộ cơ sở dữ liệu được xây dựng tại Trung tâm nghiên cứu quốc tế MICA, Đại học Bách Khoa Hà Nội. Bộ cơ sở dữ liệu đươc nói bởi 50 người nói bao gồm 25 nữ và 25 nam với độ tuổi từ 15 đến 45. Người nói hầu hết có trình độ đại học với ba phương ngữ chính: miền Nam, miền Bắc, và miền Trung Việt Nam. Mỗi người nói khoảng 60 phút. Tần số lấy mẫu là 16 KHz. Mức độ cân bằng về ngữ âm và âm vị được đảm bảo khá tốt [15].

Mặc dù bộ cơ sở dữ liệu này được xem là một cơ sở dữ liệu tiếng nói lớn với chất lượng thu âm cao, nhãn mô tả trong cơ sở dữ liệu được tạo ra bằng phương pháp gán nhãn tự động có sai số lớn đã giới hạn khả năng sử dụng cơ sở dữ liệu này trong các nghiên cứu về xử lý tiếng nói tiếng Việt.

3.1.3. Tổng hợp tiếng nói tiếng Việt

Chuyển đổi thông tin người nói có thể xem là một nhánh nghiên cứu về tổng hợp tiếng nói. Do đó, trong phần này học viên điểm lại một số nghiên cứu về tổng hợp tiếng nói tiếng Việt.

Tổng hợp tiếng nói tiếng Việt được bắt đầu nghiên cứu khoảng hai thập kỷ trở lại đây. Hai bộ tổng hợp tiếng nói tiếng Việt có thế coi là sơ khai nhất là VnSpeech sủ dụng công nghệ tổng hợp Formant và VnVoice sủ dụng kỹ thuật ghép nối đơn vị âm. Chất lượng của các bộ tổng hợp này là chưa cao, học viên cũng gần như không phát triển tiếp cho đến nay.

Một số bộ tổng hợp tiếng nói tiếng Việt đã được thương mai hóa như bộ tổng hợp tiếng nói phương Nam (VOS), Sao Mai, Hoa Súng. Đây là những bộ tổng hợp dựa trên kỹ thuật ghép nối ở mức âm tiết hay mức từ. Chúng có thể tổng hợp rất tốt với giọng của người nói trong cơ sở dữ liệu.

Tuy nhiên các hệ thống này chưa tích hợp khả năng chuyển đổi giọng người nói để có thể tổng hợp ra nhiều giọng khác nhau.

Gần đây các hệ thống tổng hợp tiếng nói dùng phương pháp thống kê HMM cũng được nghiên cứu phát triển, tuy nhiên vấn đề chuyển đổi giọng người nói để có thể tổng hợp ra nhiều giọng nói đầu ra khác nhau với nhiều cảm xúc nói khác nhau cũng chưa được quan tâm nghiên cứu.

3.2. Cài đặt phương pháp mã hóa trên Matlab

Môi trường để cài đặt là MATLAB R2012. Các hàm phân tích, xử lý tiếng nói được lấy từ thư viện của tác giả.

Thư viện hàm tính toán đánh giá khách quan PESQ được lấy từ thư viện của tác giả Rix Antony.

Input: Các file âm thanh có đuôi *.wav.

Output: Dữ liệu âm thanh đã được nén nhưng chất lượng vẫn đảm bảo.

Hình 3.2. Thuật toán mã hóa và đánh giá chất lượng tiếng nói mã hóa bằng NMF

Thuật toán cài đặt hệ thống mã hóa tiếng nói dùng NMF của Chien [2], học viên chỉ thực hiện mã hóa NMF của Chien [2] với tham số phổ LSF với tỷ lệ sự kiện tương ứng với tỷ lệ nén. Nói cách khác tỷ lệ nén được cố định. Sau đó chất

lượng tiếng nói được tái tạo được so sánh với chất lượng tiếng nói nguồn. Đây chưa phải hệ thống mã hóa hoàn thiện (bao gồm cả các khối mã hóa F0, AP), tuy nhiên đủ để đánh giá chất lượng tiếng nói tái tạo khi mã hóa nén tham số phổ với một tỷ lệ nén cho trước.

3.3. Đánh giá khách quan, chủ quan và so sánh các phương pháp 3.3.1.Đánh giá khách quan và chủ quan 3.3.1.Đánh giá khách quan và chủ quan

Trong đánh giá chất lượng tiếng nói thì cả các phương pháp khách quan (máy đánh giá theo công thức) và chủ quan (người nghe đánh giá) đều được sử dụng. Mỗi phương pháp có những ưu nhược điểm riêng. Dưới đây sẽ xem xét cụ thể từng tiêu chí của từng phương pháp.

Tiêu chí chủ quan:

Tiêu chí đánh giá chủ quan là tiêu chí sử dụng người nghe để đánh giá chất lượng tiếng nói. Tiêu chí chủ quan được xem là quan trọng hơn do mục tiêu cuối cùng của tiếng nói mã hóa vẫn phải là đảm bảo người nghe hiểu được, chấp nhận được. Tuy nhiên để thực hiện các đánh giá chủ quan là tốn kém, mất thời gian, cần thiết bị nghe và phòng nghe chuyên dụng để tránh nhiễu môi trường. Ngoài ra, các phương pháp chủ quan khó đảm bảo sự tin cậy hoàn toàn do người nghe có thể mất tập trung, không chú tâm vào việc đánh giá hoặc thậm chí cố tình cho điểm sai. Các điểm yếu của các phương pháp chủ quan có thể khắc phục bằng cách tăng số lượng người nghe, số lượng phép test để đảm bảo các giá trị thống kê có sự ổn định và tin cậy.

Trong luận văn này học viên sử dụng phương pháp của Scheffe [17]. Trong đó 5 sinh viên có khả năng nghe bình thường được lựa chọn để thực hiện các đánh giá nghe chủ quan mỗi loại tiếng nói (có nén, không nén) 20 mẫu. Mỗi người được hỏi để phân loại chất lượng tiếng nói nghe được theo thang từ -2 đến 2 khi so sánh hai mẫu tiếng nói nguồn và mã hóa trong một cặp.

Nhằm khắc phục các yếu điểm của tiêu chí đánh giá chủ quan, nhiều phương pháp đánh giá khách quan đã được xây dựng. Các phương pháp đánh giá khách quan truyền thông theo cách tiếp cận so sánh trực tiếp hai tín hiệu nguồn và mã hóa để tính toán sai số khác biệt đã chứng tỏ không hiệu quả do khả năng nghe của con người không tỷ lệ tuyến tính với sai số. Nói cách khác hai tín hiệu có sai khác lớn có thể người nghe sẽ thấy giống hơn hai tín hiệu có sai khác nhỏ (nhưng các điểm khác là các điểm quan trọng với tai người). Các phương pháp đánh giá khách quan hiện đại nhất được sử dụng là các phương pháp mô hình hóa khả năng nghe của con người để “chủ quan hóa” các tham số khách quan, từ đó đưa ra các phương pháp tính toán khách quan phù hợp nhất với khả năng nghe của con người.

Trong số các phương pháp đánh giá chất lượng tiếng nói khách quan thì phương pháp PESQ [18] được sử dụng phổ biến nhất và cũng được sử dụng trong luận văn này. Đây là một tiêu chí khách quan mô phỏng tiêu chí chủ quan mô tả trong Hình 3.3 bằng cách xây dựng một mô hình nghe nhân tạo tích hợp các phân tích về khả năng cảm thụ âm của con người. Trong đó chất lượng tiếng nói được đánh giá theo thang 5 điểm như trong Bảng 3.3, với tiếng nói chuẩn được quy chiếu ở thang điểm cao nhất 5 điểm.

Bảng 3.3. Thang điểm PESQ

Chất lượng tiếng nói Điểm

Rất tốt 5 Tốt 4 Trung bình 3 Kém 2 Rất kém 1 3.3.2. So sánh với các phương pháp khác.

Sau khi thực nghiệm phương pháp mã hóa tiếng nói NMF của Chien [2], học viên thử nghiệm phương pháp trên cơ sở dữ liệu tiếng nói tiếng Việt DEMEN567. Tỷ lệ nén được sử dụng làm căn cứ để chọn tỷ lệ sự kiện tiếng nói, trên từng tỷ lệ nén đầu vào, học viên sẽ so sánh tiếng nói được mã hóa nén và tiếng nói gốc để tính toán các tiêu chí đánh giá khách quan như PESQ cũng như đánh giá chủ quan.

Kết quả đánh giá chủ quan bằng phương pháp của Scheffe trung bình với 20 mẫu mỗi loại tiếng nói trích từ cơ sở dữ liệu DEMEN567 (có nén với tỷ lệ nén là 20, không nén) được cho Hình 3.4 và Hình 3.5. Kết quả đánh giá khách quan bằng phương pháp PESQ với 50 mẫu tiếng nói trích từ DEMEN567 cho thấy PESQ với tiếng nói không nén trung bình là 4.5/5 còn tiếng nói có nén là 2.6/5 như trên Hình 3.6.

Hình 3.4. Kết quả đánh giá chủ quan bằng phương pháp của Scheffe với tỷ lệ nén đầu vào là 20

Hình 3.5. Kết quả đánh giá chủ quan bằng phương pháp của Scheffe với tỷ lệ nén đầu vào là 30 0 1 -1 -2 2 Chất lượng cao Chất lượng thấp

Tiếng nói mã hóa bằng STRAIGHT (không nén)

Tiếng nói mã hóa bằng NMF (nén) với tỉ lệ nén là 20 0 1 -1 -2 2 Chất lượng cao Chất lượng thấp

Tiếng nói mã hóa bằng STRAIGHT (không nén)

Tiếng nói mã hóa bằng NMF (nén) với tỷ lệ nén 30

3.4. Phân tích, đánh giá ưu nhược điểm

Với các phương pháp nén truyền thống như nén MP3, tỷ lệ nén trung bình khoảng 1/11 cho đầu ra âm thanh CD có tốc độ bit là 128 Kbps. Trong luận văn này, khi học viên thử nghiệm ở tỷ lệ nén ở mức rất cao (20-30 lần) để cho ra tiếng nói có tốc độ bit rất thấp thì chất lượng tiếng nói có nén vẫn chấp nhận được với cả đánh giá chủ quan và khách quan. Hình 3.4 và Hình 3.5 cho thấy khi thay đổi tỷ lệ nén từ 20 đến 30 thì chất lượng tiếng nói suy giảm không nhiều và vẫn ở mức chấp nhận được, đủ để nghe hiểu. Các kết quả trên cho thấy phương pháp mã hóa nén tiếng nói NMF là một phương pháp tốt trên tiếng Việt. Cùng với các kết quả đánh giá hiệu quả NMF trên tiếng Anh, tiếng Nhật [1, 2] thì kết quả nghiên cứu này cho thấy NMF là một phương pháp mã hóa nén hiệu quả với nhiều ngôn ngữ, có nhiều tiềm năng ứng dụng.

Ưu điểm

 NMF chuyển một matrix X thành phép nhân 2 maxtrix cấp thấp hơn với độ xấp xỉ và sai số nhỏ. Mục đích để giảm cho việc lưu trữ và việc tính toán nhưng vẫn đảm bảo được các đặc điểm của dữ liệu (các đặc tính của mô hình).

 Một thuật toán mới dựa trên NMF-WI được trình bày có thể hoạt động ở tốc độ bit rất thấp với tốc độ 1kb / s. Trong bộ mã hóa này, các tham số của hai khung liên tiếp được nhóm thành một siêu khung và được lượng tử hóa cùng nhau. Để giảm sự dư thừa hơn nữa, một số kỹ thuật được sử dụng, tức là dự đoán giữa các khung đã được giới thiệu cho LSF và DCT được áp dụng để giảm kích thước khi ma trận mã hóa và mã hóa H được lượng tử hóa.

Nhược điểm

 Hiện tại không có nhiều kết quả lý thuyết về NMF hoàn chỉnh từ quan điểm phân rã ma trận, chẳng hạn như độ phức tạp tính toán.

 Hiện tại vẫn cần được nghiên cứu và xem xét để lựa chọn và đánh giá các hàm mục tiêu khác nhau để hình thành các phương pháp NMF.

 Để có thể sử dụng thực tế NMF trên tập dữ liệu quy mô lớn, các thuật toán NMF cải tiến về độ phức tạp tính toán thì cần được nghiên cứu thêm.

KẾT LUẬN

Trong luận văn này học viên đã nghiên cứu về phương pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật NMF nói chung, phương pháp NMF của Xue và NMF của N.P.Chien nói riêng. Học viên đã phân tích lý thuyết, cài đặt thực nghiệm và đánh giá hiệu quả của phương pháp mã hóa tiếng nói dùng kỹ

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm (Trang 45)

Tải bản đầy đủ (PDF)

(59 trang)