Bài giảng Xử lý tiếng nói: Phần 2

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề	Xử Lý Tiếng Nói
Tác giả	Phạm Văn Sự, Lê Xuân Thành
Trường học	Học viện Công nghệ Bưu chính Viễn thông
Thể loại	bài giảng
Năm xuất bản	2014
Thành phố	Hà Nội

Định dạng
Số trang	63
Dung lượng	1,75 MB

Nội dung

Nối tiếp phần 1, Bài giảng Xử lý tiếng nói: Phần 2 tiếp tục cung cấp cho học viên những kiến thức về tổng hợp tiếng nói; hệ thống tổng hợp chữ viết sang tiếng nói; một số đặc điểm của việc tổng hợp tiếng Việt; nhận dạng tiếng nói; phân loại các hệ thống nhận dạng tiếng nói; cấu trúc hệ nhận dạng tiếng nói; các phương pháp phân tích cho nhận dạng tiếng nói;... Mời các bạn cùng tham khảo chi tiết nội dung bài giảng!

BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THƠNG ******************************* BÀI GIẢNG XỬ LÝ TIẾNG NÓI BIÊN SOẠN: PHẠM VĂN SỰ LÊ XUÂN THÀNH HÀ NỘI - 2014 CHƢƠNG TỔNG HỢP TIẾNG NÓI CHƢƠNG TỔNG HỢP TIẾNG NÓI 4.1 MỞ ĐẦU Trƣớc khái niệm "tổng hợp tiếng nói" thƣờng đƣợc dùng để q trình tạo âm tiếng nói cách nhân tạo từ máy dựa theo nguyên lý mô quan phát âm ngƣời Tuy nhiên ngày nay, với phát triển khoa học công nghệ, khái niệm đƣợc mở rộng bao gồm q trình cung cấp thơng tin dạng tiếng nói từ máy tin đƣợc tạo dựng cách linh động để phù hợp cho nhu cầu Các ứng dụng hệ thống tổng hợp tiếng nói ngày rộng rãi, từ việc cung cấp thơng tin dạng tiếng nói, máy đọc cho ngƣời mù, đến thiết bị hỗ trợ cho ngƣời gặp khó khăn việc giao tiếp, 4.2 CÁC PHƢƠNG PHÁP TỔNG HỢP TIẾNG NÓI 4.2.1 Tổng hợp trực tiếp Một phƣơng pháp đơn giản thực việc tổng hợp tin phƣơng pháp tổng hợp trực tiếp phần tin đƣợc chắp nối phần (fragment) đơn vị tiếng nói ngƣời Các đơn vị tiếng nói thƣờng từ cụm từ đƣợc lƣu trữ tin tiếng nói mong muốn đƣợc tổng hợp cách lựa chọn chắp nối đơn vị thích hợp Có nhiều kỹ thuật việc tổng hợp trực tiếp tiếng nói kỹ thuật đƣợc phân loại theo kích thƣớc đơn vị dùng để chắp nối nhƣ loại biểu diễn tín hiệu dùng để chắp nối Các phƣơng pháp phổ biến kêt đến là: phƣơng pháp chắp nối từ, chắp nối đơn vị từ (âm vị sub-word unit), chắp nối phân đoạn dạng sóng tín hiệu 4.2.1.1 Phƣơng pháp tổng hợp trực tiếp đơn giản Phƣơng pháp đơn giản để tạo tin tiếng nói ghi lƣu trữ tiếng nói ngƣời theo đơn vị từ riêng lẻ khác sau chọn phát lại từ theo thứ tự mong muốn Phƣơng pháp đƣợc đƣa vào sử dụng hệ thống điện thoại nƣớc Anh từ năm 36 kỷ trƣớc, từ năm 60 kỷ trƣớc thƣờng đƣợc dùng số hệ thống thông báo công cộng, ngày cịn có mặt nhiều hệ thống quản lý điện thoại giới Hệ thống phải lƣu trữ đầy đủ thành phần tin cần thiết phải tái tạo lƣu nhớ Bộ tổng hợp làm nhiệm vụ kết nối đơn vị yêu cầu cấu thành tin lại với theo thứ tự mà thay đổi hay biến đổi thành phần riêng rẽ Chất lƣợng tin tiếng nói đƣợc tổng hợp theo phƣơng pháp bị ảnh hƣởng chất lƣợng tính liên tục đặc trƣng âm học (biên phổ, biên độ, tần số bản, tốc độ nói) đơn vị đƣợc chắp nối Phƣơng pháp tổng hợp tỏ hiệu 91 CHƢƠNG TỔNG HỢP TIẾNG NÓI tin có dạng danh sách chẳng hạn nhƣ dãy số bản, khối tin thƣờng xuất vị trí định câu Điều dễ hiểu điều cho phép dễ dàng đảm bảo tin đƣợc phát có tính tự nhiên mặt thời gian cao độ Khi có yêu cầu cấu trúc câu đặc biệt mà từ thay vị trí định câu từ phải đƣợc ghi lại nhƣ thứ tự câu khơng khơng phù hợp với ngữ điệu câu Chẳng hạn với dãy số cần thiết phải ghi lại chúng hai dạng: tƣơng ứng với vị trí cuối câu dạng khơng Điều cấu trúc pitch đơn vị tiếng nói thay đổi tùy theo vị trí từ câu Nhƣ vậy, trình biên soạn trình tốn thời gian cơng sức Ngồi việc chắp nối trực tiếp đơn vị tiếng nói gặp nhiều khó khăn việc diễn tả ảnh hƣởng tự nhiên từ, nhƣ ngữ điệu nhịp điệu câu Một hạn chế phải kể đến kích thƣớc nhớ cho ứng dụng với số lƣợng tin lớn lớn Yêu cầu nhớ lƣu trữ lớn đƣợc phần giải việc sử dụng phƣơng pháp mã hóa tốc độ thấp cho đơn vị tiếng nói trƣớc thực việc lƣu trữ Tuy nhiên phƣơng pháp sử dụng lƣu trữ trực tiếp mã hóa đơn vị lớn (từ, cụm từ) tiếng nói, số lƣợng tin tổng hợp đƣợc hạn chế Để tăng số lƣợng tin tổng hợp đƣợc, đơn vị từ đƣợc chia nhỏ thành đơn vị từ con, diphone, demisyllable, syllable đƣợc ghi lƣu trữ Tuy nhiên đơn vị tiếng nói đƣợc chia nhỏ chất lƣợng tin tổng hợp đƣợc chất lƣợng bị giảm Hình 4.1 minh họa so sánh spectrogram câu tổng hợp đƣợc theo phƣơng pháp tổng hợp trực tiếp đơn giản tin ngun thủy 92 CHƢƠNG TỔNG HỢP TIẾNG NĨI Hình 4.1 So sánh kết từ tin tổng hợp trực tiếp tin nguyên thủy 4.2.1.2 Phƣơng pháp tổng hợp trực tiếp từ phân đoạn dạng sóng Nhƣ đề cập phần trên, phƣơng pháp tổng hợp trực tiếp đơn giản gặp phải hạn chế việc khơi phục tốc độ tính tự nhiên (nhấn, nhịp, ngữ điệu) tin đƣợc tổng hợp Vấn đề đƣợc giải cách sử dụng phƣơng pháp tổng hợp từ phân đoạn dạng sóng hay gọi phƣơng pháp tổng hợp chồng thêm đoạn sóng theo độ dài pitch Xét tốn nối hai phân đoạn dạng sóng tín hiệu nguyên âm, ta thấy không liên tục dạng sóng tổng hợp đƣợc giảm nhỏ tối thiểu việc chắp nối xảy vị trí chu kỳ glottal (dao động mơn) hai phân đoạn Vị trí thƣờng vị trí tƣơng ứng với vùng có biên độ tín hiệu nhỏ đáp ứng tuyến âm với xung glottal có suy giảm lớn trƣớc xung Nói cách khác, hai phân đoạn tín hiệu đƣợc nối theo kiểu đồng pitch (pitch-synchronous manner) Phƣơng pháp phổ biến thực việc phƣơng pháp TD-PSOLA (Time domain Pitch Synchronous Overlap Add) TD-PSOLA thực việc đánh dấu vị trí tƣơng ứng với đóng lại dây (tức xung pitch) dạng sóng tín hiệu tiếng nói Các vị trí đánh dấu đƣợc sử dụng để tạo phân đoạn cửa sổ dạng sóng tín hiệu cho chu kỳ Với chu kỳ, hàm cửa sổ phải đƣợc chỉnh trùng với trung tâm vùng có biên độ tín hiệu cực đại hình dạng hàm cửa sổ phải đƣợc chọn thích hợp Ngoài ra, độ dài hàm cửa sổ 93 CHƢƠNG TỔNG HỢP TIẾNG NÓI phải dài chu kỳ nhằm tạo chồng lấn nhỏ cửa sổ tín hiệu cạnh Hình 4.2 minh họa nguyên lý làm việc phƣơng pháp TD-PSOLA sử dụng hàm cửa sổ Hanning Hình 4.2 Ngun lý phƣơng pháp TD-PSOLA Từ minh họa, ta thấy rằng, cách nối dãy phân đoạn cửa sổ tín hiệu sóng theo vị trí tƣơng đối cho trƣớc theo điểm dấu pitch phân tích, ta tái tạo cách xác tin theo ý mong muốn Ngoài ra, cách thay đổi vị trí tƣơng đối số lƣợng điểm dấu pitch, ta làm thay đổi pitch thời gian tin đƣợc tổng hợp 4.2.2 Tổng hợp tiếng nói theo Formant Phƣơng pháp tổng hợp theo Formant phƣơng pháp tổng hợp đích thực đƣợc phát triển phƣơng pháp tổng hợp phổ biến tận năm đầu thập kỷ 80 Phƣơng pháp tổng hợp theo Formant đƣợc gọi phƣơng pháp tổng hợp theo luật Nó sử dụng phƣơng pháp mơ-đun (modular), dựa mơ hình (modelbased), mối quan hệ âm thanh-âm tiết để giải tốn tổng hợp tiếng nói Trong phƣơng pháp này, mơ hình tuyến âm đƣợc sử dụng cách đặt biệt cho 94 CHƢƠNG TỔNG HỢP TIẾNG NÓI thành phần điều khiển ống dễ dàng đƣợc liên hệ với tính chất mối quan hệ âm thanh-âm tiết (acoustic-phonetic) quan sát đƣợc cách dễ dàng Hình 4.3 mơ tả sơ đồ tổng quát hệ thống tổng hợp theo formant Nguyên lý tổng quát hệ thống đƣợc mô tả nhƣ sau Âm đƣợc phát từ nguồn Đối với nguyên âm phụ âm hữu nguồn âm đƣợc tạo đầy đủ hàm tuần hoàn miền thời gian dãy đáp ứng xung đƣa qua mạch lọc tuyến tính mơ khe mơn (glottal LTI filter) Đối với âm vơ nguồn âm đƣợc tạo từ phát nhiễu ngẫu nhiên Đối với âm tắc nguồn đƣợc tạo cách kết hợp nguồn cho âm hữu nguồn cho âm vô Tín hiệu âm từ nguồn âm đƣợc đƣa vào mơ hình tuyến âm (vocal tract) Để tái tạo tất formant, mô khoang miệng khoang mũi đƣợc xây dựng song song riêng biệt Do đó, tín hiệu qua hệ thống qua mơ hình khoang miệng, có u cầu âm mũi qua hệ thống mơ hình khoang mũi Cuối kết thành phần âm tạo từ mơ hình khoang miệng mũi đƣợc kết hợp lại đƣợc đƣa qua hệ thống phát xạ, hệ thống mô đặc tính lan truyền đặc tính tải mơi mũi Khoang mũi Nguồn Phát xạ Nguồn Lƣu lƣợng Vận tốc Hình 4.3 Khoang miệng Mơi/Mũi Lƣu lƣợng Vận tốc Tiếng nói Áp suất Dạng sóng Sơ đồ phƣơng pháp tổng hợp theo formant Theo lý thuyết mạch lọc, formant đƣợc tạo sử dụng mạch lọc IIR bậc hai với hàm truyền: H  z  1  a1 z  a2 z 2 1 Trong hàm truyền đạt phân tích thành: H  z  1  p z 1  p z  1 1 95 CHƢƠNG TỔNG HỢP TIẾNG NÓI Ta biết rằng, để xây dựng mạch lọc với hệ số a1 a2 thực điểm cực phải có dạng cặp liên hợp phức Cần ý lọc bậc hai nhƣ có đồ thị phổ với hai formant, nhiên có hai nằm phần tần số dƣơng Do đó, ta coi lọc tạo formant đơn lẻ có ích Các điểm cực quan sát đƣợc đồ thị, độ lớn biên độ điểm cực định băng tần biên độ cộng hƣởng Độ lớn biên độ nhỏ cộng hƣởng phẳng, ngƣợc lại, độ lớn biên độ lớn cộng hƣởng nhọn Nếu biểu diễn điểm cực tọa độ cực với góc pha  bán kính r ý đến nhận xét cặp điểm cực liên hợp phức ta viết hàm truyền đạt công thức (4.1) nhƣ sau: H ( z)  1  2r cos z 1  r z  Từ ta tạo formant với tần số mong muốn việc sử dụng trực tiếp giá trị thích hợp  Tuy việc điều khiển băng tần cách trực tiếp khó khăn Vị trí formant thay đổi hình dạng phổ mối quan hệ xác cho trƣờng hợp đạt đƣợc Cũng cần ý rằng, hai điểm cực gần nhau, chúng có ảnh hƣởng đến việc kết hợp thành đỉnh cộng hƣởng điều lại gây khó khăn cho việc tính tốn băng tần Thực nghiệm cho thấy mối liên hệ băng tần chuẩn hóa formant bán kính điểm cực xấp xỉ hợp lý bởi: Bˆ  2ln  r  Khi ta biểu diễn hàm truyền đạt theo hàm tần số chuẩn hóa Fˆ băng tần chuẩn hóa Bˆ formant nhƣ sau: H  z   2e 2 Bˆ ˆ cos 2 Fˆ z 1  e2 B z 2   Ở đây, tần số chuẩn hóa Fˆ băng tần chuẩn hóa Bˆ xác định tƣơng ứng cách chia F B cho tần số lấy mẫu Fs Để tạo nhiều formant ta thực lọc mà hàm truyền đạt tích số hàm truyền đạt bậc hai Nói cách khác, hàm truyền cho tuyến âm (vocal tract) có dạng: H  z   H1  z  H  z  H3  z  H  z  Trong Hi(z) hàm tần số Fi băng tần Bi formant thứ i Tƣơng ứng biểu thức quan hệ đầu vào đầu miền thời gian có dạng: 96 CHƢƠNG TỔNG HỢP TIẾNG NÓI y  n   x  n   a1 y  n  1  a2 y  n     a8 y  n  8 Một cách tƣơng tự, ta xây dựng hệ thống mô khoang mũi Các biểu thức Error! Reference source not found Error! Reference source not found biểu diễn kỹ thuật tổng hợp formant theo sơ đồ nối tiếp hay gọi sơ đồ cascade Một kỹ thuật khác tổng hợp formant song song Phƣơng pháp tổng hợp formant song song mô formant riêng rẽ Nói cách khác, mơ hình có hàm truyền Hi(z) riêng rẽ Trong q trình tạo tín hiệu tiếng nói nguồn tín hiệu đƣợc đƣa vào mơ hình cách riêng rẽ Sau đó, tín hiệu từ mơ hình yi(n) đƣợc tổng hợp lại y  n   y1  n   y2  n   Hình 4.4 minh họa cấu hình tổng quát phƣơng pháp tổng hợp nối tiếp song song A1 F1 A2 F2 + vào vào F1 F2 F3 F4 (a) Cấu hình tổng quát phƣơng pháp tổng hợp nối tiếp Hình 4.4 A3 F3 A4 F4 (b) Cấu hình tổng quát phƣơng pháp tổng hợp song song Các cấu hình phƣơng pháp tổng hợp nhiều formant Phƣơng pháp tổng hợp theo sơ đồ nối tiếp có ƣu điểm với tập giá trị formant cho trƣớc, ta dễ dàng xây dựng hàm truyền đạt biểu thức quan hệ đầu vào đầu (công thức vi sai - difference equation) Việc tổng hợp riêng rẽ formant phƣơng pháp tổng hợp song song cho phép ta xác định cách xác tần số formant Mặc dù phƣơng pháp tổng hợp đơn giản mang lại tín hiệu âm rõ nhƣng phƣơng pháp tổng hợp theo formant khó đạt đƣợc tính tự nhiên tín hiệu tiếng nói Ngun nhân mơ hình nguồn mơ hình chuyển đổi bị đơn giản hóa mức bỏ qua nhiều yếu tố phụ trợ góp phần tạo đặc tính động tín hiệu 97 CHƢƠNG TỔNG HỢP TIẾNG NÓI Bộ tổng hợp Klatt Bộ tổng hợp Klatt tổng hợp tiến nói dựa formant phức tạp đƣợc phát triển Sơ đồ tổng hợp đƣợc trình bày hình 4.5 có sử dụng hệ thống cộng hƣởng song song nối tiếp RNP RNZ R1 AV IMPULSE GEN + RGZ R2 + RGP AVS NOISE GEN R3 RGS A1 R1 AN RNP A2 R2 R4 R5 First diff LPF AH AF + + A3 R3 A4 R4 A5 R5 A6 R6 AB Hình 4.5 98 Sơ đồ khối tổng hợp Klatt First diff CHƢƠNG TỔNG HỢP TIẾNG NÓI Trong sơ đồ khối Ri tƣơng ứng với tạo tần số cộng hƣởng formant thứ i; hộp Ai điều khiển biên độ tín hiệu tƣơng ứng Bộ cộng hƣởng đƣợc thiết lập để làm việc tần số 10kHz với formant đƣợc sử dụng Cần ý rằng, thực tế tổng hợp formant thƣờng sử sụng tần số lấy mẫu khoảng 8kHz 10kHZ Điều không hẳn lý đặc biệt liên quan đến nguyên tắc chất lƣợng tổng hợp mà hạn chế khơng gian lƣu trữ, tốc độ xử lý yêu cầu đầu không cho phép thực với tốc độ lấy mẫu cao Một điểm khác cần ý là, nghiên cứu chúng minh cần ba formant đủ để phân biệt tín hiệu âm thanh, việc sử dụng formant formant bậc cao đơn giản đƣợc sử dụng để tăng thêm tính tự nhiên cho tín hiệu tổng hợp đƣợc 4.2.3 Tổng hợp tiếng nói theo phƣơng pháp mô máy phát âm Một cách hiển nhiên, để tổng hợp tiếng nói ta cần tìm cách mơ máy phát âm ta Đây nguyên lý "máy nói" cổ điển mà tiếng số có máy Von Kempelen chế tạo Các tổng hợp tiếng nói cổ điển theo nguyên lý thƣờng thiết bị học với ống, ống thổi, hoạt động nhƣ dụng cụ âm nhạc, nhiên với chút huấn luyện dùng để tạo tín hiệu tiếng nói nhận biết đƣợc Việc điều khiển hoạt động máy nhờ ngƣời theo thời gian thực, điều mang lại nhiều thuận lợi cho hệ thống khía cạnh ngƣời sử dụng chế chẳng hạn nhƣ thông qua phản hồi để điều khiển bắt chƣớc trình tạo tiếng nói tự nhiên Tuy nhiên, ngày với nhu cầu tổng hợp phức tạp hơn, cỗ máy cổ điển rõ ràng lỗi thời đáp ứng đƣợc Cùng với hiểu biết ngƣời máy phát âm đƣợc nâng cao, tổng hợp sử dụng nguyên lý mô máy phát âm ngày phức tạp hồn thiện Các hình dạng ống phức tạp đƣợc xấp xỉ loạt ống đơn giản nhỏ Với mơ hình ống đơn giản, ta biết đƣợc đặc tính truyền âm nó, ta sử dụng để xây dựng mơ hình máy phát âm tổng quát phức tạp Một ƣu điểm phƣơng pháp tổng hợp mô máy phát âm cho phép tạo cách tự nhiên để tạo tiếng nói Tuy nhiên, phƣơng pháp gặp phải số khó khăn Thứ việc định làm để có đƣợc tham số điều khiển từ yêu cầu tín hiệu cần tổng hợp Rõ ràng, khó khăn gặp phải phƣơng pháp tổng hợp khác Trong hầu hết phƣơng pháp tổng hợp khác, chẳng hạn tham số formant tìm đƣợc cách trực tiếp từ tín hiệu tiếng nói thực, ta đơn giản ghi âm lại tiếng nói tính tốn xác định chúng Cịn phƣơng phƣơng pháp mô máy phát âm ta gặp khó khăn tham số máy phát âm đắn xác định từ việc ghi lại tín hiệu thực mà phải thơng qua đo lƣờng chẳng hạn ảnh X-ray, MRI Khó khăn thứ hai việc cân 99 CHƢƠNG NHẬN DẠNG TIẾNG NĨI Hình 5.17 Sơ đồ khối hệ thống kết hợp mạng nơ-ron mạch lọc tƣơng hợp cho việc nhận dạng tiếng nói Các mạng nơ-ron đƣợc xem xét ứng dụng rộng rãi nhiều lĩnh vực số lý sau: - Các mạng nơ-ron dễ dàng thực thi với cấp độ lớn tính tốn song song Điều cấu trúc mạng nơ-ron cấu trúc có tính song song cao thành phần tính tốn tƣơng tự đơn giản - Các mạng nơ-ron kế thừa chất cấu trúc chịu lỗi tốt (fault tolerance) Vì thơng tin nhúng mạng đƣợc trải (lan) đến phần tử tính toán mạng, điều khiến cho cấu trúc trơ (least sensitive) với nhiễu lỗi khơng hồn hảo bên cấu trúc - Các trọng số kết nối mạng không bị hạn chế phải cố định, chúng thay đổi theo thời gian thực để nâng cao chất lƣợng hệ thống Đây khái niệm việc học thích nghi có tính kế thừa từ cấu trúc mạng nơ-ron - Bởi khơng tuyến tính bên phần tử tính tốn, mạng có cấu trúc đủ lớn xấp xỉ (với khác biệt nhỏ bất kỳ) cấu trúc khơng tuyến tính hệ thống động khơng tuyến tính Nói cách khác, mạng nơ-ron cho phép thực phép biến đổi khơng tuyến tính tập đầu đầu vào thƣờng trở lên hiệu phƣơng pháp thực vật lý biến đổi khơng tuyến tính khác 138 CHƢƠNG NHẬN DẠNG TIẾNG NĨI 5.6.5 Hệ thống nhận dạng dựa mơ hình Markov ẩn (HMM) Hầu hết hệ thống nhận dạng liên tục dựa mơ hình Markov ẩn (HMM) Mặc dù tảng hệ thống nhận dạng liên tục (CSR) dựa HMM có trƣớc hàng thập kỷ, đến gần có đƣợc số tiến việc cải thiện công nghệ để giảm nhỏ phụ thuộc giả thiết cố hữu tính thích ứng mơ hình cho ứng dụng môi trƣờng định Các vector đặc trƣng Các từ Trích chọn đặc trƣng Tiếng nói Bộ giải mã Mơ hình âm Hình 5.18 Từ điền phát âm Mơ hình ngơn ngữ Sơ đồ cấu trúc hệ thống nhận dạng tiếng nói dựa mơ hình HMM Các thành phần hệ thống CSR làm việc với từ vựng lớn đƣợc mơ tả hình 5.18 Dạng sóng âm đầu vào từ mi-cờ-rô đƣợc chuyển đổi thành dãy có độ dài cố định véc-tơ âm y  y1 , , yT nhờ q trình trích chọn mẫu Bộ giải mã sau cố gắng tìm kiếm dãy từ w  w1 , , wK có khả cao tạo y Nói cách khác, giải mã cố gắng giải toán: ˆ  arg max  p  w | y  w (3.31) w Tuy nhiên, p(w y ) khó xác định thực tế, cách áp dụng cơng thức Bayes ta có: ˆ  arg max  p  y | w  p  w  w (3.32) w Độ tƣơng đồng p(y w) đƣợc xác định mơ hình âm xác suất tiên nghiệm p(w) đƣợc xác định mô hình ngơn ngữ Trong thực tế, mơ hình âm (acoustic model) khơng đƣợc chuẩn hóa mơ hình ngơn ngữ thƣờng đƣợc tỷ lệ số đƣợc xác định cách thực nghiệm tham số bất lợi việc chèn từ đƣợc thêm vào Nói cách khác, lơ-ga-rít độ tƣơng đồng tổng đƣợc tính log( p(y w))  p(w)  p(w) ,  giá trị phổ biến khoảng 8-20  phổ 139 CHƢƠNG NHẬN DẠNG TIẾNG NÓI biến khoảng từ đến -20 Đơn vị âm đƣợc biểu diễn mơ hình âm âm vị (phone) Ví dụ từ bat tiếng Anh gồm ba âm vị /b/, /ae/ /t/ Đối với tiếng Anh cần có khoảng 40 âm vị nhƣ Với w cho trƣớc, mơ hình âm tƣơng ứng đƣợc tổng hợp cách chắp nối mô hình âm vị để tạo từ nhƣ đƣợc quy định từ điển phát âm Các tham số mơ hình âm vị đƣợc ƣớc lƣợng từ liệu huấn luyện bao gồm dạng sóng tín hiệu ghi hệ thống tả chúng Mơ hình ngơn ngữ thƣờng mơ hình N-gram xác suất từ phụ thuộc điều kiện vào N-1 thành phần trƣớc Các tham số mơ hình N-gram đƣợc ƣớc lƣợng cách đếm tuýp N tập (corpora: corpus - a collection of recorded utterances used as a basis for the descriptive analysis of a language) chữ thích hợp Bộ giải mã hoạt động cách tìm kiếm qua tất dãy từ có thể, sử dụng phƣơng pháp chặt (prune) để loại bỏ giả thiết gần nhƣ không xảy cách giữ cho việc tìm kiếm kiểm sốt đƣợc Khi việc tìm kiếm đến tiến đến phần cuối cùng, dãy từ có tƣơng đồng kết Trong giải mã đại, thay sử dụng phƣơng pháp vừa nêu, giải mã sinh lƣới chứa biểu diễn gọn hầu hết giả thiết có khả 5.6.5.1 Trích chọn đặc trƣng Nhƣ đề cập, việc trích chọn đặc trƣng tìm tạo biểu diễn (thƣờng dạng mã hóa) tối ƣu tín hiệu tiếng nói Q trình phải đảm bảo giảm thiểu mát thông tin tạo phù hợp tốt với giả thiết phân tán tạo mơ hình âm Các véc-tơ đặc trƣng thƣờng đƣợc tính tốn khung có độ dài khoảng 10ms sử dụng hàm cửa sổ phân tích chồng lấn Phƣơng pháp trích trọn phổ biến ứng dụng nhận dạng sử dụng mơ hình HMM phƣơng pháp MFCC nhƣ trình bày phần 5.6.5.2 Các mơ hình âm học HMM Nhƣ đề cập, từ đƣợc phát w đƣợc phân tách thành dãy âm đƣợc gọi âm vị sở Để cho phép thay đổi phát âm có thể, độ tƣơng đồng p(y w) đƣợc tính phƣơng án phát âm: p  y | w    p  y | Q  p Q | w  (3.33) Q Các nhận dạng thƣờng xấp xỉ công thức phép tính cực đại phƣơng pháp phát âm khác đƣợc giải mã nhƣ thể chúng giả thiết từ 140 CHƢƠNG NHẬN DẠNG TIẾNG NÓI thay Mỗi Q dãy phát âm từ Q1 , , QK phƣơng án phát âm dãy âm vị sở QK  q1( k ) , q1( k ) , Khi ta có: K p  Q | w    p  Qk | wk  (3.34) k 1 Ở p(QK wk ) xác suất từ wk đƣợc phát âm dựa dãy âm vị sở Q Trong thực tế, có số khả phƣơng án phát âm QK cho từ wk , điều cho phép tổng (3.33) dễ dàng kiểm sốt đƣợc Mơ hình Markov Dãy vector âm Y= b2 ( y1 ) y1 Hình 5.19 b2 ( y2 ) y2 b2 ( y3 ) b2 ( y4 ) b2 ( y5 ) y4 y3 y5 Mơ hình âm vị sở dựa mơ hình HMM Mỗi âm sở q đƣợc biểu diễn mơ hình Markov ẩn mật độ liên tục (HMM) đƣợc minh họa hình 5.19 Trong minh họa này, tham số dịch chuyển {aij } phân bố quan sát đầu {b j ( )} Các phân bố quan sát đầu thƣờng pha trộn phân bố chuẩn Gausse: M  b j  y    c jm y;  jm ,   m 1 jm   biểu     diễn phân bố chuẩn với giá trị trung bình  jm covariance (3.35)  jm Số lƣợng thành phần công thức (3.35) thƣờng lấy khoảng 10 đến 20 Vì kích thƣớc véc-tơ âm y thƣờng tƣơng đối lớn, covariance thƣờng đƣợc giới hạn ma trận đƣờng chéo Các trạng thái đầu kết thúc trạng thái không phát xạ (nonemitting) chúng đƣợc thêm vào nhằm đơn giản hóa q trình chắp nối mơ hình âm vị để tạo từ 141 CHƢƠNG NHẬN DẠNG TIẾNG NÓI Cho trƣớc HMM tổng hợp với Q đƣợc tạo chắp nối tất âm vị sở cấu thành, độ tƣơng đồng âm đƣợc tính bởi: p  y | Q    p  x, y | Q  (3.36) X Trong X  x(0), , x(T ) dãy trạng thái tồn mơ hình tổng hợp T p  x, y | Q   ax 0, x1  bx t  ax t , x t 1 (3.37) t 1 Các tham số mơ hình âm {aij } {b j ( )} đƣợc ƣớc lƣợng cách hiệu từ tập huấn luyện phƣơng pháp cực đại kỳ vọng 5.7 MỘT SỐ ĐẶC ĐIỂM CỦA VIỆC NHẬN DẠNG TIẾNG VIỆT Việc xây dựng hệ thống nhận dạng tiếng Việt cách xác với lƣợng từ vựng lớn có đáp ứng thời gian thực khó khăn tính phức tạp ngơn ngữ Cùng âm vị phát nhiều ngƣời có đặc điểm mặt âm học khác So với ngơn ngữ nhiều nƣớc, tiếng Việt có phân hóa mặt thổ ngữ tƣơng đối lớn Có thay đổi lớn cách phát âm ba miền Bắc, Trung, Nam Ngay miền, vùng địa phƣơng khác có phát âm dẫn khác Thêm nữa, giống nhƣ ngôn ngữ số nƣớc khu vực Châu Á, tiếng Việt có điệu Sự khác biệt điệu có nhỏ đƣợc phát âm số vùng miền Chẳng hạn, phía Bắc có phát âm s x tƣơng đƣơng nhau; dấu “?” “~” đƣợc phát âm giống vùng Bắc Trung Sự phức tạp khiến cho phƣơng pháp nhận dạng ngôn ngữ khác không hiệu áp dụng với tiếng Việt 5.8 CÂU HỎI VÀ BÀI TẬP CUỐI CHƢƠNG Ý tƣởng phƣơng pháp đối sánh mẫu nhận dạng tiêng nói? Ý tƣởng phƣơng pháp sử dụng mạng nơ-ron nhận dạng tiếng nói? Ý tƣởng việc sử dụng HMM nhận dạng tiếng nói? Sự khác biệt giác hệ thống nhân dạng tiếng nói: rời rạc liên tục; nhận dạng tiếng nói nhận dạng ngƣời nói? 142 CHƢƠNG NHẬN DẠNG TIẾNG NĨI (Matlab) Sử dụng máy tính cá nhân phần mềm Matlab (hoặc ngơn ngữ lập trình khác) thực công việc sau: - Xây dựng hệ thống nhận dạng tiếng nói đơn giản (từ vựng hạn chế) dựa vào: o Mạng nơ-ron o Mơ hình HMM 143 PHỤ LỤC MẠNG NƠ - RON Phụ lục 1: MẠNG NƠ-RON MỞ ĐẦU Hoạt động nghiên cứu chế hoạt động, cấu trúc não ngƣời đƣợc ý sớm Cùng với phát triển khoa học, đạt đƣợc số bƣớc tiến quan trọng lĩnh vực nghiên cứu Tuy nhiên, não ngƣời tổ hợp phức tạp hiểu biết ngƣời kiến trúc hoạt động não chƣa đầy đủ Mặc dù ngƣời ta tạo đƣợc máy có số tính tƣơng tự não nhờ mô đặc điểm: - Tri thức thu nhận đƣợc nhờ q trình học - Tính có đƣợc nhờ kiến trúc mạng tính chất kết nối Các máy mơ có tên chung mạng nơ-ron nhân tạo hay đơn giản mạng nơron Đặc điểm mạng nơ-ron: - Phi tuyến Cho phép xử lý phi tuyến - Cơ chế ánh xạ đầu vào - đầu cho phép học có giám sát - Cơ chế thích nghi Thay đổi tham số phù hợp với môi trƣờng - Đáp ứng theo mẫu huấn luyện - Thông tin theo ngữ cảnh.Tri thức đƣợc biểu diễn tuỳ theo trạng thái kiến trúc mạng - Cho phép có lỗi (fault tolerance) - Phỏng sinh học CƠ SỞ VỀ MẠNG NƠ-RON Sơ đồ mạng nơ-ron đơn giản đƣợc minh họa hình A.1 Giả sử có N đầu vào đƣợc đánh nhãn x1 , x2 , , x N với trọng số tƣơng ứng w1 , w2 , , wN Khi quan hệ phi tuyến đầu vào đầu đƣợc xác định nhƣ sau:  N  y  f   w i xi     i 1  144 PHỤ LỤC MẠNG NƠ - RON Trong  mức ngƣỡng nội hay gọi offset, f (.) hàm phi tuyến x1 w1 x2  N 1  y  f  W j x j     i 0  w2 ⋮ wk xk ⋮ xN wN Hình A.1: Cấu trúc đơn giản mạng nơ-ron N đầu vào Một số dạng phổ biến f có dạng nhƣ sau: Hàm ngƣỡng cứng: 1 x  f  x   1 x  Hàm log-sin: f  x  1  e  x    0 CẤU HÌNH MẠNG NƠ-RON Một yếu tố quan trọng cho việc thiết lập ứng dụng mạng nơ-ron cấu trúc tơ-pơ mạng (network topology) Có ba kiểu cấu trúc là: Mạng tầng nhiều tầng: x1 y1 x1 y1 x2 y2 x2 y2 ⋮ ⋮ ⋮ xN yM (a) ⋮ xN yM (b) Hình A.2: Cấu trúc mạng nơ-ron tầng (a) hai tầng (b) 145 PHỤ LỤC MẠNG NƠ - RON Mạng hồi quy: x1 y1 x2 y2 ⋮ ⋮ xN yM Hình A.3: Cấu trúc mạng nơ-ron hồi quy Mạng tự tổ chức: Hình A.4: Cấu trúc mạng nơ-ron tự tổ chức (SOM) 3x3 146 PHỤ LỤC MƠ HÌNH MARKOV ẨN Phụ lục 2: MƠ HÌNH MARKOV ẨN Q TRÌNH MARKOV Một q trình ngẫu nhiên X (t ) đƣợc gọi trình Markov tƣơng lai trình với trạng thái cho không phụ thuộc vào q khứ q trình Nói cách khác, với thời gian xác định t1  t   t k  t k 1 thì: Pr  X  tk 1   xk 1 | X  tk   xk , , X  t1   x1   Pr  X  tk 1   xk 1 | X  tk   xk1  Các giá trị X (t ) thời điểm t thƣờng đƣợc gọi trạng thái trình thời điểm t CHUỖI MARKOV VỚI THỜI GIAN RỜI RẠC Giả sử X n chuỗi Markov với giá trị nguyên thời gian rời rạc với trạng thái bắt đầu n=0 có hàm phân bố xác suất rời rạc (pmf): p j (0)  Pr[X  j] (j=0,1,…) Khi đó, hàm mật độ phân bố xác suất rời rạc hợp n+1 giá trị q trình đƣợc tính bằng: Pr  X n  in , , X  i0   Pr  X n  in | X n 1  in 1  Pr  X1  i1 | X  i0  Pr  X  i0  Từ công thức ta thấy, hàm mật độ phân bố xác suất hợp rời rạc dãy xác định tích xác suất trạng thái khởi đầu xác suất dãy chuyển đổi trạng thái bƣớc Giả sử xác suất chuyển đổi trạng thái bƣớc cố định không thay đổi theo thời gian, nghĩa là: Pr  X n1  j | X n  i   aij n 147 PHỤ LỤC MƠ HÌNH MARKOV ẨN Khi X n đƣợc nói có xác suất chuyển đổi đồng Khi xác suất phân bố hợp rời rạc cho X n , , X trở thành: Pr  X n  in , , X  i0   ain1in ai0i1 pi0   Nhƣ vậy, X n hoàn toàn đƣợc xác định hàm mật độ phân bố xác suất rời rạc khởi đầu pi (0) ma trận xác suất chuyển bƣớc P:  a00 a  10 P    a01 a02 a11 a12 ai1        P đƣợc gọi ma trận xác suất chuyển Chú ý rằng, tổng hàng P phải Hình B.1 minh họa sơ đồ chuỗi Markov rời rạc với trạng thái đƣợc gán nhãn S1 – S5 xác suất chuyển tƣơng ứng nhãn nhánh aij Hình B.1: Minh họa chuỗi Markov rời rạc với trạng thái MÔ HÌNH MARKOV ẨN Trong phần ta ví dụ mơ hình Markov mà trạng thái tƣơng ứng với kiện (vật lý) quan sát đƣợc Tuy nhiên mơ hình nhƣ có ứng dụng hạn chế 148 PHỤ LỤC MƠ HÌNH MARKOV ẨN tốn thực tế Do đó, mơ hình đƣợc mở rộng bao gồm trƣờng hợp việc quan sát hàm xác suất trạng thái - tức mơ hình q trình thống kê chồng kép với trình thống kê bên mà khơng quan sát đƣợc (ẩn sâu bên trong), nhƣng quan sát đƣợc thông qua tập trình thống kê khác, trình mà tạo dãy quan sát đƣợc Mơ hình nhƣ đƣợc gọi mơ hình Markov ẩn (HMM) Để minh họa, ta xét ví dụ mơ hình tung đồng xu nhƣ sau Một ngƣời thực việc tung đồng xu nhƣng khơng nói cho ta biết làm xác Anh ta thơng báo cho ta kết đồng xu lật Nhƣ vậy, ta, loạt thí nghiệm tung đồng xu đƣợc ẩn dấu, mà có dãy quan sát đƣợc dãy kết chẵn lẻ Vấn đề đặt xây dựng mơ hình HMM thích hợp để mơ hình dãy chẵn lẻ quan sát đƣợc Vấn đề việc định trạng thái mô hình tƣơng ứng với sau định trạng thái cần thiết mơ hình Hình B.2: Minh họa ba mơ hình Markov thí nghiệm tung đồng xu ẩn Hình B.2 minh họa trƣờng hợp ví dụ Trƣờng hợp thứ tƣơng ứng với giả thiết động xu không cân đƣợc tung Mơ hình trƣờng hợp mơ hình hai trạng thái trạng thái tƣơng ứng với mặt đồng xu Dễ thấy rằng, mơ 149 PHỤ LỤC MƠ HÌNH MARKOV ẨN hình Markov trƣờng hợp quan sát đƣợc Cũng cần ý rằng, ta sử dụng mơ hình Markov trạng thái trạng thái tƣơng ứng với đồng xu không cân đơn lẻ, tham số chƣa biết không cân đồng xu Trƣờng hợp thứ hai tƣơng ứng với mô hình hai trạng thái trạng thái tƣơng ứng với đồng xu không cân khác đƣợc tung Mỗi trạng thái đƣợc đặc trƣng phân bố xác suất mặt chẵn mặt lẻ, chuyển đổi trạng thái đƣợc đặc trƣng ma trận chuyển trạng thái Trƣờng hợp thứ ba tƣơng ứng với thí nghiệm sử dụng ba đồng xu không cân khác nhau, việc chọn ba đồng xu đƣợc dựa kiện xác suất Với lựa chọn ba trƣờng hợp để giải thích dãy mặt chẵn mặt lẻ quan sát đƣợc, câu hỏi đặt mô hình mơ tƣơng đồng với quan sát thực tế Ta thấy rằng, mơ hình trƣờng hợp có tham số chƣa biết, hay nói cách khác, bậc tự Trong mơ hình trƣờng hợp hai ba có bậc tự tƣơng ứng Do đó, với bậc tự lớn hơn, mơ hình HMM lớn dƣờng nhƣ có khả việc mơ tả dãy thí nghiệm tung xu so với mơ hình nhỏ Tuy nhiên cần ý, điều nhận xét mặt lý thuyết, thực tế có số hạn chế với kích thƣớc mơ hình Một HMM đƣợc đặc trƣng bởi: 11 Số trạng thái mơ hình N Mặc dù trạng thái ẩn, nhƣng với số ứng dụng thực tế thƣờng có số ý nghĩa vật lý gắn với trạng thái tập trạng thái mơ hình 12 Số ký hiệu quan sát phân biệt với trạng thái, tức kích thƣớc chữ rời rạc 13 Phân bố xác suất chuyển trạng thái P aij  Pr [ X n1  S j X n  Si ] , (1  i, j  N ) Trong trƣờng hợp đặc biệt trạng thái đạt đến trạng thái khác bƣớc nhất, ta có aij  với i, j Với loại HMM khác, ta có aij  cho nhiều cặp (i,j) 14 Phân bố xác suất ký hiệu quan sát trạng thái j, B  {b j (k )} , b j (k )  Pr [vk (t ) X t  S j ] , (1  j  N ,1  k  M ) 15 Phân bố trạng thái khởi đầu   {i } i  Pr [ X  Si ] , (1  j  N ) 150 PHỤ LỤC MƠ HÌNH MARKOV ẨN Với giá trị N, M, P, B π cho trƣớc, HMM đƣợc sử dụng nhƣ tạo cho dãy quan sát O  O1O2 OT (với quan sát Ot ký hiệu từ tập v T số quan sát dãy) nhƣ sau: Chọn trạng thái khởi đầu X  Si theo phân bố trạng thái khởi đầu π Đặt t=1 Chọn Ot  vk theo phân bố xác suất ký hiệu trạng thái S i , tức bi (k ) Chuyển sang trạng thái X t 1  S j theo phân bố xác suất chuyển trạng thái cho trạng thái S j , tức aij Đặt t=t+1; trở lại bƣớc tT/F1+F2T/F1+F2

Ngày đăng: 01/03/2022, 09:55

Nguồn tham khảo

Tài liệu tham khảo

Loại

Chi tiết

[1]. John R. Deller, John H. L. Hassen, and John G. Proakis, Discrete-Time Processing of Speech Signals, Wiley-IEEE Press, 2000

Sách, tạp chí

Tiêu đề:	Discrete-Time Processing of Speech Signals

[2]. Editors: Rainer Martin, Ulrich Heuter and Christiane Antweiler, Advances in Digital Speech Transmission, Wiley, 2008

Sách, tạp chí

Tiêu đề:	Editors": Rainer Martin, Ulrich Heuter and Christiane Antweiler, "Advances in Digital Speech Transmission

[3]. Lawrence Rabiner and Biing-Hwang Juang, Fundamentals of Speech Recognition, Prentice-Hall, 1993

Sách, tạp chí

Tiêu đề:	Fundamentals of Speech Recognition

[4]. Editors Jacob Benesty, M. Mohan Sondhi and Yiteng Huang, Handbook of Speech Processing, Springer-Verlag Berlin, 2008

Sách, tạp chí

Tiêu đề:	Editors" Jacob Benesty, M. Mohan Sondhi and Yiteng Huang, "Handbook of Speech Processing

[5]. Antonio M. Peinado and Jose C. Segura, Speech Recognition over Digital Channels: Robustness and Standards, John Wiley \& Sons, 2006

Sách, tạp chí

Tiêu đề:	Speech Recognition over Digital Channels: Robustness and Standards

[6]. John Holmes and Wendy Holmes, Speech Synthesis and Recognition, second edition, Taylor and Francis, 2001

Sách, tạp chí

Tiêu đề:	Speech Synthesis and Recognition

[7]. Paul Taylor, Text-to-Speech Synthesis, Cambridge University Press, 2009

Sách, tạp chí

Tiêu đề:	Text-to-Speech Synthesis

[8]. Lawrence R. Rabiner and Ronald W. Schafer, Introduction to Digital Speech Processing, Now Publishers Inc., 2007

Sách, tạp chí

Tiêu đề:	Introduction to Digital Speech Processing

[9]. Lawrence R. Rabiner and Ronald Schafer, Digital Processing of Speech Signals, Prentice-Hall, 1978

Sách, tạp chí

Tiêu đề:	Digital Processing of Speech Signals

[10]. Sadaoki Furui, Digital Speech Processing, Synthesis, and Recognition, second edition, Marcel Dekker Inc., 2001

Sách, tạp chí

Tiêu đề:	Digital Speech Processing, Synthesis, and Recognition

[11]. Lawrence R. Rabiner, A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition, Proceeding of the IEEE, Vol.77, No.2, Feb. 1989, pp.257-286

Sách, tạp chí

Tiêu đề:	A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition

Bài giảng Xử lý tiếng nói: Phần 2

Bộ phân loại các âm vị nguyên âm

Phƣơng pháp nhận dạng mẫu thống kê