Nghiên cứu một số phương pháp trong nhận dạng tiếng nói

Trang ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC KỸ THUẬT CÔNG NGHIỆP - NGUYỄN NGỌC TOÀN NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP TRONG NHẬN DẠNG TIẾNG NÓI Chuyên ngành: Kỹ thuật điện tử Mã số: 60.52.70 LUẬN VĂN THẠC SĨ KỸ THUẬT Thái Nguyên - 2012 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang CHƢƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NĨI 1.1 GIỚI THIỆU Nhận dạng tiếng nói q trình nhận dạng mẫu, với mục đích phân lớp (classify) thơng tin đầu vào tín hiệu tiếng nói thành dãy mẫu học trước lưu trữ nhớ Các mẫu đơn vị nhận dạng, chúng từ, âm vị Nếu mẫu bất biến khơng thay đổi cơng việc nhận dạng tiếng nói trở nên đơn giản cách so sánh liệu tiếng nói cần nhận dạng với mẫu học lưu trữ nhớ Khó khăn nhận dạng tiếng nói tiếng nói ln biến thiên theo thời gian có khác biệt lớn tiếng nói người nói khác nhau, tốc độ nói, ngữ cảnh môi trường âm học khác Một nhiệm vụ khó khăn xác định thơng tin biến thiên tiếng nói quan trọng nhận dạng tiếng nói thơng tin không quan trọng công việc nhận dạng tiếng nói Đây nhiệm vụ khó khăn mà với kỹ thuật xác suất thống kê mạnh khó khăn việc tổng quát hóa từ mẫu tiếng nói, biến thiên quan trọng cần thiết nhận dạng tiếng nói Các nghiên cứu nhận dạng tiếng nói dựa ba nguyên tắc bản: - Tín hiệu tiếng nói biểu diễn xác giá trị phổ khung thời gian ngắn (short-term amplitude spectrum) Nhờ ta trích đặc điểm tiếng nói từ khoảng thời gian ngắn dùng đặc điểm làm liệu để nhận dạng tiếng nói - Nội dung tiếng nói biểu diễn dạng chữ viết, dãy ký hiệu ngữ âm Do ý nghĩa phát âm bảo tồn phiên âm, phát âm thành dãy ký hiệu ngữ âm Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang - Nhận dạng tiếng nói q trình nhận thức Ngơn ngữ nói có ý nghĩa, thơng tin ngữ nghĩa (semantics) suy đốn (pragmatics) có giá trị q trình nhận dạng tiếng nói thông tin âm học không rõ ràng Lĩnh vực nghiên cứu nhận dạng tiếng nói rộng, liên quan đến nhiều ngành khác Sau ngành mối liên hệ chúng với nhận dạng tiếng nói: - Xử lý tín hiệu số (digital signal processing): Các kỹ thuật xử lý tín hiệu số dùng để phân tích tín hiệu tiếng nói biến thiên theo thời gian nhằm trích thơng tin quan trọng từ tiếng nói - Vật lý hay âm học (acoustic): Khoa học nghiên cứu mối quan hệ tín hiệu tiếng nói chế sinh lý học máy phát âm người, chế hoạt động tai người - Nhận dạng mẫu: Các thuật toán dùng để phân loại liệu thành tập mẫu đối sánh mẫu dựa sở tính tốn khoảng cách đặc điểm mẫu - Lý thuyết thông tin khoa học máy tính (information and computer science theory): Các thuật tốn để tính tốn tham số mơ hình thống kê, thuật tốn giải mã mã hóa (lập trình động, thuật tốn dùng stack, giải mã Viterbi) để tìm đường tốt dãy từ nhận dạng - Ngôn ngữ học (linguistics): Kiến thức cấu trúc ngôn ngữ, đặc biệt đơn vị ngữ âm tiếng nói vai trị chúng việc sản sinh giọng nói - Sinh lý học (physiology): Kiến thức cấu tạo máy phát âm người, tai người - Tâm lý học ứng dụng (applied psychology): Những kiến thức trình sinh tiếng nói q trình nhận thức tiếng nói lồi người Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang 1.2 NGUYÊN TẮC CỦA HỆ THỐNG NHẬN DẠNG TIẾNG NÓI Các hệ thống nhận dạng tiếng nói phân chia thành hai loại khác nhau: hệ thống nhận dạng từ rời rạc hệ thống nhận dạng từ liên tục Trong hệ thống nhận dạng tiếng nói liên tục, người ta lại phân biệt hệ thống nhận dạng có kích thước từ điển nhỏ hệ thống nhận dạng với kích thước từ điển trung bình lớn [Rabiner 1993] Hình 1.1 cho ta lớp hệ thống nhận dạng tiếng nói khác Trong hệ thống nhận dạng từ rời rạc, phát âm nhận dạng giả thiết bao gồm từ nhóm từ độc lập Các từ nhận dạng mà khơng phụ thuộc vào ngữ cảnh Nhận dạng tiếng nói với từ rời rạc ứng dụng chương trình dạng câu lệnh - điều khiển (command-control), chẳng hạn ứng dụng quay số giọng nói điện thoại di động Bài tốn nhận dạng tiếng nói từ rời rạc rõ ràng dễ nhiều so với toán nhận dạng tiếng nói liên tục ranh giới trái phải từ coi xác định Tuy nhiên thực tế việc tìm ranh giới từ phát âm liên tục lúc dễ dàng [Dong 2001] Ngoài xây dựng sở liệu từ đơn lẻ đơn giản phát âm từ đơn lẻ rõ ràng so với từ đứng liền [Young 1996] Ví dụ hệ thống nhận dạng liên tục với từ điển kích thước nhỏ hệ thống nhận dạng chữ số từ đến 9, hệ thống nhận dạng chữ cái, số từ hữu hạn Các hệ thống có tính chất đơn vị nhận dạng chúng từ giống hệ thống nhận dạng từ rời rạc Với hệ thống nhận dạng liên tục có kích thước từ điển lớn đơn vị nhận dạng khơng thể từ mà âm vị bán âm tiết Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang Hệ thống nhận dạng Hệ thống nhận dạng từ rời rạc Hệ thống nhận dạng từ liên tục Hệ thống với kích thước từ điển nhỏ Hệ thống với kích thước từ điển trung bình lớn Hình 1.1: Các hệ thống nhận dạng tiếng nói Trong đồ án nghiên cứu hệ thống nhận dạng từ liên tục Sau nguyên tắc hệ thống nhận dạng từ liên tục Một phát âm dạng wav phân tích thành dãy vector đặc tính phổ, vector tương ứng với khung tín hiệu thường có độ dài 10ms Ví dụ phát âm Y phân tích thành dãy vector đặc tính phổ tương ứng y1, y2…, yT Phát âm dãy từ W = w1, w2, …, wn, nhiệm vụ hệ thống nhận dạng tìm dãy có từ Ŵ có xác suất cao với dãy vector đặc tính phổ Y cho trước Theo luật xác suất Bayes ta có: Ŵ  arg max P(W Y )  arg max P(W ) P(Y W ) P(Y ) Do xác suất P(Y) độc lập với W, ta thấy để tìm dãy từ có xác suất cao Ŵ phải tìm dãy từ cho hai xác suất P(W) P(Y|W) cao Xác suất P(W) độc lập với tín hiệu tiếng nói xác suất xác định mơ hình ngơn ngữ (language model) Xác suất P(Y|W) xác định mơ hình âm học (acoustic model) Hình 1.2 cho thấy mối quan hệ xác suất Trong với phát Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang âm dãy từ “giọng nói”, mơ hình ngôn ngữ cho ta xác suất P(W) Bằng từ điển phiên âm ta biến đổi chúng thành dãy âm vị tương ứng Dãy âm vị cho ta xây dựng mơ hình Markov ẩn lớn cách nối ghép mơ hình Markov ẩn âm vị tương ứng Phát âm trích trọn đặc điểm đưa vào mơ hình Markov ẩn lớn cho ta xác suất P(Y|W) Về mặt nguyên tắc, q trình lặp lặp lại với tất dãy từ để tìm dãy từ có xác suất lớn Hình 1.2: Khái quát hệ thống nhận dạng Trong thực tế việc tìm xác suất với tất dãy từ khơng thể áp dụng Một q trình xem xét tất dãy từ song song với áp dụng q trình chọn lọc xóa dãy từ khó có khả trở thành dãy từ tốt Quá trình tìm kiếm gọi q trình giải mã (decoding) Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang Hình 1.3 sau cho ta thấy bước hệ thống nhận dạng tiếng nói, gồm có ba giai đoạn: phân tích đặc tính, phân lớp mẫu xử lý ngôn ngữ Dãy đặc Dãy từ tính phổ Hoặc âm vị Tín hiệu tiếng nói Từ, câu Phân tích đặc tính (feature analysis) Phân lớp mẫu (pattem classification) Xử lý ngôn ngữ (language processing) Các từ, âm vị Các từ, câu Mơ hình âm học Mơ hình ngơn ngữ (acoustic model) (language model) nhận dạng Hình 1.3: Các trình nhận dạng 1.2.1 Phân tích đặc tính tiếng nói Phân tích đặc tính trích thơng tin cần thiết cho q trình nhận dạng tiếng nói từ tín hiệu tiếng nói Q trình loại bỏ thơng tin không quan trọng Chẳng hạn tiếng ồn môi trường thu âm, nhiễu đường truyền, đặc điểm riêng biệt người nói… Tiếng nói phân tích theo khung thời gian (frame) với độ dài dao động từ 8ms tới 25ms [Joseph 1993] Kết giai đoạn vector đặc tính khung tín hiệu tiếng nói Có hai cách tiếp cận thông dụng thường áp dụng để phân tích tín hiệu tiếng nói phương pháp dựa vào mơ hình hóa đường phát âm (vocal tract) phương pháp dựa vào mơ hình hóa cảm nhận âm người (human auditory system) Cả hai cách áp dụng thành công hệ thống nhận dạng Tuy nhiên phương pháp phân tích tiếng nói thực công việc nhỏ so với hệ thống phát âm nhận thức âm Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang người Sự cải tiến phương pháp dẫn tới nâng cao lực nhận dạng hệ thống nhận dạng tiếng nói Hai phương pháp trích trọn tiếng nói sử dụng rộng rãi hệ thống nhận dạng là: Phương pháp MFCC (Mel Scale Frequency Cepstral Coefficients) PLP (Perceptual Linear Prediction) Có hai kỹ thuật xử lý tiếng nói có vị trí quan trọng kỹ thuật RASTA (RelAtive SpecTral) CMS (Cepstral Mean Subtraction) Đây hai kỹ thuật áp dụng nhằm lọc bỏ nhiễu, âm tiếng nói Hai kỹ thuật đặc biệt có ích xử lý tiếng nói thu âm qua điện thoại [Avendano 1996] Cả hai kỹ thuật dùng kết hợp với hai phương pháp trích trọn đặc tính phổ MFCC PLP Kỹ thuật RASTA có ưu điểm áp dụng hệ thống nhận dạng trực tiếp (live), nhận dạng phát âm mà khơng cần đợi phát âm kết thúc [Hermansky 1994] Kỹ thuật thường kèm với phương pháp trích trọn đặc điểm PLP [Hermansky 1992] Ngược lại kỹ thuật CMS có ưu điểm đơn giản, thời gian tính tốn nhanh, dễ áp dụng 1.2.2 Phân lớp mẫu Bước thứ hai hệ thống nhận dạng tiếng nói phân lớp mẫu, hệ thống gán dãy vector đặc tính thành dãy tối ưu đơn vị tiếng nói (từ âm vị) Có bốn phương pháp hay áp dụng là: đối sánh mẫu (template matcher), rule-based, mạng neuron mơ hình Markov ẩn Ngun tắc phương pháp đối sánh mẫu cất giữ số lượng mẫu (examples) tiếng nói, bao gồm vector đặc tính Tín hiệu tiếng nói cần nhận dạng phân tích vector đặc tính chúng so sánh với mẫu cất giữ trước Do tốc độ phát âm khác nhau, từ phát âm nhanh đến phát âm chậm, nên kỹ thuật DTW (Dynamic Time Warping) áp dụng để dãn co hẹp thời gian trục thời gian nhằm giảm khác biệt so với mẫu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang Hệ thống rule-based xây dựng loạt tiêu chuẩn định để xác định xem đơn vị ngôn ngữ nằm tín hiệu tiếng nói Đối với hệ thống nhận dạng tiếng nói lớn, phương pháp gặp khó khăn việc tổng quát hóa đa dạng tiếng nói Một vấn đề với định, khó hồi phục lỗi định sai xác định từ bắt đầu phân tích Mơ hình Markov ẩn nghiên cứu rộng rãi gần công cụ mạnh áp dụng thành cơng nhận dạng tiếng nói Đa số hệ thống nhận dạng tiếng nói dùng mơ hình Markov ẩn Chi tiết mơ hình Markov ẩn trình bày Chương Mạng neuron áp dụng nhận dạng tiếng nói từ năm 1980 với mong muốn sử dụng khả phân lớp mạnh mạng Mạng neuron truyền thẳng đa lớp perceptron thường sử dụng nhận dạng tiếng nói Tuy nhiên mạng neuron có hạn chế khả mơ hình hóa biến thiên tiếng nói theo thời gian Vì mạng neuron gần hay sử dụng thay hàm mật độ xác suất hệ thống lai ghép mạng neuron mơ hình Markov ẩn 1.2.3 Mơ hình ngơn ngữ Mục đích mơ hình ngơn ngữ tìm xác suất từ wk phát âm theo sau từ W1k-1 = w1, w2, … wk-1 Một phương pháp đơn giản hay áp dụng dùng N-gram, với giả thiết từ wk phụ thuộc vào n-1 từ đứng trước tức P(wk|W1k-1)=P(wk|W kk 1n 1 ) Mơ hình ngơn ngữ N-gram lúc chứa đựng thông tin cú pháp (syntax), ngữ nghĩa (semantics), suy đoán (pragmatics) chúng tập trung vào phụ thuộc lân cận từ Các xác suất mơ hình ngơn ngữ tính tốn trực tiếp từ sở liệu văn mà không cần đến luật ngôn ngữ ngữ pháp hình thức ngơn ngữ Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang 10 Về mặt nguyên tắc xác suất mơ hình ngơn ngữ tính tốn trực tiếp từ số lần xuất từ sở liệu: t ( wk  2, wk 1 , wk ) Pˆ ( wk 1 , wk  )  b( wk  , wk 1 ) Trong hàm t(a,b,c) số lần xuất ba từ a,b,c (trigram) b(a,b) số lần xuất đôi (bigram) a,b Tuy nhiên vấn đề khó khăn mơ hình ngôn ngữ số lượng ba lớn Chẳng hạn với hệ thống nhận dạng với từ điển V có kích thước 10.000 từ số lượng ba V3 Số lượng từ rõ ràng lớn, có nhiều ba khơng xuất xuất ít, hai lần sở liệu Với trường hợp này, xác suất ba khơng tính nhỏ Mặc dù có khó khăn tính tốn trên, mơ hình ngơn ngữ chứng minh chúng đóng vai trò quan trọng hệ thống nhận dạng Trong hệ thống nhận dạng với kích thước lớn nay, mơ hình ngơn ngữ 3-gram 2-gram dùng phổ biến [Young 1996] Một số hệ thống nhận dạng có khả thay đổi mơ hình ngơn ngữ theo ngữ cảnh, tự điều chỉnh mơ hình ngơn ngữ trình nhận dạng [Béchet 2001, Estève2000] 1.3 CÁC ỨNG DỤNG CỦA NHẬN DẠNG TIẾNG NÓI 1.3.1 Nhận dạng tiếng nói viễn thơng Dựa vào mạng điện thoại cơng cộng, nhận dạng tiếng nói ngày đưa vào ứng dụng hệ thống điện thoại Có hai nhóm chương trình ứng dụng nhận dạng tiếng nói viễn thơng [Roe 1993] Nhóm ứng dụng nhằm làm giảm giá thành, ứng dụng người thực tác vụ hệ thống viễn thông thông qua nhân viên phục vụ (attendant) Trong ứng dụng độ xác nhận dạng hệ thống nhận dạng thay nhân viên phục vụ yếu tố quan trọng, người dùng khó thơng cảm cho lỗi hệ thống nhận dạng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang 99 +P13 +P33 +P23 Hình 4.12 Minh họa thuật toán chuyển thẻ Một mạng lớn mà có nhiều nút cơng việc tìm kiếm lâu tốn thời gian Một giải pháp nhằm giảm có hiệu việc tính tốn cho phép thẻ mà có hội thẻ tốt tồn Cơ chế gọi cắt tỉa (pruning) Tại bước thẻ mà có giá trị xác suất nằm khoảng giá trị cho phép so với thẻ có xác suất cao bị xóa Khoảng giá trị cho phép (beamwidth) điều chỉnh dung hòa yếu tố tốc độ hiệu thuật tốn tìm kiếm Kết thúc q trình tìm kiếm với phát âm ta nhận dãy từ với xác suất cao kết nhận dạng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang100 CHƢƠNG 5: CÀI ĐẶT THỬ NGHIỆM Trong chương giới thiệu phần thử nghiệm nhận dạng tiếng Việt liệu 10 chữ số tiếng việt Sử dụng open-source sphinx Cơ sở liệu (database): Tập liệu training: 13142 câu 140 người Tập liệu testing: 1000 câu người Mô hình ngơn ngữ (language Model): bi-gram Vector đặc trưng: 39 chiều = 13 MFCC +13 Delta + 13 Delta-delta Decoder: pocketsphinx Kết nhận dạng Word Error Rate(WER): 38% (6044/9736) Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang101 KẾT LUẬN VÀ KIẾN NGHỊ Trong thời gian thực luận văn cao học, học viên thực cơng việc sau: Tìm hiểu lý thuyết Các vấn đề lý thuyết sau tìm hiểu: 1) Lý thuyết chung nhận dạng tiếng nói Nguyên tắc chung hệ thống nhận dạng tiếng nói, lý thuyết phương pháp trích trọn đặc tính phổ tiếng nói Lý thuyết mơ hình ngơn ngữ phương pháp giải mã, tìm kiếm nhận dạng tiếng nói 2) Ngơn ngữ tiếng Việt, hệ thống âm vị tiếng Việt, phương pháp phát âm, đặc điểm riêng biệt tiếng Việt, phương pháp xây dựng sở liệu tiếng nói tiếng Việt 3) Mơ hình Markov ẩn Xích Markov liên hệ với mơ hình Markov ẩn Các tốn mơ hình Markov ẩn, giải pháp cho ba toán phương pháp chứng minh cơng thức tốn 4) Tìm hiểu hệ thống nhận dạng theo phương pháp CSLU HTK thông qua công cụ Qua tìm hiểu xây dựng hệ thống nhận dạng HMM/ANN CSLU hệ thống nhận dạng CD-HMM HTK, số đặc điểm hai phương pháp tổng kết so sánh Các công việc thực 1) Nghiên cứu phương pháp gán nhãn sở liệu Gán nhãn khâu quan trọng xây dựng sở liệu Luận văn sở tài liệu hướng dẫn gán nhãn tiếng Anh, đặc điểm ngơn ngữ tiếng Việt Luận văn trình bày cách hệ Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang102 thống phương pháp gán nhãn tiếng Việt tay sở đọc biểu đồ phổ biểu đồ sóng phát âm 2) Nghiên cứu xây dựng hệ thống nhận dạng mười chữ số tiếng Việt liên tục dùng hệ thống nhận dạng HMM/ANN CSLU Hệ thống sử dụng sở liệu mười chữ số, dùng đơn vị nhận dạng âm vị phụ thuộc ngữ cảnh Nghiên cứu nâng cao khả nhận dạng hệ thống Các thử nghiệm tiến hành để so sánh độ xác nhận dạng hệ thống nhận dạng khác nhau: - Xác định số lượng category nguyên âm Một nguyên âm chia thành ba category cho hệ thống nhận dạng, khả nhận dạng tốt - Âm đóng /tc/,/chc/ bổ sung vào phiên âm từ “tám”, “chín” cho kết nhận dạng cao - Các phương pháp trích trọn đặc tính thử nghiệm phương pháp trích trọn đặc tính PLP với 12 hệ số PLP, lượng giá trị delta chúng đem lại kết nhận dạng tốt kết hợp với kỹ thuật xử lý CMS Kết hệ thống nhận dạng mười chữ số tiếng Việt liên tục tốt dùng mạng HMM/ANN 97,14% độ xác mức từ 90,41% mức câu Các kiến nghị hƣớng nghiên cứu 1) Xây dựng sở liệu tiếng Việt Cho đến chưa có sở liệu tiếng Việt đầy đủ chất lượng tốt Việc xây dựng sở liệu tiếng nói tốt trở thành nhu cầu cấp thiết để thúc đẩy công việc nghiên cứu nhận dạng tiếng Việt Cơ sở liệu cần phải Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang103 xây dựng với tiêu chuẩn cao, sở việc nghiên cứu nhận dạng đem lại kết tốt Các tiêu chí để xây dựng sở liệu xin đề nghị sau: - Cơ sở liệu bao gồm nhiều giọng nói nhiều người khác nhau, số người nói từ 200 – 300 người Người nói có giọng miền khác Bắc, Trung, Nam - Số lượng từ từ điển phải lớn, bao gồm tất âm tiết tiếng Việt Cơ sở liệu cần thiết phải bao phủ mặt ngữ nghĩa, cú pháp, ngôn điệu nhiều tốt - Cơ sở liệu bao gồm câu phát âm liên tục thu âm phịng thí nghiệm với chất lượng thu âm cao từ tần số 16kHz/s, lấy mẫu 16bit trở lên - Cơ sở liệu phải bao gồm hai tập liệu: tập liệu huấn luyện tập liệu kiểm tra Tập liệu huấn luyện phải chứa hết từ từ điển Tập liệu kiểm tra phải chứa giọng nói khơng có tập liệu huấn luyện - Các câu sở liệu phải đảm bảo có cân ngữ âm Có nghĩa ngữ cảnh âm vị cân với nhiều tốt - Phương pháp phát âm người nói người nói đọc sẵn theo văn chuẩn bị trước 2) Nghiên cứu nhận dạng điệu tiếng Việt Trên giới số lượng ngơn ngữ có điệu không nhiều: tiếng Hán, tiếng Quảng Đông, tiếng Việt, tiếng Thái, tiếng Nhật Các nghiên cứu điệu với ngơn ngữ nước ngồi tiếng Anh, tiếng Pháp Nghiên cứu nhận dạng điệu chủ yếu tác giả Trung Quốc tiến hành, báo Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang104 vấn đề Hệ thống nhận dạng tiếng Việt bao gồm hai trình song song: nhận dạng từ không điệu nhận dạng điệu Để xây dựng hệ thống nhận dạng tiếng Việt hoàn chỉnh, thiết phải tiến hành nghiên cứu nhận dạng điệu tiếng Việt Đây tốn khó có báo nhận dạng điệu từ rời rạc thực [Cường] Nhiều vấn đề nghiên cứu cịn phía trước với nhận dạng điệu 3) Xây dựng hệ thống nhận dạng với kích thước lớn Cho tới thời điểm nay, chưa có hệ thống nhận dạng tiếng Việt với kích thước lớn cơng bố Đây mục đích mà hệ thống nhận dạng tiếng Việt cần phải vươn tới Trên sở liệu tiếng Việt tốt, toán nhận dạng điệu tiếng Việt giải cơng việc xây dựng hệ thống nhận dạng tiếng Việt có kích thước lớn có đủ điều kiện xây dựng ước mơ người nghiên cứu nhận dạng tiếng Việt Một lần Học viên xin cảm ơn PGS TS Lƣơng Chi Mai tận tình giúp đỡ, hướng dẫn thời gian thực đề tài, cảm ơn giúp đỡ gia đình, bạn bè đồng nghiệp thời gian qua Thái Nguyên, ngày 29 tháng 11 năm 2012 Người thực Nguyễn Ngọc Toàn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang105 TÀI LIỆU THAM KHẢO Tiếng Việt [Bảng 2001] Vũ Kim Bảng, Triệu Thị Thu Hương, Bùi Đăng Bình (2001) “Âm tiết tiếng Việt khả hình thành thực tế ứng dụng”, Toàn văn Báo cáo Khoa học, Hội nghị kỷ niệm 25 năm thành lập Viện Công nghệ Thông tin, tr 525-533 [Cân 1999] Vũ Ngọc Cân, Lê Đinh Tư (1999), Nhập môn ngôn ngữ học, Nhà xuất giáo dục [Phúc 2000] Nguyễn Thành Phúc (2000) Một phương pháp nhận dạng lời Việt: áp dụng phương pháp kết hợp mạng neuron với mơ hình Markov ẩn cho hệ thống nhận dạng lời Việt, Luận án Tiến sỹ Kỹ thuật, Đại học Bách khoa Hà Nội [Tho 1997] Đỗ Xuân Tho (1997), Lê Hữu Tỉnh, Giáo trình tiếng Việt 2, Nhà xuất Giáo dục [Thuật 1999] Đoàn Thiệt Thuật (1999), Ngữ âm Tiếng Việt, Nhà xuất Đại học Quốc gia Hà Nội [Tiến 2000] Nguyễn Duy Tiến, Vũ Việt Yên (2000), Lý thuyết xác suất, Nhà xuất Giáo dục [Trừ 1997] Mai Ngọc Trừ, Vũ Đức Nghiệu, Hoàng Trọng Phiến (1997), Cơ sở Ngôn ngữ học Tiếng Việt, Nhà xuất Giáo dục Tiếng Anh [Avendano 1996] Carlos Avendano, Sarel van Vuuren and Hynek Hermansky, “Data Based Filter Design for RASTA-like Channel Normalization in ASR”, Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang106 Proceedings of the International Conference on Spoken language Processing, Philadelphia, PA, October, 1996 [Barbara 2001] Santa Barbara (2001), High-Performance Automatic Speech Recognition via Enhanced Front-end Analysis and Acoustic Modeling, Ph.D Thesis, University of California [Bilmes 1998] Jeff A Blimes (1998), A Gentle Turorial of the EM Algorithm and its Application to Parmeter Estimation for Gaussian Mixture and Hidden Markov Models, Technical Report ICSI-TR-97-021, University of Berkeley [Bourlard 1998] Bourlard, H and N Morgan (1998) “Hybrid HMM/ANN systems for speech recognition: Overview and new research directions”, Adaptive Processing of Sequences and Data Structures, Volume 1387 of Lecture Notes in Artificial Intelligence, pp 389-417 Springer [Bourlard 1996] Bourlard, H.,Konig, Y., Morgan, N., and Ris, C., “A New Training Algorithm for hybrid HMM/ANN Speech Recognition Systems”, VIII European Signal Processing Conference (EUSIPCO96), Trieste, Italy, September, 1996 [uhrke 1994] E R Buhrke, R Cardin, y Normandin, M Rabin,J Wilpon (1994), “Application of vector quantized hidden modeling to telephone network based connected digit recognition” IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP Proceedings, VI [Cole 1999] Cole R., “Tools for research and education in spessch science” (Aug 1999) Proceedings of the International Conference of Phonetic Sciences, San Francisco, CA Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang107 PHỤ LỤC A: BẢNG KÝ HIỆU ÂM VỊ TIẾNG VIỆT Âm Âm đầu Âm vị Phiên IPA âm ASCII b b d d t t t‟ th † tr c ch k k m n μ m n nh η ng f v S ph v x z dz l ş ź χ γ h h l s d kh ц w i i i ee g h Con chữ Ví dụ b đ t th tr ch k (đứng trước i, e, ε) c (đứng trước u, o, a, γ, щ) q (đứng trước w) m n nh ngh (đứng trước /i/,/e/,/ε/) ng ph v x d gi g l s r kh gh (đứng trước i, e, ε) g h o (đứng trước a, ă, ε) u (còn lại) y (đứng sau џ) i (còn lại) ê buồn bã đẫy đà tan tác thơm tho trục trặc chuồn kiêu kỳ cầu cạnh quây quần mượt mà no nê nhanh nghỉ, nghê ngủ ngày phất phới vội vã xa xôi dễ dãi giỏi giang long lanh sớm sủa ruộng khơng khí ghế, ghi gà hối hoa hịe huy, tuần, phuy suy, nguy tinh, tích ênh ếch Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang108 ε έ u o a e ea u oo o oa uw ow aa a ă aw Âm ш γ ie uo Âm đóng Âm cuối wa p t m n pz tz mz nz k kz η ngz ǔ uz ǐ iz tc,chc, bc,dc, kc,th c,cc e a (trước k, η) u ô o o (trước k, η) â a ă a (trước ǔ,ǐ) ia (khi trước khơng có âm đệm sau khơng có âm cuối) ya (khi trước có âm đêm) iê (khi trước khơng có âm đệm sau có âm cuối) yê (khi trước có âm đệm sau có âm cuối bán nguyên âm) ua (khi sau khơng có âm cuối) (khi sau có âm cuối) ưa (khơng có âm cuối) ươ (khi có âm cuối) p t m n ch (đứng sau i, e, ε) c (còn lại) nh (đứng sau i, e, ε) ng (còn lại) o (đứng sau ε, a) u (còn lại) y (đứng sau γ, ă) i (còn lại) yêu, uyển chuyển đứng trước phụ âm tắc: /b, d, t, ť, ʈ , c, k/ tám, cơng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên nghe, ve sách, xanh súng, vui ô tô cỏn vịng, tóc lừ đừ lơ mơ ân cần lan can ăn năn lau tay kia, thìa, bia khuya tiên tiến mua, vua chúa muộn, tuồn mưa, vưa ương, ướng chập cắt đom đóm màn, sơn thích, được, việc mình, ánh, nhanh vùng, vằng leo cao kêu cứu mây bay nói, http://www.lrc-tnu.edu.vn Trang109 PHỤ LỤC B: SO SÁNH HAI PHƢƠNG PHÁP NHẬN DẠNG CSLU VÀ HTK Cơ sở liệu HTK: HTK có hai cách khởi tạo tham số mơ hình Markov ẩn Dùng Hinit thơng tin nhãn thời gian sẵn có sở liệu Nếu khơng HTK dùng phương pháp khởi tạo phẳng (flat start) để khởi tạo tham số mơ hình Các tham số sau tính tốn phương pháp nhúng Như HTK không bắt buộc phát âm sở liệu cần phải gán nhãn tay CSLU: Vì CSLU dùng mạng ANN để học âm vị trước xây dựng mạng lai ghép HMM/ANN Các liệu tương ứng với âm vị đưa vào để huấn luyện cần phải có tính chất âm học âm vị để mạng ANN học Do thơng tin nhãn thời gian bắt buộc phải sẵn có sở liệu để hệ thống tìm khung tín hiệu tương ứng với âm vị, từ tính tốn vector đặc tính phổ dùng để huấn luyện mạng ANN Đơn vị nhận dạng HTK: Được thiết kế để xây dựng hệ thống nhận dạng từ nhỏ tới hệ thống lớn Với hệ thống nhận dạng nhỏ, đơn vị nhận dạng từ Khi số lượng trạng thái mơ hình có thể điều chỉnh nhiều hơn, thông thường lên trạng thái Với hệ thống nhận dạng có kích thước lớn, đơn vị nhận dạng thường âm vị bán âm tiết, số trạng thái mơ hình điều chỉnh nhỏ hơn, khoảng từ 3-5 trạng thái CSLU: Đơn vị nhận dạng CSLU category, phần âm vị Do đặc tính biến thiên tiếng nói theo thời gian, khoảng thời gian tồn âm vị, đặc tính phổ âm vị biến thiên từ lúc bắt đầu tới kết thúc âm vị Khoảng thời gian mà đặc tính phổ tương đối tĩnh, tức dùng cho huấn luyện mạng ANN phần âm vị: phần bên trái âm vị, nơi âm Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang110 vị chịu ảnh hưởng ngữ cảnh phải, phần âm vị không chịu ảnh hưởng ngữ cảnh phần bên phải âm vị, chịu ảnh hưởng ngữ cảnh phải Khoảng lặng HTK: Sử dụng hai đơn vị nhận dạng đặc biệt sp sil để mơ hình hố khoảng lặng tiếng nói Âm vị sil dùng mơ hình hố ngắt giọng (short pause) phát âm Âm vị sp gồm trạng thái trạng thái buộc vào trạng thái thứ 3, trạng thái âm vị sil Âm vị sp coi có mặt từ, chuyển tiếp từ từ sang từ Trong HTK âm đóng (closure) khơng có mặt đơn vị nhận dạng Chúng gộp vào phụ âm đằng trước đằng sau tương ứng với Mơ hình Markov ẩn tự chúng có khả mơ hình hố biến thiên đặc tính phổ âm đóng CSLU: Với CSLU, khoảng lặng nhóm vào đơn vị nhận dạng pau Âm đóng coi đơn vị nhận dạng riêng Tuy nhiên ảnh hưởng đến ngữ cảnh âm vị khác chúng lại xếp chung với đơn vị nhận dạng pau Với mạng ANN, CSLU có chế hiệu dùng đơn vị nhận dạng đặc biệt garbage để loại bỏ ảnh hưởng nhiễu, âm khơng phải tiếng nói loại bỏ phát âm khơng có từ điển Với chế tỷ lệ lỗi nhận dạng nhầm lỗi chèn giảm xuống, hệ thống chịu ảnh hưởng nhiễu âm đan xen vào tiếng nói Phụ thuộc ngữ cảnh HTK: Do đặc tính tiếng nói, tất hệ thống nhận dạng dùng đơn vị nhận dạng phụ thuộc ngữ cảnh Để tính đến ngữ cảnh trái ngữ cảnh phải âm vị, HTK dùng âm ba (triphone), âm vị bổ sung thêm ngữ cảnh từ âm vị độc lập ngữ cảnh tương ứng Ví dụ âm vị /a/ chuyển thành âm ba /b-a+n/ từ “bàn”, đơn vị nhận dạng khác với âm vị /a/ từ “đàn”: /dd-a+n/ Có hai loại âm ba phân biệt: âm ba giới nội từ (word internal) âm ba liên từ (cross-word) Trong âm ba giới nội từ, ảnh hưởng ngữ cảnh Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang111 coi có tác dụng từ đó, từ với coi ngăn cách khoảng lặng Phương pháp HTK tăng số lượng âm ba lên lớn, với tiếng Việt số lượng âm ba liên từ lên tới 16 nghìn âm ba Với số lượng lớn vậy, liệu huấn luyện cần có lớn vấn đề thiếu hụt liệu huấn luyện khó tránh khỏi CSLU: Để tính đến ảnh hưởng ngữ cảnh đến đơn vị nhận dạng, CSLU khơng thể làm HTK mạng ANN tiến hành phân lớp với phần âm vị, nơi đặc tính phổ khơng thay đổi nhiều CSLU tính đến thay đổi ngữ cảnh cách chia âm vị thành nhiều category Một âm vị chia thành hoặc khai báo category phụ thuộc phải Như đơn vị nhận dạng phụ thuộc ngữ cảnh CSLU thực chất âm đôi (biphone) âm ba Với cách làm số lượng đơn vị nhận dạng CSLU không lớn trường hợp HTK Với tiếng Việt, từ điển bao gồm tất từ, số lượng category khoảng 2147 category Gán nhãn cƣỡng HTK: Giống tất hệ thống nhận dạng, gán nhãn cưỡng khâu quan trong trình huấn luyện Sau hệ thống khởi tạo cần phải gán nhãn liệu huấn luyện để từ dùng thông tin cho phần huấn luyện Trong HTK gán nhãn cưỡng cịn có vai trị quan trọng tìm dãy phát âm phù hợp số phiên âm âm vị từ Trong gán nhãn cưỡng HTK, ranh giới từ, âm vị xác định lại CSLU: CSLU tiến hành gán nhãn cưỡng sau trình khởi tạo để xác định lại ranh giới category âm vị Trong khởi tạo lần đầu tiên, category âm vị chia từ khoảng thời gian âm vị Sau hệ thống khởi tạo, dùng để xác định lại ranh giới học hệ thống xác định ranh giới xác chia giai đoạn khởi đầu Như gán nhãn cưỡng CSLU ranh giới Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang112 category xác định lại, ranh giới từ, âm vị xác định gán nhãn tay không thay đổi Phƣơng pháp buộc HTK: Vấn đề không đủ liệu huấn luyện luôn tồn hệ thống nhận dạng HTK giải vấn đề hai phương pháp: dùng driven data tree-based Dù cách dùng HTK cho phép người dùng khai báo tính chất, tiêu chí mong muốn để tiến hành buộc Sau hệ thống tự động tính tốn buộc đơn vị nhận dạng tuỳ theo liệu Trong q trình này, can thiệp từ bên ngồi hạn chế Với cách này, đơn vị nhận dạng buộc vào phụ thuộc vào liệu dùng để huấn luyện chúng trình buộc xác CSLU: Để buộc đơn vị, CSLU khơng có chế tự động tính tốn theo liệu huấn luyện mà cho phép người dùng khai báo nhóm ngữ cảnh Các đơn vị nhận dạng có ngữ cảnh thuộc nhóm ngữ cảnh buộc vào Như việc buộc âm vị với hoàn toàn phụ thuộc vào chủ quan người nghiên cứu Huấn luyện Cả hai hệ thống CSLU HTK giống hệ thống nhận dạng dùng HMM dùng huấn luyện nhúng để huấn luyện mơ hình Markov ẩn Các HMM đơn vị nhận dạng nối vào tạo thành mô hình HMM lớn Sau tham số mơ hình lớn điều chỉnh theo liệu huấn luyện Có điểm khác huấn luyện CSLU so với HTK hệ thống CSU dùng mạng ANN, trình huấn luyện mạng ANN có nhiều tập giá trị trọng số tương ứng với vòng huấn luyện (iteration) Với mạng ANN, cần phải tìm vịng lặp cho độ xác cao để xác định điều hệ thống thử nhận dạng tập liệu gọi tập liệu phát triển Kích thước tập liệu cần đủ lớn để đảm bảo iteration cho kết xác cho kết Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang113 xác với liệu kiểm tra Như với CSLU tập liệu phát triển cần bổ sung vào tập liệu huấn luyện liệu kiểm tra Nhận dạng HTK: Trong hệ thống nhận dạng, với hệ thống nhận dạng số lượng từ vựng lớn, mơ hình ngơn ngữ đóng vai trị quan trọng HTK cho phép dùng mơ hình ngơn ngữ bigram q trình tìm kiếm nhận dạng cách tích hợp xác suất bigram vào mạng nhận dạng Sự có mặt mơ hình bigram cải thiện đáng kể độ xác nhận dạng hệ thống Mơ hình hố độ dài CSLU dùng chế phạt (penalty) để khống chế độ dài đơn vị nhận dạng hệ thống nhận dạng Trong trình huấn luyện, giới hạn độ dài tối thiểu tối đa với đơn vị nhận dạng xác định Trong trình nhận dạng, âm vị vượt hai giá trị chúng bị gán giá trị phạt tùy thuộc vào định nghĩa hệ thống nhận dạng Cách làm nhằm khống chế khả nhận dạng nhầm lỗi chèn HTK chưa có chế để mơ hình hố độ dài đơn vị nhận dạng Kết nhận dạng thử nghiêm cho thấy HTK nhạy cảm với nhiễu âm khơng phải tiếng nói phát âm, chúng thường nhận dạng nhầm làm tăng lỗi nhận dạng nhầm cho chèn Kết luận Mỗi hệ thống nhận dạng có ưu điểm nhược điểm riêng Phương pháp xây dựng hệ thống nhận dạng HMM/ANN thích hợp cho hệ thống nhận dạng có kích thước nhỏ Hệ thống tỏ có khả chịu nhiễu âm xen lẫn tốt Phương pháp nhận dạng HTK với đầy đủ chức thích hợp cho xây dựng hệ thống nhận dạng kích thước lớn Dữ liệu huấn luyện khơng cần phải gán nhãn trước, mơ hình ngơn ngữ bigram ưu điểm bật HTK Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ... nghiên cứu nhận dạng tiếng nói ngơn ngữ nƣớc ngồi Cơng nghệ nhận dạng tiếng nói có bước tiến dài thập kỷ qua, số phần mềm nhận dạng tiếng nói có mặt thị trường, chẳng hạn phần mềm nhận dạng tiếng nói. .. điệu tiếng Thái [Thubthong 2000b] 1.4.2 Các nghiên cứu nhận dạng tiếng nói tiếng Việt Cho đến thời điểm nay, chưa có nhiều nghiên cứu nhận dạng tiếng Việt Các công việc nghiên cứu nhận dạng tiếng. .. nhiều nghiên cứu tiến hành, nhiều hệ thống nhận dạng tiếng nói tiếng Trung Quốc công bố hệ thống nhận dạng tiếng Hán với kích thước từ vựng lớn xây dựng [Fu 1996] Một số phần mềm nhận dạng tiếng nói

Định dạng
Số trang	113
Dung lượng	1,05 MB