Tài liệu Áp dụng thuật toán Dynamic time wraping (DTW) cho ứng dụng nhận dạng mẫu tiếng việt docx

10 2.6K 48
Tài liệu Áp dụng thuật toán Dynamic time wraping (DTW) cho ứng dụng nhận dạng mẫu tiếng việt docx

Đang tải... (xem toàn văn)

Thông tin tài liệu

Lĩnh vực Công nghệ thông tin áp dụng thuật toán Dynamic Time wraping (dtW) cho øng dơng nhËn d¹ng mÉu Tiếng Việt ThS.Đoàn Phan Long Trung tâm Công nghệ thông tin Tóm tắt: Tự động nhận dạng tiếng nói (Automatic Speech Recognition ASR) lĩnh vực nghiên cứu quan trọng để đa ứng dụng tiếng nói vào nhiều ngành Một vấn đề liên quan cần nghiên cứu lĩnh vực đợc dựa sở lu trữ nhiều mẫu tín hiệu cho từ cần nhận dạng Quá trình nhận dạng trình thực hiƯn viƯc so s¸nh hai mÉu tÝn hiƯu cđa cïng âm để tím mẫu có sai số nhỏ Bởi tín hiệu âm đợc tạo thời điểm khác không bao giừo giống hoàn toàn Nó có sai lệch yếu tố trọng âm, ngữ điệu, tốc độ, Vì cần phải thực só sánh hai mẫu theo thuật toán biến dạng nhằm giảm thiểu sai số Thuật toán DTW (Dynamic Time Wraping) thuật toán hiệu cho việc ứng dụng sánh hai mẫu tín hiệu có chiều dài khác cho sai sè nhá nhÊt [4] Tuy nhiªn viƯc øng dụng DTW có nhiều hớng khác cho kết khác nhau, việc lựa chọn phơng pháp áp dụng có hiệu ngôn ngữ tiếng Việt vấn đề cần quan tâm Mở đầu: Hiện với trợ giúp hệ thống máy tÝnh cã rÊt nhiỊu xu híng nh»m ¸p dơng c¸c mô hình ngôn ngữ hệ thống sử dụng công nghệ nhận dạng tiếng nói, kể đến nh mô hình từ, âm tiết mô hình âm vị, mô hình âm đầu+vần Việc lựa chọn mô hình để giải toán cụ thể phụ thuộc vào yêu cầu ứng dụng Nó định đến độ phức tạp, tính bao trùm chất lợng hệ thống Hệ thống nhận dạng áp dụng mô hình ngôn ngữ sử dụng công nghệ nhận dạng mẫu theo từ, âm tiết, âm vị theo âm đầu vần Để so sánh tín hiệu đầu vào mẫu, ngời ta thờng pháp áp dụng thuật toán DTW Thuật toán DTW đợc ứng dụng để giải việc so sánh hai mẫu tín hiệu có độ dài khác theo thời gian Nh ta biết, kết trình phân tích tính hiệu theo phơng pháp mà hoá dự báo tuyến tính (Linear Predictive Coding LPC) hay ngân hàng lọc (Filter Bank) cho ta kết dạng chuỗi véctơ đặc trng Độ dài chuỗi véc tơ phụ thuộc vào độ dài của hai tín hiệu mà ta phân tích Nh vậy, trình so sánh hai tín hiệu tơng ứng với trình so sánh chuỗi véc tơ đặc trng hai tín hiƯu Tht to¸n DTW sÏ thùc hiƯn viƯc so s¸nh chuỗi véc tơ theo số luật cho tổng độ lệch hai chuỗi nhỏ tơng ứng với đờng cặp véc tơ hai chuỗi tối u Việc chọn lựa luật chọn đờng giới hạn biên đờng cho ta kết tính toán nhỏ hiệu Khái quát tiếng Việt 1.1) Các dân tộc ngôn ngữ ViƯt Nam Trong sè 54 d©n téc ë ViƯt Nam dân tộc Việt (còn gọi Kinh) chiếm số lợng tuyệt đối, tổng số dân lên tới 70 triệu ngời Dân tộc Tày có 1,2 triệu, dân tộc Thái triệu, dân tộc Hoa, Khơ me, Mờng, Cơ Ho, Chàm, Sán Dìu 900 nghìn ngời Căn vào ngôn ngữ, chữ viết ta phân bố thành phần dân tộc nh sau: Học viện Công nghệ BCVT Hội nghị Khoa học lần thứ Tiếng Nôm - Khơme Gồm nhiều nhóm ngời Tây Bắc, Tây Nguyên, Quảng Trị vv Tiếng Thái Gồm ngời Thái Tây Bắc, Thợng du Thanh Hóa, Nghệ An, khu Việt Bắc, Quảng Ninh Ngoài có nhóm ngời Giáy, Cao Lan, Lự vv Tiếng Anh-đô-nê-diêng Gồm ngời Chàm, Gia rai, Ê-đê (Tây Nguyên) Tiếng Mèo-Dao Gồm ngời Mèo Dao (Việt Bắc, Hòa Bình Thanh Hóa) Tiếng Tạng - Miến: Gồm ngời Lô Lô (Hà Giang), Hà Nhì, La Khu, Cống, Xila (Tây Bắc) Tiếng Hán: Ngời Hoa (Quảng Ninh), Sán Dìu (Bắc Giang, Bắc Cạn, Thái Nguyên vv ) Tiếng Việt ngôn ngữ cộng đồng dân tộc Việt công cụ giao tiếp chung cho dân tộc sống nớc Việt Nam Nhiều công trình nghiên cứu theo phơng pháp lịch sử so sánh đến kết luận ngôn ngữ Việt Nam thuộc vào họ Hán Tạng, Thái, Mèo-Dao, Nam Đảo, Nam á; riêng tiếng Việt thuộc họ tiếng Nam Họ Nam (austroasiatique) họ ngôn ngữ lớn bao gồm phần ấn độ, phần Malaysia, phần Miến điện, phần lớn Campuchia, phần lớn Việt Nam Họ lại phân thành nhiều nhóm: Việt-Mờng, Mông-Khmer, Khơ mú, Cơ tu, Bana, Mnông, Kađai Họ Nam Đảo (austronesien hay malayo-polyesien) họ lớn, với nhiều ngôn ngữ, khu vực rộng bao gồm quần đảo Madagascar, Malaysia, Indonesia, Philippines, New Guinea, Taiwan phía Nam Việt Nam Về ngôn ngữ thuộc họ Việt Nam có Chàm, Raglai, Chru, Êđê, Giarai, tất thuộc nhóm Chăm Họ Hán Tạng bao gồm tiếng Hoa số ngôn ngữ phía Tây nam Trung hoa phần lớn Miến Điện Các ngôn ngữ thuộc họ Việt Nam bao gồm Lô Lô, Phù Lá, Hà Nhì, La Hủ, Cống, Si La thuộc nhóm Tạng-Miến, tiếng Hoa, Sán Chỉ, Sán Dìu thuộc nhóm Hán 1.2) Vài nét lịch sử phát triển tiếng Việt Theo số tài liệu nghiên cứu tiếng Việt thời thợng cổ thứ tiếng cha có điệu Hệ thống phụ âm đầu tiếng Việt có phụ âm đơn phụ âm kép nh bl, tl, pr, pl Các âm cuối bị dần số trình phát triển (nh âm cuối l đi, âm cuối r chuyển thành i), nói riêng âm h xuất dÊu ng· tiÕng ViƯt HƯ thèng ®iƯu ®· xuất dần Vào đầu công nguyên, tiếng Việt cha cã ®iƯu, ®Õn thÕ kØ VI xt hiƯn ba đến kỉ XII có đủ sáu nh Sự biến đổi âm đầu cuối nguyên nhân làm xuất hệ thống ®iƯu tiÕng ViƯt Sù biÕn ®ỉi hƯ thống âm đầu diễn tơng đối rõ hệ thống nguyên âm: âm vô chuyển thành hữu (p b, t d k g) Các phụ âm kép kl, tl, bl, khl dần, làm xuất âm uốn lỡi tr s (tlăm trăm (thế kỉ 17); blăng trăng (thế kỉ 18), khlông (thế kỉ 15) sông (thế kỉ 17), nhóm ml chuyển thành l nh (nlÇm  lÇm, nhÇm, mlÏ  lÏ, nhÏ) Kho từ vựng tiếng Việt phong phú với từ có nguồn gốc Nam Tày Thái cổ Kho từ vựng trình phát triển tiếp nhận hoá ngữ âm lẫn ý nghÜa mét bé phËn kh¸ nhiỊu tõ gèc H¸n (nh đũa, đục, muôn, mũi, móc, mùa ) Hệ thống ngữ pháp tỏ bền vững hệ thống từ vựng, trật tự cú pháp, trật tự tổ hợp từ giữ đặc điểm riêng tiếng Việt Học viện Công nghệ BCVT LÜnh vùc C«ng nghƯ th«ng tin 1.3) Mét sè đặc điểm tiếng Việt Tiếng Việt loại hình ngôn ngữ đơn lập (ngôn ngữ không biến hình - amorphous) có điệu Tiếng Việt tiếng đơn âm có ranh giới cố định, mang điệu, có cấu trúc đơn giản, điệu có âm tiết trùng với hình vị, đơn vị nhỏ có tổ chức mang ý nghĩa ngữ pháp Do âm tiết vỏ ngữ âm hình vị nên khác với ngôn ngữ Âu-ấn, tiếng Việt có số lợng âm tiết hữu hạn với 17.000 vỏ ngữ âm 6.900 âm tiết tồn thực [3] Âm tiết, hình vị tiếng Việt cố định, không biến đổi hình thái theo ngữ pháp thời, giống số nh ngôn ngữ khác Từ thờng có hai loại đơn tiết đa tiết Một phần lớn từ đa tiết Hán Việt (kể từ mới) Trong từ đa tiết th ờng có dạng láy âm ghép từ đơn tiết Âm tiếng Việt có cấu trúc chặt chẽ với loại âm vị trí cố định thành phần âm tiết Tiếng Việt ngôn ngữ có điệu, tiếng Việt có (tiếng Thái, Lào có thanh, tiếng Hán thanh, tiÕng MiÕn §iƯn thanh, Trung Qc cã thanh) ngang (không dấu), huyền, ngÃ, hỏi, sắc nặng Mỗi tham gia vào việc cấu tạo từ tạo nghĩa cho từ Thanh điệu tiếng Việt có tính nhạc, câu văn có vần, nhịp điệu, trầm bổng nhịp nhàng Mỗi âm tiết mang điệu định Thanh điệu kết hợp với thành phần âm tiết tạo thành từ khác nhau, ví dụ nh /ma, mà, má, mả, mÃ, mạ/ Trong tiếng Việt vần phát âm đợc đủ sáu Đối với âm tiết đóng có hai sắc nặng Âm tiết tiếng Việt dạng đầy đủ bao gồm thành phần có mức độ độc lập khác âm đầu (phụ âm), phần vần điệu Với phần vần bao gồm thành phần âm đệm (bán nguyên âm), âm (nguyên âm đơn nguyên âm đôi) âm cuối (phụ âm đơn bán nguyên âm) Trong nguyên âm điệu hạt nhân âm tiết Trừ phụ âm đầu, phần lại âm tiết tiếng Việt đợc gọi vần Tiếng Việt có 512 vần (Theo thống kê số tài liệu GS Hoàng Phê) Vần tạo nên hài hoà ngữ âm ngữ nghĩa từ tợng hình, tợng Từ song tiết chiếm phần lớn tổng số từ Từ ghép đa tiết chia thành loại từ ghép nghÜa, tõ l¸y, tõ ghÐp tù do, c¸c tõ vay mợn nớc Vốn từ vựng tiếng Việt bao gồm từ, thành ngữ, thuật ngữ Một phận từ tiếng Việt có gốc Hán Phơng tiện biểu ý nghĩa ngữ pháp tiếng Việt trật tự thành tố (từ câu), ngữ điệu, dạng láy, ngữ cảnh Từ cụm từ đơn vị cấu tạo nên câu Ngôn ngữ nói ngôn ngữ viết không cách xa qui tắc ngữ âm, ngữ pháp 1.4) Mối quan hệ chữ cái, âm tiết, từ - Chỉ nguyên âm cã qun mang dÊu biĨu diƠn ©m tiÕt hay từ - Mỗi nguyên âm đợc mang nhiều dấu - Các dấu thanh: huyền, hỏi, ngÃ, sắc đợc đặt phía nguyên âm mang dấu Dấu nặng đợc đặt phía dới nguyên âm mang dấu - Các âm tiết chữ Việt đợc tạo sở biểu diễn hình ảnh cho âm phát có mang điệu Mỗi âm tiết đợc biểu diễn việc viết liền chữ mô tả cho âm tiết đợc mang nhiều thanh, đặt nguyên âm Các âm tiết tách lẫn dấu cách - Thanh thuộc tính âm tiết, thuộc tính nguyên âm Thanh đợc đặt vào vị trí nguyên âm để phân biệt cách phát âm - Một từ tiếng Việt đơn vị ngữ nghĩa, mang ý nghĩa đó, bao gồm hai, ba hay nhiều âm tiết Học viện Công nghệ BCVT Hội nghị Khoa học lần thứ - Dựa cách biểu diễn chữ Việt theo chữ này, nêu đ ợc tập sinh khác cho chữ Việt, nh: Tập sinh dới dạng tổ hợp phụ âm đầu vần theo sau Tập sinh với 33 chữ Tập sinh với phụ âm đầu khoảng 800 vần - Mặc dầu cách biểu diễn theo phụ âm vần có số ích lợi xử lí nhng ích lợi khó bù đợc cho bất lợi mà đem lại nh: Với đặc thù phát âm tiếng Việt khó biểu diễn tình có chen lẫn tiếng Việt tiếng Việt Việc làm ngợc với xu hoà đồng ngôn ngữ giới, khó khăn cho việc tiếp thu tiến công nghệ 1.5) Chữ viết Theo tài liệu lịch sử Đại Việt sử lợc, An nam chí nguyên, Việt sử thông giám tổng luận ®Ịu cã chÐp thêi Hïng v¬ng "chÝnh sù dïng lèi kết nút." Tuy nhiên cha có tài liệu cho biết rõ việc có chữ viết đợc bắt đầu dùng Việt Nam Việc sử dụng chữ Hán kèm với việc văn hoá Trung quốc lan xng phÝa Nam ®Õn cïng víi viƯc chinh phơc thôn tính đất đai triều đại phong kiÕn Trung qc 1.6) CÊu tróc ©m tiÕt tiÕng Việt Nh đà nêu trên, Âm tiết tiếng việt dạng đầy đủ đợc tạo thành phần phụ âm đầu, âm đệm (bán nguyên âm), âm (nguyên âm đơn nguyên âm đôi) âm cuối (phụ âm đơn bán nguyên âm) ®iƯu VỊ cÊu tróc, ©m tiÕt tiÕng ViƯt cã cÊu trúc hai bậc Bậc gồm ba thành phần điệu, phụ âm đầu vần Bậc hai thành tố phần vần gồm âm đệm bán nguyên âm, nguyên âm phụ âm bán nguyên âm cuối Các thành phần âm tiết đợc thể hình Thanh điệu Âm đầu Vần Âm đệm Âm Âm cuối Hình 1: Sơ đồ âm tiết tiếng Việt 1.6.1) Âm đầu Phụ âm mở đầu âm tiết gồm có 22 vần Các phụ âm đầu đợc phân biệt theo tiêu chí phơng thức cấu âm (tắc, xát), tính (vang, ồn) phụ âm vang đợc phân biệt phụ âm mũi phụ âm bên (phụ âm không mũi) Trong phụ âm ồn đợc chia thành loại âm vô âm hữu Nh phân theo lớp ngữ âm rông ta chia phụ âm đầu tiếng Việt thành bảy loại theo hình dới Tắc ồn Phơng thức cấu âm Vô Bật Không bật Hữu Xát Vang Học viện Công nghệ BCVT Vô Hữu Các phụ âm th (p), t, tr, ch, k, c b, ® ph, x, s, kh v, d, r, g-gh, h LÜnh vùc C«ng nghƯ th«ng tin Mịi Kh«ng mịi m, n, nh, ng-ngh l Hình 2: Phân loại phụ âm đầu 1.6.2) Phần vần Phần vần có thành phần âm đệm, âm âm cuối Ví dụ âm tiết /toán/ có phần vần oan, âm vị âm đệm /o/, âm /a/ âm cuối /n/ - Âm đệm đóng vai trò làm biến đổi âm sắc âm tiết nhng không tạo nên đỉnh âm tiết Âm đệm đợc viết chữ /o/ đứng trớc nguyên âm /e/, /a/, /ă/ chữ /u/ trờng hợp lại Nếu đứng sau phụ âm đầu /k/ đợc viết /u/ /k/ đợc viết /q/ - Âm âm hệ thống nguyên âm gồm 11 nguyên âm đơn /a/, /ă/, /â/, /e/, /ê/, /o/, /ô/, /ơ/, /u/, //, /i/ nguyên âm đôi /iê/, /ơ/, /a/ Âm yếu tố tạo nên đỉnh âm tiết, có biên độ cờng độ lớn thành phần âm tiết - Âm cuối âm kết thúc âm tiết Nó biến đổi âm sắc âm tác động tác khép lại máy phát âm Hệ thống âm cuối tiếng Việt gồm hai bán nguyên âm /i/ /o/ sáu phụ âm Các phụ âm /m/, /n/, /ng (nh)/, /p/, /t/, /c/ 1.6.3) Thanh điệu Thanh điệu loại âm vị siêu đoạn tính, đợc biểu tiàn phần hữu âm tiết mức vật lý, phần thanh điệu đờng nét tần số âm F Về cảm thụ, điệu cảm nhận độ thay đổi cao độ tần số F0 âm tiết Sáu điệu tiếng Việt đợc chia thành hai nhóm lớn trắc Thanh không dấu huyền thuộc loại có đờng nét tơng đối đơn giản Thanh ngÃ, hỏi, sắc nặng trắc có đờng nét điệu phức tạp Các ngang, sắc, ngà thuộc âm vực cao âm huyền, hỏi nặng thuộc âm vực thấp Ngoài tính chất tính, điệu có số đặc trng phi điệu tính nh tợng yết hầu hoá, hầu hoá tạo thành hệ thống đặc trng phụ để phân biệt điệu đặc biệt ngà sắc, hỏi nặng 1.6.4) Loại âm tiết Phụ thuộc vào cách thức kết thúc, âm tiết tiếng Việt đợc chia thành loại nh sau: ã Âm tiết mở: Là loại âm tiết ©m ci, kÕt thóc ©m tiÕt b»ng nguyªn ©m chÝnh, ví dụ cha, mẹ ã Âm tiết nửa mở: Khi âm cuối kết thúc âm tiết bán nguyên âm, ví dụ mai, sau ã Âm tiết nửa đóng: Khi âm cuối phụ âm mũi /n/, /m/, /ng/, /nh/, ví dụ làm, ngành, mông ã Âm tiết đóng: Khi âm cuối phụ âm tắc vô /p/, /t/, /c/, vÝ dơ: tËp, häc, mƯt Đơn vị nhận dạng cho hệ thống nhận dạng lời Việt 2.1 Mô hình từ âm tiết Việc lựa chọn từ làm đơn vị nhận dạng phơng pháp thông thờng dễ dàng nhất, bao trùm đợc tính biến thể âm vị Đối với số ứng dụng nhận dạng tiếng nói cần số từ không lớn nh hệ thống điều khiển học, đếm số áp dụng tốt mô hình từ để nhận dạng dễ dàng thu thập đủ số mẫu huấn luyện cho từ Xem hình dới Học viện Công nghệ BCVT Hội nghị Khoa học lần thứ Trong tất ngôn ngữ, từ đơn vị tự nhiên nhỏ tiếng nói từ mục tiêu hệ thống nhận dạng tiếng nói Tiếng Việt ngôn ngữ đơn âm tiết Trong tiếng Việt, âm tiết đơn vị ©m nhá nhÊt vµ nh vËy ©m tiÕt lµ mục tiêu hệ thống nhận dạng lời Việt Do đợc lựa chọn làm đơn vị nhận dạng tiếng nói cho ứng dụng nhận dạng lời Việt Tuy nhiên, tiếng Việt, số lợng âm tiết lớn 10.000 âm tiết nên rÊt khã cã thĨ ¸p dơng cho c¸c hƯ thèng nhËn d¹ng tiÕng viƯt cì lín viƯc thu thËp mẫu tiếng nói cần thiết cho âm tiết gặp nhiều khó khăn só lợng mẫu lớn thời gian xử lý so sánh, lựa chọn mẫu sở liệu lâu Ngoài , mÉu hn lun cđa mét ©m tiÕt chØ cã thĨ sử dụng để huấn luyện so sánh lựa chọn cho âm tiết sử dụng chung để huấn luyện lựa chọn cho âm tiết khác Xong bù lại, phơng pháp có nhiều đơn giản không cần phải sử dụng số phơng pháp để phân đoạn gán nhÃn Đồng hồ báo thức Điều khiển học (có/không) Đếm, số Điều khiển, vận hành máy móc Hội thoại cung cấp thông tin Nói chuyện hàng ngày Máy viết t¶ 10 + x 20-200 500-2000 8.000 - 20.000 20.000 - 50.000 Hình 1.1 Số từ ứng dụng cụ thể Tiếng Việt thông thường 300.000 Hình Vốn từ trung bình theo ứng dụng 2.2 Mô hình âm vị Nhằm giảm bớt số lợng mẫu huấn luyện, nhận dạng để sử dụng chung mẫu này, mô hình âm vị thờng đợc sử dụng làm đơn vị nhận dạng cho hệ thống nhận dạng tiếng nói Trong tiếng Việt có 38 âm vị có 22 phụ âm 16 nguyên âm đơn đôi [1], kết hợp với điệu (huyền, hỏi, ngÃ, sắc, nặng, không dấu) tổng cộng có 228 âm vị có điệu Với số lợng âm vị hạn chế nh vậy, hoàn toàn xây dựng mô hình nhận dạng tiếng Việt với từ điển cỡ lớn không hạn chế với khoảng 1.500 - 2000 câu huấn luyện Một đặc điểm từ tiếng Việt có số lợng âm vị ít, nhiều tới âm vị (ví dụ khuếch trơng) Tuy nhiên, mô hình âm vị có số nhợc điểm chính: - Các âm vị nh vị trí khác không hẳn đà có đặc tính âm học, ngữ âm học nh Một số âm vị vừa đóng vai trò âm chính, vừa đóng vai trò âm phụ - Âm vị đơn vị âm nhỏ từ, việc xác định gianh giới âm vị khó, việc phân đoạn gán nhÃn xác mức âm vị khó khăn nhng lại quan trọng ảnh hởng nhiều đến chất lợng hệ thống 2.3 Âm đầu +Vần Học viện Công nghƯ BCVT LÜnh vùc C«ng nghƯ th«ng tin TiÕng ViƯt ngôn ngữ đơn âm tiết Âm tiết đợc phát âm liền nhng lại có cấu tạo lắp ghép hầu nh theo quy luật định Điều dễ thấy em bé học đánh vần năm đầu học Mỗi từ tiếng Việt có phận điệu, âm đầu vần Âm đầu có âm vị tham gia cấu tạo, vần đợc cấu tạo bới âm đệm, âm âm cuối Theo [4] tiếng Việt có 22 âm đầu 155 vần Kết hợp với điệu tổng số âm đầu+vần có điệu nhỏ (22+155)*6=1062 có nhiều âm đầu, vần điệu không kết hợp đợc với Mô hình âm đầu+vần cho phép giảm bớt nhiều khó khăn cho việc phân đoạn, gán nhÃn trình lập sở liệu giảm bớt yêu cầu tính toán máy phải phân đoạn từ thu nhận từ Micro Vấn đề nhận dạng mẫu Trong phơng pháp nhận dạng mẫu, ngời ta thờng hay sử dụng nhận dạng mẫu cho từ đơn lẻ Hệ thống đơn giản qua công đoạn phân đoạn gán nhÃn Nh đà trình bày, phơng pháp thờng áp dụng cho hệ thèng nhËn d¹ng víi th viƯn tõ h¹n chÕ Ta áp dụng nhận dạng mẫu cho mô hình nhận dạng theo âm vị, âm đầu+vần Với phơng pháp này, từ đợc phân đoạn, gán nhÃn tính toán đặc tính Âm thu đợc đợc phân đoạn so sánh với th viện mẫu định lựa chọn mẫu có đặc tính giống đoạn âm thu đợc (hình 4) Do âm đợc tạo thời điểm khác có sai khác yếu tố trọng âm, ngữ điệu, tốc độ Do âm thu đợc cần đợc so sánh với âm mẫu với thuật toán biến dạng DTW nhằm giảm thiểu sai số MNIMUM X Tín hiệu âm vào Tính toán độ sai số D(X,Yl) Phân đoạn Gán nhÃn Đặc tính Wl* Mẫu so sánh Y1, ., Yl Hình 4: Nhận dạng theo phơng pháp so sánh mẫu Thuật toán Dynamic Time Wraping (DTW) Cho chuỗi âm tiết đầu vào w = { w1 , w2 , wL } cã ®é dài L có chuỗi vector đặc tính X = { x1 , x , xT } , nhiÖm vụ hệ thống phải nhận dạng xem chuỗi âm đầu vào ký tự trình xử lý cần phải giảm thiểu tối đa sai số định Mỗi tín hiệu âm tiết đầu vào Wl đợc so sánh với mẫu Y l Mỗi Yl chuỗi vector đặc tính tín hiệu âm tiết Wl Nhằm tăng khả nhận dạng, âm tiết có tập hợp c¸c mÉu kh¸c nhau: Yl ,1 , , Yl , M l Quá trình định âm tiết phù hợp với mẫu dựa theo nguyên tắc sau: l * = arg min D( X , Yl ,m ) l m Nh âm tiết Wl* âm tiết phù hợp với mẫu Yl tìm đợc Học viện Công nghệ BCVT Hội nghị Khoa học lần thứ Khoảng cách D(X,Y) liệu đầu vào liệu mẫu Y=y 1.ys có độ dài thời gian khác S T đợc xác định tổng khoảng cách cục d ij = d ( xi , y j ) đờng trình biến dạng thời gian Khoảng cách tích luỹ Dij = D( x1 xi , y1 y j ) đợc xác định theo công thức I=J=0 I>0, J>0 min{ Di −1, j −1 , Di −1, j , Di , j −1 } + d ij Khác Và khoảng cách tổng D(X,Y)=DTS Giả sử cho hai chuỗi vec tơ tơng ứng với mẫu tÝn hiƯu lµ a = { a1 , a , a3 , a I } vµ → → → b = { b1 , b2 , b3 , bJ } Cho r»ng tÝn hiƯu mÉu a cã chiỊu dài lớn mẫu b tức giá trị (I > J) Thuật toán thực việc tìm đờng tối u chuỗi b theo chuỗi a (tức vị trí khác hai chuỗi theo thời gian) cho tổng chênh lệch hai chuỗi vec tơ nhỏ Để thực đợc điều thuật toán dùng ma trận lới điểm hình H×nh 1: Líi ma trËn H×nh 5: Ma trËn lới điểm Hai chuỗi véc tơ tơng ứng với hai cạnh ma trận Giả sử , véc tơ a theo trục x véc tơ b theo trục y Các nút ma trận tơng ứng với khoảng cách tính đợc hai chuỗi véc tơ thời điểm thứ i véc tơ a tơng ứng thời điểm thứ j véc tơ b tơng øng nót (i,j) Nh vËy, ®êng ®i tèi u ma trận có dạng nh hình Hình 6: Hình dạng đường ma trận Học viện Công nghệ BCVT Lĩnh vực Công nghệ thông tin Việc xác định đờng tối u ma trận lới đợc thực tổng khoảng cách sai lệch cặp véc tơ hai chuỗi nhỏ Ký hiệu, d(i,j) độ chênh lệch hai véc tơ a b thời điểm i j tơng ứng Yêu cầu thuật toán DTW cho hai chuỗi vec tơ bắt đầu vị trí (0,0) kết thúc vị trí (I,J) Giá trị nút (0,0) xác định Đờng đợc xác định theo cặp nút liên tiếp (ik-1,jk-1) → (ik,jk) Dïng ký hiƯu ik ®Ĩ biĨu diễn số véc tơ a thời điểm k jk số véc tơ b thời điểm k Nh tổng khoảng cách hai chuỗi véc tơ : D(i k , j k ) = D(ik −1 , j k −1 ) + d (i k , j k ) ViƯc t×m giá trị D(i,j) theo công thức sau: D * (i k , j k ) = min[ D(i k −1 , j k −1 )] + d (i k , j k ) m=k  =  ∑ d (im , j m )  m =0  Mét sè b¾t bc cđa DTW: - ChØ sè cđa i phải tăng tức : ik - ik-1 =1 - Chỉ số j tăng theo i với ®iỊu kiƯn: jk -jk-1 ≥ Giíi h¹n cđa ®êng tuỳ ý đợc nh gây kết sai lệch làm tăng khối lợng tính toán (nếu xét toàn ma trận điểm) Vì vậy, cần phải giới hạn phạm vi đờng cho việc tính toán giảm độ xác cao Phạm vi cho đờng đợc chọn nh hình vẽ 7: Hình 3: Đờng ma trận theo thuật toán DTW Hình 7: Phạm vi cho đờng Luật đờng đợc lựa chọn theo nh hình : Hình 8: Luật đờng Học viện Công nghệ BCVT Hội nghị Khoa học lần thứ Giả sử vị trí thời ®iĨm ik-1 vµ ®iĨm ®i tiÕp lµ ik Nh vËy giá trị jk jk, jk+1, jk+2 tơng ứng với mũi tên ma trận Kết quả: Kết đợc so sánh với phơng pháp biến dạng khác biến dạng tuyến tính theo thời gian hay gọi đồng theo thời gian với thuật toán biến dạng nh sau: Chỉ số theo thời gian tín hiệu b liên quan đến số theo thêi gian cđa tÝn hiƯu a lµ : J j = i kết cho nh hình I Trên hình vẽ thể đờng đặc trng âm số (hai) có độ dài khác (a) (b) Với phơng pháp biến dạng tuyến tính giá trị thời gian số mẫu b đợc gi·n ®Ịu theo chØ sè thêi gian cđa mÉu tÝn hiệu a Nh vậy, hai khoảng thời gian đợc kéo dÃn song giá trị độ sai lệch lớn tỷ lệ biến dạng mà chọn lựa theo giá trị hình (c) Thể việc kéo giÃn điểm có đờng nối ngang hai tín hiệu Còn sử dụng thuật toán DTW ta thấy tỷ lệ biến dạng không đồng thời điểm tuỳ thuộc vào giá trị tích luỹ từ trớc nên hai mẫu so sánh có độ chênh lệch nhỏ hình (d), (a) (b) (c) (d) đờng nối chéo thể biến dạng không tuyến tính theo thời gian Hình Biểu diễn thuật toán biến dạng âm hai (a)(b) Hai tín hiệu có chiều dài khác (c) BiÕn d¹ng tuyÕn tÝnh theo thêi gian (d) BiÕn d¹ng DTW KÕt ln Häc viƯn C«ng nghƯ BCVT LÜnh vực Công nghệ thông tin Trên ứng dụng thuật toán DTW cho hệ thống nhận dạng tiếng nói đợc nghiên cứu triển khai ứng dụng luật đờng cách xác định đờng giới hạn cho thuật toán DTW đà góp phần nâng cao chất lợng nhận dạng Tuy nhiên, luật đờng giới hạn đờng có nhiều dạng khác cần nghiên cứu thêm, song với ứng dụng nhận dạng mẫu rời rạc luật đờng xác định theo phơng pháp có chất lợng Tài liệu tham khảo [1] Đoàn Thiện Thuật - Ngữ âm tiếng Việt, Nhà xuất Đại học Trung học chuyên nghiệp, Hà nội 1977 [2] H.Sakoe and S.Chiba - Dynamic programming optimization for spoken word recognition 1978 [3] Hoang Tue and Hoang Minh, “Remarks on the phonological Structure of vietnamese”, Vietnamese Studies, Ha noi, 1979 [4] Lawrence Rabiner, Biing – Hwang Juang; Fundamentals of speech recognition 1999 [5] R M Gray, A Buzo, A.H.Gray, Jr., and Y Matsuyama - Distortion measures for speech processing 1980 S¬ lợc tác giả Đoàn Phan Long, Tốt nghiệp Đại học trờng đại học tổng hợp Karl-Marx-Stadt CHLB Đức Thành phố Chemnitz khoa tự động hoá, chuyên ngành điều khiển học năm 1985, công tác Trung tâm Công nghệ Thông tin CDIT, Học viện Công nghƯ Bu chÝnh ViƠn th«ng – Tỉng C«ng ty BCVT Việt nam Những vấn đề quan tâm bao trùm lĩnh vực tự động nhận dạng tiếng nói, hình ảnh tổng hợp tiếng nói áp dụng hệ thống cung cấp dịch vụ ngành Bu chÝnh-ViƠn th«ng Häc viƯn C«ng nghƯ BCVT ... bình theo ứng dụng 2.2 Mô hình âm vị Nhằm giảm bớt số lợng mẫu huấn luyện, nhận dạng để sử dụng chung mẫu này, mô hình âm vị thờng đợc sử dụng làm đơn vị nhận dạng cho hệ thống nhận dạng tiếng nói... cho từ đơn lẻ Hệ thống đơn giản qua công đoạn phân đoạn gán nhÃn Nh đà trình bày, phơng pháp thờng áp dụng cho hệ thống nhận dạng với th viện từ hạn chế Ta áp dụng nhận dạng mẫu cho mô hình nhận. .. nã cã thể đợc lựa chọn làm đơn vị nhận dạng tiếng nói cho ứng dụng nhận dạng lời Việt Tuy nhiên, tiếng Việt, số lợng âm tiết lớn 10.000 âm tiết nên khó ¸p dơng cho c¸c hƯ thèng nhËn d¹ng tiÕng

Ngày đăng: 16/01/2014, 17:20

Từ khóa liên quan

Mục lục

  • 1 Kh¸i qu¸t vÒ tiÕng ViÖt

Tài liệu cùng người dùng

Tài liệu liên quan