Xây dựng chương trình nhận dạng tiếng nói tiếng việt bộ từ vựng hạn chế ứng dụng điều khiển robot

Lời nói đầu Tiếng nói phương tiện giao tiếp loài người, hình thành phát triển song song với trình tiến hóa loài người Đối với người, sử dụng lời nói cách diễn đạt đơn giản hiệu Ưu điểm việc giao tiếp tiếng nói trước tiên tốc độ giao tiếp, tiếng nói từ người nói người nghe hiểu sau phát Ngày nay, nhờ phát triển khoa học kỹ thuật, máy móc thay lao động tay chân Tuy nhiên để điều khiển máy móc, người phải làm nhiều thao tác tốn nhiều thời gian cần phải đào tạo Điều gây trở ngại không việc sử dụng máy móc, thành tựu khoa học kỹ thuật Trong đó, điều khiển máy móc thiết bị tiếng nói dễ dàng Nhu cầu điều khiển máy móc thiết bị tiếng nói thiết thiết bị cầm tay, như: điện thoại di động, máy Palm/Pocket PC,… Để máy tính nghe tiếng nói, âm người xây dựng lĩnh vực nhận dạng tiếng nói Hơn nửa kỷ trôi qua người thu thành tựu đáng kể, có ứng dụng hữu ích thiết thực vào sống Nhưng dù khả nghe hiểu máy tính nhiều hạn chế khoảng cách khác xa so với thực tế Mặt khác, nhận dạng tiếng nói phát triển thứ tiếng khác, nước ta nhận dạng tiếng nói lĩnh vực mẻ Vì vậy, trình làm đồ án em xây dựng đề tài:” Xây dựng chương trình nhận dạng tiếng nói tiếng Việt từ vựng hạn chế Ứng dụng điều khiển Robot ” với mong muốn tìm hiểu sâu lĩnh vực nhận dạng tiếng nói tiếng Việt Cách thức nhận dạng tiếng nói sử dụng thuật toán Dynamic Time Warping (DTW) Tìm hiểu ứng dụng thành tựu người trước thu góp phàn thúc đẩy trình phát triển lĩnh vực nhận dạng âm thanh… Hoàn thành luận văn tốt nghiệp có đóng góp lớn thầy giáo Phùng Trung Nghĩa, Bộ môn Điện tử viễn thông – Khoa Công Nghệ Thông Tin – Đại học Thái Nguyên Thầy tận tình hướng dẫn tạo điều kiện cho em trình thực nghiên cứu nhận dạng tiếng nói, em xin chân thành cảm ơn thầy Em xin gửi lời cám ơn thầy, cô giáo khoa Công nghệ thông tin Đại học Thái Nguyên, giảng dạy giúp đỡ em suốt năm năm học vừa qua Và em xin chân thành cám ơn động viên chăm sóc gia đình cộng tác giúp đỡ ủng hộ tinh thần bạn bè Thái Nguyên, tháng 06 năm 2008 Mục lục hình ảnh Hình 1.1 Sơ đồ nhận dạng tổng quát Hình 1.2 Mô tả giai đoạn huấn luyện Hình 1.3 Các lĩnh vực xử lý tiếng nói 10 Hình 1.4 Danh giới “cô” “ấy” không rõ ràng .11 Hình 1.5 Người nói khác phát âm khác 13 Hình 1.6 Mô hình nhận dạng bán độc lập người nói 13 Hình 1.7 Các thành phần hệ thống ASR 14 Hình 1.8 Tổng quan trình rút trích vector đặc trưng .16 Hình 1.9 Các dạng cửa sổ thường dùng 16 Hình 1.10 Các kỹ thuật nhận dạng tiếng nói xu hướng phát triển 17 Hinh 1.11 HMM với trạng thái trọng số chuyển trạng thái 20 Hình 2.1 Ví dụ lấy mẫu tín hiệu f(t) miền thời gian .21 Hình 2.2 Minh họa hoạt động lọc FIR 22 Hình 2.2 Minh họa hoạt động lọc IIR 23 Hình 2.4 Dò tìm điểm cuối dựa vào mức lượng 24 Hình 2.5 Sơ đồ rút trích vector đặc trưng tổng quát 25 Hình 2.6 Sơ đồ rút trích đặc trưng chi tiết .25 Hình 2.7 Phân tích wavelet 26 Hình 2.8 Phân đoạn tiếng nói thành khung chồng lấp 27 Hình 2.10 Sự khác biệt dạng cửa sổ tín hiệu .30 Hình 2.11 Biến đồi Fourier 32 Hình 2.12 Biến đổi Fourier thời gian ngắn .33 Hình 2.14 Các bước trích đặc trưng MFCC .37 Hình 2.15 Bộ lọc thang Mel 38 Hình 2.16 Bộ lọc tần số thật .38 Hình 2.17 Minh họa bước biến đổi MFCC 38 Hình 2.18 Sơ đồ xử lý LPC dùng cho trích đặc trưng tiếng nói 40 Hình 2.19 Hình dạng tín hiệu tiếng nói 46 Hình 2.20 Kết trích F0 47 Hình 2.21 Kết sau lọc Median .47 Hình 3.1 Nguyên lý Bellman đo khoảng cách vector 51 Hình 3.2 Nguyên tắc tính tổng quát 51 Hình 3.3a Đo khoảng cách vector X M .52 Hình 3.3b Kết Đo khoảng cách vector X M 52 Hình 3.4 Giao diện chức lựa chọn .55 Hình 3.5 Thêm file vào sở liệu .56 Hình 3.6 Nhận dạng từ file 57 Hình 3.7 Nhận dạng từ Microphone 58 Mục lục Lời nói đầu .1 Mục lục hình ảnh .3 Mục lục .5 Mục lục .5 Chương Tổng quan nhận dạng tiếng nói 1.1 Nhận dạng 1.2 Nhận dạng tiếng nói 1.2.1 Xử lý âm 10 1.2.2 Phân loại nhận dạng tiếng nói 11 1.2.2.1 Nhận dạng từ liên tục nhận dạng từ cách biệt 11 1.2.2.2 Nhận dạng phụ thuộc người nói độc lập người nói 12 1.2.3 Hệ thống nhận dạng tiếng nói tự động 13 1.2.4 Lý thuyết nhận dạng tiếng nói 14 1.2.4.1 Rút trích vector đặc trưng 15 1.2.4.2 Phân lớp 16 Chương Xử lý tiếng nói rút trích vector đặc trưng 21 2.1 Xử lý tiếng nói 21 2.1.1 Lấy mẫu tín hiệu 21 2.1.2 Bộ lọc tín hiệu 22 2.2 Rút trích đặc trưng 25 2.2.1 Các bước rút trích đặc trưng .25 2.2.1.1 Làm rõ tín hiệu 26 2.2.1.2 Phân đoạn thành khung 26 2.2.1.3 Lấy cửa sổ 27 2.2.2 Các dạng đặc trưng tiếng nói 31 2.2.2.1 Biến đổi tín hiệu sang miền tần số 32 2.2.2.2 Đặc trưng lượng .35 2.2.2.3 Đặc trưng MFCC(Mel Frequency Cepstral Coefficients) 35 2.2.2.4 Đặc trưng LPC(Linear predictive coding) 39 2.2.2.5 Đặc trưng tần số 42 Chương Xây dựng chương trình nhận dạng tiếng nói tiếng Việt từ vựng hạn chế .48 3.1 Thuật toán DTW (Dynamic Time Warpping) 48 3.1.1 Định nghĩa .48 3.1.2 Các đặc trưng nhận dạng tiếng nói 48 3.2 Nhận dạng âm sử dụng DTW 50 3.3 Thuật toán DTW chương trình nhận dạng tiếng nói .53 3.3.1 Thủ tục 53 3.3.2 Chương trình nhận dạng tiếng nói tiếng Việt .55 3.3.2.1 Nhận dạng tĩnh (Nhận dạng từ file) .56 3.2.2.2 Nhận dạng động (Nhận dạng từ Microphone) 57 Kết luận 59 Tài liệu tham khảo 60 Nhận xét giáo viên 61 Chương Tổng quan nhận dạng tiếng nói 1.1 Nhận dạng Nhận dạng người trình mô lại nhận biết vật tượng xung quanh não người Một hệ nhận dạng máy tính mô lại trình đó, xây dựng với thành phần sau:  Module thu nhận tín hiệu trích đặc trưng: Thu nhận tín hiệu cần nhận dạng, tiền xử lý rút đặc trưng bất biến đối tượng  Module học mẫu: Cho máy biết đối tượng nhận dạng đặc trưng tương ứng  Module tra cứu – so khớp: Tìm mối liên hệ đối tượng vừa nhận vào với đối tượng lưu trước phương pháp tra cứu – so khớp đưa kết Sơ đồ tổng quát thường sau: Hình 1.1 Sơ đồ nhận dạng tổng quát Quá trình xây dựng hệ nhận dạng trải qua hai giai đoạn: Giai đoạn huấn luyện:  Thu thập mẫu  Tách đặc trưng mẫu phân loại thành lớp khác (tuỳ thuộc mô hình nhận dạng)  Huấn luyện cấu nhận dạng ghi nhớ đặc trưng lớp Hình 1.2 Mô tả giai đoạn huấn luyện Giai đoạn nhận dạng:  Nhận vào đối tượng cần nhận dạng  Đặc trưng đối tượng dùng cấu nhận dạng xác định lớp chứa đối tượng  Xác định, đưa sử dụng kết 1.2 Nhận dạng tiếng nói Nhận dạng tiếng nói bao gồm nhận dạng âm tiết rời rạc, liên tục, nhận dạng người nói, ngôn ngữ nói cao cấp nhận dạng trạng thái tâm lý người nói Có nhiều ứng dụng nhận dạng tiếng nói đời sống xã hội xác nhận thông tin (liên quan đến security), dịch tự động, hệ thống phone banking, voice mail,… Tuy nhiên mà người cố gắng nghiên cứu máy tính giao tiếp với người thông qua tiếng nói Nhận dạng tiếng nói lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing), tức nhận dạng tiếng nói phụ thuộc vào ngôn ngữ nói Do ngôn ngữ nhận dạng tiếng Việt khác so với tiếng Anh thứ tiếng khác Một ví dụ đơn giản để hình dung, sử dụng engine nhận dạng tiếng Anh có sẵn (bao gồm software speech engine Microsoft Office hay hardware số vi mạch xử lý tiếng nói bán thị trường) hiệu tiếng Việt thấp Một số phân biệt chuẩn, chuẫn, chuân,…(vì tiếng Việt có điệu - tonal language, tiếng Anh không), nhận dạng tiếng Việt người Việt làm Nhận dạng tổng hợp tiếng nói dựa mức xử lý thấp (signal processing) mà phải kết hợp xử lý thông tin mức cao cao tri thức Nhận dạng tiếng nói trình nhận dạng mẫu, với mục đích phân lớp (classify) thông tin đầu vào tín hiệu tiếng nói thành dãy mẫu học trước lưu trữ nhớ Các mẫu đơn vị nhận dạng, chúng từ, âm vị Nếu mẫu bất biến không thay đổi công việc nhận dạng tiếng nói trở nên đơn giản cách so sánh liệu tiếng nói cần nhận dạng với mẫu học lưu trữ nhớ Khó khăn nhận dạng tiếng nói tiếng nói biến thiên theo thời gian có khác biệt lớn tiếng nói người nói khác nhau, tốc độ nói, ngữ cảnh môi trường âm học khác Xác định thông tin biến thiên tiếng nói có ích thông tin ích nhận dạng tiếng nói quan trọng Đây nhiệm vụ khó khăn mà với kỹ thuật xác suất thống kê mạnh khó khăn việc tổng quát hoá từ mẫu tiếng nói biến thiên quan trọng cần thiết nhận dạng tiếng nói Các nghiên cứu nhận dạng tiếng nói dựa ba nguyên tắc bản:  Tín hiệu tiếng nói biểu diễn xác giá trị phổ khung thời gian ngắn (short-term amplitude spectrum) Nhờ ta trích đặc điểm tiếng nói từ khoảng thời gian ngắn dùng đặc điểm làm liệu để nhận dạng tiếng nói  Nội dung tiếng nói biểu diễn dạng chữ viết, dãy ký hiệu ngữ âm Do ý nghĩa phát âm bảo toàn phiên âm phát âm thành dãy ký hiệu ngữ âm  Nhận dạng tiếng nói trình nhận thức Thông tin ngữ nghĩa (semantics) suy đoán (pragmatics) có giá trị trình nhận dạng tiếng nói, thông tin âm học không rõ ràng 1.2.1 Xử lý âm Khi âm máy vi tính hỗ trợ nhu cầu xử lý âm xuất Các nhu cầu tạo nhiều lĩnh vực ứng dụng thực tế Chẳng hạn như: Tổng hợp âm (Synthesis), nén âm (Compression), nhận dạng người nói (speaker recognition), dạng tiếng nói (speech recognition)… Các lĩnh vực ứng dụng khác xử lý tiếng nói thể qua hình 1.3 Hình 1.3 Các lĩnh vực xử lý tiếng nói Xử lý âm đóng vai trò quan trọng trình nhận dạng tiếng nói, cần việc lọc nhiễu tín hiệu, biến đổi tín hiệu, rút trích vector đặc trưng,… 10 khoảng thời gian X1X2 X2X3 tương đương nằm khoảng ngưỡng thời gian xác định chu kỳ  Lần lượt so sánh biên độ điểm tương ứng hai khoảng X1X2 X2X3 Gọi tổng bình phương độ sai lệch biên độ S Công thức 2.20  Nếu S nhỏ ngưỡng độ lệch (tức hai khoảng X1X2 X2X3 giống nhau) kết luận khoảng chu kỳ Nếu không, thay đổi khoảng thời gian, nghĩa dò tìm điểm cắt zero khác Làm trơn kết F0 lọc median Bộ lọc Median dùng rộng rãi việc khử nhiễu Nội dung kỹ thuật thể sau:  Để có tín hiệu ra, cửa sổ tín hiệu vào liền chọn  Sắp xếp liệu cửa sổ tín hiệu kể  Giá trị trung tâm dãy xếp chọn làm median tập hợp mẫu cửa sổ Có nghĩa lọc median tính lại giá trị điểm cách lấy điểm có giá trị trung bình điểm xung quanh Hình 2.20 Kết trích F0 Hình 2.21 Kết sau lọc Median 47 Chương Xây dựng chương trình nhận dạng tiếng nói tiếng Việt từ vựng hạn chế 3.1 Thuật toán DTW (Dynamic Time Warpping) 3.1.1 Định nghĩa Dynamic time warping (DTW) thuật toán cho phép tìm kiếm tố liên kết hai chuỗi thời gian Nó thường sử dụng để xác định chuỗi thời gian tương tự, phân loại tìm kiếm khoảng tương ứng hai chuỗi thời gian DTW có thời gian bậc hai phức tạp không gian mà giới hạn sử dụng để tập hợp chuỗi thời gian nhỏ Ngoài ra, sử dụng FastDTW tương tự DTW có thời gian tuyến tính có phức tạp không gian FastDTW sử dụng cách tiếp cận đệ quy nhiều mức 3.1.2 Các đặc trưng nhận dạng tiếng nói Trong kỹ thuật nhận dạng tiếng nói sử dụng thuật toán DTW, liệu kiểm tra chuyển đổi tới khuôn mẫu Quá trình nhận dạng tiếng nói việc so sánh liệu liệu đầu vào với liệu huấn luyện sẵn lưu trữ mẫu Khi đó, ta tìm khoảng cách nhỏ mẫu với giá trị đầu vào đưa kết Khoảng cách nhỏ đo dựa quy hoạch động hay gọi đoán nhận âm nhờ so sánh kiểu quy hoạch động DTW DTW thuật toán đo giống hai chuỗi thay đổi thời gian hay tốc độ Ví dụ như, có giống kiểu dáng nhận dạng Cho dù, đoạn hình ảnh có người thật chậm chạp có anh hay cô thật nhanh thời gian có tăng, giảm tốc độ trình quan sát xử lý DTW áp dụng rộng rãi vào lĩnh vực âm thanh, hình ảnh đồ họa Thực vậy, liệu mà biểu diễn dạng tuyến tính phân tích DTW Một ứng dụng tiếng DTW nhận dạng tiếng nói tự động 48 (automatic speech recognition) để phân biệt với tốc độ nói khác Nói chung DTW thuật toán cho phép máy tính tìm kiếm tối ưu thỏa mãn hai chuỗi cho (chẳng hạn chuỗi thời gian) với xác hạn chế định Những chuỗi biến dạng (warped) không tuyến tính kích thước thời gian xác định độc lập với biến đổi không chắn kích thước thời gian Phương pháp liên kết tần số thường sử dụng mô hình Markov ẩn (Hiden Markov models) Sự hạn chế DTW phải chịu chấp nhận chuỗi monotonicity ánh xạ kích thước thời gian Tính liên tục quan trọng DTW so với giải thuật khác DTW thuật toán đặc biệt thích hợp cho chuỗi bị mát thông tin, cung cấp đoạn đủ dài cho thích ứng để xuất Một khó khăn nhận dạng tiếng nói điều khác ghi lại giống từ chứa đựng nhiều âm có mệnh lệnh, tính toán thời gian xác hơn- khoảng thời gian từ bên từ- không phù hợp Ví dụ dạng thuật toán DTW: int DTWDistance(char s[1 n], char t[1 m], int d[1 n,1 m]) { declare int DTW[0 n,0 m] declare int i, j, cost for i := to m DTW[0,i] := infinity for i := to n DTW[i,0] := infinity DTW[0,0] := for i := to n for j := to m cost:= d[s[i],t[j]] 49 DTW[i,j] := cost + minimum(DTW[i-1,j ], // insertion DTW[i ,j-1], // deletion DTW[i-1,j-1]) // match return DTW[n,m] } 3.2 Nhận dạng âm sử dụng DTW Nhận dạng tiếng nói tự động (Automatic Speech Recognition - ASR) lĩnh vực nghiên cứu quan trọng có ứng dụng nhiều lĩnh vực khác Có cách tiếp cận nghiên cứu kỹ nhận dạng tiếng nói lưu trữ nhiều mẫu âm mẫu từ vựng cần nhận dạng Quá trình nhận dạng tiếng nói gồm có tìm phù hợp tiếng nói đầu vào với mẫu từ lưu trữ Khi ta tìm khoảng cách nhỏ từ cần nhận dạng với từ có mẫu Thuật toán tốt tìm kiếm khoảng cách nhỏ mẫu đầu vào cần đoán nhận với từ có tập mẫu dựa thuật toán quy hoạch động (dynamic programming) đoán nhận âm sử dụng DTW DTW sử dụng thiết bị nhận dạng tiếng nói nhận dạng chữ viết, hay xác minh giọng nói dựa vào kỹ thuật nhận dạng tiếng nói DTW có khả xử lý nhóm khác hệ số, qua sử dụng để đo khoảng cách Euclidean DTW xử lý hệ số 8, 16 24 cung cấp phép đo khoảng cách dựa vào hệ số cho phép lưu trữ tập mẫu dùng việc so sánh giọng nói xác định với hệ số mẫu liệu lưu trữ Một khoảng cách đo chuỗi thời gian cần để xác định giống chuỗi phân loại chúng Thuật toán DTW sử dụng để khác phục lặp lại đưa phép đo khoảng cách trực quan chuỗi thời gian cách bỏ qua chuyển dịch global hay local vào kích thước thời gian Để đo khoảng cách cho chuỗi vector thuật toán DTW sử dụng nguyên lý Bellman: Nếu điểm P(i,j) phần đường tối ưu, 50 đường tối ưu từ điểm bắt đầu (0,0) đến điểm P phần đường tối ưu Khi đó, tổng chi phí tính: L{P0, P1, Pn-1, Pn } = L{P0, P1, Pn-1} + L{Pn-1, Pn} Hình 3.1 Nguyên lý Bellman đo khoảng cách vector Nếu {P0…Pn} đường tối ưu đến Pn đường phận {P0…Pn-1} dẫn tới Pn-1 đường tối ưu từ P0 đến Pn-1 Lặp lặp lại ta tìm đường tối ưu Hình 3.2 Nguyên tắc tính tổng quát 51 DP tìm kiếm tối ưu việc làm chênh lệch thời gian, chức cần để so sánh hai chuỗi vector X M Đồng thời, khoảng cách D(X,M) chuỗi vector khoảng cách tính toán Ví dụ áp dụng đo khoảng cách chuỗi vector X M hình 3.3a 3.3b: Hình 3.3a Đo khoảng cách vector X M Hình 3.3b Kết Đo khoảng cách vector X M 52 3.3 Thuật toán DTW chương trình nhận dạng tiếng nói Tiếng nói trình phụ thuộc thời gian, lời nói từ có khoảng thời gian khác lời nói từ với khoảng thời gian khác khoảng Vì nhịp độ nói từ khác Để thu khoảng cách hai mẫu tiếng nói để nhận dạng (đại diện cho chuỗi vector) mẫu phải thành hàng để thực Giải thuật biết quy hoạch động (DP – Dynamic Progamming) Khi áp dụng để nhận dạng tiếng nói khung mẫu, nhắc đến thuật toán DTW DP bảo đảm tìm khoảng cách ngắn ma trận, tối giản hóa khối lượng tính toán Giải thuật DP vận hành thời gian đồng bộ, cột time-time xem xét giống việc xử lý đầu vào frame - by- frame Bởi vậy, cho khung mẫu có độ dài N, số lượng đường dẫn xem xét thời gian cực đại N 3.3.1 Thủ tục Hàm DTW: Sử dụng quy động để tìm giá trị khoảng cách nhỏ ma trận LocalDistance lặp lại chuỗi trạng thái Path_y Path_x Ma trận LocalDistance sử dụng tính khoảng cách đặc trưng ma trận sử dụng tích vô hướng vector function [Path_y,Path_x,Distance] = DTW(LocalDistance) [Row,Col] = size(LocalDistance); % costs Distance = zeros(Row+1, Col+1); Distance(Row+1,:) = NaN; Distance(:,1) = NaN; Distance(Row+1,1) = 0; Distance(1:(Row), 2:(Col+1)) = LocalDistance; AllPath = zeros(Row,Col); for i = Row+1:-1:2; 53 for j = 1:Col; [SelPath, tb] = min([Distance(i, j), Distance(i, j+1), Distance(i-1, j)]); Distance(i-1,j+1) = Distance(i-1,j+1)+SelPath; AllPath(i-1,j) = tb; end end % Traceback from top left for finding Path i = 1; j = Col; Path_y = i; Path_x = j; while i < Row & j > tb = AllPath(i,j); if (tb == 1) i = i+1; j = j-1; elseif (tb == 2) i = i+1; elseif (tb == 3) j = j-1; else error; end Path_y = [i,Path_y]; Path_x = [j,Path_x]; end Distance = Distance(1:(Row),2:(Col+1)); 54 3.3.2 Chương trình nhận dạng tiếng nói tiếng Việt Chương trình nhận dạng tiếng Việt với từ vựng hạn chế sử dụng hai cách đọc vào từ Microphone từ file Âm đầu vào lưu trữ để nhận dạng dạng sở liệu, mẫu lưu trữ sở liệu đánh dấu ID Khi mẫu cần nhận dạng chương trình so sánh mẫu với mẫu lưu trữ sở liệu Chức chương trình:  Thêm âm vào sở liệu từ file từ Microphone  Nhận dạng tiếng nói từ Microphone từ file  Nạp âm từ file Microphone để nghe  Xem thông tin sở liệu  Xóa bỏ cở sở liệu Hình 3.4 Giao diện chức lựa chọn Ví dụ hình đưa thành công file 9.wav vào sở liệu, ID file lưu chữ 55 Hình 3.5 Thêm file vào sở liệu Xem thông tin sở liệu: Sẽ cho thấy đầy đủ thông tin số lượng mẫu lưu sở liệu, mẫu có thông tin tên file, vị trí, ID,… 3.3.2.1 Nhận dạng tĩnh (Nhận dạng từ file) Số mẫu sử dụng nhận dạng 20 mẫu file WAV từ đến lưu thư mục Độ xác trình nhận dạng chương trình 100% 56 Khi nhận dạng tiếng nói, ta lựa chọn file wav, chương trình nhận dạng tiến hành so sánh mẫu với mẫu lưu sở liệu để tìm mẫu giống với tiếng nói cần nhận dạng Ví dụ với file đầu vào 4.wav, kết đưa sau trình nhận dạng có sau: Hình 3.6 Nhận dạng từ file 3.2.2.2 Nhận dạng động (Nhận dạng từ Microphone) Chương trình nhận dạng với với tiếng nói thu có tần số lấy mẫu 22050, kích thước mẫu bit Nhận dạng giọng nói trực tiếp từ Microphone, cần có thời gian đọc vào Microphone Ví dụ với file đầu vào 3.wav, kết đưa sau trình nhận dạng sau: 57 Hình 3.7 Nhận dạng từ Microphone Tuy nhiên độ xác đạt 80% đến 90% Do Microphone trình thu giọng nói cho vào sở liệu hay đọc vào để nhận dạng không chuẩn Vì trình nhận dạng không đạt độ xác cao, chương tình không nhận dạng từ đọc vào nhận dạng đưa kết không số thời điểm 58 Kết luận Trong trình làm đồ án em đạt số kết sau:  Tìm hiểu nhận dạng tiếng nói hướng ứng dụng vào nhận dạng tiếng nói tiếng Việt  Ứng dụng cài đặt thuật toán DTW  Khảo sát đặc trưng tiếng nói, áp dụng vào nhận dạng tiếng nói tiếng Việt  Xây dựng chương trình nhận dạng tiếng nói tiếng Việt với từ vựng hạn chế Do giới hạn thời gian kiến thức nhiều hạn chế, em bước đầu tiếp cận tìm hiểu nhận dạng tiếng nói không tránh khỏi nhiều thiếu sót Rất mong đóng góp nhiệt tình thầy cô bạn quan tâm để đề tài hoàn thiện 59 Tài liệu tham khảo [1] Nguyễn Hồng Quang, Luận văn tốt nghiệp Khoa CNTT – ĐH KHTN, 2004 [2]C.S.Myers and L.R.Rabiner A comparative study of several dynamic time-warping algorithms for connected word recognition.The Bell System Technical Journal, 1981 [3] Dan Ellis, Dynamic Time Warp (DTW) in Matlab [4] Stan Salvador and Philip Chan Intelligent Data Analysis, Fast DTW: Toward Accurate Dynamic Time Warping in Linear Time and Space, 2007 Các trang Web: http://www.ee.columbia.edu/~dpwe/resources/matlab/dtw/ http://www.cnel.ufl.edu/~kkale/dtw.html http://en.wikipedia.org/wiki/Dynamic_time_warping 60 Nhận xét giáo viên 61 [...]...1.2.2 Phân loại nhận dạng tiếng nói 1.2.2.1 Nhận dạng từ liên tục và nhận dạng từ cách biệt Một hệ nhận dạng tiếng nói có thể là một trong hai dạng: nhận dạng liên tục và nhận dạng từng từ Nhận dạng liên tục tức là nhận dạng tiếng nói được phát liên tục trong một chuỗi tín hiệu, chẳng hạn như một câu nói, một mệnh lệnh hoặc một đoạn văn được đọc bởi người dùng... giảm thiểu phạm vi nhận dạng của tiếng đó trong một vài từ chứ không phải toàn bộ từ vựng  Giải mã: Quá trình này quá trình này có thể chỉ đơn giản là xuất ra chuỗi văn bản nhận dạng được hoặc là một quá trình phân tích chuỗi nhận được ứng với tác vụ gì và thực hiện tác vụ đó Hình 1.7 Các thành phần cơ bản của hệ thống ASR Ứng dụng:  Điều khiển bằng tiếng nói (khoảng 30 từ) : Nhận dạng tên người, chữ... tận dụng triệt để, thì việc điều khiển bằng tiếng nói có một thuận lợi rất lớn Hơn nữa, nhận dạng tiếng nói còn được ứng dụng nhiều dạng khác nhau như hệ thống chính tả, các đồ chơi trẻ em, trò chơi game,… Một trình nhận dạng sẽ có thể nhận dạng được các từ khác nhau của bất kỳ người nào trong bất kỳ môi trường nào Nhưng trong thực tế, khả năng của hệ thống phụ thuộc vào nhiều yếu tố khác nhau Bộ từ vựng, ... bằng giọng nói trên điện thoại di động, điều khiển thiết bị điện tử,…  Trong điện tử viễn thông (khoảng 2000 từ) : Tự động điền mẫu đơn trong hệ thống xử lý thông tin, tổng đài điện thoại, …  Từ điển (khoảng 64k từ) : Chuyển đổi thư thoại (bộ từ vựng lớn), thư ký điện tử,… 1.2.4 Lý thuyết nhận dạng tiếng nói Nhận dạng tiếng nói là kỹ thuật nhận ra các thành phần lời nói của con người Tiến trình này... của con người Tiến trình này có thể được thực hiện từ việc thu vào tín hiệu tiếng nói từ micro, và kết thúc bằng từ đã được nhận dạng được hệ thống xuất ra 14 Việc nghiên cứu nhận dạng tiếng nói đã được bắt đầu từ cuối thập niên 40, trong đó sự phát triển nhanh chóng của công nghệ máy tính đã đóng góp một phần rất quan trọng Ngày nay, nhận dạng tiếng nói đã có mặt trong trong công nghiệp ở một số lĩnh... âm một từ Mô hình loại này dĩ nhiên đơn giản hơn mô hình nhận dạng liên tục, đồng thời cũng có những ứng dụng thực tiễn như trong các hệ thống điều khiển bằng lời nói, quay số bằng giọng nói , với độ chính xác khá cao, tuy nhiên khó áp dụng rộng rãi đối với mô hình trên Hình 1.4 Danh giới giữa “cô” và “ấy” không rõ ràng 11 1.2.2.2 Nhận dạng phụ thuộc người nói và độc lập người nói Đối với nhận dạng phụ... và 80, nó thích hợp trong việc ứng dụng trong hệ chuyên gia, nó dựa trên bộ luật được rút ra từ tri thức về tín hiệu âm thanh Một dạng khác của hệ thống được kế thừa từ quá trình phát âm của con người Ở đây thay vì sử dụng bộ luật thì định nghĩa thành phần trung gian Theo cách này, sự phân biệt diễn ra bằng cách so sánh tiếng nói được tổng hợp với một tiếng nói cần nhận dạng Mặc dù là một kỹ thuật có... nhau Khi sử dụng, hệ thống sẽ được điều chỉnh cho phù hợp với giọng của người dùng, bằng cách nó học thêm một vài câu có chứa các từ cần thiết (người dùng trước khi sử dụng hệ thống cần phải qua một quá trình ngắn huấn luyện hệ thống) Điều này đã được Microsoft đưa vào bộ phần mềm Office của mình Nhận dạng độc lập người nói khó hơn rất nhiều so với nhận dạng phụ thuộc người nói Cùng một từ, một người,... với bộ não con người, một hệ thống hoàn hảo, thì sự khác biệt đó có thể được bỏ qua do ngữ cảnh, và do có phần xử lý làm mờ đi của não Nhưng đối với máy tính thì rất khó xây dựng được một mô hình giải quyết cho tất cả các trường hợp khác biệt đó 12 Hình 1.5 Người nói khác nhau sẽ phát âm khác nhau Hình 1.6 Mô hình nhận dạng bán độc lập người nói 1.2.3 Hệ thống nhận dạng tiếng nói tự động Nhận dạng tiếng. .. là tiếng nói đâu là độ ồn nền) và lọc nhiễu 13  Quá trình phân lớp và nhận dạng: Thực chất đây là quá trình nhận dạng dựa trên mô hình âm thanh, từ điển phát âm và mô hình ngôn ngữ của hệ thống Mô hình ngôn ngữ ở đây thực chất chỉ biểu diển một ngữ pháp nào đó, nó có thể ứng với một ngôn ngữ cụ thể hoặc đơn giản chỉ gói gọn trong phạm vi ứng dụng của hệ thống, điều này góp phần giảm thiểu phạm vi nhận

Định dạng
Số trang	61
Dung lượng	2,25 MB