1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đề tài “nhận dạng giọng nói bằng mạng neural hồi quy”

27 3,3K 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 658,5 KB

Nội dung

Đề tài: “Nhận dạng giọng nói bằng mạng Neural hồi quy” BÁO CÁO ĐỒ ÁN TỐT NGHIỆP Đăt vấn đề (1/2)  Mọi người có thể dễ dàng hiểu được người khác nói gì và có thể chỉ cần nghe giọng nói là có thể phân biệt được đó là ai.  Tuy nhiên, trong lĩnh vực thị giác máy tính để có thể làm được điều này là vô cùng khó khăn.  Hơn một thập kỷ qua với sự phát triển mạnh mẽ của công nghệ thông tin, công nghệ xử lý tiếng nói như mã hóa, nhận dạng tiếng nói, chuyển lời nói thành văn bản, chuyển chữ viết thành lời nói…đã trở thành vấn đề nghiên cứu trọng điểm được nhiều nhà khoa học quan tâm ở các lĩnh vực khác nhau như tin học, toán học, điều khiển, điện tử, sinh học… 2/26 Đăt vấn đề (2/2)  Trong thời gian gần đây, các nhà nghiên cứu đang tập trung vào công nghệ nhận dạng giọng nói và đã có một số thành công đối với việc nhận dạng tiếng Anh và một số ngôn ngữ khác, ví dụ như các phần mềm Via Voice Gold của hãng IBM, Speech SDK của Microsoft, Dragon Natural Speaking của Dragon System.  Đối với nước ta, đã có nhiều công trình nghiên cứu về lĩnh vực nhận dạng giọng nói (Speech Recognition) trên cơ sở lý thuyết các hệ thống thông minh nhân tạo và cũng đã có những thành công nhất định. 3/26 Mục đích – Yêu cầu (1/1)  Mục đích:  Trên cơ sở những phương pháp đã được sử dụng để nhận dạng tiếng nói của một số nước như tiếng anh, tiếng arập…, nghiên cứu thử nghiệm đối với Tiếng việt.  Yêu cầu:  Nghiên cứu, tìm hiểu mạng neural và cấu trúc ngôn ngữ Tiếng việt.  Xây dựng chương trình nhận dạng 10 chữ số và một số nút lệnh cơ bản như thêm, sữa, xóa… 4/26 Nội dung báo cáo (1/1)  Tổng quan về hệ thống nhận dạng giọng nói và cấu trúc ngôn ngữ Tiếng việt.  Kỹ thuật phân tích dữ liệu giọng nóiMạng Neural cho nhận dạng giọng nói  Cài đặt chương trình và đánh giá kết quả 5/26 I. Tổng quan về hệ thống nhận dạng giọng nói (1/3)  Nhận dạng giọng nói là quá trình thu nhận và xử lý tín hiệu giọng nói nhằm mục đích nhận biết nội dung văn bản của nó.  Quá trình phát âm của con người là giống nhau nhưng tiếng nói của các nước khác nhau thì có những điểm chung và khác.  Chính điểm khác nhau này là yếu tố quan trọng để có thể nhận dạng tốt được các loại tiếng nói của các nước. 6/26 I. Tổng quan về hệ thống nhận dạng tiếng nói (2/3)  Âm tiếng việt tương đối tách biệt.  Tương đối nhất quán trong cách phát âm và cách viết  Âm tiết là đơn vị phát âm nhỏ nhất.  Âm tiết bao gồm nhiều yếu tố đoạn tính và các yếu tố siêu đoạn tính.  Đặc điểm riêng của Tiếng việt là đơn âm và mang thanh điệu. 7/26 I. Tổng quan về hệ thống nhận dạng tiếng nói (3/3)  Các hướng nghiên cứu nhận dạng tiếng nói  Sử dụng tập mẫu  Sử dụng mô hình thống kê  Sử dụng mạng Neural nhân tạo 8/26 1. Trích rút tham số  Tiền xử lý  Trích chọn tham số LP (Linear Prediction)  Chuyển đổi LP thành LSP (Line Spectral Pair)  Chuyển đổi LSP thành LSF (Line Spectral Frequency) 2. Thuật toán VAD (Voice Activity Detection) II. Kỹ thuật phân tích dữ liệu tiếng nói (1/1) 9/26 Trích rút tham số (1/7) 1. Tiền xử lý Tín hiệu ban đầu được cho qua bộ lọc thông cao với tần số cắt 140Hz. 21 21 1 9114024.09059465.11 46363718.092724705.046363718.0 )( −− −− +− +− = zz zz zH h (1.1) 10/26 [...]... = 1 20/26 III Mạng Neural hồi quy (1/3) Mạng Haming  Là mạng hồi quy đơn giản nhất  Ý tưởng: quyết định xem vectơ nguyên mẫu nào gần với vectơ đầu vào nhất Quyết định này được thực hiện ở lớp hồi quy, khi lớp hồi quy hội tụ chỉ có một neural thắng cuộc và neural đó biểu thị vectơ nguyên mẫu gần với đầu vào nhất 21/26 III Mạng Neural hồi quy (2/3) Cấu trúc mạng 22/26 III Mạng Neural hồi quy (3/3)... thể nhận dạng từ file hoặc thu âm Trong điều kiện ít nhiễu, có thể nhận dạng các từ phát âm rời rạc chính xác đến trên 98% Đã thử nghiệm nhận dạng phát âm liên tục và kết quả rất khả quan Chương trình có thể nhận dạng trực tuyến, tức là đọc đến đâu nhận dạng đến đó Giao diện thuận tiện trong việc học nếu nhận dạng sai 25/26 IV Kết quả đạt được (3/3) Tồn tại  Chưa cho phép người dùng tự do tạo mạng nueral... nueral  Chương trình chỉ ứng dụng nhận dạng cho một người Hướng phát triển  Cải thiện những mặt còn hạn chế  Nhận dạng chính xác dãy số (số điện thoại)  Nhận dạng cho nhiều người  Có thể phát triển ứng dụng trên Robot, điện thoại 26/26 Xin chân thành cảm ơn: Thầy giáo, đại tá, TS: Nguyễn Nam Hồng và các thầy cô trong khoa CNTT đã tận tình giúp đỡ em hoàn thành đề tài này ... quy (3/3) Luật học của mạng Haming  Lớp hồi quy là một lớp thi đấu, do vậy có thể áp dụng luật học thi đấu cho mạng Haming  Luật học Kohonen: W (q)= iW (q − 1) + α ( P(q)− iW (q − 1)), i = i * i (3.1) W (q )= iW (q − 1), i ≠ i * i (3.2) 23/26 IV Kết quả đạt được (1/3) Sơ đồ logic chương trình 24/26 IV Kết quả đạt được (2/3)  Kết quả đạt được  Chương trình đã thử nghiệm nhận dạng được 10 chữ số ... 1, ,10 (1.13) 16/26 Thuật Toán VAD (1/4)  Thuật toán VAD được dùng để tách phần nhiễu nền, lấy phần dữ liệu có hoạt động của tiếng nói  Các bước của thuật toán: Trích rút 4 tham số từ tín hiệu đầu vào 2 Tính toán độ lệch của các tham số 3 Quyết định vùng hoạt động giọng nói 1 17/26 Thuật Toán VAD (2/4) 1 Trích rút tập tham số  Năng lượng băng thông cao: 1  E f = 10 log 10  R(0) (2.1) N   Năng... sổ hóa dùng cho phân tích LP 2π n  0.54 - 0.46cos( )   399 Wlp (n) =  cos( 2π (n − 200) )  159  n = 0, ,199 n = 200, ,239 (1.2) 11/26 Trích rút tham số (3/7) 2 Trích rút tham số LP Tín hiệu giọng nói đã được cửa sổ hóa: S ' (n) = Wlp (n) S (n), n = 0, ,239 (1.3) được sử dụng để tính hệ số tương quan: 239 r ( k ) = ∑ s ' ( n) s ' ( n − k ) k = 0, ,10 (1.4) n= k Các hệ số tương quan sau đó được... dải năng lượng đầy ∆E f = E f − E f (2.5)  Độ lệch dải năng lượng ∆El = E l − El (2.6) ∆ZC = ZC − ZC (2.7) thấp  Độ lệch qua điểm cắt không 19/26 Thuật toán VAD (4/4) 3 Quyết định vùng hoạt động giọng nói 1) if ∆ S > a1 ⋅ ∆ ZC + b1 then IVD = 1 8) if ∆ E l < a8 ⋅ ∆ ZC + b8 then IVD = 1 2) if ∆ S > a2 ⋅ ∆ ZC + b2 then IVD = 1 9) if ∆ E l < a9 ⋅ ∆ ZC + b9 then IVD = 1 3) if ∆ E f < a3 ⋅ ∆ ZC + b3 then... số tự tương quan đã biến đổi r’(k) được sử dụng để thu được các hệ số lọc LP ai , i=0,…,10 từ các phương trình: 10 ∑ a r ' (| i − k |) = − r ' (k ) i= i k = 1, ,10 (1.6) Các phương trình trên được giải bằng thuật toán Levinson-Durbin 13/26 Trích rút tham số (5/7) 3 Chuyển đổi LP thành LSP  Các hệ số LSP là nghiệm của tổng các đa thức F1' ( z ) = A( z ) + z −11 A( z −1 ) (1.7) F2' ( z ) = A( z ) − z . Đề tài: “Nhận dạng giọng nói bằng mạng Neural hồi quy” BÁO CÁO ĐỒ ÁN TỐT NGHIỆP Đăt vấn đề (1/2)  Mọi người có thể dễ dàng hiểu được người khác nói gì và có thể chỉ cần nghe giọng nói. tích dữ liệu giọng nói  Mạng Neural cho nhận dạng giọng nói  Cài đặt chương trình và đánh giá kết quả 5/26 I. Tổng quan về hệ thống nhận dạng giọng nói (1/3)  Nhận dạng giọng nói là quá trình. nghệ thông tin, công nghệ xử lý tiếng nói như mã hóa, nhận dạng tiếng nói, chuyển lời nói thành văn bản, chuyển chữ viết thành lời nói đã trở thành vấn đề nghiên cứu trọng điểm được nhiều nhà

Ngày đăng: 19/06/2014, 20:50

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w