Đề tài “nhận dạng giọng nói bằng mạng neural hồi quy”

 Hơn một thập kỷ qua với sự phát triển mạnh mẽ của công nghệ thông tin, công nghệ xử lý tiếng nói như mã hóa, nhận dạng tiếng nói, chuyển lời nói thành văn bản, chuyển chữ viết thành

Trang 1

Đề tài: “Nhận dạng giọng nói bằng mạng

Neural hồi quy”

BÁO CÁO ĐỒ ÁN TỐT NGHIỆP

Trang 2

Đăt vấn đề (1/2)

 Mọi người có thể dễ dàng hiểu được người khác nói gì

và có thể chỉ cần nghe giọng nói là có thể phân biệt được đó là ai

 Tuy nhiên, trong lĩnh vực thị giác máy tính để có thể làm được điều này là vô cùng khó khăn

 Hơn một thập kỷ qua với sự phát triển mạnh mẽ của công nghệ thông tin, công nghệ xử lý tiếng nói như

mã hóa, nhận dạng tiếng nói, chuyển lời nói thành

văn bản, chuyển chữ viết thành lời nói…đã trở thành vấn đề nghiên cứu trọng điểm được nhiều nhà khoa học quan tâm ở các lĩnh vực khác nhau như tin học, toán học, điều khiển, điện tử, sinh học…

2/26

Trang 3

Đăt vấn đề (2/2)

 Trong t hời gian gần đây, các nhà nghiên cứu đang tập trung vào công nghệ nhận dạng giọng nói và đã có một số thành công đối với việc nhận dạng tiếng Anh và một số ngôn ngữ khác, ví dụ như các phần mềm Via Voice Gold của hãng IBM, Speech SDK của Microsoft, Dragon Natural Speaking của Dragon System

 Đối với nước ta, đã có nhiều công trình nghiên cứu

về lĩnh vực nhận dạng giọng nói (Speech

Recognition) trên cơ sở lý thuyết các hệ thống

thông minh nhân tạo và cũng đã có những th ành công nhất định

3/26

Trang 4

Mục đích – Yêu cầu (1/1)

 Mục đích:

 Trên cơ sở những phương pháp đã được sử

dụng để nhận dạng tiếng nói của một số nước như tiếng anh, tiếng arập…, nghiên cứu thử

nghiệm đối với Tiếng việt.

 Yêu cầu:

 Nghiên cứu, tìm hiểu mạng neural và cấu trúc ngôn ngữ Tiếng việt.

 Xây dựng chương trình nhận dạng 10 chữ số và một số nút lệnh cơ bản như thêm, sữa, xóa…

4/26

Trang 5

Nội dung báo cáo (1/1)

giọng nói và cấu trúc ngôn ngữ Tiếng việt.

nói

quả

5/26

Trang 6

I Tổng quan về hệ thống nhận dạng giọng nói (1/3)

Nhận dạng giọng nói là quá trình thu nhận và

xử lý tín hiệu giọng nói nhằm mục đích nhận biết nội dung văn bản của nó

Quá trình phát âm của con người là giống nhau nhưng tiếng nói của các nước khác nhau thì có những điểm chung và khác

Chính điểm khác nhau này là yếu tố quan trọng để có thể nhận dạng tốt được các loại tiếng nói của các nước

6/26

Trang 7

I Tổng quan về hệ thống nhận dạng tiếng nói (2/3)

Âm tiếng việt tương đối tách biệt

Tương đối nhất quán trong cách phát âm và cách viết

Âm tiết là đơn vị phát âm nhỏ nhất

Âm tiết bao gồm nhiều yếu tố đoạn tính và các yếu tố siêu đoạn tính

Đặc điểm riêng của Tiếng việt là đơn âm và mang thanh điệu

7/26

Trang 8

I Tổng quan về hệ thống nhận dạng tiếng nói (3/3)

Trang 9

1 Trích rút tham số

 Tiền xử lý

 Trích chọn tham số LP (Linear Prediction)

 Chuyển đổi LP thành LSP (Line Spectral Pair)

 Chuyển đổi LSP thành LSF (Line Spectral

Frequency)

2 Thuật toán VAD (Voice Activity

Detection)

II Kỹ thuật phân tích dữ

liệu tiếng nói (1/1)

9/26

Trang 11

Trích rút tham số (2/7)

2 Trích rút tham số LP

 Tín hiệu được chia thành các khung 240 mẫu

(tương ứng với 30ms) được dùng để phân tích LP.

 Hàm cửa sổ hóa dùng cho phân tích LP

) 159

) 200 (

2 cos(

199 , , 0 n

) 399

n 2 0.46cos(

-0.54 (n)

Wp

n n

l



(1.2)

Trang 12

(' ) (' )

(

k n

k k

n s n s k

( ) ( W )

( lp

'



 n S n n n

S

được sử dụng để tính hệ số tương quan:

Các hệ số tương quan sau đó được chỉnh sửa:

) 0 ( 0001

1 ) 0 (

r 

10 , , 1 ),

( ) ( )

2 2

1 exp )

W

s lag



Trang 13

2 Trích rút Tham số LP

('

|) (|

Trang 14

3 Chuyển đổi LP thành LSP

 Các hệ số LSP là nghiệm của tổng các đa thức

 Nghiệm của các đa thức tạo thành một chu trình và luân phiên nhau (1.7) có nghiệm z=-1, (1.8) có

nghiệm z=0 Loại hai nghiệm này ta có đa thức mới:

) ( )

( )

' 1





A z z A z z

F

) ( )

( )

' 2



A z z A z z

F

(1.7) (1.8)

) 1

/(

) ( )

F

) 1

/(

) ( )

2 2



F z z z

F

(1.9) (1.10)

14/26

Trang 15

tròn đơn vị Ta có thể viết lại:

cần tính toán 5 hệ số đầu tiên của mỗi đa thức

)cos( i

2 1

i

i z z q

z F

2 1

i

i z z q

z

(1.12)

15/26

Trang 17

Thuật Toán VAD (1/4)

 Thuật toán VAD được dùng để tách phần

nhiễu nền, lấy phần dữ liệu có hoạt động

của tiếng nói

 Các bước của thuật toán:

17/26

Trang 18

1 Trích rút tập tham số

 N ăng lượng băng thông thấp:

 Tỉ lệ điểm cắt không:

 Tần số phổ vạch là 10 tham số LSF

 Nếu E f >=15db thì chuyển sang bước 2, ngược lại

khung này là nhiễu

( sgn

| 2

1 M i

i x i

x M

ZC

(2.1)

(2.2) (2.3)

18/26

Trang 19

2 Tính độ lệch các tham số

 Sự méo quang phổ

 Độ lệch dải năng lượng đầy

 Độ lệch dải năng lượng

19/26

Trang 20

Thuật toán VAD (4/4)

3 Quyết định vùng hoạt động giọng nói

if )

5 E f  b5 I VD 

1 then

if )

6 E f  a6  S b6 I VD 

1 then

if )

13 E l  a13 E f b13 I VD 

14 ) if E l a14  E f b14 then I VD  1

20/26

Trang 21

III Mạng Neural hồi quy

(1/3)

 Là mạng hồi quy đơn giản nhất

 Ý tưởng: quyết định xem vectơ nguyên mẫu

nào gần với vectơ đầu vào nhất Quyết định

này được thực hiện ở lớp hồi quy, khi lớp hồi

quy hội tụ chỉ có một neural thắng cuộc và

neural đó biểu thị vectơ nguyên mẫu gần với đầu vào nhất

21/26

Trang 22

(2/3)

22/26

Trang 23

(3/3)

 Lớp hồi quy là một lớp thi đấu, do vậy có thể

áp dụng luật học thi đấu cho mạng Haming

 Luật học Kohonen:

*

)), 1 (

) ( ( )

1 (

) (q W q P q W q i i

i       

*

), 1 (

23/26

Trang 24

IV Kết quả đạt được (1/3)

Tín hiệu đầu vào Tiền xử lý tín hiệu Hệ thống nhận

Trang 25

 Chương trình đã thử nghiệm nhận dạng được 10 chữ

số và 12 nút lệnh Có thể nhận dạng từ file hoặc thu âm.

 Trong điều kiện ít nhiễu, có thể nhận dạng các từ

phát âm rời rạc chính xác đến trên 98%

 Đã thử nghiệm nhận dạng phát âm liên tục và kết quả rất khả quan.

 Chương trình có thể nhận dạng trực tuyến, tức là đọc đến đâu nhận dạng đến đó.

 Giao diện thuận tiện trong việc học nếu nhận dạng

sai.

25/26

Trang 26

Tồn tại

 Chưa cho phép người dùng tự do tạo mạng nueral.

 Chương trình chỉ ứng dụng nhận dạng cho một người.

 Hướng phát triển

 Cải thiện những mặt còn hạn chế

 Nh ận dạng chính xác dãy số (số điện thoại)

 Nhận dạng cho nhiều người

 Có thể phát triển ứng dụng trên Robot, điện thoại

26/26

Trang 27

Xin chân thành cảm ơn:

CNTT đã tận tình giúp đỡ em hoàn thành đề tài này

Định dạng
Số trang	27
Dung lượng	658,5 KB