Hơn một thập kỷ qua với sự phát triển mạnh mẽ của công nghệ thông tin, công nghệ xử lý tiếng nói như mã hóa, nhận dạng tiếng nói, chuyển lời nói thành văn bản, chuyển chữ viết thành
Trang 1Đề tài: “Nhận dạng giọng nói bằng mạng
Neural hồi quy”
BÁO CÁO ĐỒ ÁN TỐT NGHIỆP
Trang 2Đăt vấn đề (1/2)
Mọi người có thể dễ dàng hiểu được người khác nói gì
và có thể chỉ cần nghe giọng nói là có thể phân biệt được đó là ai
Tuy nhiên, trong lĩnh vực thị giác máy tính để có thể làm được điều này là vô cùng khó khăn
Hơn một thập kỷ qua với sự phát triển mạnh mẽ của công nghệ thông tin, công nghệ xử lý tiếng nói như
mã hóa, nhận dạng tiếng nói, chuyển lời nói thành
văn bản, chuyển chữ viết thành lời nói…đã trở thành vấn đề nghiên cứu trọng điểm được nhiều nhà khoa học quan tâm ở các lĩnh vực khác nhau như tin học, toán học, điều khiển, điện tử, sinh học…
2/26
Trang 3Đăt vấn đề (2/2)
Trong t hời gian gần đây, các nhà nghiên cứu đang tập trung vào công nghệ nhận dạng giọng nói và đã có một số thành công đối với việc nhận dạng tiếng Anh và một số ngôn ngữ khác, ví dụ như các phần mềm Via Voice Gold của hãng IBM, Speech SDK của Microsoft, Dragon Natural Speaking của Dragon System
Đối với nước ta, đã có nhiều công trình nghiên cứu
về lĩnh vực nhận dạng giọng nói (Speech
Recognition) trên cơ sở lý thuyết các hệ thống
thông minh nhân tạo và cũng đã có những th ành công nhất định
3/26
Trang 4Mục đích – Yêu cầu (1/1)
Mục đích:
Trên cơ sở những phương pháp đã được sử
dụng để nhận dạng tiếng nói của một số nước như tiếng anh, tiếng arập…, nghiên cứu thử
nghiệm đối với Tiếng việt.
Yêu cầu:
Nghiên cứu, tìm hiểu mạng neural và cấu trúc ngôn ngữ Tiếng việt.
Xây dựng chương trình nhận dạng 10 chữ số và một số nút lệnh cơ bản như thêm, sữa, xóa…
4/26
Trang 5Nội dung báo cáo (1/1)
giọng nói và cấu trúc ngôn ngữ Tiếng việt.
nói
quả
5/26
Trang 6I Tổng quan về hệ thống nhận dạng giọng nói (1/3)
Nhận dạng giọng nói là quá trình thu nhận và
xử lý tín hiệu giọng nói nhằm mục đích nhận biết nội dung văn bản của nó
Quá trình phát âm của con người là giống nhau nhưng tiếng nói của các nước khác nhau thì có những điểm chung và khác
Chính điểm khác nhau này là yếu tố quan trọng để có thể nhận dạng tốt được các loại tiếng nói của các nước
6/26
Trang 7I Tổng quan về hệ thống nhận dạng tiếng nói (2/3)
Âm tiếng việt tương đối tách biệt
Tương đối nhất quán trong cách phát âm và cách viết
Âm tiết là đơn vị phát âm nhỏ nhất
Âm tiết bao gồm nhiều yếu tố đoạn tính và các yếu tố siêu đoạn tính
Đặc điểm riêng của Tiếng việt là đơn âm và mang thanh điệu
7/26
Trang 8I Tổng quan về hệ thống nhận dạng tiếng nói (3/3)
Trang 91 Trích rút tham số
Tiền xử lý
Trích chọn tham số LP (Linear Prediction)
Chuyển đổi LP thành LSP (Line Spectral Pair)
Chuyển đổi LSP thành LSF (Line Spectral
Frequency)
2 Thuật toán VAD (Voice Activity
Detection)
II Kỹ thuật phân tích dữ
liệu tiếng nói (1/1)
9/26
Trang 11Trích rút tham số (2/7)
2 Trích rút tham số LP
Tín hiệu được chia thành các khung 240 mẫu
(tương ứng với 30ms) được dùng để phân tích LP.
Hàm cửa sổ hóa dùng cho phân tích LP
) 159
) 200 (
2 cos(
199 , , 0 n
) 399
n 2 0.46cos(
-0.54 (n)
Wp
n n
l
(1.2)
Trang 12(' ) (' )
(
k n
k k
n s n s k
( ) ( W )
( lp
'
n S n n n
S
được sử dụng để tính hệ số tương quan:
Các hệ số tương quan sau đó được chỉnh sửa:
) 0 ( 0001
1 ) 0 (
r
10 , , 1 ),
( ) ( )
2 2
1 exp )
W
s lag
Trang 13Trích rút tham số (4/7)
2 Trích rút Tham số LP
('
|) (|
Trang 14Trích rút tham số (5/7)
3 Chuyển đổi LP thành LSP
Các hệ số LSP là nghiệm của tổng các đa thức
Nghiệm của các đa thức tạo thành một chu trình và luân phiên nhau (1.7) có nghiệm z=-1, (1.8) có
nghiệm z=0 Loại hai nghiệm này ta có đa thức mới:
) ( )
( )
' 1
A z z A z z
F
) ( )
( )
' 2
A z z A z z
F
(1.7) (1.8)
) 1
/(
) ( )
F
) 1
/(
) ( )
2 2
F z z z
F
(1.9) (1.10)
14/26
Trang 15Trích rút tham số (6/7)
tròn đơn vị Ta có thể viết lại:
cần tính toán 5 hệ số đầu tiên của mỗi đa thức
)cos( i
2 1
i
i z z q
z F
2 1
i
i z z q
z
(1.12)
15/26
Trang 17Thuật Toán VAD (1/4)
Thuật toán VAD được dùng để tách phần
nhiễu nền, lấy phần dữ liệu có hoạt động
của tiếng nói
Các bước của thuật toán:
17/26
Trang 18Thuật Toán VAD (2/4)
1 Trích rút tập tham số
N ăng lượng băng thông thấp:
Tỉ lệ điểm cắt không:
Tần số phổ vạch là 10 tham số LSF
Nếu E f >=15db thì chuyển sang bước 2, ngược lại
khung này là nhiễu
( sgn
| 2
1 M i
i x i
x M
ZC
(2.1)
(2.2) (2.3)
18/26
Trang 19Thuật Toán VAD (3/4)
2 Tính độ lệch các tham số
Sự méo quang phổ
Độ lệch dải năng lượng đầy
Độ lệch dải năng lượng
19/26
Trang 20Thuật toán VAD (4/4)
3 Quyết định vùng hoạt động giọng nói
if )
5 E f b5 I VD
1 then
if )
6 E f a6 S b6 I VD
1 then
if )
if )
13 E l a13 E f b13 I VD
14 ) if E l a14 E f b14 then I VD 1
20/26
Trang 21III Mạng Neural hồi quy
(1/3)
Là mạng hồi quy đơn giản nhất
Ý tưởng: quyết định xem vectơ nguyên mẫu
nào gần với vectơ đầu vào nhất Quyết định
này được thực hiện ở lớp hồi quy, khi lớp hồi
quy hội tụ chỉ có một neural thắng cuộc và
neural đó biểu thị vectơ nguyên mẫu gần với đầu vào nhất
21/26
Trang 22III Mạng Neural hồi quy
(2/3)
22/26
Trang 23III Mạng Neural hồi quy
(3/3)
Lớp hồi quy là một lớp thi đấu, do vậy có thể
áp dụng luật học thi đấu cho mạng Haming
Luật học Kohonen:
*
)), 1 (
) ( ( )
1 (
) (q W q P q W q i i
i
*
), 1 (
23/26
Trang 24IV Kết quả đạt được (1/3)
Tín hiệu đầu vào Tiền xử lý tín hiệu Hệ thống nhận
Trang 25IV Kết quả đạt được (2/3)
Chương trình đã thử nghiệm nhận dạng được 10 chữ
số và 12 nút lệnh Có thể nhận dạng từ file hoặc thu âm.
Trong điều kiện ít nhiễu, có thể nhận dạng các từ
phát âm rời rạc chính xác đến trên 98%
Đã thử nghiệm nhận dạng phát âm liên tục và kết quả rất khả quan.
Chương trình có thể nhận dạng trực tuyến, tức là đọc đến đâu nhận dạng đến đó.
Giao diện thuận tiện trong việc học nếu nhận dạng
sai.
25/26
Trang 26IV Kết quả đạt được (3/3)
Tồn tại
Chưa cho phép người dùng tự do tạo mạng nueral.
Chương trình chỉ ứng dụng nhận dạng cho một người.
Hướng phát triển
Cải thiện những mặt còn hạn chế
Nh ận dạng chính xác dãy số (số điện thoại)
Nhận dạng cho nhiều người
Có thể phát triển ứng dụng trên Robot, điện thoại
26/26
Trang 27Xin chân thành cảm ơn:
CNTT đã tận tình giúp đỡ em hoàn thành đề tài này