Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 51 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
51
Dung lượng
855,41 KB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG……………
LUẬN VĂN
Nghiên cứuxâydựngchương
trình nhậndạngtậptừhạnchế
Tiếng Việttrongmôitrường
nhiễu
1
LỜI CẢM ƠN
Em xin chân thành cảm ơn Thầy giáo, Thạc sĩ Võ Văn Tùng – Công tác
tại Cục kỹ thuật nghiệp vụ I, Bộ công an, ngƣời đã trực tiếp hƣớng dẫn tận
tình chỉ bảo em trong suốt quá trình làm tốt nghiệp.
Em xin chân thành cảm ơn tất cả các thầy cô giáo trong khoa Công nghệ
thông tin - Trƣờng ĐHDL Hải Phòng, những ngƣời đã nhiệt tình giảng dạy và
truyền đạt những kiến thức cần thiết trong suốt thời gian em học tập tại
trƣờng, để em hoàn thành tốt đề tài này.
Em cũng xin chân thành cảm ơn Ban lãnh đạo, tất cả các cô chú, các anh
chị tại Công ty Cổ phần Thiết bị Bƣu điện, đã giúp đỡ và tạo mọi điều kiện tốt
cho em trong thời gian thực tập và làm tốt nghiệp tại Trung tâm.
Trong quá trình làm tốt nghiệp tuy có nhiều cố gắng nhƣng không thể
tránh khỏi những thiếu sót, em rất mong nhận đƣợc sự góp ý quý báu của tất
cả các thầy cô giáo, của hội đồng phản biện và của tất cả các bạn.
Em xin chân thành cảm ơn!
Hải Phòng, ngày tháng 7 năm 2009
Sinh viên
Trƣơng Ngọc Sơn.
2
MỤC LỤC
LỜI CẢM ƠN 1
MỤC LỤC 2
MỞ ĐẦU 4
CHƢƠNG 1: TÍN HIỆU - CƠ SỞ XỬ LÝ TÍN HIỆU 5
1.1. Tín hiệu 5
1.2. Các tín hiệu rời rạc theo thời gian 7
1.2.1 Các phƣơng pháp biểu diễn tín hiệu rời rạc 7
1.2.2 Một vài tín hiệu rời rạc cơ bản 8
1.2.3 Phân loại các tín hiệu rời rạc 9
1.2.4 Các thao tác xử lý đơn giản trên tín hiệu rời rạc theo thời gian. 13
1.2.5 Biểu diễn hệ thống rời rạc theo thời gian bằng sơ đồ khối 14
1.2.6 Phân loại các hệ thống rời rạc theo thời gian 16
CHƢƠNG 2: ĐẶC TRƢNG TIẾNGVIỆT 18
2.1. Đặc điểm của TiếngViệt 18
2.2. Đặc điểm ngữ âm 18
2.3. Đặc điểm từ vựng 18
2.4. Đặc điểm ngữ pháp 19
2.5. Âm tiết trongtiếngViệt 20
CHƢƠNG 3: BÀI TOÁN NHẬNDẠNGTIẾNG NÓI 23
3.1. Một số khái niệm cơ bản về âm thanh và tiếng nói. 25
3.1.1 Âm thanh 25
3.1.2 Các đặc trƣng của Tiếng nói 27
3.2. Một số phƣơng pháp nhậndạngtiếng nói 29
3.2.1 Một số khuynh hƣớng nghiêncứunhậndạngtiếng nói 29
3.2.2 Các đơn vị xử lý tiếng nói 33
3.2.3 Một số kỹ thuật khử nhiễu 35
3.2.4 Một số phƣơng pháp nhậndạngtiếng nói 36
CHƢƠNG 4: CHƢƠNG TRÌNH DEMO 44
4.1. Thiết kế các chức năng chính 44
3
4.2. Lựa chọn ngôn ngữ lập trình 45
4.3. Xâydựng bộ mẫu nhậndạng 45
4.4. Một số hình ảnh của chƣơng trình 46
ĐÁNH GIÁ KẾT QUẢ VÀ KẾT LUẬN 49
TÀI LIỆU THAM KHẢO 50
4
MỞ ĐẦU
Ngày nay, cùng với sự phát triến nhanh chóng của công nghệ thông tin,
trong đó có công nghệ xử lý âm thanh. Đặc biệt trong lĩnh vực xử lý âm thanh
trong nhậndạngtiếngViệt có một ý nghĩa quan trọng mang lại nhiều ứng
dụng thiết thực cho xã hội, mang lại những thay đổi mang tính cách mạng
trong nhiều lĩnh vực, phát thanh, truyền hình, viễn thông Trong vài thập kỷ
gần đây, nhậndạng là một vấn đề cuốn hút nhiều nhà khoa học ở các lĩnh vực
khác nhau : Toán học, điều khiển, điện tử, sinh học Trƣớc sự phát triển
mạnh mẽ của công nghệ thông tin, vấn đề nhậndạng càng đƣợc quan tâm
nhiều hơn nhằm nâng cao hiệu quả giao tiếp ngƣời - máy.
Trên thế giới, các ngôn ngữ phổ biến nhƣ Anh, Pháp đã có nhiều
phần mềm nhậndạng rất hiệu quả. Ở Việt Nam đã có nhiều công trìnhnghiên
cứu về lĩnh vực nhậndạngtiếng nói (Speech recognition) trên cơ sở lý thuyết
các hệ thống thông minh nhân tạo, nhiều kết quả đã trở thành sản phẩm
thƣơng mại nhƣ ViaVoice, Dragon , các hệ thống bảo mật thông qua nhận
dạng tiếng nói các hệ quay số điện thoại bằng giọng nói Triển khai những
công trìnhnghiêncứu và đƣa vào thực tế ứng dụng vấn đề này là một việc
làm hết sức có ý nghĩa đặc biệt trong giai đoạn công nghiệp hoá hiện đại hoá
hiện nay của nƣớc ta.
Mục đích của đề tài là nghiên cứuxâydựng một chƣơng trìnhnhận
dạng tiếng nói tiếngViệttrongmôi trƣờng có nhiễu với đầu vào là tậptừhạn
chế là tiếngviệt sau đó so sánh với các mẫu có sẵn để đƣa ra kết quả. Ngoài
phần mở đầu và kết luận đồ án gồm 4 chƣơng:
Chƣơng 1 : Tín hiệu – Cơ sở xử lý Tín hiệu
Chƣơng 2 : Đặc trƣng TiếngViệt
Chƣơng 3 : Bài toán nhậndạngTiếng nói
Chƣơng 4: Chƣơng trình Demo
5
CHƢƠNG 1: TÍN HIỆU - CƠ SỞ XỬ LÝ TÍN HIỆU
Cơ sở của xử lý tín hiệu chính là bƣớc đầu của quá trìnhnhậndạng
tiếng nói, khi bạn nói một từ máy sẽ thu giọng của bạn, tiếng nói sẽ đƣợc biểu
diễn dƣới dạng tín hiệu, qua quá trình xử lý tín hiệu, tiếng nói đầu vào sẽ
đƣợc đối chiếu với tập mẫu mà máy đã đƣợc học sẵn để đƣa ra kết quả. Dƣới
đây chính là một sô cách nhìn tổng quan về tín hiệu.
1.1. Tín hiệu
Tín hiệu về mặt toán học là hàm biểu diễn trạng thái vật lý của thông
tin. Nói chung, tín hiệu là một hàm phức tạp của nhiều thông số. Để đơn giản
chúng ta coi tín hiệu là hàm của biến thời gian - tín hiệu có 3 dạng cơ bản:
- Tín hiệu liên tục (tƣơng tự).
- Tín hiệu rời rạc (lấy mẫu).
- Tín hiệu số.
Ba loại tín hiệu này có mặt ở các vị trí của sơ đồ hình 1.1
Tín hiệu liên tục là tín hiệu đƣợc biểu diễn bằng hàm số có biến số thời
gian độc lập (hình 1.2a).
Tín hiệu rời rạc (còn gọi là tín hiệu trích mẫu) là dãy giá trị tín hiệu
liên tục ở từng thời điểm rời rạc và tín hiệu đó đƣợc biểu diễn dƣới dạng một
dãy số (hình 1.2b). Tín hiệu rời rạc gặp ở đầu ra mạch lƣợng tử theo thời gian
(mạch tríchmẫu).
6
Tín hiệu rời rạc lƣợng tử theo biên độ là tín hiệu đƣợc lƣợng tử theo
biên độ, thực chất là dãy giá trị mẫu đƣợc quy tròn theo các mức lƣợng tử
biên độ (hình 1.2c). Tín hiệu này gặp ở đầu ra bộ lƣợng tử biên độ.
Tín hiệu số là tín hiệu lƣợng tử theo biên độ và mã hoá (hình 1.2d). Các
dạng tín hiệu vừa nêu trên đƣợc mô tả trên hình 1.2.
a. Tín hiệu tƣơng tự.
b. Tín hiệu rời rạc (lấy mẫu).
c. Tín hiệu rời rạc lƣợng tử theo biên độ ( lƣợng tử hoá).
d. Tín hiệu số ( gán các bít cơ 2 cho các mẫu đã làm tròn).
Các kiểu tín hiệu này đƣợc biểu diễn trong hình 1. 2
Hình 1.2. mô tả các dạng tín hiệu
7
1.2. Các tín hiệu rời rạc theo thời gian
1.2.1 Các phƣơng pháp biểu diễn tín hiệu rời rạc
Nhƣ ta đã biết, tín hiệu rời rạc theo thời gian x(n) thực chất là hàm của
biến độc lập có kiểu số nguyên. tín hiệu x(n) chỉ đƣợc định nghĩa đối với các
giá trị nguyên của n. Trong khi nghiên cứu, chúng ta giả sử rằng tín hiệu rời
rạc theo thời gian đƣợc định nghĩa đối với giá trị nguyên của n thuộc khoảng -
< n < . Theo qui ƣớc xem x(n) nhƣ là “mẫu thứ n” của tín hiệu, Nếu cho
rằng x(n) là tín hiệu nhận đƣợc do quá trình lấy mẫu của tín hiệu tƣơng tự
xa(t) thì x(n) x(nT), trong đó T là chu kỳ lấy mẫu (thời gian giữa hai lần lấy
mẫu liên tiếp nhau)
Trong tài liệu khi viết x(n) nhƣ là cách viết đơn giản của x(nT) hoặc sẽ
hiểu là T=1.
Hình 1.3. Biểu diễn đồ thị của tín hiệu rời rạc theo thời gian.
Ngoài phƣơng pháp sử dụng đồ thị nhƣ mô tả trên, còn có một số
phƣơng pháp khác tƣơng đối thuận tiện đƣợc sử dụng để biểu diễn tín hiệu
(hoặc dãy) rời rạc theo thời gian.
a. Biểu diễn bằng hàm
Ví dụ: x(n) =
,0
,4
,1
x(n)
2
1.5 1.7
0.9 1.0 1.2
0.7 0.7
- 4 ….
-4 -2 -1 0 1 2 3 5 n
-0.8 -0.8
với n = 1,3
với n = 2
với các giá trị còn lại
8
b. Biểu diễn bằng bảng
Ví dụ:
n … -2` -1 0 1 2 3 4 5 …
x(n 0 0 0 1 4 1 0 0 …
c. Biểu diễn qua dãy số
Tín hiệu hoặc dãy vô tận đƣợc mô tả qua ví dụ dƣới đây.
x(n) = {…0,0 1,4,1,0,0…}
trong ký hiệu dùng để chỉ thời điểm gốc (n = 0).
Dãy x(n) có giá trị bằng 0 với n < 0 đƣợc biểu diễn bằng cách sau:
x(n) = {0,1,4,1,0,0…}
ở đây thời điểm gốc với dãy x(n) có giá trị bằng 0 nếu n<0 đƣợc hiểu
nhƣ là điểm bên trái nhất của dãy.
Dãy hữu hạn có thể đƣợc biểu diễn bằng cách:
x(n) = {3,-1,-2,5,0,4,-1}
Nếu dãy hữu hạn thoả mãn điều kiện x(n) = 0 với n<0 thì dãy có thể
đƣợc biểu diễn theo cách sau:
x(n) = {0,1,4,1}
1.2.2 Một vài tín hiệu rời rạc cơ bản
a. Dãy mẫu đơn vị
Tín hiệu này còn đƣợc gọi là dãy xung đơn vị và đƣợc định nghĩa nhƣ
sau:
,0
,1
)(n
Nhƣ vậy, dãy mẫu đơn vị là tín hiệu chỉ có một giá trị duy nhất bằng
đơn vị tại thời điểm n = 0 trong khi tất cả các giá trị còn lại đều bằng 0.
Tín hiệu dãy xung đơn vị đƣợc mô tả bằng đồ thị sau:
n = 0
n 0
9
1.4 Biểu diễn đồ thị của tín hiệu mẫu đơn vị
b. Dãy nhảy bậc đơn vị
Dãy này còn đƣợc gọi là tín hiệu nhảy bậc đơn vị hay hàm bậc thang và
đƣợc định nghĩa qua hàm sau:
,0
,1
)(nu
Giữa tín hiệu nhẩy bậc đơn vị và tín hiệu xung đơn vị có mối quan hệ:
u(n) =
0
)(
k
kn
và
)1()()( nunun
Tín hiệu nhảy bậc đơn vị đƣợc mô tả trên hình sau:
1.5 Biểu diễn bằng đồ thị của tín hiệu nhãy bậc đơn vị
1.2.3 Phân loại các tín hiệu rời rạc
Các phƣơng pháp toán học đƣợc dùngtrong việc phân tích tín hiệu và
hệ thống rời rạc theo thời gian hoàn toàn phụ thuộc vào đặc thù của tín hiệu.
)(n
1
-2 -1 0 1 2 3 4
n
n>0
n<0
0 1 2 3 4 5 6 n
U(n)
[...]... nhỏ, trung bình hoặc lớn - Nhậndạngtrongmôi trƣờng có nhiễu hay không có nhiễu Dựa vào kích thƣớc từ điển, các hệ thống nhậndạngtiếng nói còn đƣợc chia thành 3 loại chính sau : - Các hệ thống từ điển nhỏ: thƣờng từ 20- 200 từ - Các hệ thống từ điển trung bình: thƣờng từ 201- 1000 từ - Các hệ thống từ điển cỡ lớn: có từ trên 1000 từ 3.1 Một số khái niệm cơ bản về âm thanh và tiếng nói 3.1.1 Âm thanh... +) Nhậndạngtiếng nói là một quá trìnhnhận thức Thông tin về ngữ nghĩa (semantics) và suy đoán (pragmatics) có giá trị trong quá trìnhnhậndạngtiếng nói, nhất là khi thông tin về âm học là không rõ ràng Người ta chia các dạng bài toán nhậndạngtiếng nói theo một số tiêu chí sau: - Nhậndạngtiếng nói phụ thuộc ngƣời nói/ độc lập ngƣời nói 24 - Kiểu lời nói: liên tục hay rời rạc - Kích thƣớc từ. .. đứng sau là trật tự phổ biến của kết cấu câu tiếngViệtTiếngViệt rất coi trọng phƣơng thức trật tựtừ và hƣ từ ngoài ra trongtiếngViệt còn dùng phƣơng thức là ngữ điệu Phƣơng thức hƣ từ cũng là phƣơng thức ngữ pháp chủ yếu của tiếngViệt Nhờ hƣ từ mà tổ hợp “anh của em” khác với tổ hợp “anh và em”, “anh vì em” Hƣ từ cùng với trật tựtừ cho phép tiếngViệt tạo ra nhiều câu cùng có nội dung thông... 3: BÀI TOÁN NHẬNDẠNGTIẾNG NÓI Khái quát về nhậndạng Hiện nay chƣa có một định nghĩa chung nào về nhận dạng, nhƣng về bản chất của quá trìnhnhậndạng một đối tƣợng chƣa biết nào đó là sắp xếp đƣa đối tƣợng chƣa biết về lớp các đối tƣợng đã biết Thực hiện việc so sánh để đƣa ra kết luận đối tƣợng cần nhậndạng thuộc lớp đối tƣợng nào đã biết Những yếu tố cần quan tâm trong bài toán nhậndạng Không... mẫu thực hiện trong đồ án là 11025 mẫu trên giây thì chu kỳ Pitch nằm trong khoảng 30 đến 220 28 3.2 Một số phƣơng pháp nhậndạngtiếng nói 3.2.1 Một số khuynh hƣớng nghiên cứu nhận dạngtiếng nói Hiện nay trên thế giới có 4 khuynh hƣớng nghiên cứu nhận dạngtiếng nói, gồm : - Hƣớng tiếp cận âm học – ngữ âm học - Hƣớng tiếp cận nhậndạng theo mẫu thống kê - Hƣớng tiếp cận trí tuệ nhân tạo - Hƣớng tiếp... thức này khó có thể đầy đủ đƣợc nên nhậndạngtiếng nói theo khuynh hƣớng này vẫn còn là chủ đề nghiên cứu thú vị nhƣng cần đƣợc nghiên cứu và tìm hiểu sâu sắc hơn để có thể áp dụng thành công vào các hệ thống nhậndạngtiếng nói thực tế 3.2.1.2 Hướng tiếp cận nhậndạng theo mẫu thống kê Nhậndạngtiếng nói theo khuynh hƣớng này là sử dụng trực tiếp các mẫu tín hiệu tiếng nói mà không phải xác định rõ... dạngtiếng nói Nhậndạngtiếng nói là một quá trìnhnhậndạng mẫu, với mục đích là phân lớp (classify) thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã đƣợc học trƣớc đó và lƣu trữ trong bộ nhớ Các mẫu là các đơn vị nhận dạng, chúng có thể là các từ, hoặc các âm vị Nhậndạngtiếng nói là một kỹ thuật có thể ứng dụngtrong rất nhiều lĩnh vực của cuộc sống : trong việc điều khiển... ngữ âm học) và không phải phân đoạn tiếng nói Các hệ thống nhậndạngtiếng nói theo khuynh hƣớng này đƣợc thực hiện theo hai bƣớc: Bƣớc thứ nhất: Sử dụngtập mẫu tiếng nói (cơ sở dữ liệu tiếng nói) để huấn luyện hệ thống, “tri thức” về tiếng nói của hệ thống nhậndạngtiếng nói đƣợc tích luỹ thông qua quá trình huấn luyện Bƣớc thứ hai: Nhận dạng, thực hiện so sánh tiếng nói chƣa biết với các mẫu đã... thiện đƣợc tính chính xác nhậndạng và giảm đƣợc sự tính toán 3.2.1.3 Hướng tiếp cận trí tuệ nhân tạo cho nhậndạngtiếng nói Nhậndạngtiếng nói theo hƣớng trí tuệ nhân tạo là sự kết hợp giữa khuynh hƣớng âm học với khuynh hƣớng nhậndạng mẫu vì nó khai thác các ý tƣởng của hai khuynh hƣớng đó Nhậndạngtiếng nói theo khuynh hƣớng này là cố gắng tự động hoá thủ tục nhậndạng theo cách mà con ngƣời... không phải tiếng nói sinh ra trongmôi trƣờng xung quanh Ngay cả bộ phát âm của con ngƣời đôi khi cũng sinh ra nhiễu, chẳng hạn nhƣ tiếng thở, tiếng bật lƣỡi, 33 tiếng chép miệng cả khi môi chạm vào micro Không dễ gì có thể lọc đƣợc mọi thứ nhiễu, ta chỉ tìm cách tối thiểu hoá chúng để có thể nâng cao chất lƣợng của hệ thống nhậndạng Với tín hiệu tiếng nói là sn, tín hiệu nhận đƣợc sau quá trình thu . BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG…………… LUẬN VĂN Nghiên cứu xây dựng chương trình nhận dạng tập từ hạn chế Tiếng Việt trong môi trường nhiễu 1 LỜI CẢM ƠN Em xin chân. ta. Mục đích của đề tài là nghiên cứu xây dựng một chƣơng trình nhận dạng tiếng nói tiếng Việt trong môi trƣờng có nhiễu với đầu vào là tập từ hạn chế là tiếng việt sau đó so sánh với các. TRƢNG TIẾNG VIỆT 18 2.1. Đặc điểm của Tiếng Việt 18 2.2. Đặc điểm ngữ âm 18 2.3. Đặc điểm từ vựng 18 2.4. Đặc điểm ngữ pháp 19 2.5. Âm tiết trong tiếng Việt 20 CHƢƠNG 3: BÀI TOÁN NHẬN DẠNG TIẾNG