1. Trang chủ
  2. » Luận Văn - Báo Cáo

LUẬN VĂN: Nghiên cứu xây dựng chương trình nhận dạng tập từ hạn chế Tiếng Việt trong môi trường nhiễu pot

51 480 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 51
Dung lượng 855,41 KB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG…………… LUẬN VĂN Nghiên cứu xây dựng chương trình nhận dạng tập từ hạn chế Tiếng Việt trong môi trường nhiễu 1 LỜI CẢM ƠN Em xin chân thành cảm ơn Thầy giáo, Thạc sĩ Võ Văn Tùng – Công tác tại Cục kỹ thuật nghiệp vụ I, Bộ công an, ngƣời đã trực tiếp hƣớng dẫn tận tình chỉ bảo em trong suốt quá trình làm tốt nghiệp. Em xin chân thành cảm ơn tất cả các thầy cô giáo trong khoa Công nghệ thông tin - Trƣờng ĐHDL Hải Phòng, những ngƣời đã nhiệt tình giảng dạy và truyền đạt những kiến thức cần thiết trong suốt thời gian em học tập tại trƣờng, để em hoàn thành tốt đề tài này. Em cũng xin chân thành cảm ơn Ban lãnh đạo, tất cả các cô chú, các anh chị tại Công ty Cổ phần Thiết bị Bƣu điện, đã giúp đỡ và tạo mọi điều kiện tốt cho em trong thời gian thực tập và làm tốt nghiệp tại Trung tâm. Trong quá trình làm tốt nghiệp tuy có nhiều cố gắng nhƣng không thể tránh khỏi những thiếu sót, em rất mong nhận đƣợc sự góp ý quý báu của tất cả các thầy cô giáo, của hội đồng phản biện và của tất cả các bạn. Em xin chân thành cảm ơn! Hải Phòng, ngày tháng 7 năm 2009 Sinh viên Trƣơng Ngọc Sơn. 2 MỤC LỤC LỜI CẢM ƠN 1 MỤC LỤC 2 MỞ ĐẦU 4 CHƢƠNG 1: TÍN HIỆU - CƠ SỞ XỬ LÝ TÍN HIỆU 5 1.1. Tín hiệu 5 1.2. Các tín hiệu rời rạc theo thời gian 7 1.2.1 Các phƣơng pháp biểu diễn tín hiệu rời rạc 7 1.2.2 Một vài tín hiệu rời rạc cơ bản 8 1.2.3 Phân loại các tín hiệu rời rạc 9 1.2.4 Các thao tác xử lý đơn giản trên tín hiệu rời rạc theo thời gian. 13 1.2.5 Biểu diễn hệ thống rời rạc theo thời gian bằng sơ đồ khối 14 1.2.6 Phân loại các hệ thống rời rạc theo thời gian 16 CHƢƠNG 2: ĐẶC TRƢNG TIẾNG VIỆT 18 2.1. Đặc điểm của Tiếng Việt 18 2.2. Đặc điểm ngữ âm 18 2.3. Đặc điểm từ vựng 18 2.4. Đặc điểm ngữ pháp 19 2.5. Âm tiết trong tiếng Việt 20 CHƢƠNG 3: BÀI TOÁN NHẬN DẠNG TIẾNG NÓI 23 3.1. Một số khái niệm cơ bản về âm thanh và tiếng nói. 25 3.1.1 Âm thanh 25 3.1.2 Các đặc trƣng của Tiếng nói 27 3.2. Một số phƣơng pháp nhận dạng tiếng nói 29 3.2.1 Một số khuynh hƣớng nghiên cứu nhận dạng tiếng nói 29 3.2.2 Các đơn vị xử lý tiếng nói 33 3.2.3 Một số kỹ thuật khử nhiễu 35 3.2.4 Một số phƣơng pháp nhận dạng tiếng nói 36 CHƢƠNG 4: CHƢƠNG TRÌNH DEMO 44 4.1. Thiết kế các chức năng chính 44 3 4.2. Lựa chọn ngôn ngữ lập trình 45 4.3. Xây dựng bộ mẫu nhận dạng 45 4.4. Một số hình ảnh của chƣơng trình 46 ĐÁNH GIÁ KẾT QUẢ VÀ KẾT LUẬN 49 TÀI LIỆU THAM KHẢO 50 4 MỞ ĐẦU Ngày nay, cùng với sự phát triến nhanh chóng của công nghệ thông tin, trong đó có công nghệ xử lý âm thanh. Đặc biệt trong lĩnh vực xử lý âm thanh trong nhận dạng tiếng Việt có một ý nghĩa quan trọng mang lại nhiều ứng dụng thiết thực cho xã hội, mang lại những thay đổi mang tính cách mạng trong nhiều lĩnh vực, phát thanh, truyền hình, viễn thông Trong vài thập kỷ gần đây, nhận dạng là một vấn đề cuốn hút nhiều nhà khoa học ở các lĩnh vực khác nhau : Toán học, điều khiển, điện tử, sinh học Trƣớc sự phát triển mạnh mẽ của công nghệ thông tin, vấn đề nhận dạng càng đƣợc quan tâm nhiều hơn nhằm nâng cao hiệu quả giao tiếp ngƣời - máy. Trên thế giới, các ngôn ngữ phổ biến nhƣ Anh, Pháp đã có nhiều phần mềm nhận dạng rất hiệu quả. Ở Việt Nam đã có nhiều công trình nghiên cứu về lĩnh vực nhận dạng tiếng nói (Speech recognition) trên cơ sở lý thuyết các hệ thống thông minh nhân tạo, nhiều kết quả đã trở thành sản phẩm thƣơng mại nhƣ ViaVoice, Dragon , các hệ thống bảo mật thông qua nhận dạng tiếng nói các hệ quay số điện thoại bằng giọng nói Triển khai những công trình nghiên cứu và đƣa vào thực tế ứng dụng vấn đề này là một việc làm hết sức có ý nghĩa đặc biệt trong giai đoạn công nghiệp hoá hiện đại hoá hiện nay của nƣớc ta. Mục đích của đề tài là nghiên cứu xây dựng một chƣơng trình nhận dạng tiếng nói tiếng Việt trong môi trƣờng có nhiễu với đầu vào là tập từ hạn chế là tiếng việt sau đó so sánh với các mẫu có sẵn để đƣa ra kết quả. Ngoài phần mở đầu và kết luận đồ án gồm 4 chƣơng: Chƣơng 1 : Tín hiệu – Cơ sở xử lý Tín hiệu Chƣơng 2 : Đặc trƣng Tiếng Việt Chƣơng 3 : Bài toán nhận dạng Tiếng nói Chƣơng 4: Chƣơng trình Demo 5 CHƢƠNG 1: TÍN HIỆU - CƠ SỞ XỬ LÝ TÍN HIỆU Cơ sở của xử lý tín hiệu chính là bƣớc đầu của quá trình nhận dạng tiếng nói, khi bạn nói một từ máy sẽ thu giọng của bạn, tiếng nói sẽ đƣợc biểu diễn dƣới dạng tín hiệu, qua quá trình xử lý tín hiệu, tiếng nói đầu vào sẽ đƣợc đối chiếu với tập mẫu mà máy đã đƣợc học sẵn để đƣa ra kết quả. Dƣới đây chính là một sô cách nhìn tổng quan về tín hiệu. 1.1. Tín hiệu Tín hiệu về mặt toán học là hàm biểu diễn trạng thái vật lý của thông tin. Nói chung, tín hiệu là một hàm phức tạp của nhiều thông số. Để đơn giản chúng ta coi tín hiệu là hàm của biến thời gian - tín hiệu có 3 dạng cơ bản: - Tín hiệu liên tục (tƣơng tự). - Tín hiệu rời rạc (lấy mẫu). - Tín hiệu số. Ba loại tín hiệu này có mặt ở các vị trí của sơ đồ hình 1.1 Tín hiệu liên tục là tín hiệu đƣợc biểu diễn bằng hàm số có biến số thời gian độc lập (hình 1.2a). Tín hiệu rời rạc (còn gọi là tín hiệu trích mẫu) là dãy giá trị tín hiệu liên tục ở từng thời điểm rời rạc và tín hiệu đó đƣợc biểu diễn dƣới dạng một dãy số (hình 1.2b). Tín hiệu rời rạc gặp ở đầu ra mạch lƣợng tử theo thời gian (mạch tríchmẫu). 6 Tín hiệu rời rạc lƣợng tử theo biên độ là tín hiệu đƣợc lƣợng tử theo biên độ, thực chất là dãy giá trị mẫu đƣợc quy tròn theo các mức lƣợng tử biên độ (hình 1.2c). Tín hiệu này gặp ở đầu ra bộ lƣợng tử biên độ. Tín hiệu số là tín hiệu lƣợng tử theo biên độ và mã hoá (hình 1.2d). Các dạng tín hiệu vừa nêu trên đƣợc mô tả trên hình 1.2. a. Tín hiệu tƣơng tự. b. Tín hiệu rời rạc (lấy mẫu). c. Tín hiệu rời rạc lƣợng tử theo biên độ ( lƣợng tử hoá). d. Tín hiệu số ( gán các bít cơ 2 cho các mẫu đã làm tròn). Các kiểu tín hiệu này đƣợc biểu diễn trong hình 1. 2 Hình 1.2. mô tả các dạng tín hiệu 7 1.2. Các tín hiệu rời rạc theo thời gian 1.2.1 Các phƣơng pháp biểu diễn tín hiệu rời rạc Nhƣ ta đã biết, tín hiệu rời rạc theo thời gian x(n) thực chất là hàm của biến độc lập có kiểu số nguyên. tín hiệu x(n) chỉ đƣợc định nghĩa đối với các giá trị nguyên của n. Trong khi nghiên cứu, chúng ta giả sử rằng tín hiệu rời rạc theo thời gian đƣợc định nghĩa đối với giá trị nguyên của n thuộc khoảng - < n < . Theo qui ƣớc xem x(n) nhƣ là “mẫu thứ n” của tín hiệu, Nếu cho rằng x(n) là tín hiệu nhận đƣợc do quá trình lấy mẫu của tín hiệu tƣơng tự xa(t) thì x(n) x(nT), trong đó T là chu kỳ lấy mẫu (thời gian giữa hai lần lấy mẫu liên tiếp nhau) Trong tài liệu khi viết x(n) nhƣ là cách viết đơn giản của x(nT) hoặc sẽ hiểu là T=1. Hình 1.3. Biểu diễn đồ thị của tín hiệu rời rạc theo thời gian. Ngoài phƣơng pháp sử dụng đồ thị nhƣ mô tả trên, còn có một số phƣơng pháp khác tƣơng đối thuận tiện đƣợc sử dụng để biểu diễn tín hiệu (hoặc dãy) rời rạc theo thời gian. a. Biểu diễn bằng hàm Ví dụ: x(n) = ,0 ,4 ,1 x(n) 2 1.5 1.7 0.9 1.0 1.2 0.7 0.7 - 4 …. -4 -2 -1 0 1 2 3 5 n -0.8 -0.8 với n = 1,3 với n = 2 với các giá trị còn lại 8 b. Biểu diễn bằng bảng Ví dụ: n … -2` -1 0 1 2 3 4 5 … x(n 0 0 0 1 4 1 0 0 … c. Biểu diễn qua dãy số Tín hiệu hoặc dãy vô tận đƣợc mô tả qua ví dụ dƣới đây. x(n) = {…0,0 1,4,1,0,0…} trong ký hiệu dùng để chỉ thời điểm gốc (n = 0). Dãy x(n) có giá trị bằng 0 với n < 0 đƣợc biểu diễn bằng cách sau: x(n) = {0,1,4,1,0,0…} ở đây thời điểm gốc với dãy x(n) có giá trị bằng 0 nếu n<0 đƣợc hiểu nhƣ là điểm bên trái nhất của dãy. Dãy hữu hạn có thể đƣợc biểu diễn bằng cách: x(n) = {3,-1,-2,5,0,4,-1} Nếu dãy hữu hạn thoả mãn điều kiện x(n) = 0 với n<0 thì dãy có thể đƣợc biểu diễn theo cách sau: x(n) = {0,1,4,1} 1.2.2 Một vài tín hiệu rời rạc cơ bản a. Dãy mẫu đơn vị Tín hiệu này còn đƣợc gọi là dãy xung đơn vị và đƣợc định nghĩa nhƣ sau: ,0 ,1 )(n Nhƣ vậy, dãy mẫu đơn vị là tín hiệu chỉ có một giá trị duy nhất bằng đơn vị tại thời điểm n = 0 trong khi tất cả các giá trị còn lại đều bằng 0. Tín hiệu dãy xung đơn vị đƣợc mô tả bằng đồ thị sau: n = 0 n 0 9 1.4 Biểu diễn đồ thị của tín hiệu mẫu đơn vị b. Dãy nhảy bậc đơn vị Dãy này còn đƣợc gọi là tín hiệu nhảy bậc đơn vị hay hàm bậc thang và đƣợc định nghĩa qua hàm sau: ,0 ,1 )(nu Giữa tín hiệu nhẩy bậc đơn vị và tín hiệu xung đơn vị có mối quan hệ: u(n) = 0 )( k kn và )1()()( nunun Tín hiệu nhảy bậc đơn vị đƣợc mô tả trên hình sau: 1.5 Biểu diễn bằng đồ thị của tín hiệu nhãy bậc đơn vị 1.2.3 Phân loại các tín hiệu rời rạc Các phƣơng pháp toán học đƣợc dùng trong việc phân tích tín hiệu và hệ thống rời rạc theo thời gian hoàn toàn phụ thuộc vào đặc thù của tín hiệu. )(n 1 -2 -1 0 1 2 3 4 n n>0 n<0 0 1 2 3 4 5 6 n U(n) [...]... nhỏ, trung bình hoặc lớn - Nhận dạng trong môi trƣờng có nhiễu hay không có nhiễu Dựa vào kích thƣớc từ điển, các hệ thống nhận dạng tiếng nói còn đƣợc chia thành 3 loại chính sau : - Các hệ thống từ điển nhỏ: thƣờng từ 20- 200 từ - Các hệ thống từ điển trung bình: thƣờng từ 201- 1000 từ - Các hệ thống từ điển cỡ lớn: có từ trên 1000 từ 3.1 Một số khái niệm cơ bản về âm thanh và tiếng nói 3.1.1 Âm thanh... +) Nhận dạng tiếng nói là một quá trình nhận thức Thông tin về ngữ nghĩa (semantics) và suy đoán (pragmatics) có giá trị trong quá trình nhận dạng tiếng nói, nhất là khi thông tin về âm học là không rõ ràng Người ta chia các dạng bài toán nhận dạng tiếng nói theo một số tiêu chí sau: - Nhận dạng tiếng nói phụ thuộc ngƣời nói/ độc lập ngƣời nói 24 - Kiểu lời nói: liên tục hay rời rạc - Kích thƣớc từ. .. đứng sau là trật tự phổ biến của kết cấu câu tiếng Việt Tiếng Việt rất coi trọng phƣơng thức trật tự từ và hƣ từ ngoài ra trong tiếng Việt còn dùng phƣơng thức là ngữ điệu Phƣơng thức hƣ từ cũng là phƣơng thức ngữ pháp chủ yếu của tiếng Việt Nhờ hƣ từ mà tổ hợp “anh của em” khác với tổ hợp “anh và em”, “anh vì em” Hƣ từ cùng với trật tự từ cho phép tiếng Việt tạo ra nhiều câu cùng có nội dung thông... 3: BÀI TOÁN NHẬN DẠNG TIẾNG NÓI Khái quát về nhận dạng Hiện nay chƣa có một định nghĩa chung nào về nhận dạng, nhƣng về bản chất của quá trình nhận dạng một đối tƣợng chƣa biết nào đó là sắp xếp đƣa đối tƣợng chƣa biết về lớp các đối tƣợng đã biết Thực hiện việc so sánh để đƣa ra kết luận đối tƣợng cần nhận dạng thuộc lớp đối tƣợng nào đã biết Những yếu tố cần quan tâm trong bài toán nhận dạng Không... mẫu thực hiện trong đồ án là 11025 mẫu trên giây thì chu kỳ Pitch nằm trong khoảng 30 đến 220 28 3.2 Một số phƣơng pháp nhận dạng tiếng nói 3.2.1 Một số khuynh hƣớng nghiên cứu nhận dạng tiếng nói Hiện nay trên thế giới có 4 khuynh hƣớng nghiên cứu nhận dạng tiếng nói, gồm : - Hƣớng tiếp cận âm học – ngữ âm học - Hƣớng tiếp cận nhận dạng theo mẫu thống kê - Hƣớng tiếp cận trí tuệ nhân tạo - Hƣớng tiếp... thức này khó có thể đầy đủ đƣợc nên nhận dạng tiếng nói theo khuynh hƣớng này vẫn còn là chủ đề nghiên cứu thú vị nhƣng cần đƣợc nghiên cứu và tìm hiểu sâu sắc hơn để có thể áp dụng thành công vào các hệ thống nhận dạng tiếng nói thực tế 3.2.1.2 Hướng tiếp cận nhận dạng theo mẫu thống kê Nhận dạng tiếng nói theo khuynh hƣớng này là sử dụng trực tiếp các mẫu tín hiệu tiếng nói mà không phải xác định rõ... dạng tiếng nói Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với mục đích là phân lớp (classify) thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã đƣợc học trƣớc đó và lƣu trữ trong bộ nhớ Các mẫu là các đơn vị nhận dạng, chúng có thể là các từ, hoặc các âm vị Nhận dạng tiếng nói là một kỹ thuật có thể ứng dụng trong rất nhiều lĩnh vực của cuộc sống : trong việc điều khiển... ngữ âm học) và không phải phân đoạn tiếng nói Các hệ thống nhận dạng tiếng nói theo khuynh hƣớng này đƣợc thực hiện theo hai bƣớc: Bƣớc thứ nhất: Sử dụng tập mẫu tiếng nói (cơ sở dữ liệu tiếng nói) để huấn luyện hệ thống, “tri thức” về tiếng nói của hệ thống nhận dạng tiếng nói đƣợc tích luỹ thông qua quá trình huấn luyện Bƣớc thứ hai: Nhận dạng, thực hiện so sánh tiếng nói chƣa biết với các mẫu đã... thiện đƣợc tính chính xác nhận dạng và giảm đƣợc sự tính toán 3.2.1.3 Hướng tiếp cận trí tuệ nhân tạo cho nhận dạng tiếng nói Nhận dạng tiếng nói theo hƣớng trí tuệ nhân tạo là sự kết hợp giữa khuynh hƣớng âm học với khuynh hƣớng nhận dạng mẫu vì nó khai thác các ý tƣởng của hai khuynh hƣớng đó Nhận dạng tiếng nói theo khuynh hƣớng này là cố gắng tự động hoá thủ tục nhận dạng theo cách mà con ngƣời... không phải tiếng nói sinh ra trong môi trƣờng xung quanh Ngay cả bộ phát âm của con ngƣời đôi khi cũng sinh ra nhiễu, chẳng hạn nhƣ tiếng thở, tiếng bật lƣỡi, 33 tiếng chép miệng cả khi môi chạm vào micro Không dễ gì có thể lọc đƣợc mọi thứ nhiễu, ta chỉ tìm cách tối thiểu hoá chúng để có thể nâng cao chất lƣợng của hệ thống nhận dạng Với tín hiệu tiếng nói là sn, tín hiệu nhận đƣợc sau quá trình thu . BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG…………… LUẬN VĂN Nghiên cứu xây dựng chương trình nhận dạng tập từ hạn chế Tiếng Việt trong môi trường nhiễu 1 LỜI CẢM ƠN Em xin chân. ta. Mục đích của đề tài là nghiên cứu xây dựng một chƣơng trình nhận dạng tiếng nói tiếng Việt trong môi trƣờng có nhiễu với đầu vào là tập từ hạn chế là tiếng việt sau đó so sánh với các. TRƢNG TIẾNG VIỆT 18 2.1. Đặc điểm của Tiếng Việt 18 2.2. Đặc điểm ngữ âm 18 2.3. Đặc điểm từ vựng 18 2.4. Đặc điểm ngữ pháp 19 2.5. Âm tiết trong tiếng Việt 20 CHƢƠNG 3: BÀI TOÁN NHẬN DẠNG TIẾNG

Ngày đăng: 31/03/2014, 20:20

HÌNH ẢNH LIÊN QUAN

Hình 1.2.  mô tả các dạng tín hiệu - LUẬN VĂN: Nghiên cứu xây dựng chương trình nhận dạng tập từ hạn chế Tiếng Việt trong môi trường nhiễu pot
Hình 1.2. mô tả các dạng tín hiệu (Trang 7)
Hình 1.3. Biểu diễn đồ thị của tín hiệu rời rạc theo thời gian. - LUẬN VĂN: Nghiên cứu xây dựng chương trình nhận dạng tập từ hạn chế Tiếng Việt trong môi trường nhiễu pot
Hình 1.3. Biểu diễn đồ thị của tín hiệu rời rạc theo thời gian (Trang 8)
Hình  dưới  mô  tả  một  hệ  thống  (bộ  cộng)  thực  hiện  cộng  hai  dãy  tín  hiệu với kết quả là một dãy khác - dãy y(n) (dãy tổng) - LUẬN VĂN: Nghiên cứu xây dựng chương trình nhận dạng tập từ hạn chế Tiếng Việt trong môi trường nhiễu pot
nh dưới mô tả một hệ thống (bộ cộng) thực hiện cộng hai dãy tín hiệu với kết quả là một dãy khác - dãy y(n) (dãy tổng) (Trang 15)
+  3  bảng  còn  lại,  mỗi  bảng  gồm  một  trường  khóa  ID  và  100  trường  dạng số double để lưu 30 bộ hệ số LPC-10 (mỗi bộ hệ số LPC-10 gồm 10 số  đặc trưng, 30 bộ hệ số là 300 con số tương ứng với 300 trường của tổng 3  bảng) - LUẬN VĂN: Nghiên cứu xây dựng chương trình nhận dạng tập từ hạn chế Tiếng Việt trong môi trường nhiễu pot
3 bảng còn lại, mỗi bảng gồm một trường khóa ID và 100 trường dạng số double để lưu 30 bộ hệ số LPC-10 (mỗi bộ hệ số LPC-10 gồm 10 số đặc trưng, 30 bộ hệ số là 300 con số tương ứng với 300 trường của tổng 3 bảng) (Trang 47)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w