1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cao đồ án tốt nghiệp nhận dạng một số phụ âm bật tiếng việt

74 686 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 74
Dung lượng 1,34 MB

Nội dung

Những nhân tố quan trọng giúp cho sự phát triển của công nghệ nhận dạng này có thể kểđến như sự phát triển của các hệ thống phân tích phổ âm thanh 1946 thểhiện dưới dạng trực quan các tí

Trang 1

MỤC LỤC

LỜI NÓI ĐẦU 2

I TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI 3

1 Nhận dạng tiếng nói nói chung 3

2 Nhận dạng tiếng Việt 4

II KHÁI QUÁT CHUNG VỀ MÁY HỌC 7

1 Khái niệm máy học: 7

2 Thiết kế hệ thống học 9

3 Phân lớp bằng hệ thống máy học 13

4 Phương pháp xây dựng máy học 14

III LÝ THUYẾT XỬ LÝ TIẾNG NÓI 23

1 Cơ sở lý thuyết âm thanh 23

2 Cơ sở lý thuyết tiếng nói và nhận dạng 26

2 Tìm hiểu đặc điểm của từ trong tiếng nói 46

3 Những nét khái quát chính về phụ âm 47

4 Cấu trúc tiếng Việt dưới góc độ công nghệ thông tin 50

5 Thuật toán tách phụ âm: 55

V XÂY DỰNG CHƯƠNG TRÌNH 56

1 Tổng quan về bài toán nhận dạng tiếng nói 56

2 Mô hình chung giải quyết bài toán 59

3 Phân tích đặc trưng tiếng Việt 59

4 Thu âm 62

5 Tiền xử lý tín hiệu tiếng nói 63

6 Mã dự báo tuyến tính tín hiệu tiếng nói – LPC 65

7 Xác định phần phụ âm đầu 67

8 Thiết kế mạng neural 68

9 Giới thiệu chương trình 69

KẾT LUẬN 73

TÀI LIỆU THAM KHẢO 74

Trang 2

LỜI NÓI ĐẦU

Đã có nhiều công trình nghiên cứu về lĩnh vực nhận dạng tiếng nói(Speech recognition) trên cơ sở lý thuyết các hệ thống thông minh nhântạo, nhiều kết quả đã trở thành sản phẩm thương mại như ViaVoice,Dragon , các hệ thống bảo mật thông qua nhận dạng tiếng nói, các hệ quay

số điện thoại bằng giọng nói Triển khai những công trình nghiên cứu vàđưa vào thực tế ứng dụng vấn đề này là một việc làm hết sức có ý nghĩađặc biệt trong giai đoạn công nghiệp hoá hiện đại hoá hiện nay

Tuy nhiên do tính phức tạp của vấn đề mà kết quả của những côngtrình có thể có nhiều phạm vi áp dụng khác nhau Mỗi công trình ứng dụngcho một phạm vi nào đó, mong muốn chung là có một hệ thống nhận dạngđược toàn bộ các từ, của nhiều người nói Những việc phải giải quyết củabài toán này còn nhiều khó khăn nhất là với tiếng Việt

Mạng neural (Neural Netwok) là một công cụ có khả năng giải quyếtđược nhiều lớp bài toán khó, thực tế những nghiên cứu về mạng neural đưa

ra một cách tiếp cận hiệu quả trong nhận dạng tiếng nói Với bài toán nhận dạng một số phụ âm bật tiếng Việt, thông qua mạng neural hy vọng góp

phần nâng cao hiệu quả của hệ thống nhận dạng

Sau thời gian nghiên cứu không dài với sự giúp đỡ nhiệt tình củathầy hướng dẫn PGS_TS và các thầy cô giáo của khoa CNTT em đã hoànthành đúng thời hạn các nhiệm vụ đặt ra trong quá trình nghiên cứu Emxin chân thành cảm các thầy đã tận tình giúp đỡ em, cảm tất cả các thànhviên trong lớp đã tạo điều kiện tốt nhất để em hoàn thành tốt đề tài củamình Em mong sự đóng góp ý kiến của thầy cô để em tiếp tục hoàn thiện

và phát triển đề tài của mình

Trang 3

I. TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI

1 Nhận dạng tiếng nói nói chung.

Nhận dạng tiếng nói đã có lịch sử khoảng 40 năm nay Những nhân

tố quan trọng giúp cho sự phát triển của công nghệ nhận dạng này có thể kểđến như sự phát triển của các hệ thống phân tích phổ âm thanh (1946) thểhiện dưới dạng trực quan các tín hiệu âm, lý thuyết tạo âm thanh tiếng nóicủa con người (1948) và tất nhiên phải kể đến sự xuất hiện và phát triểnmáy tính số thương mại đầu tiên trên thế giới (1958)

Hệ thống nhận dạng tiếng nói đầu tiên có khả năng nhận dạng từ rờirạc và phụ thuộc người nói để phân tích và nhận dạng các chữ số hoặc các

từ đơn âm sử dụng đặc tính miền thời gian và các ngân hàng bộ lọc tương

tự Cũng như vậy với phương pháp âm học hệ thống nhận dạng âm vị phụthuộc người nói và không phụ thuộc người nói đã được thiết kế, xây dựngmặc dù mới cho được những kết quả còn rất khiêm tốn

Trong thập kỉ 70, với sự phát triển của các thuật toán phân tích tínhiệu (mô hình dự đoán tuyến tính, so sánh mẫu theo thời gian) công nghệnhận dạng tiếng nói được tiếp tục phát triển mạnh mẽ Với các phươngpháp này hệ thống nhận dạng vớí số lượng từ rất lớn không phụ thuộcngười nói đã được thực thi

Một mốc quan trọng trong hướng nghiên cứu nhận dạng tiếng nóiphải kể đến là dự án DARPA SUR (Department of Defense AdvancedResearch Projects Agency Speech Understanding Research) được thực hiệntại bộ quốc phòng Mĩ từ năm 1971 đến năm 1976 Mục tiêu của dự án nhậndạng tiếng nói liên tục với nhiều giọng nói trong môi trường yên tĩnh

Trang 4

Năm 1984, hãng IBM đã phát triển hệ thống nhận dạng tiếng nói đầutiên, hệ thống này được trợ giúp bởi một máy tính lớn có thời gian tính toánchậm và có khả năng nhận dạng 5000 từ tiếng Anh rời rạc.

Năm 1988 tại Trung tâm khoa học Heidelberg (Đức) phát triển hệthống TANGORA nhận dạng tiếng Đức, hệ thống này có khả năng nhậndạng 20000 từ đến 30000 từ rời rạc

Đặc biệt, năm 1974 tại Trung tâm tính toán viện Hàn lâm Liên Xô,một tập thể các nhà khoa học đã đưa ra hệ thống nhận dạng với 10 chữ số

và 100 câu lệnh phục vụ cho điều khiển quỹ đạo đạn đạo của tên lửa và vệtinh

2 Nhận dạng tiếng Việt.

Đối với tiếng Việt do có đặc thù riêng chúng ta không thể ứng dụngnguyên vẹn các thành quả nghiên cứu của các ngôn ngữ khác (tiếng Anh,Đức, Nga…) vào nhận dạng tiếng Việt Vì thế nghiên cứu đặc trưng và xâydựng chương trình nhận dạng cho tiếng Việt là hết sức quan trọng

Trong những năm qua đã có nhiều công trình, luận án nghiên cứunhận dạng tiếng nói, tuy nhiên kết quả đạt được chưa nhiều Đáng chú ý lànhững công trình nghiên cứu như

- “Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lýngôn ngữ tiếng Việt” do GS Bạch Hưng Khang làm chủ nhiệm.Kết quả đạt 70% - 90% cho giọng chuẩn Hà Nội

- “Điều khiển robot bằng tiếng Việt theo hướng dẫn thông minh“

do tiến sĩ Nguyễn Thiện Thành và các nhà khoa học thuộc sởKHCN TP.HCM nghiên cứu

Trang 5

- Hệ thống nhận dạng tiếng nói có thanh điệu đầu tiên trên thế giớivới bộ 10 chữ số tiếng Việt và 200 từ phát âm rời rạc do tiến siNguyễn Anh Tuấn thuộc Trung tâm tính toán viện hàn lâm Liên

Xô nghiên cứu Kết quả chính xác khoảng 97% - 98%

- Và một số luận án tiến sĩ, thạc sĩ khác đã nghiên cứu về nhậndạng tiếng nói tiếng Việt

Dù là hướng nghiên cứu nào thì bài toán nhận dạng phải thuộc lớp

mô hình bài toán nhận dạng sau:

- Phân theo số người nói

o Nhận dạng một giọng nói

o Nhận dạng nhiều giọng nói

- Phân theo số lượng từ

o Số lượng từ hữu hạn

o Số lượng từ không hạn chế

o Nhận dạng nói từng từ và nói cả câu

- Phân theo môi trường nói

o Có nhiễu

o Không có nhiễu

Ngoài ra nhận dạng tiếng Việt cần lưu ý tới đặc điểm vùng như sau:

Trang 6

- Giọng nói của người miền Trung.

- Giọng nói của người miền Nam

- Giọng nói của người dân tộc khi nói tiếng Kinh

Bài toán nhận dạng thường là tổng hợp của các đặc điểm trên:

- Tiếng nói do một người nói với số từ hạn chế

- Tiếng nói do nhiều người nói với số từ hạn chế

- Tiếng nói do một người nói với số từ không hạn chế

- Tiếng nói do nhiều người nói, số từ không hạn chế

- Nhận dạng từ đơn

- Nhận dạng các từ dính nhau trong câu nói

Các hệ thống nhận dạng tuỳ thuộc vào mục đích ứng dụng mà lựachọn một trong các mô hình trên

Lĩnh vực nghiên cứu của nhận dạng tiếng nói là khá rộng liên quanđến nhiều ngành khác nhau như xử lý tín hiệu số (digital signalproccessing), vật lý hay âm học (acoustic), nhận dạng mẫu, lý thuyết thôngtin và khoa học máy tính (information and computer science theory),ngônngữ học (inguistics), sinh lý học (physiology), tâm lý học ứng dụng(applied psychology)

Dù nhận dạng theo mô hình nào, việc lựa chọn đơn vị nhận dạng làhết sức quan trọng chi phối nhiều đến chất lượng nhận dạng Tiếng Việt là

Trang 7

một ngôn ngữ có thanh điệu nên lựa chọn đơn vị nhận dạng như thế nào lạicàng quan trọng Luận văn trình bày quan niệm về cấu trúc tiếng Việt (đặcbiệt cấu trúc tiếng Việt dưới góc độ CNTT), nghiên cứu đặc trưng của từ,các thành phần của từ, tập trung chủ yếu vào phần phụ âm đầu, nhằm phục

vụ cho bài toán nhận dạng phụ âm đã đặt ra theo lớp bài toán nhận dạng từrời rạc

II KHÁI QUÁT CHUNG VỀ MÁY HỌC.

1 Khái niệm máy học:

Để bắt đầu với khái niệm máy học, trước tiên phải xem xét đến kháiniệm học Học là việc làm tăng khả năng thực hiện nhiệm vụ T của chươngtrình dựa trên kinh nghiệm E với hiệu quả thực hiện nhiệm vụ là P Nhưvậy chương trình được thiết kế có khả năng học gọi là máy học

Mỗi bài toán về máy học ta phải xác định nhiệm vụ T, hiệu quả thựchiện P và kinh nghiệm E còn gọi là bộ dữ liệu huấn luyện cho máy

E còn được gọi là bộ dữ liệu kinh nghiệm, phương pháp thực hiệnlàm tăng khả năng thực hiện nhiệm vụ T(Làm tăng hiệu quả P) bằng cáchkhai thác dữ liệu từ bộ dữ liệu kinh nghiệm E được gọi là phương pháphọc…

Mỗi phương pháp học sẽ có thuật toán tương ứng gọi là thuật toánhọc, việc lựa chọn phương pháp phụ thuộc vào nhiệm vụ T và bộ dữ liệukinh nghiệm E

Một số ví dụ:

Trang 8

Xét một số bài toán ứng dụng máy học.

Bài toán chơi cờ.

T: Chơi cờ (máy - người, máy - máy)P: Tỉ lệ ván thắng đối thủ

E: Kinh nghiệm từ những ván tự chơi (máy máy) hoặc máy người

-Bài toán nhận dạng chữ viết tay.

T: Nhận dạng và phân lớp các chữ viết tay từ ảnh

P: Tỷ lệ các từ phân lớp đúng

E: Cơ sở dữ liệu là các từ được phân lớp

Bài toán nhận dạng tiếng nói

T: Phân lớp các từ theo đặc trưng của một từ từ tín hiệu đãđược số hoá

P: Số phần trăm các từ đã phân lớp đúng

E: Cơ sở dữ liệu các từ đã được phân lớp

Bài toán tự lái xe ô tô

T: Lái xe ô tô

P: Tỉ lệ đường ô tô tự lái an toàn

E: Cơ sở dữ liệu đặc điểm đường đi, các lệnh thực hiện theođặc điểm đường đi

Các lĩnh vực ứng dụng

Các lĩnh vực được ứng dụng chủ yếu là:

- Khai phá dữ liệu: Dựa vào dữ liệu đã có hỗ trợ ra quyết định

Trang 9

- Nhận dạng: Nhận dạng vân tay, mặt người, chữ viết, tiếng nói…

- Điều khiển tự động: tự động lái xe ô tô, điều khiển robot…

- Ứng dụng tự lựa chọn: Tự dộng trích tóm tắt của một bài viết,tóm tắt những thông tin độc giả thường quan tâm

2 Thiết kế hệ thống học

Thiết kế hệ thống học cho máy có thể có những mô hình khác nhaucho từng bài toán, tuy nhiên các bài toán đều tuân theo các bước quy địnhsau:

- Xác định tập dữ liệu mẫu để huấn luyện

- Xác định hàm mục tiêu

- Xác định cách biểu diễn giá trị hàm mục tiêu

- Xác định thuật toán học

2.1 Xác định tập dữ liệu mẫu để huấn luyện.

Bộ dữ liệu mẫu dùng huấn luyện cho máy được xem là bộ dữliệu kinh nghiệm E Mỗi bài toán cụ thể sẽ xác định cấu trúc của bộ dữ liệu

mẫu dùng để huấn luyện Ví dụ: Bài toán nhận dạng tiếng nói thì bộ dữ liệu mẫu dùng để huấn luyện là những đặc trưng được trích chọn từ mỗi

từ

Trang 10

Bộ dữ liệu mẫu là tập hợp các mẫu dữ liệu, mỗi mẫu dữ liệuthường được biểu diễn bởi véctơ b(x1, x2,…, xn), trong đó xi là các giá trịđặc trưng, mẫu dữ liệu được phân thành hai loại:

- Mẫu dữ liệu có giá trị đích: Mẫu dữ liệu được xác định

là thuộc phân lớp, đối tượng hoặc quyết định, trong trường hợp này máyhọc theo cách học có giám sát

- Mẫu dữ liệu không có giá trị đích: Mẫu dữ liệu khôngđược xác định trước phân lớp, đối tượng hoặc quyết định Trong trườnghợp này máy học theo cách học không có giám sát Dữ liệu huấn luyện kiểunày máy sẽ phải tự xác định những dữ liệu nào là cùng một phân lớp, đốitượng hay cùng một quyết định theo tiêu chí đánh giá riêng

2.2 Xác định hàm mục tiêu.

Hàm mục tiêu là các lớp, đối tượng hay quyết định, các giá trịhàm mục tiêu được xác định từ bộ dữ liệu huấn luyện có giá trị đích hoặcmáy tự xác định, ví dụ trong bài toán nhận dạng tiếng nói thì tập giá trị hàmđích là tập các từ rời rạc, trong bài toán xấp xỉ hàm thì tập các giá trị mụctiêu được xác định theo một hàm Hàm mục tiêu V(b) có thể được xác địnhnhư sau:

V: B→R V: Hàm mục tiêu

B: Tập giá trị mẫu trong bộ dữ liệu.

R: Miền giá trị hàm mục tiêu

2.3 Xác định cách biểu diễn hàm mục tiêu

Trang 11

Giá trị hàm mục tiêu có thể được xác định trong miền số nhịphân, số thực (ký hiệu là R), hay số nguyên Hàm mục tiêu được biểu diễnthông qua các hệ số wi (còn được gọi là các hệ số của hệ thống học), khi đóhàm mục tiêu được đánh giá xấp xỉ tuyến tính với b, hệ số là wi.

V’(b)= w 0 + w 1 x 1 + w 2 x 2 + … + w n x n

Hàm V’(b) được đánh giá xấp xỉ tuyến tính, V’(b) được gọi làhàm học Vtrain(b) là giá trị huấn luyện, là giá trị lý tưởng

2.4 Thuật toán học

Quá trình học là quá trình thực hiện điều chỉnh các hệ số wi

sao cho giá trị đánh giá hàm mục tiêu V’(b) càng bám sát giá trị hàm mụctiêu huấn luyện Vtrain(b) càng tốt Sai số được đánh giá theo công thức:

Error = (V’(b) – V train (b)) 2

Quá trình huấn luyện lặp lại nhiều lần trên toàn bộ dữ liệumẫu, mỗi vòng lặp các giá trị wi được điều chỉnh sao cho hệ số error giảmdần

Các bước thực hiện học:

Bước 1: Xác định giá trị học và giá trị hàm đích tương ứng

Bước 2: Khởi tạo trọng số wi

Trang 12

Bước 3: Tính giá trị đầu ra hàm học được V’(b).

Bước 4: Đánh giá lỗi (sự sai khác giữa hàm mục tiêu lý tưởng vàhàm học được):

V E

)) ( , (

2

)) ( ' ) ( (

Bước 5: Cập nhật trọng số theo thuật toán bình phương tối thiểu (viếttắt là LMS)

i train

sẽ đi đến đích cuối cùng là có một bên thua và một bên thắng (2 đối thủ domáy tự sinh ra) Kết thúc mỗi ván chơi, thông tin được bổ sung vào bộ dữliệu huấn luyện, với số lần chơi đủ lớn thì số kinh nghiệm tích luỹ được đủnhiều máy có thể thi đấu với người Như vậy máy sẽ ngày càng “thôngminh theo thời gian”

Trang 13

3 Phân lớp bằng hệ thống máy học

Hệ thống máy học sau khi đã được huấn luyện bằng bộ dữ liệu mẫu(b, Vtrain(b)), với sai số đủ nhỏ (so với ngưỡng đặt trước) hoặc đủ số vònglặp huấn luyện mẫuthu được bộ hệ số hạo wi, giá trị hàm đích được đánhgiá như sau:

V’(b) = w0 + w1x1 + w2x2 + … + wn.xn.Giá trị hàm đích xác định mức độ giống so với giá trị hàm mục tiêucủa bộ mẫu đã huấn luyện, nếu gọi bộ mẫu huấn luyện là bộ dữ liệu: (p1,t1),(p ,t ), , (p ,t ), p là giá trị mẫu, t giá trị hàm mục tiêu, danh sách các

Trang 14

giá trị hàm mục tiêu có k giá trị phân biệt gọi là k lớp: ti1, ti2, , tik khi đónói hàm mục tiêu có k lớp, việc phân lớp một bộ dữ liệu của hệ thống máyhọc là việc xác định mức độ giống của bộ dữ liệu đó so với mẫu đã huấnluyện thông qua việc so sánh giá trị hàm đích

So sánh giá trị hàm đích V’(b) so với giá trị hàm đích của các lớp,nếu so với lớp nào độ sai khác được đánh giá err = |V’(b) -ti| là nhỏ nhất thì

bộ dữ liệu cần phân lớp b thuộc lớp có hàm mục tiêu là ti Giải quyết bàitoán phân lớp cũng là giải quyết bài toán nhận dạng Ví dụ đối với bài toánnhận dạng tiếng nói, các từ lấy đặc trưng b(x1, x2, , xn), đặt giá trị hàmmục tiêu Vtrain(b) đưa vào hệ thống máy học huấn luyện thu được bộ hệ sốhọc wi, khi thực hiện nhận dạng tiếng nói một từ bằng cách đánh giá hàmđích của bộ đặc trưng tiếng nói đó với bộ hệ số học wi, giá trị hàm đích sailệch so với giá trị hàm mục tiêu của từ nào là ít nhất sẽ là từ cần nhậndạng

4 Phương pháp xây dựng máy học

Có nhiều phương pháp được sử dụng xây dựng hệ thống máy học,gồm một số phương pháp sau:

- Cây quyết định

- Mạng Nơron nhân tạo

- Phương pháp Bayesian

- Mô hình Markov ẩn,

Trang 15

Trong báo cáo này tôi xin trình bày phưong pháp xây dựng máy họcbằng mạng Neural nhân tạo.

Mạng Neural nhân tạo là công cụ xây dựng hệ thống máy học màhàm mục tiêu được xấp xỉ là các giá trị thực, rời rạc hoặc vectơ Mạngneural được xây dựng dựa phỏng mạng neural sinh học của con người

4.1 Cấu trúc mạng neural nhân tạo.

Mạng neural xây dựng trên cơ sở các neural, cấu trúc theo từng lớp

Cấu trúc neural:

Neural trong mạng neural nhân tạo có cấu tạo gồm các thành phần:

- Dữ liệu đưa vào: x1, x2, , xm

i

i x w bias w

f a

4.2 Một số hàm chuyển thông dụng

* Hàm ngưỡng: harlim

Trang 16

0 1

) ( lim

n n n

s hard a

1 0

0 1

) (

n n n

n n

satlin a

1 1

)

n n

satl in s a

Ký hiệu:

Trang 17

* Hàm log_sig: log_sigmoid

e n

n sig

n n

n sig

0 )

(

n n n n poslin a

max 1

) (

n n n

compet a

Ký hiệu:

Trang 18

Mạng neural đa lớp được cấu tạo từ nhiều neural, các neural được

thiết kế theo từng lớp , mạng đa lớp được đặc trưng bởi các tham số sau:

- Số lớp của mạng, gồm các lớp:

o Lớp dữ liệu vào (input layer) lớp này chỉ có dữ liệu vào vàkhông có neural, số lượng nút của lớp vào phụ thuộc mẫu

dữ liệu đưa vào hệ thống

o Các lớp ẩn (hidden layers), lớp này được thiết kế gồm mộthay nhiều lớp, mỗi lớp được cấu trúc có 1 hoặc nhiềuneural

o Lớp dữ liệu ra (output layer), lớp này được cấu trúc 1 hoặcnhiều neural tuỳ theo hàm chuyển và số phân lớp hàm mụctiêu

Hình 1.2 Mạng neural 3 lớp

4.4 Quy tắc học.

Trang 19

Theo lý thuyết học, quá trình học là quá trình điều chỉnh các hệ sốhọc wi sau mỗi bước huấn luyện, các hệ số học được điều chỉnh như sau:

i i

i i

i

x o t w

w w

w

) ( 

Trong đó t : giá trị hàm mục tiêu huấn luyện Vtrain

o: giá trị hàm mục tiêu dự báo V’

η: tốc độ học

4.5 Quy tắc học dựa vào việc giảm Gradient

Quá trình học được thực hiện điều chỉnh các hệ số học wi sao cho giátrị lỗi E là nhỏ nhất

2

1 ) (

4.6 Mạng 3 lớp dùng thuật toán lan truyền ngược.

Trang 20

Xét mạng 3 lớp dùng nin nút dữ liệu vào, nhidden nút neural ẩn, nout nútneural lớp ra

Quy tắc học của mạng nơron đa lớp được thực hiện tương tự nhưtrên, các bước huấn luyện nhằm thay đổi giá trị các hệ số học w của mạng

để tổng giá trị bình phương của lỗi là nhỏ nhất Lỗi được xác định ở lớp racủa mạng xác định theo công thức:

2

1 )

E

Ý tưởng thuật toán:

Thuật toán lan truyền ngược trong mạng đa lớp thực hiện bằng cáchxác định lỗi tại lớp ra đối với mỗi mẫu, lỗi lớp ra cũng là lỗi của toàn mạng,

từ lỗi của lớp ra xác định được lỗi của lớp trước nó, công việc tiếp tục lantruyền ngược với các lớp đứng trước, sau khi thực hiện tính toán được lỗicủa các lớp (trừ lớp vào), thực hiện tính lại các hệ số học của mạng Vớithuật toán lan truyền ngược này tốc độ huấn luyện mạng khá nhanh, phùhợp mạng đa lớp

Trang 21

Thuật toán lan truyền ngược cho mạng 3 lớp:

Input:

- Training_examples: Bộ dữ liệu mẫu, mỗi bộ dữ liệu gồm vectơmẫu x(x1, x2, , xm), t_ giá trị hàm mục tiêu tương ứng vớivectơ mẫu x

1 Tạo mạng với nin nút vào, nhidden nút ẩn, nout nút ra

2 Khởi tạo các hệ số học wijk là các số ngẫu nhiên w ijk ( 0 5 , 0 5 )

3 Lặp đến khi đủ số vòng lặp luyện mẫu hoặc sai số đạt ngưỡng chophép

Trang 22

a Với bộ mẫu (x,t)  trainning_examples

i Tính giá trị ra ok, k = 0, 1, , nout – 1 của mạng với

dữ liệu vào x

ii Tính lỗi tại mỗi neural lớp ra:

1 ,

, 1 , 0 , ) )(

k kh h

Trong đó: w ji j x ji

b Lặp lại với mẫu tiếp theo

4 Lặp lại bước 3 nếu chưa đủ số lần huấn luyện và sai số chưa đặtdưới ngưỡng cho phép

Trang 23

III LÝ THUYẾT XỬ LÝ TIẾNG NÓI

1 Cơ sở lý thuyết âm thanh.

Trong tự nhiên con người nghe được âm thanh là do các sóng

âm va đập vào màng nhĩ của tai làm cho màng nhĩ rung lên và con ngườicảm nhận được những tần số trong những phạm vi nhất định Kết quả là hệthần kinh trung ương cảm nhận được đó là âm thanh và là âm thanh gì, nếu

là tiếng nói thì biết được nội dung câu nói

Như vậy bản chất của âm thanh là một dao động có tần số, conngười cảm nhận được từ dao động này Nếu dao động có biên độ càng lớnthì âm lượng càng lớn và ngược lại Tần số dao động của âm thanh trong tựnhiên có pham vi rộng, tuy nhiên con người chỉ cảm nhận được trong mộtphạm vi nhất định

1.1 Tín hiệu tương tự của âm thanh.

Tín hiệu tương tự của âm thanh là tín hiệu âm thanhtrong tự nhiên, các dao động của sóng âm thanh này con người cảm nhậnđược Các thiết bị phát thanh (loa) đều thực hiện tạo dao động, để dao động

đó truyền đến tai người

Dao động của sóng âm thanh là một dao động tổng hợpgồm nhiều dao động thành phần có một tần số nhất định Ví dụ một bannhạc chơi một dàn nhạc thì môt nhạc cụ sẽ cho ra một hoặc nhiều sóng âmthanh dao động, bản nhạc phát ra sẽ tổng hợp bởi nhiều nhạc cụ khác nhau,

có tần số khác nhau Mỗi dao động thể hiện các mức năng lượng của âmthanh một cách liên tục

Trang 24

1.2 Tín hiệu số của âm thanh

Trong các thiết bị số, điển hình là máy tính, âm thanhnói riêng và dữ liệu nói chung đươc lưu trữ dưới dạng số Tín hiệu tương tựcủa âm thanh được chuyển thành các số gọi là tín hiệu số của âm thanh

Hình 2.1: tín hiệu số và tín hiệu tương tự tương ứng của nó

Lấy mẫu: Là quá trình lấy tín hiệu âm thanh liên tục

thành tín hiệu rời rạc, nghĩa là là thay tín hiệu liên tục bằng biên độ của nótại những thời điểm cách đều nhau

Tần số lấy mẫu (f s ): tần số lấy mẫu được ký hiệu là fs là

số mẫu thu được trong thời gian 1 giây Nếu tần số lấy mẫu càng cao thìdạng của tín hiệu càng có khả năng khôi phục giống như tín hiệu gốc, Chấtlượng âm thanh khôi phục được càng giống âm thanh gốc Tuy nhiên nếu

Trang 25

tần số càng cao thì cần phải dùng dung lượng lớn hơn để lưu trữ và đồngthời tốc độ xử lý phải chậm lại do cần xử lý số lượng dữ liệu lớn Từ đó, tacần xác định tần số lấy mẫu sao cho có thể khôi phục lại gần đúng dạng tínhiệu với yêu cầu tốc độ xử lý giới hạn trong mức cho phép Các file âmthanh số (kiểu wave) có tần số lấy mẫu là 8 KHz, 11 KHz, 24 KHz, 44KHz

Lượng tử hoá: Lượng tử hoá là quá trình xấp xỉ các giá

trị của tín hiệu lấy mẫu bằng bội số của một giá trị q (q gọi là bước lượngtử) Nếu q không thay đổi thì quá trình lượng tử gọi là đồng nhất Số lượngcác bước lượng tử (số bội số của q) càng lớn sẽ làm cho dung lượng lưu trữtăng lên cao nhưng bù lại khả năng khôi phục giống tín hiệu gốc càng cao,tín hiệu âm thanh càng trung thực Từ đó cần xác định lại số bước lượng tửsao cho có thể khôi phục lại gần đúng dạng tín hiệu với yêu cầu tốc độ xử

lý giới hạn trong mức cho phép Trong thực tế với các loại file âm thanhđịnh dạng Wav có số bước lượng tử là 256 với loại 8 bits/mẫu và 65536 với

16 bits/ mẫu Vậy độ phân giải chính là số bước lượng tử của cường độ

Mã hoá: Tín hiệu ở ngõ ra bộ lượng tử hoá đưa đến bộ

mã hoá, bộ mã hoá sẽ gán một số nhị phân cho mỗi mức lượng tử Quátrình này gọi là quá trình mã hoá

1.3 Quá trình tái tạo âm thanh

Quá trình số hoá là quá trình chuyển giá trị điện thế thuđược từ micro chuyển dao động thành điện, giá trị điện thế tỉ lệ với biên độdao động Quá trình tái tạo âm thanh từ dữ liệu đã được số hoá ở khâu trên

là chuyển tử thông tin số thành tín hiệu điện, tín hiệu điện sẽ tạo dao động

Trang 26

ra loa, âm thanh được phát ra Quá trình này là quá trình chuyển tín hiệu sốthành tín hiệu tương tự.

2 Cơ sở lý thuyết tiếng nói và nhận dạng.

Tiếng nói được dùng để trao đổi thông tin giữa người nói và ngườinghe, tiếng nói có một vị trí quan trọng trong xã hội loài người bởi vì tiếngnói và lao động là các nhân tố tạo lên sự phát triển của xã hội loài người

Tiếng nói, hay ngôn ngữ là một vấn đề vô cùng phức tạp và đã đượcnhiều các nhà khoa học trên thế giới quan tâm nghiên cứu dưới nhiều góc

độ khác nhau Dưới góc độ CNTT tiếng nói và nhận dạng tiếng nói có mộtvai trò to lớn giải quyết nhiều bài toán hóc búa mà từ trước nay con ngườiđang quan tâm Bài toán thông dịch các ngôn ngữ khác nhau, bài toán giaotiếp giữa người và máy, bài toán cho người mù sử dụng máy tính đều liênquan nhiều đến nhận dạng tiếng nói Trên thế giới các nhà khoa học đãnghiên cứu nhiều về vấn đề này nhưng nhận dạng tiếng Việt đã và đang làvấn đề mới được các nhà khoa học ở Việt Nam nghiên cứu

Với một vị trí quan trọng trong nhiều lĩnh vực, tiếng Việt và nhậndạng tiếng Việt cần phải được quan tâm nghiên cứu nhiều hơn nữa Dướigóc độ nghiên cứu học hỏi, bước đầu tôi đã nghiên cứu âm thanh, tiếng nói

và nhận dạng với các phát âm từ đơn và nghiên cứu các phụ âm trongTiếng Việt

1.1 Đặc điểm tiếng nói

Hệ thống phát âm tiếng nói được bắt đầu từ luồng khí ở phổi,qua thanh hầu, miệng và mũi Những thay đổi nhất định về vị trí môi, răng

và lưỡi tạo thành các khoang cộng hưởng khác nhau về hình dáng, thể tích,lối thoát không khí và tạo ra các âm thanh khác nhau Cũng chính do tính

Trang 27

chất này mà tạo ra các phụ âm, nguyên âm cùng các đặc trưng của chúng.Qua đó người ta thường phân tiếng nói thành âm hữu thanh, âm vô thanh.

Tiếng nói được số hoá, tín hiệu thu được là chuỗi các số, mỗi số làmột giá trị nằm trong phạm vi mức lượng tử (Ví dụ: với mức lượng tử là 8bít thì giá trị thuộc đoạn [0,255], nếu 16 bít thì giá trị thuộc đoạn [-32768,32767]) Như vậy để xử lý trên tập tín hiệu lấy mẫu thì số lượng sẽ rất lớn,nếu thực hiện trong thiết bị truyền tin thì ảnh hưởng đến tốc độ truyền.Thay cho chuỗi tín hiệu trên bởi một bộ tín hiệu có kích thước nhỏ hơn, mà

từ bộ tín hiệu này có thể tái tạo lại tín hiệu tiếng nói, tiếng nói tai người cóthể nghe được đó là quá trình thực hiện mã tiếng nói

Có nhiều kĩ thuật mã tiếng nói như LPC, CELP, phổ tần số,… Dữliệu đặc trưng sau khi mã sẽ là dữ liệu sử dụng trong các hệ thống nhậndạng

Tiếng nói có những đặc trưng cơ bản sau:

o Là tín hiệu dạng dao động

o Tiếng nói của một từ nhưng do nhiều người nói hoặc mộtngười nói những lần khác nhau sẽ có tín hiệu không giốngnhau hoàn toàn

o Có đoạn tín hiệu tiếng nói xuất hiện chu kỳ cơ bản gọi làchu kỳ pitch, có đoạn không xuất hiện chu kỳ tín hiệu códạng như nhiễu

Quá trình phát âm của con người có thể được mô tả như sau:

+ Khí được đẩy từ phổi qua vòm họng ra miệng phát thành âm

+ Khi dây thanh quản rung tạo ra các xung âm thanh và phát ra tiếng

kêu (voiced sound).

+ Nếu dây thanh quản không rung nhưng mở liên tục tạo ra âm câm

(Unvoice).

Trang 28

+ Khi nói hình dạng vòm họng, thanh quản thay đổi tạo ra các âmkhác nhau.

+ Hình dạng vòm họng thay đổi chậm trong khoảng từ 10 đến100ms

+ Lượng khí từ phổi đẩy ra xác định âm lượng phát ra

Cách tạo ra tiếng nói như trên là nguyên lý cơ bản cho các tiếng nóichung trên thế giới nhưng đi sâu vào nghiên cứu thì mỗi tiếng nói của cácnước khác nhau nó có điểm chung và điểm riêng biệt khác nhau chính điểmriêng biệt khác nhau này là một thuộc tính quan trọng để có thể nhận dạngtốt được các loại tiếng nói của các nước khác nhau

1.2 Các thông số cơ bản của tín hiệu tiếng nói.

Tần số cơ bản: Một âm thanh có thể là tổ hợp của nhiều tần số, tần

số chính trong âm được gọi là tần số cơ bản Trong tiếng nói, tần số cơ bản

là tổng của sự rung động các dây thanh âm, tần số cơ bản còn được kí hiệu

là F0 còn gọi là Pitch

Tần số cơ bản thay đổi phụ thuộc vào người nói, độ thay đổi daođộng từ 70 Hz đến 400 Hz Chẳng hạn giọng đàn ông từ 70 Hz đến 200 Hz,giọng phụ nữ từ 150 Hz đến 300 Hz, giọng trẻ em từ 200 Hz đến 400 Hz

Trang 29

Formant: là dải tần số được tăng cường do hiện tượng cộng hưởng

trong ống dẫn thanh Trong mỗi dải tần như thế có một tần số đượctăngcường hơn cả gọi là đỉnh formant Dải tần chứa mỗi formant khoảng 1000

Hz Theo kết quả nghiên cứu các formant thường xuất hiện trong khoảngdải tần 1000 Hz Các đỉnh formant thường ký hiệu F1, F2, F3,…

F1: Ứng với cộng hưởng vùng yết hầu

F2: Ứng với cộng hưởng vùng khoang miệng

Khi ta nói các âm mũi sẽ có sự xuất hiện các formant F3, cácformant khác F4, F5,… liên quan đến các đặc trưng giọng nói riêng củamỗi cá nhân Mỗi lần môi, lưỡi, hàm ở những vị trí khác nhau là một lầnhộp cộng hưởng miệng và yết hầu thay đổi hình dáng, thể tích, lối thoát củakhông khí làm biến đổi âm sắc của âm thanh đi qua chúng Chính vì vậy,hai khoang miệng và yết hầu là hai hộp cộng hưởng quan trọng nhất, chúngtạo nên hai formant chính F1 và F2

Năng lượng tín hiệu nhiễu: Là đại lượng xác định bằng tổng bình

phương biên độ Được tính theo công thức sau:

N n

n s E

0

2

) ( 10 log

Trong đó s(n) là chuỗi tín hiệu, N là số mẫu s(n) Đơn vị tính là dB.Nhiễu đối với hệ thống là loại âm thanh không phải tiếng nói sinh ratrong môi trường xung quanh ta Ngay cả bộ phát âm của con người cũngsinh ra nhiễu, chẳng hạn như tiếng thở, tiếng bật lưỡi, tiếng chép miệng cảkhi môi chạm vào micro, …Không dễ gì có thể lọc được mọi thứ nhiễu, tachỉ tìm cách tối thiểu hoá chúng để có thể nâng cao chất lượng của hệthống nhận dạng

Với tín hiệu tiếng nói là sn, tín hiệu nhận được sau quá trình thu sẽđược ký hiệu là s~n Như vậy: s~n - s n chính là tín hiệu nền

Trang 30

Độ nhiễu của tín hiệu được xác định thông qua năng lượng đo đượccủa tín hiệu:

~ 0 2

)(

10log10

n N

n n

N

n n n

s s

s E

Như vậy nếu năng lượng En càng lớn thì s~n càng gần với s n, tín hiệunền có giá trị gần về không Nếu E n  thì tín hiệu thu được là tín hiệusạch không có nhiễu

1.3 Một số cách biểu diễn tín hiệu

* Biểu diễn dao động dạng sóng-WaveForm

Về mặt vật lý tín hiệu tiếng nói là một chuỗi những thay đổi áp suấttrong một phương tiện giữa nguồn âm và người nghe Biểu hiện phổ biếnnhất của tín hiệu tiếng nói là biểu đồ dao động, thường được gọi là dạngsóng_waveform Trong biểu đồ này trục thời gian là trục hoành từ trái sangphải, còn trục tung thể hiện áp suất tăng giảm của tín hiệu đó còn gọi làbiên độ tín hiệu

Hình 2.2: biểu diễn dạng sóng của tín hiệu

Đa phần trong các chương trình xử lý tiếng nói thì tín hiệu tiếng nóiđược lưu dưới dạng file wave, rất tiện dụng cho quá trình thao tác Ta cóthể hiểu khái quát về file wave như sau:

- Wave là một dạng file chuẩn của Microsoft – tập tin chứa các dữliệu của mẫu âm thanh đã được số hoá

Trang 31

- File wave là một phần của lớp file lớn hơn dùng bởi các hàmmultimedia của Windows là các file RIFF (Resource Interchange FileFormat - Dạng file trao đổi tài nguyên)

- File RIFF:

Gồm một hoặc nhiều chunk Mỗi chunk có con trỏ chỉ đến chunk kế tiếp

Mỗi chunk của RIFF file luôn bắt đầu bởi một header

có cấu trúc gồm 2 phần: Tên nhận dạng của chunk (ID) gồm 4 byte kiểuchar, kích thước vùng dữ liệu (size) kiểu Double Word (4 byte)

Sau header là phần chứa dữ liệu của chunk (data)

- File Wave

Là tập hợp các chunk khác nhau Chunk đầu tiên là chunk RIFF

Chunk tiếp theo là chunk Format mô tả các thông số của sóng

âm như tốc độ lấy mẫu, số bit, lượng tử hoá vv…

Tiếp theo chunk Data chứa dữ liệu âm thanh đã được số hoá

- Có thể có các chunk khác sau chunk Wave nhưng thiết bị sử dụngfile Wave đã bỏ qua các chunk này

- Cấu trúc file RIFF chứa dữ liệu Wave

Trang 32

SIZEFORM TYPE

Trang 33

- Chunk Format có tên nhận dạng là “fmt”- giá trị này cho biếtchuẩn nén âm thanh.

Trang 34

Chuẩn PCM (Pulse Code Modulation - điều biến mã xung) củaMicrosoft là chuẩn phổ biến nhất, với chuẩn này các mẫu âm thanh đượclưu trữ sẽ không được nén và có giá trị được định nghĩa là 1

PCM là một phương pháp được sử dụng để biến đổi tín hiệu

tương tự ở lối vào thành tín hiệu số tương ứng không bị nhiễu Trong đa

phương tiện PCM được dùng để trích lấy âm thanh theo dạng số.

- nChannels: là số kênh âm thanh, giá trị 1 cho âm thanh mono, 2

cho âm thanh stero, 4 cho âm thanh 4 kênh, vv…

- nSamplePerSec(sample rate) là tốc độ lấy mẫu, số mẫu được phát

trong một giây, đơn vị Hertz 3 giá trị thông dụng là :11025,22025,44100 Hz mặc dù các tốc độ khác vẫn được dùng

- nAvgBytesPerSec(byte rate) sẽ chỉ ra có bao nhiêu byte được phát

mỗi giây Nếu là chuẩn PCM thì giá trị này là

nSamplePerSec*nBlockAlign.

- nBlockAlign là kích thước của một khung mẫu âm thanh, tính

theo byte Ví dụ 1 khung mẫu âm thanh 16 bit mono là 2 byte, 16bit stero là 4 byte

- wBitsPerSample cho biết số bit dùng để lượng tử hoá mỗi điểm

lấy mẫu, nếu là chuẩn PCM thì giá trị này là 8 hoặc 16

- cbSize là kích thước của những thông tin mở rộng thêm đặt thêm

vào cuối cấu trúc WAVEFORMAT với chuẩn PCM thì giá trị nàybằng 0

File RIFF (Resource Interchange File Format)-chuẩn cấu trúc file tài nguyên có thể thay đổi được, được bắt đầu với một phần header và sau

đó là một chuỗi liên tục các khối dữ liệu (data chunk) Một file Wav thỉnh thoảng là một file RIFF với một khối dữ liệu WAVE duy nhất bao gồm 2 khối con: khối fmt xác định định dạng dữ liệu và khối dữ liệu xác định mẫu

dữ liệu thực sự

Trang 35

- Chunk Data

+ Chứa các mẫu âm thanh đã được số hoá+ Khái niệm về điểm mẫu và khung mẫu

Điểm mẫu là giá trị đại diện cho một mẫu âm thanh được lấy tại

một thời điểm nào đó Nếu số bit được dùng để lượng tử hoá là 8 thì giá trịmột điểm mẫu dao động từ 0 đến 255 Nếu số bit dùng để lượng tử hoá là

16 thì giá trị điểm mẫu dao động tử -32768 đến 32767

Một khung mẫu bao gồm nhiều điểm mẫu được phát đồng thời Với âm

thanh mono thì mỗi khung mẫu chỉ có một điểm mẫu.

4 bytes Kích thước subchunk “fmt”

2 bytes Kiểu mã hoá dữ liệu của file wave (thường là PCM)

2 bytes Số kênh: 1 - mono; 2 – stero

là 8 Dữ liệu theo định dạng này chiếm bộ nhớ cần xử lý

Ngoài dữ liệu sóng âm ra thì tổng các thành phàn khác là 44 bytes

Hệ thống âm thanh mono là hệ thống mà tất cả các tín hiệu

Trang 36

xuất qua nhiều loa vẫn là mono, nội dung thông tin tạo bởi mỗi loa là như nhau Điểm chính yếu là tín hiệu trong hệ thống mono không chứa các thông tin đối chiếu về độ lớn, thời gian và pha đến của tín hiệu, nghĩa là không táI tạo hay mô phỏng định hướng của âm thanh Lợi điểm lớn nhất của mono là mọi người nghe rất đồng nhất về tín hiệu Trong các hệ thống được thiết kế tốt, tất cả các thính giả đều nghe được cùng mức âm thanh.

Sau khi mở một file wave ta thực hiện đọc từng bít của file vào phầnheader ở trên để lấy các thông tin về file Wave, từ kích thước dữ liệu đã lấyđược ta tiếp tục đọc từng bít dữ liệu âm thanh vào mảng động

Dữ liệu sóng âm thanh được xử lý để trích ra các đặc trưng tiếng nói

Dữ liệu âm thanh thu vào được lưu trong mảng động, hệ thống sẽ đọc dữliệu từ bộ đệm và xử lý dữ liệu đó

* Phổ.

Theo các lý thuyết tổng hợp, mỗi dạng sóng tuần hoàn có thể được

mô tả là tổng số của các sóng hình sin cơ bản, mỗi sóng có một biên độ, tần

số và pha cụ thể Phổ cho chúng ta hình ảnh về sự phân bố của tần số vàbiên độ tức thời theo thời gian

Hình 2.3: Biểu diễn phổ theo biên độ và tần số

* Ảnh phổ

Trang 37

Là hình thức biểu diễn phổ cả về mặt thời gian, trong ảnh phổ trụcthời gian là trục hoành, trục tần số là trục tung, chiều thứ ba, biên độ đượcbiểu diễn bằng các phần “bóng tối” Vùng nào tập trung các sóng có biên

độ lớn thì vùng đó có màu tối hơn

Hình 2.4 Biểu diễn ảnh phổ (hình dưới) của tín hiệu tương ứng (hình trên)

1.4 Tiền xử lý tín hiệu tiếng nói

Tín hiệu tiếng nói thu được, trước khi đưa vào trích chọn đặctrưng phải thực hiện tiền xử lý do nhiễu gây ra

1.4.1 Lọc nhiễu

Lọc nhiễu được thực hiện bởi các bộ lọc Bộ lọc có tác dụngchỉ cho các thành phần tín hiệu có tần số thuộc miền tần số nào đó đi qua

Ngày đăng: 23/05/2014, 14:31

HÌNH ẢNH LIÊN QUAN

Hình 1.2 Mạng neural 3 lớp - Báo cao đồ án tốt nghiệp nhận dạng một số phụ âm bật tiếng việt
Hình 1.2 Mạng neural 3 lớp (Trang 19)
Hình 2.1: tín hiệu số và tín hiệu tương tự tương ứng của nó - Báo cao đồ án tốt nghiệp nhận dạng một số phụ âm bật tiếng việt
Hình 2.1 tín hiệu số và tín hiệu tương tự tương ứng của nó (Trang 25)
Hình 2.2: biểu diễn dạng sóng của tín hiệu - Báo cao đồ án tốt nghiệp nhận dạng một số phụ âm bật tiếng việt
Hình 2.2 biểu diễn dạng sóng của tín hiệu (Trang 31)
Hình 2.3: Biểu diễn phổ theo biên độ và tần số - Báo cao đồ án tốt nghiệp nhận dạng một số phụ âm bật tiếng việt
Hình 2.3 Biểu diễn phổ theo biên độ và tần số (Trang 37)
Hình 2.5 Xác định chu kỳ Pitch - Báo cao đồ án tốt nghiệp nhận dạng một số phụ âm bật tiếng việt
Hình 2.5 Xác định chu kỳ Pitch (Trang 45)
Hình 2.6  Cách phát âm phụ âm - Báo cao đồ án tốt nghiệp nhận dạng một số phụ âm bật tiếng việt
Hình 2.6 Cách phát âm phụ âm (Trang 52)
Bảng nguyên âm bốn: - Báo cao đồ án tốt nghiệp nhận dạng một số phụ âm bật tiếng việt
Bảng nguy ên âm bốn: (Trang 55)
Hình 5.2  Sơ đồ thu âm - Báo cao đồ án tốt nghiệp nhận dạng một số phụ âm bật tiếng việt
Hình 5.2 Sơ đồ thu âm (Trang 65)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w