1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu mạng nơron nhân tạo và ứng dụng nhận dạng tiếng nói

67 1,8K 5

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 67
Dung lượng 2,17 MB

Nội dung

Trong đó f là hàm Heaviside:f được gọi là ngưỡng chức năng hay chuyền chức năng của nơron, còn giá trị -tcòn được gọi là bias hay offset của nơron.Nếu chúng ta đưa thêm một input nữavào,

Trang 1

MỤC LỤC

MỤC LỤC 1

CHƯƠNG I : TÌM HIỂU VỀ MẠNG NƠRON NHÂN TẠO 2

1 Lịch sử phát triển 2

2 Khái niệm mạng nơron 4

2.1 Mạng nơron sinh học : 4

2.2 Mạng nơron nhân tạo : 4

3 Cấu trúc mạng Nơron 6

4 Kiến Trúc Mạng 7

4.1 Mạng Một Tầng 8

4.2 Mạng Đa Tầng 9

5 Các luật học 9

6 Các tính chất của mạng nowrron nhân tạo 13

7 Mô hình toán học mạng nơron truyền thẳng và mạng nơron hồi quy 13

7.1.Mạng nơ ron truyền thẳng 13

7.2.Mạng nơron hồi quy 17

8 Quá trình huấn luyện mạng nhiều lớp 18

8.1 Quá trình thực hiện 19

8.2 Qui tắc chuỗi 20

8.3 Độ chính xác của thuật toán lan truyền ngược 21

8.4 Biến thể của thuật toán lan truyền ngược 22

8.5 Tổng quát (Phép nội suy và ngoại suy) 22

9 Ứng dụng 25

CHƯƠNG 2: LÝ THUYẾT ÂM THANH VÀ TIẾNG NÓI 26

2.1 Âm thanh 26

Trang 2

2.1.1 Nguồn gốc âm thanh: 26

2.1.2 Các đại lượng đặc trưng cho âm thanh: 26

2.1.3 Các tần số của âm thanh: 27

2.1.4 Cơ chế tạo lập tiếng nói của con người: 27

2.1.5 Mô hình lọc nguồn tạo tiếng nói: 28

2.1.6 Hệ thống nghe của người: 29

2.1.7 Quá trình sản xuất tiếng nói và thu nhận tiếng nói của con người: 29

2.1.8 Các âm thanh tiếng nói và các đặc trưng: 30

2.2 Tổng quan về nhận dạng tiếng nói 32

2.2.1 Các nguyên tắc cơ bản trong nhận dạng tiếng nói 33

2.2.2 Các hệ thống nhận dạng tiếng nói: 33

2.2.4 Các tiếp cận nhận dạng tiếng nói 38

2.3 Các phương pháp nhận dạng tiếng nói 42

2.3.1 Mô hình Fujisaki: 42

2.3.2 Mô hình Markvo ẩn 44

2.4 Những thuận lợi và khó khăn trong nhận dạng tiếng Việt 54

CHƯƠNG 3: XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI BẰNG MẠNG NƠRON TRONG MATLAB 55

3.1 Công cụ được sử dụng trong matlab 55

3.2 xây dựng chương trình mô phỏng nhận dạng tiếng nói bằng mạng Nơron MLP 58

3.2.1 Các bước xây dựng 58

3.2.2 Chương trình nhận dạng phát âm mười chữ số tiếng Việt 62

CHƯƠNG I : TÌM HIỂU VỀ MẠNG NƠRON NHÂN TẠO

1 Lịch sử phát triển

Quá trình nghiên cứu và phát triển noron nhân tạo có thể được chia thành

4 giai đoạn như sau :

Trang 3

 Giai đoạn 1: Có thể tính từ nghiên cứu của William (1890) về tâm lý học

với sự liên kết các noron thần kinh Năm 1940 Mc Culloch và Pitts đã chobiết nơron có thể mô hình hoá như thiết bị ngưỡng (Giới hạn) để thực hiệncác phép tính logic và mô hình mạng nơron của Mc Culloch - Pitts cùngvới giải thuật huấn luyện mạng của Hebb ra đời năm 1943

 Giai đoạn 2: Vào khoảng gần những năm 1960, một số mô hình noron

hoàn thiện hơn đã được đưa ra như: Mô hình Perceptron của Rosenblatt(1958), Adalile của Widrow (1962) Trong đó mô hình Perceptron rấtđược quan tâm vì nguyên lý đơn giản, nhưng nó cũng có hạn chế vì nhưMarvin Minsky và Seymour papert của MIT ( Massachurehs Insritute ofTechnology) đã chứng minh nó không dùng được cho các hàm logic phức(1969) Còn Adaline là mô hình tuyến tính, tự chỉnh, được dùng rộng rãitrong điều khiển thích nghi, tách nhiễu và phát triển cho đến nay

 Giai đoạn 3: Có thể tính vào khoảng đầu thập niên 80 Những đóng góp lớn

cho mạng nơron trong giai đoạn này phải kể đến Grossberg,Kohonen,Rumelhart và Hopfield Trong đó đóng góp lớn của Hopfield gồm hai mạngphản hồi: Mạng rời rạc năm 1982 và mạng liên tục năm 1984 Đặc biệt,ông đã dự kiến nhiều khả năng tính toán lớn của mạng mà một nơronkhông có khả năng đó Cảm nhận của Hopfield đã được Rumelhart,Hinton và Williams đề xuất thuật toán sai số truyền ngược nổi tiếng đểhuấn luyện mạng noron nhiều lớp nhằm giải bài toán mà mạng kháckhông thực hiện được

 Giai đoạn 4: Tính từ năm 1987 đến nay, hàng năm thế giới đều mở hội

nghị toàn cầu chuyên ngành nơron IJCNN (International Joit Conference

on Neural Networks) Rất nhiều công trình được nghiên cứu để ứng dụngmạng nơron vào các lĩnh vực như: Kỹ thuật tính, điều khiển, bài toán tối

ưu, y học, sinh học, thống kê, giao thông, hoá học, Cho đến nay mạngnơron đã tìm và khẳng định được vị trí của mình trong rất nhiều ứng dụngkhác nhau

Trang 4

2 Khái niệm mạng nơron

Theo nghĩa sinh học, mạng nơron là tập hợp các dây thần kinh kết nối vớinhau.Do đó thuật ngữ mạng nơ ron xác định hai khái niệm phân biệt:

2.2 Mạng nơron nhân tạo :

là mạng nơron là một mô hình toán học hay mô hình tính toán được xâydựng dựa trên các mạng nơron sinh học Nó gồm có một nhóm các nơron nhântạo (nút) nối với nhau, và xử lý thông tin bằng cách truyền theo các kết nối vàtính giá trị mới tại các nút (cách tiếp cận connectionism đối với tính toán) Trongnhiều trường hợp, mạng nơron nhân tạo là một hệ thống thích ứng tự thay đổi cấu

Trang 5

trúc của mình dựa trên các thông tin bên ngoài hay bên trong chảy qua mạngtrong quá trình học.

Sau đây là mô hình của một nơron nhân tạo

Nơron này sẽ hoạt động như sau: giả sử có N inputs, nơron sẽ có N trọng

số tương ứng với N đường truyền inputs Nơron sẽ lấy tổng có trọng số của tất cảcác inputs Nói như thế có nghĩa là nơron sẽ lấy input thứ nhất, nhân với weighttrên đường input thứ nhất, lấy input thứ hai nhân với weight của đường input thứhai v.v , rồi lấy tổng của tất cả các kết quả thu được Đường truyền nào có trọng

số càng lớn thì tín hiệu truyền qua đó càng lớn, như vậy có thể xem weight là đạilượng tương đương với synapse trong nơron sinh học Có thể viết kết quả lấytổng của nơron như sau:

Kết quả này sẽ được so sánh với threshold t của nơron, nếu nó lớn hơn t thìnơron cho output là 1, còn nếu nhỏ hơn thì output là 0 Ngoài ra ta cũng có thểtrừ tổng nói trên cho t, rồi so sánh kết quả thu được với 0, nếu kết quả là dươngthì nơron cho ouput bằng 1, nếu kết quả âm thì output là 0 Dưới dạng toán học ta

có thể viết output của nơron như sau:

Trang 6

Trong đó f là hàm Heaviside:

f được gọi là ngưỡng chức năng hay chuyền chức năng của nơron, còn giá trị (-t)còn được gọi là bias hay offset của nơron.Nếu chúng ta đưa thêm một input nữavào, input thứ 0, có giá trị luôn luôn bằng 1 và weight luôn luôn bằng bias (-t) thìoutput của nơron còn có thể viết dưới dạng:

Lưu ý là chỉ số của tổng bây giờ bắt đầu từ 0 chứ không phải bằng 1 như trước nữa

3 Cấu trúc mạng Nơron

Mỗi Nơron (nút) là một đơn vị xử lý thông tin của mạng nơron, là yếu tố

cơ bản để cấu tạo nên mạng nơron

Hình 3.1: Cấu trúc 1 nơron

xi: các tín hiệu input

wkp: trọng số của từng input

f(.): hàm hoạt động

yk: kết xuất của nơron

b: thông số ảnh hưởng đến ngưỡng ra của output

Phân loại cấu trúc mạng Nơron :

a Mạng dẫn tiến một lớp

Đây là cấu trúc mạng nơron đơn giản nhất Mạng nơron này chỉ gồm 1 lớpxuất, không có lớp ẩn

Trang 7

Hình 3.2 cấu trúc nơron đơn giản

b Mạng dẫn tiến nhiều lớp

Hình 3.3: Cấu trúc mạng nơron nhiều lớp

Mạng nơron nhiều lớp có thể giải quyết các bài toán phi tuyến nhờ vàocác lớp ẩn Các lớp ẩn này xen giữa các input bên ngoài và output của mạng.Càng nhiều lớp ẩn thì khả năng mở rộng thông tin càng cao và xử lý tốt mạng cónhiều input và output Ngoài ra còn có mạng hồi quy và mạng nơron dạng lưới

4 Kiến Trúc Mạng

Là một hệ thống bao gồm nhiều phần tử xử lý đơn giản (hay còn gọi lànơron) tựa như nơron thần kinh của não người, hoạt động song song và được nốivới nhau bởi các liên kết nơron Mỗi liên kết kèm theo một trọng số nào đó, đặctrưng cho tính kích hoạt hoặc ức chế giữa các nơron

Có thể xem các trọng số là phương tiện để lưu trữ thông tin dài hạn trongmạng neural và nhiệm vụ của quá trình huấn luyện của mạng là cập nhật cáctrọng số khi có thêm thông tin về mẫu học Hay nói một cách khác, các trọng sốđều được điều chỉnh sao cho dáng điệu vào ra của mạng sẽ mô phỏng hoàn toànphù hợp với môi trường đang xem xét

Trang 8

4.1 Mạng Một Tầng

Mạng một tầng với S nơron được minh họa trong hình 4.1.1 Chú ý rằng

với mỗi một đầu vào trong số R đầu vào sẽ được nối với từng nơron và ma trậntrọng số bây giờ sẽ có S hàng.Một tầng bao gồm ma trận trọng số, các bộ cộng,vector ngưỡng b, hàm chuyển và vector đầu ra a

Mỗi phần tử của vector đầu vào p được nối với từng nơron thông qua matrận trọng số W Mỗi nơron có một ngưỡng bi, một bộ cộng, một hàm chuyển f

và một đầu ra ai cùng với nhau, các đầu ra tạo thành một vector đầu ra a.Thôngthường thì số lượng đầu vào của tầng khác với số lượng nơ-ron.(R#S)

Ma trận trọng số cho các phần tử trong vector đầu vào W:

hình 4.1.1: Mô hình mạng 1 lớp.

Các chỉ số hàng của các phần tử trong ma trận W chỉ ra nơron đích đã kếthợp với trọng số đó, trong khi chỉ số cột cho biết đầu vào cho trọng số đó Vìvậy, các chỉ số trong nói rằng đây là trọng số của đầu vào thứ 2 nối với nơronthứ 3

Trang 9

4.2 Mạng Đa Tầng

Hình 4.2.1 :Ví dụ về một mô hình mạng đa tầng

Mô hình mạng nơron ở trên gồm 3 lớp: lớp nhập (input), lớp ẩn(hidden)

và lớp xuất (output) Mỗi nút trong lớp nhập nhận giá trị của một biến độc lập vàchuyển vào mạng

Dữ liệu từ tất cả các nút trong lớp nhập được tích hợp – ta gọi là tổngtrọng số – và chuyển kết quả cho các nút trong lớp ẩn Gọi là “ẩn” vì các núttrong lớp này chỉ liên lạc với các nút trong lớp nhập và lớp xuất, và chỉ có ngườithiết kế mạng mới biết lớp này (người sử dụng không biết lớp này)

Các nút trong lớp xuất nhận các tín hiệu tổng trọng hóa từ các nút tronglớp ẩn Mỗi nút trong lớp xuất tương ứng với một biến phụ thuộc

5 Các luật học.

Thông thường mạng nơron được điều chỉnh hoặc được huấn luyện đểhướng các đầu vào riêng biệt đến đích ở đầu ra Cấu trúc huấn luyện mạng được

chỉ ra trên hình 5.1 Ở đây, hàm trọng của mạng được điều chỉnh trên cơ sở so

sánh đầu ra với đích mong muốn (taget) cho tới khi đầu ra mạng phù hợpvới đích Những cặp vào/đích (input/taget) được dùng để giám sát cho sự huấnluyện mạng

Trang 10

Hình 5.1 Cấu trúc huấn luyện mạng nơron

Để có được một số cặp vào/ra, ở đó mỗi giá trị vào được gửi đến mạng vàgiá trị ra tương ứng được thực hiện bằng mạng là sự xem xét và so sánhvới giá trị mong muốn Bình thường tồn tại một sai số bởi lẽ giá trị mong muốnkhông hoàn toàn phù hợp với giá trị thực Sau mỗi lần chạy, ta có tổng bìnhphương của tất cả các sai số Sai số này được sử dụng để xác định các hàm trọngmới

Sau mỗi lần chạy, hàm trọng của mạng được sửa đổi với đặc tính tốt hơntương ứng với đặc tính mong muốn Từng cặp giá trị vào/ra phải được kiểm tra

và trọng lượng được điều chỉnh một vài lần Sự thay đổi các hàm trọng củamạng được dừng lại nếu tổng các bình phương sai số nhỏ hơn một giá trị đặttrước hoặc đã chạy đủ một số lần chạy xác định (trong trường hợp này mạng cóthể không thoả mãn yêu cầu đặt ra do sai lệch còn cao)

Có ba phương pháp học:

 Học có giám sát

Là quá trình học ở mỗi thời điểm thứ i khi đưa tín hiệu xi vào mạng nơ

Trang 11

đó Hay nói cách khác, trong quá trình học có giám sát, mạng nơ ron được cungcấp liên tục các cặp số liệu mong muốn vào - ra ở từng thời điểm (x1 ,d1 ),(x2 ,d2 ),… (xk, dk ),…khi cho tín hiệu vào thực là xk sẽ tương ứng có tín hiệu đầu

ra cũng được lặp lại là dk giống như mong muốn Kết quả của quá trình học cógiám sát là tạo được một hộp đen có đầu vào là véctơ tín hiệu vào X sẽ đưa rađược câu trả lời đúng d

Để đạt được kết quả mong muốn trên, khi đưa vào tín hiệu xk , thôngthường sẽ có sai lệch ek giữa tín hiệu đầu ra thực yk với tín hiệu đầu ra mongmuốn d Sai lệch đó sẽ được truyền ngược tới đầu vào để điều chỉnh thông

số mạng neral là ma trận trọng số W…Quá trình cứ thế tiếp diễn sao cho sailệch giữa tín hiệu ra mong muốn và tín hiệu ra thực tế nằm trong phạm

vi cho phép, kết quả nhận được ma trận trọng số với các phần tử wij đã đượcđiều chỉnh phù hợp với đặc điểm của đối tượng hay hàm số mạng nơron cần

học Mô hình học có giám sát được minh hoạ như hình 5.2

Hình 5.2.Mô hình học có giám sát và học củng cố

 Học củng cố

Là phương pháp học trong đó tín hiệu d được đưa từ bên ngoài nhưngkhông được đầy đủ mà có thể chỉ đưa đại diện 1 bít để có tính chất kiểm tra quátrình đúng hay sai Tín hiệu đó được gọi là tín hiệu củng cố Phươngpháp học củng cố chỉ là một phương pháp học riêng của phương pháp học cógiám sát, bởi vì nó cũng nhận tín hiệu chỉ đạo từ bên ngoài Chỉ khác là tín hiệucủng cố có tính ước lượng hơn là để dạy Tín hiệu giám sát bên ngoài d thườngđược tiến hành bởi các tín hiệu ước lượng để tạo thông tin ước lượng cho mạngnơron điều chỉnh trọng số với hy vọng sự ước lượng đó mang lại sự chính xác

trong quá trình tính toán Mô hình học củng cố được minh hoạ như hình 5.2

 Học không có giám sát

Trang 12

Trong trường hợp này, hoàn toàn không có tín hiệu ở bên ngoài Giá trịmục tiêu điều khiển không được cung cấp và không được tăng cường Mạngphải khám phá các mẫu, các nét đặc trưng, tính cân đối, tính tương quan…Trong khi khám phá các đặc trưng khác, mạng nơ ron đã chải qua việc tự thayđổi thông số, vấn đề đó được gọi tự tổ chức (Self- Organizing) Mô hình học

không có giám sát được minh hoạ như hình 5.3

Hình 5.3.Mô hình học không có giám sát

Cấu trúc chung của quá trình học được mô tả như hình 5.4

Hình 5.4 Sơ đồ cấu trúc chung của quá trình học

Trong đó tín hiệu vào xj , j=1,2,3…,m, có thể được lấy từ đầu ra của cácnơron khác hoặc có thể được lấy từ bên ngoài Tín hiệu mong muốn di cósẵn chỉ có trong phương pháp học có giám sát hoặc củng cố Từ hai phươngpháp học trên, trọng số của nơ ron thứ i được thay đổi tuỳ theo tín hiệu ở đầuvào mà nó thu nhận và giá trị đầu ra của nó Trong phương pháp học không cógiám sát sự thay đổi của trọng số chỉ dựa trên cơ sở các giá trị đầu vào và đầu ra.Dạng tổng quát của luật học trọng số của mạng nơ ron là cho biết gia số của véc

tơ wi là Δwi tỷ lệ với tín hiệu học r và tín hiệu đầu vào x(t):

Δw (t) = η.r.x(t) (1.8) η: Là hằng số học, xác định tốc độ học và là một số dương

r: Là tín hiệu học r = f (w ,x,di ) (1.9)

Trang 13

Biểu thức (1.8) là biểu thức chung để tính số gia của trọng số, ta thấy trọng

số wi = (wi1, wi2, …, wim)T có gia số tỷ lệ với tín hiệu vào x và tín hiệu học r Từcác biểu thức trên ta có véc tơ trọng số ở thời điểm (t+1) được tính là:

Wi(t+1) = wi(t) + η.fr {wi(t), x(t), di(t)}.x(t) (1.10)

Vấn đề quan trọng trong việc phân biệt luật học cập nhật trọng số có giámsát hay không có giám sát là tín hiệu học r như thế nào để thay đổi hoặc cập nhậttrọng số có trong mạng nơron

Có 2 phương pháp cơ bản để huấn luyện mạng nơron: Huấn luyện gia tăng(tiến dần) và huấn luyện theo gói Sự huấn luyện theo gói của mạng nhận đượcbằng việc thay đổi hàm trọng và độ dốc trong một tập (batch) của véc tơ đầuvào Huấn luyện tiến dần là thay đổi hàm trọng và độ dốc của mạng sau mỗi lầnxuất hiện của một phần tử véc tơ đầu vào Huấn luyện tiến dần đôi khi được xemnhư huấn luyện trực tuyến hay huấn luyện thích nghi

Mạng nơ ron đã được huấn luyện để thực hiện những hàm phức tạp trongnhiều lĩnh vực ứng dụng khác nhau như trong nhận dạng, phân loại sản phẩm, xử

lý tiếng nói, chữ viết và điều khiển hệ thống

Thông thường để huấn luyện mạng nơron, người ta sử dụngphương pháp huấn luyện có giám sát, nhưng cũng có mạng thu được từ sự huấnluyện không có giám sát Mạng huấn luỵện không giám sát có thể được sử dụngtrong trường hợp riêng để xác định nhóm dữ liệu

6 Các tính chất của mạng nowrron nhân tạo

• Là hệ phi tuyến: Mạng nơ ron có khả năng to lớn trong lĩnh vực nhậndạng và điều khiển các đối tượng phi tuyến

• Là hệ xử lý song song: Mạng nơ ron có cấu trúc song song, do đó có độtính toán rất cao rất phù hợp với lĩnh vực nhận dạng và điều khiển

• Là hệ học và thích nghi: Mạng được luyện từ các số liệu quá khứ và cókhả năng tự chỉnh khi số liệu đầu vào bị mất, có thể điều khiển on- line

• Là hệ nhiều biến, nhiều đầu vào, nhiều đầu ra (MIMO), rất tiện dùng khiđối tượng điều khiển có nhiều biến số

7 Mô hình toán học mạng nơron truyền thẳng và mạng nơron hồi quy 7.1.Mạng nơ ron truyền thẳng

a/ Mạng nơ ron một lớp

Trang 14

Một cấu trúc toán học mạng 1 lớp với R đầu vào và S nơ ron được chỉ ra trên hình Trong đó :

-Véc tơ vào P có R phần tử P = [p1p2 … pr] -Véc tơ vào n có S phần tử nT = [n1 n2 … ns

-Véc tơ ra a có S phần tử a = [a1a2 … as ]

Hình 7.1.Cấu trúc mạng nơ ron 1 lớp

Trong mạng này mỗi phần tử của véc tơ vào P liên hệ với đầu vào mỗinơron thông qua ma trận trọng lượng liên kết W Bộ cộng của nơ ron thứ i thuthập các trọng liên kết đầu vào và độ dốc để tạo thành một đầu ra vô hướng ni Các ni tập hợp với nhau tạo thành s phần tử của véctơ vào n Cuối cùng ở lớp ra

nơ ron ta thu được véctơ a gồm s phần tử Ta có thể thiết lập lớp đơn của cácnơron có các hàm chuyển khác nhau một cách dễ dàng bởi lẽ hai mạng được đặtsong song Tất cả các mạng có thể có chung đầu vào và mỗi mạng có thể thiếtlập một vài đầu ra Các phần tử của véc tơ đầu vào được đưa vào mạng thôngqua ma trận trọng W, với:

(1.12)

Trong đó: Chỉ số hàng trong các phần tử của ma trận W cho biết nơronnơi đến còn chỉ số cột cho biết nơi xuất phát của trọng liên kết Ví dụ: w12 nói

Trang 15

liên kết là w12 Để đơn giản ta ký hiệu mạng một lớp gồm S nơron, R đầu vàonhư hình vẽ 7.2

Hình 7.2 Ký hiệu mạng một lớp R đầu vào và S nơron

Trong đó: véctơ vào P có kích thước R, ma trận trọng liên kết W cókích thước S x R còn a và b là các véc tơ có kích thước S Như chúng ta đãbiết, một lớp mạng bao gồm ma trận trọng liên kết, toán tử nhân, véc tơ

độ dốc b, bộ tổng và hàm truyền

b/ Mạng nơron nhiều lớp

Để khảo sát mạng nhiều lớp trước hết chúng ta cần đưa ra các ký hiệu quiước cho một lớp mạng Đặc biệt ta cần phải phân biệt sự khác nhau giữa ma trậntrọng lượng liên kết ở đầu vào và các ma trận trọng liên kết giữa các lớp

Ta gọi ma trận trọng lượng liên kết nối với đầu vào là các trọng vào và các

ma trận đến từ lớp ra là trọng liên kết lớp Ta sẽ dùng các chỉ số viết bên trên đểphân biệt nguồn (chỉ số thứ hai) và đích (chỉ số thứ nhất) cho các trọng liên kết

và các phần tử khác của mạng

Để minh hoạ, ta xét một lớp mạng có nhiều đầu vào như hình 7.3 Trong

đó R là số phần tử lớp vào và S1 là số nơron của lớp 1 Ta thấy ma trận trọngliên kết với véc tơ vào P là ma trận trọng vào (IW1,1) có nguồn là 1 (chỉ số thứ 2)

và đích là 1 (chỉ số thứ nhất) Đồng thời các phần tử của 1 lớp như độ dốc,tín hiệu vào hàm chuyển, đầu ra có chỉ số viết trên là 1 để nói rằng chúngđược liên kết với lớp thứ nhất (b1 , n1 , a1 )

Hình 7.3: Ký hiệu một lớp mạng

Trang 16

Một mạng nơron có thể có một vài lớp Mỗi lớp có ma trận trọngliên kết W, véc tơ độ dốc b và đầu ra a Để phân biệt các ma trận trọng liên kếtvéc tơ vào cho mỗi lớp mạng trong sơ đồ, ta thêm con số chỉ lớp viết ở phía trêncho biến số quan tâm.

Hình 7.4 là ký hiệu sơ đồ mạng 3 lớp Trong đó có R1 đầu vào, S1 nơ ron ở lớp

1, S2 nơron ở lớp 2 …Thông thường, các lớp khác nhau có số nơ ronkhác nhau

Chú ý rằng đầu ra của mỗi lớp trung gian là đầu vào của lớp tiếp theo Như vậylớp 2 có thể được xem như mạng 1 lớp với S1 đầu vào, S2 và S2 x S1 trọng liênkết của ma trận W2 Đầu vào của lớp 2 là véc tơ a1 , đầu ra là véc tơ a2 Các lớpcủa mạng nhiều lớp đóng vai trò khác nhau Lớp cuối cùng là kết quả ở đầu racủa mạng, được gọi là lớp ra Lớp đầu tiên thu thập tín hiệu vào được gọi là lớpvào, các lớp khác được gọi là lớp ẩn Mạng 3 lớp ở trên có 1 lớp ra (lớp 3) có1lớp vào (lớp1) và 1 lớp ẩn (lớp 2) Đối với mạng 3 lớp ta cũng có thể sử dụng

ký hiệu tắt để biểu diễn (hình 7.5) Mạng nhiều lớp rất mạnh, ví dụ có mạng

2 lớp, trong đó lớp 1 có hàm chuyển sigmoid, lớp 2 có hàm chuyển linear

có thể được huấn luyện để làm xấp xỉ một hàm bất kỳ (với số điểm gián đoạn cóhạn chế)

Trong đó a3 là đầu ra của mạng, ta ký hiệu đầu ra này là y Ta sẽ sử dụng

ký hiệu này để định rõ đầu ra của mạng nhiều lớp

Hình 7.4 Cấu trúc mạng nơron 3 lớp

Trang 17

Hình 7.5 Ký hiệu tắt của mạng nơron 3 lớp

7.2.Mạng nơron hồi quy

Mạng hồi quy còn được gọi là mạng phản hồi là loại mạng tự liên kếtthành các vòng và liên kết hồi quy giữa các nơron Mạng nơron hồi quy có trọng

số liên kết đối xứng như mạng Hopfield luôn hội tụ về trạng thái ổn định Mạngliên kết hai chiều (BAM) là mạng thuộc nhóm mạng nơron hồi quy hai lớpnơron liên kết tay đôi, trong đó đảm bảo nơron của cùng một lớp không liên kếtvới nhau, cũng hội tụ về trạng thái ổn định Nghiên cứu mạng nơron hồi quy cótrọng số liên kết khôn đối xứng sẽ gặp nhiều phức tạp hơn so với mạng truyềnthẳng và mạng hồi quy đối xứng Mạng nơron hồi quy có khả năng vềnhận mẫu, nhận dạng các hàm phi tuyến, dự báo … Một ưu điểm khác củamạng nơron hồi quy là chỉ cần mạng nhỏ hơn về cấu trúc cũng có khả năng nhưmạng truyền thẳng có cấu trúc lớp hơn

a/ Mạng nơron hồi quy không hoàn toàn

Là mạng đó dựa trên cơ sở mạng lan truyền ngược vì cấu trúc hồi quy.Cấu trúc của mạng hồi quy không hoàn toàn phần lớn là cấu trúc truyền thẳngnhưng có cả sự lựa chọn cho một bộ phận có cấu trúc hồi quy.Trong nhiềutrường hợp, trọng số của cấu trúc hồi quy được duy trì không đổi, như vậy luậthọc truyền ngược có thể dễ dàng được sử dụng Trong các mạng loại này, sựtruyền thẳng được xảy ra rất nhanh hoặc không phụ thuộc vào thời gian, trongkhi đó tín hiệu hồi quy được thực hiện có tính thời gian Mạng có thể nhận mẫudãy dựa vào tình trạng cuối cùng của dãy và có thể dự báo tiếp theo cho tín hiệucủa dãy theo thời gian Như vậy, mạnghồi quy không hoàn toàn về cơ bản làmạng tryền thẳng , liên kết hồi quy có thể đi từ các nút ở các lớp ra hoặc lớp ẩn

Trang 18

b/ Mạng nơ ron hồi quy hoàn toàn

Hình 7.6 Ký hiệu một lớp mạng hồi quy

Là một trong những loại mạng nơron hồi quy đầu tiên được Gossbergxây dựng để học và biểu diễn các mẫu bất kỳ loại mạng này được xâydựng theo mẫu Instar- Outstar Loại mạng hồi quy hoàn toàn có tác dụngnhận số lượng mẫu nhiều nhơn Với mạng hồi quy hoàn toàn đã hình thành quanđiểm thực hiện và luyện mạng hồi quy từ mạng truyền thẳng nhiều lớp được xâydựng từ một lớp cho mỗi bước tính Khái niệm này được gọi là lan truyền ngượctheo thời gian phù hợp khi quan tâm đến các dãy với độ lớn T là nhỏ Nó đãđược sử dụng học cho máy ghi cho nhiệm vụ thực hiện các dãy Nó có khả

năng áp dụng cho điều khiển thích nghi Hình 7.6 là mạng nơron một lớp hồi quy Hình 7.7 là mạng nơron nhiều lớp hồi quy

Hình 7.7 Ký hiệu tắt của mạng nơron 3 lớp hồi quy

8 Quá trình huấn luyện mạng nhiều lớp

Chúng ta đã biết, mạng nơron nhiều lớp có thể xấp xỉ gần đúng một hàmbất kỳ, tiếp đó là thủ tục tính chọn các thông số của mạng (các hàm trọng lượng

và độ dốc) cho một đối tượng cụ thể được gọi là quá trình huấn luyện mạng.Trong phần này chúng ta sẽ chỉ ra một phương pháp huấn luyện là phương

Trang 19

pháp lan truyền ngược Kỹ thuật cơ bản của phương pháp lan truyền ngược làcập nhật trọng số theo hướng giảm độ dốc

Như đã nêu, mạng nhiều lớp có đầu ra của lớp trước là đầu vào của lớp

tiếp theo Sơ đồ cấu trúc được cho như hình vẽ 7.5

Biểu thức toán học mô tả sự hoạt động như (1.17):

am+1 = f m+1(wm+1 .am + bm+1 ) Với m = 0,1,2,…M-1 (1.17)Trong đó M là số lớp nơ ron trong mạng Các nơ ron của lớp thứ nhất nhận tín hiệu đầu vào từ bên ngoài: a0 = p (1.18) Đầu ra của các nơ ron ở lớp cuối cùng của mạng được coi là đầu ra của mạng:

y = am (1.19)

8.1 Quá trình thực hiện.

Thuật toán lan truyền ngược của mạng nhiều lớp là một phương pháp làmgiảm độ dốc Phương pháp này được dùng để cập nhật những thông số sao chogiảm thiểu sai số của mô hình Sai số được đo bằng phương pháp trung bìnhbình phương sai lệch Tập hợp mẫu vào ra được cho dưới dạng như (1.20):

(1.20)

Trong đó pq là một đầu vào của mạng, và tq tương ứng là một đầu ra Mỗimột đầu vào tác động vào mạng sẽ có một đầu ra thực được so sánh với đáp ứngmẫu Hàm thông số của mạng được xác định theo biểu thức tổng bình phươngsai lệch cực tiểu như (1.21):

Trang 20

Với mạng nhiều lớp, sai lệch là hàm ẩn của các hàm trọng lượng ở các lớp

ẩn, vì thế các phép đạo hàm sẽ tính khó khăn Bởi vì sai lệch là hàm ẩn của cáctrọng số ở các lớp ẩn nên chúng ta sẽ sử dụng qui tắc chuỗi toán học để tính đạohàm riêng trong các biểu thức (1.24) và (1.25)

Trang 21

Đến đây chúng ta có thể biểu diễn thuật toán xấp xỉ để giảm độ dốc như (1.33), (1.34):

(1.33)(1.34)Khi đó ta có ma trận dạng (1.35), (1.36):

(1.35)(1.36)Trong đó các phần tử riêng của S được tính theo công thức (1.32)

8.3 Độ chính xác của thuật toán lan truyền ngược

Việc còn lại bây giờ là chúng ta tính toán độ chính xác Sm, nó cần đến cácứng dụng khác của qui tắc chuỗi Đó là quá trình chúng ta cho số hạng lan truyềnngược, bởi vì nó diễn tả mối liên hệ phản hồi và độ chính xác ở lớp m được tính

từ độ chính xác của lớp m+1:

(1.37)

Trang 22

(1.38)Trong đó Fm(nm ) có dạng như (1.39)

(1.39)

8.4 Biến thể của thuật toán lan truyền ngược.

Trong một số trường hợp sẽ là không thích hợp với thuật toán mà chúng tathường quy vào như lan truyền ngược cho bởi biểu thức (1.35) và (1.36) Trênthực tế, thường là thuậttoán giảm độ dốc nhất Ở đây có nhiều thuật toán khảquan sử dụng các biến thể của giải thuật lan truyền ngược, trong đó các đạo hàmđược xử lý từ lớp cối cùng đến lớp đầu tiên của mạng được tính theo công thức(1.37),(1.38)

Thuật toán Levenberg- Marqanrdt rất chính xác cho việc huấn luyện mạng

cỡ nhỏ và trung bình và nó được sử dụng một thuật toán tương tự với thuật toánlan truyền ngược được cho bởi biểu thức (1.38) Để hiểu rõ các thuật toán trên,chúng ta sẽ phân tích trong phần sử dụng thuật toán lan truyền ngược, đó là cácphép tính đạo hàm được xử lý từ lớp cuối cùng đến lớp đầu tiên Đó chính là lý

do để người ta gọi là thuật toán lan truyền ngược Một sự khác biệt của thuậttoán là kết quả của các phép đạo hàm được sử dụng để cập nhật các trọng số

8.5 Tổng quát (Phép nội suy và ngoại suy).

Chúng ta đã biết mạng nhiều lớp có khả năng làm xấp xỉ gần đúng cáchàm bất kỳ, nhưng chúng ta chưa đề cập đến vấn đề tính chọn số nơ ron và sốlớp cần thiết để đạt được một độ chính xác nhất định nào đó, chúng ta chưa đềcập đến vấn đề huấn luyện theo dữ liệu mẫu phải được chọn như thế nào Môt bíquyết xác định đủ số lượng nơron để đạt được mức độ phức tạp của hàm biên mà

Trang 23

không cần quan tâm đến quá trình huấn luyện dữ liệu đó là trong trường hợpkhông cập nhật trạng thái mới Nếu không, chúng ta cần phải có đủ quá trìnhhuấn luyện dữ liệu để mô tả tương xứng hàm biên Để minh hoạ cho việc chúng

ta có thể huấn luyện mạng, ta xét ví dụ tổng quát dưới đây.Quá trình huấn luyệnmạng được khái quát hoá theo biểu thức (1.40):

tq = g(pq ) + eq (1.40) Trong đó pq là tập hợp các đầu vào; g( ) là hàm biên mà chúng ta muốn xấp

xỉ gần đúng; eq là sai số đo của nhiễu và tq là tập hợp các đầu ra(đápứng của mạng)

Hình 1.16a Đáp ứng của mạng

khi sử dụng thuật toán bình

phương sai lệch cực tiểu

Hình 1.16b Đáp ứng của mạng khi sử dụng thuật toán Bayesian

Trên hình vẽ cho biết : Hàm biên g( ) (có nét đậm), Giá trị đích của quátrình học là tq (các vòng tròn ), đáp ứng đầu ra thực tương ứng vớp các đầu vào

Thứ nhất do mạng có lượng quá điều chỉnh trong quá trình huấn luyện, đápứng của mạng quá phức tạp vì mạng có nhiều thông số độc lập

Trang 24

Vấn đề thứ hai ở đây là trong quá trình huấn luyện không nhận giá trị p<0,nên các nơ ron( bao gồm cả dữ lệu cơ sở và các phương pháp xấp xỉ ) khôngthể đáp ứng được yêu cầu ngoại suy chính xác

Nếu một đầu vào mạng mà nằm ngoài phạm vi bao phủ của dữ liệu huấnluyện thì đáp ứng của mạng sẽ luôn bị sai

Rất ít khi chúng ta làm cho mạng biển diễn ra ngoài phạm vi của dữ liệuhọc, chúng ta có thể làm cho mạng có khả năng nội suy giữa các điểm dữ liệu.Quá trình khái quát hoá có thể đạt được sự đa dạng của các phương pháp

kỹ thuật Một phương pháp được gọi là sự dừng sớm, nhiệm vụ của chúng ta làphân chia dữ liệu huấn luyện theo biến dữ liệu đặt Sự biểu diễn mạng dựa trênbiến đặt sẽ được chỉ đạo trong suốt quá trình học Trong giai đoạn đầu của quátrình huấn luyện thì biến sai lệch giảm, khi bắt đầu có lượng quá điều chỉnh thìbiến sai lệch cũng bắt đầu tăng và tại các điểm quá trình huấn luyện được dừnglại

Thêm một phương pháp kỹ thuật nữa làm cho mạng tổng quát hoá được gọi

là sự làm đúng theo quy tắc Với phương pháp biểu diễn chỉ số so sánh làm thayđổi đến số hạng đem đến sự phức tạp cho mạng, số hạng bất lợi đó là tổng bìnhphương của các hàm trọng lượng :

(1.41)

Một bí quyết của phương pháp trên là sự lựa chọn đúng thông số ρ Nếu giátrị của nó lớn thì đáp ứng của mạng sẽ bằng phẳng và sẽ xấp xỉ không chính xácđược hàm biên Nếu giá trị của ρ quá nhỏ thì mạng có sự quá điều chỉnh Mộttrong các phương pháp thành công nhất trong việc lựa chọn ρ tốt nhất là quy tắcBayesian ([Mack 92] và [FoHa 97])

Trên hình 1.16b cho thấy đáp ứng của mạng khi mạng được huấn luyệntheo quy tắc Bayesian.Chú ý rằng đáp ứng của mạng có độ chính xác phù hợpkhông dài hơn các điểm dữ liệu huấn luyện Nhưng nhìn chung đặc tính đầu racủa mạng lại sát vào nhau hơn so với hàm biên trong phạm vi của dữ liệu huấnluyện

Tuy nhiên, với quy tắc Bayesian đáp ứng của mạng không tính toán

Trang 25

chúng ta không thể đòi hỏi mạng tính toán ngoại suy Nếu chúng ta muốn đápứng của mạng chính xác từ đầu đến cuối thì ta cần phải cung cấp dữ liệu huấnluyện trong suốt phạm vi đó Điều đó sẽ khó khăn hơn đối với trường hợp mạng

có nhiều đầu vào

9 Ứng dụng

Trong quá trình phát triển, mạng nơron đã được ứng dụng thành côngtrong rất nhiều lĩnh vực Dưới đây liệt kê ra một số ứng dụng chính của mạngnơron:

- Aerospace: Phi công tự động, giả lập đường bay, các hệ thống điều khiểnlái máy bay, bộ phát hiện lỗi

- Automotive: Các hệ thống dẫn đường tự động cho ô tô, các bộ phân tíchhoạt động của xe

- Banking: Bộ đọc séc và các tài liệu, tính tiền của thẻ tín dụng

- Defense: Định vị , phát hiện vũ khí, dò mục tiêu, phát hiện đốitượng, nhận dạng nét mặt, các bộ cảm biến thế hệ mới, xử lý ảnh radar,

- Electronics: Dự đoán mã tuần tự, sơ đồ chip IC, điều khiển tiến trình, phântích nguyên nhân hỏng chip, nhận dạng tiếng nói, mô hình phi tuyến

- Entertainment: Hoạt hình, các hiệu ứng đặc biệt, dự báo thị trường

- Financial: Định giá bất động sản, cho vay, kiểm tra tài sản cầm cố, đánhgiá mức độ hợp tác, phân tích đường tín dụng, chương trình thương mạiqua giấy tờ, phân tích tài chính liên doanh, dự báo tỷ giá tiền tệ

- Insurance: Đánh giá việc áp dụng chính sách, tối ưu hóa sản phẩm

Ưu Nhược Điểm Của Mạng Nơron

Nhược điểm:

- Tiếp cận hộp đen (black box): không thích hợp trong những trường hợpcần sự giải thích cho tri thức tiếp nạp

- Curse of Dimensionality: Thách thức về việc tích hợp các mạng Neuron

cỡ lớn như não bộ của con người

- Việc thiết kế, xác định một số thông số của mạng nơron đòi hỏi có nhiềukinh nghiệm

- Việc thay đổi cấu trúc tương đối hạn chế gặp khó khăn khi lời giải đòihỏi phải có cấu trúc phức tạp hay biến đổi

Ưu điểm:

- Tính phi tuyến

- Mô hình tổng quát cho ánh xạ từ tập vào đến tập ra

- Tính thích ứng (adaptivity):

Trang 26

- Chấp nhận lỗi (Fault Tolerance).

- Thích ứng với nhiễu dữ liệu (noise)

- Khả năng song song:

CHƯƠNG 2: LÝ THUYẾT ÂM THANH VÀ TIẾNG NÓI2.1 Âm thanh

2.1.1 Nguồn gốc âm thanh:

Âm thanh là do vật thể dao động cơ học mà phát ra Âm thanh phát radưới dạng sóng âm Sóng âm là sự biến đổi các tính chất của môi trường đàn hồikhi năng lượng âm truyền qua Âm thanh truyền được đến tai người là do môitrường dẫn âm Sóng âm có thể truyền được trong chất rắn ,chất lỏng, không khí

Có chất dẫn âm rất kém gọi là chất hút âm như: len,da, chất xốp… Sóng âmkhông thể truyền trong môi trường chân không

Khi kích thích dao động âm trong mối trường không khí thì những lớp khí

sẽ bị nén và dãn.Trạng thái nén dãn lần lượt được lan truyền từ nguồn âm dướidạng sóng dọc tới nơi thu âm Nếu cường độ nguồn âm càng lớn thì âm thanhtruyền đi càng xa

2.1.2 Các đại lượng đặc trưng cho âm thanh:

a/ Tần số của âm thanh: là số lần dao động của phần tử khí trong mộtgiây Đơn vị là Hz , kí hiệu : f

b/ Chu kì của âm thanh: là thời gian mà âm thanhđó thực hiện một daođộng hoàn toàn Đơn vị là thời gian, kí hiệu là T

c/ Tốc độ truyền âm: là tốc độ truyền năng lượng âm từ nguồn tớinơi thu Đơn vị m/s Tốc độ truyền âm trong không khí ở nhiệt độ từ 0- 20 0Cthường là 331 – 340 m/s

d/ Cường độâm thanh: là năng lượng được sóng âm truyền trong mộtđơn vị thời gian qua một đơn vị diện tích đặt vuông góc với phương truyền âm

Trang 27

e/ Thanh áp: là lực tác dụng vào tai người nghe hoặc tại một điểm nào

đó của trường âm thanh Đơn vị : 1pa=1 N/m2 hoặc 1bar = 1dyn/cm2

f/ Âm sắc: Trong thành phần của âm thanh, ngoài tần số cơ bản còn cócác sóng hài ,số lượng sóng hài biểu diễn sắc thài của âm Âm sắc là một đặc tínhcủa âm nhờ đó mà ta phân biệt được tiếng trầm, bổng khác nhau, phân biệt đượctiếng nhạc cụ, tiếng nam nữ ,tiếng người này với người khác

k/ Âm lượng: là mức độ to nhỏ của nguồn Đơn vị là W

2.1.3 Các tần số của âm thanh:

F gọi là tần số cơ bản của âm thanh Nam giới f0 = 150 Hz Nữ giới : f0 =

250 Hz

Giọng nam trầm 80 – 320 Hz

Giọng nam trung 100 – 400 Hz

Giọng nam cao 130 – 480 Hz

Giọng nữ thấp 160 – 600 Hz

Giọng nữ cao 260 – 1200 Hz

Công suất của tiếng nói , khi nói to nhỏ cũng khác nhau.Khi nói thầm công suất 10-3 mW , nói bình thường 10 mW , nói to 103 mW

2.1.4 Cơ chế tạo lập tiếng nói của con người:

Các cơ quan phát âm của con người chủ yếu gồm phổi, khí quản, thanhquản, bộ phận mũi và miệng.Thanh quản có hai nếp gấp gọi là dây thanh âm, dâythanh âm sẽ rung khi luồng không khí đi qua khe thanh môn là khe giữa hai dâythanh âm Bộ phận miệng là một ống âm không đều Bộ phận mũi cũng là mộtống âm học không đều có diện tích và chiều dài cố định, bắt đầu từ lỗ mũi đếnvòm miệng mềm

Quá trình tạo ra âm phi mũi: vòm miệng mềm ngăn chặn bộ ph n mũi và

âm thanh phát ra thông qua môi.Đối với quá trình tạo ra âm mũi :vòm miệngmềm hạ xuống và bộ phận mũi liên kết bộ phận miệng, lúc này phía trước của bộ

ph n miệng khép lại hoàn toàn và âm thanh ra thông qua mũi.Đối với âm thanhnói giọng mũi, âm thanh phát ra cả mũi và môi

Âm thanh của tiếng nói có thể chia làm ba loại khác nhau:

Âm hữu thanh: giống như âm khi chúng ta nói ‘a’ hay ‘e’,được tạo ra

khi dây thanh âm căng lên và rung khi áp suất không khí tăng lên, làmthanh mồm mở ra rồi đóng lại khi luồng không khí đi qua.Những dây

Trang 28

thanh âm rung tạo ra dạng sóng của luồng không khí có dạng xấp xỉ tamgiác.Chu kì cao độ âm thanh của đàn ông trưởng thành thường từ 50Hzđến 250Hz, giá trị trung bình khoảng 120Hz.Đối với phụ nữ trưởng thành,giới hạn trên cao hơn nhiều, có thể lên đến 500Hz

Âm vô thanh: được tạo ra khi dây thannh âm không rung.Có hai loại âm

vô thanh cơ bản: âm xát và âm hơi.Đối với âm xát như khi ta nói chữ ‘s’,một số điểm trên bộ phận phát âm co lại khi luồng không khí ngang qua

nó , hỗn loạn xảy ra tạo nên nhiễu ngẫu nhiên Đối với âm bật hơi, như khi

ta nói chữ ‘h’ , hỗn loạn xảy ra ở gần thanh môn khi dây thannh âm bị giữnhẹ một phần Ngoài hai loại âm cơ bản nói trên ,còn có một loại âm trunggian vừa mang tính chất nguyên âm, vừa mang tính chất phụ âm, được gọi

là bán nguyên âm hay bán phụ âm Ví dụ như ‘i’,’u’ trong từ ‘ai ‘ và ‘âu’

Phụ âm nổ: ví dụ như âm ‘p’, ‘t’,’k’ hay ‘đ’, ‘b’, ‘g’ trong tiếng Việt

được tạo ra do loại kích thích khác

2.1.5 Mô hình lọc nguồn tạo tiếng nói:

Quá trình tạo tiếng nói là bộ lọc nguồn, trong đó tín hiệu từ nguồn âm thanh( cũng có thể là có chu kì hay nhiễu ) được lọc bằng bộ lọc biến thiên theo thờigian có tính chất cộng hưởng tương tự với bộ phận phát âm.Như vậy có thể thuđược phổ tần số của tín hiệu tiếng nói bằng cách nhân phổ của nguồn âm thanhvới đặc tính tần số của bộ lọc Hình bên dưới minh họa tiếng nói hữu thanh và vôthanh.Các độ lợi AV và AN xác định cường độ của nguồn tạo âm hữu thanh và vôthanh

Trang 29

Mô hình lọc nguồn cho quá trình tạo tiếng nói khá đơn giản nhưng khôngthể lọc đượ câm xát bằng cách đỉnh cộng hưởng của bộ phận phát âm như âmhữu thanh hay âm bật hơi,vì vậy mô hình lọc nguồn hoàn toàn không chính xáccho âm xát

2.1.6 Hệ thống nghe của người:

Quá trình nghe của người như sau: sóng áp suất âm thanh tác động đến taingười, sóng này được chuyển thành chuỗi xung điện, chuỗi này được truyền tớinão bộ thông qua hệ thần kinh,ở não chuỗi được xử lý và giải mã

Khi nghe một sóng âm thuần túy tức âm đơn (sóng sine),nhữngđiểm khác nhau trên màng đáy sẽ rung động theo tần số của âm đơn đi vàotai.Điểm lệch lớn nhất trên màng đáy phụ thuộc vào tần số của âm đơn Tần sốcao tạo ra điểm lệch lớn nhất ở phía đáy và tần số thấp tạo ra điểm lệch lớn nhấtởphía đỉnh Như vậy màng đáy làm nhiệm vụ phân tích tần số tín hiệu vào phứctạp thành những tần số khác nhau ở những điểm khác nhau dọc theo chiều dàicủa nó Như vậy có thể xem mọi điểm là bộ lọc thông dải và có tần số trung tâm

và băng thông xác định

Ngưỡng nghe của một âm đơn tăng lên khi có sự hiện diện của những âmđơn lân cận khác ( âm mặt nạ ) và chỉ có bằng tần hẹp xung quanh âm đơn mớitham gia vào hiệu ứng mặt nạ, băng tần này thường gọi là âm tần tới hạn Giá trịcủa băng tần tới hạn phụ thuộc vào tần số của âm đơn cần thử

Tóm lại quá trình nghe của hệ thính giác là một dãy các bộ lọc băng thông,

có đáp ứng phủ lắp lên nhau và ‘băng thông hiệu quả’ của chúng xấp xỉ với cácgiá trị của băng tần tới hạn

2.1.7 Quá trình sản xuất tiếng nói và thu nhận tiếng nói của con người:

Sơ đồ biểu diễn quá trình thu nhận tiếng nói của con người

Trang 30

Quá trình sản xuất tiếng nói bắt đầu khi người nói muốn chuyển tải thôngđiệp của mình cho người nghe thông qua tiếng nói.Tổ chức thần kinh sẽ chịutrách nhiệm chuyển đổi thông điệp sang dạng mã ngôn ngữ.Khi một mã ngônngữ được chọn lựa,các lệnh thần kinh vận động điều khiển đồng bộ các khâu vậnđộng nhằm phát ra chuỗi âm thanh.Vậy đầu ra cuối cùng của quá trình là một tínhiệu âm học

Đối với quá trình thu nhận tiếng nói, người nghe xử lý tín hiệu âm thanhthông qua màng tai trong; nó có khả năng cung cấp một phân tích phổ cho tínhiệu tới Quá trình thần kinh sẽ chuyển đổi tín hiệu phổ thành các tín hiệu hoạtđộng với thần kinh thính giác ;có thể coi đây là quá trình lấy ra các đặctrưng.Cuối cùng các tín hiệu được chuyển thành mã ngôn ngữ và hiểu đượcthông điệp

2.1.8 Các âm thanh tiếng nói và các đặc trưng:

a/ Nguyên âm:

Các nguyên âm có tầm rất quan trọng trong nhận dạng tiếng nói; hầu hếtcác hệ thống nhận dạng dựa trên cơ sở nhận dạng nguyên âm đều có tính năng

Trang 31

tốt Các nguyên âm nói chung là có thời gian tồn tại dài và dễ xác địnhphổ.Chính vì thế dễ dàng cho việc nhận dạng tiếng nói, cả đối với con người vàmáy móc

Về mặt lý thuyết, các cực đại của biểu diễn phổ của tín hiệu nguyên âmchính là các tần số cộng hưởng tạo nên nguyên âm Giá trị của các formant đầutiên (2 hoặc 3 formant đầu tiên) là yếu tố quyết định cho phép chúng ta nhậndạng được nguyên âm Do nhiều yếu tố biến thiên như sự khác nhau về giới tính,

về độ tuổi, tình trạng tinh thần của người nói và nhiều yếu tố ngoại cảnh khác,đối với một nguyên âm xác địnnh các giá trị formant cũng có sự biến thiên nhấtđịnh.Tuy nhiên sự khác biệt về các giá trị các formant giữa các nguyên âm khácnhau lớn hơn nhiều; và trong không gian formant chúng ta có thể xác định mộtcách tương đối các vùng riêng biệt cho từng nguyên âm

b/ Các âm vị khác:

Nguyên âm đôi thì có sự biến thiên một cách liên tục các formant của biểudiễn phổ theo thời gian Đối với âm vị loại này,cần phải đặc biệt chú ý đến việcphân đoạn theo thời gian khi nhận dạng Các bán nguyên âm như /l/, /r/ và /y/ làtương đối khó trong việc biểu diễn đặc trưng Các âm thanh này không được coi

là nguyên âm nhưng gọi là bán nguyên âm do bản chất tựa nguyên âm của chúng.Các đặc trưng âm học của các âm thanh này chịu ảnh hưởng rất mạnh của ngữcảnh mà trong đó chúng xuất hiện

Đối với các âm mũi thì miệng đóng vai trò như một khoảng cộng hưởng cótác dụng bẫy năng lượng âm tại một vài tần số tự nhiên Các tần số cộng hưởngnày của khoang miệng xuất hiện như các phản cộng hưởng, hay các điểm khôngcủa hàm truyền đạt Ngoài ra, các phụ âm mũi còn được đặc trưng bởi nhửng sựcộng hưởng mạnh hơn về phổ so với các nguyên âm

Các phụ âm xác vô thanh như /s/, /sh/ Hệ thống tạo ra các phụ âm xác vôthanh bao gồm một nguồn nhiễu tại một điểm thắt mà chia ống dẫn âm thành haikhoang Âm thanhđược bức xạ tại khoang trước Khoang sau có tác dụng bẫynăng lượng như trong trường hợp phụ âm mũi, và như vậy là đưa các phản cộnghưởng vào âm thanh đầu ra Bản chất không tuần hoàn là đặc trưng cơ bảnnhất của nguồn kích thích xác vô thanh

Trang 32

Điểm khác biệt của các âm xác hữu thanh như /v/, /th/ so với các phụ âmxác vô thanh là ở chỗ có hai nguồn kích thích liên quan tới việc tạo ra chúng.Như vậy đặc trưng của phụ âm xác hữu thanh là bao gồm cả hai thành phần kíchthích tuần hoàn và nhiễu

Các âm dừng là các phụ âm /b/, /d/, /g/, /p/, /t/ và /k/ chúng có thờigian tồn tại rất ngắn.Các âm dừng có tính chất động vì thế các thuộc tính củachúng chịu ảnh hưởng rất nhiều bởi nguyên âm đi sau nó

2.2 Tổng quan về nhận dạng tiếng nói

Nhận dạng tiếng nói là một hệ thống tạo khả năng để máy nhận biết ngữnghĩa của lời nói Về bản chất, đây là quá trình biến đổi tín hiệu âm thanhthu được của người nói qua Micro, đường dây điện thoại hoặc các thiết bị khácthành một chuỗi các từ Kết quả của quá trình nhận dạng có thể được ứng dụngtrong điều khiển thiết bị, nhập dữ liệu, soạn thảo văn bản bằng lời, quay số điệnthoại tự động hoặc đưa tới một quá trình xử lý ngôn ngữ ở mức cao hơn

Hình 2.2.1: Các phần tử cơ bản của một hệ thống nhận dạng tiếng nói

Các hệ thống nhận dạng tiếng nói có thể được phân loại như sau:

• Nhận dạng từ phát âm rời rạc/liên tục;

• Nhận dạng tiếng nói phụ thuộc người nói/không phụ thuộc người nói;

• Hệ thống nhận dạng từ điển cớ nhỏ (dưới 20 từ)/từ điển cỡ lớn (hàngnghìn từ);

• Nhận dạng tiếng nói trong môi trường có nhiễu thấp/cao;

• Nhận dạng người nói

Trong hệ nhận dạng tiếng nói với cách phát âm rời rạc có khoảng lặnggiữa các từ trong câu Trong hệ nhận dạng tiếng nói liên tục không đòi hỏi điều

Trang 33

dạng tiếng nói khác nhau Hình 2.2.1 là mô hình tổng quát của một hệ nhận dạng

tiếng nói điển hình

Tín hiệu tiếng nói sau khi thu nhận được lượng tử hóa sẽ biến đổi thànhmột tập các vector tham số đặc trưng với các phân đoạn có độ dài trong khoảng10-30 ms Các đặc trưng này được dùng cho đối sánh hoặc tìm kiếm các từ gầnnhất với một số ràng buộc về âm học, từ vựng và ngữ pháp Cơ sở dữ liệu tiếngnói được sử dụng trong quá trình huấn luyện (mô hình hóa/phân lớp) để xác địnhcác tham số hệ thống

2.2.1 Các nguyên tắc cơ bản trong nhận dạng tiếng nói

Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản:

 Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổtrong một khung thời gian ngắn Nhờ vậy ta có thể trích ra đặc điểmtiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm

dữ liệu nhận dạng tiếng nói

 Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các

kí hiệu ngữ âm Do đó ý nghĩa của một phát âm được bảo toàn khi chúng

ta phiên âm phát âm thành dãy các kí hiệu ngữ âm

 Nhận dạng tiếng nói là một quá trình nhận thức Ngôn ngữ nói là có nghĩa,

do đó thông tin về ngữ nghĩa và suy đoan có giá trịtrong quá trình nhậndạng tiếng nói nhất là khi thông tin về âm học là không rõ ràng

2.2.2 Các hệ thống nhận dạng tiếng nói:

Các hệ thống nhận dạng tiếng nói có thể được phân chia thành hai loại khácnhau: hệ thống nhận dạng từ rời rạc và hệ thống nhận dạng từ liên tục Trong hệthống nhận dạng tiếng nói liên tục, người ta lại phân biệt hệ thống nhận dạng cókích thước từ điển nhỏ và hệ thống nhận dạng với kích thước từ điển trung bình

hoặc lớn Hình 2.2.2.1 cho ta các lớp hệ thống nhận dạng tiếng nói khác nhau.

Ngày đăng: 30/12/2015, 15:13

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w