1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Kỹ thuật điện tử: Thiết Kế Hệ Thống Nhúng Nhận Dạng Giọng Nói Dùng Neural Network

95 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Thiết Kế Hệ Thống Nhúng Nhận Dạng Giọng Nói Dùng Neural Network
Tác giả Nguyên Thanh Tuấn
Người hướng dẫn TS. Hoang Trang
Trường học Trường Đại học Bách Khoa
Chuyên ngành Kỹ Thuật Điện Tử
Thể loại Luận Văn Thạc Sĩ
Năm xuất bản 2013
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 95
Dung lượng 24,56 MB

Nội dung

Chương 2 Hệ thống nhận dạng giọng nói dùng Neural Network: thiết kế sođỗ khối và hoạt động của hệ thống, bao gồm: quá trình thu 4m, tiền xử lý, trích đặctrưng, huấn luyện bộ trọng số, nh

Trang 1

ĐẠI HỌC QUỐC GIA TP.HCMTRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYÊN THANH TUẦN

Chuyên ngành: Kỹ Thuật Điện Tử

Mã số: 60 52 70

LUẬN VĂN THẠC SĨ

TP.HO CHÍ MINH, thang 12 năm 2013

Trang 2

(Ghi rõ ho, tên, học hàm, học vi và chữ ký)

Cán bộ chấm nhận xét 1: TS VÕ NGUYEN QUỐC BẢO

(Ghi rõ ho, tên, học hàm, học vi và chữ ký)

Cán bộ chấm nhận xét 2 : TS VÕ TRUNG DỮNG . -.-¿

(Ghi rõ ho, tên, học hàm, học vi và chữ ký)

Luận văn thạc sĩ được bảo vệ tại Trường Dai học Bách Khoa, DHQGTp.HCM ngày 30 thang 12 năm 2013

Thanh phan Hội đồng đánh giá luận văn thạc sĩ gồm:(Ghi rõ ho, tên, học ham, học vi của Hội đồng cham bảo vệ luận văn thạc sĩ)1 PGS.TS LE TIEN THUONG

2 TS HOANG TRANG3 TS VO NGUYEN QUOC BAO

4 TS VO TRUNG DUNG

5 TS HOANG MINH TRIXác nhận của Chủ tịch Hội đồng đánh giá LV va Trưởng Khoa quan lý

chuyên ngành sau khi luận văn đã được sửa chữa.

CHỦ TỊCH HỘI ĐÔNG TRƯỞNG KHOA ĐIỆN-ĐIỆN TỬ

Trang 3

ĐẠI HỌC QUOC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAMTRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự do - Hạnh phúc

NHIEM VỤ LUẬN VĂN THẠC SĨHọ tên học viên: NGUYÊN THANH TUẦN MSHV: 11140073

Ngày, tháng, năm sinh: 10/11/1980 Nơi sinh: Kiên Giang

Chuyên ngành: Kỹ Thuật Điện Tử Mã số : 60 52 70I TÊN DE TÀI: Thiết Kế Hệ Thống Nhúng Nhận Dạng Giọng Nói Dùng Neural

Network

H NHIỆM VỤ VÀ NỘI DUNG:- Thiết kế hệ thống nhúng nhận dạng giọng nói 16 từ đơn Tiếng Việt dùng

Neural Network.- Thuc hiện ứng dụng trên Kit BeagleBoard xM.

Ill NGÀY GIAO NHIEM VU : 21/01/2013Iv NGAY HOAN THANH NHIEM VU: 22/11/2013V CÁN BO HUONG DAN: TS HOANG TRANG

Tp HCM, ngay thang năm 2014

CAN BO HUONG DAN CHU NHIEM BO MON DAO TAO

(Ho tên va chữ ky) (Họ tên va chữ ky)

TRƯỞNG KHOA ĐIỆN ĐIỆN TỬ

(Họ tên và chữ ký)

Trang 4

LOI CAM ONTôi xin chân thành cam on Ts.Hoàng Trang đã trực tiếp hướng dan dé tàitrong suốt thời gian qua Thay luôn tận tình giúp đỡ, quan sát, tạo điều kiện thuậnlợi nhất cho tôi thực hiện đề tài.

Tôi cũng xin cảm ơn các thay trong bộ môn Điện tử trường Dai hoc BachKhoa đã tạo điện kiện cho tôi mượn và sử dụng các thiết bị cần thiết trong phòngLab để tôi thực hiện tốt đề tài

Tôi cũng xin chân thành cảm ơn các bạn học viên và nghiên cứu viên trong

phòng 116/B1 Các bạn luôn sẵn lòng chia sẽ những kinh nghiệm giúp đỡ tôi trong

suôt quá trình thực hiện đê tài.

Tôi gửi lời cảm ơn đên gia đình, bạn bè, mọi người đã giúp đỡ, động viên tôi

trong suốt quá trình thực hiện luận văn

TP.Hồ Chí Minh, 22/11/2013

Học viên

Nguyễn Thanh Tuan

Trang 5

Thiết kế HTN nhận dạng giọng nói dùng Neural Network GVHD: TS Hoang Trang

TOM TATĐề tài xây dựng giải thuật nhận dạng giọng nói 16 từ đơn tiếng Việt dùng

Neural Network Chương trình được thực hiện trên may tính cá nhan va sau đó

nhúng xuống Kit BeagleBoard xM Trên máy tính cá nhân sử dụng hệ điều hànhUbuntu 10.4 Codes được viết trên Qt 4.6 và dùng Qt-Everywhere biên dich chokiến tric ARM Trên BeagleBoard xM sử dung hệ điều hành Angstrom

Giọng nói thu từ Micro ở dạng tương tự được số hóa bởi Soundcard, quá trìnhthu phát âm được thực hiện với thư viện Alsa Hệ thông thực hiện quá trình tiền xửlý cắt các khoảng lặng (không phải tín hiệu tiếng nói) bằng phương pháp xác địnhngưỡng năng lượng thời gian ngăn kết hợp với phương pháp xác định tỉ lệ biên độtín hiệu dao động qua điểm Zero Âm thanh sau khi được tiền xử ly sẽ tiến hànhtrích đặc trưng bằng phương pháp MFCC (Mel-scale Frequency CepstralCoefficient) Các vector đặc trưng được đưa vào mang Neural lan truyền thăng, sửdụng thuật toán Backpropagation để huấn luyện tạo ra bộ trọng số, bộ trọng số nàyđược dùng để nhận dạng

Bộ từ vựng cần nhận dạng là các từ: “Không”, “Một”, “Hai”, “Ba”, “Bốn”,“Năm”, “Sáu”, “Bảy”, “Tám”, “Chín”, “Mở”, “Đóng”, “Tới”, “Lui”, “Bật, “Tat”được phat ra từ tác giả trong điều kiện tiếng ồn thấp Kết quả thực hiện nhận dạngtrên máy tính cá nhân và nhúng trên BeagleBoard xM độ chính xác đạt được xấp xỉ

99%.

HVTH: Nguyễn Thanh Tuấn

Trang 6

The thesis developed an algorithm for speech recognition of the single 16Vietnamese using Neural Network The program was conducted on a personalcomputer which used Ubuntu 10.4 operating system and then embedded on KitBeagleBoard xM Codes were written on the Qt 4.6 and Qt-Everywhere wereapplied to compile the ARM architecture On the BeagleBoard xM, Angstromoperating system was used.

The speech was recorded by the Micro in the form of analog and digitalized bySoundcard The process of the speech recording and playing were conducted withAlsa library The system of implementing the pre-processing phase, cutting silentsounds (not the speech signals), was handled by an integrated method in whichdetermining the short-time energy threshold was combined with determining therate of fluctuations signal amplitude crossing Zero point The speech from thepreprocessing phase was extracted by the MFCC method (Mel-scale FrequencyCepstral Coefficient) The remarkable vectors were inputted the spreading straight-through Neural Network using Backpropagation algorithm to train and generate theweights employed for the voice recognition.

The package of vocabulary that needed to be recognized (in Vietnamese)

included: “Không”, “Một”, “Hai”, “Ba”, “Bốn”, “Năm”, “Sáu”, “Bảy”, “Tám”,“Chín”, “Mở”, “Đóng”, “Tới”, “Lui”, “Bật, “Tắt? which were produced by the

authors under the low conditions of noise The results of recognition carried out onthe personal computer and then embedded on the BeagleBoard xM would obtain theexact level of approximately 99 percent.

Trang 7

Thiết kế HTN nhận dạng giọng nói dùng Neural Network GVHD: TS Hoang Trang

LOI CAM DOANTôi cam đoan các kết quả dé tài thực hiện chưa từng công bố trong bat ky

công trình khoa học trước đây.

Người cam đoan

Nguyễn Thanh Tuấn

HVTH: Nguyễn Thanh Tuấn

Trang 8

-ly-MUC LUCLOT CAM ƠN s e2 H HH HE AE 07012930 0201009390201009390ip iTOM TAT 5 ii

ABSTTRR.ACCT o5 < <5 s9 4 9 0 0 0 04.90.0009 09 1.0001.000 00005 0094.0000 000000000 ill

LOT CAM DOAN Qu cssssssssssssnssscsscsnssscssccssscssscsssscsssssssscsssssssscsessssvscsssesssscssssssssesssesssseanessess ivDANH SÁCH HINH VE VA BANG BIEU ssssssssssssssssssscsvsessssesssessssesvsessssesssessssesseess viiMO DAU sssssssssssssscssscsssecssscssscsssscssscsssscssscsssscasscsssscanscssssssnscssssssnsesssssansesesscsnsessssesneesees -1-1 Lý do chọn để tài c1 S221 1 2121111 12151211 012111 11010121 110101210112 y0 -]-2 Một số công trình nghiên CỨU -:- - 5£ SE+EE2ESE£E E112 212112121211 2E xe -2-3 Mục tiêu và giới hạn dé tài - + cscsscsesceesscsescssseseseesesesesessesesneeeeien -3-A Bố cục luận Văn + So S111 111111155115111 115111111111 1111 1111111111111 115111111 1.1151 1g -3-CHƯƠNG 1: CƠ SỞ LY THUYET sessssssssssssssscnssesssssnssessssssssesssssnssessessssssnvsessessses -5-1.1 Cơ sở lý thuyết về nhận dạng giọng nói cccecccccesceesseseseessesesesseseseeeeees -5-1.1.1 Cac đặc điểm của 341015800077 -5-1.1.2 Phân loại các hệ thống nhận dạng Qiong NOI 55-55 < +52 -5-1.1.3 Các yêu tố anh hưởng đến kết quả nhận dang ¿55552 -6-1.1.4 Các phương pháp tiếp cận nhận dạng giọng NOi c eee cence eee -6-1.1.5 Một hệ thống nhận dạng giọng nói dùng mang Neural nhân tạo -7-1.2 Tién xử lý âm thanh oo cccecscscscsecscscsscsescsesscsescssscsesssussesssessesssneeeees -8-1.30 Trích đặc frưng - - - k1 ng ng ngà -9-1.4 Mạng Neural nhân tạo (ANN-Artificial Neural Network) «‹- -13 -1.4.1 Giới thiệu mang Neural nhân tạo - 55 2 S22 **+++ssersssssss2 -13-142 Mô hình tổng quát của một mạng Neural nhân tạo - - -15-143 Hàm kích hoạt foo cececesceecesseeccesneeceseeeecesaeeecesneeeeseeeeeeeeeceneneeees - 16-

144 — Câu trúc mạng Neural nhân tạo - - c5 S233 rrssssssrrres

-18-14.5 Thuật toán BacKpropagafIOI - ng ke 1.5 Hệ thống nhúng :- S2 2ESE*EEE2E2EE25 1211111 211112111 211011011 xe - 29 -1.5.1 Phần cứng -S 2c 22t 2 221 212112 reo - 29 -1.5.2 Hệ điều hành nhting oo ccc ccc cecscseseesessseseesescssssesessssesesesessesesen - 32 -CHUONG 2: HE THONG NHAN DẠNG GIỌNG NÓI DUNG NEURAL

2lj 3 À0) 0155555 33

2.1 Sơ đồ khối và hoạt động của hệ thống "— 33

Trang 9

-Thiết kế HTN nhận dạng giọng nói dùng Neural Network GVHD: TS Hoang Trang

2.2 Qua trimh thu na 33 23 Tiền xử lý L CS HE TH E1 1121 1211111111111 11121 01110 xe - 34 -24 = Trích đặc trưng MFCC uu ee cccccccesseecessnececeenaeccesneeeeseeeeceenaeceneeeeeeeeaeecenaaes - 39 -2.4.1 Pre-emphiasIs - LG LH HH ng kh - 39 -24.2 Frame Blocking & Wverlap - - G1 HH ng ngư - 39 -2.43 WindowIng TH HH ng - 40 -X“' 6n - 41 -2.445 Mel-Frequency Filter BankK - 2c 1112 1H ng ke - 42 -24.6 — Tính Cepstrum e eee ceeecccceenceeesnceccesneeceseeeecesaaecceeeeeeseaeeeeeeaaesensaeeees - 43 -24.7 Logged Energy HH HH nghe - 43 -24.8 _ Hệ số Delta tt th re - 43 -2.5 Huân luyện bộ trong TA - 44 -2.5.1 Thu mẫu, lưu thành tập mau - 2 2 52+22++x+E+£vS££2E£tzxexerrrerxe - 44 -2.5.2 Tiền xử lý và trích đặc trưng - ¿+ 2 2+2 1E E212 Eckrree - 44 -2.53 Huấn WED cecccccccccsccscssssessesesssscssssescsesessssesussssussssesussesucsssueseseeseeeees - 45 -2.6 _ Nhận dạng và hién thị kết QUa c ccccccccccscsssesessesesssstsseseescsessesesessssesseseeesen - 50 -CHUONG 3: XÂY DUNG HE THONG NHUNG TREN BBxM -51-3.1 So đồ hệ thống nhận dang trên BBXM c.ceccccccccsscssseseesesessesteseseessseseseenesee - 5] -3.2 PRAM CUNG ace eeeecccccccccsssessesessssessssssssssesssssescssssscscssscssssesussesusscsesssessssesneeseesien - 5] -3.3 Xây dựng hệ thông nhúng - 2S 2E+E+EEE2E2E£EE E212 12512111 cxee - 51 -343.1 _ Xây dựng hệ điều hành nhúng (Thực hiện trên Window OS của PC) - 51 -3.3.2 _ Biên dich ứng dụng trên BeagleBoard xM (Thực hiện trên Ubuntu 10.4)- 52 -3.4 Thuc hiện nhận dạng trên BBxM - - S111 1S 1v 21x12 - 56 -

-CHUONG 4: KET QUA wisssssssssscssssssnsscsssssssvscsnssosssscssssssnssossnscessessssssssnscsssesssssessnssssses 41 Kết Qua dat CUO 21117 - 57 -4.1.1 Giao diện và hoạt động của chương trình -.- 555522 <++ssssxssss - 57 -4.1.2 Kết quả thống KO oo ccccccccccssscssssessesesscscssssesessescssssesussesusscseesseeseeeees - 58 -A2 Kếtluận th Hee - 79 -43 Hướng nghiên cứu và phat triỀn - - + 2+5+S£S*2E+E£EE£E2ESEEEEEEErkrkrree - 80 -TÀI LIEU THAM KHAO cccsssscsssscsssssssssssssssssesssssssssssssssesssscsssesssscsesessssssesessssones - 81 -

-57-HVTH: Nguyễn Thanh Tuấn

Trang 10

-Vi-DANH SACH HINHHình 1 1 Sơ đỗ khối nhận dạng giọng nói dùng Neural Network ¬Hình 1 2 Sự tương quan giữa tín hiệu tiếng nói và nhiễu nên - -8-Hình 1 3 Sơ đồ giải thuật trích đặc trưng MECC ccecccsessesesesseseseeseseseeseseeeeees -9-Hình 1 4 Các Frame trong phân tích tiếng nói ¿©- 5 2 2 2+s+x+£z£scscs2 -10-Hình 1 Minh họa vẻ cau trúc của một Neural sinh hoc và bộ não người -]3-Hình 1 6 Quá trình truyền thông tin của một Neural wo cesses +2 s5s5s¿ - 14-

Hình 1 7 Mô hình toán học của 1 Neural - c2

14Hình 1 8 Mô hình Neural tổng quát R ngõ vào, một ngõ ra l5

-Hình 1 9 Hàm kích hoạt HardÏim 55555 < << << + EEEsssssseeeeeess - Hình 1 10 Hàm kích hoạt Purelin - - - 55 << << << + Esssssseeeeeres - l6-Hình 1 11 Hàm kích hoạt Log-Sigmode <5 +1 93k ke - [7 -Hình 1 12 Hàm kích hoạt “Ï anSIg - << 1 S30 1 1993511 9931k ra - [7 -

l6-Hình 1 13 Mang Neural truyền thăng 1 lớp Am - 55252 s+s+szss+se2 - Hình 1 14 Mang Neural truyền thăng nhiều lớp an - 2 5552: - l8-Hình 1.1 Mang Neural hồi quy - ¿2-5 2555252 S£+E+EE£E+EeEzEetererererrees - 20-Hình 1 16 Mô hình mang Neural với bộ p vectơ vào-ra {x® id} ¬— -21-

l8-Hình 1 17 BeagleBoard xÌM ng kg 29

Hình 1 18 So đỗ mô tả các chức năng của BeagleBoard XM 3] Hình 1 19 Sơ đồ khối cấu trúc của BBXM eseecsesessesseesseesseesseesseeeseecsserseerseetaes -31-Hình 2 1 Sơ đồ khối hệ thong nhận dạng giọng nói ¿-2- 55 5s s52 - 33 -Hình 2 2 Dạng sóng của tin hiệu âm “tat? o.ccccccccsecceescsesesesesescssssesessssseeees - 34 -Hình 2 3 So đồ giải thuật cắt các khoảng lặng băng phương pháp xác định ngưỡngnăng lượng thời gian ngăn và tỉ lệ biên độ dao động qua điểm Zero - 35 -

Hình 2 4 Minh hoa Overlap y Mau ccccccccscscscsesessseseesescsesssessscscscsesesesseeeseeees 37

Hình 2 5 Dạng sóng của âm “hai” lúc trước và sau khi cat khoảng lặng 38 Hình 2 6 So dé giải thuật trích đặc trưng MECC - «5 ĂSSS+< ess -39-Hình 2 7 Cửa số Hamming 160 điểm - ¿2-5 252252 2*+E+E£E+EeErxrrereei - 40 -

Hình 2 8 Băng thong 27 bộ loc Mel hình tam giác ««<s<sss++*ss+ 42

Trang 11

-Thiết kế HTN nhận dạng giọng nói dùng Neural Network GVHD: TS Hoang Trang

Hình 2 9 Sơ đồ khối xây dựng bộ trọng số huấn luyện «s2 44 Hình 2 10 Cau trúc mang Neural truyền thang c.ccccccsesssesessesesesesssesseseeeeees - 45 -Hình 2 11 Sơ đỗ giải thuật huấn luyện mang Neural truyền thang bang thuật toán

-HVTH: Nguyễn Thanh Tuấn

Trang 12

-VHI-DANH SACH CAC BANGBang | Xác suất nhận dạng tương ứng với số bộ lọc hình tam giác hoặc hình vuông

¬ ỐốỐÔÓ

-lI-Bang 2 Mô tả các chức năng của BBXÌM HH ng, 30

Bảng 3 Năng lượng thời gian ngăn của 16 từ vựng ccccsccceceee 58 Bang 4 Ti lệ biên độ dao động qua điểm Zero của l6 từ VỰNG «<2 - 61 -

-Bang 5 Kết quả cat các khoảng lặng của tập mẫu huấn luyện - - -

63Bang 6 Kết quả trích đặc trưng với số mẫu 1 Frame = 240, Overlap 50% 65

Bang 7 Kết quả trích đặc trưng với số mẫu 1 Frame = 160, Overlap 50% 66

Bang 8 Kết quả trích đặc trưng với số mẫu | Frame = 160, Overlap 60% 67

Bang 9 Kết quả trích đặc trưng với số mau 1 Frame = 160, Overlap 70% 69

-Bang 10 Kết quả huấn luyện va nhận dạng với số mau 1 Frame = 240, Overlap 50%Bang 11 Kết quả huấn luyện và nhận dạng với số mau I Frame = 160, Overlap50%, 80 nút vào 26 cv tt TH H112 -71-Bảng 12 Kết quả huấn luyện và nhận dạng với số mẫu 1 Frame = 160, Overlap 50%Bang 13 Kết quả huấn luyện và nhận dạng với số mau | Frame = 160, Overlap60%, số từ huấn luyện Ñ00 + ¿5:6 E21 123 1511111111111 11 1111111111111 Ly - 73 -Bảng 14 Kết quả huấn luyện và nhận dạng với số mẫu 1 Frame = 160, Overlap60%, số từ huấn luyện 1440 ¿6+ S41 1 1511511212155 1111117111111 11 E1 EX0 - 74 -Bảng 15 Kết quả huấn luyện và nhận dạng với số mẫu 1 Frame = 160, Overlap60%, SO nit ra in - T5 -Bảng 16 Kết quả huấn luyện và nhận dạng với số mẫu 1 Frame = 160, Overlap 70%Bảng 17 Tổng hợp các trường hợp huấn luyện và nhận dạng từ các file thu sẵn - 77 -Bang 18 Két qua nhan dang truc tiép dang từ micro, thực hiện trên BeagleBoard xM

Trang 13

Thiết kế HTN nhận dạng giọng nói dùng Neural Network GVHD: TS Hoang Trang

DANH SACH CAC TU VIET TAT

BBxM: BeagleBoard xMDFT: Discrete Fourier TransformFFT: Fast Fourier TransformHMM: Hidden Markov ModelsMFCC: Mel-scale Frequency Cepstral Coefficient

PC: Personal Computer

HVTH: Nguyễn Thanh Tuấn

Trang 14

-Y-MỞ DAU1 Lý do chọn đề tài

Hiện nay, việc điều khiến thiết bi không cần tiếp xúc mà thực hiện băng tiếngnói là một xu hướng đang phát trién Công nghệ nhận dạng tiễn nói được ứng dụngtrong nhiều lĩnh vực bởi tính tiện lợi và hiệu xuất của nó Một số ứng dụng của côngnghệ này như: điều khiến robot, nhập văn bản, nhận diện mật mã đã có nhiềucông trình nghiên cứu nhận dạng tiếng nước ngoài tương đối tốt Tuy nhiên cho đếnnay các công trình nghiên cứu nhận dạng giọng nói tiếng Việt vẫn đạt hiệu xuất

chưa cao, hâu hêt thực hiện trên máy tính cá nhân.

Hiện nay, với sự phát triển mạnh mẽ của công nghệ vi mạch, các hệ thốngnhúng đã ngày càng được ứng dụng rộng rãi Các hệ thống này giúp cho việc xử lýcông việc trở nên dễ dàng và đơn giản hơn Các lõi IP (IP core) đang được ứngdụng rộng rãi trong hầu hết các thiết bị thông minh BeagleBoard xM là hệ thốngđược tích hợp lõi Cortex A8 có hỗ trợ khá mạnh về tốc độ xử lý, dung lượng và cácứng dụng về âm thanh Việc nhúng thành công các chương trình nhận dạng giọngnói tiếng Việt vào các Kit xử lý nhỏ gọn sẽ có ý nghĩa to lớn trong việc phát triểnứng dụng này vào thực tế, đặc biệt là trong lĩnh vực điều khiến Với các yếu tố trên,dé tài sử dụng và cải tiễn các giải thuật đã và đang được nghiên cứu trong lĩnh vựcnhận dạng giọng nói, thiết kế hệ thong nhúng nhận dạng giọng nói thực hiện nhậndạng 16 từ đơn tiếng Việt trên BeagleBoard xM

Tiếng nói người là loại tín hiệu khá phức tạp, luôn thay đổi theo không gian vàthời gian Đề nhận dạng va hiểu được tiếng nói, bộ nảo người phải trải qua quá trìnhhọc lại nhiều lần và xử lý khá phức tạp Cho đến nay đã có nhiều công trình nghiêncứu lĩnh vực này với nhiều hướng tiếp cận khác nhau Mang Neural nhân tao là hệthống mô phỏng một số tính chất của bộ nảo người Nó có khả năng học quan hệgiữa các biến đầu vào và đầu ra khi dữ liệu đầu vào không có quy luật hoặc quy luật

không rõ ràng Phương pháp nhận dạng dùng mạng Neural nhân tạo khá hiệu quả

trong việc tăng độ chính xác nhận dạng Vì vậy dé tài chọn mang Neural nhân tạođể giải quyết bài toán nhận dạng giọng nói

Trang 15

Thiết kế HTN nhận dạng giọng nói dùng Neural Network GVHD: TS.Hoàng Trang

2 Một số công trình nghiên cứuHiện nay trên thế giới có rất nhiều nghiên cứu về hệ thống nhận dạng giọng

nói và đạt được những thành tựu như: Via Voice của IBM, Spoken Toolkit của

trung tâm CSLU (Center of Spoken Language Understanding), những hệ thôngnày dược xây dựng để nhận dạng tiếng Anh, ngoài ra còn có một sô hệ thống nhậndạng tiếng nói của các ngôn ngữ khác như: tiếng Ý, Đức, Pháp, Tây Ban Nha

Nhóm tác giả trong [1] xây dựng hệ thống nhận dạng giọng nói phụ thuộcngười nói Mạng Neural của hệ thống là mạng Time-Delay Neural Network 3 lớp vàsử dụng thuật toán lan truyền ngược (Backpropagation) để nhận dạng được âm vịcủa ba từ “B”, “D” và “G” phụ thuộc vào 3 người nói khác nhau Kết quả của tỷ lệnhận dạng chính xác đạt được 98,5 %, trong khi kết quả đạt được tốt nhất củaHidden Markov Models (HMM) dưới điều kiện tương tự (1946) là 93.7%

Năm 2012, được sự hỗ trợ của Bộ Khoa học và Công nghệ thông qua đề tàinghiên cứu tiềm năng “Thiét kế chip nhận dạng tiếng noi tiếng Việt trên nên công

nghệ FPGA”, TS Hoang Trang và nhóm nghiên cứu trẻ của trường Đại học Bách

khoa - Dai học Quốc gia TP.Hồ Chí Minh đã có cơ hội dé thử sức nghiên cứu xâydựng một số cau trúc vi mạch nhận dạng tiếng nói tiếng Việt Kết quả nhận dạngđược các chữ số từ 0 đến 9 và khoảng 20 từ đơn âm với xác suất nhận dạng đạt trên

80% Day là một bài báo được đăng tại:

[ Website: http://www.vpct.gov.vn/News.aspx ?ctl=newsdetail&alD=131&p=6l |

Nhóm tác giả trong [2] trình bay một hướng nhận dạng tiếng nói tiếng Việtdựa trên việc trích đặc trưng tiếng nói bằng phương pháp MECC và bộ nhận dạngdùng mạng HMM Kết quả được kiểm nghiệm thực tế băng mô hình xe điều khiếntừ xa, xác suất nhận dang thực hiện bộ từ vung 4 từ: phải, trái, tới, lui đạt 99% Tuy

nhiên hạn chê lớn của đê tài này là bộ từ vựng nhỏ và tôc độ xử lý chậm.

Tác giả trong [3] thực hiện đề tài “Nghiên cứu và ứng dụng mạng Neural trongnhận dạng tiếng Việt? dùng phương pháp trích đặc trưng MFCC, huan luyện va

HVTH: Nguyễn Thanh Tuấn

Trang 16

-2-nhận dạng bang mang Neural nhan tao Kết quả -2-nhận dạng với bộ từ vựng 10 từ, đạtkhá cao 97%, nhưng chỉ thực hiện băng Matlab trên máy tính cá nhân.

Tác giả trong [4], dé tài xây dựng chương trình nhận dạng tiếng nói tiếng Việt

trên Kit vi xử ly 32 bit họ ARM-LM3S296_ Trong đó dùng phương pháp trích đặc

trưng MFCC, huấn luyện và nhận dạng bằng Neural Network Kết quả thực hiệnbang Matlab trên máy tính ca nhân với bộ từ vung 9 từ, dat xác suất nhận dạng gân90%, nhưng thực hiện trên Kit thì xác suất rất thấp

Qua khảo sát cho thấy hiện nay có rất nhiều nghiên cứu vé nhận dạng giọngnói Tuy nhiên các kết quả nhận dạng chưa cao và tốc độ chậm, số từ nhận dạng cònhạn chế, nhất là khi thực hiện ứng dụng thực tế trên phần cứng tự thiết kế Phươngpháp được áp dụng pho biến và hiệu quả cao là phương pháp trích đặc trưng MFCC,huấn luyện và nhận dang dùng mạng Neural với thuật toán Backpropagation Hơnnữa hiện nay công nghệ vi mạch phát triển mạnh, việc nhúng thành công mộtchương trình nhận dạng xuống phần cứng sẽ cải thiện được rất lớn về xác suất nhậndạng, tốc độ cũng như số từ nhận dạng

3 Mục tiêu và giới hạn đề tàiNguyên cứu lý thuyết về nhận dạng giọng nói, phương pháp trích đặc trưngMFCC (Mel-scale Frequency Cepstral), mạng Neural truyền thắng và thuật toán

Backpropagation Trên cơ sở đó, xây dựng giải thuật nhận dạng giọng nói 16 từ đơn

tiếng Việt “Không”, “Một”, “Hai”, “Ba”, “Bốn”, “Năm”, “Sáu”, “Bảy”, “Tám”,“Chín”, “Mở”, “Đóng”, “Tới”, “Lui”, “Bat”, “Tat”, được phat ra từ tác giả trongđiều kiện nhiễu thấp Thực hiện trên máy tính cá nhân và xây dựng hệ thống nhúngnhận dạng trên BeagleBoard xM, với mục tiêu kết quả nhận dạng với độ chính xác

đạt trên 95%.

4 Bồ cục luận vănNội dung luận văn bao gồm:Phần Mở đầu: nêu các lý do chọn dé tài, phân tích một số công trình nghiên

cứu, nêu một sô mục tiêu và giới hạn cua đê tài.

Trang 17

Thiết kế HTN nhận dạng giọng nói dùng Neural Network GVHD: TS.Hoàng Trang

Chương 1 Cơ sở lý thuyết: trình bày cơ sở lý thuyết về nhận dạng giọng nói,tiền xử lý âm thanh, trích đặc trưng, mạng Neural nhân tạo và hệ thống nhúng

Chương 2 Hệ thống nhận dạng giọng nói dùng Neural Network: thiết kế sođỗ khối và hoạt động của hệ thống, bao gồm: quá trình thu 4m, tiền xử lý, trích đặctrưng, huấn luyện bộ trọng số, nhận dạng và hiển thị kết quả

Chương 3 Xây dựng hệ thống nhúng trên BeagleBoard xM: mô tả sơ đồ hệthống nhận dạng trên BeagleBoard xM, các thành phan phan cứng được sử dụng,các bước xây dựng hệ thong nhúng, thực hiện hệ thống nhận dạng trên BeagleBoard

Trang 18

-4-CHUONG 1: CƠ SỞ LÝ THUYET1.1 Cơ sở lý thuyết về nhận dạng giọng nói [3][5]

1.1.1 Các đặc điểm của giọng nóiAm thanh giọng nói có thé phân chia thành 3 trạng thái: trạng thái yên lặnghoặc nhiễu nên, đây là khoảng thời gian không có tiếng nói; trạng thái âm vô thanhchiếm khoảng 20% đầu âm, đây là khoảng thời gian mà dạng sóng tiếng nói khôngtuần hoàn, đặc trưng cho phụ âm; trạng thái âm hữu thanh chiếm khoảng 80% âmcòn lại, trong khoảng thời gian này dạng sóng của âm thanh mang tính tuần hoàn,

đặc trưng cho âm hữu thanh.

Việc phân chia nay cũng mang tính chất tương đối vé ranh giới giữa 3 trạngthái, nhưng ảnh hưởng không đáng ké đến việc phân tích và nhận dạng

1.1.2 Phân loại các hệ thong nhận dạng giọng nói

- - Dựa theo cách thức người nói:

+ Nhận dạng từ rời rạc

+ Nhận dạng từ liên tục

- - Dựa trên bộ từ vựng:

+ Hệ thống từ vựng nhỏ (10 đến 100 từ).+ Hệ thống nhận dạng các từ rời rạc (vượt 1000 từ).+ Hệ thông nhận dạng các từ liên tục trong phạm vi giới hạn (1000đến 5000 từ)

- - Dựa trên thông tin về các mẫu tiếng nói của người sử dụng:

+ Hệ thống phụ thuộc người nói: được làm cho tương thích với từng

người riêng biét.

+ Hệ thong độc lập người nói: có thể làm việc với số lượng lớn người

sử dụng.

Trang 19

Thiết kế HTN nhận dạng giọng nói dùng Neural Network GVHD: TS.Hoàng Trang

+ Hệ thong thích ứng với người nói: tu cap nhật thong tin về từngngười sử dụng riêng biệt trong thời gian hệ thống sử dụng

1.1.3 Cac yếu tố ảnh hướng đến kết quả nhận dạng

- _ Hệ thống được thiết kế cho một hay nhéu người

Có 3 phương pháp tiếp cận chính để nhận dạng tiếng nói: ngữ âm học, nhận

dạng mâu và ứng dụng trí tuệ nhân tạo.

- Ngữ âm học: dựa vao lý thuyết về ngữ âm âm thanh, lý thuyết này chorằng tiếng nói ton tại hữu hạn, các đơn vị âm thanh có thé phân biệt được và đượcđặc trưng bởi một tập các tính chất biểu hiện cho tín hiệu tiếng nói trong miền thờigian hay các tính chất phố của nó Bước dau tiên trong phương pháp ngữ âm học là

phân đoạn và gán nhãn, bước thứ hai là xác định từ hợp lệ từ dãy ngữ âm được

gan nhãn trong bước dau tiên.- Nhận dạng mẫu: gồm hai bước chính là huấn luyện mẫu và so sánh mẫu.Đặc tính chủ yếu của phương pháp này là sử dụng các cơ cau toán học rõ ràng vàthiết lập sự biéu diễn thích hợp các mẫu tiếng nói cho việc so sánh chính xác cácmẫu huan luyện Tiếng nói có thể được biểu diễn ở dạng mẫu tiếng nói hoặc mộtmô hình thống kê, có thể được áp dụng cho một âm, một từ hoặc một nhóm từ.Trong giai đoạn so sánh mau, có một sự so sánh trực tiếp giữa tiếng nói chưa biếtvới mỗi mẫu được học trong giai đoạn huấn luyện để xác định đặc tính của mẫuchưa biết Hướng kết hợp mẫu trở thành phương pháp nhận dạng rất phố biến trong

những năm 90.

HVTH: Nguyễn Thanh Tuấn

Trang 20

-6 Phương pháp trí tuệ nhân tao: phương pháp này cố gan may móc hóa hoạt

động nhận dạng theo cách con người áp dụng trí khôn trong việc hình dung, phân

tích và đánh giá tiếng nói dựa trên một tập hợp các tính chất âm học đo được

Nghiên cứu cách học nói và học nghe của con người, tìm hiêu các quy luật ngữ âm,ngữ pháp, ngữ nghĩa, ngữ canh Một trong các kỹ thuật được áp dụng trong

phương pháp này là dùng mạng Neural nhân tạo để huấn luyện các đặc trưng tiếngnói và nhận dạng để ứng dụng trong thực tế Đây chính là phương pháp được chọn

nghiên cứu và sử dụng trong luận văn.

1.1.5 Một hệ thống nhận dạng giọng nói dùng mạng Neural nhân tạo

Tín hiệu âmthanh Vv

Huân luyệnx F$ ABộ trọng sô

e Huấn luyện: dùng mang Neural huấn luyện tập các vector đặc trưng của tập

mâu huân luyện, tạo ra bộ trọng sô huần luyện làm cơ sở dữ liệu cho quatrình nhận dạng.

e Nhận dạng: dùng mang Neural nhân tạo tính toán các đặc trưng của tín hiệu

kết hợp với bộ trọng số huan luyện so sánh đưa ra kết quả nhận dạng

Trang 21

Thiết kế HTN nhận dạng giọng nói dùng Neural Network GVHD: TS.Hoàng Trang

1.2 Tiền xứ ly âm thanh [2]Có nhiều phương pháp tiền xử lý âm thanh dé đưa âm thanh vừa thu được đạtđược một chuẩn nhất định, về cơ bản là giảm nhiễu và cắt các khoảng lặng khôngcần thiết Dé tài giới thiệu hai phương pháp pho biến là phương pháp xác địnhngưỡng năng lượng thời gian ngắn và phương pháp xác định tỉ lệ biên độ tín hiệudao động qua điểm Zero

1 T M r r

Nhiecu | Tiếng nói |

oe} | a

i

a6} | Mau ie Ham nang lượng

-yt fe Mell VIMAR ) thời gian ngăn

Phương pháp xác định tỉ lệ biên độ tín hiệu dao động qua điểm Zero: là thôngsố cho biết số lần mà biên độ tín hiệu đi qua điểm Zero trong một khoảng thời gianxác định Tín hiệu âm thanh là một tín hiệu gần như tuần hoàn nên tỉ lệ qua điểmZero lớn hơn nhiều so với nhiễu

Sau khi cắt các khoảng lặng, để giảm nhiễu có thể dùng phương pháp lọcnhiễu Wiener và để khắc phục việc tín hiệu thu quá nhỏ có thể dùng phương pháp

chuân hóa biên độ tín hiệu.

HVTH: Nguyễn Thanh Tuấn

Trang 22

-8-1.3 Trích đặc trưng [6]

Việc trích đặc trưng tín hiệu rất quan trọng, ảnh hưởng đến tính chính xác vàhiệu quả của hệ thông nhận dang Có 2 phương pháp được dùng phổ biến nhất là

phương pháp LPC (Linear Prediction Coding) và phương pháp MFCC (Mel-scale

Frequency Cepstal Coeffients) Dé tai sẽ giới thiệu va áp dụng phương pháp MFCCnhư đã phân tích ở mục 2 của phần Mở đầu

Speech

>Pre-emphasis-» Frame Ly Windowing E—>| FFT |_| Mel frequency >Cepstrum|

Blocking Filter Bank

> Logged >! Delta MECC

Energy

Hình 1 3 Sơ đồ giải thuật trích đặc trưng MFCC

Phương pháp này dựa trên khả năng cảm nhận âm thanh của tai người Đó là

tuyến tính ở vùng tần số thấp và tăng theo thang logarit ở vùng tần số cao Từ đặctrưng này, phương pháp MECC cho ta những đặc trưng quan trọng nhất của tiếngnoi con nBƯỜI Đầu ra của MECC là các vectơ đặc trưng mà khi dựa vào các vectơnày ta sẽ phân biệt được các tiếng nói khác nhau Các vecto nay được sử dụng trongcả quá trình huấn luyện và nhận dạng tiếng noi

+ Pre-emphasis: bộ loc pre-emphasis được dùng dé khuếch đại tín hiệu ở cáctần số cao hơn Ham truyén của bộ lọc trong miễn thời gian được cho bởi phươngtrình (1.1) Trong đó tham số a tiêu biểu từ 0.9 đến 1, với s; là điểm thứ i của tínhiệu tiếng nói khi chưa qua bộ lọc và S| là điểm thứ i của tin hiệu tiếng nói sau khi

được pre-emphasis Na (1.1)

+ Frame blocking: Bởi vi tín hiệu tiếng nói là tín hiệu biến đổi chậm theothời gian, trong một hệ thống nhận dạng tiếng nói thì tiếng nói được phân đoạnthành những khoảng thời gian ngăn được gọi là các Frame Để cho các thông số củaFrame ít thay đối, thông thường có 0% chồng lấp giữa các Frame kế cận nhau, như

Trang 23

Thiết kế HTN nhận dạng giọng nói dùng Neural Network GVHD: TS.Hoàng Trang

trong hình 1.4 Trong các hệ thống nhận dạng tiếng nói băng phần mém, tiếng nóiđược chia thành những Frame có chiều dai 20ms với 10ms chong lấp Khi tiếng nóiđược lay mẫu với tần số 8SKHz sẽ có 160 mẫu trong mỗi Frame và có 80 mẫu đượcchồng lấp giữa 2 Frame kế cận nhau

sô và băng chiêu dài của các Frame.

+ FFT (Fast Fourier Transform): tại bước này, với mỗi khung tín hiệu,

biên đôi Fourier được áp dụng đê chuyên tín hiệu về miễn tân sô.

+ Mel Frequency Filter Bank: cảm nhận âm thanh cua tai người không

tuyến tính theo tần số Nó nhạy ở những âm có tần số thập hơn những âm có tần sốcao với cùng cường độ Thang đo sự biến thiên độ nhạy tai người theo tần số đượcdùng phố biến là thang đo Mel Phương trình (1.4) dùng để biến đổi qua lại giữa tansố Mel và Hz

Trang 24

10-tín hiệu Số lượng bộ lọc là một trong những thông số ảnh hưởng đến sự chính xáccủa hệ thống nhận dạng, một SỐ nghiên cứu đã khảo sát các thông sỐ này được thể

19 94 92.2920 93.58 92.0821 93.36 91.0122 94 89.7223 94.22 92.9324 94 91.8625 93.58 91.6526 93.36 91.6527 94.65 91.6528 93.58 91.8629 94 91.6530 94 91.0131 93.79 91.8632 94.22 91.2233 94.43 90.5834 94.22 92.7235 94.65 91.65

Đôi với môi Frame, ngõ ra của bộ lọc là một vecto hệ sô công suât, sô phan tử

được chọn trong Bảng 1 Hệ số công suất thứ k của Frame thứ n được tính toán bởiphương trình (1 ), trong đó s„ là điểm phố thứ j của Frame thứ n, và FC„ chỉ hệ séthứ 7 cua bộ lọc thứ k, với K là SỐ lượng bộ lọc

She = S,)FCy , k=1,2, , K

J

(1.5)

Trang 25

Thiết kế HTN nhận dạng giọng nói dùng Neural Network GVHD: TS.Hoàng Trang

+ Cepstrum: được định nghĩa là phép biên đôi Fourier ngược của các hệ sô

công suất sau khi lấy logarithm

C,,= Sloe 5, eos ( — 0502) p=lL2 P (1.6)

Trong đó p là bậc (thứ tự) của các hệ số cepstral Thông thường, đối với mỗiFrame C, không dùng trong phân tích bởi vì nó không đáng tin cậy Các hệ sốcepstrum có bậc thấp phản ánh thông tin thanh âm của tín hiệu tiếng nói Trongphép phân tích phô cho việc nhận dạng tiếng nói, thông thường chi sử dụng từ 8 đến

16 hệ số cepstrum có bậc thấp, trong đa số các ứng dụng dùng 12 hệ số cepstrum.+ Logged Energy: công suất của mỗi Frame cũng là thành phan trong đặctrưng MECC Nó được tính toán như là logarithm của công suất tín hiệu, có nghĩa làđối với Frame thứ n, mỗi Frame có 160 mẫu Đụ sJ=1,2 160}.

160

logE, = bại 3) (1.7)

i=l

Nang lượng nay được tinh toán độc lập trước khi pre-emphasis va windowing

trong các hệ thống nhận dạng tiếng nói bằng phần mém.+ Delta: chất lượng của hệ thống nhận dạng tiếng nói có thé được cải thiệnnhiều hơn bằng cách thêm vào tính đạo hàm theo thời gian để có được những thôngsố dừng co bản Trong phương trình (1.8), để tính hệ số delta d,, dùng các vectơ hệsố dừng từ c„„, đến c,,,, với c„ là vectơ bao gdm log năng lượng va 12 hệ số

cepstral của Frame thứ n.

đ, — 2(c, g C„_2 )+ (c, g c,4) (1 8)

10

+ Kết luận: sau các quá trình xử lý như trên, 160 mau của một Frame đượcchuyền thành một vectơ 26 phan tử bao gồm 1 hệ số năng lượng, 12 hệ số cepstralvà 13 hệ số delta (đạo hàm cấp 1 theo thời gian của hệ SỐ cepstral) Với n Frame cóthé tạo ra n—4 vecto đặc trưng bởi vi một vecto hệ số delta cần các thông tin dừng

HVTH: Nguyễn Thanh Tuấn -

Trang 26

12-từ Frame ƒ,„, đến Frame f,,, Những vecto đặc trưng này được dùng trong quátrình huấn luyện và nhận dạng.

1.4 Mang Neural nhân tạo (ANN-Artificial Neural Network) [3][7][8]

1.4.1 Giới thiệu mang Neural nhân tao

Mang Neural nhân tao dựa trên co sở mang Neural sinh học của bộ não người.

Bộ não con người là hệ thống xử lý thông tin phức hop, phi tuyến, song song và cókha năng học, ghi nhớ, tổng quát hóa va xử lý lỗi Nó bao gồm khoảng 10"! tế bàothần kinh liên kết với nhau

“i? Synaptic terminal

Hình 1 5 Minh họa về cau trúc của một Neural sinh hoc và bộ não ngườiVề co bản mỗi Neural sinh học gồm có thân tế bao (Cell body), một hệ thốnghình cây các đầu dây thần kinh vào (Dendrite) và một trục (Axon) dẫn đến các đầudây thần kinh ra Tại đầu của các dây thần kinh có các khớp thần kinh (Synapse) đểliên kết với các té bào thần kinh khác

Trang 27

Thiết kế HTN nhận dạng giọng nói dùng Neural Network

X7 Dendrites

¢

The synapseAxon

Khi điện thế này đạt đến một ngưỡng nào đó sẽ tạo ra một xung điện dẫn đếntrục dây thần kinh ra Xung này được truyền theo trục tới các nhánh rẽ khi chạm tớicác khớp nỗi với các tế bảo thần kinh khác sẽ giải phóng các chất truyền điện Quá

trình lan truyền tín hiệu cứ tiép tục như vậy cho dén khi dén dau ra cuôi cùng.

Threshold function

Neural NetworkNeuron

Weight 1 Weight 2

Input 1 Input 2

Hình 1 7 Mo hình toán học cua 1 Neural

HVTH: Nguyễn Thanh Tuấn -

Trang 28

l4-Mạng thần kinh nhân tạo có thể xem như là mô hình toán học đơn giản của bộnão con người Mạng thần kinh nhân tạo gồm các tế bảo thần kinh nhân tạo kết nốivới nhau bởi các liên kết Mỗi liên kết kèm theo một trọng số, đặc trưng cho đặctích kích thích hay ức chế giữa các tế bảo thần kinh nhân tạo.

So sánh với tế bao thần kinh sinh học, ở tế bao thần kinh nhân tao, trọng số wđặc trưng cho mức liên kết của các khớp (synapse), phần thân (cell body) đượcbiểu diễn bởi phép toán cộng Y và hàm chuyền đổi ƒ, ngõ ra a là tín hiệu ra trên trục

Một Neural thông thường có nhiêu hơn 1 ngõ vào, nhưng chỉ có duy nhât mộtngõ ra Một Neural với R ngõ vào được thê hiện trên hình 1.8 Các ngõ vào riêngbiỆt Xị, Xo, Xp được nhân với các nhân tô trọng sô tương Ứng W¡;, W/›, W¡gcủa ma trận trọng sô W Lúc này H và o sẽ được biêu diễn:

Trang 29

Thiết kế HTN nhận dạng giọng nói dùng Neural Network GVHD: TS.Hoàng Trang

1.4.3 Hàm kích hoạt f

Hàm kích hoạt có nhiệm vụ giới han giá tri output cua Neural và tùy theo từng

yêu cầu mà hàm kích hoạt có thể khác nhau, dưới đây là những làm thông dụngnhất

Hard-Limit loại 2: Đây là hàm ngưỡng, nó cho ra -1 nếu ngõ vào của hàmkích hoạt là nhỏ hơn 0 và cho ra 1 néu ngõ vào hàm kích hoạt lớn hơn hoặc bằng 0.Hàm này cũng được sử dụng thông dụng trong mạng Perceptron dùng để tạo ra cácquyết định mang tính chất phân loại

> Hàm kích hoạt tuyến tính

/(H)=H (1.11)

ae eri

Hình 1 10 Ham kích hoạt Purelin

HVTH: Nguyễn Thanh Tuấn 16

Trang 30

-Đây là hàm tuyến tính, nó cho ra giá trị của chính giá trị vào Hàm này đượcsử dụng thông dụng trong mang Adaline dùng để trong xấp xỉ hàm tuyến tính.

> Hàm kích hoạt Log-Sigmod

1l+ef(H) =H

> Hàm kích hoạt Tan-Sigmod

1 ect

I+e?”f(H) =

Trang 31

Thiết kế HTN nhận dạng giọng nói dùng Neural Network GVHD: TS.Hoàng Trang

1.4.4 Cau trúc mang Neural nhân tạo1.4.4.1 Mang Neural truyén thang

> Mang Neural truyền thang 1 lớp an

Input Hidden Output

layer layer

Hinh 1 13 Mang Neural truyén thang 1 lop 4nMang nay bao gồm: [ gia tri dau vao Input (Xx), Xo, , X), 1 lớp ân Hiddenlayer và một lớp ra Output layer (0, 09, , Oy) Cau trúc nay thường được sử dung

bởi nó don giản.

> Mang Neural truyền thắng nhiều lớp an

Input Layer Hidden toyet(s) Output Layer

Hình 1 14 Mang Neural truyền thang nhiều lớp an

HVTH: Nguyễn Thanh Tuấn 18

Trang 32

-Mang có một lớp ngõ vào(Input Layer) được kết nỗi từ các ngõ vào của mang(XI, Xa, , Xj), một hay nhiều lớp ân (Hidden Layer) không trực tiếp kết nối với ngõvào và ngõ ra của mạng, một lớp ngõ ra của mạng (Output layer) kết nối với đầu ra

của mang(0}, Oo, ,ON).

Phương trình tổng quát tính output của mạng được thực hiện như sau:Xét Neural thứ q lớp (s-1) có tổng trọng là:

Trang 33

Thiết kế HTN nhận dạng giọng nói dùng Neural Network GVHD: TS.Hoàng Trang

(s) Lá Lá Lá R R

4; trong sô két nôi giữa ngõ ra của Neural thứ q trong lớp (s) và ngõ vàocủa Neural thứ i trong lớp (s)

(s) oA ~ 2 roe Lạ

%: tín hiệu ngõ ra cua Neural thứ i trong lớp (s)

> Mang Neural Wavelet

Mang Neural Wavelet được xây dựng trên cơ sở phép biến đối Wavelet củaZhang và Benveiste (1992) cũng là một dạng mạng Neural truyền thang nhưng sửdụng các hàm chuyển đổi Wavelet

Hình 1 15 Mạng Neural hồi quyMột mạng Neural hồi quy được phân biệt so với các mạng Neural không hỗiquy ở chồ là nó có ít nhất một vòng lặp phản hồi

Tác dụng của vòng lặp phản hồi trong cau trúc bên trên, có một anh hưởng sâusắc đến kha năng học của mạng và đến tính năng của nó Các vòng lặp phản hồi baohàm việc sử dụng các nhánh có các “phần tử đơn vị trễ” (ký hiệu là z”), thể hiệnmột hành vi phi tuyến động theo thời gian

Cau trúc mạng hồi quy gồm các loại: mạng Hopfield, mang BAM, mang lantruyền ngược hồi quy, mạng Elman

HVTH: Nguyễn Thanh Tuấn 20

Trang 34

-1.4.5 Thuật toán Backpropagation

Bryson và Ho đã dé xuất sử dụng luật học lan truyền ngược (Backpropagation)cho mạng truyền thang vào năm 1968

Cho trước cặp mẫu tín hiệu vào-ra của mạng là { (X“ d") } với k=1.23 p(tức là ta có p cặp mẫu tín hiệu vào-ra) và X# chính là vector thứ k của đầu vào

Input Layer Hidden ioyer(s) Output Loyer

Hình 1 16 Mô hình mang Neural với bộ p vectơ vào-ra {Xd}Giải thuật lan truyền ngược thực hiện huấn luyện cho một cặp mẫu dữ liệu

theo hai theo hai bước sau:

+ Bước tính toán theo chiều thuận: Vector đầu vào X được đưa vào mạng,tính toán thông qua các lớp mạng Neural, và cho kết quả ở ngõ ra của mạng

+ Bước tính toán theo chiều nghịch: Một khi đã có vector ngõ ra của mạng

OW= {[o¡,o› oul' „,U, vector ngõ ra sẽ so sánh với giá trỊ mong muốn

d=f[dj,dy, dyl' }“° để tìm sai lệch e=0-d, ứng với giá trị sai lệch này cáctrọng số của mạng sẽ được tính toán để hiệu chỉnh lại

1.4.5.1 Các bước tính toán số học cho mang (Quy định lớp s là lớp output)> Bước 1: Tính toán theo chiều thuận

Xét Neural thứ q lớp (s-1) có tong trọng là:

Trang 35

Thiết kế HTN nhận dạng giọng nói dùng Neural Network GVHD: TS.Hoàng Trang

Sử dụng phương pháp hạ gradient tìm lượng điều chỉnh của trọng số giữaNeural thứ q của lớp an (s-1) với Neural thứ i của lớp ngõ ra (s) ta có:

OE OE oo? oH”

(s) _ —_ — _—_ i a (s) (s) (s-l) _ (s=D

Với Ooi là tín hiệu sai lệch cua Neural thứ i của lớp ngõ ra (lớp s):

HVTH: Nguyễn Thanh Tuấn

Trang 36

8 =— ng = lá, — 0 \f (A?) (1.25)

(s)

Tiếp tục sử dung phương pháp ha gradient tìm lượng điều chỉnh của trọng số

giữa Neural thứ j của lớp (s-2) với Neural thứ q cua lớp (s-1) ta có:

Với Ong là tín hiệu sai lệch cua Neural thứ q của lớp s-1:

qi (s-l) (s- 1) (s-l) * = 1)Ow, TA OH! Ow, (1.27)

|o=/W=T——m (1.32)

Nên ta có: ƒ#'{H)=o(l—o) (1.33)

Tìm được công thức tính các sai lệch như sau:

0,,=0,(1—0,)(d; —o,) (1.34)

Trang 37

Thiết kế HTN nhận dạng giọng nói dùng Neural Network GVHD: TS.Hoàng Trang

trọng số kết nối giữa ngõ ra của Neural thứ j trong lớp (s-2) và ngõ

trọng số kết nối giữa ngõ ra của Neural thứ q trong lớp (s-1) và ngõ vào

HVTH: Nguyễn Thanh Tuấn -

Trang 38

24-1.4.5.2 Các yếu tố ảnh hưởng đến tốc độ hội tụ trong luật học lan truyền

ngược (Backpropagation).

Tốc độ hội tụ của luật học lan truyền ngược phụ thuộc vào một số nhân tốquan trọng: giá tri của các trong số khởi tạo ban đầu, hăng số học, hàm sai lệch (ở

dạng trung bình bình phương sai lệch), luật cập nhật, kích thước và đặc tính của

mẫu và cau trúc của mạng (gồm số lớp và số Neural mỗi lớp).Phan nay bàn về tốc độ hoc, các điểm cực tiêu cục bộ và khả năng tổng quáthóa của mạng lan truyền ngược

> Giá trị của các trọng số khởi tạo ban đầuCác trọng số khởi tạo ban đầu của mạng truyền thăng nhiều lớp có ảnh hưởngrất lớn tới kết quả cudi cùng Nó thường được khởi tạo ban đầu với giá tri tự nhiênkhá nhỏ Nếu giá trị ban đầu có giá trị bằng nhau thì khó có thể huấn luyện đượcmạng, nên các trọng số khởi tạo ban đầu có giá trị khác nhau

Các trọng số khởi tao ban đầu cũng nên có giá trị nhỏ, vì nếu không thỏa mãnđiều này các hàm sigmod sẽ ở trạng thái bị bão hòa ngay từ dau, quá trình huấnluyện sẽ gặp khó khăn, khi đó ta sẽ gặp các điểm cực tiểu địa phương hoặc ở trạngthái ổn định quanh điểm cực tiểu của hàm Nên chon giá trị trong khoảng

| oe | , với ki là số lượng Neural thứ j đưa tín hiệu truyền thang đến Neural thứ

i (hay tín hiệu đầu vào đưa tới Neural thứ i)

> Hằng số học 7

Một nhân tố khác có ảnh hưởng rất lớn tới hiệu quả và sự hội tụ của luật họclan truyền ngược đó là hắng số 77 Không có một gia tri hăng số học nao phù hợpcho mọi trường hợp huấn luyện mạng khác nhau, 77 được cho theo kinh nghiệm.Nếu 7 có giá tri lớn sẽ làm tăng được tốc độ học, nhưng có nhược điểm là có thểdẫn đến sự quá điều chỉnh lớn Nếu 7 có giá trị nhỏ hơn thì nó chỉ có tac dụng bù.Theo kinh nghiệm nên chọn 10°< 7< 10

Trang 39

Thiết kế HTN nhận dạng giọng nói dùng Neural Network GVHD: TS.Hoàng Trang

Một van dé xảy ra là giá tri cua 77 được chon phù hop với giai đoạn luyệnmạng ban dau, nhưng lại không phù hop với giai đoạn luyện mang sau Vi vậy, cómột phương pháp hiệu quả hon đó là sử dụng 77 là một hằng số học thích nghỉ Saumỗi lần cập nhập giá tri trong số Sau mỗi lần cập nhật gia tri trọng số, cần thựchiện kiểm tra để xem xét sự thay đổi của trọng số đó có làm giảm được giá trị hàmsai lệch E hay không Nếu giá trị sai lệch của hàm E không giảm nghĩa là sự cậpnhật đã dẫn đến sự quá điều chỉnh và cần phải giảm giá tri của ?? Mặt khác, nếutrong nhiều bước tính liên tiếp đều làm giảm giá trị hàm sai lệch E thì quá trìnhhuấn luyện sẽ chậm, nếu tăng giá trị của 77 Do đó, hăng số học 7 cần được cập

nhật theo luật học sau đây:

+a , AE>0An=s-byn , AE<0 (1.40)

> Luật cập nhật

Phương pháp hạ gradient có ưu điểm là đơn giản, dễ thực hiện nhưng khôngphải là công cụ tính toán hiệu quả nhất Áp dụng lý thuyết tối ưu hóa cho mạng cóthé lam tang tốc độ hộ tụ của thuật toán lan truyền ngược

HVTH: Nguyễn Thanh Tuấn 26

Trang 40

-Phương pháp hạ gradient chỉ quan tâm đến thành phần bậc nhất của hàm sailệch Sử dụng công thức khai triển Taylo E(w) tại thời điểm wo ta có:

E(w) = E(w,) + (= Wy)” VEOw,) + 1⁄2 (w= Wo)? HWW Wy) +

VE(w) = VE(w,) + H(w)(w— w,) + = 0 (138)

Nếu bỏ qua các thành phần bậc 3 và cao hơn ta có:W= Wy -H'(w)VE(w,) (1.46)Hoặc viết biểu thức ở dạng cập nhật trọng số ở thời điểm thứ k:

wht) — wy — Ay VE) (147

Các biểu thức trên mô tả cập nhật trọng số theo phương pháp Niutơn Phươngpháp này sử dụng thêm thành phần đạo hàm bậc hai để đánh giá trọng số của cácbước cập nhật tiếp theo Ưu điểm của nó là tốc độ hội tụ cao nhưng lại có nhượcđiểm là cần tính toán ma trận nghịch đảo nên có khó khăn trong quá trình thực hiện,vì vậy ít được áp dụng trong thực tế

> Số lượng Neural ở lớp anLựa chọn số lượng Neural trong mỗi lớp là vẫn đề luôn luôn được đặt ra trongbài toán ứng dụng mạng nhiều lớp truyền thăng Số lượng Neural ở mỗi lớp cần

thỏa mãn các yêu câu sau đây.

- So lượng Neural ở lớp vào băng sô lượng tín hiệu vào.

- Số lượng Neural ở lớp ra băng số lượng tín hiệu ra

Ngày đăng: 24/09/2024, 07:03

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN