TOM TAT KHÓA LUẬNHiện nay công nghệ nhận dạng giọng nói đã được phổ biến rộng rãi mọi người.Với sự phát triển như vũ bão của các thiết bị thông minh thì việc điều khiển các thiết bị thôn
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KY THUAT MAY TINH
NGUYEN HUU DAT
NGUYEN VU THANH
KHOA LUAN TOT NGHIEP
SMART SPEAKER WITH VOICE RECOGNITION AND
CONTROL FOR HOME AUTOMATION
KY SU KY THUAT MAY TINH
TP HO CHÍ MINH, 2021
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KY THUAT MAY TINH
NGUYEN HỮU DAT - 16520191
NGUYEN VŨ THANH -~ 1621128
KHÓA LUẬN TÓT NGHIỆP
LOA THONG MINH NHAN DANG VA DIEU KHIEN
BANG GIONG NOI CHO UNG DUNG TRONG NHA
SMART SPEAKER WITH VOICE RECOGNITION AND
CONTROL FOR HOME AUTOMATION
KY SU KY THUAT MAY TINH
GIANG VIEN HUONG DAN
TS NGUYEN MINH SON
TP HO CHi MINH, 2021
Trang 3THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP
Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số
TigầYy của Hiệu trưởng Trường Dai học Công nghệ Thông tin.
Trang 4LỜI CẢM ƠN
Khóa luận tốt nghiệp là sản phẩm nghiên cứu khoa học đầu đời của mỗi sinh viên,
cũng là thành quả của quá trình học tập và rèn luyện trong môi trường đại học Trong
quá trình thực hiện khóa luận tốt nghiệp, em đã nhận được sự giúp đỡ, hướng dẫn, hỗ
trợ và động viên từ gia đình, quý thầy cô cũng như các bạn Nhờ đó mà em đã hoàn
thành được khóa luận như mong muốn Nay em xin được gửi lời cảm ơn sâu sắc vàchân thành đến các thầy cô trong khoa Kỹ Thuật Máy Tính đã truyền đạt những kiếnthức quý báu dé từ đó chúng em có cơ hội phát triển thêm vốn hiểu biết của mình vận
dụng trong công việc sau này cùng với Ban giám hiệu trường Đại học Công nghệ thông
tin đã tạo mọi điều kiện thuận lợi giúp đỡ em trong quá trình học tập và hoàn thànhkhóa luận tốt nghiệp
Đặc biệt, em xin gửi lời cảm ơn đến Ts Nguyễn Minh Sơn đã trực tiếp hướngdẫn khóa luận Trong suốt quá trình thực hiện, thầy đã tận tình hướng dẫn, giúp chúng
em giải quyết các van dé trong quá trình làm khóa luận và hoàn thành luận văn đúngđịnh hướng ban đầu Chúng em cũng chân thành cảm ơn các thầy cô trong hội đồng
chấm luận văn đã cho em những đóng góp quý báu đề luận văn thêm hoàn thiện hơn
Bên cạnh đó, em xin được gửi đến ba mẹ, gia đình và bạn bè lời cảm ơn, tri ân chânthành va lòng biết ơn sâu sắc vì những sự động viên, ủng hộ, giúp đỡ và cé vũ tinhthần cho chúng em trong suốt quá trình gian nan và vất vả này
Cuối cùng, chúng em xin kính chúc quý Thầy Cô trong khoa Kỹ Thuật máy tính
và thầy Nguyễn Minh Sơn thật dồi dào sức khỏe, niềm tin để tiếp tục thực hiện sứmệnh cao đẹp của mình là truyền đạt kiến thức cho thế hệ mai sau, luôn gặt hái đượcnhiều thành công tốt đẹp trong sự nghiệp trồng người của mình
Trang 5MỤC LỤC
Chương 1 MỞ ĐẦU 2-5-5 SE EEEEE2E12112112121712111211211211 1111111111 re 2
1.1 Lý do chọn đề tài :- 5c Sc2S2 2E EEEEEEEEEEE1111211 2112111111111 rye 2
1.2 Mục đích và ý nghĩa của đề tài -©5- 5522 <SEEeEEE 2E EEEErkrrrkrrkerreeg 3
1.2.1 Mục đích - <1 1111112231111 kg 3
1.2.2 Y nghĩa khoa hoc thực ¡0 3
1.3 Mục tiêu và nhiệm VỤ <5 2 E22 133222181 231 E231 1 231 E9 ng rcưy 3
1.3.1 Mục tiÊU -G- 0111112211111 1 199911 ng ng vn 3
1.3.2 n0 0 ăằwằ +ằằăằăằăằằằ 4
1.4 Phạm vi nghiÊn CỨU c5 1192311391 8310111 1119 HH ng t 5
Chương 2 TONG QUAN 2-22SE SE22E2E12E1221211211271711211211 7111 1.1xrxe 6
2.1 Những nghiên cứu liên quan - << 2 1E 1 ng re 6
2.2 Những vấn đề tồn đọng - ¿5c St EEEEEEE21121121111111 11111 cxe 7
2.3 Những van dé cần nghiên cứu giải quyẾt : - ¿-+++cx+x++zx+zz+z 8
Chương 3 CƠ SỞ LÝ THUYÊTT ¿- 2 ¿+ +E#EE#EE+EEEEEEEEEEEEEEEEEEEeEkrrkrrrrei 9
3.1 Tổng quan về xử lý tiếng nói - 2 c5 +E+EE£EE+EESEEEEEEEEEEEEEEEEEkrrkrrerree 9
3.1.1 _ Các lĩnh vực xử lý tín hiệu tiếng nói 2- ¿©52+cz+zs+zxezse2 10
3.1.2 Một số hệ thống nhận dạng tiếng nói 2-2 2+s+zs+zxzzse2 12
3.2 Các đặt trưng của tiếng nói ¿ 2¿©2+2+++ck2EEtEEESEEEEkrrkrerkrerkrrrrees 13
3.2.1 Đặc điểm He 13
3.2.2 — Tiếng nói tiếng ViỆ( 5 Set EkEEEEEEEE11211 211111111 cxe 14
3.2.3 Các đặc tính cơ bản của tín hiệu tiếng 1110) 5S S2<<S++<<ss+2 15
3.3 Các giải thuật nhận dạng mang deep Ïlearn1ng - - «<< s<++sc+ses 16
3.3.1 Mạng thần kinh nhân tạo ANN -c- + keE+keEeEerkerrrxerxereree 16
Trang 63.3.2 Mạng thần kinh tái tạo (CINN) ¿- 5c ckeEx+k‡EeEEEEeEerkerrkerxrrrrke 18
3.4 Mạng lưới thần kinh tái tạo (RINN) - St tk Ekrketeerk 19
3.5 Những hạn chế bài toán - + 2 + +E£EEEEEEEEEEE2E12112112121 111111, 21
Chương 4 NGHIÊN CỨU DANH GIÁ THUC NGHIỆM -2- 5¿ 22
4.1 Nghiên cứu thiết kế hệ thống -2- 2 2+ +SE+EE+EE£EEEEE2EEEEeEEerEerkerxrree 22
4.2 Xử lý loại bỏ nhiễu bằng giải thuật PNCC -2-©5c©5cccsccxsrxcces 22
4.2.1 Tiền nhân mạnh ¿¿©+++++E+++E++EE++EE+2EErrkkerkesrkrrrrres 24
4.2.2 _ Phân khung tín hiỆu G1 SH 24
4.2.3, Lấy cửa số tín hiệu ©-¿©2+++2xt2EEtEEESEEEEErrErerkrerkrrrres 24
4.2.4 Biến đối chuỗi FOurier 2-©2+2<+c++ckzEzrerrserxerreee 25
4.2.5 8a 01100777 25
4.2.6 Xử lý nhiễu với mặt nạ không đối xứng -¿ :-s+-: 27
4.2.7 Weight Smoo(hIng c1 HH kg ngư, 28
4.2.8 Chuan hóa công xuất trung bình -¿ ¿-«©++cs++zxzzxeex 29
4.2.9 Những cải tiến của giải thuật PNCC ¿©2cccszccxccccees 30
4.3 Nhận dạng giọng nói bằng thuật toán ANN - ¿2c secxererssree 33
4.3.1 Giai đoạn huấn luyện mô hình -¿- ¿2+2++zx++zxzzxeex 38
4.3.2 Giai đoạn nhận dạng - - + + 3+ 3233 SE Errrrrerrkrrrkrre 38
4.4 Xử lý tín hiệu đầu ra và tương tác với các thiết bị thông minh 39
4.5 Board respeaker V2 MIC âTTâ - < E1 E191 11H kg re 40
4.5.1 Đặc trưng LH HH TH HH HH Hư, 41
4.5.2 Thông số kĩ thuật ¿ 2¿©-+22++cESEESEkrrrrerkrerkrrrres 42
4.5.3 Tổng quan phan cứng -¿ ¿-++++++++x++zxtzxrerxesrxrrreees 43
4.6 Những cải tiến trong thiết kẾ - + 2 2 +keEE‡EESEEEEEEEE2E22E2EEEEEErkrree 45
Trang 74.7 Chương trình thực tẾ ¿ 2¿©+©+++2++2EE2EEEEEE2EEE2EEEEEEEEESrkrrrrrrkrrrei 45
4.8 Kịch bản kiểm thử sản phẩm 22- 5£ ©522E22EE22EEEEEtEEterxrsrkerrreree 46
4.9, Két qua cac Th.ẽăấảậOQỤODỶDOỪỶọỌDd4 48
Chương 5 TONG KẾT 2-©2¿©5£+SE‡SEÊEEEEEEEEEEEEEEEEEEEEEEEEEEEErrkrrkerkrrei 49
5.1 Kết quả dat duoc ccececcccccscsscssessessessessessessessssessessessessesssssssssessesseesesseeseseseees 49
5.1.1 _ Về nội dung nghiên UU w cecceccecccccscsseesesseesessessessessessesscsessessessessessease 49
Trang 8DANH MỤC HÌNH
Hình 3.1: Mô hình nhận dạng tiếng nói - - 2 2 22 +2 ££+E£+E£+EeEEeEE+Exrrxzrzea 9
Hình 3.2: Mô hình tạo ra tiếng nói bằng ký tự -¿- 2-2 2+c+kerkerkerxersersrree 10Hình 3.3: Sơ đồ mã hoá tiếng nói 2- 2£ 5£22+¿2EE+EEE2EE+2EE2EEEEEESEkrrrkrrresree 11Hình 3.4: Sơ đồ nhận dạng giọng nói ccecceccessessessesssessessesssessessesscssessessesseesseeseeseees 11Hình 3.5: Sơ đồ phân loại các hệ thống nhận dạng tiếng nói 13
Hình 3.6: Biểu đồ dang sÓng 2-2 ©2£+22SE+EE£EEEEEE2EEEEEE21121122171711211 21c, 13
Hình 3.7: Đặc trưng âm thanh nhận được ngoài thực TA 15
Hình 3.8: Sơ đồ tông quát nhận giạng giọng nói - 2 2 2 se x+cx+rszzszse2 22
Hình 3.9: Quy trình phân tích các đặc trưng PNCC - c- 5< ++<<++£+scrsex 23
Hình 3.10: Dap ứng xung øammafON€ 5 5 + +11 9E ng ng gưkp 26
Hình 3.11: So đồ so sánh PNCC, MECC,PL/P 2 tt St S33 SE EEESESEvEeEeErEeersrssee 31Hình 3.12: Phổ từ trong môi trường nhiễu không được xử lý .- - 32
Hình 3.13: Đồ thị phô của từ thông qua thuật toán PNCC . - 5s s2 33
Hình 3.14: Câu tạo một nơ rOI - - ¿2 St ESE+E9EEEE+EEEEEESEEEEEESESEEEEEESEEEErkerrrererree 34Hình 3.15: Mang neuron truyền thắng nhiều tang . -¿-c5¿52sz>5++cs+ 35Hình 3.16: Kiến trúc của mạng nơ ron nhiều tầng - :2¿ 52 s¿++z>s+z>++ 37Hình 4.1: Sơ đồ huấn luyện mô hình: 2 2 E+E+2E£+EE+EE+EEerEezExsrxrrxerex 38Hình 4.2: Tổng quan mô hình nhận dạng 2 2 s2 +2 +2 £+E£+EezE+£x+£+zz+zx+2 38
Hình 4.3: Hoạt động thư viện request - - 5 2 31123113111 Errrrrrkrrrkrrre 39
Hình 4.4: Board respeaker V2 MIC aT8y - -.- SG 3c 132111111 ESEEEerieererereere 41
Hình 4.5: Chi tiết phần cứng board Respeaker v2 Mic array -. -:s5+ 43Hình 4.6: Sơ đồ hệ thống board respeaker v2 Mic aray :¿- s¿©csz©s+>++ 44
Trang 9Bảng 3.1: Âm thanh tiếng Việt
DANH MỤC BANG
Trang 10DANH MỤC TỪ VIET TAT
ANN: Artificial NeuralNetwork
CNN: Convolutional neural network
CMOS: Complementary Metal-Oxide-Semiconductor
PNCC: Power-Normalized Cepstral Coefficient
VIS: Viet Voice Systems
VIS Viet Voice Systems
RNN: Recurrent neural network
MFCC: Mel Frequency Celpse Coefficients
Trang 11TOM TAT KHÓA LUẬN
Hiện nay công nghệ nhận dạng giọng nói đã được phổ biến rộng rãi mọi người.Với sự phát triển như vũ bão của các thiết bị thông minh thì việc điều khiển các
thiết bị thông minh thông qua giọng nói đang là xu hướng phát triển trong tương lai.Nhóm chúng em chọn đề tài “LOA THONG MINH NHAN DẠNG VA DIEU
KHIÊN BẰNG GIỌNG NÓI CHO UNG DỤNG TRONG NHÀ” dé đáp ứng nhu
cầu sử dụng điều khién các thiết bị thông minh trong môi trường trong nhà và ngôn
ngữ sử dụng là tiếng Việt
Đề tài gồm những nội dung chính cơ bản sau:
Chương 1: Mở đầu: Chương đầu tiên của luận văn đưa ra lời giới thiệu sơ lược
về đê tai, xác định mục tiêu, nhiệm vụ và phạm vi nghiên cứu của sản phâm
Chương 2: Tống quan: Trình bày những nghiên cứu liên quan những vấn đề
còn tồn đọng và đưa ra những van đề cần giải quyết đề thực hiện trong đề tài
Chương 3: Cơ sở lý thuyết: Trình bày những cơ sở lý thuyết những hạn chế
của bài toán từ đó đưa ra thiết kế tổng quát và đi sâu vào thiết kế chi tiết cuối cùng
là hoàn thành sản phẩm
Chương 4: Nghiên cứu đánh giá thực nghiệm: Hiện thực chương trình ngoải
thực tế từ đó đưa ra những kịch bản kiểm thử sản phẩm và rút ra những kết qua
đánh giá
Chương 5: Tổng kết: Tổng hợp kết quả đạt được, đánh giá những thuận lợi khó
khăn đưa ra hướng phát triển trong tương lai và kết luận
Trang 12Chuong1 ˆ MỞ ĐẦU
1.1 Lý do chọn đề tài
Trước đây, việc điều khiển một cỗ máy bằng cách nói chuyện với chúng chỉ
là những câu chuyện trong khoa học viễn tưởng Nhưng viễn tưởng này đang dần
trở thành hiện thực với sự phát triển vượt bậc về công nghệ, đặc biệt là sự phát triểncủa Trí tuệ nhân tạo (AJ) và những nên tảng khác dé tạo ra một giao diện người
dùng cho phép sử dụng giọng nói dé điều khiến các thiết bị công nghệ Ngày nay
nghệ này không còn là một khái niệm mới mẻ, tất cả những ông lớn ngành công
nghệ đều đã đang lấn sân vào “cuộc chơi” này Đó là trợ lý ảo Siri của Apple,
Cortana của Microsoft, Alexa của Amazon, đến cả Samsung cũng chập chững chothai nghen trợ ly Bixby của riêng mình hay không thé không ké đến Google
Assistant cua Google.
Nhận dạng giọng nói đã được biết đến hang thập ky, tai sao chỉ đến bây giờ,công nghệ mới thực sự bùng nỗ? Theo wikipedia, khó khăn cơ bản của nhận dạng
giọng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữatiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm
học khác nhau Sự ra đời của Deep Learning đã giúp nhận diện giọng nói chính xác,
thậm chí ở ngoài môi trường phòng lab Qua đó chúng ta có thé tương tác với các
thiết bi công nghệ dé thực hiện các công việc hàng ngày trong lao động va sản xuấtmột cách hiệu quả hoàn toàn bằng giọng nói Tiềm năng của công nghệ Nhận dạnggiọng nói là rất lớn Nó sẽ là cộng nghệ hướng đến trong tương lai và được ứng
dụng rộng rãi giúp con người đơn giản hóa cuộc sông của mình.
Vì vậy, nhóm chúng em chon đề tại điều khiển các thiết bi bằng giọng nóitrong môi trường trong nhà làm đề tài khóa luận Với mong muốn sử dụng những
kiến thức thầy cô giảng dạy trên môi trường đại học để tạo nên một sản phẩm có thê
điều khiển các thiết bị thông minh bằng giọng nói với ngôn ngữ sử dụng là tiếng
Việt và trong môi trường trong nhà.
Trang 131.2 Mục đích và ý nghĩa của đề tài.
1.2.1 Mục đích
- Nghiên cứu và đề xuất phương pháp xử lý âm thanh bằng giải thuật PNCC
- _ xây dựng và cài đặt hệ thống nhận dạng giọng nói dé điều khiến các thiết bị
thông minh bằng tiếng Việt với các lệnh cho trước Hệ thống có khả năng nhận
dạng không phụ thuộc người nói.
1.2.2 Y nghĩa khoa học thực tiễn
- Góp phần nhỏ trong số các phương pháp xử lý tiếng nói cho tiếng Việt
- Có thé mở rộng bộ từ vựng dé xây dựng các ứng dụng giao tiếp với các thiết bi
thông minh trong nhà có độ chính xác cao và thân thiện với người dùng trong tương lai.
1.3 Mục tiêu và nhiệm vụ
1.3.1 Mục tiêu
- Hiện thực hệ thong nhận dang giọng nói qua dé điều khiển các thiết bi thông
minh bang tiếng Việt với các lệnh cho trước trên board respeaker V2 mic array
- San phẩm sau khi hoàn thành có kha năng nhận dạng và điều khiến các thiết
bị trong nhà bằng ngôn ngữ là tiếng Việt
Các chức năng chính:
- _ Nhận dang giọng nói tiếng Việt ứng dụng trong nhà thông minh
- C6 thé điều khiến các thiết bị thông minh băng tiếng Việt
- _ Độ chính xác của nhận diện từ khóa Alo trên 90%
- _ Nhận dang các lệnh dé điều khiển các thiết bị trong nhà có độ chính xác trên
80%
Các lệnh điều khiển gồm:
- Bat/tat đèn phòng ngủ
Trang 14- Tìm hiểu bộ công cụ Respeaker V2 mic array cho nhận dạng tiếng nói.
- Thu âm đữ liệu tiếng nói của nhiều người với các chất giọng khác nhau
- Cài đặt chương trình huấn luyện ANN từ dữ liệu thu âm
- Cài đặt chương trình nhận dạng tiếng nói dùng Respeaker V2 mic array.
- Đánh giá độ chính xác của chương trình nhận dạng.
Trang 15- Điều khiến các thiết bị thông minh trong nhà thông qua tín hiệu từ board qua
quá trình nhận dạng giọng nói,
1.4 Phạm vi nghiên cứu
- _ Ngôn ngữ sử dụng tiếng Việt
- Tai một thời điểm cho phép một người điều khiến
- Môi trường sử dụng là trong nhà thông minh
- Khoản cách giao tiếp với loa không quá 2m
Trang 16Chuong 2 TONG QUAN
2.1 Những nghiên cứu liên quan
Trên thế giới, công nghệ nhận dạng giọng nói hiện dang phát trién và bùng nỗvới tốc độ nhanh chóng Với những sản phẩm đã có mặt tại thị trường như là trợ lý
ao Siri của Apple, Cortana của Microsoft, Alexa cua Amazon, Samsung cũng chập
chững cho thai nghen trợ ly Bixby của riêng minh hay không thé không kê đến
Google Assistant của Google Chúng đều có thé thé dé dàng tìm kiếm chỉ với giọng
nói câu lệnh từ người dùng Có thé chuyền đổi giọng nói thành văn bản ở một mức
độ xử lý với tốc độ cao và chính xác Đồng thời có thé hiểu được câu nói của bạn vàphản hoi lại với một kêt quả có thê nói là gân như hoàn hảo.
Ở nước ta, nhận dạng tiếng nói vẫn là một lĩnh vực đang được đầu tư phát
triển Do còn tùy thuộc vào điều kiện nghiên cứu và sự phức tạp của ngữ âm tiếng
Việt nên các nghiên cứu về hệ thống dạng giọng nói tiếng Việt vẫn còn nhiều hạn
chế Đến nay, nghiên cứu về nhận dạng tiếng Việt đã đạt một số kết quả nhất định
và mang tính ứng dụng cao như: Ứng dụng iSago thực hiện giao tiếp bằng giọng nóitiếng Việt trên điện thoại iPhone và VIS (Viet Voice Systems) - tổng dai hỏi đáp
thông tin tự động bằng tiếng Việt, sử dụng công nghệ nhận dạng và tông hợp giọngnói tiếng Việt với độ chính xác cao và tốc độ xử lý nhanh do Phòng thí nghiệm Trí
tuệ Nhân tao (AILab) của Trường Dai học Khoa học Tự nhiên nghiên cứu, phát
triên.
Mang điều khiển máy tính bằng giọng nói ở Việt Nam Có thê nói, ViaVoice
là một trong những phần mềm điều khiển máy tính bằng tiếng nói xuất hiện đầu tiên
ở Việt Nam và cũng chỉ sử dụng được băng tiếng Anh Với Vspeech: đây là một
phần mềm điều khién máy tính bằng giọng nói do, Đại học Bách Khoa thành phố
Hồ Minh nghiên cứu Phần mềm sử dụng thư viện Microsoft Speech SDK dé nhậndạng tiếng Anh nhưng được chuyền thành tiếng Việt Hướng phát triển ứng dụng
Trang 17điều khiển máy tính bằng giọng nói tiếng Việt đang là tiềm năng và là xu thé của
một số ứng dụng tại Việt Nam, đem đến nhiều tiện ích trong cuộc song.
2.2 Những vấn dé tồn dong
Do tính chât của tiêng nói phụ thuộc vào nhiêu yêu tô nên việc thu nhận, phân
tích các đặc trưng của tiêng nói là việc không dé O đây, chúng ta có thê nêu ra một
số yêu tố khó khăn cho bài toán nhận dạng tiếng nói:
e Khi phát âm, người nói thường nói nhanh, chậm khác nhau.
e Các từ được nói thường dài ngắn khác nhau
e Một người cùng nói một từ, nhưng ở hai lần phát âm khác nhau Kết quả
phân tích khác nhau.
e Mỗi người có một chất giọng riêng được thể hiện thông qua độ cao, độ to,
cường độ của âm và âm sắc.
e Những yếu tô như nhiễu của môi trường, nhiễu của thiết bị thu ảnh hưởng
không nhỏ tới hiệu quả nhận dạng.
Có thể thấy nhận dạng tiếng nói là một lĩnh vực nghiên cứu có nhiều ứng dụngtrong thực tế Các hệ thông nhận dạng góp phan rat lớn trong việc thúc day phát
triển nhiều ngành Tuy là lĩnh vực mang ý nghĩa to lớn đó, nhưng việc phát triển các
hệ thống nhận dạng cũng gặp không ít những khó khăn
Ngoài ra, các thiết bị hiện nay ngoài thị trường vẫn còn nhiều bat cập đối với
người dùng và các vẫn đề thường gặp phải như hau hết các thiết bị đều hoạt động
với ngôn ngữ là tiếng Anh, chưa thân thiện với người dùng Việt
Trang 182.3 Những vấn đề cần nghiên cứu giải quyết
Với những khó khăn của quá trình nhận diện giọng nói và những bất cập vềsản phẩm thị trường cũng như ngôn ngữ sử dụng chúng em đã chọn những vấn đề
đê nghiên cứu và thực hiện trong khóa luận như sau:
- _ Xây dựng một hệ thống nhận dạng giọng nói dé điều khiến các thiết bi
thông minh với ngôn ngữ tiếng Việt
- _ Xử lý âm thanh nhiễu trong quá trình sử dụng
- Nang cao độ chính xác và tốc độ xử lý của sản phẩm
- Môi trường thực hiện là trong nhà với khả năng ứng dụng cao với rất nhiều
các thiết bị thông minh và các ứng dựng liên quan khác
- _ Liên kết điều khiến các thiết bi thông minh bằng wifi
Trang 19Chuong 3 CƠ SỞ LÝ THUYET
3.1 Tống quan về xử lý tiếng nói
Nhận dạng tiếng nói là làm cho máy hiểu, nhận biết được ngữ nghĩa của lờinói Đây là quá trình biến đổi tín hiệu âm thanh thu được qua micro, qua các thiết bịthu thanh khác thành một chuỗi các từ, sau đó được nhận dạng dé sử dụng trongcác ứng dụng điều khiến thiết bi, nhập dữ liệu hoặc soạn thảo văn bản bang lời
hoặc đưa đên một quá trình xử lý ngôn ngữ ở mức cao hơn.
Tiếng nói là công cụ truyền đạt thông tin quan trọng của người Bình thường,chúng ta không đề ý quá trình nhận dạng tiếng nói diễn ra như thế nào? tại sao
chúng ta hiểu được các từ, các câu một cách đơn giản như vậy? Trên thực tế, quá
trình nhận dạng tiếng nói của người là một quá trình phức tạp Hiện nay, các nhà
nghiên cứu cố gắng tìm hiểu, phân tích và mô phỏng quá trình nhận dạng tiếng nói
của người dưới dạng các chương trình máy tính Nhưng đây là vấn đề rất rộng, có
liên quan tới nhiều ngành nghiên cứu như sinh học, hoá học, vật lý Do vậy, việc
mô phỏng tiếng nói cũng gặp nhiều khó khăn Chúng ta có thê thấy được một cáchtrực quan bài toán nhận dạng tiếng nói qua hình bên dưới
Tin hiệu tương tu Quá trình xử lý va
Trang 20Nhận dạng tiếng nói là quá trình phức tạp bao gồm nhiều khâu biến đồi Tínhiệu mà người phát ra là tín hiệu tuong tự, qua quá trình lay mẫu, lượng tử hoá va
mã hoá dé thu được các mẫu tín hiệu dạng số (tín hiệu mà máy tính có thé hiểu và
xử lý được) Các mẫu tín hiệu này được trích chọn đặc trưng Những đặc trưng này
sẽ là đầu vào cho quá trình nhận dạng Sau khi nhận dạng tín hiệu người dùng phát
âm, hệ thống sẽ đưa ra kết quả nhận dạng Tuỳ thuộc vào mô hình ứng dụng mà chochúng ta các dạng đầu ra khác nhau
3.1.1 Cac lĩnh vực xử lý tín hiệu tiếng nói
Trong xử lý tiếng nói được chia thành các lĩnh vực cơ bản như sau:
- Phân tich/téng hợp tiếng nói (analysis/synthesis): Tạo ra tiếng nói từ dữ liệuđầu vào dưới dạng ký tự
Phiên âm Ngữ điệu Tham sô
Tạo tín hiệu
tiêng nói
Tiếng nói
tông hợp Văn bản
Hình 3.2: Mô hình tạo ra tiếng nói bằng ký tự
- Mã hóa (coding): Mã hóa tín hiệu tiếng nói, thường áp dụng cho lưu trữ dit
liệu hoặc truyền tín hiệu tiêng nói.
10
Trang 21| BO MÃ HOA TIENG NOL |
Bộ muã frei
ngudn tiếng nồi
Hình 3.3: Sơ đồ mã hoá tiếng nói
- Nhận dạng (recognition): Nhận dạng tiếng nói, nhận dạng người nói, nhận
dạng ngôn ngữ.
Language Model
Hình 3.4: Sơ đồ nhận dạng giọng nói
11
Trang 22Trong nhận dạng tiếng nói, được chia làm hai lĩnh vực nghiên cứu, ứng dụng
nhỏ, đó là: Định danh người nói, xác minh người nói.
Trong lĩnh vực định danh người nói và xác minh người nói đêu có điêm
tương đồng là nhận dạng độc lập văn bản và không phụ thuộc văn bản
e Một nhóm sử dụng nham xử lý từ tiêng nói sang văn ban.
Phân loại các hệ thông nhận dạng tiếng nói sẽ giúp chúng ta có một cái nhìntrực quan hơn về bài toán Có 3 phương pháp phô biến được sử dụng trong nhận
dạng tiếng nói :
e Phương pháp âm học - ngữ âm học.
e Phương pháp nhận dạng mẫu.
e Phương pháp sử dụng các kết quả của lĩnh vực trí tuệ nhân tạo
Các hệ thống nhận dạng được phân loại như sau:
12
Trang 23Nba dang tiếng
Sóng âm thanh khi nói
Tiếng nói là phương thức giao tiếp cơ bản nhất của con người được phát ra
dưới dạng sóng âm thanh Tai người chỉ cảm thụ được những dao động hay còn gọi
là sóng âm trong miền tần số từ khoảng 16Hz đến khoảng 20000Hz Giọng nam
phát âm thường trong miên tần số từ 75Hz đến 150Hz, giọng nữ từ 200 Hz đến
13
Trang 24300Hz Mỗi người có đặc tinh phát âm riêng biệt Một số định dạng lưu trữ: wav,
mp3, au, aif, smp tần số lấy mẫu thường là 8000, 11025, 96000Hz với độ
phân giải là 8 hoặc 16/bit/mau
3.2.2 Tiếng nói tiếng Việt
Tiếng Việt là một ngôn ngữ đơn âm tiết (monosyllable), nghĩa là mỗi một âmtiết được thê hiện bởi một từ và cũng là đơn vị cơ bản trong phát âm Theo nghiên
cứu, đặc điểm của âm tiết tiếng Việt có tính độc lập cao (khác với tiếng Anh); có
khả năng biêu hiện ý nghĩa và có một câu trúc chặt chẽ -Mô hình câu trúc tông quát của tat cả các âm tiệt tiêng Việt
Trang 253.2.3 Các đặc tính cơ bản của tín hiệu tiếng nói
Hình 3.7: Đặc trưng âm thanh nhận được ngoài thực tếCác đặc tính của âm thanh tự nhiên gom:
Phổ tín hiệu: Biểu diễn của tín hiệu trên miền tan số Cac đỉnh của phô tín
hiệu là tân sô trung tâm của tín hiệu (còn gọi là tân sô formant) Phô tín hiệu sau khi nhân với hàm cửa sô Hamming sẽ sử dụng phép biên đôi Fourier nhanh ta thu được
biên độ phô chứa các thông tin có ích của tín hiệu tiêng nói
Ảnh phổ: Là một trong những công cụ cơ bản trong nhận dạng tiếng nói
Nhìn vào anh phỏ, ta dé dàng phân biệt vùng biên của từng âm tiết Nó chuyền đổi
sóng tín hiệu tiếng nói từ 2 chiều (tần số, cường độ) thành 3 chiều (tần số, cường
độ, thời gian)
Tần số formant: Đóng vai trò quan trọng trong phân tích phô tín hiệu tiếng
nói Nó được tạo nên do sự cộng hưởng của tuyến âm và hiền thị trong quang pho là
các dải mau đậm năm ngang biéu thị cho các tân sô formant
Tần số cơ bản: Tần số cơ bản (F0) mang tính chất của thanh điệu, biểu diễn
cao độ, ngữ điệu của tiêng nói, được sử dụng trong lĩnh vực tông hợp tiêng nói.
15
Trang 26Âm vô thanh: Tín hiệu có đặc điểm là không tuần hoàn (p, h, k, ch, th ),năng lượng tập trung ở tần số cao Các tần số phân bố khá đồng đều trong 2 miền
tan sô cao và tân sô thap.
Âm hữu thanh: Tín hiệu tuần hoàn, năng lượng phân bổ không đồng đều, tínhiệu có những vạch cực tri, đặc điểm của nó là phô tín hiệu có tần số cơ bản (F0)
3.3 Các giải thuật nhận dang mang deep learning
Hiện nay các loại mạng nơ-ron deep learning chăng hạn như mạng nơ-ron tích
tụ (CNN), mạng no-ron tuần hoàn (RNN), mạng nơ-ron nhân tạo (ANN), v.v đã
ngày càng được sử dụng phô biến Các loại mạng nơ-ron khác nhau này là cốt lõi
của cuộc cách mạng học sâu, cung cấp năng lượng cho các ứng dụng như máy bay
không người lái, ô tô tự lái, nhận dạng giọng nói, nhận dạng hình ảnh v.v.
3.3.1 Mạng thần kinh nhân tạo ANN
Một perceptron (hoặc neuron) có thê được hình dung như một hồi quy logistic.Mạng noron nhân tạo, hay ANN, là một nhóm gồm nhiều perceptron / noron ở mỗilớp ANN còn được gọi là mạng Neural Feed-Forward vì các đầu vào chỉ được xử
lý theo hướng chuyên tiếp:
@ input Layer @ Hiden Layers @ output Layer
Hinh 3.8 Mang than kinh ANN
16
Trang 27ANN bao gôm 3 lớp - Đâu vào, An va Dau ra Lớp dau vào chap nhận các đâu vào,
lớp ân xử lý các dau vào và lớp đâu ra tạo ra kêt quả Vê cơ bản, môi lớp cô gang
tìm hiểu các trọng lượng nhất định
ANN có thé được sử dụng dé giải quyết các van đề liên quan đến:
e Dir liệu dang bang
e Di liệu hình anh
e Dữ liệu van ban
e Dv liệu âm thanh
Ưu điểm của Mạng nơ ron nhân tạo (ANN)
Mang no ron nhân tạo có khả năng học bat kỳ hàm phi tuyến nào Do đó,những mạng này thường được biết đến với cái tên Phương pháp xấp xỉ hàm phổ
quát ANN có khả năng học các trọng số ánh xạ bất kỳ đầu vào nào với đầu ra
Một trong những lý do chính dang sau tính gần đúng phổ quát là chức năngkích hoạt Các chức năng kích hoạt đưa các thuộc tính phi tuyến vào mạng Điều
này giúp mạng tìm hiểu bat kỳ mối quan hệ phức tạp nào giữa đầu vào và dau ra
Nhược điểm của Mạng nơ ron nhân tạo (ANN)
Trong sử lý ảnh ANN làm mất các tính năng không gian của hình ảnh Tính
năng không gian đê cập đên sự sắp xêp của các pixel trong một hình ảnh.
Trong trường hợp của một mạng nơ-ron rât sâu (mạng có sô lượng lớn các
lớp an), gradient biến mat khi nó lan truyền ngược lại dẫn đến gradient biến mat
ANN không thé nam bắt thông tin tuần tự trong dữ liệu đầu vào được yêu cầu
dé xử lý dữ liệu trình tự
17
Trang 283.3.2 Mạng thần kinh tái tạo (CNN)
Convolutional Neural Network (CNNs — Mạng nơ-ron tích chập) là một trong
những mô hình Deep Learning tiên tiến Nó giúp cho chúng ta xây dựng được
những hệ thống thông minh với độ chính xác cao như hiện nay
Feature maps
Convolutions Subsamping Convolutions Subeampling Fully connected
Hinh 3.9 Mang no-ron RNN
Mang CNN là một tập hợp các lớp Convolution chồng lên nhau va sử dungcác hàm nonlinear activation như ReLU va tanh dé kích hoạt các trọng số trong các
node Mỗi một lớp sau khi thông qua các hàm kích hoạt sẽ tạo ra các thông tin trừu
tượng hơn cho các lớp tiếp theo
Mỗi một lớp sau khi thông qua các hàm kích hoạt sẽ tạo ra các thông tin trừu
tượng hơn cho các lớp tiếp theo Trong mô hình mạng truyền ngược (feedforward
neural network) thì mỗi neural đầu vào (input node) cho mỗi neural đầu ra trong cáclớp tiếp theo
Mô hình này gọi là mạng kết nối đầy đủ (fully connected layer) hay mạng toànven (affine layer) Còn trong mô hình CNNs thì ngược lai Các layer liên kết được
với nhau thông qua cơ chê convolution.
Layer tiép theo là kêt qua convolution từ layer trước đó, nhờ vậy mà ta có
được các kết nối cục bộ Như vậy mỗi neuron ở lớp kế tiếp sinh ra từ kết quả của
filter áp đặt lên một vùng ảnh cục bộ cua neuron trước đó.
Mỗi một lớp được sử dụng các filter khác nhau thông thường có hàng trăm
hàng nghìn filter như vậy và kết hợp kết quả của chúng lại Ngoài ra có một số layer
18
Trang 29khác như pooling/subsampling layer dùng dé chat lọc lại các thông tin hữu ich hon
(loại bỏ các thông tin nhiễu).
Trong quá trình huấn luyện mạng (traning) CNN tự động học các giá trị qua
các lớp filter dựa vào cách thức mà bạn thực hiện Ví dụ trong tác vụ phân lớp ảnh,
CNNs sẽ cô gắng tìm ra thông số tối ưu cho các filter tương ứng theo thứ tự raw
pixel > edges > shapes > facial > high-level features Layer cuối cùng được dùng dé
phân lớp ảnh.
Ưu điểm của Mạng Neural Convolution (CNN)
CNN tự động tim hiểu các bộ lọc mà không cần đề cập đến nó một cách rõràng Các bộ lọc này giúp trích xuất các tính năng phù hợp và có liên quan từ dữ
liệu đầu vào
CNN chụp các đặc điểm không gian từ một hình anh Các tính năng khônggian đề cập đến sự sắp xếp của các pixel và mối quan hệ giữa chúng trong một hìnhảnh Chúng giúp chúng ta xác định chính xác đối tượng, vi trí của đối tượng, cũng
như môi quan hệ của nó với các đôi tượng khác trong ảnh
CNN cũng tuân theo khái niệm chia sẻ tham số Một bộ lọc duy nhất được ápdụng trên các phần khác nhau của đầu vào đề tạo bản đồ đối tượng
3.4 Mang lưới thần kinh tái tạo (RNN)
Mạng lưới thần kinh tái tạo (RNN) là một lớp học của mạng nơ-ron nhân tạo
nơi kết nối giữa các nút tạo thành một đồ thị có hướng dọc theo một trình tự thời
gian Điều này cho phép nó thê hiện hành vi động tạm thời Bắt nguồn từ mạng ron truyền thăng, RNN có thé sử dung trang thái bên trong (bộ nhớ) của chúng dé
nơ-xử lý chuỗi đầu vào có độ dai thay đổi Điều này làm cho chúng có thé áp dụng cho
các tác vụ như nhận dạng chữ viết tay được kết nối, không phân đoạn hoặc nhận
dạng giọng nói.
19
Trang 30Recurrent Neural Network Feed-Forward Neural Network
Hinh 3.10 Mang than kinh tai tao RNN
Có thé sử dung mạng nơ-ron tuần hoàn dé giải quyết các van đề liên quan đến:
e Dữ liệu chuỗi thời gian
e Dữ liệu văn bản
e Dữ liệu âm thanh
Ưu điểm của Mạng nơron tái tạo (RNN)
RNN nắm bắt thông tin tuần tự có trong dữ liệu đầu vào, tức là sự phụ thuộc
giữa các từ trong văn bản trong khi đưa ra dự đoán.
RNN chia sẻ các tham sô qua các bước thời gian khác nhau Điêu nay pho
biên được gọi là Chia sẻ Tham sô Điêu này dẫn đến việc dao tạo ít tham số hon và
giảm chi phí tính toán
Các RNN sâu (RNN với số lượng lớn các bước thời gian) cũng gặp phải vấn
dé gradient biến mat và bùng nổ, đây là một van đề phổ biến trong tất cả các loại
mạng nơ-ron khác nhau.
20
Trang 313.5 Những hạn chế bài toán
Do tính chât của tiêng nói phụ thuộc vào nhiêu yêu tô nên việc thu nhận, phân
tích các đặc trưng của tiếng nói là việc không dễ Ở đây, chúng ta có thể nêu ra một
số yêu tố khó khăn cho bài toán nhận dạng tiếng nói:
e Khi phát âm, người nói thường nói nhanh, chậm khác nhau.
e Các từ được nói thường dài ngắn khác nhau
e Một người cùng nói một từ, nhưng ở hai lần phát âm khác nhau Kết quả
phân tích khác nhau.
e Mỗi người có một chất giọng riêng được thể hiện thông qua độ cao, độ to,
cường độ của âm và âm sac.
e Những yếu tô như nhiễu của môi trường, nhiễu của thiết bị thu anh hưởng
không nhỏ tới hiệu quả nhận dạng.
Có thể thấy nhận dạng tiếng nói là một lĩnh vực nghiên cứu có nhiều ứng dụng
trong thực tế Các hệ thống nhận dạng góp phan rat lớn trong việc thúc day phát
triển nhiều ngành Tuy là lĩnh vực mang ý nghĩa to lớn đó, nhưng việc phát triển các
hệ thống nhận dạng cũng gặp không ít những khó khăn
21
Trang 32Chương 4._ NGHIÊN CỨU ĐÁNH GIÁ THỰC NGHIỆM
4.1 Nghiên cứu thiết kế hệ thống
Sơ đồ hệ thống nhận dạng giọng nói điều khiển các thiết bị trong nhà :
Tiếng ồn từ
môi trường
(1): Xử lý loại bỏ nhiễu âm thanh đầu vào(2): Nhận dạng giọng nói bằng thuật toán ANN(3): Xử lý tín hiệu đầu ra và tương tác với các thiết bị thông minh
4.2 Xử lý loại bỏ nhiễu bằng giải thuật PNCC
Trong môi trường nhà thông minh việc điều khiển bang giọng nói có thé datđược mức hiệu suất cao trong môi trường lí tưởng Tuy nhiên, hiệu suất như vậy
giảm đáng ké trong điều kiện nhiều người dùng cùng lúc hoặc trong môi trường ồn
ào như tiếng ồn trang trong âm thanh nền, nhiễu âm nhạc Trong trường hợp này,
chúng ta cần giải quyết các vấn đề về xác định số người dùng thiết bị và giảm tiếng
ồn khi nhận dạng âm thanh.
22