1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Kỹ thuật máy tính: Loa thông minh nhận dạng và điều khiển bằng giọng nói cho ứng dụng trong nhà

65 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Loa thông minh nhận dạng và điều khiển bằng giọng nói cho ứng dụng trong nhà
Tác giả Nguyen Huu Dat, Nguyen Vu Thanh
Người hướng dẫn TS. Nguyen Minh Son
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành Kỹ thuật máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2021
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 65
Dung lượng 29,99 MB

Nội dung

TOM TAT KHÓA LUẬNHiện nay công nghệ nhận dạng giọng nói đã được phổ biến rộng rãi mọi người.Với sự phát triển như vũ bão của các thiết bị thông minh thì việc điều khiển các thiết bị thôn

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KY THUAT MAY TINH

NGUYEN HUU DAT

NGUYEN VU THANH

KHOA LUAN TOT NGHIEP

SMART SPEAKER WITH VOICE RECOGNITION AND

CONTROL FOR HOME AUTOMATION

KY SU KY THUAT MAY TINH

TP HO CHÍ MINH, 2021

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KY THUAT MAY TINH

NGUYEN HỮU DAT - 16520191

NGUYEN VŨ THANH -~ 1621128

KHÓA LUẬN TÓT NGHIỆP

LOA THONG MINH NHAN DANG VA DIEU KHIEN

BANG GIONG NOI CHO UNG DUNG TRONG NHA

SMART SPEAKER WITH VOICE RECOGNITION AND

CONTROL FOR HOME AUTOMATION

KY SU KY THUAT MAY TINH

GIANG VIEN HUONG DAN

TS NGUYEN MINH SON

TP HO CHi MINH, 2021

Trang 3

THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP

Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số

TigầYy của Hiệu trưởng Trường Dai học Công nghệ Thông tin.

Trang 4

LỜI CẢM ƠN

Khóa luận tốt nghiệp là sản phẩm nghiên cứu khoa học đầu đời của mỗi sinh viên,

cũng là thành quả của quá trình học tập và rèn luyện trong môi trường đại học Trong

quá trình thực hiện khóa luận tốt nghiệp, em đã nhận được sự giúp đỡ, hướng dẫn, hỗ

trợ và động viên từ gia đình, quý thầy cô cũng như các bạn Nhờ đó mà em đã hoàn

thành được khóa luận như mong muốn Nay em xin được gửi lời cảm ơn sâu sắc vàchân thành đến các thầy cô trong khoa Kỹ Thuật Máy Tính đã truyền đạt những kiếnthức quý báu dé từ đó chúng em có cơ hội phát triển thêm vốn hiểu biết của mình vận

dụng trong công việc sau này cùng với Ban giám hiệu trường Đại học Công nghệ thông

tin đã tạo mọi điều kiện thuận lợi giúp đỡ em trong quá trình học tập và hoàn thànhkhóa luận tốt nghiệp

Đặc biệt, em xin gửi lời cảm ơn đến Ts Nguyễn Minh Sơn đã trực tiếp hướngdẫn khóa luận Trong suốt quá trình thực hiện, thầy đã tận tình hướng dẫn, giúp chúng

em giải quyết các van dé trong quá trình làm khóa luận và hoàn thành luận văn đúngđịnh hướng ban đầu Chúng em cũng chân thành cảm ơn các thầy cô trong hội đồng

chấm luận văn đã cho em những đóng góp quý báu đề luận văn thêm hoàn thiện hơn

Bên cạnh đó, em xin được gửi đến ba mẹ, gia đình và bạn bè lời cảm ơn, tri ân chânthành va lòng biết ơn sâu sắc vì những sự động viên, ủng hộ, giúp đỡ và cé vũ tinhthần cho chúng em trong suốt quá trình gian nan và vất vả này

Cuối cùng, chúng em xin kính chúc quý Thầy Cô trong khoa Kỹ Thuật máy tính

và thầy Nguyễn Minh Sơn thật dồi dào sức khỏe, niềm tin để tiếp tục thực hiện sứmệnh cao đẹp của mình là truyền đạt kiến thức cho thế hệ mai sau, luôn gặt hái đượcnhiều thành công tốt đẹp trong sự nghiệp trồng người của mình

Trang 5

MỤC LỤC

Chương 1 MỞ ĐẦU 2-5-5 SE EEEEE2E12112112121712111211211211 1111111111 re 2

1.1 Lý do chọn đề tài :- 5c Sc2S2 2E EEEEEEEEEEE1111211 2112111111111 rye 2

1.2 Mục đích và ý nghĩa của đề tài -©5- 5522 <SEEeEEE 2E EEEErkrrrkrrkerreeg 3

1.2.1 Mục đích - <1 1111112231111 kg 3

1.2.2 Y nghĩa khoa hoc thực ¡0 3

1.3 Mục tiêu và nhiệm VỤ <5 2 E22 133222181 231 E231 1 231 E9 ng rcưy 3

1.3.1 Mục tiÊU -G- 0111112211111 1 199911 ng ng vn 3

1.3.2 n0 0 ăằwằ +ằằăằăằăằằằ 4

1.4 Phạm vi nghiÊn CỨU c5 1192311391 8310111 1119 HH ng t 5

Chương 2 TONG QUAN 2-22SE SE22E2E12E1221211211271711211211 7111 1.1xrxe 6

2.1 Những nghiên cứu liên quan - << 2 1E 1 ng re 6

2.2 Những vấn đề tồn đọng - ¿5c St EEEEEEE21121121111111 11111 cxe 7

2.3 Những van dé cần nghiên cứu giải quyẾt : - ¿-+++cx+x++zx+zz+z 8

Chương 3 CƠ SỞ LÝ THUYÊTT ¿- 2 ¿+ +E#EE#EE+EEEEEEEEEEEEEEEEEEEeEkrrkrrrrei 9

3.1 Tổng quan về xử lý tiếng nói - 2 c5 +E+EE£EE+EESEEEEEEEEEEEEEEEEEkrrkrrerree 9

3.1.1 _ Các lĩnh vực xử lý tín hiệu tiếng nói 2- ¿©52+cz+zs+zxezse2 10

3.1.2 Một số hệ thống nhận dạng tiếng nói 2-2 2+s+zs+zxzzse2 12

3.2 Các đặt trưng của tiếng nói ¿ 2¿©2+2+++ck2EEtEEESEEEEkrrkrerkrerkrrrrees 13

3.2.1 Đặc điểm He 13

3.2.2 — Tiếng nói tiếng ViỆ( 5 Set EkEEEEEEEE11211 211111111 cxe 14

3.2.3 Các đặc tính cơ bản của tín hiệu tiếng 1110) 5S S2<<S++<<ss+2 15

3.3 Các giải thuật nhận dạng mang deep Ïlearn1ng - - «<< s<++sc+ses 16

3.3.1 Mạng thần kinh nhân tạo ANN -c- + keE+keEeEerkerrrxerxereree 16

Trang 6

3.3.2 Mạng thần kinh tái tạo (CINN) ¿- 5c ckeEx+k‡EeEEEEeEerkerrkerxrrrrke 18

3.4 Mạng lưới thần kinh tái tạo (RINN) - St tk Ekrketeerk 19

3.5 Những hạn chế bài toán - + 2 + +E£EEEEEEEEEEE2E12112112121 111111, 21

Chương 4 NGHIÊN CỨU DANH GIÁ THUC NGHIỆM -2- 5¿ 22

4.1 Nghiên cứu thiết kế hệ thống -2- 2 2+ +SE+EE+EE£EEEEE2EEEEeEEerEerkerxrree 22

4.2 Xử lý loại bỏ nhiễu bằng giải thuật PNCC -2-©5c©5cccsccxsrxcces 22

4.2.1 Tiền nhân mạnh ¿¿©+++++E+++E++EE++EE+2EErrkkerkesrkrrrrres 24

4.2.2 _ Phân khung tín hiỆu G1 SH 24

4.2.3, Lấy cửa số tín hiệu ©-¿©2+++2xt2EEtEEESEEEEErrErerkrerkrrrres 24

4.2.4 Biến đối chuỗi FOurier 2-©2+2<+c++ckzEzrerrserxerreee 25

4.2.5 8a 01100777 25

4.2.6 Xử lý nhiễu với mặt nạ không đối xứng -¿ :-s+-: 27

4.2.7 Weight Smoo(hIng c1 HH kg ngư, 28

4.2.8 Chuan hóa công xuất trung bình -¿ ¿-«©++cs++zxzzxeex 29

4.2.9 Những cải tiến của giải thuật PNCC ¿©2cccszccxccccees 30

4.3 Nhận dạng giọng nói bằng thuật toán ANN - ¿2c secxererssree 33

4.3.1 Giai đoạn huấn luyện mô hình -¿- ¿2+2++zx++zxzzxeex 38

4.3.2 Giai đoạn nhận dạng - - + + 3+ 3233 SE Errrrrerrkrrrkrre 38

4.4 Xử lý tín hiệu đầu ra và tương tác với các thiết bị thông minh 39

4.5 Board respeaker V2 MIC âTTâ - < E1 E191 11H kg re 40

4.5.1 Đặc trưng LH HH TH HH HH Hư, 41

4.5.2 Thông số kĩ thuật ¿ 2¿©-+22++cESEESEkrrrrerkrerkrrrres 42

4.5.3 Tổng quan phan cứng -¿ ¿-++++++++x++zxtzxrerxesrxrrreees 43

4.6 Những cải tiến trong thiết kẾ - + 2 2 +keEE‡EESEEEEEEEE2E22E2EEEEEErkrree 45

Trang 7

4.7 Chương trình thực tẾ ¿ 2¿©+©+++2++2EE2EEEEEE2EEE2EEEEEEEEESrkrrrrrrkrrrei 45

4.8 Kịch bản kiểm thử sản phẩm 22- 5£ ©522E22EE22EEEEEtEEterxrsrkerrreree 46

4.9, Két qua cac Th.ẽăấảậOQỤODỶDOỪỶọỌDd4 48

Chương 5 TONG KẾT 2-©2¿©5£+SE‡SEÊEEEEEEEEEEEEEEEEEEEEEEEEEEEErrkrrkerkrrei 49

5.1 Kết quả dat duoc ccececcccccscsscssessessessessessessessssessessessessesssssssssessesseesesseeseseseees 49

5.1.1 _ Về nội dung nghiên UU w cecceccecccccscsseesesseesessessessessessesscsessessessessessease 49

Trang 8

DANH MỤC HÌNH

Hình 3.1: Mô hình nhận dạng tiếng nói - - 2 2 22 +2 ££+E£+E£+EeEEeEE+Exrrxzrzea 9

Hình 3.2: Mô hình tạo ra tiếng nói bằng ký tự -¿- 2-2 2+c+kerkerkerxersersrree 10Hình 3.3: Sơ đồ mã hoá tiếng nói 2- 2£ 5£22+¿2EE+EEE2EE+2EE2EEEEEESEkrrrkrrresree 11Hình 3.4: Sơ đồ nhận dạng giọng nói ccecceccessessessesssessessesssessessesscssessessesseesseeseeseees 11Hình 3.5: Sơ đồ phân loại các hệ thống nhận dạng tiếng nói 13

Hình 3.6: Biểu đồ dang sÓng 2-2 ©2£+22SE+EE£EEEEEE2EEEEEE21121122171711211 21c, 13

Hình 3.7: Đặc trưng âm thanh nhận được ngoài thực TA 15

Hình 3.8: Sơ đồ tông quát nhận giạng giọng nói - 2 2 2 se x+cx+rszzszse2 22

Hình 3.9: Quy trình phân tích các đặc trưng PNCC - c- 5< ++<<++£+scrsex 23

Hình 3.10: Dap ứng xung øammafON€ 5 5 + +11 9E ng ng gưkp 26

Hình 3.11: So đồ so sánh PNCC, MECC,PL/P 2 tt St S33 SE EEESESEvEeEeErEeersrssee 31Hình 3.12: Phổ từ trong môi trường nhiễu không được xử lý .- - 32

Hình 3.13: Đồ thị phô của từ thông qua thuật toán PNCC . - 5s s2 33

Hình 3.14: Câu tạo một nơ rOI - - ¿2 St ESE+E9EEEE+EEEEEESEEEEEESESEEEEEESEEEErkerrrererree 34Hình 3.15: Mang neuron truyền thắng nhiều tang . -¿-c5¿52sz>5++cs+ 35Hình 3.16: Kiến trúc của mạng nơ ron nhiều tầng - :2¿ 52 s¿++z>s+z>++ 37Hình 4.1: Sơ đồ huấn luyện mô hình: 2 2 E+E+2E£+EE+EE+EEerEezExsrxrrxerex 38Hình 4.2: Tổng quan mô hình nhận dạng 2 2 s2 +2 +2 £+E£+EezE+£x+£+zz+zx+2 38

Hình 4.3: Hoạt động thư viện request - - 5 2 31123113111 Errrrrrkrrrkrrre 39

Hình 4.4: Board respeaker V2 MIC aT8y - -.- SG 3c 132111111 ESEEEerieererereere 41

Hình 4.5: Chi tiết phần cứng board Respeaker v2 Mic array -. -:s5+ 43Hình 4.6: Sơ đồ hệ thống board respeaker v2 Mic aray :¿- s¿©csz©s+>++ 44

Trang 9

Bảng 3.1: Âm thanh tiếng Việt

DANH MỤC BANG

Trang 10

DANH MỤC TỪ VIET TAT

ANN: Artificial NeuralNetwork

CNN: Convolutional neural network

CMOS: Complementary Metal-Oxide-Semiconductor

PNCC: Power-Normalized Cepstral Coefficient

VIS: Viet Voice Systems

VIS Viet Voice Systems

RNN: Recurrent neural network

MFCC: Mel Frequency Celpse Coefficients

Trang 11

TOM TAT KHÓA LUẬN

Hiện nay công nghệ nhận dạng giọng nói đã được phổ biến rộng rãi mọi người.Với sự phát triển như vũ bão của các thiết bị thông minh thì việc điều khiển các

thiết bị thông minh thông qua giọng nói đang là xu hướng phát triển trong tương lai.Nhóm chúng em chọn đề tài “LOA THONG MINH NHAN DẠNG VA DIEU

KHIÊN BẰNG GIỌNG NÓI CHO UNG DỤNG TRONG NHÀ” dé đáp ứng nhu

cầu sử dụng điều khién các thiết bị thông minh trong môi trường trong nhà và ngôn

ngữ sử dụng là tiếng Việt

Đề tài gồm những nội dung chính cơ bản sau:

Chương 1: Mở đầu: Chương đầu tiên của luận văn đưa ra lời giới thiệu sơ lược

về đê tai, xác định mục tiêu, nhiệm vụ và phạm vi nghiên cứu của sản phâm

Chương 2: Tống quan: Trình bày những nghiên cứu liên quan những vấn đề

còn tồn đọng và đưa ra những van đề cần giải quyết đề thực hiện trong đề tài

Chương 3: Cơ sở lý thuyết: Trình bày những cơ sở lý thuyết những hạn chế

của bài toán từ đó đưa ra thiết kế tổng quát và đi sâu vào thiết kế chi tiết cuối cùng

là hoàn thành sản phẩm

Chương 4: Nghiên cứu đánh giá thực nghiệm: Hiện thực chương trình ngoải

thực tế từ đó đưa ra những kịch bản kiểm thử sản phẩm và rút ra những kết qua

đánh giá

Chương 5: Tổng kết: Tổng hợp kết quả đạt được, đánh giá những thuận lợi khó

khăn đưa ra hướng phát triển trong tương lai và kết luận

Trang 12

Chuong1 ˆ MỞ ĐẦU

1.1 Lý do chọn đề tài

Trước đây, việc điều khiển một cỗ máy bằng cách nói chuyện với chúng chỉ

là những câu chuyện trong khoa học viễn tưởng Nhưng viễn tưởng này đang dần

trở thành hiện thực với sự phát triển vượt bậc về công nghệ, đặc biệt là sự phát triểncủa Trí tuệ nhân tạo (AJ) và những nên tảng khác dé tạo ra một giao diện người

dùng cho phép sử dụng giọng nói dé điều khiến các thiết bị công nghệ Ngày nay

nghệ này không còn là một khái niệm mới mẻ, tất cả những ông lớn ngành công

nghệ đều đã đang lấn sân vào “cuộc chơi” này Đó là trợ lý ảo Siri của Apple,

Cortana của Microsoft, Alexa của Amazon, đến cả Samsung cũng chập chững chothai nghen trợ ly Bixby của riêng mình hay không thé không ké đến Google

Assistant cua Google.

Nhận dạng giọng nói đã được biết đến hang thập ky, tai sao chỉ đến bây giờ,công nghệ mới thực sự bùng nỗ? Theo wikipedia, khó khăn cơ bản của nhận dạng

giọng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữatiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm

học khác nhau Sự ra đời của Deep Learning đã giúp nhận diện giọng nói chính xác,

thậm chí ở ngoài môi trường phòng lab Qua đó chúng ta có thé tương tác với các

thiết bi công nghệ dé thực hiện các công việc hàng ngày trong lao động va sản xuấtmột cách hiệu quả hoàn toàn bằng giọng nói Tiềm năng của công nghệ Nhận dạnggiọng nói là rất lớn Nó sẽ là cộng nghệ hướng đến trong tương lai và được ứng

dụng rộng rãi giúp con người đơn giản hóa cuộc sông của mình.

Vì vậy, nhóm chúng em chon đề tại điều khiển các thiết bi bằng giọng nóitrong môi trường trong nhà làm đề tài khóa luận Với mong muốn sử dụng những

kiến thức thầy cô giảng dạy trên môi trường đại học để tạo nên một sản phẩm có thê

điều khiển các thiết bị thông minh bằng giọng nói với ngôn ngữ sử dụng là tiếng

Việt và trong môi trường trong nhà.

Trang 13

1.2 Mục đích và ý nghĩa của đề tài.

1.2.1 Mục đích

- Nghiên cứu và đề xuất phương pháp xử lý âm thanh bằng giải thuật PNCC

- _ xây dựng và cài đặt hệ thống nhận dạng giọng nói dé điều khiến các thiết bị

thông minh bằng tiếng Việt với các lệnh cho trước Hệ thống có khả năng nhận

dạng không phụ thuộc người nói.

1.2.2 Y nghĩa khoa học thực tiễn

- Góp phần nhỏ trong số các phương pháp xử lý tiếng nói cho tiếng Việt

- Có thé mở rộng bộ từ vựng dé xây dựng các ứng dụng giao tiếp với các thiết bi

thông minh trong nhà có độ chính xác cao và thân thiện với người dùng trong tương lai.

1.3 Mục tiêu và nhiệm vụ

1.3.1 Mục tiêu

- Hiện thực hệ thong nhận dang giọng nói qua dé điều khiển các thiết bi thông

minh bang tiếng Việt với các lệnh cho trước trên board respeaker V2 mic array

- San phẩm sau khi hoàn thành có kha năng nhận dạng và điều khiến các thiết

bị trong nhà bằng ngôn ngữ là tiếng Việt

Các chức năng chính:

- _ Nhận dang giọng nói tiếng Việt ứng dụng trong nhà thông minh

- C6 thé điều khiến các thiết bị thông minh băng tiếng Việt

- _ Độ chính xác của nhận diện từ khóa Alo trên 90%

- _ Nhận dang các lệnh dé điều khiển các thiết bị trong nhà có độ chính xác trên

80%

Các lệnh điều khiển gồm:

- Bat/tat đèn phòng ngủ

Trang 14

- Tìm hiểu bộ công cụ Respeaker V2 mic array cho nhận dạng tiếng nói.

- Thu âm đữ liệu tiếng nói của nhiều người với các chất giọng khác nhau

- Cài đặt chương trình huấn luyện ANN từ dữ liệu thu âm

- Cài đặt chương trình nhận dạng tiếng nói dùng Respeaker V2 mic array.

- Đánh giá độ chính xác của chương trình nhận dạng.

Trang 15

- Điều khiến các thiết bị thông minh trong nhà thông qua tín hiệu từ board qua

quá trình nhận dạng giọng nói,

1.4 Phạm vi nghiên cứu

- _ Ngôn ngữ sử dụng tiếng Việt

- Tai một thời điểm cho phép một người điều khiến

- Môi trường sử dụng là trong nhà thông minh

- Khoản cách giao tiếp với loa không quá 2m

Trang 16

Chuong 2 TONG QUAN

2.1 Những nghiên cứu liên quan

Trên thế giới, công nghệ nhận dạng giọng nói hiện dang phát trién và bùng nỗvới tốc độ nhanh chóng Với những sản phẩm đã có mặt tại thị trường như là trợ lý

ao Siri của Apple, Cortana của Microsoft, Alexa cua Amazon, Samsung cũng chập

chững cho thai nghen trợ ly Bixby của riêng minh hay không thé không kê đến

Google Assistant của Google Chúng đều có thé thé dé dàng tìm kiếm chỉ với giọng

nói câu lệnh từ người dùng Có thé chuyền đổi giọng nói thành văn bản ở một mức

độ xử lý với tốc độ cao và chính xác Đồng thời có thé hiểu được câu nói của bạn vàphản hoi lại với một kêt quả có thê nói là gân như hoàn hảo.

Ở nước ta, nhận dạng tiếng nói vẫn là một lĩnh vực đang được đầu tư phát

triển Do còn tùy thuộc vào điều kiện nghiên cứu và sự phức tạp của ngữ âm tiếng

Việt nên các nghiên cứu về hệ thống dạng giọng nói tiếng Việt vẫn còn nhiều hạn

chế Đến nay, nghiên cứu về nhận dạng tiếng Việt đã đạt một số kết quả nhất định

và mang tính ứng dụng cao như: Ứng dụng iSago thực hiện giao tiếp bằng giọng nóitiếng Việt trên điện thoại iPhone và VIS (Viet Voice Systems) - tổng dai hỏi đáp

thông tin tự động bằng tiếng Việt, sử dụng công nghệ nhận dạng và tông hợp giọngnói tiếng Việt với độ chính xác cao và tốc độ xử lý nhanh do Phòng thí nghiệm Trí

tuệ Nhân tao (AILab) của Trường Dai học Khoa học Tự nhiên nghiên cứu, phát

triên.

Mang điều khiển máy tính bằng giọng nói ở Việt Nam Có thê nói, ViaVoice

là một trong những phần mềm điều khiển máy tính bằng tiếng nói xuất hiện đầu tiên

ở Việt Nam và cũng chỉ sử dụng được băng tiếng Anh Với Vspeech: đây là một

phần mềm điều khién máy tính bằng giọng nói do, Đại học Bách Khoa thành phố

Hồ Minh nghiên cứu Phần mềm sử dụng thư viện Microsoft Speech SDK dé nhậndạng tiếng Anh nhưng được chuyền thành tiếng Việt Hướng phát triển ứng dụng

Trang 17

điều khiển máy tính bằng giọng nói tiếng Việt đang là tiềm năng và là xu thé của

một số ứng dụng tại Việt Nam, đem đến nhiều tiện ích trong cuộc song.

2.2 Những vấn dé tồn dong

Do tính chât của tiêng nói phụ thuộc vào nhiêu yêu tô nên việc thu nhận, phân

tích các đặc trưng của tiêng nói là việc không dé O đây, chúng ta có thê nêu ra một

số yêu tố khó khăn cho bài toán nhận dạng tiếng nói:

e Khi phát âm, người nói thường nói nhanh, chậm khác nhau.

e Các từ được nói thường dài ngắn khác nhau

e Một người cùng nói một từ, nhưng ở hai lần phát âm khác nhau Kết quả

phân tích khác nhau.

e Mỗi người có một chất giọng riêng được thể hiện thông qua độ cao, độ to,

cường độ của âm và âm sắc.

e Những yếu tô như nhiễu của môi trường, nhiễu của thiết bị thu ảnh hưởng

không nhỏ tới hiệu quả nhận dạng.

Có thể thấy nhận dạng tiếng nói là một lĩnh vực nghiên cứu có nhiều ứng dụngtrong thực tế Các hệ thông nhận dạng góp phan rat lớn trong việc thúc day phát

triển nhiều ngành Tuy là lĩnh vực mang ý nghĩa to lớn đó, nhưng việc phát triển các

hệ thống nhận dạng cũng gặp không ít những khó khăn

Ngoài ra, các thiết bị hiện nay ngoài thị trường vẫn còn nhiều bat cập đối với

người dùng và các vẫn đề thường gặp phải như hau hết các thiết bị đều hoạt động

với ngôn ngữ là tiếng Anh, chưa thân thiện với người dùng Việt

Trang 18

2.3 Những vấn đề cần nghiên cứu giải quyết

Với những khó khăn của quá trình nhận diện giọng nói và những bất cập vềsản phẩm thị trường cũng như ngôn ngữ sử dụng chúng em đã chọn những vấn đề

đê nghiên cứu và thực hiện trong khóa luận như sau:

- _ Xây dựng một hệ thống nhận dạng giọng nói dé điều khiến các thiết bi

thông minh với ngôn ngữ tiếng Việt

- _ Xử lý âm thanh nhiễu trong quá trình sử dụng

- Nang cao độ chính xác và tốc độ xử lý của sản phẩm

- Môi trường thực hiện là trong nhà với khả năng ứng dụng cao với rất nhiều

các thiết bị thông minh và các ứng dựng liên quan khác

- _ Liên kết điều khiến các thiết bi thông minh bằng wifi

Trang 19

Chuong 3 CƠ SỞ LÝ THUYET

3.1 Tống quan về xử lý tiếng nói

Nhận dạng tiếng nói là làm cho máy hiểu, nhận biết được ngữ nghĩa của lờinói Đây là quá trình biến đổi tín hiệu âm thanh thu được qua micro, qua các thiết bịthu thanh khác thành một chuỗi các từ, sau đó được nhận dạng dé sử dụng trongcác ứng dụng điều khiến thiết bi, nhập dữ liệu hoặc soạn thảo văn bản bang lời

hoặc đưa đên một quá trình xử lý ngôn ngữ ở mức cao hơn.

Tiếng nói là công cụ truyền đạt thông tin quan trọng của người Bình thường,chúng ta không đề ý quá trình nhận dạng tiếng nói diễn ra như thế nào? tại sao

chúng ta hiểu được các từ, các câu một cách đơn giản như vậy? Trên thực tế, quá

trình nhận dạng tiếng nói của người là một quá trình phức tạp Hiện nay, các nhà

nghiên cứu cố gắng tìm hiểu, phân tích và mô phỏng quá trình nhận dạng tiếng nói

của người dưới dạng các chương trình máy tính Nhưng đây là vấn đề rất rộng, có

liên quan tới nhiều ngành nghiên cứu như sinh học, hoá học, vật lý Do vậy, việc

mô phỏng tiếng nói cũng gặp nhiều khó khăn Chúng ta có thê thấy được một cáchtrực quan bài toán nhận dạng tiếng nói qua hình bên dưới

Tin hiệu tương tu Quá trình xử lý va

Trang 20

Nhận dạng tiếng nói là quá trình phức tạp bao gồm nhiều khâu biến đồi Tínhiệu mà người phát ra là tín hiệu tuong tự, qua quá trình lay mẫu, lượng tử hoá va

mã hoá dé thu được các mẫu tín hiệu dạng số (tín hiệu mà máy tính có thé hiểu và

xử lý được) Các mẫu tín hiệu này được trích chọn đặc trưng Những đặc trưng này

sẽ là đầu vào cho quá trình nhận dạng Sau khi nhận dạng tín hiệu người dùng phát

âm, hệ thống sẽ đưa ra kết quả nhận dạng Tuỳ thuộc vào mô hình ứng dụng mà chochúng ta các dạng đầu ra khác nhau

3.1.1 Cac lĩnh vực xử lý tín hiệu tiếng nói

Trong xử lý tiếng nói được chia thành các lĩnh vực cơ bản như sau:

- Phân tich/téng hợp tiếng nói (analysis/synthesis): Tạo ra tiếng nói từ dữ liệuđầu vào dưới dạng ký tự

Phiên âm Ngữ điệu Tham sô

Tạo tín hiệu

tiêng nói

Tiếng nói

tông hợp Văn bản

Hình 3.2: Mô hình tạo ra tiếng nói bằng ký tự

- Mã hóa (coding): Mã hóa tín hiệu tiếng nói, thường áp dụng cho lưu trữ dit

liệu hoặc truyền tín hiệu tiêng nói.

10

Trang 21

| BO MÃ HOA TIENG NOL |

Bộ muã frei

ngudn tiếng nồi

Hình 3.3: Sơ đồ mã hoá tiếng nói

- Nhận dạng (recognition): Nhận dạng tiếng nói, nhận dạng người nói, nhận

dạng ngôn ngữ.

Language Model

Hình 3.4: Sơ đồ nhận dạng giọng nói

11

Trang 22

Trong nhận dạng tiếng nói, được chia làm hai lĩnh vực nghiên cứu, ứng dụng

nhỏ, đó là: Định danh người nói, xác minh người nói.

Trong lĩnh vực định danh người nói và xác minh người nói đêu có điêm

tương đồng là nhận dạng độc lập văn bản và không phụ thuộc văn bản

e Một nhóm sử dụng nham xử lý từ tiêng nói sang văn ban.

Phân loại các hệ thông nhận dạng tiếng nói sẽ giúp chúng ta có một cái nhìntrực quan hơn về bài toán Có 3 phương pháp phô biến được sử dụng trong nhận

dạng tiếng nói :

e Phương pháp âm học - ngữ âm học.

e Phương pháp nhận dạng mẫu.

e Phương pháp sử dụng các kết quả của lĩnh vực trí tuệ nhân tạo

Các hệ thống nhận dạng được phân loại như sau:

12

Trang 23

Nba dang tiếng

Sóng âm thanh khi nói

Tiếng nói là phương thức giao tiếp cơ bản nhất của con người được phát ra

dưới dạng sóng âm thanh Tai người chỉ cảm thụ được những dao động hay còn gọi

là sóng âm trong miền tần số từ khoảng 16Hz đến khoảng 20000Hz Giọng nam

phát âm thường trong miên tần số từ 75Hz đến 150Hz, giọng nữ từ 200 Hz đến

13

Trang 24

300Hz Mỗi người có đặc tinh phát âm riêng biệt Một số định dạng lưu trữ: wav,

mp3, au, aif, smp tần số lấy mẫu thường là 8000, 11025, 96000Hz với độ

phân giải là 8 hoặc 16/bit/mau

3.2.2 Tiếng nói tiếng Việt

Tiếng Việt là một ngôn ngữ đơn âm tiết (monosyllable), nghĩa là mỗi một âmtiết được thê hiện bởi một từ và cũng là đơn vị cơ bản trong phát âm Theo nghiên

cứu, đặc điểm của âm tiết tiếng Việt có tính độc lập cao (khác với tiếng Anh); có

khả năng biêu hiện ý nghĩa và có một câu trúc chặt chẽ -Mô hình câu trúc tông quát của tat cả các âm tiệt tiêng Việt

Trang 25

3.2.3 Các đặc tính cơ bản của tín hiệu tiếng nói

Hình 3.7: Đặc trưng âm thanh nhận được ngoài thực tếCác đặc tính của âm thanh tự nhiên gom:

Phổ tín hiệu: Biểu diễn của tín hiệu trên miền tan số Cac đỉnh của phô tín

hiệu là tân sô trung tâm của tín hiệu (còn gọi là tân sô formant) Phô tín hiệu sau khi nhân với hàm cửa sô Hamming sẽ sử dụng phép biên đôi Fourier nhanh ta thu được

biên độ phô chứa các thông tin có ích của tín hiệu tiêng nói

Ảnh phổ: Là một trong những công cụ cơ bản trong nhận dạng tiếng nói

Nhìn vào anh phỏ, ta dé dàng phân biệt vùng biên của từng âm tiết Nó chuyền đổi

sóng tín hiệu tiếng nói từ 2 chiều (tần số, cường độ) thành 3 chiều (tần số, cường

độ, thời gian)

Tần số formant: Đóng vai trò quan trọng trong phân tích phô tín hiệu tiếng

nói Nó được tạo nên do sự cộng hưởng của tuyến âm và hiền thị trong quang pho là

các dải mau đậm năm ngang biéu thị cho các tân sô formant

Tần số cơ bản: Tần số cơ bản (F0) mang tính chất của thanh điệu, biểu diễn

cao độ, ngữ điệu của tiêng nói, được sử dụng trong lĩnh vực tông hợp tiêng nói.

15

Trang 26

Âm vô thanh: Tín hiệu có đặc điểm là không tuần hoàn (p, h, k, ch, th ),năng lượng tập trung ở tần số cao Các tần số phân bố khá đồng đều trong 2 miền

tan sô cao và tân sô thap.

Âm hữu thanh: Tín hiệu tuần hoàn, năng lượng phân bổ không đồng đều, tínhiệu có những vạch cực tri, đặc điểm của nó là phô tín hiệu có tần số cơ bản (F0)

3.3 Các giải thuật nhận dang mang deep learning

Hiện nay các loại mạng nơ-ron deep learning chăng hạn như mạng nơ-ron tích

tụ (CNN), mạng no-ron tuần hoàn (RNN), mạng nơ-ron nhân tạo (ANN), v.v đã

ngày càng được sử dụng phô biến Các loại mạng nơ-ron khác nhau này là cốt lõi

của cuộc cách mạng học sâu, cung cấp năng lượng cho các ứng dụng như máy bay

không người lái, ô tô tự lái, nhận dạng giọng nói, nhận dạng hình ảnh v.v.

3.3.1 Mạng thần kinh nhân tạo ANN

Một perceptron (hoặc neuron) có thê được hình dung như một hồi quy logistic.Mạng noron nhân tạo, hay ANN, là một nhóm gồm nhiều perceptron / noron ở mỗilớp ANN còn được gọi là mạng Neural Feed-Forward vì các đầu vào chỉ được xử

lý theo hướng chuyên tiếp:

@ input Layer @ Hiden Layers @ output Layer

Hinh 3.8 Mang than kinh ANN

16

Trang 27

ANN bao gôm 3 lớp - Đâu vào, An va Dau ra Lớp dau vào chap nhận các đâu vào,

lớp ân xử lý các dau vào và lớp đâu ra tạo ra kêt quả Vê cơ bản, môi lớp cô gang

tìm hiểu các trọng lượng nhất định

ANN có thé được sử dụng dé giải quyết các van đề liên quan đến:

e Dir liệu dang bang

e Di liệu hình anh

e Dữ liệu van ban

e Dv liệu âm thanh

Ưu điểm của Mạng nơ ron nhân tạo (ANN)

Mang no ron nhân tạo có khả năng học bat kỳ hàm phi tuyến nào Do đó,những mạng này thường được biết đến với cái tên Phương pháp xấp xỉ hàm phổ

quát ANN có khả năng học các trọng số ánh xạ bất kỳ đầu vào nào với đầu ra

Một trong những lý do chính dang sau tính gần đúng phổ quát là chức năngkích hoạt Các chức năng kích hoạt đưa các thuộc tính phi tuyến vào mạng Điều

này giúp mạng tìm hiểu bat kỳ mối quan hệ phức tạp nào giữa đầu vào và dau ra

Nhược điểm của Mạng nơ ron nhân tạo (ANN)

Trong sử lý ảnh ANN làm mất các tính năng không gian của hình ảnh Tính

năng không gian đê cập đên sự sắp xêp của các pixel trong một hình ảnh.

Trong trường hợp của một mạng nơ-ron rât sâu (mạng có sô lượng lớn các

lớp an), gradient biến mat khi nó lan truyền ngược lại dẫn đến gradient biến mat

ANN không thé nam bắt thông tin tuần tự trong dữ liệu đầu vào được yêu cầu

dé xử lý dữ liệu trình tự

17

Trang 28

3.3.2 Mạng thần kinh tái tạo (CNN)

Convolutional Neural Network (CNNs — Mạng nơ-ron tích chập) là một trong

những mô hình Deep Learning tiên tiến Nó giúp cho chúng ta xây dựng được

những hệ thống thông minh với độ chính xác cao như hiện nay

Feature maps

Convolutions Subsamping Convolutions Subeampling Fully connected

Hinh 3.9 Mang no-ron RNN

Mang CNN là một tập hợp các lớp Convolution chồng lên nhau va sử dungcác hàm nonlinear activation như ReLU va tanh dé kích hoạt các trọng số trong các

node Mỗi một lớp sau khi thông qua các hàm kích hoạt sẽ tạo ra các thông tin trừu

tượng hơn cho các lớp tiếp theo

Mỗi một lớp sau khi thông qua các hàm kích hoạt sẽ tạo ra các thông tin trừu

tượng hơn cho các lớp tiếp theo Trong mô hình mạng truyền ngược (feedforward

neural network) thì mỗi neural đầu vào (input node) cho mỗi neural đầu ra trong cáclớp tiếp theo

Mô hình này gọi là mạng kết nối đầy đủ (fully connected layer) hay mạng toànven (affine layer) Còn trong mô hình CNNs thì ngược lai Các layer liên kết được

với nhau thông qua cơ chê convolution.

Layer tiép theo là kêt qua convolution từ layer trước đó, nhờ vậy mà ta có

được các kết nối cục bộ Như vậy mỗi neuron ở lớp kế tiếp sinh ra từ kết quả của

filter áp đặt lên một vùng ảnh cục bộ cua neuron trước đó.

Mỗi một lớp được sử dụng các filter khác nhau thông thường có hàng trăm

hàng nghìn filter như vậy và kết hợp kết quả của chúng lại Ngoài ra có một số layer

18

Trang 29

khác như pooling/subsampling layer dùng dé chat lọc lại các thông tin hữu ich hon

(loại bỏ các thông tin nhiễu).

Trong quá trình huấn luyện mạng (traning) CNN tự động học các giá trị qua

các lớp filter dựa vào cách thức mà bạn thực hiện Ví dụ trong tác vụ phân lớp ảnh,

CNNs sẽ cô gắng tìm ra thông số tối ưu cho các filter tương ứng theo thứ tự raw

pixel > edges > shapes > facial > high-level features Layer cuối cùng được dùng dé

phân lớp ảnh.

Ưu điểm của Mạng Neural Convolution (CNN)

CNN tự động tim hiểu các bộ lọc mà không cần đề cập đến nó một cách rõràng Các bộ lọc này giúp trích xuất các tính năng phù hợp và có liên quan từ dữ

liệu đầu vào

CNN chụp các đặc điểm không gian từ một hình anh Các tính năng khônggian đề cập đến sự sắp xếp của các pixel và mối quan hệ giữa chúng trong một hìnhảnh Chúng giúp chúng ta xác định chính xác đối tượng, vi trí của đối tượng, cũng

như môi quan hệ của nó với các đôi tượng khác trong ảnh

CNN cũng tuân theo khái niệm chia sẻ tham số Một bộ lọc duy nhất được ápdụng trên các phần khác nhau của đầu vào đề tạo bản đồ đối tượng

3.4 Mang lưới thần kinh tái tạo (RNN)

Mạng lưới thần kinh tái tạo (RNN) là một lớp học của mạng nơ-ron nhân tạo

nơi kết nối giữa các nút tạo thành một đồ thị có hướng dọc theo một trình tự thời

gian Điều này cho phép nó thê hiện hành vi động tạm thời Bắt nguồn từ mạng ron truyền thăng, RNN có thé sử dung trang thái bên trong (bộ nhớ) của chúng dé

nơ-xử lý chuỗi đầu vào có độ dai thay đổi Điều này làm cho chúng có thé áp dụng cho

các tác vụ như nhận dạng chữ viết tay được kết nối, không phân đoạn hoặc nhận

dạng giọng nói.

19

Trang 30

Recurrent Neural Network Feed-Forward Neural Network

Hinh 3.10 Mang than kinh tai tao RNN

Có thé sử dung mạng nơ-ron tuần hoàn dé giải quyết các van đề liên quan đến:

e Dữ liệu chuỗi thời gian

e Dữ liệu văn bản

e Dữ liệu âm thanh

Ưu điểm của Mạng nơron tái tạo (RNN)

RNN nắm bắt thông tin tuần tự có trong dữ liệu đầu vào, tức là sự phụ thuộc

giữa các từ trong văn bản trong khi đưa ra dự đoán.

RNN chia sẻ các tham sô qua các bước thời gian khác nhau Điêu nay pho

biên được gọi là Chia sẻ Tham sô Điêu này dẫn đến việc dao tạo ít tham số hon và

giảm chi phí tính toán

Các RNN sâu (RNN với số lượng lớn các bước thời gian) cũng gặp phải vấn

dé gradient biến mat và bùng nổ, đây là một van đề phổ biến trong tất cả các loại

mạng nơ-ron khác nhau.

20

Trang 31

3.5 Những hạn chế bài toán

Do tính chât của tiêng nói phụ thuộc vào nhiêu yêu tô nên việc thu nhận, phân

tích các đặc trưng của tiếng nói là việc không dễ Ở đây, chúng ta có thể nêu ra một

số yêu tố khó khăn cho bài toán nhận dạng tiếng nói:

e Khi phát âm, người nói thường nói nhanh, chậm khác nhau.

e Các từ được nói thường dài ngắn khác nhau

e Một người cùng nói một từ, nhưng ở hai lần phát âm khác nhau Kết quả

phân tích khác nhau.

e Mỗi người có một chất giọng riêng được thể hiện thông qua độ cao, độ to,

cường độ của âm và âm sac.

e Những yếu tô như nhiễu của môi trường, nhiễu của thiết bị thu anh hưởng

không nhỏ tới hiệu quả nhận dạng.

Có thể thấy nhận dạng tiếng nói là một lĩnh vực nghiên cứu có nhiều ứng dụng

trong thực tế Các hệ thống nhận dạng góp phan rat lớn trong việc thúc day phát

triển nhiều ngành Tuy là lĩnh vực mang ý nghĩa to lớn đó, nhưng việc phát triển các

hệ thống nhận dạng cũng gặp không ít những khó khăn

21

Trang 32

Chương 4._ NGHIÊN CỨU ĐÁNH GIÁ THỰC NGHIỆM

4.1 Nghiên cứu thiết kế hệ thống

Sơ đồ hệ thống nhận dạng giọng nói điều khiển các thiết bị trong nhà :

Tiếng ồn từ

môi trường

(1): Xử lý loại bỏ nhiễu âm thanh đầu vào(2): Nhận dạng giọng nói bằng thuật toán ANN(3): Xử lý tín hiệu đầu ra và tương tác với các thiết bị thông minh

4.2 Xử lý loại bỏ nhiễu bằng giải thuật PNCC

Trong môi trường nhà thông minh việc điều khiển bang giọng nói có thé datđược mức hiệu suất cao trong môi trường lí tưởng Tuy nhiên, hiệu suất như vậy

giảm đáng ké trong điều kiện nhiều người dùng cùng lúc hoặc trong môi trường ồn

ào như tiếng ồn trang trong âm thanh nền, nhiễu âm nhạc Trong trường hợp này,

chúng ta cần giải quyết các vấn đề về xác định số người dùng thiết bị và giảm tiếng

ồn khi nhận dạng âm thanh.

22

Ngày đăng: 02/10/2024, 08:34

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w