Mô hình chưng cất đa tác vụ cho nhận dạng giọng nói tiếng Việt

MỎ ĐẦUVới tất cả những động lực trên, trong phạm vi kiến thức, đồ án sẽ trình bày một mô hình chưng cất gọn nhẹ cho nhiệm vụ nhận dạng giọng nói, là phiên bản mở rộng của mô hình AASIST

Trang 1

IVW ONVOH OVG :NJIA HNIS Nal VA OH

CLLLHLIC :dOT

HOC VIEN CONG NGHỆ BƯU CHÍNH VIÊN THONG

KHOA CONG NGHE THONG TIN

Dé tai: MO HINH CHUNG CAT DA TAC VU CHO

NHAN DANG GIONG NOI TIENG VIET

Giáo viên hướng dẫn:

Trang 2

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG

KHOA CÔNG NGHỆ THÔNG TIN

Đề tai: MÔ HÌNH CHUNG CAT ĐA TÁC VU CHO NHẬN

DẠNG GIỌNG NÓI TIENG VIỆT

Giáo viên hướng dẫn: PGS TS Phạm Van Cường

Sinh viên: Đào Hoàng Mai

Mã sinh viên: BI7DCCN411

Lớp: D1I7HTTT2 Niên khóa: 2017 - 2022

Hệ đào tạo: Đại học chính quy

Hà Nội — 01/2022

Trang 3

NHẬN XÉT, ĐÁNH GIÁ, CHO ĐIỂM

(Của giảng viên phản biện)

Đồng ý/ Không đồng ý cho sinh viên bảo vệ trước hội đồng chấm đồ án tốt nghiệp?

Hà Nội, ngày tháng 0l năm 2022

CÁN BỘ - GIẢNG VIÊN PHẢN BIỆN

(Ký, ghi rõ họ tên)

Sinh viên: Đào Hoàng Mai - B17DCCN4II - Lớp DI7HTTT2 1

Trang 4

NHẬN XÉT, ĐÁNH GIÁ, CHO ĐIỂM

(Của người hướng dẫn)

Đồng ý/ Không đồng ý cho sinh viên bảo vệ trước hội đồng chấm đồ án tốt nghiệp?

Hà Nội, ngày tháng 0l năm 2022CÁN BỘ - GIẢNG VIÊN HƯỚNG DẪN

(Ký, ghi rõ họ tên)

Trang 5

LỜI CẮM ƠN

LỜI CẢM ƠN

Lời đầu tiên, em xin gửi đến các thầy, cô đang giảng dạy tại Khoa Công nghệ Thông tin

I, Học viện Công nghệ Bưu chính Viễn thông lời chúc sức khỏe và lời cảm ơn sâu sắc

Sự quan tâm, chỉ bảo chu đáo của các thầy cô đã giúp em có những kiến thức và kinh

nghiệm quý báu trên con đường chinh phục tri thức.

Đặc biệt, em xin gửi lời cảm ơn chân thành nhất tới thầy giáo - PGS TS Phạm Văn

Cường, người đã dìu dắt và tận tình hướng dẫn em không chỉ trong thời gian nghiên cứu

và thực hiện đồ án tốt nghiệp mà còn trong suốt hành trình 4 năm học tập tại học viện.Thay vừa là người thay, người bạn và là nguồn động viên to lớn của em trong suốt những

năm tháng sinh viên.

Em xin chân thành cảm ơn thầy giáo Nguyễn Trung Hiếu, bí thư Đoàn TNCS Học

viện vì đã dành cho em những sự giúp đỡ, ủng hộ và những lời khuyên quý báu không

chỉ trong học tập mà còn trong cuộc sống Em cũng xin cảm ơn thầy giáo Đỗ Xuân Chợ

và thầy giáo Nguyễn Xuân Anh - những người thầy đã hỗ trợ em và cho em những lờikhuyên quý báu trong quá trình học tập Những lời khuyên bảo của các thầy sẽ là kim chỉ

nam cho em trong những hành trình mới sau này Em xin cảm ơn thầy Trần Tiến Công

vì đã hỗ trợ em trong quá trình hoàn thành đồ án này

Em xin chân thành cảm ơn anh Nguyễn Quốc Đạt - chuyên gia nghiên cứu, trưởng

nhóm nghiên cứu về Xử lý Ngôn ngữ Tự nhiên tại Viện nghiên cứu Trí tuệ Nhân tạo

VinAI Anh là người đã diu dắt em những bước chân đầu tiên trong sự nghiệp học thuật

của mình Em xin cảm ơn anh vì đã luôn kiên nhẫn, tận tâm và vì những kiến thức quý

báu mà anh đã truyền đạt cho em

Em cũng xin gửi lời cảm ơn đến anh Nguyễn Thái Sơn, sinh viên lớp DI4ATTTI,

người đã giúp đỡ em rất nhiều trong quá trình học tập, làm việc và thực hiện đồ án Em

rất trân trọng thời gian, công sức của anh đã dành để hỗ trợ em trong mọi tình huống khókhăn trong suốt 4 năm qua và giúp em đăng ký môn học mỗi khi học kỳ mới đến

Cuối cùng, em xin chân thành cảm ơn gia đình, bạn bè, đồng nghiệp tại VinAI, các

Sinh viên: Đào Hoàng Mai - B17DCCN4II - Lớp DI7HTTT2 ili

Trang 6

LỜI CẮM ƠN

anh chị em trong Team 1 - CLB IT PTIT và nhóm Original Banana đã luôn ở bên quantâm, chia sẻ, động viên, giúp đỡ em trong suốt quá trình học tập tại học viện Sự ủng hộcủa mọi người là nguồn động lực giúp em vượt qua những thử thách khó khăn và ngàycàng hoàn thiện bản thân.

Hà Nội, ngày 04 tháng 0Ì năm 2022

Tác giả

Đào Hoàng Mai

Sinh viên: Đào Hoàng Mai - B17DCCN4II - Lớp DI7HTTT2 iv

Trang 7

lt TONG QUAN VE CAC TAC VU CHO BAI TOAN NHAN DANG GIONG |

1.1 Bài toán nhận dạng giọng nói

1.1.1

Địnhdanhngườinói -1.1.2 Phat hiện giọng nói gia mạo [6] 1.1.3 Nhận diện khẩu lệnh trong giọng nói li

[1.2 Các phương pháp tiếp cận đương

đại| 1.2.1 Các bộ dữ liệu cho nhận dạng giong nói

1.2.2 Các phương pháp nhận dạng giọng nói truyền thống|

1.2.3 Các phương pháp nhận diện giọng nói dựa trên kỹ thuật học sâu| [12]

[1.3 Mục tiêu của đồán| 13] [1.4 Tổng kết chương 1] 2.2.20 0.000.

Sinh viên: Dao Hoàng Mai - B17DCCN4II - Lép DI7HTTT2 Vv

Trang 8

2.2.3 Lan truyền thẳng] Lee

2.2.4 Lan truyền ngược và ha đạo hàm| Le ee

2.2.5 Hamkichhoatl

2.3 Mạng nơ-ron tích chap (Convolutional Neural Network - CNN)

2.3.1 Kiến trúc của mang nơ-ron tich

chập| -(2.3.2 Lóptchchập|

2.3.3 Lốp pooling] ẶẶẶẶẶSẶSằ.

2.3.4 Lớp kết nôi đầy đủl

2.3.5 Những kiến trúc mang CNN thông dụng]

2.4 Mô hình mạng nơ-ron đồ thị sử dụng cơ chế chú ý|

241 Lópchúýđềth| co2.5 Nghiên cứu đề xuất mô hình học sâu da tác vụ cho nhận dạng giọng nói|

2.5.1 Các đặc trưng miễn thời gian và tần số của dữ liệu âm thanh|

2.5.2 Cấta| eee

2.5.3 Chung cất tri thức| ¬.W-.HHa HH ee

Sinh viên: Đào Hoàng Mai - B17DCCN4II - Lớp DI7HTTT2 VI

Trang 9

MỤC LỤC

2.6.1 Biểu diễn dữ liệu (Audio Representation)| ¬

2.6.2 Mô-đun đồ thị (Graph Module)|

| Graph

Operation)| -2.6.4 Lớp chú ý chéo (Cross-Task Attention)|

2.6.5 Học chung (JointLearnng)|

2.6.6 Cat tia và chưng cất| " '.ẽ AAI ia 2.7 Tổng kết chương 2Ì c SỈ 3_ THỰC NGHIÊM VA KET QUA 3.1 Dữliệu| Ặ Q ee y2 3.1.1 Bộ dữ liệu đa tác vụ dành cho tiếng Việt

B12 Thu thập dữliệu|

6.13 Xửlýdữlệu|

Bid Thống kệdữlệ|

3.2 Cài đặt thực

nghiệm| -3.3 Phương pháp đánh

giá -B4 Kết quả thực nghiệm|

3.41 Kếtquảchính ẶẶẶẶẶẶẶ.o

3.4.2 Nghiêncứucắtbỏ| Ặ So 3.5 Tổng két chuong3} 0 00000000 cee eee

4 TONG KET

Sinh viên: Dao Hoàng Mai - B17DCCN4II - Lép DI7HTTT2 Vil

Trang 10

DANH SÁCH BẰNG

Danh sách bang

3.1 Ví dụ về bon loại dữ liệu của bộ dữ liệu nhận dạng giọng nói trong tiếng

3.2 Thong kê bộ dữ liệu tiếng Việt theo giây (s) và token (t)|_

3.3 Kết quả thực nghiệm mô hình đề xuất và các mô hình cơ sở

Sinh viên: Đào Hoàng Mai - B17DCCN4II - Lớp DI7HTTT2 Vill

Trang 11

DANH SÁCH HÌNH VẼ

Danh sách hình ve

Một số ứng dụng của nhận dạng giọng nói (Wguôn: Internet)

Mô hình SVM cho bài toán nhận dạng giọng nói [10]|

Sơ đồ tổng quan về Trí tuệ nhân tạo (Wguôn: fusionalliance.com)

Mô hình một nơ-ron sinh học (Nguon: Wikipedia)

Mô hình một nơ-ron nhân tạo (Nguôn: Towards Data Scienee).|

Minh họa kiên trúc của mạng nơ-ron đơn giản logistic regression.

Công thức và đồ thị hàm Sigmoid (Nguon: Towards Data Science)

[2.6 Đồ thi ham Tanh (Nguon: Towards Data Science).|

Mô hình cau tạo nhiều lớp của một mạng CNN (Nguồn: Towards Data

[2.12 Kiến trúc mạng AlexNet (30) TH Nkii gaựặaaHHda

[2.13 Kién tric mang VGG-16 (57 Le eee

(2.14 Kiến trúc mang Inception dang I cell [59||

Sinh viên: Dao Hoàng Mai - B17DCCN4II - Lép DI7HTTT2 1X

Trang 12

DANH SÁCH HÌNH VẼ

2.15 Kiến trúc mạng 1 Block ResNet-34 va ResNet-50 [19]

Tổng quan kỹ thuật chưng cất tri thức [15]

Ba dang tri thức được sử dụng trong quá trình chưng cất [15].|

Mô hình chưng cất tri thức dựa trên phản hoi điển hình [l5||

Mô hình chưng cất tri thức dựa trên mỗi quan hệ điển hình [15].|

Tổng quan hệ thống huấn luyện và chưng cat mô hình đề xuất| Cửa sổ trượt 2 giây với thời gian chong lấn là 1 gidy.|

Sinh viên: Đào Hoàng Mai - B17DCCN4II - Lớp DI7HTTT2

Trang 13

2 ^

MO DAU

Nhận dạng giọng nói tự động là một trong các nhiệm vu quan trọng nhất của xử ly âmthanh Ngày nay, với sự phát triển nhanh chóng của công nghệ thông tin và đặc biệt là trí

tuệ nhân tạo, nhận dạng giọng nói đang ngày càng ứng dụng rộng rãi trong rất nhiều các

hệ thống thông minh khác nhau, ví dụ như nhà thông minh, trợ lý ảo, hệ thống xác thực

sử dụng giọng nói, v.v Thông thường, các mô hình học máy được xây dựng để giải quyết

nhiệm vụ này trên các hệ thống lớn đạt hiệu quả khá cao Tuy nhiên, nhận dạng giọngnói cho các thiết bị cầu hình thấp cho tiếng Việt hiện nay vẫn đang phải đối mặt với bathách thức lớn Một là, sự thiếu hụt các bộ dữ liệu có gán nhãn chất lượng cao khi chỉ

có một số ít các nghiên cứu đóng góp dữ liệu nhưng lại không được công bố công khai

Hơn nữa, với sự phát triển của các thuật toán học sâu, các hệ thống nhận dạng giọng nóihiện nay đang phải đối mặt với các nguy cơ tấn công truy cập trái phép bằng các công

nghệ giả mạo giọng nói hiện đại Trên thực tế, chưa có bộ dữ liệu nào trong tiếng Việt

được công bố có khả năng giúp các hệ thống nhận diện giọng nói phòng chống lại đượccác loại tấn công này Hai là, các mô hình trí tuệ nhân tạo sử dụng cho các bài toán trongnhận dạng giọng nói đa số thường có nhiều tham số , mô hình nặng và yêu cầu tài nguyêntính toán lớn để có thể hoạt động tốt Vì vậy, việc xây dựng một mô hình gọn nhẹ về mặtkích thước và có thời gian chạy nhanh, có khả năng hoạt động trên các thiết bị phần cứnghiệu suất thấp như điện thoại, máy tính bảng hay đồng hồ thông minh là một nhiệm vụcấp thiết để nhanh chóng ứng dụng nhận dạng giọng nói tự động vào trong cuộc sốngcủa con người Ba là, các bài toán của nhận dạng giọng nói đa số được xây dựng đơn lẻ

mà không có tính liên kết với nhau Trong khi, trong các tình huống thực tế, các hệ thông

nhận dạng giọng nói cần phải xử lý nhiều tác vụ cùng một lúc thay vì chỉ xử lý các tác

vụ riêng lẻ Ví dụ, một hệ thống trợ lý ảo khi nhận được một âm thanh đầu vào cần phải

định danh người nói, từ chối truy cập nếu phát hiện giọng nói giả mạo và xử lý các tác

vụ theo yêu cầu của người nói Việc sử dụng các mô hình khác nhau cho mỗi nhiệm vụ

sẽ tăng đáng kể các phép tính mà hệ thống phần cứng cần thực hiện, từ đó dẫn đến độtrễ nhất định và làm giảm trải nghiệm của người dùng Như vậy, việc xây dựng một môhình duy nhất có thể xử lý đa tác vụ một cách song song là điều quan trọng để giảm chiphí cũng như thời gian tính toán, từ đó đem đến trải nghiệm tốt hơn cho người dùng

Trang 14

MỎ ĐẦU

Với tất cả những động lực trên, trong phạm vi kiến thức, đồ án sẽ trình bày một mô

hình chưng cất gọn nhẹ cho nhiệm vụ nhận dạng giọng nói, là phiên bản mở rộng của

mô hình AASIST bằng việc học chung ba nhiệm vụ con bao gồm nhận dạng người

nói, nhận dạng giọng nói giả mạo và phát hiện hiệu lệnh (từ nay được gọi tắt là ba nhiệm

vụ con) với một lớp chú ý bổ sung để kết hợp rõ ràng thông tin giữa các nhiệm vụ connày và tăng cường hiệu suất tổng thé của mô hình Đồ án cũng sẽ giới thiệu bộ dữ liệu

âm thanh tiếng Việt đầu tiên có thể ngăn chặn tan công giả giọng va xử lý khẩu lệnh của

người nói, cung cấp tài nguyên cho các nghiên cứu quy trình đầu cuối cho nhiệm vụ xác

thực truy cập sử dụng giọng nói Mô hình chưng cất được trình bày không chỉ cho kết

quả vượt trội hơn so với các mô hình hiện đại nhất hiện tại trên bộ dữ liệu này, mà còn

có thể đụng nhúm vào các thiết bị dung lượng thấp như điện thoại thông minh, thiết bị

đeo tay.

Trong đồ án em sẽ tập trung trình bày một số nội dung chính như sau:

* Chương 1: Tổng quan về các tác vụ cho bài toán nhận dạng giọng nói

Nội dung chương 1 sẽ khái quát các van dé và phương pháp nhận dạng giọng nói,

khảo sát về các phương pháp học máy đang được sử dụng cho ba nhiệm vụ con, và

trình bày về phạm vi của đồ án.

* _ Chương 2: Nhận dạng giọng nói bằng mô hình chưng cất và học đa tác vụ

Nội dung của chương 2 sẽ giới thiệu kiến thức cơ bản về trí tuệ nhân tạo và cácmạng thần kinh học sâu cũng như các bước xây dựng mô hình chưng cất gọn nhẹ

da tác vụ dựa trên cơ chế chú ý và các kỹ thuật như cắt tia mô hình và chưng cất

tri thức.

* Chương 3: Thực nghiệm và kết quả

Nội dung của chương 3 trình bày quá trình thu thập dữ liệu, mô tả phương pháp

thực nghiệm và đánh giá mô hình chưng cất ứng dụng vào nhận dạng giọng nói vàtrình bày các kết quả của quá trình thực nghiệm

* Chương 4: Tổng kết

Tổng kết bài toán, tóm tắt những kết quả đã đạt được và còn chưa đạt được Từ đó

dé xuất mục tiêu hướng tới cũng như hướng nghiên cứu, phát triển tiếp theo

Trang 15

CHUONG 1 TONG QUAN VỀ CÁC TÁC VỤ CHO BÀI TOÁN NHẬN DẠNG GIỌNG NÓI

rãi cho ba nhiệm vụ con này và mục tiêu của đồ án qua các phần:

¢ Bài toán nhận dạng giọng nói

s Các phương pháp nhận dạng giọng nói hiện nay

¢ Mục tiêu do án

Trang 16

CHUONG 1 TONG QUAN VE CAC TAC VU CHO BAI TOAN NHAN DANG GIONG NOI

1.1 Bài toán nhận dang giọng nói

Nhận dạng giọng nói là một lĩnh vực phụ liên ngành của khoa học máy tính

và ngôn ngữ học tính toán phát triển các phương pháp và công nghệ cho phép một máy tính hoặc chương trình có thể xử lý, hiểu và thực hiện các tác vụđược yêu cầu bằng giọng nói Hệ thống nhận dạng giọng nói cho phép người

sử dụng tương tác với công nghệ bằng ngôn ngữ tự nhiên Chỉ bằng việc nói

chuyện đơn giản, người sử dụng có thể yêu cầu các hệ thống này thực hiện

các tác vụ cụ thể, kích hoạt các yêu cầu, lời nhắc và các tác vụ đơn giản

khác mà không cần sử dụng đến tay

OPEN A BROWSER

TURN OFF ALARM

TURN ON MUSIC

Hình 1.1: Một số ứng dung của nhận dạng giọng nói (Nguồn: Internet)

Việc sử dụng nhận dạng giọng nói đã phát triển nhanh chóng cùng với

sự phát triển của trí tuệ nhân tạo, học máy và sự chấp nhận của người tiêudùng Hiện nay, các hệ thống nhận dạng giọng nói ngày càng trở nên nổi

tiếng và được sử dụng phổ biến, ví dụ như các trợ lý ảo thông minh Alexa

của Amazon, Siri của Apple, và Cortana của Microsoft Cách người tiêu dùng

sử dụng công nghệ nhận dạng giọng nói khác nhau tùy thuộc vào sản phẩm,nhưng nó có thể bao gồm chuyển giọng nói thành văn bản, thiết lập lời nhắc,tìm kiếm trên internet và trả lời các câu hỏi và yêu cầu đơn giản, chang hạn

như phát nhạc hoặc chia sẻ thông tin thời tiết hoặc giao thông Các cơ quan

chính phủ, cơ quan an ninh quốc gia cũng đang phát triển các công nghệ nhận

dạng giọng nói cho các mục đích bảo mật hệ thống bằng việc sử dụng giọng

nói như một đặc điểm sinh trắc học để nhận dạng Các ứng dụng nhận dạng

Trang 17

giọng nói bao gồm giao diện người dùng bằng giọng nói, chẳng hạn như gọi

điện bằng giọng nói (vi dụ: “gọi điện về nhà”), định tuyến cuộc gọi, điều khiểnthiết bị, tim kiếm các từ khóa (ví dụ: tìm một podcast trong đó các từ cụ thể

đã nói), nhập dữ liệu đơn giản (ví dụ: nhập số thẻ tín dụng), chuẩn bị tài liệu

có cấu trúc (ví dụ: báo cáo X-quang), xác định đặc điểm của người nói, xử lýlời nói thành văn bản (ví dụ: bộ xử lý văn bản hoặc email), v.v.

Nhận dạng giọng nói là một lĩnh vực tương đối rộng lớn, bao gồm nhiềubài toán nhỏ, ví dụ như nhận dạng người nói, nhận dạng khẩu lệnh, yêu cầu,

phát hiện bất thường trong giọng nói (ví dụ như giọng nói giả mạo), chuyển

đổi giọng nói sang chữ viết Tất cả nhiệm vụ con này đều có một điểm chung

là máy tính nhận đầu vào là tín hiệu âm thanh, sau đó xử lý trích xuất cácđặc trưng và thuộc tính quan trọng, cuối lựa chọn một bộ giải mã thích hợp

để lấy được đầu ra phù hợp với tác vụ đang xử lý Đồ án sẽ tập trung vào

mô hình nhận dạng giọng nói đa tác vụ, giải quyết ba nhiệm vụ nhỏ đó là

phát hiện giọng nói bị làm giả (giọng nói giả mạo), định danh giọng nói (hay

người nói) và nhận diện khẩu lệnh trong giọng nói.

1.1.1 Định danh người nói

Định danh người nói là một phương pháp sử dụng giọng nói như một thẻ định

danh để xác thực định danh của người dùng từ đó xác thực quyển truy cập

vào hệ thống của người dùng đó Vì giọng nói của con người có những đặcđiểm độc đáo và duy nhất nên có tiểm năng sử dụng cho các tác vụ định

danh sử dụng đặc điểm sinh trắc học

Định danh giọng nói có thể được phân loại thành hai loại: phụ thuộc vàovăn bản và độc lập với văn bản Loại đầu tiên sử dụng một đoạn văn bảnđược xác định trước làm mật khẩu, loại còn lại không yêu cầu một đoạn vănbản cố định để xác minh người dùng Loại đầu tiên có thể gây bất tiện cho

người dùng vì có thể quên mật khẩu, và cũng khiến hệ thống dễ bị tấn công

từ các truy nhập giả mạo khi mật khẩu được đọc lên thành tiếng và chỉ có

một mật khẩu duy nhất Loại định danh độc lập với văn bản tuy có thể tăng

cường tính bảo mật của hệ thống và dễ sử dụng với người dùng nhưng điều

này cũng gây ra nhiều thách thức cho các hệ thống xác minh Quá trình nhận

dạng và xác minh có thể được chia thành hai bước: đăng ký và xác minh.Các hệ thống xác minh thường khởi tạo với các mô hình nền, mỗi mô hình

Trang 18

được đào tạo với một người dùng đã đăng ký riêng Trong bước đăng ký, với

dữ liệu giọng nói đã đăng ký với hệ thống, hệ thống sẽ xây dựng các mô

hình phân loại để xác định đối tượng, chủ thể của giọng nói Tiếp theo, trong

bước xác minh, hệ thống sẽ xác minh xem giọng nói đầu vào có tương ứng

với danh tính được yêu cầu hay không bằng cách so sánh nó với các mô hình

giọng nói đã được đăng ký trước đó.

Xác minh người nói có một loạt các ứng dụng thực tế như bảo mật ngân

hàng, tương tác giữa con người và máy tính và xác minh môi trường xung

quanh Các cơ chế xác minh cổ điển có thể là thách thức đối với người dùng

khuyết tật hoặc có thể dễ dàng bị kẻ gian phá vỡ Chang hạn, sẽ không thíchhợp nếu một hệ thống yêu cầu người khiếm thị nhập mật khẩu bằng bàn phím

hoặc màn hình cảm ứng Hoặc ví dụ, để điều khiển nhà thông minh, con ngườiđược yêu cầu nhập mật mã với mỗi khẩu lệnh đặt ra khiến cho việc tương tácgiữa người dùng và hệ thống trở nên phức tạp và phiền phức Điều này dẫnđến sự tương tác giữa các công nghệ và con người cần phải tự nhiên nhất cóthể Trong những trường hợp này, các đặc điểm như giọng nói hoặc cử chỉ của con người sẽ là cách thích hợp để tương tác với môi trường xung quanh như

nhà thông minh hoặc bếp thông minh Như vậy, hệ thống xác thực sử dụng

đặc điểm sinh trắc học như giọng nói của con người sẽ là một phương pháp

thay thế đầy hứa hẹn

1.1.2 Phat hiện giọng nói gia mạo

Định danh bằng giọng nói đem đến cho con người sự tiện lợi và những trảinghiệm vượt trội so với các tác vụ định danh truyền thống Tuy nhiên, nhiệm

vụ này cũng đem đến một thách thức về mặt bảo mật đó là giọng nói giảmạo Trước khi công nghệ trí tuệ nhân tạo bùng nổ, các giọng nói giả mạothường được tạo ra bằng một cách thủ công như thu âm lại từ nguồn thứ phát,

sử dụng nhiễu tín hiệu, v.v để truy cập trái phép vào hệ thống Ngày nay, cácmối đe dọa về giả mạo giọng nói còn có tiềm năng lớn hơn rất nhiều vớicông nghệ học sâu và các mô hình DeepFake có thể mô phỏng lại giốngđến 90% giọng nói của một người bất kỳ chỉ với 5s dữ liệu đầu vào Điềunày đồng nghĩa với việc, các hệ thống xác minh giọng nói cần phải được tăngcường khả năng bảo mật, đặc biệt là với giọng nói giả mạo để có thể đối phóvới những truy cập trái phép Tác vụ phát hiện giọng nói giả mạo sẽ giúp các

hệ thống xác minh học được các đặc trưng của giọng nói thực và giọng nói

Trang 19

tổng hợp trực tiếp từ trí tuệ nhân tạo, từ đó đưa ra các quyết định một cách

chính xác hơn Cụ thể, mô hình nhận dữ liệu đầu vào là tín hiệu âm thanh

của một câu nói, và xác định xem câu nói đó được nói bởi người thật hay

được tổng hợp bởi một cỗ máy bằng cách gán cho tín hiệu âm thanh nhãn

True hoặc False.

1.1.3 Nhận diện khẩu lệnh trong giọng nói

Lưu ý rằng tác vụ nhận diện khẩu lệnh (command detection) là khác so với tác

vụ phân loại khẩu lệnh (command classification) hay dò tim từ khóa (keywordspotting) Với bài toán này, mô hình sẽ nhận đầu vào là câu nói của người

dùng, và phát hiện ra trong câu nói đó có chứa câu khẩu lệnh hay không

tương tự như một bài toán phân loại nhị phân Nhiệm vụ này là một trong

những nhiệm vụ cơ bản và đầu tiên của các hệ thống hội thoại định hướngnhiệm vụ Các hệ thống hội thoại này đầu tiên cần xác định câu nói thu được

từ người dùng có chứa câu khẩu lệnh hay không và từ đó đưa ra quyết định

có tiếp tục xử lý câu nói đó cho các tác vụ hạ nguồn Điều này sẽ giúp hệ

thống giảm được lượng lớn tính toán không cần thiết thay vì phải xử lý tất cả

các câu nói của người dùng Thêm vào đó, các hệ thống trợ lý ảo hiện nay

như Siri của Apple cần có một lời gọi để kích hoạt (ví dụ “Hi Siri’), điều

này sẽ gây ra bất tiện cho người dùng và tăng thời gian chờ đợi phản hồi củangười dùng khi phải đợi hệ thống được kích hoạt và tiếp tục giao nhiệm vụ

Với tác vụ này, các hệ thống có thể lắng nghe các câu khẩu lệnh một cách

bị động và tự động xử lý các tác vụ được giao mà không cần có lời gọi để

kích hoạt trước Trải nghiệm của người dùng có thể được tăng lên đáng kể nhờ nhiệm vụ phát hiện câu khẩu lệnh.

1.2 Các phương pháp tiếp cận đương dai

1.2.1 Các bộ dư liệu cho nhận dạng giọng nói

ASVspoof 2019 va ASVspoof 2021 là hai bộ dữ liệu tiếng Anh phổbiến nhất trong việc chống giả mạo để tự động xác minh người nói Cả hai

phiên bản của bộ dữ liệu chống giả mạo giọng nói ASVspoof đều chứa hai tác

vụ là truy cập logic (LA) và truy cập vat lý (PA) Trong đó, truy cập logic

Trang 20

là kịch bản tấn công sử dụng các giọng nói giả mạo tổng hợp tự động nhờ

công nghệ trí tuệ nhân tạo, còn truy cập vật lý là các kịch bản tấn công sử

dụng các phương pháp tạo ra giọng nói giả mạo khác như sử dụng nguồn thứphát So với ASVspoof 2019, phiên bản năm 2021 được mở rộng với tác vu DeepFake, trong đó các mô hình tập trung vào việc phát hiện giọng nói giảmạo không nằm trong kịch bản tự động xác minh người nói Ngoài ra, cộngđồng nghiên cứu trong tiếng Anh cũng đã tạo một số tập dữ liệu như

nhằm mục đích tăng cường độ hiệu quả và củng cố khả năng phát hiện tấn

công các mô hình được phát triển để phát hiện giọng nói tổng hợp bằng trí

tuệ nhân tạo Với Madarin, [84] đã trình bay tập dữ liệu FMFCC-A là tập dữ

liệu công khai lớn nhất để phát hiện giọng nói tổng hợp bằng trí tuệ nhân tạo

Đối với nhiệm vụ xác định người nói, VoxCeleb được trình bày dưới dạng

tap dữ liệu âm thanh chứa hơn 100.000 câu nói của 1.251 người nổi tiếng,

được trích xuất từ các video đăng tải trên YouTube Là phiên bản thứ hai của

VoxCeleb, VoxCeleb2 [7] là tập dữ liệu nhận dạng người nói quy mô lớn được

thu thập từ phương tiện mã nguồn mở bằng cách sử dụng một quy trình hoàn

toàn tự động Đối với các ngôn ngữ ít tài nguyên như tiếng Việt, cộng đồng

nghiên cứu chưa thực sự chú ý đến các nhiệm vụ nhận dạng giọng nói, đặc

biệt là nhiệm vụ phát hiện giọng nói giả mạo Cho đến thời điểm hiện tại,

chưa có bộ dữ liệu tiếng Việt nào thực hiện nhiệm vụ phát hiện giọng nói

giả mạo, bao gồm giả mạo giả mạo bằng các phương pháp truyền thống và

bằng trí tuệ nhân tạo Chỉ có hai bộ dữ liệu nhận dạng người nói

cho tiếng Việt đã được trình bày nhưng chưa được công bố công khai Van và

các cộng sự đã trình bày bộ dữ liệu gồm 300 bài hát Việt Nam của 18

ca sĩ nổi tiếng, trong khi nhóm tác giả Nguyen và các cộng sự giới thiệu

bộ dữ liệu âm thanh phụ thuộc vào văn bản được thu thập từ 20 người nóitiếng Việt Phân loại khẩu lệnh - nhiệm vụ tương tự nhất với phát hiện khẩulệnh - có hai tập dữ liệu tiếng Việt không được công khai bao gồm [Z25]và[42] Hiện nay, chưa có bộ dữ liệu tiếng Việt nào giải quyết nhiệm vụ pháthiện khẩu lệnh trong giọng nói được công bồ

1.2.2 Cac phương pháp nhận dạng giọng nói truyền thống

Các công trình nghiên cứu trước đây về các nhiệm vụ phát hiện giọng nói giả

mạo và nhận dạng người nói thường được xây dựng dưới dạng các bài toán

phân loại câu, được giải quyết bằng cách sử dụng kết hợp bộ trích xuất đặc

Trang 21

trưng (hay còn gọi là front-end/ encoder) và bộ phân loại (hay còn gọi là

back-end/ classifier) nhị phân Trong các cách tiếp cận này, phần lớn các công trình

hiện có tập trung vào việc phát triển các đặc trưng

được trích xuất thủ công, chang hạn như hệ số mel-frequency cepstral (MFCC)

[36], hệ số constant Q cepstral (CQCC) [63]:

« Đặc trưng MFCC: Kỹ thuật trích xuất đặc trưng MFCC về cơ ban bao

gồm việc trượt cửa sổ trên tín hiệu đầu vào, áp dung DFT, lấy log độlớn, sau đó đóng gói các tần số trên thang Mel, và áp dụng DCT nghịchđảo.

¢ Đặc trưng CQCC: Các đặc trưng CQCC được trích xuất với biến đổi Q

không đổi (Constant Q Transform), một phương pháp thay thế dựa trên

cảm quan cho các phương pháp tiếp cận dựa trên Fourier để phân tích

tần số thời gian

Sau đó các đặc trưng này được sử dụng để đào tạo mô hình hỗn hợp Gaussian

(Gaussian Mixture Model - GMM) hoặc máy vector hỗ tro (Support Vector

Machine - SVM) cho nhiệm vụ phân loại Trong số các đặc trưngđược trích chọn thủ công, CQCC đã chứng tỏ tiểm năng của nó trong việc giảiquyết nhiều loại tác vụ xử lý giọng nói Massimiliano và các cộng sự đãkết hợp bộ lọc tỉ lệ phát âm với CQCC trong tác vụ xác minh người nói vàđạt được cải tiến đáng kể so với đường cơ sở của MFCC

Mô hình Gaussian hỗn hợp - Gaussian Mixture Model (GMM)

Nhận dạng giọng nói là một chủ đề được quan tâm trong những năm gần đây

Với các phép tính toán đơn giản, mô hình Gaussian hỗn hợp (Gaussian MixtureModel - GMM) là một trong những phương pháp được áp dụng phổ biến

nhất cho bài toán xác thực giọng nói GMM là một hàm tham số mật độ xácsuất được biểu diễn như một tổng có trọng số của các mật độ Gaussian thành

phần GMM được sử dụng rộng rãi như là một mô hình tham số của phân

phối xác suất của các phép đo liên tục hay tính năng trong một hệ thống sinhtrac học Một mô hình GMM là tổng thành phan của k& thành phần mật độGaussian được cho bởi công thức:

Trang 22

với x là vector đặc trưng được trích xuất từ tín hiệu giọng nói, w;,i = l , \

là các trọng số hỗn hợp và ø(z|u,>),).¡ = 1, 1 là các mật độ Gaussianthành phần Mỗi thành phần mật độ là một hàm Gaussian cho bởi công thức:

1 1 _

g(x Mi, 7%) = (2m)?/2|ø,|1⁄2 exp { 2 Mi) Ø; ‘(x ~ bi) } (1.2)

trong đó, /;, o; là là trung bình va độ lệch chuẩn của lớp thứ i Mỗi mô hình

được đại diện bởi À = {u;,u,S)„} 1<i< M Các nghiên cứu trước đây tính

toán với từng đối tượng và xây dựng cho bài toán một mô hình GMM riêng

biệt.

Máy vector hỗ trợ - Support Vector Machine (SVM)

Máy vector hỗ trợ (Support Vector Machines - SVM) cũng là một mô hình

được sử dụng để tiếp cận nhiệm vụ nhận dạng giọng nói trong nhiều nghiêncứu [68] SVM là một bộ phân lớp tuyến tính (linear classifier), với mục

đích xác định một siêu phẳng (hyperplane) để phân tách hai lớp của dữ liệu

Ví dụ, lớp các điểm dữ liệu có nhãn dương (positive) và lớp các điểm dữ liệu

có nhãn âm (negative) Các hàm bộ loc (kernel functions), hay còn được gọi

là các hàm biến đổi (transformation functions), được dùng cho các trường hợpphân lớp phi tuyến Do có một nền tảng lý thuyết chặt chẽ về mặt toán học,

SVM là một phương pháp phù hợp đối với những bài toán phân lớp có không

gian rất nhiều chiều, khi các điểm dữ liệu cần phân lớp được biểu diễn bởimột tập rất lớn các thuộc tính

Sinh viên: Đào Hoàng Mai - BI7DCCN411 - Lóp D17HTTT2 10

Trang 23

CHUONG 1 TONG QUAN VE CAC TAC VU CHO BAI TOAN NHAN DANG GIONG NOI

Hình 1.2: Mô hình SVM cho bài toán nhận dạng giọng nói

Thuật toán SVM sẽ lựa chọn siêu phẳng phân tách có lề (margin) lớn nhất

vì nó sẽ tối thiểu hóa giới hạn lỗi mà việc phân lớp mắc phải

¢ SVM tuyến tính (Linear SVM): Như ví dụ trên sự phân lớp dựa vào siêu

phẳng phân cách Siêu phẳng phân tách được xác định dựa trên tập các

vector hỗ trợ Chỉ các vector hỗ trợ mới có hệ số nhân Lagrange khác

0 Đối với các ví dụ huấn luyện khác, hệ số nhân Lagrange của chúng

bằng 0 Việc xác định các vector hỗ trợ trong số các ví dụ huấn luyện

đòi hỏi phải giải quyết bài toán tối ưu bậc hai Trong biểu thức đối ngẫu

và trong biểu thức biểu diễn siêu phẳng phân tách, các ví dụ huấn luyện

chỉ xuất hiện bên trong các tích vô hướng của các vector

° SVM phi tuyến tính (Non-Linear SVM): Trong nhiều bài toán thực tế, các

tập dữ liệu có thể phân tách phi tuyến tính (non-linearly separable), tức

là ta không thể tìm được siêu phẳng nào phân tách hoàn toàn các lớp dit

liệu Lúc này, phương pháp phân loại SVM phi tuyến đầu tiên sẽ chuyểnđổi không gian biểu diễn đầu vào ban đầu sang một không gian khác(thường có số chiều lớn hơn nhiều) Dữ liệu được biểu diễn trong khônggian mới lúc này đã phân tách tuyến tính Tiếp theo, SVM phi tuyến tính

sẽ áp dụng lại các công thức và các bước như trong phương pháp phân

Trang 24

lớp SVM tuyến tính để tìm ra siêu phẳng tối ưu Như vậy, không gian

biểu diễn ban đầu là Không gian đầu vào (input space), còn không gianbiểu diễn sau khi chuyển đổi là không gian đặc trưng (feature space).

Phương pháp này thực hiện quá trình tiền xử lý và trích chọn đặc trưngtương tự như với phương pháp sử dụng GMM Quá trình tiền xử lý tách dữliệu âm thanh thành các khung, mỗi khung gồm nhiều mẫu, mỗi mẫu đượctrích chọn các đặc trưng Sau đó, các đặc trưng của cả khung được ánh xạ vềmột vector trong miền không gian D chiều SVM được áp dung để phân loạicác vector trong miền không gian này, từ đó thực hiện các tác vụ khác nhau

trong bài toán nhận dạng giọng nói.

1.2.3 Các phương pháp nhận diện giọng nói dựa trên kỹ thuật học

sâu

Với sự phát triển của các tài nguyên tính toán và các thuật toán học sâu phứctạp, mạng nơ-ron học sâu đã được áp dụng để thay thế các bộ phân loại truyền

thống [77 [43] Zhenhao và các cộng sự đã đề xuất kiến trúc

mạng nơ-ron một lớp nhận vector đặc trưng MECC 390 chiều làm đầu vào

Trong khi đó, Nguyen và các cộng sự đã khảo sát tính hiệu quả của các

mô hình mạng residual sâu trong việc xác minh người nói bằng cách sử dụngđặc trưng hệ số cestral Gammatone frequency (GFCC) Mặt khác, nhiều nhóm

nghiên cứu đã sử dụng mạng nơ-ron như một bộ trích xuất đặc trưng, theo sau

là một bộ phân loại truyền thống như Chen và các cộng sự [6], Qian và cáccộng sự [48] Tuy nhiên, nghiên cứu của Guang Hua [23] và Ravanelli cùngYoshua đã chỉ ra rang rang các đặc trưng thủ công không phải là yếu

tố cần thiết trong hệ thống xác minh người nói dựa trên mạng nơ-ron Quchen

Fu cùng các cộng sự đã giới thiệu FastAudio - một mô hình mạng có

thể học có thể được sử dụng làm bộ trích chọn đặc trưng để thích ứng tốthơn với các tác vụ chống giọng nói giả mạo Ding và các cộng sự đã đểxuất một kiến trúc mạng nơ-ron phức hợp đạt được kết quả xuất sắc trên tập

dữ liệu VoxCelebl Ngoài ra, đã có những nỗ lực để đạt được những cải tiếntrong các tác vụ này bằng việc tận dụng các kỹ thuật đào tạo khác nhau, ví

dụ như kỹ thuật học chuyển giao (transfer learning) [I], cơ chế chú ý (attention

mechanism) và hàm mất mát không có siêu tham số

(hyperparameters-free objective loss) [69] Guang Hua va các cộng sự chỉ đơn giản thay thé

Trang 25

tất cả các bước trích xuất đặc trưng thủ công bằng mạng nơ-ron sâu đầu cuối

và đạt được hiệu suất phát hiện hứa hẹn trên bộ dữ liệu ASVspoof2019

Các mô hình học sâu hiện đại cùng những kỹ thuật huấn luyện này sẽ được

trình bày chi tiết trong Chương |2| của đồ án

Thảo luận Mặc dù đã có những nỗ lực đóng góp của cộng đồng nghiên cứu

về cả mặt dữ liệu và phương pháp trong nhiệm vụ nhận dạng giọng nói, không

có tập dữ liệu và phương pháp nào trước đây giải quyết vấn dé học tập đa tác

vụ để nhận dạng giọng nói tiếng Việt Hơn nữa, khảo sát cũng cho chúng tathấy sự thiếu hụt về mặt tài nguyên trong tiếng Việt phục vụ cho cả mục đíchnghiên cứu và ứng dụng thực tiễn Trong khi đó, tiếng Việt là ngôn ngữ phổbiến thứ 17 trên thế giới và có sự đa dạng đáng kể trong cả hình thức vănbản và âm thanh Tiếng Việt được phân vùng địa chất thành ba phương ngữchính là Bắc, Trung, Nam Cách phát âm của người Việt rất đa dạng, phong

phú và bị ảnh hưởng bởi nhiều đặc điểm của khu vực Ví dụ, miền bắc có

sáu âm bao gồm âm không dấu, âm sức, âm huyền, âm hỏi, âm ngã, âm nặng,trong khi miền Trung chỉ có năm âm tiết, hoặc thậm chí một số tỉnh có cách

phát âm riêng Hơn nữa, sự đa dạng về văn hóa vùng miễn, các từ địa phương

và sự biến đổi về mặt ngữ nghĩa của các từ vựng cũng là một trong nhữngthách thức cho các hệ thống nhận dạng giọng nói Vì vậy, việc xây dựng một

hệ thống nhận dạng giọng nói có thể xử lý tốt tiếng Việt là rất cần thiết và

có giá trị lớn trong cả nghiên cứu và thực tiễn Điều này không chỉ có ý

nghĩa cho riêng tiếng Việt mà còn có thể áp dụng vào các ngôn ngữ khác có

tính chất ngôn ngữ nói tương tự như tiếng Hán Hơn nữa, hầu hết các mô hình

hoạt động tốt dựa trên các kỹ thuật học sâu được dé xuất chỉ dành riêng chomột tác vụ đơn lẻ hoặc sở hữu khối lượng lớn các tham số và yêu cầu tàinguyên tính toán mạnh mẽ trong khi chúng ta cần hướng đến việc xây dựng

một hệ thống toàn diện và gọn nhẹ cho các thiết bị có dung lượng thấp

1.3 Mục tiêu của đồ án

Với các động lực đã được thảo luận, nội dung đồ án sẽ tập trung vào việcxây dựng mô hình học sâu chưng cất gọn nhẹ đa tác vụ cho nhiệm vụ nhậndạng giọng nói, với ba tác vụ con là nhận dạng người nói, phát hiện giọngnói giả mạo và phát hiện khẩu lệnh trong giọng nói Cu thể hơn, mô hình dé

A

xuất sẽ được xây dung dựa trên mạng nơ-ron đồ thị sử dung cơ chế chú ý với

Trang 26

một lớp chú ý chéo để kết hợp thông tin từ các tác vụ này nhằm tăng cường

hiệu suất tổng thể của hệ thống Đồng thời, thay vì học riêng rế ba tác vụvới 3 mô hình đơn lẻ, hệ thống sẽ giải quyết bài toán đa tác vụ (multitasks)bằng kỹ thuật học chung (joint learning) Thêm vào đó, đồ án cũng sẽ trìnhbày quá trình xây dựng và xử lý bộ dữ liệu tiếng Việt đầu tiên cho 3 tác vụ

nhận dạng giọng nói.

1.4 Tổng kết chương 1

Trong chương 1, đồ án đã trình bày tổng quan về bài toán nhận dạng giọngnói, đi sâu vào các nhiệm vụ con của bài toán bao gồm nhận dạng ngườinói, phát hiện giọng nói giả mạo và phát hiện khẩu lệnh trong giọng nói ,giới thiệu các đặc trưng, các phương pháp truyền thống và các phương pháp

hiện đại được sử dung để nhận dạng giọng nói Trong chương tiếp theo, đồ án

sẽ trình bày tổng quan về học sâu, mô hình mạng nơ-ron tích chập, mô hình

mạng nơ-ron d6 thị sử dụng cơ chế chú ý, các kỹ thuật cắt tỉa mô hình, kỹ

thuật chưng cất tri thức và đề xuất mô hình học sâu chưng cất đa tác vụ

Trang 27

CHUONG 2 NHẬN DẠNG GIỌNG NÓI SỬ DỤNG MÔ HÌNH CHUNG CAT VÀ HỌC ĐA TAC VỤ

Chương 2

NHAN DANG GIỌNG NÓI SỬ

DỤNG MÔ HÌNH CHƯNG CAT

VÀ HỌC ĐA TÁC VỤ

Trong chương này, đồ án sẽ trình bày nội dung chi tiết về cách áp dụng môhình học sâu vào bài toán xác thực truy cập sử dụng giọng nói qua các phần:

» Giới thiệu về Trí tuệ nhân tạo

¢ Mạng nơ-ron nhân tao (Artificial Neural Network - ANN)

¢« Mang nơ-ron tích chập (Convolutional Neural Network - CNN)

* Mang nơron đổ thi sử dụng cơ chế chú ý (Graph attention networks

-GAT)

« Dé xuất mô hình học sâu va chưng cất mô hình

Trang 28

2.1 Giới thiệu về trí tuệ nhân tao

2.1.1 Trí tuệ nhân tao

Trí tuệ nhân tạo hay trí thông minh nhân tạo (Artificial Intelligence hay

Machine Intelligence - AI) là một nhánh rộng lớn của khoa hoc máy tính liên

quan đến việc xây dựng các hệ thống thông minh có khả năng tự động thựchiện các tác vụ thường đòi hỏi trí thông minh của con người Những năm gầnđây, với tốc độ phát triển vô cùng nhanh chóng của phần cứng máy tính như

GPU, TPU, máy tính lượng tử, trí tuệ nhân tạo đã chứng minh được sức mạnh

và vai trò của mình trong cuộc cách mạng công nghiệp lần thứ tư bằng vô sốcác ứng dụng thiết thực Trí tuệ nhân tạo đang biến đổi cách con người làmviệc, giáo dục, vui chơi và thậm chí là chăm sóc sức khỏe mỗi ngày Các hệ

thống thông minh có công nghệ lõi là trí tuệ nhân tạo đã được cho phép sử

dụng phổ biến trong đời sống hàng ngày có thể kể đến như trợ lý ảo, ô tô tự

lá, hệ thống để xuất thương mại điện tử, hệ thống chẩn đoán y tế v.v đang

ngày càng giúp chúng ta có cuộc sống thuận tiện và tốt đẹp hơn

‘<7 Fas halle Es tinier! [=>

3Wr-ent LES ARG

iy} see bie bat Tae de

ot Teed ee he

SỐ

1®*h 1® 1*701a 1E: 19m =1 11a

Hình 2.1: Sơ đồ tổng quan về Trí tuệ nhân tạo (Nguồn: fusionalliance.com)

Trang 29

2.1.2 Hoc máy

Học máy (Machine Learning - ML) là một lĩnh vực nhỏ của trí tuệ nhân tạo Arthur Samuel mô tả nó là một “lĩnh vực nghiên cứu mang lại cho máytính khả năng học hỏi cách giải quyết vấn đề dựa trên dữ liệu đưa vào mà

không cần được lập trình rõ rang” [54] Còn Tom Mitchell đưa ra một địnhnghĩa hiện đại hơn trong [38]: “Một chương trình máy tính được cho là học

từ kinh nghiệm E đối với một số loại nhiệm vụ T và thước đo hiệu suất P,

nếu hiệu suất của nó ở các nhiệm vụ T, được đo bằng P, cải thiện theo kinh

nghiệm E” Về cơ bản, nếu trí tuệ nhân tạo thể hiện mục tiêu của con người,

tì học máy là một phương tiện được kỳ vọng sẽ giúp con người đạt được

mục tiêu đó Và thực tế thì học máy đã và đang mang nhân loại tiến rất xatrên quãng đường chinh phục trí tuệ nhân tạo đầy thử thách Ví dụ, ta có một

số bộ cặp số (2,4),(3,6),(4,9) Sau đó ta đưa một số đầu tiên của cặp số vàomáy tính để dự đoán nửa còn lại của cặp số đó Đầu tiên chương trình cầntìm logic giữa các cặp số và sau đó áp dụng logic tương tự để dự đoán chữ

số thứ hai chưa biết trước cho cặp (5,?) Cách để máy tính tìm ra logic đó

được gọi là “học máy”.

Nhìn chung, học máy được chia thành ba loại chính sau:

1 Học giám sát: Máy tính được cung cấp một tập dữ liệu và đã biết đầu ra

chính xác của mỗi điểm dữ liệu và được cho trước giả thiết rằng có mối

quan hệ giữa đầu vào và đầu ra

2 Học không giám sát: Học không giám sát cho phép chúng ta tiếp cận các

vấn đề mà biết rất ít hoặc không biết trước kết quả của bài toán Lúcnày, thuật toán không được cung cấp bất kỳ nhãn hoặc điểm số được chỉ

định trước nào cho dữ liệu đào tạo Do đó, các thuật toán học tập không

giám sát phải tự khám phá bất kỳ mẫu nào xuất hiện tự nhiên trong tập

dữ liệu đào tạo được cho.

3 Học tang cường: Học tăng cường là một lĩnh vực học máy lấy cảm hứng

từ tâm lý học hành vi, liên quan đến việc nghiên cứu cách các tác nhân

phần mềm (agents) phải thực hiện hành động trong một môi trường đểtối đa hóa một phần thưởng tích lũy (reward) nào đó Các thuật toán học

tăng cường cố gắng tìm một chiến lược ánh xạ các trạng thái của thế

giới tới các hành động mà agent nên chọn trong các trạng thái đó.

Trang 30

2.1.3 Hoc sâu

Học sâu (Deep learning - DL) là một lĩnh vực con của học máy liên quan

đến các thuật toán lấy cảm hứng từ cấu trúc và chức năng của não được gọi

là mạng thần kinh nhân tạo Đây hiện là công nghệ dẫn đầu trong việc giảiquyết nhiều bài toán trong lĩnh vực nhận dạng ảnh, nhận dạng giọng nói, xử

lý ngôn ngữ tự nhiên.

Trong các buổi nói chuyện đầu tiên về học sâu, Andrew Ng đã mô tả họcsâu trong bối cảnh của các mạng nơ-ron nhân tạo truyền thống Trong bài nóichuyện năm 2013 có tiêu đề “Học sâu, tự học và học theo đặc trưng khônggiám sát”, ông đã mô tả ý tưởng của học sâu là mô phỏng lại bộ não sinh

học nhăm:

° Làm cho các thuật toán học tập tốt hơn và dễ sử dung hơn

* Tạo ra những tiến bộ mang tính cách mạng trong học máy và AI

2.2 Mang nơ-ron nhân tao (Artificial Neural

Network-ANN)

Mang no-ron nhan tao (Artificial Neural Network - ANN) là mô hình xử

ly thông tin được mô phỏng dựa trên hoạt động của hệ thống thần kinh của

sinh vật, bao gồm số lượng lớn các nơ-ron được gắn kết để xử lý thông tin

ANN giống như bộ não con người, được học bởi kinh nghiệm (thông qua huấnluyện), có khả năng lưu giữ những kinh nghiệm hiểu biết (tri thức) và sử dụngnhững tri thức đó trong việc dự đoán các dữ liệu chưa biết Các ứng dụng của

mạng nơ-ron được sử dụng trong rất nhiều lĩnh vực như y tế, giáo dục, kinh

tế, quân su, để giải quyết các bài toán có độ phức tạp và đòi hỏi có độchính xác cao nhằm giảm tải khối lượng công việc cho con người Một số cácbài toán đã được giải quyết phần nào bởi mạng nơ-ron nhân tạo có thể kể đến

như:

° Nhận dạng mau: nhận dạng khuôn mặt, nhận dang chữ viết tay, v.v

* Dự đoán: dự đoán giá nhà, dự đoán thời tiết, v.v

Trang 31

* Điều khiển: điều khiển xe tự lái, máy bay không người lái, điện thoại,

V.V

* Xử lý dữ liệu cảm biến: lấy thông tin từ các cảm biến để đánh giá vađưa ra một kết quả v.v

¢ Phát hiện dị thường: phát hiện dị thường trong các sản phẩm v.v

2.2.1 Cầu trúc và mô hình của một nơ-ron nhân tạo

Mạng nơ-ron nhân tạo mô phỏng lại cách thức hoạt động của bộ não conngười bao gồm các nơ-ron nhân tạo (nodes) với nhau qua các cạnh (edges) để

Schwamn cel

Myelin sheath Nucleus

Hình 2.2: Mô hình một nơ-ron sinh học (Nguồn: Wikipedia)

Cụ thể hơn, tương tự như nơ-ron sinh học, nơ-ron nhân tạo cũng nhận cáctín hiệu đầu vào, thực hiện các bước xử lý như nhân các tín hiệu này với cáctrọng số liên kết (weights), tính tổng các tích thu được rồi đưa kết qua qua

hàm kích hoạt (activation function) để thu được tín hiệu đầu ra cuối cùng

Trang 32

Blas by

Activation function

x2 O——> (12)

Summing junction

Input

<

signals

Synaptic weights

Hình 2.3: Mô hình một nơ-ron nhân tạo (Nguôn: Towards Data Science)

Trọng số liên kết là thành phần rất quan trọng của một ANN, nó thể hiệnmức độ quan trọng (hay sự liên quan) của dữ liệu đầu vào đối với mục tiêucuối cùng thông qua quá trình truyền tín hiệu dữ liệu từ lớp này này sanglớp khác Quá trình học (learning process) của ANN thực ra là quá trình điều

chỉnh các trọng số của mạng để có được kết quả đầu ra mong muốn

2.2.2 Mạng nơ-ron nhan tao

Mang no-ron nhân tao đơn giản

Một mô hình mang nơ-ron gồm nhiều lớp xếp liên tiếp nhau, mỗi một lớpgồm nhiều đơn vị (hay nodes) Mỗi đơn vị ở lớp hiện tại sẽ kết nối đến tất

cả các đơn vị ở lớp kế tiếp nó với một trọng số riêng Lớp đầu tiên được gọi

là lớp đầu vào, lớp cuối cùng được gọi là lớp đầu ra Các lớp ở giữa hai lớpđầu vào và đầu ra được gọi là các lớp ẩn Một mô hình luôn có một lớp đầuvào và một lớp đầu ra, không giới hạn các lớp ẩn Logistic regression làmột ví dụ về mô hình mạng nơ-ron nhân tạo đơn giản nhất chỉ với lớp đầuvào và lớp đầu ra Hàm mục tiêu của mô hình logistic regression là một hàmbậc một nhiều biến 7 = o(wo+wit1+wer2) Hàm mục tiêu được tính toán theo

Trang 33

Do phương trình tuyến tính có dang 0z + wey =0 sẽ luôn đi qua gốc toa độ

khiến cho mô hình không có sự tổng quát, dẫn đến hệ quả không tìm được

hàm mục tiêu mong muốn Việc thêm hệ số tự do wo sẽ giúp phương trình có

dạng tổng quát hơn Mô hình logistic regression được minh họa như hình

Hình 2.4: Minh họa kiến trúc của mạng nơ-ron đơn giản logistic regression

2.2.3 Lan truyền thẳng

Ta kí hiệu số đơn vị trong lớp thứ i là ! Ma trận W*€Rf'*” là ma trận

hệ số giữa lớp thứ k— 1 và lớp thứ k, trong đó we là hệ số kết nối từ don

vị thứ i của lớp thứ &—1 đến đơn vị thứ j của lớp thứ k Vector oF e IR”*!

là hệ số tự do của các lớp trong lớp thứ k, trong đó b‡ là hệ số tự do của

đơn vị thứ i trong lớp thứ k Để tính giá trị tại đơn vi thứ i trong lớp thứ /

có hệ số tự do bƑ ta thực hiện 2 bước sau:

Trang 34

° Áp dung hàm kích hoạt:

al = o(z!) (2.5)

Biểu diễn dưới dang ma trận

Ta kí hiệu dữ liệu đầu vào X là ma trận có kích thước ø+d với n là sô điểm

dữ liệu và d là số chiều của dữ liệu Ta sẽ có giá trị tại lớp thứ i được tính

theo công thức sau:

« Tính tổng tuyến tính:

Z' = Av 'W'+B' (2.6)

° Ap dung hàm kích hoạt:

A’ =ø(Z') (2.7)Trong đó A’ là đầu ra của lớp thứ i với Ao =X

2.2.4 Lan truyền ngược và hạ đạo hàm

Để cho mô hình có thể học được tri thức từ tập dữ liệu thì ta cần tối thiểuhàm mất mát của mô hình qua việc cập nhật các trọng số uj

N

£ == ilog(0i) + (1 — yi)log((1 = Gi) (2.8)

i=l

với N là số điểm dữ liệu trong tập dit liệu, 7 là đầu ra của mang nơ-ron

Dé làm được điều đó, người ta sử dụng thuật toán lan truyền ngược để tính

được đạo hàm theo w tại các lớp và thuật toán hạ đạo ham để ước tính được

bộ trọng số W sao cho hàm mất mát £ là nhỏ nhất có thể

2.2.5 Hàm kích hoạt

Ngoài nhiệm vụ giúp mô phỏng lại quá trình tính toán của nơ-ron sinh học,hàm kích hoạt giúp giữ giá trị đầu ra của nơ-ron bị hạn chế ở một giới hạnnhất định theo ngưỡng cho trước (thông thường là đoạn [0,1] hoặc [—1,1]).Điều này rat quan trọng vì dau vào cho hàm kích hoạt là dau ra của hàm

Trang 35

tổng Wxz+b - gid trị này nếu không bị giới hạn có thể tăng rất cao, đặc

biệt là trong trường hợp mạng nơ-ron có hàng triệu tham số Điều này sẽ dẫn

đến các vấn dé về tính toán Tính năng quan trọng nhất trong một hàm kích

hoạt là khả năng phi tuyến tính hóa mạng nơ-ron Nếu chúng ta không sử

dụng hàm kích hoạt, mạng nơ-ron nhân tạo lúc này sẽ trở thành một bộ phân

loại tuyến tính đơn giản và không có khả năng học những bộ dữ liệu phức

tạp Việc lựa chọn hàm kích hoạt nào là tuỳ thuộc vào từng bài toán và kinh

nghiệm của người thiết kế mạng Một số hàm kích hoạt thường sử dụng trong

các mô hình mạng nơ-ron:

Sigmoid

Hàm Sigmoid được định nghĩa như sau:

1.0

Hình 2.5: Công thức và đồ thị hàm Sigmoid (Ngudn: Towards Data Science)

Hàm kích hoạt này ít khi được sử dụng trong các mô hình thực tế do nó

tốn kém về mặt tính toán, gây ra các vấn dé về đạo hàm tiến gần đến 0

Phương pháp này thường được sử dụng cho các bài toán phân loại nhị phân.

Trang 36

tanh(z)

Hình 2.6: Đồ thị hàm Tanh (Nguôn: Towards Data Science)

Hàm Tanh cho đầu ra trong đoạn [—1,1] Ham Tanh cũng có nhược điểm

tương tự hàm Sigmoid về việc đạo hàm rất nhỏ với các đầu vào có trị tuyệtđối lớn

ReLU

Hàm ReLu được cho bởi công thức và có đồ thị như Hình

f(x) = max(0,z}) (2.10)

Đây là một ham kích hoạt được sử dung rộng rãi, đặc biệt là với mang

no-ron tích chập Ưu điểm của ReLU là dễ dàng tính toán, không bão hòa vàkhông gây ra vấn đề đạo hàm tiến đến 0 Tuy nhiên, hàm này cũng có một

số nhược điểm như sẽ gây ra vấn đề “dying ReLU”: đầu ra bằng 0 cho tất cảđầu vào âm sẽ khiến một số nút bị chết toàn toàn và không học được gì Đểgiải quyết vấn đề này, một số biến thể khác của ReLU đã được tận dụng như

Leaky ReLU hay Parametric ReLU.

Sinh viên: Dao Hoàng Mai - B17DCCN4II - Lép DI7HTTT2 24

Trang 37

Hình 2.7: Đồ thị hàm ReLU (Nguồn: Towards Data Science)

Softmax

Softmax là một dạng tổng quát hơn của Sigmoid để sử dung trong các bài

toán phân loại nhiều lớp Tương tự như Sigmoid, Softmax tạo ra các giá trịtrong khoảng [0,1] do đó nó được sử dụng làm lớp cuối cùng trong các mô

hình phân loại.

2.3 Mạng nơ-ron tích chập (Convolutional Neural

Net-work - CNN)

Mạng nơ-ron tích chập (Convolutional Neural Network - CNN) tương đối

giống với các mạng nơ-ron nhân tạo được trình bày trong trong phần trước:

bao gồm các nơ-ron có trọng số và hệ số tự do có thể học được Mỗi nơ-ron

nhận một số đầu vào, thực hiện một phép tích vô hướng và có thể được theo

sau bởi một hàm kích hoạt phi tuyến tùy chon, sử dụng hàm Softmax ở lớp

cuối cùng, sử dụng chung các kỹ thuật và thủ thuật với mạng nơ-ron nhân tạo

cổ điển Điểm khác biệt quan trọng nhất là trong khi các mạng nơ-ron truyền

thống nhận dữ liệu đầu vào là vector hay mảng 1 chiều, các kiến trúc mạng

tích chập nhận đầu vào là hình ảnh hay mảng nhiều chiều, cho phép chúng

ta trích xuất được các thuộc tính nhất định, đặc biệt là các thuộc tính địa

Trang 38

phương Với các dữ liệu dạng nhiều chiều như ảnh, lớp đầu tiên của mạng ron truyền thống sẽ phải biến đổi dữ liệu thành dạng vector 1 chiều làm mất đicấu trúc của dữ liệu và vì số lượng điểm ảnh tương đối lớn, số lượng trọng số

nơ-mà lớp đầu tiên phải tính toán cũng là rất lớn Thứ nhất, việc sử dụng nhiềutham số sẽ dẫn đến tốn kém tài nguyên tính toán và thời gian huấn luyện lâu.Thứ hai, số lượng lớn các tham số có thể khiến mô hình overfitting một cách

nhanh chóng Mạng CNN được xây dựng và thiết kế để khắc phục nhược điểm

kể trên của mạng nơ-ron truyền thống cho bài toán xử lý ảnh, khiến cho hàmchuyển tiếp được triển khai hiệu quả hơn và giảm đáng kể số lượng các tham

FEATURE LEARNING CLASSIFICATION

Hình 2.8: Mô hình cấu tạo nhiều lớp của một mang CNN (Nguồn: Towards

Data Science).

Một mang CNN đơn giản bao gồm chuỗi các lớp xếp liên tiếp, mỗi lớp có

hàm tính toán và hàm kích hoạt riêng nhằm trích xuất ra các đặc trưng bậc

cao cụ thể Hình mô tả cấu tạo của 1 mạng CNN cơ bản Các loại lớp(layer) cấu tạo lên mạng CNN gồm:

¢ Lớp nhân chập (Convolutional layer)

¢ Lớp Pooling

° Lớp kết nối day đủ (Fully connected layer)

Thông thường, một mạng CNN cơ bản sẽ gồm nhiều cặp lớp nhân chập để

tổng hợp đặc trưng, theo sau là lớp Pooling để giảm độ phức tạp Sau đó, các

Trang 39

đặc trưng sẽ được kết nối đầy đủ với nhau qua lớp kết nối đầy đủ và chuyểnđổi sang dạng xác suất với hàm kích hoạt Softmax để gan nhãn

2.3.2 Lớp tích chập

Trong mạng nơ-ron truyền thống, từ lớp đầu vào, dữ liệu qua các lớp ẩn rồi

đi qua lớp đầu ra Với mạng CNN, lớp nhân chập là một tập các ma trậnđặc trưng và mỗi ma trận đặc trưng này là một bản scan của ban đầu, nhưngđược trích xuất ra các đặc trưng cụ thể Quá trình trích xuất trên sử dụng một

bộ lọc tích chập (hay còn được gọi là kernel) là một ma trận quét qua matrận dữ liệu đầu vào, từ trái qua phải, từ trên xuống dưới, và nhân tương ứngtheo vị trí từng giá trị của ma trận đầu vào và ma trận bộ lọc rồi tính tổng.Giá trị tổng này được đưa qua một hàm kích hoạt và trở thành đầu ra củalớp tích chập Một trong số những hàm kích hoạt được sử dụng phổ biến nhấttrong các kiến trúc CNN là hàm ReLU Các kết quả thu được từ quá trìnhtrích xuất đặc trưng được tập hợp lại thành một ma trận đặc trưng Kích thướccủa bộ lọc phụ thuộc vào bài toán và kinh nghiệm của người xây dựng mạng, thường là 3x 3 hoặc ð x ð.

Hình 2.9: Minh hoạ phép tinh tích chập trong mang CNN (Nguén: CS23ln,

Stanford).

Nhu vậy, đầu ra của một lớp tinh chập là một ma trận đặc trưng Kích cỡcủa ma trận đặc trưng này được kiểm soát bởi ba siêu thông số bao gồm độ

sâu (depth), sai bước (stride) và đệm lót (padding).

Độ sâu của kích cỡ ma trận đầu ra sẽ tương ứng với số lượng bộ lọc được

Trang 40

sử dụng cho mỗi lớp tích chập, mỗi bộ lọc có nhiệm vụ trích xuất các đặctrưng cụ thể khác nhau từ đầu vào Ví dụ, nếu lớp tích chập đầu tiên nhậnđầu vào là hình ảnh thô, thì các bộ lọc khác nhau có thể trích xuất các đườngviền hoặc các đốm màu Sải bước là khoảng cách cho mỗi lần trượt bộ lọc.Khi sải bước là 1 thì mô hình sẽ di chuyển các bộ lọc một pixel tại một thờiđiểm Khi khoảng cách là 2 (hoặc 3 hoặc nhiều hơn, tuy nhiên điều này hiếmkhi xảy ra trong thực tế) thì các bộ lọc sẽ nhảy 2 pixel một lúc khi trượt trên

ma trận đầu vào Điều này sẽ tạo ra đầu ra có kích cỡ đầu ra nhỏ hơn so

với đầu vào của mạng Để tránh việc bỏ sót các thông tin quan trọng ở biêncủa mỗi ma trận đặc trưng, ma trận đặc trưng có thể được bổ sung các điểmảnh có giá trị bằng 0 vào biên ảnh Tinh năng đặc trưng của zero padding là

nó sẽ cho phép kiểm soát kích thước không gian của đầu ra (phổ biến là bảotoàn chính xác kích thước của đầu ra so với đầu vào, nghĩa là chiều rộng và

chiều dài là như nhau giữa đầu vào và đầu ra) Số lượng giá trị 0 bao quanh

biên được quyết định bởi tham số đệm lót

2.3.3 Lớp pooling

Lớp pooling thường được đặt ở sau lớp tích chập nhằm giảm số chiều dữ liệu

trong không gian (chiều dài và chiều rộng) giúp làm giảm số lượng tham số

và số phép toán trong mạng, từ đó có thể là giảm thời gian huấn luyện và

giải quyết van đề overfitting Lớp pooling hoạt động với một bộ lọc được trượt

trên dữ liệu đầu vào tương tự như lớp nhân chập Dạng pooling hay gặp nhất

có kích thước bộ lọc là 2 x 2, với bước nhảy là 2 làm giảm di 75% nơ-ron ởlớp trước Thông thường, pooling có nhiều hình thức khác nhau phù hợp cho

nhiều bài toán, tuy nhiên có 2 phương pháp pooling được sử dụng rộng rãi

và phổ biến, đó là average pooling (sử dụng bộ lọc tính trung bình) và maxpooling (sử dụng bộ lọc lấy giá trị lớn nhất)

Tiêu đề	Mô hình chưng cất đa tác vụ cho nhận dạng giọng nói tiếng Việt
Tác giả	Đào Hoàng Mai
Người hướng dẫn	PGS. TS. Phạm Văn Cường
Trường học	Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành	Công nghệ Thông tin
Thể loại	Đồ án tốt nghiệp
Năm xuất bản	2022
Thành phố	Hà Nội

Định dạng
Số trang	88
Dung lượng	25,98 MB