Luận văn thạc sĩ Khoa học máy tính: Xây dựng hệ thống nhận dạng tiếng nói tiếng Việt dựa trên mô hình Transformer

Điều này tạo nên một thách thức lớn trong việc phát triển các công nghệ xử lý ngôn ngữ tự nhiên NLP, đặc biệt là công nghệ nhận dạng tiếng nói.. Từ những năm 2000 trở đi, với sự tiến bộ

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trương Tiến Toàn

NÓI TIENG VIỆT DUA TREN MÔ HÌNH

TRANSFORMER

LUAN VAN THAC SI KHOA HOC MAY TINH

HA NOI - 2024

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

XÂY DỰNG HỆ THONG NHẬN DẠNG TIENG

NÓI TIENG VIET DUA TREN MÔ HÌNH

TRANSFORMER

Ngành: Khoa học máy tinh Chuyên ngành: Khoa học máy tính

Mã số: 8480101.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Cán bộ hướng dẫn: PGS TS: Nguyễn Phương Thái

HÀ NỘI - 2024

Trang 3

LỜI CẢM ƠN

Trong cuộc sống, để thành công, ngoài sự cố gắng, nỗ lực của bản thân, luôn

cần có những sự giúp đỡ, quan tâm, chỉ bảo của gia đình, thầy cô, bạn bè Luận vănthạc sĩ với đề tài “Xây dựng hệ thống nhận dạng tiếng nói tiếng Việt dựa trên môhình Transformer” là kết quả của sự cố gắng, rèn luyện của tôi trong hai năm dướimái trường Đại học Công nghệ Cả một quá trình dài mà thầy cô đã chỉ bảo, bạn bèđã trợ giúp, gia đình đã động viên tôi rất nhiều

Trước tiên, tôi xin cảm ơn toàn bộ thay cô, cán bộ, nhân viên trường Dai họcCông nghệ đã truyền đạt những kiến thức sâu sắc, tạo điều kiện tốt nhất về cơ sở vậtchất cho tôi và các bạn khác có một môi trường học tập tuyệt vời

Tiếp theo, tôi xin gửi lời cảm ơn sâu sắc đền thầy PGS TS Nguyễn Phương Thái

- người đã luôn hướng dẫn, chỉ bảo, giúp đỡ tôi một cách tận tâm để tôi có thể hoàn

thành được luận văn một cách tốt nhất

Tôi cũng xin gửi lời cảm ơn tới tất cả những người bạn dưới mái trường Côngnghệ đã đồng hành, giúp đỡ tôi rất nhiều trong học tập cũng như trong cuộc sống

Đặc biệt, tôi xin chân thành cảm ơn công ty TNHH Rikkei.AI đã cung cấp tài

nguyên, cho phép tôi sử dụng dit liệu thuộc sở hữu của công ty và tạo mọi điều kiện

thuận lợi giúp tôi hoàn thành luận văn một cách tốt nhất

Cuối cùng, tôi xin gửi lời cảm ơn chân thành đến gia đình, cam ơn bố mẹ đãluôn chăm lo, động viên về mặt tỉnh thần, luôn ủng hộ mọi quyết định của tôi Nếu

không có gia đình thì tôi khó có thể hoàn thành tốt được nhiệm vụ học tập tại trường

và hoàn thành luận văn như ngày hôm nay.

Hà Nội, ngày 12 tháng 06 năm 2024

Học viên

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan nội dung luận văn là do tôi nghiên cứu, tìm hiểu và thực hiện

dưới sự hướng dan của thay PGS TS Nguyễn Phương Thái

Tôi cam đoan rằng tất cả những tài liệu nghiên cứu liên quan đều được nêunguồn gốc một cách rõ ràng tại mục tài liệu tham khảo trong luận văn Tôi cam đoan

không sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ trong

phần tài liệu tham khảo

Hà Nội, ngày 12 tháng 06 năm 2024

Học viên

il

Trang 5

Z ⁄

TOM TAT

Bài toán “Nhận dang tiếng noi tiếng Việt” có dau vào là tệp âm thanh, đầu ra

là văn bản tương ứng với giọng nói trong tệp âm thanh đó Luận văn đã đưa ra cái

nhìn tổng quan và sâu sắc về bài toán nhận dạng tiếng nói tiếng Việt, đồng thời nêu

một số thách thức liên quan đến nhận dạng tiếng nói chung và các thách thức liên

quan đến tiếng nói tiếng Việt như: dữ liệu thưa, đặc điểm tiếng nói theo vùng miền Đầu tiên, luận văn đã áp dụng quy trình để tạo ra một bộ dữ liệu chuẩn xác và đáng

tin cậy, đáp ứng đủ điều kiện cần thiết cho việc huấn luyện mô hình nhận dạng tiếngnói hiệu quả Tiếp theo, luận văn cũng tập trung vào việc thử nghiệm và so sánh haihướng tiếp cận khác nhau trong việc xây dựng mô hình nhận dạng tiếng nói dựa trên

kiến trúc Transformer, một trong những kiến trúc tiên tiến và hiện đại nhất trong

lĩnh vực học máy hiện nay Mô hình đề xuất được so sánh với mô hình Whisper để

đánh giá độ chính xác sau quá trình huấn luyện trên cùng một tập dữ liệu, nhằm xác

định mô hình nào hiệu quả hơn trong điều kiện cụ thể của tiếng nói tiếng Việt Cuối cùng, luận văn cũng trình bày hướng triển khai mô hình nhận dạng tiếng nói tiếng

Việt thành hệ thống để đáp ứng được nhiều yêu cầu xử lý đồng thời trong thực tế.

Các kết quả thử nghiệm cho thấy ưu điểm của mô hình Conformer so với các mô

hình khác Độ trễ của hệ thống đạt được cũng hoàn toàn đáp ứng được các yêu cầu

để đưa vào ứng dụng.

Mô hình Clean | Noise HMM+TDNN | 6.0 8.2

Transformer 4.2 7.2 Conformer 3.7 5.9

Whisper 4.1 6.6

Bang 1: Kết quả thực nghiệm % WER

Từ khóa: nhận dạng tiếng nói, transformer, conformer, transducer, load balancer

ill

Trang 7

2.2.8 Wordembedding cv.

2.3 Xử lý tiếng nói ee

2.3.1 Ngữâm học 0.0.00.

2.3.2 Xử lý tín hiệu SỐ 2.0.0.0 00.0002 ee

2.3.8 Phát hiện giọng nói va

Chương 3 TONG QUAN VỀ BÀI TOÁN

Trang 8

4.2.1 Sơ đồ giải quyết cv.

4.2.3 Môhình 0.0.0.0 0002 V

4.2.4 Siéuthams6 0.0.00 00 eeKết qua Q Q Q Q Q Q Q Q Q Q g v v.v v và

43.1 Tập kiểm tra tự chuẩn bị 00 eee

vi

Trang 9

Danh sách bảng

1 Kết quả thực nghiệm % WER

4.1 Thông số chuẩn hóa âm thanh

4.2_ Kết quả phân chia tập dữ liệu (giờ)

4.3 Mô tả tập dữ liệu đã được gan nhãn

4.4 Tham số quá trình trích xuất đặc trưng âm thanh

4.5 Cấu hình mang Ffontend 00.00.00 eee eee4.6 Môi trường huấn luyện 2 2 ee4.7 Dac điểm của mô hình dùng để huấn luyện -

4.8 Các siêu tham số dùng trong huấn luyện mô hình

4.9 Kết quả thử nghiệm trên tập test tự chuẩn bị

4.10 Kết quả thử nghiệm trên tập test VLSP 2021

4.11 Cấu hình triển khai hệ thống4.12 Do trễ của hệ thống nhận dạng tiếng nói tiếng Việt

Danh sách ký hiệu, chữ viết

tắt

vii

Trang 10

Viết tắt Tiếng Anh Tiếng việt

Encoder - Decoder Mã hóa - Giải mã NLP Natural Language Processing | Xử lý ngôn ngữ tự nhiên

ƠNN_ | Convolutional Neural Network | Mạng nơ-ron tích chập

RNN Recurrent Neural Networks Mạng nơ-ron hồi quy

Speech Recognition Nhận dạng tiếng nói

Encoder - Decoder Mã hóa - Giải mã

Al Artificial Intelligence Tri thong minh nhan tao

WER Word Error Rate Ty lệ lỗi từ

vill

Trang 11

Minh hoa mang no-ron tich chap co ban

Cấu trúc của một LSTM unit

Minh họa kiến trúc Encoder-Decoder

Minh họa cơ chế attention trong bài toánMinh họa cơ chế self-attention Minh họa cơ chế multi-head attention Minh hoa kiến trúc Transformer

Minh họa kiến trúc của mô hình Whisper

Minh họa mô hình ngôn ngữ N-gram

Minh họa các bộ phận tạo nên âm thanh

Minh họa dạng sóng của nguyên âm [iy

Minh hoa dải nghe và dai giọng phổ biến

Minh họa quá trình nhận dạng tiếng nói

1X

dich máy

Minh họa định dạng của các token dùng để huấn luyện trong Whisper

Minh họa kiến trúc của Conformer encoder

Minh hoa module tích chập trong Conformer

Minh họa quá trình biến đổi từ tin hiệu tương tự sang tín hiệu sé

theotầnsỐ

18)

Trang 12

So đồ hệ thống nhận dạng tiếng nói điển hình

Minh họa SpecAugmentSơ đồ triển khai hệ thốngMinh họa sơ đồ trích xuất đặc trưng MFCC âm thanh

Minh họa đặc trưng MECC của âm thanh

Minh họa đặc trưng Mel-Filter Banks của âm thanh

Minh họa mô hình âm học dựa trên HMM

Minh họa mô hình sử dung Transducer

Minh họa sơ đồ giải quyết bài toán

Minh họa kiến trúc của mô hình âm

Trang 13

học -Chương 1

MỞ ĐẦU

Nhận dạng tiếng nói (ASR - Automatic Speech Recognition) đã va đang trở

thành một lĩnh vực nghiên cứu và ứng dụng quan trọng trong thời đại công nghệ số

hiện nay Chức năng chính của nhận dạng tiếng nói là chuyển đổi tín hiệu âm thanh thành văn bản một cách tự động, từ đó giúp máy tính hiểu và tương tác với con người

thông qua ngôn ngữ tự nhiên Vai trò của nhận dạng tiếng nói không chỉ giới hạn

trong các ứng dụng cá nhân như trợ lý ảo (Google Assistant, Siri, Alexa) mà còn mở

rộng đến các lĩnh vực quan trọng khác như giáo dục, y tế, và giao thông

Trong giáo dục, công nghệ này hỗ trợ tạo ra các công cụ học tập tiên tiến, giúpngười học dễ dàng truy cập thông tin và học tập hiệu quả hơn Trong y tế, nhận dạng

tiếng nói giúp bác sĩ ghi chép hồ sơ bệnh án nhanh chóng, chính xác, từ đó nâng cao

chất lượng dịch vụ chăm sóc sức khỏe Trong giao thông, công nghệ này được ứng

dụng trong các hệ thống điều khiển bằng giọng nói, giúp người lái xe tương tác với

các thiết bị trên xe mà không cần phải rời mắt khỏi đường Tầm quan trọng của nhận

dạng tiếng nói trong đời sống ngày nay càng được khẳng định khi nó góp phần làm

tăng tính tiện ích, hiệu quả và an toàn trong nhiều hoạt động hàng ngày

Việc nghiên cứu và phát triển các mô hình nhận dạng tiếng nói, đặc biệt là cho

ngôn ngữ tiếng Việt, không chỉ đóng góp vào việc bảo tồn và phát triển ngôn ngữ

mà còn thúc đẩy sự phát triển công nghệ của quốc gia Luận văn thạc sĩ của tôi,

mang tựa đề “Xây dựng hệ thống nhận dạng tiếng nói tiếng Việt dựa trên mô hành

Trang 14

Transformer”, tập trung vào mục tiêu xây dựng một hệ thống nhận dạng tiếng nóitiếng Việt tin cậy.

Đầu tiên, luận văn xây dựng và hoàn thiện một bộ dữ liệu nhận dạng tiếng nóitiếng Việt chất lượng cao Bộ dữ liệu này đa dạng và phong phú với các tệp âm thanhtừ nhiều vùng miền và địa phương khác nhau, nhằm khắc phục vấn đề dữ liệu thưavà các thách thức liên quan đến ngôn ngữ tiếng Việt Bên cạnh đó, luận văn cũng tận

dụng tập dữ liệu này để huấn luyện mô hình nhận dạng tiếng nói tiếng Việt có độ

chính xác cao dựa trên các kiến trúc thuộc ho Transformer [I] Cuối cùng, luận văn

trình bày cách thức triển khai mô hình thành một hệ thống hoàn chỉnh nhằm ứng

dụng trong thực tế

Chương này sẽ trình bày bối cảnh, lý do chọn đề tài, mục tiêu, phương phápnghiên cứu và cấu trúc của luận văn

1.1 Bối cảnh

Tiếng Việt, ngôn ngữ chính thức và phổ biến nhất tại Việt Nam, được sử dụng

bởi hơn 90 triệu người trong nước và hàng triệu người Việt Nam sống ở nước ngoài,từng được UNESCO công nhận là một trong những ngôn ngữ phức tạp nhất thế giới

về ngữ âm và ngữ pháp Sự phong phú và đa dạng của tiếng Việt không chỉ thể hiện

qua sự phức tạp của hệ thống thanh điệu với sáu dấu thanh khác nhau mà còn quacấu trúc ngữ pháp linh hoạt và độc đáo Điều này tạo nên một thách thức lớn trong

việc phát triển các công nghệ xử lý ngôn ngữ tự nhiên (NLP), đặc biệt là công nghệ

nhận dạng tiếng nói

Tiếng Việt được xếp vào nhóm các ngôn ngữ có tài nguyên hạn chế trong lĩnh

vực công nghệ ngôn ngữ và xử lý ngôn ngữ tự nhiên Điều này xuất phát từ thực tế

rằng, so với các ngôn ngữ lớn và phổ biến như tiếng Anh, tiếng Trung hoặc tiếng Tây

Ban Nha, tiếng Việt có ít dữ liệu được thu thập và công khai, đặc biệt là các dữ liệu

được gán nhãn chuẩn xác và sâu sắc cho các nghiên cứu và ứng dụng trong lĩnh vực trí tuệ nhân tạo Hơn nữa, các công trình nghiên cứu và phát triển công nghệ liên quan đến tiếng Việt còn thiếu sự hỗ trợ từ các cơ quan, tổ chức lớn hoặc các khoản

Trang 15

đầu tư đáng kể từ ngành công nghiệp, khiến cho việc cải thiện và phát triển các công

cụ xử lý ngôn ngữ tự nhiên cho tiếng Việt trở nên khó khăn hơn Sự khan hiếm này

còn được thể hiện qua số lượng giới hạn các cơ sở dữ liệu âm thanh, văn bản đa ngữ

cảnh, hay các mô hình ngôn ngữ tiên tiến dành riêng cho tiếng Việt Điều này khôngnhững gây trở ngại cho việc huấn luyện các mô hình học sâu phức tạp, mà còn ảnhhưởng đến chất lượng và hiệu quả của các ứng dụng thực tế như dịch máy, nhận dạngtiếng nói và xử lý ngôn ngữ tự nhiên

Trong bối cảnh phát triển công nghệ nhận dạng tiếng nói, tiếng Việt đã thu hút

sự quan tâm từ cộng đồng nghiên cứu từ những năm 1990 Những nghiên cứu ban

đầu tập trung vào các phương pháp thống kê truyền thống như mô hình Markov ẩn (HMM) và mô hình n-gram để nhận dạng các từ và cụm từ trong tiếng Việt Tuy

nhiên, do hạn chế về dữ liệu và công nghệ, các hệ thống này thường gặp khó khăntrong việc đạt được độ chính xác cao Từ những năm 2000 trở đi, với sự tiến bộ củacông nghệ và sự xuất hiện của các công cụ xử lý ngôn ngữ tự nhiên mạnh mẽ hơn,các nhà nghiên cứu đã bắt đầu ứng dụng các mô hình học sâu (Deep Learning) vào

nhận dạng tiếng nói tiếng Việt Dặc biệt, sự ra đời của các kiến trúc mạng neuron

tiên tiến như mạng neuron tích chập (CNN), mạng neuron hồi quy (RNN), mô hình

Transformer đã mang lại những cải tiến đáng kể về hiệu suất và độ chính xác

Các dự án như FOSD (FPT Open Speech Dataset]!| vIvo#†l và các hệ thống

của VAIS, FPT, Viettel, và các tổ chức nghiên cứu khác đã góp phần tạo ra những

bộ dữ liệu phong phú và các mô hình nhận dạng tiếng nói với độ chính xác ngày càng

cao.

‘https: //data.mendeley.com/datasets/k9sxg2twv4/4

?http://ailab.hemus.edu.vn/vivos

Trang 16

Tiếp theo, luận văn áp dụng các kỹ thuật học sâu hiện đại để huấn luyện các mô

hình dựa trên kiến trúc Transformer trên tập dữ liệu đã xây dựng Các mô hình tiêntiến này đã được chứng minh là hiệu quả trong nhiều lĩnh vực của xử lý ngôn ngữ tự

nhiên, nhờ vào khả năng hiểu và xử lý các mối quan hệ phức tạp giữa các phần tử

trong chuỗi dữ liệu.

Ngoài ra, luận văn còn đặt mục tiêu triển khai mô hình thành một hệ thống

hoàn chỉnh, đáp ứng các yêu cầu thực tế của người dùng Hệ thống này không chỉ đạtđược độ chính xác cao mà còn hướng đến việc tối ưu hóa các yếu tố về độ trễ và khả

năng xử lý nhiều yêu cầu đồng thời Đây là những yếu tố then chốt để tích hợp công

nghệ nhận dạng tiếng nói vào các hệ thống hỗ trợ tự động, dịch vụ khách hàng và cáchệ thống tương tác thông minh khác

Trang 17

cao nhất có thể Để đánh giá mô hình, luận văn sẽ sử dụng các phép đo chuẩn, bao

gồm độ chính xác của từ, tỷ lệ lỗi trên từ và thời gian phản hồi, nhằm đảm bảo tính

tin cậy và hiệu quả của mô hình.

Cuối cùng, luận văn triển khai mô hình thành một hệ thống thực tế bằng cách sử dụng các thư viện cân bằng tải và các kiến trúc triển khai phổ biến Điều này giúp hệ thống có khả năng xử lý được nhiều yêu cầu đồng thời, đảm bảo tính ổn định và

hiệu suất cao trong các ứng dụng thực tế

1.3 Bo cục luận văn

Bồ cục của luận văn sẽ bao gồm các phần chính:

Chương |1‡ MỞ ĐẦU: Nêu bối cảnh cần thiết để giải quyết bài toán Phần

này cũng trình bày mục tiêu, phương pháp của luận văn.

Chương KIÊN THỨC LIÊN QUAN: Trình bày các kiến thức liên quan

được sử dụng để xây dựng mô hình giải quyết bài toán.

Chương [3} TONG QUAN VỀ BÀI TOÁN: Thảo luận các khái niệm tổng

quát, các hướng tiếp cận, những thách thức khi giải quyết bài toán Cũng như giớithiệu những công trình, kết quả nghiên cứu đã có, liên quan đến bài toán

Chương |4' THỰC NGHIỆM VÀ DANH GIA: Trình bày về dữ liệu thực

nghiệm dùng để huấn luyện mô hình và các kết quả đạt được Đồng thời thảo luận

về ưu nhược điểm, so sánh các hướng tiếp cận với nhau.

Chương |5] KẾT LUẬN: Kết luận và đưa ra các hướng cải tiến mô hình, cũng

như dùng mô hình để phát triển các hệ thống phức tạp hơn.

Trang 18

Chương 2

KIÊN THỨC LIÊN QUAN

Chương này trình bày các kiến thức cơ bản liên quan đến học sâu, xử lý ngôn

ngữ tự nhiên và xử lý tiếng nói Những kiến thức này bao gồm các khái niệm nền

tảng Mục tiêu của chương là cung cấp cho người đọc hiểu biết chỉ tiết về các phương pháp và công nghệ được sử dụng để giải quyết bài toán nhận dạng tiếng nói tiếng

Việt trong các chương tiếp theo

2.1 Mạng nơ-ron nhân tạo

Mạng nơ-ron nhân tao (Artificial Neural Network - ANN) là một cấu trúc toán

học phức tạp, được thiết kế để mô phỏng hoạt động của hệ thống thần kinh con người.

ANN bao gồm nhiều lớp các đơn vị xử lý đơn giản, gọi là các nơ-ron hoặc nút, được

kết nối với nhau theo một mạng lưới Mỗi nơ-ron thực hiện các phép tính toán học

và truyền thông tin cho các nơ-ron khác thông qua các kết nối có trọng số Các trọngsố này được điều chỉnh trong quá trình huấn luyện mạng, dựa trên thuật toán học

tập như thuật toán lan truyền ngược (backpropagation), nhằm giảm thiểu sai số giữa

đầu ra dự đoán và đầu ra mong muốn ANN có khả năng học hỏi từ dữ liệu và tìm

ra các mẫu an trong dữ liệu phức tap, do đó, nó đã được ứng dụng rộng rãi trong

nhiều lĩnh vực như nhận dạng tiếng nói, xử lý ngôn ngữ tự nhiên, thị giác máy tính,

và nhiều lĩnh vực khác Việc phát triển và áp dụng ANN đã đánh dấu một bước tiến

Trang 19

quan trọng trong lĩnh vực trí tuệ nhân tạo, mở ra nhiều triển vọng mới cho các ứng

dụng công nghệ cao trong đời sống và công nghiệp

2.1.1 Mang nơ-ron tích chap

Mang no-ron tích chập (Convolutional Neural Network - CNN) là một loại mạng

nơ-ron nhân tao đặc biệt, được thiết kế để xử lý dữ liệu có cấu trúc dạng lưới, chang

hạn như hình ảnh và video CNN nổi bật với khả năng tự động học và trích xuất các

đặc trưng từ dữ liệu đầu vào thông qua các lớp tích chap (convolutional layers) Một

lớp tích chập bao gồm một tập hợp các bộ lọc (fñilters) được sử dụng để quét qua dữ

liệu đầu vào và tạo ra các bản đồ đặc trưng (feature maps) Các bộ lọc này có khảnăng phát hiện các đặc trưng cục bộ như cạnh, góc, và kết cấu trong hình ảnh

Bên cạnh các lớp tích chap, CNN còn có các lớp phi tuyến (non-linear layers) và

lớp gộp (pooling layers) để giảm chiều dữ liệu và giữ lại các đặc trưng quan trọng, từ đó giúp giảm thiểu độ phức tạp tính toán và tránh hiện tượng quá khớp (overfitting).

Các lớp phi tuyến thường sử dụng hàm kích hoạt như ReLU (Rectified Linear Unit)

để tạo ra tinh phi tuyến cần thiết cho mạng Lớp gop, chang hạn như lớp gop cực đại

(max pooling), giúp giảm kích thước của bản đồ đặc trưng, đồng thời tăng tính bất

biến đối với các thay đổi nhỏ trong dữ liệu đầu vào.

CNN đã chứng tỏ hiệu quả vượt trội trong nhiều nhiệm vụ liên quan đến thị giácmáy tính, bao gồm nhận dạng và phân loại hình ảnh, phát hiện đối tượng, và nhậndạng ký tự viết tay Sự thành công của CNN không chỉ giới han trong lĩnh vực thịgiác máy tính mà còn được mở rộng sang nhiều ứng dụng khác như xử lý ngôn ngữtự nhiên, dự đoán chuỗi thời gian, và các bài toán liên quan đến dữ liệu dạng lưới

Trang 20

Convolution Pooling Convolution Pooling Fully Fully Output

+ReLU +ReLU Connected Connected perdictions

1A dog (o.01)

wooo Cat (0.01)

Boat (0.94) - Bird (o.94)

Hình 2.1: Minh họa mạng nơ-ron tích chập cơ bản]

2.1.2 Mang nơ-ron hồi quy

Mạng ron hồi quy (Recurrent Neural Network - RNN) là một loại mạng

nơ-ron nhân tạo được thiết kế đặc biệt để xử lý dữ liệu tuần tự hoặc dữ liệu có tính thời gian, chang hạn như văn ban, âm thanh, và chuỗi thời gian Điểm đặc biệt của RNN

so với các mạng nơ-ron truyền thống là khả năng ghi nhớ thông tin từ các bước thời

gian trước và sử dụng thông tin này để ảnh hưởng đến việc xử lý các bước thời gian

hiện tại RNN đạt được khả năng này thông qua các kết nối phản hồi, cho phép đầura của một nơ-ron ở một bước thời gian trước trở thành đầu vào cho bước thời gian

tiếp theo Điều này tạo ra một "trạng thái an"(hidden state) mà mạng có thể duy trì và cập nhật qua mỗi bước thời gian, giúp RNN có thể học và mô hình hóa các phụ

thuộc thời gian và các quan hệ phức tạp trong dữ liệu tuần tự

Tuy nhiên, RNN truyền thống gặp phải một số vấn đề như biến mất gradient

(vanishing gradient) hoặc bùng nổ gradient (exploding gradient) khi xử lý các chuỗi

dài Để khắc phục những hạn chế này, các biến thể của RNN như LSTM (Long Term Memory) va GRU (Gated Recurrent Unit) đã được phát triển LSTM và GRU sử dung các cơ chế cổng (gates) để kiểm soát luồng thông tin và duy trì trạng thai an

Short-qua các bước thời gian dài hơn, giúp mạng có khả năng học các phụ thuộc dài hạn

một cách hiệu quả hơn RNN và các biến thể của nó đã được ứng dụng rộng rãi trong

nhiều lĩnh vực khác nhau Trong xử lý ngôn ngữ tự nhiên, RNN được sử dụng cho

‘https:

//missinglink.ai/guides/convolutional-neural-networks/convolutional-neural-network-tutorial-basic-advanced /

Trang 21

các nhiệm vụ như dịch máy, phân tích cảm xúc, và tạo văn bản tự động Trong nhận

dạng tiếng nói, RNN giúp cải thiện độ chính xác của các hệ thống chuyển đổi tiếng

nói thành văn bản Ngoài ra, RNN còn được áp dụng trong dự đoán chuỗi thời gian

tài chính, phát hiện dị thường trong dữ liệu cảm biến, và nhiều ứng dụng khác liênquan đến dữ liệu tuần tự

Hình 2.2: Cấu trúc của một đơn vị LSTM [|

2.1.3 Kiến trúc Encoder-Decoder

2.1.3.1 Khái niệm

Kiến trúc encoder-decoder là một trong những cấu trúc quan trọng trong lĩnhvực xử lý ngôn ngữ tự nhiên (NLP) Kiến trúc này bao gồm hai thành phần chính: bộ

mã hóa (encoder) và bộ giải mã (decoder) Bộ mã hóa chuyển đổi đầu vào thành một

biểu diễn không gian tiềm an, trong khi bộ giải mã sử dụng biểu diễn này để tái tạo

đầu ra mong muốn Bộ mã hóa nhận chuỗi đầu vào và mã hóa nó thành một vectorcó kích thước cố định, thường được gọi là vector ngữ cảnh (context vector) Vectornày chứa thong tin ngữ nghĩa của toàn bộ chuỗi đầu vào Bộ giải mã sau đó sử dung

vector ngữ cảnh để tạo ra chuỗi đầu ra, từng bước một, dựa trên các tham số đã được

“https: /

/www.groundai.eom/project/improving-long-horizon-forecasts-with-expectation-biased-Istm-networks/1

10

Trang 22

Kiến trúc encoder-decoder có nhiều ưu điểm so với các kiến trúc khác trong xử

lý ngôn ngữ tự nhiên Thứ nhất, nó có khả năng xử lý chuỗi đầu vào và chuỗi đầu

ra có độ dài khác nhau, vượt qua giới hạn của các mô hình truyền thống như n-gram

hay các mô hình Markov Thứ hai, kiến trúc này linh hoạt và mạnh mẽ, có thể áp

dụng cho nhiều tác vụ khác nhau trong NLP như dịch máy, tóm tắt văn bản, tạo văn

bản và nhiều ứng dụng khác Thứ ba, nhờ vector ngữ cảnh, mô hình có thể nắm bắt

thông tin ngữ nghĩa toàn diện của chuỗi đầu vào, giúp cải thiện độ chính xác và tínhnhất quán của chuỗi đầu ra Cuối cùng, kiến trúc này là nền tang cho nhiều mô hìnhtiên tiến khác như TransformerH], BERTIĐI, những mô hình đã đạt được nhiều thành

tựu nổi bật trong NLP.

Khả năng ứng dụng của kiến trúc encoder-decoder trong bài toán nhận dạngtiếng nói rất đáng chú ý Trong bài toán này, bộ mã hóa (encoder) có nhiệm vụ tiếpnhận và mã hóa chuỗi âm thanh đầu vào thành một vector ngữ cảnh, chứa đựng toàn

bộ thông tin cần thiết để hiểu được ngữ cảnh của âm thanh đó Bộ giải mã (decoder)

sau đó sử dụng vector này để tạo ra chuỗi văn bản tương ứng, từng từ một, phản

ánh chính xác những gì được nói trong chuỗi âm thanh Sự linh hoạt của kiến trúc

encoder-decoder cho phép nó xử lý hiệu quả các biến thể khác nhau trong giọng nói,

ngữ điệu và tốc độ nói

11

Trang 23

2.1.3.2 Co chế Attention

Cơ chế attention là một cải tiến quan trọng trong các mô hình xử lý ngôn ngữtự nhiên, đặc biệt trong kiến trúc encoder-decoder Cơ chế này cho phép mô hình tập

trung vào các phần cụ thể của đầu vào khi tạo ra từng phần của đầu ra, thay vì dựa

vào một biểu diễn cố định duy nhất Khi sử dụng cơ chế attention, tại mỗi bước giải

mã, mô hình sẽ tính toán một trọng số cho từng vị trí trong chuỗi đầu vào, xác địnhmức độ quan trọng của từng phần đầu vào đối với phần đầu ra hiện tại Trọng số nàygiúp mô hình “chi y” đến các từ hoặc âm thanh có liên quan nhất, từ đó cải thiện độchính xác và ngữ cảnh của kết quả đầu ra

Cơ chế attention trở nên cần thiết vì trong nhiều tác vụ ngôn ngữ tự nhiên,

thông tin quan trọng thường phân tán khắp chuỗi đầu vào và không chỉ giới hạn ởmột đoạn nhất định Trong các mô hình không sử dụng attention, như các mô hìnhdựa trên vector ngữ cảnh cố định, có nguy cơ mat mát thông tin quan trọng khi chiều

#https://vitalflux.com/eneoder-decoder-architecture-neural-network/

12

Trang 24

dai chuỗi đầu vào tăng lên Điều này đặc biệt quan trong trong các tác vụ như dich

máy, nơi mà mỗi từ trong đầu ra có thể liên quan đến các từ khác nhau trong đầu vào Bằng cách sử dụng cơ chế attention, mô hình có thể nắm bắt các mối quan hệ

phức tạp và ngữ cảnh toàn diện hơn, dẫn đến hiệu suất và độ chính xác cao hơn trongcác ứng dụng thực tế

Trong lĩnh vực nhận dạng tiếng nói, cơ chế attention đóng vai trò thiết yếu trong

việc xử lý các biến thể ngữ âm và ngữ điệu phức tạp của ngôn ngữ Khi nhận dạng

tiếng nói, mô hình cần xác định những phần quan trọng của chuỗi âm thanh đầu vào

để chuyển đổi chính xác thành văn bản Attention giúp mô hình xác định các đoạn

âm thanh có liên quan mật thiết đến từ hoặc cụm từ hiện tại cần giải mã, cho phépxử lý hiệu quả các yếu tố như tốc độ nói khác nhau, tiếng địa phương và các yếu tố

nhiễu khác Nhờ cơ chế này, mô hình nhận dạng tiếng nói có thể tập trung vào các

phần quan trọng của âm thanh, cải thiện độ chính xác trong việc nhận diện từ ngữ

và cung cấp ngữ cảnh chính xác hơn cho đầu ra

Trang 25

2.1.3.3 Cơ chế Self-Attention

Cơ chế self-attention là một biến thể tiên tiến của cơ chế attention, đóng vai trò

quan trọng trong các mô hình xử lý ngôn ngữ tự nhiên hiện đại, đặc biệt là trong

mô hình Transformer Self-attention, hay còn gọi là intra-attention, cho phép mỗi từ

trong chuỗi đầu vào chú ý đến tất cả các từ khác trong cùng một chuỗi, bao gồm cả

chính nó Điều này giúp mô hình hiểu được mối quan hệ giữa các từ bất kể khoảng

cách giữa chúng trong chuỗi, từ đó nắm bắt ngữ cảnh và các mối quan hệ ngữ nghĩa

một cách toàn diện hơn.

Ưu điểm của cơ chế self-attention so với cơ chế attention truyền thống nằm ở khả

năng xử lý đồng thời và hiệu quả cao Trong khi cơ chế attention truyền thống yêucầu tính toán trọng số cho từng cặp từ giữa chuỗi đầu vào và đầu ra, self-attentioncho phép tính toán các trọng số cho toàn bộ chuỗi đầu vào trong một bước duy nhất

Điều này giúp giảm thiểu thời gian tính toán và tăng cường khả năng song song hóa,

làm cho quá trình huấn luyện và suy luận trở nên nhanh hơn và hiệu quả hơn Ngoài

ra, self-attention có khả năng xử lý tốt các mối quan hệ dai han trong chuỗi dữ liệu,điều mà các mô hình trước đây thường gặp khó khăn

Sử dụng cơ chế self-attention trong các mô hình xử lý ngôn ngữ tự nhiên mang

lại nhiều lợi ích đáng kể Thứ nhất, self-attention cho phép mô hình tập trung vào

các phần quan trọng của chuỗi đầu vào một cách toàn diện, không bị giới hạn bởi độ

dài chuỗi hay vị trí của các từ trong chuỗi Thứ hai, cơ chế này giúp giảm thiểu vấn

đề mất mát thông tin trong các chuỗi dài, nhờ vào khả năng nắm bắt ngữ cảnh toàncầu và các mối quan hệ ngữ nghĩa phức tạp Cuối cùng, khả năng song song hóa caocủa self-attention giúp tăng tốc độ huấn luyện và cải thiện hiệu suất của các mô hình,làm cho chúng phù hợp với các ứng dụng yêu cầu xử lý dữ liệu lớn và phức tạp nhưdịch máy, tóm tắt văn bản, và nhận dạng tiếng nói

14

Trang 26

Hình 2.5: Minh họa cơ chế self-attention f|

2.1.3.4 Transformer

Kiến trúc Transformer [I] là một trong những bước đột phá quan trọng tronglĩnh vực học sâu, đặc biệt là trong xử lý ngôn ngữ tự nhiên Cấu trúc của Transformerbao gồm hai phần chính là encoder va decoder Encoder của Transformer gồm mộtchuỗi các lớp giống hệt nhau, mỗi lớp bao gồm hai tầng: tầng self-attention và tầng

mạng no-ron đầy đủ liên kết Tương tự, decoder cũng gồm một chuỗi các lớp giống

hệt nhau nhưng thêm một tầng attention nữa để lấy thông tin từ đầu ra của eneoder.

Mỗi lớp trong cả encoder va decoder đều sử dung cơ chế residual connection va layer

normalization để duy trì ổn định trong quá trình huấn luyện.

Một số khái niệm chính của kiến trúc Transformer bao gồm cơ chế self-attention

và multi-head attention Self-attention cho phép mô hình tính toán sự phụ thuộc giữa

các từ trong câu, bất kể khoảng cách của chúng Multi-head attention giúp mô hình

học các loại thông tin khác nhau ở các không gian con khác nhau của đầu vào Thêm

vào đó, positional encoding được sử dung để cung cấp thông tin về vi trí của các từ

trong câu, giúp mô hình Transformer xử lý các chuỗi dữ liệu mà không cần sử dụng

”“https://arxiv.org/pdf/1706.03762

15

Trang 27

các mạng hồi quy truyền thống.

Scaled Dot-Product

Attention ⁄

Hình 2.6: Minh họa cơ chế multi-head attention |

So với các kiến trúc truyền thống như RNN hay LSTM, Transformer có nhiều wu

điểm vượt trội No có khả năng tính toán song song, giúp giảm thời gian huấn luyện đáng kể Hơn nữa, cơ chế self-attention cho phép mô hình học được các mối quan hệ

dài hạn tốt hơn, điều mà các mạng hồi quy gặp nhiều khó khăn Trong bài toán nhận

dạng tiếng nói, Transformer tỏ ra ưu việt nhờ khả năng xử lý các chuỗi dữ liệu dài

và phức tạp một cách hiệu quả, đồng thời giảm thiểu hiện tượng mất mát thông tin

do độ dài chuỗi quá lớn Điều này làm cho Transformer trở thành lựa chọn hàng đầu

trong việc phát triển các hệ thống nhận dạng tiếng nói hiện đại.

https: / /arxiv.org/pdf/1706.03762

16

Trang 28

Mô hình Whisper|3] được thiết kế nhằm cải thiện khả năng nhận dang giọng

nói thông qua việc sử dụng các kỹ thuật học sâu và một tập dữ liệu đa dạng khổng

16 Whisper sử dụng kiến trúc Transformer với các thành phần chính gồm encoder và

decoder.

“https: / /arxiv.org/pdf/1706.03762

17

Trang 29

Sequence-to-sequence learning fen [ee

CRIBE 0.0 The quick brown

Transformer Encoder Blocks cross attention

Sinusoidal Positional

Encoding

next-token prediction

Transformer

Decoder Blocks

Learned Positional

Encoding

Hình 2.8: Minh hoa kiến trúc của mô hình Whisper [|

Whisper được huấn luyện trên một khối lượng lớn dữ liệu âm thanh đa ngôn

ngữ và đa tác vụ, với tổng số lên đến 680.000 giờ Quá trình huấn luyện này bao gồm

nhiều nhiệm vụ khác nhau như nhận dạng giọng nói, dịch thuật và phát hiện hoạt

động giọng nói Để xử lý nhiều tác vụ trên cùng một tín hiệu âm thanh đầu vào, mô

hình sử dụng một chuỗi các token đầu vào cho decoder, cho phép nó học cách xử lý

nhiều ngữ cảnh và định dạng khác nhau Điều này giúp mô hình có khả năng tổng

quát hóa tốt và đạt hiệu suất cao mà không cần phải tỉnh chỉnh cho từng tập dữ liệu

cụ thể.

Multitask training format Language Xx

identification Transcription Time-aligned transcription

}

t } 5

LANGUAGE TC TRANSCRIBE begin > text tokens lia

time

end time j °°" begin VÌ texttokens > ond

time time

previous START OF

PREV nal text tokens TRANSCRIPT

i NO TRANSLATE No text tokens

SPEECH TIMESTAMPS Custom vocabulary /

prompting Ỷ ` † \ +

Voice activity \ X— English

special text timestamp CN \_ Translation

tokens tokens tokens —

Hình 2.9: Minh hoa định dạng của các token dùng để huấn luyện trong Whisper |

https: //cdn.openai.com/papers/whisper.pdf

18

(allows dataset-specific fir

Text-only transcription

Trang 30

Kết quả của mô hình Whisper cho thấy nó có thể đạt được độ chính xác cao và ồn định trong nhiều môi trường khác nhau mà không cần tinh chỉnh đặc thù cho từng

tập dữ liệu Mô hình này không chỉ cải thiện đáng kể hiệu suất nhận dạng tiếng nói

tiếng Anh mà còn mở rộng khả năng sang các ngôn ngữ khác Điều này chứng tỏ hiệuquả của quá trình học giám sát yếu (weak supervision) trong các bài toán liên quanđến tiếng nói

2.1.3.6 Conformer

Kiến trúc Conformerl4| được phát triển nhằm kết hợp những ưu điểm của mang neural tích chập (CNN) và mô hình Transformer để cải thiện hiệu suất nhận dạng tiếng nói (ASR) Đặc điểm nổi bật của Conformer là khả năng mô hình hóa cả phụ

thuộc cục bộ và toàn cục của chuỗi âm thanh một cách hiệu quả.

Conformer bao gồm bốn thành phần chính được sắp xếp tuần tự trong mỗi khốiConformer: module feed-forward, module tự chú ý đa đầu (MHSA), module tích chậpvà module feed-forward thứ hai Cấu trúc này được lấy cảm hứng từ Macaron-Net,

trong đó các module feed-forward được đặt trước và sau module tự chú ý và tích chập,

nhằm tối ưu hóa việc học các đặc trưng cục bộ và toàn cục

®https://cdn.openai.com/papers/whisper.pdf

19

Trang 31

' ' ' ' ' ' '

'

' 1 ' ' ' ' ' '

' ' '

' '

40 ms rate h

' ' ' ' '

'

' ' ' ' ' ' '

' ' '

' ' ' ' ' '

Hình 2.10: Minh họa kiến trúc của Conformer encoder,

Module tích chập trong kiến trúc Conformer được thiết kế để kết hợp hiệu quả

khả năng học các đặc trưng cục bộ của chuỗi âm thanh Module này bắt đầu với một

cơ chế cong, cụ thể là tích chập điểm và đơn vị tuyến tính có cổng (GLU), giúp kiểm

soát dòng thông tin thông qua các mang neural Tiếp theo đó, một lớp tích chap độsâu một chiều (1-D depthwise convolution) được áp dụng, giúp nắm bắt các mẫu đặc

trưng cục bộ trong dữ liệu âm thanh Sau khi thực hiện tích chập, một lớp chuẩn hóa theo batch (BatchNorm) được sử dung để hỗ trợ trong quá trình huấn luyện mô hình

sâu Cuối cùng, module tích chập kết thúc bằng một lớp kích hoạt Swish, giúp cải

thiện sự lan truyền gradient và hiệu suất tổng thể của mô hình.

» Pointwise _, Glu : › Swish » Pointwise |_, | ì

yep Conv Activation regis Sey >| Activation Conv TREE fe a ⁄

Hình 2.11: Minh họa module tích chập trong Conformoi"]

19https:/ /arxiv.org/pdf/2005.08100

20

Trang 32

So với kiến trúc Transformer truyền thống, Conformer ưu điểm nổi bật là khả

năng kết hợp thông tin cục bộ và toàn cục một cách hiệu quả, nhờ sự kết hợp giữacác module tích chập và tự chú ý Điều này giúp Conformer đạt được kết quả nhậndạng tiếng nói vượt trội, với tỷ lệ lỗi từ (WER) thấp hơn so với các mô hình trước

đó, như Transformer Transducer[5] và các mô hình CNN khác Ngoài ra, Conformer

còn hiệu quả hơn về tham số, giảm số lượng tham số cần thiết để đạt được hiệu suất

tương đương hoặc tốt hơn so với các mô hình khác

hiện một cách can thận nhằm tạo ra một tập dữ liệu chuẩn hóa, hỗ trợ tăng cường

hiệu quả học tập của mô hình Việc chú trọng vào xử lý ngôn ngữ tự nhiên không chỉ

giúp cải thiện độ chính xác của quá trình nhận dạng tiếng nói mà còn đảm bảo rằng

các kết quả đầu ra phù hợp với đặc điểm của ngôn ngữ mong muốn.

2.2.1 Mô hình ngôn ngữ

Trong lĩnh vực xử lý ngôn ngữ tự nhiên, mô hình ngôn ngữ đóng vai trò hết sức

quan trọng trong việc phân tích và hiểu ngữ cảnh của các văn bản Mô hình ngôn ngữ là một hệ thống học máy được thiết kế để dự đoán xác suất của một chuỗi từ trong ngôn ngữ tự nhiên Các mô hình này có thể được áp dụng trong nhiều ứng dụng khác

nhau như dịch máy, nhận dạng tiếng nói, phân loại văn bản, và nhiều ứng dụng khác

Có nhiều loại mô hình ngôn ngữ khác nhau, bao gồm các mô hình dựa trên thống kê

như N-gram, các mô hình dựa trên mạng nơ-ron truyền thống như RNN (Recurrent

1!https:/ /arxiv.org/pdf/2005.08100

21

Trang 33

Neural Network), và các mô hình tiên tiến hơn dựa trên Transformer Các mô hình

ngôn ngữ tiêu biểu khác bao gồm LSTM (Long Short-Term Memory), GRU (Gated

Recurrent Unit), BERT (Bidirectional Encoder Representations from Transformers)

[2], GPT-3 (Generative Pre-trained Transformer) [6], và XLNet[7].

Mô hình N-gram là một trong những mô hình ngôn ngữ đơn giản nhất, sử dung

xác suất có điều kiện của một từ dựa trên những từ liền kề trước đó Ưu điểm của mô hình N-gram là dễ triển khai và tính toán nhanh chóng Tuy nhiên, nhược điểm của nó là không thể nắm bắt được các mối quan hệ từ xa trong câu và hiệu suất giảm đáng kể khi chiều dài chuỗi từ tăng Mô hình ngôn ngữ dựa trên RNN được thiết kế để xử lý dữ liệu tuần tự và có khả năng ghi nhớ thông tin theo thời gian Điều này

cho phép RNN nắm bắt được các mối quan hệ từ xa hơn so với N-gram Tuy nhiên,

RNN gặp phải vấn đề về độ dài của chuỗi thông tin do hiệu ứng biến mất của gradient

khi chiều dài chuỗi tăng lên Các biến thể của RNN như LSTM và GRU đã cải thiện

khả năng ghi nhớ thông tin dài hạn và giảm bớt vấn đề này Mô hình Transformer,xuất hiện như một bước đột phá trong xử lý ngôn ngữ tự nhiên, khắc phục được cáchạn chế của RNN bằng cách sử dụng cơ chế tự chú ý (self-attention) Cơ chế này chophép mô hình nắm bắt được các mối quan hệ từ xa một cách hiệu quả hơn và song

song hóa quá trình huấn luyện, giúp tăng tốc độ xử lý Mặc dù vậy, nhược điểm của

mô hình ngôn ngữ dựa trên Transformer là yêu cầu tài nguyên tính toán lớn và cần

nhiều dữ liệu để huấn luyện mô hình hiệu quả Các mô hình ngôn ngữ hiện đại như

BERT và GPT-3 đã chứng minh hiệu suất vượt trội trong nhiều tác vụ xử lý ngôn

ngữ tự nhiên, trong khi XLNet kết hợp những ưu điểm của các mô hình trước đó để

cải thiện hiệu suất dự đoán ngữ cảnh

22

Trang 34

Với moi ngôn ngữ, từ là đơn vị nhỏ nhất có ý nghĩa Vì vậy, việc xử ly văn bản ở

mức từ là bước đầu tiên và quan trọng nhất của bất kỳ hệ thống xử lý ngôn ngữ nào

Dé xử lý được các từ, cần phải tách các từ riêng biệt ra với nhau (word segmentation) Không giống như các ngôn ngữ khác, điển hình là tiếng Anh với các từ được phan biệt bởi khoảng trắng, các từ trong tiếng Việt có thể bao gồm nhiều âm tiết và khoảng

trắng chỉ tách được các âm tiết với nhau chứ không phân cách được các từ Ví dụ,

„22 66, (có

câu “toi yêu lập trinh” bao gồm bốn âm tiết (“+ôi”, “uêu”, “lập”, “trinh”) nhưng chỉ bao

gồm ba từ (“2ôi”, “yêu”, “lập trình”) Tiếng Việt còn nổi tiếng với nhiều nhập nhằng ngữ nghĩa như trong câu “cu già di nhanh quá” có thé hiểu theo cách “cu già đi nhanh

quá” (ám chỉ một cụ già đi rất nhanh trên đường) hoặc “cụ già đi nhanh quá” (ám

chỉ lời nhận xét về sự già nua nhanh chóng của một người cao tuổi) Nếu các từ được

tách trong câu một cách chính xác thì sẽ tránh được nhập nhằng về mặt ngữ nghĩa

Word Piece Model (WPM)|S| là một phương pháp tách từ được sử dụng rộng rãi

trong các mô hình xử lý ngôn ngữ tự nhiên, đặc biệt là trong các bài toán liên quan

đến ngôn ngữ có cấu trúc phức tạp như tiếng Việt Phương pháp này phân tách vănbản thành các đơn vị nhỏ gọi là “word pieces”, bao gồm cả từ nguyên và các phần của

12https://www.pykonik.org/media/slides/tech-talks-49-statistical-language-modeling-with-n-grams-in-python.pdf

23

Trang 35

từ Các “word pieces” này được hình thành thông qua một quá trình học không giám

sát, nơi một thuật toán tối wu hóa số lượng các đơn vị sao cho phù hợp nhất với cấutrúc và tần suất xuất hiện của các từ trong một tập dữ liệu lớn

WPM bắt đầu bằng cách phân tích một tập hợp lớn dữ liệu văn bản và xác địnhtần suất xuất hiện của các từ và cụm từ Sau đó, nó sử dụng một giải thuật tham

lam để phân chia từ thành các đơn vị nhỏ hơn dựa trên tần suất chung của chúng, đồng thời giảm thiểu số lượng các đơn vị tổng thể cần thiết để biểu diễn toàn bộ dữ

liệu Quá trình này giúp giảm thiểu sự phụ thuộc vào từ điển và cải thiện khả năng

xử lý ngôn ngữ một cách linh hoạt hơn Trong bối cảnh xử lý ngôn ngữ tiếng Việt,WPM đặc biệt có ích do tiếng Việt là ngôn ngữ có tính chất chắp ghép cao, với nhiều

từ ghép và biến thể của từ WPM giúp giải quyết các thách thức này bằng cách học

được cách phân tách từ một cách hiệu quả, từ đó hỗ trợ cải thiện độ chính xác của

các mô hình học máy trong việc nhận dạng và xử lý ngôn ngữ tự nhiên tiếng Việt

2.2.3 Word embedding

Word embedding là một kỹ thuật trong xử lý ngôn ngữ tự nhiên, được sử dung

để ánh xạ các từ hoặc cum từ trong ngôn ngữ tự nhiên vào một không gian vectơ số học có chiều thấp Mỗi từ hoặc cụm từ được biểu diễn dưới dạng một vectơ số,

trong đó các từ có ngữ nghĩa tương tự sẽ có các vectơ gần nhau trong không gian này

Các phương pháp phổ biến để tạo ra word embedding bao gồm Word2Ved!| GloVe (Global Vectors for Word Representation)!“ va Fast Text!

Vai trò của word embedding là hết sức quan trong trong việc cải thiện hiệu suấtcủa các mô hình học máy và mạng nơ-ron trong xử lý ngôn ngữ tự nhiên Bằng cách

biểu diễn từ dưới dạng các vectơ, word embedding cho phép mô hình hoc máy hiểu

và nắm bắt được các mối quan hệ ngữ nghĩa và cú pháp giữa các từ Diều này giúp

các mô hình không chỉ dựa vào tần suất xuất hiện của từ mà còn hiểu được ngữ cảnh

sử dụng của từ, từ đó nâng cao độ chính xác trong các tác vụ như phân loại văn bản,

13https://arxiv.org/abs/1301.3781 M“4nttps: //nlp.stanford.edu/pubs/glove.pdf

https: //arxiv.org/abs/1607.04606

24

Trang 36

dịch máy, và nhận dạng tiếng nói.

Việc sử dụng word embedding là cần thiết vì nó giúp giải quyết một số vấn đề

cơ bản trong xử lý ngôn ngữ tự nhiên Trước tiên, nó giảm chiều dữ liệu đầu vào bằng

cách ánh xạ các từ vào một không gian vectơ có chiều thấp hơn so với số lượng từ

vựng gốc, điều này giúp giảm thiểu độ phức tạp tính toán và tăng hiệu suất của mô

hình Thứ hai, word embedding giúp mô hình học được các quan hệ ngữ nghĩa giữa

các từ, cho phép mô hình hiểu được các từ đồng nghĩa, trái nghĩa, và các mối quan

hệ khác trong ngữ cảnh, điều mà các phương pháp truyền thống dựa trên tần suất

không thể làm được Cuối cùng, word embedding cung cấp một cách tiếp cận thống nhất để xử lý các từ mới hoặc hiếm gặp, nhờ vào khả năng nội suy trong không gian

vectd.

2.3 Xử lý tiếng nói

Xử lý tiếng nói đóng vai trò then chốt trong việc giải quyết bài toán nhận dạng

tiếng nói Xử lý tiếng nói bao gồm việc phân tích các đặc trưng âm thanh như tần số,

cường độ và ngữ điệu để đảm bảo sự chính xác và tự nhiên của kết quả nhận dạng.

Các bước cơ bản trong xử lý tiếng nói bao gồm tiền xử lý tín hiệu, trích xuất

đặc trưng, và nhận dạng mẫu Tiền xử lý tín hiệu giúp làm sạch và chuẩn hóa dữ

liệu âm thanh, loại bỏ nhiễu và điều chỉnh các biến dạng âm thanh Trích xuất đặc

trưng là quá trình biến đổi tín hiệu âm thanh thô thành các đặc trưng số có ý nghĩa, chang hạn như các hệ số Mel-Frequency Cepstral Coefficients (MFCCs), để làm đầu

vào cho các mô hình học máy Cuối cùng, nhận dạng mẫu sử dụng các mô hình học

máy, chẳng hạn như mạng nơ-ron sâu (DNN), mạng nơ-ron tích chập (CNN), và các

mô hình tiên tiến như Transformer, để dự đoán và chuyển đổi các đặc trưng âm thanh

thành văn bản.

25

Trang 37

2.3.1 Ngữ âm học

Ngữ âm hoc (Phonetics) nghiên cứu về cách thức các âm thanh lời nói đượctạo ra và nhận biết Ñgữ âm học bao gồm hai lĩnh vực chính: ngữ âm học phát âm

(Articulatory Phonetics) và ngữ âm học âm hoc (Acoustic Phonetics) Ngữ âm học

phát âm tập trung vào cách các âm thanh lời nói được tạo ra thông qua sự chuyển

động của các bộ phận trong đường hô hấp, như lưỡi, môi, và thanh quản Ñgữ âmhọc âm học nghiên cứu các đặc tính âm thanh của các âm thanh lời nói, bao gồm tầnsố, cường độ, và thời gian

2.3.1.1 Ngữ âm học phat âm

Trong lĩnh vực ngữ âm hoc, quá trình tạo ra 4m thanh ngôn ngữ bởi cấc cơ quan

phát âm là một quá trình phức tạp và tỉnh vi, đòi hỏi sự phối hợp nhịp nhàng giữa

nhiều bộ phận khác nhau của cơ thể con người Quá trình này bắt đầu từ việc hít vào

và thở ra của phổi, và không khí được đẩy qua các bộ phận phát âm để tạo ra âm

thanh.

Quá trình phát âm bắt đầu từ phổi, nơi không khí được lấy vào và đẩy ra Khi hít vào, không khí tràn vào phổi, và khi thở ra, không khí được day ra ngoài qua khí quản Phổi cung cấp luồng không khí cần thiết để tạo ra âm thanh Không khí từ phổi đi qua khí quản và tới thanh quản, nơi chứa các nếp gấp nhỏ gọi là dây thanh.

Thanh quản, còn được biết đến với tên gọi hộp âm hoặc yết hầu, đóng vai trò quantrọng trong việc điều chỉnh luồng không khí và tạo ra các dao động âm thanh Khicác dây thanh gần nhau và rung, chúng tạo ra các âm thanh có tiếng (voiced sounds)

Ngược lại, khi các dây thanh mở ra và không rung, chúng tạo ra các âm thanh không

tiếng (voiceless sounds)

Khu vực trên khí quan gọi là đường thanh quan, bao gồm đường miệng và đường

mũi Sau khi không khí đi qua thanh quản, nó có thể thoát ra ngoài cơ thể qua miệng

hoặc mũi Phần lớn các âm thanh được tạo ra khi không khí đi qua miệng Tuy nhiên,

âm vị mũi (nasal sounds) được tạo ra khi không khí di qua mũi, chang hạn như các

âm [ml], [n], và [ng] Các bộ phận phát âm chủ yếu bao gồm môi, răng, nướu răng,

26

Trang 38

vòm miệng mềm và khe thanh môn Mỗi bộ phận này đóng vai trò quan trọng trong

việc tạo ra các loại âm thanh cụ thể: Đóng và mở môi có thể tạo ra các âm vị hai môi như [p], [b|, [m] Lưỡi có thể chạm vào răng để tạo ra các âm vi răng như [th] và [dh] Đầu lưỡi chạm vào nướu răng để tạo ra các âm vị nướu như [s], [z], [t], [d] Lưỡi cham vào vòm miệng mềm để tạo ra các âm vị vòm mềm như [k], [g], [ng] Khe thanh môn đóng lại để tao ra âm ngắt thanh [q].

Cách phát âm của các âm vị được phân loại theo cách thức mà luồng không khí

bị hạn chế: Luồng không khí bị chặn hoàn toàn trong thời gian ngắn và sau đó được

giải phóng nhanh chóng, tạo ra âm bùng nổ, ví du: [p], [t], [k] Luồng không khí bị

hạn chế nhưng không bi chặn hoàn toàn, tạo ra âm xì đặc trưng, ví dụ: [f], [s] Các

cơ quan phát âm gần nhau nhưng không đủ gần để tạo ra luồng không khí hỗn loạn,

ví dụ: [y] trong “yellow”, [w] trong “wood”.

Ngữ âm học âm học, hay còn gọi là ngữ âm học âm thanh, là một nhánh của

ngữ âm học chuyên nghiên cứu về các đặc tính vật lý của âm thanh ngôn ngữ Lĩnh

18h ttps:/ /web.stanford.edu/class /cs224s /semesters/2024-spring /lecture-slides /224s.24.lec2.pdf

27

Trang 39

vực này tập trung vào việc phân tích các yếu tố như tần số, biên độ, thời gian, vàcường độ của âm thanh khi chúng được phát ra từ các cơ quan phát âm và truyền

qua không gian Ngữ âm học âm học không chi quan tâm đến cách âm thanh được

tạo ra, mà còn nghiên cứu cách chúng được truyền đi và cảm nhận bởi người nghe Sử

dụng các công cụ và phương pháp đo lường chính xác, các nhà ngữ âm học âm học có

thể xác định và phân tích các mẫu âm thanh phức tạp, giúp làm sáng tỏ những đặc trưng âm thanh cụ thể của các ngôn ngữ khác nhau.

Tần số là số lần dao động của sóng âm trong một giây, được do bang hertz (Hz).Tần số cơ ban (fundamental frequency, F0) của âm thanh được xác định bởi tốc độ

dao động của dây thanh Âm thanh có tần số cơ bản cao thường được cảm nhận là

cao (high-pitched), trong khi âm thanh có tần số cơ bản thấp được cảm nhận là thấp

(low-pitched) Tần số cơ bản đóng vai trò quan trọng trong việc phân biệt giữa các

nguyên âm và phụ âm.

Biên độ là mức độ thay đổi áp suất không khí, đại diện cho độ mạnh yếu của

âm thanh Biên độ càng lớn, âm thanh càng lớn và ngược lại Biên độ của âm thanh

thường được do bang decibel (dB) Sự biến đổi biên độ giúp tạo nên các đặc trưng

như cường độ (intensity) và độ lớn (loudness) của âm thanh.

Dạng sóng của âm thanh là biểu đồ biểu diễn sự thay đổi của áp suất không khí

theo thời gian Mỗi âm thanh có một dạng sóng đặc trưng, phản ánh cấu trúc tần sốvà biên độ của nó Dạng sóng cung cấp thông tin về cấu trúc thời gian của âm thanh

và giúp phân tích các đặc trưng âm học như thời gian (duration) và mẫu hình dao

động (oscillation patterns).

0.02283:

-0.01697+

Trang 40

2.3.2 Xử lý tín hiệu số

Trong lĩnh vực khoa học máy tính và kỹ thuật, Xử lý Tín hiệu Số (DSP) đóng

một vai trò vô cùng quan trọng DSP liên quan đến việc phân tích và xử lý các tín hiệu

số, bao gồm các tín hiệu âm thanh và hình ảnh Phần này sẽ trình bày về các khái

niệm cơ bản trong DSP, tập trung vào việc biểu diễn tín hiệu số, phân tích Fourier, và biểu đồ phổ (spectrograms).

2.3.2.1 Biểu diễn tín hiệu số

Âm thanh được định nghĩa là sự thay đổi áp suất trong không khí, được tạo ra

bởi các rung động Khi một dây đàn guitar rung lên, nó tạo ra các rung động lan

truyền qua các phân tử trong không khí, và khi các rung động này đến microphone,

chúng được chuyển đổi thành tín hiệu điện Biểu đồ của áp suất theo vị trí cho thấy dạng sóng sin quen thuộc Để lưu trữ âm thanh trong máy tính, tín hiệu analog từ microphone được chuyển đổi thành tín hiệu số thông qua bộ chuyển đổi Analog sang

Digital (ADC) Quá trình này bao gồm hai bước chính: lấy mẫu (sampling) và lượng

tử hóa (quantization).

Lấy mẫu là quá trình chuyển đổi tín hiệu liên tục thành một chuỗi các giá trị

rời rạc, trong đó tỷ lệ mẫu (sample rate) là số lượng mẫu âm thanh được đo trongmột giây Các giá trị này được ghi lại tại các khoảng thời gian đều đặn, và tỷ lệ mẫu

pho biến bao gồm 8kHz, 22.05kHz, 44.1kHz Lượng tử hóa là quá trình chuyển đổi

các giá trị liên tuc của tín hiệu thành các giá trị rời rac, được biểu diễn bằng số bit

(bit depth) Điều này bao gồm việc làm tròn các giá trị liên tục đến các mức rời rạc

gần nhất, với độ sâu bit phổ biến là 8, 16, 24, hoặc 32 bit.

Tín hiệu số được biểu diễn dưới dạng Pulse-Code Modulation (PCM) PCM là một phương pháp quan trọng và phổ biến để lưu trữ và truyền tải âm thanh số vì nó

giữ nguyên được chất lượng âm thanh gốc mà không mất mát thông tin Điều này

làm cho PCM trở thành một tiêu chuẩn trong việc lưu trữ âm thanh trong các định

dang không nén như WAV và AIFF PCM có các đặc điểm sau:

29

Tiêu đề	Xây dựng hệ thống nhận dạng tiếng nói tiếng Việt dựa trên mô hình Transformer
Tác giả	Trương Tiến Toàn
Người hướng dẫn	PGS. TS Nguyễn Phương Thái
Trường học	Đại học Quốc gia Hà Nội
Chuyên ngành	Khoa học máy tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2024
Thành phố	Hà Nội

Định dạng
Số trang	100
Dung lượng	28,32 MB

Tài liệu tham khảo	Loại	Chi tiết
[7] Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Russ R Salakhutdi-nov, and Quoc V Le. Xlnet: Generalized autoregressive pretraining for language understanding. Advances in neural information processing systems, 32, 2019	Khác
[8] Taku Kudo and John Richardson. Sentencepiece: A simple and language indepen- dent subword tokenizer and detokenizer for neural text processing. arXiv preprintarXtv:1808.06226, 2018	Khác
[9] Daniel S Park, William Chan, Yu Zhang, Chung-Cheng Chiu, Barret Zoph,Ekin D Cubuk, and Quoc V Le. Specaugment: A simple data augmentation method for automatic speech recognition. arXiv preprint arXiv:1904.08779, 2019	Khác
[10] Alexandre Defossez, Gabriel Synnaeve, and Yossi Adi. Real time speech enhance-ment in the waveform domain. arXiv preprint arXiv:2006.12847, 2020	Khác
[11] Alex Graves, Santiago Fernandez, Faustino Gomez, and Jiirgen Schmidhuber.Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. In Proceedings of the 23rd international conference onMachine learning, pages 369-376, 2006	Khác
[12] Alex Graves. Sequence transduction with recurrent neural networks. arXivpreprint arXiv:1211.38711, 2012	Khác
[13] Ken H Davis, R Biddulph, and Stephen Balashek. Automatic recognition of spoken digits. The Journal of the Acoustical Society of America, 24(6):637-642,1952	Khác
[14] Dennis Butler Fry. Theoretical aspects of mechanical speech recognition. Journal of the British Institution of Radio Engineers, 19(4):211-218, 1959	Khác
[15] Pablo Denes. The design and operation of the mechanical speech recognizer atuniversity college london. Journal of the British Institution of Radio Engineers,19(4):219-229, 1959	Khác