Điều này tạo nên một thách thức lớn trong việc phát triển các công nghệ xử lý ngôn ngữ tự nhiên NLP, đặc biệt là công nghệ nhận dạng tiếng nói.. Từ những năm 2000 trở đi, với sự tiến bộ
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trương Tiến Toàn
NÓI TIENG VIỆT DUA TREN MÔ HÌNH
TRANSFORMER
LUAN VAN THAC SI KHOA HOC MAY TINH
HA NOI - 2024
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
XÂY DỰNG HỆ THONG NHẬN DẠNG TIENG
NÓI TIENG VIET DUA TREN MÔ HÌNH
TRANSFORMER
Ngành: Khoa học máy tinh Chuyên ngành: Khoa học máy tính
Mã số: 8480101.01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Cán bộ hướng dẫn: PGS TS: Nguyễn Phương Thái
HÀ NỘI - 2024
Trang 3LỜI CẢM ƠN
Trong cuộc sống, để thành công, ngoài sự cố gắng, nỗ lực của bản thân, luôn
cần có những sự giúp đỡ, quan tâm, chỉ bảo của gia đình, thầy cô, bạn bè Luận vănthạc sĩ với đề tài “Xây dựng hệ thống nhận dạng tiếng nói tiếng Việt dựa trên môhình Transformer” là kết quả của sự cố gắng, rèn luyện của tôi trong hai năm dướimái trường Đại học Công nghệ Cả một quá trình dài mà thầy cô đã chỉ bảo, bạn bèđã trợ giúp, gia đình đã động viên tôi rất nhiều
Trước tiên, tôi xin cảm ơn toàn bộ thay cô, cán bộ, nhân viên trường Dai họcCông nghệ đã truyền đạt những kiến thức sâu sắc, tạo điều kiện tốt nhất về cơ sở vậtchất cho tôi và các bạn khác có một môi trường học tập tuyệt vời
Tiếp theo, tôi xin gửi lời cảm ơn sâu sắc đền thầy PGS TS Nguyễn Phương Thái
- người đã luôn hướng dẫn, chỉ bảo, giúp đỡ tôi một cách tận tâm để tôi có thể hoàn
thành được luận văn một cách tốt nhất
Tôi cũng xin gửi lời cảm ơn tới tất cả những người bạn dưới mái trường Côngnghệ đã đồng hành, giúp đỡ tôi rất nhiều trong học tập cũng như trong cuộc sống
Đặc biệt, tôi xin chân thành cảm ơn công ty TNHH Rikkei.AI đã cung cấp tài
nguyên, cho phép tôi sử dụng dit liệu thuộc sở hữu của công ty và tạo mọi điều kiện
thuận lợi giúp tôi hoàn thành luận văn một cách tốt nhất
Cuối cùng, tôi xin gửi lời cảm ơn chân thành đến gia đình, cam ơn bố mẹ đãluôn chăm lo, động viên về mặt tỉnh thần, luôn ủng hộ mọi quyết định của tôi Nếu
không có gia đình thì tôi khó có thể hoàn thành tốt được nhiệm vụ học tập tại trường
và hoàn thành luận văn như ngày hôm nay.
Hà Nội, ngày 12 tháng 06 năm 2024
Học viên
Trương Tiến Toàn
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan nội dung luận văn là do tôi nghiên cứu, tìm hiểu và thực hiện
dưới sự hướng dan của thay PGS TS Nguyễn Phương Thái
Tôi cam đoan rằng tất cả những tài liệu nghiên cứu liên quan đều được nêunguồn gốc một cách rõ ràng tại mục tài liệu tham khảo trong luận văn Tôi cam đoan
không sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ trong
phần tài liệu tham khảo
Hà Nội, ngày 12 tháng 06 năm 2024
Học viên
Trương Tiến Toàn
il
Trang 5Z ⁄
TOM TAT
Bài toán “Nhận dang tiếng noi tiếng Việt” có dau vào là tệp âm thanh, đầu ra
là văn bản tương ứng với giọng nói trong tệp âm thanh đó Luận văn đã đưa ra cái
nhìn tổng quan và sâu sắc về bài toán nhận dạng tiếng nói tiếng Việt, đồng thời nêu
một số thách thức liên quan đến nhận dạng tiếng nói chung và các thách thức liên
quan đến tiếng nói tiếng Việt như: dữ liệu thưa, đặc điểm tiếng nói theo vùng miền Đầu tiên, luận văn đã áp dụng quy trình để tạo ra một bộ dữ liệu chuẩn xác và đáng
tin cậy, đáp ứng đủ điều kiện cần thiết cho việc huấn luyện mô hình nhận dạng tiếngnói hiệu quả Tiếp theo, luận văn cũng tập trung vào việc thử nghiệm và so sánh haihướng tiếp cận khác nhau trong việc xây dựng mô hình nhận dạng tiếng nói dựa trên
kiến trúc Transformer, một trong những kiến trúc tiên tiến và hiện đại nhất trong
lĩnh vực học máy hiện nay Mô hình đề xuất được so sánh với mô hình Whisper để
đánh giá độ chính xác sau quá trình huấn luyện trên cùng một tập dữ liệu, nhằm xác
định mô hình nào hiệu quả hơn trong điều kiện cụ thể của tiếng nói tiếng Việt Cuối cùng, luận văn cũng trình bày hướng triển khai mô hình nhận dạng tiếng nói tiếng
Việt thành hệ thống để đáp ứng được nhiều yêu cầu xử lý đồng thời trong thực tế.
Các kết quả thử nghiệm cho thấy ưu điểm của mô hình Conformer so với các mô
hình khác Độ trễ của hệ thống đạt được cũng hoàn toàn đáp ứng được các yêu cầu
để đưa vào ứng dụng.
Mô hình Clean | Noise HMM+TDNN | 6.0 8.2
Transformer 4.2 7.2 Conformer 3.7 5.9
Whisper 4.1 6.6
Bang 1: Kết quả thực nghiệm % WER
Từ khóa: nhận dạng tiếng nói, transformer, conformer, transducer, load balancer
ill
Trang 72.2.8 Wordembedding cv.
2.3 Xử lý tiếng nói ee
2.3.1 Ngữâm học 0.0.00.
2.3.2 Xử lý tín hiệu SỐ 2.0.0.0 00.0002 ee
2.3.8 Phát hiện giọng nói va
Chương 3 TONG QUAN VỀ BÀI TOÁN
Trang 84.2.1 Sơ đồ giải quyết cv.
4.2.3 Môhình 0.0.0.0 0002 V
4.2.4 Siéuthams6 0.0.00 00 eeKết qua Q Q Q Q Q Q Q Q Q Q g v v.v v và
43.1 Tập kiểm tra tự chuẩn bị 00 eee
vi
Trang 9Danh sách bảng
1 Kết quả thực nghiệm % WER
4.1 Thông số chuẩn hóa âm thanh
4.2_ Kết quả phân chia tập dữ liệu (giờ)
4.3 Mô tả tập dữ liệu đã được gan nhãn
4.4 Tham số quá trình trích xuất đặc trưng âm thanh
4.5 Cấu hình mang Ffontend 00.00.00 eee eee4.6 Môi trường huấn luyện 2 2 ee4.7 Dac điểm của mô hình dùng để huấn luyện -
4.8 Các siêu tham số dùng trong huấn luyện mô hình
4.9 Kết quả thử nghiệm trên tập test tự chuẩn bị
4.10 Kết quả thử nghiệm trên tập test VLSP 2021
4.11 Cấu hình triển khai hệ thống4.12 Do trễ của hệ thống nhận dạng tiếng nói tiếng Việt
Danh sách ký hiệu, chữ viết
tắt
vii
Trang 10Viết tắt Tiếng Anh Tiếng việt
Encoder - Decoder Mã hóa - Giải mã NLP Natural Language Processing | Xử lý ngôn ngữ tự nhiên
ƠNN_ | Convolutional Neural Network | Mạng nơ-ron tích chập
RNN Recurrent Neural Networks Mạng nơ-ron hồi quy
Speech Recognition Nhận dạng tiếng nói
Encoder - Decoder Mã hóa - Giải mã
Al Artificial Intelligence Tri thong minh nhan tao
WER Word Error Rate Ty lệ lỗi từ
vill
Trang 11Minh hoa mang no-ron tich chap co ban
Cấu trúc của một LSTM unit
Minh họa kiến trúc Encoder-Decoder
Minh họa cơ chế attention trong bài toánMinh họa cơ chế self-attention Minh họa cơ chế multi-head attention Minh hoa kiến trúc Transformer
Minh họa kiến trúc của mô hình Whisper
Minh họa mô hình ngôn ngữ N-gram
Minh họa các bộ phận tạo nên âm thanh
Minh họa dạng sóng của nguyên âm [iy
Minh hoa dải nghe và dai giọng phổ biến
Minh họa quá trình nhận dạng tiếng nói
1X
dich máy
Minh họa định dạng của các token dùng để huấn luyện trong Whisper
Minh họa kiến trúc của Conformer encoder
Minh hoa module tích chập trong Conformer
Minh họa quá trình biến đổi từ tin hiệu tương tự sang tín hiệu sé
theotầnsỐ
18)
Trang 12So đồ hệ thống nhận dạng tiếng nói điển hình
Minh họa SpecAugmentSơ đồ triển khai hệ thốngMinh họa sơ đồ trích xuất đặc trưng MFCC âm thanh
Minh họa đặc trưng MECC của âm thanh
Minh họa đặc trưng Mel-Filter Banks của âm thanh
Minh họa mô hình âm học dựa trên HMM
Minh họa mô hình sử dung Transducer
Minh họa sơ đồ giải quyết bài toán
Minh họa kiến trúc của mô hình âm
Trang 13học -Chương 1
MỞ ĐẦU
Nhận dạng tiếng nói (ASR - Automatic Speech Recognition) đã va đang trở
thành một lĩnh vực nghiên cứu và ứng dụng quan trọng trong thời đại công nghệ số
hiện nay Chức năng chính của nhận dạng tiếng nói là chuyển đổi tín hiệu âm thanh thành văn bản một cách tự động, từ đó giúp máy tính hiểu và tương tác với con người
thông qua ngôn ngữ tự nhiên Vai trò của nhận dạng tiếng nói không chỉ giới hạn
trong các ứng dụng cá nhân như trợ lý ảo (Google Assistant, Siri, Alexa) mà còn mở
rộng đến các lĩnh vực quan trọng khác như giáo dục, y tế, và giao thông
Trong giáo dục, công nghệ này hỗ trợ tạo ra các công cụ học tập tiên tiến, giúpngười học dễ dàng truy cập thông tin và học tập hiệu quả hơn Trong y tế, nhận dạng
tiếng nói giúp bác sĩ ghi chép hồ sơ bệnh án nhanh chóng, chính xác, từ đó nâng cao
chất lượng dịch vụ chăm sóc sức khỏe Trong giao thông, công nghệ này được ứng
dụng trong các hệ thống điều khiển bằng giọng nói, giúp người lái xe tương tác với
các thiết bị trên xe mà không cần phải rời mắt khỏi đường Tầm quan trọng của nhận
dạng tiếng nói trong đời sống ngày nay càng được khẳng định khi nó góp phần làm
tăng tính tiện ích, hiệu quả và an toàn trong nhiều hoạt động hàng ngày
Việc nghiên cứu và phát triển các mô hình nhận dạng tiếng nói, đặc biệt là cho
ngôn ngữ tiếng Việt, không chỉ đóng góp vào việc bảo tồn và phát triển ngôn ngữ
mà còn thúc đẩy sự phát triển công nghệ của quốc gia Luận văn thạc sĩ của tôi,
mang tựa đề “Xây dựng hệ thống nhận dạng tiếng nói tiếng Việt dựa trên mô hành
Trang 14Transformer”, tập trung vào mục tiêu xây dựng một hệ thống nhận dạng tiếng nóitiếng Việt tin cậy.
Đầu tiên, luận văn xây dựng và hoàn thiện một bộ dữ liệu nhận dạng tiếng nóitiếng Việt chất lượng cao Bộ dữ liệu này đa dạng và phong phú với các tệp âm thanhtừ nhiều vùng miền và địa phương khác nhau, nhằm khắc phục vấn đề dữ liệu thưavà các thách thức liên quan đến ngôn ngữ tiếng Việt Bên cạnh đó, luận văn cũng tận
dụng tập dữ liệu này để huấn luyện mô hình nhận dạng tiếng nói tiếng Việt có độ
chính xác cao dựa trên các kiến trúc thuộc ho Transformer [I] Cuối cùng, luận văn
trình bày cách thức triển khai mô hình thành một hệ thống hoàn chỉnh nhằm ứng
dụng trong thực tế
Chương này sẽ trình bày bối cảnh, lý do chọn đề tài, mục tiêu, phương phápnghiên cứu và cấu trúc của luận văn
1.1 Bối cảnh
Tiếng Việt, ngôn ngữ chính thức và phổ biến nhất tại Việt Nam, được sử dụng
bởi hơn 90 triệu người trong nước và hàng triệu người Việt Nam sống ở nước ngoài,từng được UNESCO công nhận là một trong những ngôn ngữ phức tạp nhất thế giới
về ngữ âm và ngữ pháp Sự phong phú và đa dạng của tiếng Việt không chỉ thể hiện
qua sự phức tạp của hệ thống thanh điệu với sáu dấu thanh khác nhau mà còn quacấu trúc ngữ pháp linh hoạt và độc đáo Điều này tạo nên một thách thức lớn trong
việc phát triển các công nghệ xử lý ngôn ngữ tự nhiên (NLP), đặc biệt là công nghệ
nhận dạng tiếng nói
Tiếng Việt được xếp vào nhóm các ngôn ngữ có tài nguyên hạn chế trong lĩnh
vực công nghệ ngôn ngữ và xử lý ngôn ngữ tự nhiên Điều này xuất phát từ thực tế
rằng, so với các ngôn ngữ lớn và phổ biến như tiếng Anh, tiếng Trung hoặc tiếng Tây
Ban Nha, tiếng Việt có ít dữ liệu được thu thập và công khai, đặc biệt là các dữ liệu
được gán nhãn chuẩn xác và sâu sắc cho các nghiên cứu và ứng dụng trong lĩnh vực trí tuệ nhân tạo Hơn nữa, các công trình nghiên cứu và phát triển công nghệ liên quan đến tiếng Việt còn thiếu sự hỗ trợ từ các cơ quan, tổ chức lớn hoặc các khoản
Trang 15đầu tư đáng kể từ ngành công nghiệp, khiến cho việc cải thiện và phát triển các công
cụ xử lý ngôn ngữ tự nhiên cho tiếng Việt trở nên khó khăn hơn Sự khan hiếm này
còn được thể hiện qua số lượng giới hạn các cơ sở dữ liệu âm thanh, văn bản đa ngữ
cảnh, hay các mô hình ngôn ngữ tiên tiến dành riêng cho tiếng Việt Điều này khôngnhững gây trở ngại cho việc huấn luyện các mô hình học sâu phức tạp, mà còn ảnhhưởng đến chất lượng và hiệu quả của các ứng dụng thực tế như dịch máy, nhận dạngtiếng nói và xử lý ngôn ngữ tự nhiên
Trong bối cảnh phát triển công nghệ nhận dạng tiếng nói, tiếng Việt đã thu hút
sự quan tâm từ cộng đồng nghiên cứu từ những năm 1990 Những nghiên cứu ban
đầu tập trung vào các phương pháp thống kê truyền thống như mô hình Markov ẩn (HMM) và mô hình n-gram để nhận dạng các từ và cụm từ trong tiếng Việt Tuy
nhiên, do hạn chế về dữ liệu và công nghệ, các hệ thống này thường gặp khó khăntrong việc đạt được độ chính xác cao Từ những năm 2000 trở đi, với sự tiến bộ củacông nghệ và sự xuất hiện của các công cụ xử lý ngôn ngữ tự nhiên mạnh mẽ hơn,các nhà nghiên cứu đã bắt đầu ứng dụng các mô hình học sâu (Deep Learning) vào
nhận dạng tiếng nói tiếng Việt Dặc biệt, sự ra đời của các kiến trúc mạng neuron
tiên tiến như mạng neuron tích chập (CNN), mạng neuron hồi quy (RNN), mô hình
Transformer đã mang lại những cải tiến đáng kể về hiệu suất và độ chính xác
Các dự án như FOSD (FPT Open Speech Dataset]!| vIvo#†l và các hệ thống
của VAIS, FPT, Viettel, và các tổ chức nghiên cứu khác đã góp phần tạo ra những
bộ dữ liệu phong phú và các mô hình nhận dạng tiếng nói với độ chính xác ngày càng
cao.
‘https: //data.mendeley.com/datasets/k9sxg2twv4/4
?http://ailab.hemus.edu.vn/vivos
Trang 16Tiếp theo, luận văn áp dụng các kỹ thuật học sâu hiện đại để huấn luyện các mô
hình dựa trên kiến trúc Transformer trên tập dữ liệu đã xây dựng Các mô hình tiêntiến này đã được chứng minh là hiệu quả trong nhiều lĩnh vực của xử lý ngôn ngữ tự
nhiên, nhờ vào khả năng hiểu và xử lý các mối quan hệ phức tạp giữa các phần tử
trong chuỗi dữ liệu.
Ngoài ra, luận văn còn đặt mục tiêu triển khai mô hình thành một hệ thống
hoàn chỉnh, đáp ứng các yêu cầu thực tế của người dùng Hệ thống này không chỉ đạtđược độ chính xác cao mà còn hướng đến việc tối ưu hóa các yếu tố về độ trễ và khả
năng xử lý nhiều yêu cầu đồng thời Đây là những yếu tố then chốt để tích hợp công
nghệ nhận dạng tiếng nói vào các hệ thống hỗ trợ tự động, dịch vụ khách hàng và cáchệ thống tương tác thông minh khác
Trang 17cao nhất có thể Để đánh giá mô hình, luận văn sẽ sử dụng các phép đo chuẩn, bao
gồm độ chính xác của từ, tỷ lệ lỗi trên từ và thời gian phản hồi, nhằm đảm bảo tính
tin cậy và hiệu quả của mô hình.
Cuối cùng, luận văn triển khai mô hình thành một hệ thống thực tế bằng cách sử dụng các thư viện cân bằng tải và các kiến trúc triển khai phổ biến Điều này giúp hệ thống có khả năng xử lý được nhiều yêu cầu đồng thời, đảm bảo tính ổn định và
hiệu suất cao trong các ứng dụng thực tế
1.3 Bo cục luận văn
Bồ cục của luận văn sẽ bao gồm các phần chính:
Chương |1‡ MỞ ĐẦU: Nêu bối cảnh cần thiết để giải quyết bài toán Phần
này cũng trình bày mục tiêu, phương pháp của luận văn.
Chương KIÊN THỨC LIÊN QUAN: Trình bày các kiến thức liên quan
được sử dụng để xây dựng mô hình giải quyết bài toán.
Chương [3} TONG QUAN VỀ BÀI TOÁN: Thảo luận các khái niệm tổng
quát, các hướng tiếp cận, những thách thức khi giải quyết bài toán Cũng như giớithiệu những công trình, kết quả nghiên cứu đã có, liên quan đến bài toán
Chương |4' THỰC NGHIỆM VÀ DANH GIA: Trình bày về dữ liệu thực
nghiệm dùng để huấn luyện mô hình và các kết quả đạt được Đồng thời thảo luận
về ưu nhược điểm, so sánh các hướng tiếp cận với nhau.
Chương |5] KẾT LUẬN: Kết luận và đưa ra các hướng cải tiến mô hình, cũng
như dùng mô hình để phát triển các hệ thống phức tạp hơn.
Trang 18Chương 2
KIÊN THỨC LIÊN QUAN
Chương này trình bày các kiến thức cơ bản liên quan đến học sâu, xử lý ngôn
ngữ tự nhiên và xử lý tiếng nói Những kiến thức này bao gồm các khái niệm nền
tảng Mục tiêu của chương là cung cấp cho người đọc hiểu biết chỉ tiết về các phương pháp và công nghệ được sử dụng để giải quyết bài toán nhận dạng tiếng nói tiếng
Việt trong các chương tiếp theo
2.1 Mạng nơ-ron nhân tạo
Mạng nơ-ron nhân tao (Artificial Neural Network - ANN) là một cấu trúc toán
học phức tạp, được thiết kế để mô phỏng hoạt động của hệ thống thần kinh con người.
ANN bao gồm nhiều lớp các đơn vị xử lý đơn giản, gọi là các nơ-ron hoặc nút, được
kết nối với nhau theo một mạng lưới Mỗi nơ-ron thực hiện các phép tính toán học
và truyền thông tin cho các nơ-ron khác thông qua các kết nối có trọng số Các trọngsố này được điều chỉnh trong quá trình huấn luyện mạng, dựa trên thuật toán học
tập như thuật toán lan truyền ngược (backpropagation), nhằm giảm thiểu sai số giữa
đầu ra dự đoán và đầu ra mong muốn ANN có khả năng học hỏi từ dữ liệu và tìm
ra các mẫu an trong dữ liệu phức tap, do đó, nó đã được ứng dụng rộng rãi trong
nhiều lĩnh vực như nhận dạng tiếng nói, xử lý ngôn ngữ tự nhiên, thị giác máy tính,
và nhiều lĩnh vực khác Việc phát triển và áp dụng ANN đã đánh dấu một bước tiến
Trang 19quan trọng trong lĩnh vực trí tuệ nhân tạo, mở ra nhiều triển vọng mới cho các ứng
dụng công nghệ cao trong đời sống và công nghiệp
2.1.1 Mang nơ-ron tích chap
Mang no-ron tích chập (Convolutional Neural Network - CNN) là một loại mạng
nơ-ron nhân tao đặc biệt, được thiết kế để xử lý dữ liệu có cấu trúc dạng lưới, chang
hạn như hình ảnh và video CNN nổi bật với khả năng tự động học và trích xuất các
đặc trưng từ dữ liệu đầu vào thông qua các lớp tích chap (convolutional layers) Một
lớp tích chập bao gồm một tập hợp các bộ lọc (fñilters) được sử dụng để quét qua dữ
liệu đầu vào và tạo ra các bản đồ đặc trưng (feature maps) Các bộ lọc này có khảnăng phát hiện các đặc trưng cục bộ như cạnh, góc, và kết cấu trong hình ảnh
Bên cạnh các lớp tích chap, CNN còn có các lớp phi tuyến (non-linear layers) và
lớp gộp (pooling layers) để giảm chiều dữ liệu và giữ lại các đặc trưng quan trọng, từ đó giúp giảm thiểu độ phức tạp tính toán và tránh hiện tượng quá khớp (overfitting).
Các lớp phi tuyến thường sử dụng hàm kích hoạt như ReLU (Rectified Linear Unit)
để tạo ra tinh phi tuyến cần thiết cho mạng Lớp gop, chang hạn như lớp gop cực đại
(max pooling), giúp giảm kích thước của bản đồ đặc trưng, đồng thời tăng tính bất
biến đối với các thay đổi nhỏ trong dữ liệu đầu vào.
CNN đã chứng tỏ hiệu quả vượt trội trong nhiều nhiệm vụ liên quan đến thị giácmáy tính, bao gồm nhận dạng và phân loại hình ảnh, phát hiện đối tượng, và nhậndạng ký tự viết tay Sự thành công của CNN không chỉ giới han trong lĩnh vực thịgiác máy tính mà còn được mở rộng sang nhiều ứng dụng khác như xử lý ngôn ngữtự nhiên, dự đoán chuỗi thời gian, và các bài toán liên quan đến dữ liệu dạng lưới
Trang 20Convolution Pooling Convolution Pooling Fully Fully Output
+ReLU +ReLU Connected Connected perdictions
1A dog (o.01)
wooo Cat (0.01)
Boat (0.94) - Bird (o.94)
Hình 2.1: Minh họa mạng nơ-ron tích chập cơ bản]
2.1.2 Mang nơ-ron hồi quy
Mạng ron hồi quy (Recurrent Neural Network - RNN) là một loại mạng
nơ-ron nhân tạo được thiết kế đặc biệt để xử lý dữ liệu tuần tự hoặc dữ liệu có tính thời gian, chang hạn như văn ban, âm thanh, và chuỗi thời gian Điểm đặc biệt của RNN
so với các mạng nơ-ron truyền thống là khả năng ghi nhớ thông tin từ các bước thời
gian trước và sử dụng thông tin này để ảnh hưởng đến việc xử lý các bước thời gian
hiện tại RNN đạt được khả năng này thông qua các kết nối phản hồi, cho phép đầura của một nơ-ron ở một bước thời gian trước trở thành đầu vào cho bước thời gian
tiếp theo Điều này tạo ra một "trạng thái an"(hidden state) mà mạng có thể duy trì và cập nhật qua mỗi bước thời gian, giúp RNN có thể học và mô hình hóa các phụ
thuộc thời gian và các quan hệ phức tạp trong dữ liệu tuần tự
Tuy nhiên, RNN truyền thống gặp phải một số vấn đề như biến mất gradient
(vanishing gradient) hoặc bùng nổ gradient (exploding gradient) khi xử lý các chuỗi
dài Để khắc phục những hạn chế này, các biến thể của RNN như LSTM (Long Term Memory) va GRU (Gated Recurrent Unit) đã được phát triển LSTM và GRU sử dung các cơ chế cổng (gates) để kiểm soát luồng thông tin và duy trì trạng thai an
Short-qua các bước thời gian dài hơn, giúp mạng có khả năng học các phụ thuộc dài hạn
một cách hiệu quả hơn RNN và các biến thể của nó đã được ứng dụng rộng rãi trong
nhiều lĩnh vực khác nhau Trong xử lý ngôn ngữ tự nhiên, RNN được sử dụng cho
‘https:
//missinglink.ai/guides/convolutional-neural-networks/convolutional-neural-network-tutorial-basic-advanced /
Trang 21các nhiệm vụ như dịch máy, phân tích cảm xúc, và tạo văn bản tự động Trong nhận
dạng tiếng nói, RNN giúp cải thiện độ chính xác của các hệ thống chuyển đổi tiếng
nói thành văn bản Ngoài ra, RNN còn được áp dụng trong dự đoán chuỗi thời gian
tài chính, phát hiện dị thường trong dữ liệu cảm biến, và nhiều ứng dụng khác liênquan đến dữ liệu tuần tự
Hình 2.2: Cấu trúc của một đơn vị LSTM [|
2.1.3 Kiến trúc Encoder-Decoder
2.1.3.1 Khái niệm
Kiến trúc encoder-decoder là một trong những cấu trúc quan trọng trong lĩnhvực xử lý ngôn ngữ tự nhiên (NLP) Kiến trúc này bao gồm hai thành phần chính: bộ
mã hóa (encoder) và bộ giải mã (decoder) Bộ mã hóa chuyển đổi đầu vào thành một
biểu diễn không gian tiềm an, trong khi bộ giải mã sử dụng biểu diễn này để tái tạo
đầu ra mong muốn Bộ mã hóa nhận chuỗi đầu vào và mã hóa nó thành một vectorcó kích thước cố định, thường được gọi là vector ngữ cảnh (context vector) Vectornày chứa thong tin ngữ nghĩa của toàn bộ chuỗi đầu vào Bộ giải mã sau đó sử dung
vector ngữ cảnh để tạo ra chuỗi đầu ra, từng bước một, dựa trên các tham số đã được
“https: /
/www.groundai.eom/project/improving-long-horizon-forecasts-with-expectation-biased-Istm-networks/1
10
Trang 22Kiến trúc encoder-decoder có nhiều ưu điểm so với các kiến trúc khác trong xử
lý ngôn ngữ tự nhiên Thứ nhất, nó có khả năng xử lý chuỗi đầu vào và chuỗi đầu
ra có độ dài khác nhau, vượt qua giới hạn của các mô hình truyền thống như n-gram
hay các mô hình Markov Thứ hai, kiến trúc này linh hoạt và mạnh mẽ, có thể áp
dụng cho nhiều tác vụ khác nhau trong NLP như dịch máy, tóm tắt văn bản, tạo văn
bản và nhiều ứng dụng khác Thứ ba, nhờ vector ngữ cảnh, mô hình có thể nắm bắt
thông tin ngữ nghĩa toàn diện của chuỗi đầu vào, giúp cải thiện độ chính xác và tínhnhất quán của chuỗi đầu ra Cuối cùng, kiến trúc này là nền tang cho nhiều mô hìnhtiên tiến khác như TransformerH], BERTIĐI, những mô hình đã đạt được nhiều thành
tựu nổi bật trong NLP.
Khả năng ứng dụng của kiến trúc encoder-decoder trong bài toán nhận dạngtiếng nói rất đáng chú ý Trong bài toán này, bộ mã hóa (encoder) có nhiệm vụ tiếpnhận và mã hóa chuỗi âm thanh đầu vào thành một vector ngữ cảnh, chứa đựng toàn
bộ thông tin cần thiết để hiểu được ngữ cảnh của âm thanh đó Bộ giải mã (decoder)
sau đó sử dụng vector này để tạo ra chuỗi văn bản tương ứng, từng từ một, phản
ánh chính xác những gì được nói trong chuỗi âm thanh Sự linh hoạt của kiến trúc
encoder-decoder cho phép nó xử lý hiệu quả các biến thể khác nhau trong giọng nói,
ngữ điệu và tốc độ nói
11
Trang 232.1.3.2 Co chế Attention
Cơ chế attention là một cải tiến quan trọng trong các mô hình xử lý ngôn ngữtự nhiên, đặc biệt trong kiến trúc encoder-decoder Cơ chế này cho phép mô hình tập
trung vào các phần cụ thể của đầu vào khi tạo ra từng phần của đầu ra, thay vì dựa
vào một biểu diễn cố định duy nhất Khi sử dụng cơ chế attention, tại mỗi bước giải
mã, mô hình sẽ tính toán một trọng số cho từng vị trí trong chuỗi đầu vào, xác địnhmức độ quan trọng của từng phần đầu vào đối với phần đầu ra hiện tại Trọng số nàygiúp mô hình “chi y” đến các từ hoặc âm thanh có liên quan nhất, từ đó cải thiện độchính xác và ngữ cảnh của kết quả đầu ra
Cơ chế attention trở nên cần thiết vì trong nhiều tác vụ ngôn ngữ tự nhiên,
thông tin quan trọng thường phân tán khắp chuỗi đầu vào và không chỉ giới hạn ởmột đoạn nhất định Trong các mô hình không sử dụng attention, như các mô hìnhdựa trên vector ngữ cảnh cố định, có nguy cơ mat mát thông tin quan trọng khi chiều
#https://vitalflux.com/eneoder-decoder-architecture-neural-network/
12
Trang 24dai chuỗi đầu vào tăng lên Điều này đặc biệt quan trong trong các tác vụ như dich
máy, nơi mà mỗi từ trong đầu ra có thể liên quan đến các từ khác nhau trong đầu vào Bằng cách sử dụng cơ chế attention, mô hình có thể nắm bắt các mối quan hệ
phức tạp và ngữ cảnh toàn diện hơn, dẫn đến hiệu suất và độ chính xác cao hơn trongcác ứng dụng thực tế
Trong lĩnh vực nhận dạng tiếng nói, cơ chế attention đóng vai trò thiết yếu trong
việc xử lý các biến thể ngữ âm và ngữ điệu phức tạp của ngôn ngữ Khi nhận dạng
tiếng nói, mô hình cần xác định những phần quan trọng của chuỗi âm thanh đầu vào
để chuyển đổi chính xác thành văn bản Attention giúp mô hình xác định các đoạn
âm thanh có liên quan mật thiết đến từ hoặc cụm từ hiện tại cần giải mã, cho phépxử lý hiệu quả các yếu tố như tốc độ nói khác nhau, tiếng địa phương và các yếu tố
nhiễu khác Nhờ cơ chế này, mô hình nhận dạng tiếng nói có thể tập trung vào các
phần quan trọng của âm thanh, cải thiện độ chính xác trong việc nhận diện từ ngữ
và cung cấp ngữ cảnh chính xác hơn cho đầu ra
Trang 252.1.3.3 Cơ chế Self-Attention
Cơ chế self-attention là một biến thể tiên tiến của cơ chế attention, đóng vai trò
quan trọng trong các mô hình xử lý ngôn ngữ tự nhiên hiện đại, đặc biệt là trong
mô hình Transformer Self-attention, hay còn gọi là intra-attention, cho phép mỗi từ
trong chuỗi đầu vào chú ý đến tất cả các từ khác trong cùng một chuỗi, bao gồm cả
chính nó Điều này giúp mô hình hiểu được mối quan hệ giữa các từ bất kể khoảng
cách giữa chúng trong chuỗi, từ đó nắm bắt ngữ cảnh và các mối quan hệ ngữ nghĩa
một cách toàn diện hơn.
Ưu điểm của cơ chế self-attention so với cơ chế attention truyền thống nằm ở khả
năng xử lý đồng thời và hiệu quả cao Trong khi cơ chế attention truyền thống yêucầu tính toán trọng số cho từng cặp từ giữa chuỗi đầu vào và đầu ra, self-attentioncho phép tính toán các trọng số cho toàn bộ chuỗi đầu vào trong một bước duy nhất
Điều này giúp giảm thiểu thời gian tính toán và tăng cường khả năng song song hóa,
làm cho quá trình huấn luyện và suy luận trở nên nhanh hơn và hiệu quả hơn Ngoài
ra, self-attention có khả năng xử lý tốt các mối quan hệ dai han trong chuỗi dữ liệu,điều mà các mô hình trước đây thường gặp khó khăn
Sử dụng cơ chế self-attention trong các mô hình xử lý ngôn ngữ tự nhiên mang
lại nhiều lợi ích đáng kể Thứ nhất, self-attention cho phép mô hình tập trung vào
các phần quan trọng của chuỗi đầu vào một cách toàn diện, không bị giới hạn bởi độ
dài chuỗi hay vị trí của các từ trong chuỗi Thứ hai, cơ chế này giúp giảm thiểu vấn
đề mất mát thông tin trong các chuỗi dài, nhờ vào khả năng nắm bắt ngữ cảnh toàncầu và các mối quan hệ ngữ nghĩa phức tạp Cuối cùng, khả năng song song hóa caocủa self-attention giúp tăng tốc độ huấn luyện và cải thiện hiệu suất của các mô hình,làm cho chúng phù hợp với các ứng dụng yêu cầu xử lý dữ liệu lớn và phức tạp nhưdịch máy, tóm tắt văn bản, và nhận dạng tiếng nói
14
Trang 26Hình 2.5: Minh họa cơ chế self-attention f|
2.1.3.4 Transformer
Kiến trúc Transformer [I] là một trong những bước đột phá quan trọng tronglĩnh vực học sâu, đặc biệt là trong xử lý ngôn ngữ tự nhiên Cấu trúc của Transformerbao gồm hai phần chính là encoder va decoder Encoder của Transformer gồm mộtchuỗi các lớp giống hệt nhau, mỗi lớp bao gồm hai tầng: tầng self-attention và tầng
mạng no-ron đầy đủ liên kết Tương tự, decoder cũng gồm một chuỗi các lớp giống
hệt nhau nhưng thêm một tầng attention nữa để lấy thông tin từ đầu ra của eneoder.
Mỗi lớp trong cả encoder va decoder đều sử dung cơ chế residual connection va layer
normalization để duy trì ổn định trong quá trình huấn luyện.
Một số khái niệm chính của kiến trúc Transformer bao gồm cơ chế self-attention
và multi-head attention Self-attention cho phép mô hình tính toán sự phụ thuộc giữa
các từ trong câu, bất kể khoảng cách của chúng Multi-head attention giúp mô hình
học các loại thông tin khác nhau ở các không gian con khác nhau của đầu vào Thêm
vào đó, positional encoding được sử dung để cung cấp thông tin về vi trí của các từ
trong câu, giúp mô hình Transformer xử lý các chuỗi dữ liệu mà không cần sử dụng
”“https://arxiv.org/pdf/1706.03762
15
Trang 27các mạng hồi quy truyền thống.
Scaled Dot-Product
Attention ⁄
Hình 2.6: Minh họa cơ chế multi-head attention |
So với các kiến trúc truyền thống như RNN hay LSTM, Transformer có nhiều wu
điểm vượt trội No có khả năng tính toán song song, giúp giảm thời gian huấn luyện đáng kể Hơn nữa, cơ chế self-attention cho phép mô hình học được các mối quan hệ
dài hạn tốt hơn, điều mà các mạng hồi quy gặp nhiều khó khăn Trong bài toán nhận
dạng tiếng nói, Transformer tỏ ra ưu việt nhờ khả năng xử lý các chuỗi dữ liệu dài
và phức tạp một cách hiệu quả, đồng thời giảm thiểu hiện tượng mất mát thông tin
do độ dài chuỗi quá lớn Điều này làm cho Transformer trở thành lựa chọn hàng đầu
trong việc phát triển các hệ thống nhận dạng tiếng nói hiện đại.
https: / /arxiv.org/pdf/1706.03762
16
Trang 28Mô hình Whisper|3] được thiết kế nhằm cải thiện khả năng nhận dang giọng
nói thông qua việc sử dụng các kỹ thuật học sâu và một tập dữ liệu đa dạng khổng
16 Whisper sử dụng kiến trúc Transformer với các thành phần chính gồm encoder và
decoder.
“https: / /arxiv.org/pdf/1706.03762
17
Trang 29Sequence-to-sequence learning fen [ee
CRIBE 0.0 The quick brown
Transformer Encoder Blocks cross attention
Sinusoidal Positional
Encoding
next-token prediction
Transformer
Decoder Blocks
Learned Positional
Encoding
Hình 2.8: Minh hoa kiến trúc của mô hình Whisper [|
Whisper được huấn luyện trên một khối lượng lớn dữ liệu âm thanh đa ngôn
ngữ và đa tác vụ, với tổng số lên đến 680.000 giờ Quá trình huấn luyện này bao gồm
nhiều nhiệm vụ khác nhau như nhận dạng giọng nói, dịch thuật và phát hiện hoạt
động giọng nói Để xử lý nhiều tác vụ trên cùng một tín hiệu âm thanh đầu vào, mô
hình sử dụng một chuỗi các token đầu vào cho decoder, cho phép nó học cách xử lý
nhiều ngữ cảnh và định dạng khác nhau Điều này giúp mô hình có khả năng tổng
quát hóa tốt và đạt hiệu suất cao mà không cần phải tỉnh chỉnh cho từng tập dữ liệu
cụ thể.
Multitask training format Language Xx
identification Transcription Time-aligned transcription
}
t } 5
LANGUAGE TC TRANSCRIBE begin > text tokens lia
time
end time j °°" begin VÌ texttokens > ond
time time
previous START OF
PREV nal text tokens TRANSCRIPT
i NO TRANSLATE No text tokens
SPEECH TIMESTAMPS Custom vocabulary /
prompting Ỷ ` † \ +
Voice activity \ X— English
special text timestamp CN \_ Translation
tokens tokens tokens —
Hình 2.9: Minh hoa định dạng của các token dùng để huấn luyện trong Whisper |
https: //cdn.openai.com/papers/whisper.pdf
18
(allows dataset-specific fir
Text-only transcription
Trang 30Kết quả của mô hình Whisper cho thấy nó có thể đạt được độ chính xác cao và ồn định trong nhiều môi trường khác nhau mà không cần tinh chỉnh đặc thù cho từng
tập dữ liệu Mô hình này không chỉ cải thiện đáng kể hiệu suất nhận dạng tiếng nói
tiếng Anh mà còn mở rộng khả năng sang các ngôn ngữ khác Điều này chứng tỏ hiệuquả của quá trình học giám sát yếu (weak supervision) trong các bài toán liên quanđến tiếng nói
2.1.3.6 Conformer
Kiến trúc Conformerl4| được phát triển nhằm kết hợp những ưu điểm của mang neural tích chập (CNN) và mô hình Transformer để cải thiện hiệu suất nhận dạng tiếng nói (ASR) Đặc điểm nổi bật của Conformer là khả năng mô hình hóa cả phụ
thuộc cục bộ và toàn cục của chuỗi âm thanh một cách hiệu quả.
Conformer bao gồm bốn thành phần chính được sắp xếp tuần tự trong mỗi khốiConformer: module feed-forward, module tự chú ý đa đầu (MHSA), module tích chậpvà module feed-forward thứ hai Cấu trúc này được lấy cảm hứng từ Macaron-Net,
trong đó các module feed-forward được đặt trước và sau module tự chú ý và tích chập,
nhằm tối ưu hóa việc học các đặc trưng cục bộ và toàn cục
®https://cdn.openai.com/papers/whisper.pdf
19
Trang 31' ' ' ' ' ' '
'
' 1 ' ' ' ' ' '
' ' '
' '
40 ms rate h
' ' ' ' '
'
' ' ' ' ' ' '
' ' '
' ' ' ' ' '
Hình 2.10: Minh họa kiến trúc của Conformer encoder,
Module tích chập trong kiến trúc Conformer được thiết kế để kết hợp hiệu quả
khả năng học các đặc trưng cục bộ của chuỗi âm thanh Module này bắt đầu với một
cơ chế cong, cụ thể là tích chập điểm và đơn vị tuyến tính có cổng (GLU), giúp kiểm
soát dòng thông tin thông qua các mang neural Tiếp theo đó, một lớp tích chap độsâu một chiều (1-D depthwise convolution) được áp dụng, giúp nắm bắt các mẫu đặc
trưng cục bộ trong dữ liệu âm thanh Sau khi thực hiện tích chập, một lớp chuẩn hóa theo batch (BatchNorm) được sử dung để hỗ trợ trong quá trình huấn luyện mô hình
sâu Cuối cùng, module tích chập kết thúc bằng một lớp kích hoạt Swish, giúp cải
thiện sự lan truyền gradient và hiệu suất tổng thể của mô hình.
» Pointwise _, Glu : › Swish » Pointwise |_, | ì
yep Conv Activation regis Sey >| Activation Conv TREE fe a ⁄
Hình 2.11: Minh họa module tích chập trong Conformoi"]
19https:/ /arxiv.org/pdf/2005.08100
20
Trang 32So với kiến trúc Transformer truyền thống, Conformer ưu điểm nổi bật là khả
năng kết hợp thông tin cục bộ và toàn cục một cách hiệu quả, nhờ sự kết hợp giữacác module tích chập và tự chú ý Điều này giúp Conformer đạt được kết quả nhậndạng tiếng nói vượt trội, với tỷ lệ lỗi từ (WER) thấp hơn so với các mô hình trước
đó, như Transformer Transducer[5] và các mô hình CNN khác Ngoài ra, Conformer
còn hiệu quả hơn về tham số, giảm số lượng tham số cần thiết để đạt được hiệu suất
tương đương hoặc tốt hơn so với các mô hình khác
hiện một cách can thận nhằm tạo ra một tập dữ liệu chuẩn hóa, hỗ trợ tăng cường
hiệu quả học tập của mô hình Việc chú trọng vào xử lý ngôn ngữ tự nhiên không chỉ
giúp cải thiện độ chính xác của quá trình nhận dạng tiếng nói mà còn đảm bảo rằng
các kết quả đầu ra phù hợp với đặc điểm của ngôn ngữ mong muốn.
2.2.1 Mô hình ngôn ngữ
Trong lĩnh vực xử lý ngôn ngữ tự nhiên, mô hình ngôn ngữ đóng vai trò hết sức
quan trọng trong việc phân tích và hiểu ngữ cảnh của các văn bản Mô hình ngôn ngữ là một hệ thống học máy được thiết kế để dự đoán xác suất của một chuỗi từ trong ngôn ngữ tự nhiên Các mô hình này có thể được áp dụng trong nhiều ứng dụng khác
nhau như dịch máy, nhận dạng tiếng nói, phân loại văn bản, và nhiều ứng dụng khác
Có nhiều loại mô hình ngôn ngữ khác nhau, bao gồm các mô hình dựa trên thống kê
như N-gram, các mô hình dựa trên mạng nơ-ron truyền thống như RNN (Recurrent
1!https:/ /arxiv.org/pdf/2005.08100
21
Trang 33Neural Network), và các mô hình tiên tiến hơn dựa trên Transformer Các mô hình
ngôn ngữ tiêu biểu khác bao gồm LSTM (Long Short-Term Memory), GRU (Gated
Recurrent Unit), BERT (Bidirectional Encoder Representations from Transformers)
[2], GPT-3 (Generative Pre-trained Transformer) [6], và XLNet[7].
Mô hình N-gram là một trong những mô hình ngôn ngữ đơn giản nhất, sử dung
xác suất có điều kiện của một từ dựa trên những từ liền kề trước đó Ưu điểm của mô hình N-gram là dễ triển khai và tính toán nhanh chóng Tuy nhiên, nhược điểm của nó là không thể nắm bắt được các mối quan hệ từ xa trong câu và hiệu suất giảm đáng kể khi chiều dài chuỗi từ tăng Mô hình ngôn ngữ dựa trên RNN được thiết kế để xử lý dữ liệu tuần tự và có khả năng ghi nhớ thông tin theo thời gian Điều này
cho phép RNN nắm bắt được các mối quan hệ từ xa hơn so với N-gram Tuy nhiên,
RNN gặp phải vấn đề về độ dài của chuỗi thông tin do hiệu ứng biến mất của gradient
khi chiều dài chuỗi tăng lên Các biến thể của RNN như LSTM và GRU đã cải thiện
khả năng ghi nhớ thông tin dài hạn và giảm bớt vấn đề này Mô hình Transformer,xuất hiện như một bước đột phá trong xử lý ngôn ngữ tự nhiên, khắc phục được cáchạn chế của RNN bằng cách sử dụng cơ chế tự chú ý (self-attention) Cơ chế này chophép mô hình nắm bắt được các mối quan hệ từ xa một cách hiệu quả hơn và song
song hóa quá trình huấn luyện, giúp tăng tốc độ xử lý Mặc dù vậy, nhược điểm của
mô hình ngôn ngữ dựa trên Transformer là yêu cầu tài nguyên tính toán lớn và cần
nhiều dữ liệu để huấn luyện mô hình hiệu quả Các mô hình ngôn ngữ hiện đại như
BERT và GPT-3 đã chứng minh hiệu suất vượt trội trong nhiều tác vụ xử lý ngôn
ngữ tự nhiên, trong khi XLNet kết hợp những ưu điểm của các mô hình trước đó để
cải thiện hiệu suất dự đoán ngữ cảnh
22
Trang 34Với moi ngôn ngữ, từ là đơn vị nhỏ nhất có ý nghĩa Vì vậy, việc xử ly văn bản ở
mức từ là bước đầu tiên và quan trọng nhất của bất kỳ hệ thống xử lý ngôn ngữ nào
Dé xử lý được các từ, cần phải tách các từ riêng biệt ra với nhau (word segmentation) Không giống như các ngôn ngữ khác, điển hình là tiếng Anh với các từ được phan biệt bởi khoảng trắng, các từ trong tiếng Việt có thể bao gồm nhiều âm tiết và khoảng
trắng chỉ tách được các âm tiết với nhau chứ không phân cách được các từ Ví dụ,
„22 66, (có
câu “toi yêu lập trinh” bao gồm bốn âm tiết (“+ôi”, “uêu”, “lập”, “trinh”) nhưng chỉ bao
gồm ba từ (“2ôi”, “yêu”, “lập trình”) Tiếng Việt còn nổi tiếng với nhiều nhập nhằng ngữ nghĩa như trong câu “cu già di nhanh quá” có thé hiểu theo cách “cu già đi nhanh
quá” (ám chỉ một cụ già đi rất nhanh trên đường) hoặc “cụ già đi nhanh quá” (ám
chỉ lời nhận xét về sự già nua nhanh chóng của một người cao tuổi) Nếu các từ được
tách trong câu một cách chính xác thì sẽ tránh được nhập nhằng về mặt ngữ nghĩa
Word Piece Model (WPM)|S| là một phương pháp tách từ được sử dụng rộng rãi
trong các mô hình xử lý ngôn ngữ tự nhiên, đặc biệt là trong các bài toán liên quan
đến ngôn ngữ có cấu trúc phức tạp như tiếng Việt Phương pháp này phân tách vănbản thành các đơn vị nhỏ gọi là “word pieces”, bao gồm cả từ nguyên và các phần của
12https://www.pykonik.org/media/slides/tech-talks-49-statistical-language-modeling-with-n-grams-in-python.pdf
23
Trang 35từ Các “word pieces” này được hình thành thông qua một quá trình học không giám
sát, nơi một thuật toán tối wu hóa số lượng các đơn vị sao cho phù hợp nhất với cấutrúc và tần suất xuất hiện của các từ trong một tập dữ liệu lớn
WPM bắt đầu bằng cách phân tích một tập hợp lớn dữ liệu văn bản và xác địnhtần suất xuất hiện của các từ và cụm từ Sau đó, nó sử dụng một giải thuật tham
lam để phân chia từ thành các đơn vị nhỏ hơn dựa trên tần suất chung của chúng, đồng thời giảm thiểu số lượng các đơn vị tổng thể cần thiết để biểu diễn toàn bộ dữ
liệu Quá trình này giúp giảm thiểu sự phụ thuộc vào từ điển và cải thiện khả năng
xử lý ngôn ngữ một cách linh hoạt hơn Trong bối cảnh xử lý ngôn ngữ tiếng Việt,WPM đặc biệt có ích do tiếng Việt là ngôn ngữ có tính chất chắp ghép cao, với nhiều
từ ghép và biến thể của từ WPM giúp giải quyết các thách thức này bằng cách học
được cách phân tách từ một cách hiệu quả, từ đó hỗ trợ cải thiện độ chính xác của
các mô hình học máy trong việc nhận dạng và xử lý ngôn ngữ tự nhiên tiếng Việt
2.2.3 Word embedding
Word embedding là một kỹ thuật trong xử lý ngôn ngữ tự nhiên, được sử dung
để ánh xạ các từ hoặc cum từ trong ngôn ngữ tự nhiên vào một không gian vectơ số học có chiều thấp Mỗi từ hoặc cụm từ được biểu diễn dưới dạng một vectơ số,
trong đó các từ có ngữ nghĩa tương tự sẽ có các vectơ gần nhau trong không gian này
Các phương pháp phổ biến để tạo ra word embedding bao gồm Word2Ved!| GloVe (Global Vectors for Word Representation)!“ va Fast Text!
Vai trò của word embedding là hết sức quan trong trong việc cải thiện hiệu suấtcủa các mô hình học máy và mạng nơ-ron trong xử lý ngôn ngữ tự nhiên Bằng cách
biểu diễn từ dưới dạng các vectơ, word embedding cho phép mô hình hoc máy hiểu
và nắm bắt được các mối quan hệ ngữ nghĩa và cú pháp giữa các từ Diều này giúp
các mô hình không chỉ dựa vào tần suất xuất hiện của từ mà còn hiểu được ngữ cảnh
sử dụng của từ, từ đó nâng cao độ chính xác trong các tác vụ như phân loại văn bản,
13https://arxiv.org/abs/1301.3781 M“4nttps: //nlp.stanford.edu/pubs/glove.pdf
https: //arxiv.org/abs/1607.04606
24
Trang 36dịch máy, và nhận dạng tiếng nói.
Việc sử dụng word embedding là cần thiết vì nó giúp giải quyết một số vấn đề
cơ bản trong xử lý ngôn ngữ tự nhiên Trước tiên, nó giảm chiều dữ liệu đầu vào bằng
cách ánh xạ các từ vào một không gian vectơ có chiều thấp hơn so với số lượng từ
vựng gốc, điều này giúp giảm thiểu độ phức tạp tính toán và tăng hiệu suất của mô
hình Thứ hai, word embedding giúp mô hình học được các quan hệ ngữ nghĩa giữa
các từ, cho phép mô hình hiểu được các từ đồng nghĩa, trái nghĩa, và các mối quan
hệ khác trong ngữ cảnh, điều mà các phương pháp truyền thống dựa trên tần suất
không thể làm được Cuối cùng, word embedding cung cấp một cách tiếp cận thống nhất để xử lý các từ mới hoặc hiếm gặp, nhờ vào khả năng nội suy trong không gian
vectd.
2.3 Xử lý tiếng nói
Xử lý tiếng nói đóng vai trò then chốt trong việc giải quyết bài toán nhận dạng
tiếng nói Xử lý tiếng nói bao gồm việc phân tích các đặc trưng âm thanh như tần số,
cường độ và ngữ điệu để đảm bảo sự chính xác và tự nhiên của kết quả nhận dạng.
Các bước cơ bản trong xử lý tiếng nói bao gồm tiền xử lý tín hiệu, trích xuất
đặc trưng, và nhận dạng mẫu Tiền xử lý tín hiệu giúp làm sạch và chuẩn hóa dữ
liệu âm thanh, loại bỏ nhiễu và điều chỉnh các biến dạng âm thanh Trích xuất đặc
trưng là quá trình biến đổi tín hiệu âm thanh thô thành các đặc trưng số có ý nghĩa, chang hạn như các hệ số Mel-Frequency Cepstral Coefficients (MFCCs), để làm đầu
vào cho các mô hình học máy Cuối cùng, nhận dạng mẫu sử dụng các mô hình học
máy, chẳng hạn như mạng nơ-ron sâu (DNN), mạng nơ-ron tích chập (CNN), và các
mô hình tiên tiến như Transformer, để dự đoán và chuyển đổi các đặc trưng âm thanh
thành văn bản.
25
Trang 372.3.1 Ngữ âm học
Ngữ âm hoc (Phonetics) nghiên cứu về cách thức các âm thanh lời nói đượctạo ra và nhận biết Ñgữ âm học bao gồm hai lĩnh vực chính: ngữ âm học phát âm
(Articulatory Phonetics) và ngữ âm học âm hoc (Acoustic Phonetics) Ngữ âm học
phát âm tập trung vào cách các âm thanh lời nói được tạo ra thông qua sự chuyển
động của các bộ phận trong đường hô hấp, như lưỡi, môi, và thanh quản Ñgữ âmhọc âm học nghiên cứu các đặc tính âm thanh của các âm thanh lời nói, bao gồm tầnsố, cường độ, và thời gian
2.3.1.1 Ngữ âm học phat âm
Trong lĩnh vực ngữ âm hoc, quá trình tạo ra 4m thanh ngôn ngữ bởi cấc cơ quan
phát âm là một quá trình phức tạp và tỉnh vi, đòi hỏi sự phối hợp nhịp nhàng giữa
nhiều bộ phận khác nhau của cơ thể con người Quá trình này bắt đầu từ việc hít vào
và thở ra của phổi, và không khí được đẩy qua các bộ phận phát âm để tạo ra âm
thanh.
Quá trình phát âm bắt đầu từ phổi, nơi không khí được lấy vào và đẩy ra Khi hít vào, không khí tràn vào phổi, và khi thở ra, không khí được day ra ngoài qua khí quản Phổi cung cấp luồng không khí cần thiết để tạo ra âm thanh Không khí từ phổi đi qua khí quản và tới thanh quản, nơi chứa các nếp gấp nhỏ gọi là dây thanh.
Thanh quản, còn được biết đến với tên gọi hộp âm hoặc yết hầu, đóng vai trò quantrọng trong việc điều chỉnh luồng không khí và tạo ra các dao động âm thanh Khicác dây thanh gần nhau và rung, chúng tạo ra các âm thanh có tiếng (voiced sounds)
Ngược lại, khi các dây thanh mở ra và không rung, chúng tạo ra các âm thanh không
tiếng (voiceless sounds)
Khu vực trên khí quan gọi là đường thanh quan, bao gồm đường miệng và đường
mũi Sau khi không khí đi qua thanh quản, nó có thể thoát ra ngoài cơ thể qua miệng
hoặc mũi Phần lớn các âm thanh được tạo ra khi không khí đi qua miệng Tuy nhiên,
âm vị mũi (nasal sounds) được tạo ra khi không khí di qua mũi, chang hạn như các
âm [ml], [n], và [ng] Các bộ phận phát âm chủ yếu bao gồm môi, răng, nướu răng,
26
Trang 38vòm miệng mềm và khe thanh môn Mỗi bộ phận này đóng vai trò quan trọng trong
việc tạo ra các loại âm thanh cụ thể: Đóng và mở môi có thể tạo ra các âm vị hai môi như [p], [b|, [m] Lưỡi có thể chạm vào răng để tạo ra các âm vi răng như [th] và [dh] Đầu lưỡi chạm vào nướu răng để tạo ra các âm vị nướu như [s], [z], [t], [d] Lưỡi cham vào vòm miệng mềm để tạo ra các âm vị vòm mềm như [k], [g], [ng] Khe thanh môn đóng lại để tao ra âm ngắt thanh [q].
Cách phát âm của các âm vị được phân loại theo cách thức mà luồng không khí
bị hạn chế: Luồng không khí bị chặn hoàn toàn trong thời gian ngắn và sau đó được
giải phóng nhanh chóng, tạo ra âm bùng nổ, ví du: [p], [t], [k] Luồng không khí bị
hạn chế nhưng không bi chặn hoàn toàn, tạo ra âm xì đặc trưng, ví dụ: [f], [s] Các
cơ quan phát âm gần nhau nhưng không đủ gần để tạo ra luồng không khí hỗn loạn,
ví dụ: [y] trong “yellow”, [w] trong “wood”.
Ngữ âm học âm học, hay còn gọi là ngữ âm học âm thanh, là một nhánh của
ngữ âm học chuyên nghiên cứu về các đặc tính vật lý của âm thanh ngôn ngữ Lĩnh
18h ttps:/ /web.stanford.edu/class /cs224s /semesters/2024-spring /lecture-slides /224s.24.lec2.pdf
27
Trang 39vực này tập trung vào việc phân tích các yếu tố như tần số, biên độ, thời gian, vàcường độ của âm thanh khi chúng được phát ra từ các cơ quan phát âm và truyền
qua không gian Ngữ âm học âm học không chi quan tâm đến cách âm thanh được
tạo ra, mà còn nghiên cứu cách chúng được truyền đi và cảm nhận bởi người nghe Sử
dụng các công cụ và phương pháp đo lường chính xác, các nhà ngữ âm học âm học có
thể xác định và phân tích các mẫu âm thanh phức tạp, giúp làm sáng tỏ những đặc trưng âm thanh cụ thể của các ngôn ngữ khác nhau.
Tần số là số lần dao động của sóng âm trong một giây, được do bang hertz (Hz).Tần số cơ ban (fundamental frequency, F0) của âm thanh được xác định bởi tốc độ
dao động của dây thanh Âm thanh có tần số cơ bản cao thường được cảm nhận là
cao (high-pitched), trong khi âm thanh có tần số cơ bản thấp được cảm nhận là thấp
(low-pitched) Tần số cơ bản đóng vai trò quan trọng trong việc phân biệt giữa các
nguyên âm và phụ âm.
Biên độ là mức độ thay đổi áp suất không khí, đại diện cho độ mạnh yếu của
âm thanh Biên độ càng lớn, âm thanh càng lớn và ngược lại Biên độ của âm thanh
thường được do bang decibel (dB) Sự biến đổi biên độ giúp tạo nên các đặc trưng
như cường độ (intensity) và độ lớn (loudness) của âm thanh.
Dạng sóng của âm thanh là biểu đồ biểu diễn sự thay đổi của áp suất không khí
theo thời gian Mỗi âm thanh có một dạng sóng đặc trưng, phản ánh cấu trúc tần sốvà biên độ của nó Dạng sóng cung cấp thông tin về cấu trúc thời gian của âm thanh
và giúp phân tích các đặc trưng âm học như thời gian (duration) và mẫu hình dao
động (oscillation patterns).
0.02283:
-0.01697+
Trang 402.3.2 Xử lý tín hiệu số
Trong lĩnh vực khoa học máy tính và kỹ thuật, Xử lý Tín hiệu Số (DSP) đóng
một vai trò vô cùng quan trọng DSP liên quan đến việc phân tích và xử lý các tín hiệu
số, bao gồm các tín hiệu âm thanh và hình ảnh Phần này sẽ trình bày về các khái
niệm cơ bản trong DSP, tập trung vào việc biểu diễn tín hiệu số, phân tích Fourier, và biểu đồ phổ (spectrograms).
2.3.2.1 Biểu diễn tín hiệu số
Âm thanh được định nghĩa là sự thay đổi áp suất trong không khí, được tạo ra
bởi các rung động Khi một dây đàn guitar rung lên, nó tạo ra các rung động lan
truyền qua các phân tử trong không khí, và khi các rung động này đến microphone,
chúng được chuyển đổi thành tín hiệu điện Biểu đồ của áp suất theo vị trí cho thấy dạng sóng sin quen thuộc Để lưu trữ âm thanh trong máy tính, tín hiệu analog từ microphone được chuyển đổi thành tín hiệu số thông qua bộ chuyển đổi Analog sang
Digital (ADC) Quá trình này bao gồm hai bước chính: lấy mẫu (sampling) và lượng
tử hóa (quantization).
Lấy mẫu là quá trình chuyển đổi tín hiệu liên tục thành một chuỗi các giá trị
rời rạc, trong đó tỷ lệ mẫu (sample rate) là số lượng mẫu âm thanh được đo trongmột giây Các giá trị này được ghi lại tại các khoảng thời gian đều đặn, và tỷ lệ mẫu
pho biến bao gồm 8kHz, 22.05kHz, 44.1kHz Lượng tử hóa là quá trình chuyển đổi
các giá trị liên tuc của tín hiệu thành các giá trị rời rac, được biểu diễn bằng số bit
(bit depth) Điều này bao gồm việc làm tròn các giá trị liên tục đến các mức rời rạc
gần nhất, với độ sâu bit phổ biến là 8, 16, 24, hoặc 32 bit.
Tín hiệu số được biểu diễn dưới dạng Pulse-Code Modulation (PCM) PCM là một phương pháp quan trọng và phổ biến để lưu trữ và truyền tải âm thanh số vì nó
giữ nguyên được chất lượng âm thanh gốc mà không mất mát thông tin Điều này
làm cho PCM trở thành một tiêu chuẩn trong việc lưu trữ âm thanh trong các định
dang không nén như WAV và AIFF PCM có các đặc điểm sau:
29