48Kết luận và hướng phát triển50 Trang 8 Từ điển chú giảiKý hiệu Thuật ngữTạm dịchASRAutomatic Speech Recognition Nhận dạng tiếng nói tự độngDTWDynamic Time WarpingNắn chỉnh thời gian đ
Trang 1TRƯỜ NG Đ ẠI H C BÁCH KHOA HÀ N I Ọ Ộ
-
NHẬN DIỆN TIẾNG NÓI TR C TI Ự Ế P
LUẬN VĂN THẠC SĨ KHOA HỌC KHOA HỌC MÁY TÍNH
Hà Nộ i – Năm 2018
Trang 2TRƯỜ NG Đ ẠI H C BÁCH KHOA HÀ N I Ọ Ộ
-
NHẬN DIỆN TIẾNG NÓI TR C TI Ự Ế P
Chuyên ngành: KHOA HỌC MÁY TÍNH
LUẬN VĂN THẠC SĨ KHOA HỌC KHOA HỌC MÁY TÍNH
Trang 3Luận văn thạc sỹ khoa học máy tính
Cải tiến trong đoán định văn bản của mô hình nhận diện
tiếng nói trực tiếp
Học viên:
Nghiêm Nguyễn Việt Dũng PGS Ts Đỗ Phan ThuậnGiảng viên hướng dẫn:
Ngày 21 tháng 8 năm 2018
Trang 4Lời cam đoan
Trang 5Lời cảm ơn
Đầu tiên, em xin bày tỏ lòng biết ơn chân thành đến thầy Đỗ Phan Thuận, người đã tận tình hướng đẫn và tạo mọi điều kiện cho em hoàn thành tốt luận văn tốt nghiệp này.
Em cũng xin cảm ơn sự dạy dỗ và chỉ bảo tận tình của tất cả quý thầy cô
ở trường Đại học Bách Khoa Hà Nội Tất cả các kiến thức mà em thu được
sẽ là hành trang quý giá trên con đường học tập, làm việc và nghiên cứu sau này.
Xin trân trọng cảm ơn!
Hà Nội, tháng 7 năm 2018 Học viên
Nghiêm Nguyễn Việt Dũng
Trang 6Mục lục
1.1 Hệ thống nhận dạng tiếng nói 12
1.2 Các hướng tiếp cận 15
1.3 Mô hình ngôn ngữ trong nhận dạng tiếng nói 16
1.4 Các thách thức 17
2 Mô hình nhận dạng tiếng nói trực tiếp 20 2.1 Tổng quan 20
2.1.1 Mô hình CTC 21
2.1.2 Mô hình RNN-Transducer 23
2.1.3 Mô hình Attention 24
2.1.4 Nhận xét và đánh giá 26
2.2 Mô hình nhận dạng tiếng nói trực tiếp sử dụng CTC 28
2.2.1 Kiến trúc mô hình 28
2.2.2 Hàm CTC loss 30
2.2.3 Khối đoán định văn bản 31
2.3 Tiềm năng ứng dụng đối với Tiếng Việt 32
3 Thuật toán và kỹ thuật đề xuất 33 3.1 Thuật toán Prefix Beam Search 33
3.2 Chuẩn hóa và phương thức tính toán 36k 3.3 Kỹ thuật cắt nhánh 39 3.4 Mô hình ngôn ngữ -gram kết hợp tiền tố 40n
Trang 74 Kết quả thực nghiệm 43
4.1 Thiết lập thí nghiệm 43
4.2 Độ chính xác của thuật toán Prefix Beam Search 44
4.3 Kết quả cải tiến bước cắt nhánh 45
4.4 Kết quả cải tiến mô hình ngôn ngữ 48 Kết luận và hướng phát triển 50
Trang 8Từ điển chú giải
Ký hiệu Thuật ngữ Tạm dịch
ASR Automatic Speech Recognition Nhận dạng tiếng nói tự động DTW Dynamic Time Warping Nắn chỉnh thời gian động
LVCSR Large Vocabulary Continuous
Speech Recognition Bài toán nhận dạng tiếng nóiliên tục với bộ từ vựng lớn PBS Prefix Beam Search Algorithm Thuật toán tìm kiếm tiền tố beam WER Word Error Rate Tỷ lệ lỗi nhận dạng từ
Trong luận văn này, một số thuật ngữ dù có tạm dịch tiếng Việt nhưng vẫn sẽ được dùng bằng tiếng Anh bởi tính chính xác và quốc tế của nó.
Trang 9Danh sách hình vẽ
1.1 Các thành phần cơ bản của hệ thống ASR 13
2.1 Mô hình CTC 22
2.2 Mô hình RNN-Transducer 24
2.3 Mô hình Attention 25
2.4 Kiến trúc mô hình được thử nghiệm 29
3.1 Cây biểu diễn mô hình ngôn ngữ tiền tố 41
4.1 Biểu đồ hiệu quả tính toán của các phương pháp cắt nhánh 46 4.2 Biểu đồ hiệu quả tìm kiếm của các phương pháp cắt nhánh 47
4.3 Biểu đồ hiệu quả không gian tìm kiếm khi kết hợp hai cải tiến 49 4.4 Biểu đồ hiệu quả thời gian tính khi kết hợp hai cải tiến 49
Trang 10Danh sách bảng
2.1 So sánh các mô hình huấn luyện trực tiếp và mô hình dựa trên
HMM 26
4.1 Sai số của thuật toán Prefix Beam Search với k bé 44
4.2 Kết quả giải thuật PBS 45
4.3 Kết quả giải thuật PBS chuẩn hóak 45
4.4 Kết quả tỷ lệ từ lỗi đối với mô hình ngôn ngữ và mô hình ngôn ngữ kết hợp tiền tố 48
Trang 11Mở đầu
1 Lý do chọn đề tài
Tiếng nói là phương tiện giao tiếp căn bản và phổ biến nhấtcủa loài người, nó được hình thành và phát triển xuyên suốt quátrình tiến hoá của nhân loại Do vậy từ cuối thập niên 40 củathế kỷ trước, các nghiên cứu và ứng dụng của bài toán nhậndạng tiếng nói đã được phát triển với nhiều cách tiếp cận khácnhau Những năm gần đây, các hệ thống nhận dạng tiếng nóitrực tiếp đã có những bước phát triển nhất định trong nghiêncứu và có những kết quả thực nghiệm đầy hứa hẹn [1, 2, 3].Tuy nhiên, các nghiên cứu về mô hình nói trên chưa tập trungnhiều khả năng tích hợp với mô hình ngôn ngữ[4] Việc sử dụng
mô hình ngôn ngữ đã giúp không nhỏ vào việc nâng cao độ chínhxác trong đoán định văn bản ở các mô hình truyền thống Thếnên, nâng cao việc tích hợp mô hình ngôn ngữ cũng như cải tiếnbước đoán định văn bản sẽ đóng góp nhiều vào phát triển môhình nhận dạng tiếng nói trực tiếp
Vì ý nghĩa của nó và được sự đồng ý của Thầy PGS.TS ĐỗPhan Thuận, tôi đã chọn đề tài "Cải tiến trong đoán định vănbản của mô hình nhận dạng tiếng nói trực tiếp" thực hiện vớimong muốn đóng góp giải pháp cho lĩnh vực nhận dạng tiếngnói
2 Mục tiêu nghiên cứu của đề tài
Qua phần giới thiệu trên, ta thấy nhận dạng tiếng nói là mộtlĩnh vực phức tạp nhưng đầy hứa hẹn về tiềm năng ứng dụng.Nghiên cứu này đưa ra cái nhìn chung về bài toán, tập trung vào
Trang 12những bước phát triển gần đây theo hướng mô hình học trựctiếp Sau đó, luận văn trình bày chi tiết quá trình đoán định vănbản (một bài toán con) cũng như thể hiện mối quan hệ, tính ảnhhưởng của nó tới bài toán chính Cuối cùng, tác giả có nêu một
số phương pháp cải tiến và phân tích các kết quả thực nghiệmkèm theo
3 Đối tượng và phạm vi nghiên cứu
Đề tài tập trung vào các mô hình nhận dạng giọng nói trựctiếp đi sâu vào quá trình đoán định văn bản (decoding) củamạng nơ-ron hồi quy sử dụng khối CTC Cụ thể, luận văn đưa
ra một số đề xuất cải tiến giúp tăng độ chính xác và giảm thờigian tính toán của quá trình trên
4 Phương pháp nghiên cứu
Kết hợp giữa phương pháp phân tích - tổng hợp lý thuyết,phương pháp mô hình hóa và phương pháp thực nghiệm khoahọc
5 Ý nghĩa khoa học của luận văn
Trên cơ sở nghiên cứu và hệ thống hoá bài đoán định vănbản, luận văn chúng tôi đề xuất thuật toán mới với những điểmchính sau:
- Thuật toán đã chuẩn hóa tham số độ rộng beam tươngđương với các thuật toán tìm kiếm beam khác
- Thuật toán giúp nâng cao hiệu quả tìm kiếm trong trườnghợp năng lực tính toán bị giới hạn
- Thuật toán giảm được không gian tìm kiếm bằng việc sửdụng mô hình ngôn ngữ kết hợp tiền tố
6 Cấu trúc của luận văn
Ngoài phần mở đầu, kết luận, danh mục tài liệu tham khảo,nội dung của đề tài bao gồm 4 chương:
- Chương 1: Giới thiệu tổng quan về bài toán nhận dạngtiếng nói nói chung cũng như quá trình đoán định văn bản
và mô hình ngôn ngữ nói riêng
Trang 13- Chương 2: Trình bày khái quát các hệ thống nhận dạngtiếng nói trực tiếp đang được sử dụng và tập trung vào môhình sử dụng CTC, chỉ ra các ưu nhược điểm của chúng vàkhả năng ứng dụng trong tiếng Việt.
- Chương 3: Nêu thuật toán Prefix Beam Search và đề xuấtcác kỹ thuật cải tiến
- Chương 4: Đưa ra cách thức tiến hành thí nghiệm và phântích đánh giá kết quả thí nghiệm
Trang 14Chương 1
Tổng quan
Trước cả khi máy tính được tạo ra, con người đã có mongmuốn trao đổi với các công cụ qua phương thức tự nhiên nhất
- tiếng nói Hơn một nửa thế kỷ, bài toán nhận dạng tiếng nói
đã được nghiên cứu để góp phần hoàn thành sứ mệnh trên Dùbài toán rất phức tạp và có những câu hỏi khó chưa được giảiđáp nhưng những thành tựu gần đây trong xử lý tín hiệu, xử lýngôn ngữ tự nhiên và đặc biệt là trí tuệ nhân tạo giúp chúng ta
có thể tiến gần tới mục tiêu này hơn
Với mục đích là giới thiệu về nhận dạng tiếng nói, chươngđược chia thành bốn phần Phần đầu nêu ra những thành phầnchính và cách phân loại các hệ thống nhận dạng tiếng nói Trongphần tiếp theo, các hướng tiếp cận phổ biến được giới thiệu.Phần thứ ba trình bày rõ hơn về mô hình ngôn ngữ bởi đây làthành phần quan trọng trong nhận dạng tiếng nói cũng là phầntập trung chủ yếu của luận văn Ở phần cuối, các thách thứccòn tồn tại sẽ được đưa ra
Trang 151.1 Hệ thống nhận dạng tiếng nói
Các thành phần cơ bản của hệ thống nhận dạng tiếng nói
Một hệ thống nhận dạng tiếng nói tự động gồm có các thànhphần sau:
• Bộ trích rút đặc trưng tiếng nói
Mục tiêu của thành phần này là biến đổi tín hiệu âm thanhthành chuỗi các vector đặc trưng Trích rút đặc trưng cũng
có vai trò loại bỏ nhiễu
• Mô hình âm thanh
Là nguồn tri thức quan trong trong hệ thống ASR với khảnăng nhận diện các thành phần ngữ âm căn bản (âm vị,chữ cái hoặc một từ hoàn chỉnh) của ngôn ngữ Với các môhình nhận dạng âm vị, hệ thống ASR cần phải có thêm mộtthành phần nữa là từ điển ngữ âm (phonetic dictionary) để
từ chuỗi âm vị có được từ mô hình âm thanh có thể suy rađược các từ riêng lẻ
• Mô hình ngôn ngữ
Mục tiêu của mô hình ngôn ngữ là giới hạn việc tìm kiếm
Mô hình thường dựa trên thống kê hoặc quy tắc ngữ pháp
mà nó có thể chỉ ra đâu là các từ hợp lệ hay đâu là chuỗi
có thể xuất hiện trong một ngữ cảnh nào đó
• Bộ giải mã
Nhiệm vụ của bộ giải mã là tìm ra chuỗi từ phù hợp nhấtcho dựa trên việc tổng hợp kết quả của mô hình âm thanh
và mô hình ngôn ngữ
Trang 16Hình 1.1: Các thành phần cơ bản của hệ thống ASR
Phân loại các hệ thống nhận dạng tiếng nói
Dựa vào chế độ nói, người nói, kích cỡ từ vựng mà ta có thểchia bài toán phức tạp này thành các bài toán con với các tínhchất khác nhau Trong số các đặc điểm trên thì chế độ nói làđặc điểm quan trọng nhất và góp phần quan trọng trong việcxác định độ khó của bài toán Về cơ bản có 4 chế độ nói chính:
• Chế độ nói từ riêng lẻ (Isolated word speech)
Là hệ thống với hai trạng thái "nghe/không-nghe" giúpnhận biết chính xác điểm bắt đầu và kết thúc của từng từ.Những hệ thống nhận dạng tiếng nói ban đầu thường ápdụng chế độ này này bởi tính đơn giản và chủ yếu liên quanđến xử lý tín hiệu và so sánh tần số Những hệ thống trênhiện vẫn được áp dụng rộng rãi trong các hệ thống ra lệnh
và điều kiển (Command and Control)
• Chế độ nói nối từ (Connected word speech)
Trang 17Là cơ chế giúp hệ thống nhận ra các chuỗi từ liên tiếp cáchnhau bởi các khoảng nghỉ đủ lớn.
• Chế độ nói liên tục (Continuous speech)
Là chế độ nói tự nhiên mà không cần phải nghỉ giữa mỗicụm từ Có thể thấy, chế độ này phức tạp hơn hai chế độtrên bởi cần thêm cơ chế để nhận ra giới hạn giữa các phátâm
• Chế độ nói trực tiếp (Spontaneous speech)
Là chế độ nói tự nhiên không chỉnh sửa do đó chứa các từđược nói liên tục, các từ đệm ("ừm", "à") hay cả khả năng
bị lắp từ (nói lắp nhẹ)
Một tiêu chí nữa cũng quan trọng trong việc xác định độphức tạp cũng như khả năng ứng dụng của hệ thống là từ vựng.Đối với từ vựng, ta có thể chia thành 3 loại chính:
• Từ vựng bé (small-vocabulary)
Từ vựng bé chứa lượng từ cố định và thường có kích thước
bé hơn 100 Nó thường được sử dụng trong việc nhận dạng
số, chứ cái
• Từ vựng vừa (medium-vocabulary)
Từ vựng vừa chứa lượng từ cố định và thường có kích thước
từ 100 đến cỡ hàng nghìn từ Với kích thước như vậy, hệthống có khả năng nhận diện hầu hết các cuộc hội thoạithông thường Tuy vậy, những từ ngữ chuyên môn, hay từnước ngoài sẽ không được nhận đúng
• Từ vựng lớn (large-vocabulary)
Từ vựng lớn là hệ thống có khả năng nhận ra được hơnchục nghìn từ thậm chí cả những từ không có trong tập dữliệu huấn luyện
Trang 181.2 Các hướng tiếp cận
Các phương pháp nhận diện tiếng nói có thể chia thành 3hướng chính: tiếp cận dựa vào âm học - ngữ âm học (acoustic-phonetic), tiếp cận dựa theo mẫu và tiếp cận theo hướng trí tuệnhân tạo
Tiếp cận dựa vào âm học và ngữ âm học
Hướng đi này đựa trên định đề là trong bất kỳ ngôn ngữ nàocũng chỉ tồn tại hữu hạn các đơn vị ngữ âm phân biệt (âm vị).Bước đầu tiên trong cách tiếp cận này là phân tích phổ tiếngnói kết hợp với các bộ nhận nhận diện đặc trưng để có được tậpcác tính chất âm học Ở bước tiếp theo, tín hiệu được chia cắt
và gán cho một hay nhiều nhãn ngữ âm Bước cuối của phươngpháp đưa ra chuỗi các từ kết quả dựa trên chuỗi nhãn ngữ âm
từ bước trước
Tiếp cận dựa vào nhận dạng mẫu
Hai bước quan trọng nhất trong hướng tiếp cận này là huấnluyện mẫu và so sánh mẫu Trong bước so sánh mẫu, từng phần
âm thanh đầu vào được so sánh trực tiếp với các tập mẫu cóđược trong quá trình huấn luyện để tìm ra mẫu gần nhất Dạngbiểu diễn của mẫu so sánh có thể là mẫu âm thanh trực tiếphoặc là một mô hình thống kê (ví dụ: mô hình Markov ẩn)
Tiếp cận theo hướng trí tuệ nhân tạo
Cách tiếp cận này là sự kết hợp của hai cách tiếp cận trên
Cụ thể là nó khai thác ý tưởng từ hướng ngữ âm học và phươngpháp từ nhận dạng mẫu Có 3 hướng đi con trong cách tiếp cận
Trang 19này: phương pháp dựa trên Dynamic Time Warping (DTW),phương pháp dựa trên mô hình Markov ẩn và mô hình học trựctiếp.
Trong DTW, mỗi lớp nhận diện được đại diện bởi một haynhiều mẫu[5] Việc sử dụng nhiều hơn một mẫu mỗi lớp giúptăng độ chính xác trong trường hợp có những khác biệt về cácphát âm hay người nói của cùng một ngôn ngữ Trong khâu nhậndiện, khoảng cách giữa chuỗi âm thu được và mẫu lớp được tính
Để loại bỏ sự khác biệt về độ dài của hai đối tượng này, mẫu
bị co kéo và biến dạng cũng được sử dụng trong tính toán Từđược nhận diện tương ứng với đường đi mà có tổng khoảng cách
bé nhất Trong các hệ thống hiện đại nhất, mô hình sử dụngMarkov ẩn sẽ tốt hơn mô hình dựa vào DTW bởi tính khái quát
kế cẩn thận lộ trình huấn luyện để dần có được các mô hìnhnhận diện phức tạp hơn
Mô hình học trực tiếp sẽ được giới thiệu cụ thể ở chương 2
1.3 Mô hình ngôn ngữ trong nhận dạng tiếng
nói
Mô hình ngôn ngữ là tập hợp các điều kiện để một chuỗi các
từ (ký tự) có thể được chấp nhận đối với một ngôn ngữ Nhữngđiều kiện này có thể được biểu diễn bằng tập các luật ngữ pháphoặc bằng việc thống kê trên mỗi cặp từ dựa trên một tập vănbản huấn luyện
Một trong các mô hình ngôn ngữ thường được sử dụng là mô
Trang 20hình ngôn ngữ n-gram Bằng việc thống kê trên các tập văn bảnmẫu kích thước cớ hàng triệu từ, mà mô hình có thể đưa ra xácsuất của một từ khi biết trước các từ trước nó Tùy vào số lượng
từ phía trước nó sử dụng mà ta có các loại uni-gram (1 từ phíatrước), bi-gram (2 từ phía trước) cho tới 5-gram Xác suất của
từ w n khi biết các từ phía trước w1, w2, , w n−1 là:
P w( n |w n−1 n N − +1) = C w(
n−1
n N − +1 w n)
C w( n N n−1 − +1) (1.1)Trong đó:
- C X( ) là số lượng xuất hiện của X trong văn bản
• Discounting: giảm xác suất các cụm n-gram có xác suất lớnhơn 0 để bù cho các cụm n-gram chưa xuất hiện
• Back-off: tính xác suất các cụm n-gram chưa xuất hiện bằngcác cụm ngắn hơn và có xác suất lớn hơn 0
• Interpolation: tính xác suất của tất cả các cụm n-gram bằngcác cụm ngắn hơn
1.4 Các thách thức
Nhận dạng tiếng nói vẫn đang còn xa mới tới sự hoàn thiện.Theo [6], bài toán này vẫn còn 6 thách thức lớn:
Trang 21• Khai thác dữ liệu
Nhờ mạng internet mà chúng ta có thể tiếp cận một lượnglớn các tệp tin giao tiếp ở nhiều tình huống và môi trườngkhác nhau Thêm vào đó, các công ty như Apple, Google
và Microsoft cũng có một lượng lớn dữ liệu người dùng quacác sản phẩm có sử dụng tiếng nói Tuy nhiên, hầu hết dữliệu này đều không được đánh nhãn hoặc đánh nhãn sơ sài.Việc đánh nhãn chúng chính xác và đầy đủ sẽ tiêu tốn mộtnguồn lực không nhỏ
• Hệ thống tính toán
Việc sử dụng GPU đã có hiệu quả đáng kể trong việc huấnluyện các mô hình nhận diện tiếng nói [3, 1] Tuy nhiên đểhuấn luyện các mô hình lớn cũng như nhanh hơn ta cần các
hệ thống phân tán Thêm nữa, mật độ tính toán của chip
vi xử lý đã đạt tới mức nếu tăng xung nhịp có thể khiếnsilicon tan chảy Do vậy, năng lực tính toán sẽ phát triểntheo hướng phân cụm và phân tán hơn là tính toán đơn.Điều này dẫn đến song song hoá thuật toán hay thiết kếthuật toán theo hướng song song sẽ là hướng nghiên cứuquan trọng trong giải quyết bài toán nhận diện tiếng nói
• Học không giám sát
Đã có khá ít các nghiên cứu về học không giám sát chonhận diện tiếng nói Mặc dù có một lượng lớn dữ liệu tiếngnói không đánh nhãn trên internet Thêm nữa, khả năngthay đổi hệ thống nhận diện tiếng nói sẵn có (hệ thống cóthể được huấn luyện bằn học có giám sát) bằng học khônggiám sát giúp cho hệ thống dễ dàng thích nghi với nhiềuvới sự biến đổi của môi trường âm học, người nói, cách sửdung từ mới
• Tính khả chuyển
Trang 22Đứng từ góc độ con người, các hệ thống nhận diện tiếng nóihiện nay có cách "học" rất cứng nhắc Mặc dù con ngườiđược nghe tiếng nói rất đa dạng từ môi trường, người nóiđến chủ đề thì con người vẫn có khả năng tạo ra được
mô hình tiếng nói và ngôn ngữ có tính khái quán lớn Cácnghiên cứu về thử thách này cần tập trung vào công nghệ
có tính khái quát hoá cao giúp hệ thống học từ tập dữ liệu
bé hơn và đa dạng hơn
• Khó khăn khi có các thay đổi đầu vào
Các hệ thống nhận diện tiếng nói hiện nay vẫn có thể giảmchất lượng đáng kể khi có những đổi nhỏ mà không ảnhhưởng nhiều tới khả năng nghe của con người Có hai loạithay đổi chính đó là môi trường âm thanh và tính chấtngười nói Môi trường âm thanh bao gồm tiếng ồn, tạp âm,
âm vọng lại hay bị trộn với tiếng nói khác Đồi với ngườinói, hầu hết các hệ thống hiện nay tập trung vào người bảnđịa và chất giọng chuẩn
• Nhận ra sự "không biết" (Socrate’s wisdom)
Thách thức này là việc thiết kế ra hệ thống có khả năngbiết khi nào nó không thể tìm ra chữ đúng Điều này đặcbiệt cần thiết khi gặp từ nằm ngoài tập huấn luyện hay từnước ngoài Trong các trường hợp này, các hệ thống hiệnnay sẽ thường trả về những từ thông thường khác mà cóphát âm tương tự
Trang 23Ở phần cuối, ta sẽ đưa ra đánh giá cụ thể của việc áp dụngphương pháp này đối với tiếng Việt.
2.1 Tổng quan
Trong phần này, chúng ta sẽ đi đánh giá cụ thể một số mạngneural huấn luyện trực tiếp (end-to-end trained) cho bài toánnhận dạng tiếng nói Những mạng nhận dạng tiếng nói trực tiếpnày có đặc điểm chung là đều nhận dạng trực tiếp chữ cái (ký
tự sử dụng trong văn bản) mà không cần sử dụng bộ từ điểnphát âm hay mô hình ngôn ngữ
Các mô hình nhận dạng trực tiếp có kiến trúc đơn giản hơnnhững mô hình truyền thống Bởi khả năng học cho cả các dữliệu trên môi trường âm thanh nhiễu hay cả các phương ngữkhác nhau nên vẫn đem lại hiệu quả cho những trường hợp nóitrên mà không cần các thuật toán xử lý riêng mang tính chất
Trang 24thủ công.
Hiện nay, một số loại mô hình phổ biến trong nhận dạngtrực tiếp này bao gồm [4]: connectionist temporal classification(CTC), recurrent neural network (RNN) transducer, cơ chế at-tention, và mô hình kết hợp RNN transducer với cơ chế atten-tion
Để việc giới thiệu mô hình được thống nhất, một số địnhnghĩa sau sẽ được sử dụng:
• Đầu vào dạng sóng âm thanh được biến đổi thành chuỗi
của các vector d-chiều Được ký hiệu là x = (x1, x2, , x T)
với x t ∈ R d
• Đầu ra là chuỗi các ký tự thuộc tập Chuỗi đầu ra đượcY
ký hiệu y = (y1, y2, , y L) Thường thì L nhỏ hơn rất nhiều
so với T
2.1.1 Mô hình CTC
Bằng việc thêm vào ký tự trống (blank), Graves và các đồng
sự [7] đã giới thiệu CTC như một cơ chế học mà không cần phảicăn chỉnh giữa đầu vào và đầu ra Đối với bài toán nhận dạngtiếng nói, đó là sự tương ứng của các ký tự (hay từ) đầu ra sovới các khung thời gian của chuỗi đầu vào Tuy nhiên, mô hìnhnày còn được sử dụng trong bài toán nhận dạng chữ viết tay [8]
và các bài toán nhận dạng chuỗi khác
Trang 25Xác suất điều kiện cho mỗi ký tự ở mỗi khung thời gian
P (b y t |x) được tính bằng mạng nơron hồi quy Cụ thể, chuỗi x
được đưa vào bộ encoder để tính chuỗi vector h enc = (h enc
1 , , h enc
rồi chuỗi này được đưa qua một lớp softmax để có được phân
Trang 26phối xác suất trên tập ký tự văn bản cộng thêm ký tự trống như
ký tự bắt đầu < sos >) đã được dự đoán trước đó y0, , y u−1 ∈
Y ∪ < sos > Đầu ra của mạng (vector p u) cùng với đầu ra mạng
encoder h enc
t kết hợp để tính ra z t,u như sau:
Trong đó, A, B, b, D, d là các tham số của mô hình Cuối cùng
z t,u được đưa qua hàm softmax để có đầu ra là phân bố xác suấttrên tập ký tự có blank (Y ∪ < bank >)
Một điểm cần lưu ý nữa của mô hình transducer là đầu ra
h enc t có tính đồng bộ với khung thời gian nên có thể nhận diệnt
tiếng nói trực tuyến nếu sử bộ encoder một chiều
Trang 27Hình 2.2: Mô hình RNN-Transducer
2.1.3 Mô hình Attention
Mô hình Attention (còn gọi là Listen-Attend-and-Spell [3])khác RNN transducer ở chỗ nó sử dụng duy nhất mạng decoder
đê có phân phối xác suất đầu ra khi biết toàn bộ chuỗi phía
trước và âm phổ hiện tại (spectrogram) P y( n |y n−1 , , y0, x) Cụ
thể hơn, ở lớp attention, từ đầu vào là trạng thái của lớp decoder
sau khi đoán được các nhãn phía trước, y1, , y u−1, và đầu ra
lớp encoder của tất cả các khung thời gian h enc, ta tính được
một vector ngữ cảnh duy nhất c u theo cách sau:
β t,u =< φ h( enc t ), ψ h( att u−1 ) > (2.4)
Trang 28Trong đó:
• φ và ψ là hàm tuyến tính được học cùng mô hình
• α u là trọng số attention
Hình 2.3: Mô hình Attention
Trong quá trình đánh nhãn, ta cần thêm hai ký tự đặc biệc
sos và eos để đánh dấu sự khởi đầu và kết thúc một câu Sau
đó, mô hình được huấn luyện bằng phương pháp tối ưu entropy
Trang 29cross-2.1.4 Nhận xét và đánh giá
So sánh kết quả thực nghiệm
Bởi việc huấn luyện những mô hình huấn luyện trực tiếp tiêutốn lượng nguyên tính toán lớn nên ở đây chúng tôi nêu kết quả
so sánh từ các bài báo công bố trước đó[9, 1, 10, 11, 12, 13] Để
có được sự so sánh khách quan, số liệu tập trung vào các bộ testchuẩn hay được dùng cho bài toán LVCSR Cụ thể ở đây là tỷ
lệ âm lỗi (PER) trên bộ test TIMIT và tỷ lệ từ lỗi (WER) trên
bộ Hub5’00 Mô hình dùng để so sánh ở đây là những mô hìnhtốt nhất không sử dụng huấn luyện trực tiếp mà ở đây đều lànhững mô hình sử dụng HMM [14, 15]
Bảng 2.1: So sánh các mô hình huấn luyện trực tiếp và mô hình dựa trên HMM
Mô hình TIMIT (PER) Hub5’00 (WER)
Mô hình HMM 23.0% 9.2%
Mô hình CTC 18.4% 12.6%
Mô hình Attention 17.6% 11.8%%
Mô hình Transducer 17.7%
-Bảng 2.1 cho thấy tính cạnh tranh của mô hình học trực tiếp
so với mô hình khác Thêm nữa, ở bộ dữ liệu TIMIT - bộ dữliệu có sự đa dạng ở người nói và phương ngữ - các mô hình họctrực tiếp cho thấy sự ưu việt hơn so với phương pháp truyềnthống Từ quá trình phát triển nhanh chóng và những kết quảnày, phương pháp huấn luyện trực tiếp cho các mô hình học sâu
sẽ tiếp tục là mũi nhọn đột phá trong giả quyết bài toán nhậndiện tiếng nói
Tầm quan trọng của tích hợp ngôn ngữ
Nghiên cứu của Rohit [4] còn đưa thêm về phân tích về nhữnglỗi hay gặp của các loại mô hình này Các lỗi thường xảy ra với