Các thành quả nghiên cứu nhận dạng tiếng nói của các ngôn ngữ nước ngooài cần được kế thừa và nghiên cứu đểáp dụng vào trong tiếng Việt.. Vì những lý do trên, tôi xin lựa chọn đề tài: “N
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Lương Chi Mai
HÀ NỘI - 2017
Trang 3LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Nghiên cứu và phát triển hệ thống nhận dạng tiếng Việt phát âm liên tục trên bộ từ vựng nhỏ và trung bình” là do tôi tìm hiểu, nghiên cứu và thực hiện dưới sự hướng dẫn của PGS.TS Lương Chi Mai
Trong toàn bộ nội dung nghiên cứu của luận văn, các vấn đề được trình bày là những tìm hiểu và nghiên cứu của cá nhân tôi hoặc được trích dẫn từ nhiều nguồn tài liệu hợp phápđược nêu ở mục Tài liệu tham khảo
Tôi xin chịu trách nhiệm về những thông tin nêu trên và chịu mọi hình thức
kỷ luật cho lời cam đoan này
Hà Nội, tháng 9 năm 2017
Phạm Anh Tú
Trang 4LỜI CẢM ƠN
Trước tiên, với lòng kính trọng và biết ơn sâu sắc, tôi xin chân thành gửi lời cảm ơn đến PGS.TS.Lương Chi Mai đã tận tình hướng dẫn, chỉ bảo và giúp
đỡ tôi trong suốt thờigian nghiên cứu để hoàn thành luận vănnày
Tôi cũng xin gửi lời cảmơn tới các thầy cô trong TrườngĐại học Công nghệ - Đại học Quốc gia Hà Nộiđãtận tình hướng dẫn, giảng dạy, cung cấp cho tôi những kiến thức quý báu trong suốt thời gian học tập và nghiên cứu tại trường
Tôi cũng xin gửi lời cảmơn của mình tới gia đình, bạn bè nhữngngười luôn sát cánh, động viện và tạo mọi điều kiện tốt nhất để tôi có thể hoàn thành tốt luận văn này
Trang 5MỤC LỤC
LỜI CAM ĐOAN 1
LỜI CẢM ƠN 2
MỤC LỤC 3
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT 5
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 6
MỞ ĐẦU 7
CHƯƠNG 1: TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU VÀ CÁC VẤN ĐỀ CƠ BẢN CỦA NHẬN DẠNG TIẾNG NÓI 9
1.1 Tổng quan về nhận dạng tiếng nói 9
1.1.1 Giới thiệu 9
1.1.2 Ứng dụng 10
1.1.3 Các vấn đề trong nhận dạng tiếng nói 11
1.2 Giới thiệu hệ thống nhận dạng tiếng nói 12
1.2.1 Các thành phần chính trong hệ thống nhận dạng tiếng nói 12
1.2.2 Đặc trưng của tiếng nói 13
1.2.3 Mô hình âm học 13
1.2.4 Mô hình ngôn ngữ 14
1.3 Tình hình nghiên cứu trong và ngoài nước 14
CHƯƠNG 2: NHẬN DẠNG TIẾNG VIỆT PHÁT ÂM LIÊN TỤC 17
2.1 Tổng quan về tiếng Việt 17
2.1.1 Âm tiết và đặc điểm của âm tiết 17
2.1.2 Âm vị tiếng Việt 18
2.2 Mô hình Markov ẩn 20
2.2.1 Mô hình Markov 20
2.2.2 Mô hình Markov ẩn 22
2.2.3 Ba bài toán cơ bản của mô hình Markov ẩn và giải pháp 23
2.3 Các phương pháp trích chọn đặc trưng và xử lý tiếng nói 27
2.3.1 Mel Frequency Cepstral Coefficients (MFCC) 28
2.3.2 Perceptual Linear Prediction (PLP) 29
Trang 6CHƯƠNG 3: XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT LIÊN
TỤC SỬ DỤNG HTK 31
3.1 Giới thiệu về HTK 31
3.2 Huấn luyện 31
3.2.1 Chuẩn bị dữ liệu 31
3.2.2 Huấn luyện âm đơn 34
3.2.3 Huấn luyện âm buộc 40
3.3 Nhận dạng 43
3.3.1 Tạo mạng từ nhận dạng 43
3.3.2 Mô hình ngôn ngữ bigram 44
3.3.3 Giải mã 45
3.3.4 Đánh giá kết quả nhận dạng 46
3.4 Chương trình nhận dạng mười chữ số tiếng Việt phát âm liên tục 47
KẾT LUẬN 49
TÀI LIỆU THAM KHẢO 50
Trang 7DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
F0 Formant 0 (Tần số formant cơ bản)
F1, F2, F3 Formant 1, Formant 2, Formant 3
MFCC Mel Scale Frequency Cepstral Coefficients (Các hệ số
cepstral với thang tần số Mel)
Trang 8DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1 Các thành phần trong hệ thống nhận dạng tiếng nói 13
Hình 2.1 Cấu trúc âm tiết tiếng Việt 17
Hình 2.2 Cấu trúc hai bậc của âm tiết tiếng Việt 18
Hình 2.3 Các thanh điệu tiếng việt 18
Hình 2.4 Mô hình trạng thái thời tiết 20
Hình 2.5: Hai mô hình HMM với ba trạng thái cho âm A và B 23
Hình 2.6 Quá trình trích xuất đặc trưng tiếng nói 28
Hình 3.1 Ngữ pháp cho việc nhận dạng chuỗi chữ số tiếng Việt 32
Hình 3.2 Thuật toán của hàm HInit 36
Hình 3.3 Mô hình hoạt động của HInit 37
Hình 3.4 Mô hình hoạt động của HCompV 38
Hình 3.5 Mô hình hoạt động của HRest 38
Hình 3.6 Hoạt động của HERest 39
Hình 3.7 Dùng HHed chuyển âm đơn sang âm ba 41
Hình 3.8 Quá trình buộc các âm ba bằng HHed 42
Hình 3.9 Sơ đồ ngữ pháp của hệ thống nhận dạng mười chữ số liên tục 44
Hình 3.10 Cấu trúc ba lớp của mạng từ nhận dạng 46
Trang 9MỞ ĐẦU
Khoa học công nghệ ngày nay nhất là về công nghệ thông tin đã có những bước tiến vượt bậc, đưa con người và máy móc ngày càng hiểu nhau hơn Và để giúp cho việc trao đổi giữa con người và máy móc thuận tiện hơn thì việc nghiên cứu để giúp máy móc nhận thức và hiểu được tiếng con người nói qua đó thực hiện các nhiệm vụ được yêu cầuđang được các nhà khoa học trên thế giới tập trung nghiên cứu Trong các công đoạn để giúp máy móc hiểu được tiếng con người thì nhận dạng tiếng nói là một trong những công đoạn quan trọng Trên thế giới, các nhà khoa họcđã theo đuổi các nghiên cứuvà công nghệ này hàng chục năm qua và hiệnđã xây dựng được một số hệ thống nhận dạng tiếng nói cỡ lớn có độ chính xác tương đối cao Các hệ thống này chủ yếuđược phát triển trên nền công nghệ hiệnđại với những máy tính lớn, những vi mạch được thiết kế riêng để chuyên xử lý tiếng nói và sử dụng cơ sở dữ liệu tiếng nói khá hoàn chỉnh nhưng phần lớn vẫn là xử lý cho tiếng Anh
Ở Việt Nam, đối với tiếng Việt, việc tìm hiểu, nghiên cứu và phát triển các
hệ thống nhận dạng tiếng nói còn chưa có nhiều nghiên cứu và kết quả Do đặc thù của tiếng Việt là một ngôn ngữđơn âm có thanh điệu nên việc lựa chọn phương pháp tiếp cận bài toán nhận dạng phù hợp là một vấn đề tương đối khó khăn Qua đó có thể thấy việc nghiên cứu nhận dạng tiếng nói tiếng Việt là cần thiết Các thành quả nghiên cứu nhận dạng tiếng nói của các ngôn ngữ nước ngooài cần được kế thừa và nghiên cứu đểáp dụng vào trong tiếng Việt
Vì những lý do trên, tôi xin lựa chọn đề tài: “Nghiên cứu và phát triển hệ thống nhận dạng tiếng Việt phátâm liên tục trên bộ từ vựng nhỏ và trung bình”, nhằm nghiên cứu các vấn đề nhận dạng tiếng nói vàáp dụng chúng trong nhận dạng tiếng nói tiếng Việt
1 Mục đích nghiên cứu
Mục tiêu của đề tài
- Nắm rõ các khái niệm, phương pháp liên quan đến nhận dạng tiếng nói
- Nắm vững kiến thức vềđặc trưng tiếng nói, mô hìnhâm học, mô hình ngôn ngữ thích hợp cho tiếng Việt
- Làm chủ công cụ xây dựng hệ nhận dạng tiếng nói
- Xây dựng chương trình mô phỏng, thực nghiệm, đưa ra nhận xét
và kết luận
Kết quả cần đạt được
Trang 10Hiểu và cài đặt được chương trình nhận dạng bằng giọng nói tiếng Việt, qua đóđưa ra đánh giá, nhận xét và kết luận về mức độ sẵn sàng
và khả thi của chương trình
2 Đối tượng và phạm vi nghiên cứu
- Giải quyết bài toán nhận dạng chuỗi phátâm liên tục, độc lập người nói
- Nội dung của bộ huấn luyện xoay quanh chuỗi phát âm liên tục
3 Phương pháp nghiên cứu
- Áp dụng lý thuyết về mô hình Markov ẩn – HMM (Hidden Markov Model), bao gồm khái niệm, các thuật toán liên quan vàý nghĩa của HMM trong hệ nhận dạng tiếng nói
- Áp dụng cácđặc trưng tiếng nói như MFCC (Mel-Frequency Cepstral Coefficients), PLP (Peceptual Linear Prodiction) cho nhận dạng tiếng nói
4 Nội dung của luận văn
Bên cạnh phần mở đầu và kết thúc, luận văn được chia làm ba chương:
- Chương 1: Tổng quan vấn đề nghiên cứu và các vấn đề cơ bản của nhận dạng tiếng nói
- Chương 2:Nhận dạng giọng nói tiếng Việt phát âm liên tục
- Chương 3: Xây dựng hệ thống nhận dạng tiếng Việt liên tục sử dụng HTK
Trang 11CHƯƠNG 1: TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU VÀ CÁC
VẤN ĐỀ CƠ BẢN CỦA NHẬN DẠNG TIẾNG NÓI
1.1 Tổng quan về nhận dạng tiếng nói
1.1.1 Giới thiệu
Nhận dạng tiếng nói là một lĩnh vực liên ngành của ngôn ngữ học tính toán nhằm phát triển các phương pháp và công nghệ cho phép nhận dạng và chuyển lời nói thành văn bản bằng máy tính Nó còn được gọi là “Nhận dạng tiếng nói tự động” (Automatic Speech Recognition), “Nhận dạng tiếng nói băng máy tính” (Computer Speech Recognition) hay chỉ là “Tiếng nói thành văn bản” (Speech To Text) Nó kết hợp kiễn thức và nghiên cứu giữa các lĩnh vực ngôn ngữ học, khoa học máy tính và kỹ thuậtđiện
Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với mục đích là phân lớp (classify) thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã được học trước đó và lưu trữ trong bộ nhớ Các mẫu là các đơn vị nhận dạng, chúng có thể là các từ, hoặc các âm vị Tuy nhiên khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học khác nhau Xác định những thông tin biến thiên nào của tiếng nói là có ích và những thông tin nào là không có ích đối với nhận dạng tiếng nói là rất quan trọng Đây là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kê mạnh cũng khó khăn trong việc tổng quát hoá từ các mẫu tiếng nói những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói
Một số hệ thống nhận dạng tiếng nói đòi hỏi phảiđược “huấn luyện” bằng cách một người sẽđọc cácđoạn văn bản hoặc các từ vựng đơn lẻ và nhập vào hệ thống Hệ thống sẽ phân tích tiếng nói của ngườiđó và sử dụng những dữ liệu phân tích được cho việc nhận dạng tiếng nói của ngườiđó, dẫn đến độ chính xác
sẽ cao hơn Các hệ thống không sử dụng việc “huấn luyện” này được gọi là các
hệ thống “độc lập người nói” Còn các hệ thống sử dụng việc “huấn luyện” được gọi là “phụ thuộc người nói”
Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản [7]:
- Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một khung thời gian ngắn (short-term amplitude spectrum) Nhờ vậy ta có thể
Trang 12trích ra các đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để nhận dạng tiếng nói
- Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các
ký hiệu ngữ âm Do đó ý nghĩa của một phát âm được bảo toàn khi chúng
ta phiên âm phát âm thành dãy các ký hiệu ngữ âm
- Nhận dạng tiếng nói là một quá trình nhận thức Thông tin về ngữ nghĩa (semantics) và suy đoán (pragmatics) có giá trị trong quá trình nhận dạng tiếng nói, nhất là khi thông tin về âm học là không rõ ràng
1.1.2 Ứng dụng
Trong thờiđại công nghệ ngày càng phát triển như hiện nay thì nhận dạng tiếng nói ngày càng có nhiềuứng dụng vào thực tế Trong đó, có thể liệt kệ một sốứng dụng nổi bật sau:
- Các hệ thống trong xe hơi: Giờ đây, thay vì việc phải thao tác bằng tay để
thực hiện một số chức năng như gọi điện, dẫn đường, nghe nhạc,…thì nhận dạng tiếng nói đã được áp dụng vào để thực hiện các lệnh bằng tiếng nói giúp cho người lái xe có thể tập trung hơn, đảm bảo an toàn hơn
- Trong lĩnh vực chăm sóc sức khỏe: Nhận dạng tiếng nói có thể được áp
dụng ở phần đầu hoặc cuối của quá trình tạo hồ sơ y tế bằng cách ghi lại lời nói của bệnh nhân và chuyển thành văn bản lưu vào bệnh lý chữa trị của người bệnh Hay như có làm đơn giản hóa việc tương tác giữa người bệnh với các hệ thống chuẩn đoán bênh tự động để đưa ra những giải đáp
cơ bản cho người bệnh một cách thân thiện và trực quan hơn
- Trong quân đội: Một số nước như Mỹ, Pháp, Anh đã áp dụng nhận dạng
tiếng nói trong việc điều khiển các máy bay chiến đấu, giúp cho phi công giảm bớt các thao tác điều khiển như: cài đặt tần số vô tuyến, điều khiển
hệ thống lái tự động, cài đặt các tọa độ, các thông số cho việc sử dụng các
vũ khí trên máy bay
- Trong viễn thông và các lĩnh vực giải trí: Hiện nay, tự động nhận dạng
tiếng nói rất phổ biến trong lĩnh vực viễn thông và đang lan rộng sang các lĩnh vực khác như mô phỏng và trò chơi máy tính, nhằm làm cho tương tác mô phỏng cũng như trò chơi trở nên sinh động và thật hơn Ngoài ra,
sự chạy đua về cấu hình của điện thoại đã giúp cho các điện thoại trở nên mạnh và thông minh hơn và các trợ lý ảo sử dụng nhận dạng tiếng nói đã
ra đời như Siri của Apple, Google Now, Cortana,… để giúp người sử dụng tương tác với thiết bị thuận tiện hơn
Trang 13- Trong lĩnh vực giáo dục: Như đối với việc học ngôn ngữ, nhận dạng tiếng
nói có thể có ích cho việc học ngôn ngữ nước ngoài Nó có thể dạy và kiểm tra cách phát âm cũng như giúp người học phát triển thành thạo hơn
kỹ năng nói của họ
- Đối với người khuyết tật: Nhận dạng tiếng nói có thể giúp cho những
người bị điếc hoặc khiếm thính có thể hiểu được các cuộc trò chuyện như thảo luận trong phòng họp, các bài giảng trên lớp, hay giao tiếp với người khác Nó cũng giúp cho những người gặp khó khăn trong việc sử dụng tay của họ để soạn thảo hay điều khiển các thiết bị điện tử
Và còn rất nhiều ứng dụng hữuích khác mà nó mang lại như: Nhà thông minh, robot, tự động tạo phụ đề,…
1.1.3 Các vấn đề trong nhận dạng tiếng nói
1.1.3.1 Sự phụ thuộc người nói
Lời nói được nói ra có thể theo phong cách khác nhau theo từng người Nócòn phụ thuộc vào độ tuổi, giới tính của người nói Hay mỗi vùng miền sẽ có tiếng nói, cách phátâm khác nhau Nhận dạng tiếng nói thường được xây dựng
để chỉ nhận làm việc với một hoặc một số người nhấtđịnh, những hệ thống như vậy gọi là phụ thuộc người nói Còn một loại là độc lập người nói, tức là hệ thống có thể nhận dạng cho bất cứ người nói nào, tuy nhiên tỷ lệ lỗi sẽ cao hơn
1.1.3.2 Kích thước bộ từ điển
Kích thước của bộ từđiển là lượng tự vựng mà nó chứa để phục vụ khả năng nhận dạng của hệ thống Kích thước này càng lớn thì việc tính toán để nhận dạng càng phức tạp và tỷ lệ lỗi cũng sẽ tăng lên
1.1.3.3 Tốc độ nói và hiện tượng đồng phát âm
Người nói có thể nói với tốc độ khác nhau ở những thời điểm, hoàn cảnh khác nhau Nếu người nói căng thẳng, lời nói sẽ được đẩy nhanh hơn, còn người nói nếu mệt mỏi, tốc độ sẽ có xu hướng giảmđi Hay hiện tượng đồngâm là để chỉ những từ có cùngâm nhưng cách viết lại khác nhau vàý nghĩa cũng khác nhau Có thể thấy rất khó để nhận dạng được những từ như vậy và nhất là khi chúng được nói trong một ngữ cảnh rộng
1.1.3.4 Sự biến đổi trong lời nói
Trang 14Ngoài ra, nó còn do tiếngồn xung quanh thay đổi theo thời gian, và có thể
từ các vị trí đặt micro khác nhau dẫn đếnảnh hưởng tớiâm thanh của người nói, hiện tượng này được gọi là sự thay đổi kênh
1.1.3.5 Điều kiện môi trường (nhiễu)
Tiếng nói bị lẫn trọng môi trường có nhiềuâm thanh khác như tiếng đồng
hồ, tiếngồn từ máy tính, đang mởđài hoặc tiếng của những người khác, v.v… Chúng thường được gọi là nhiễu, những tính hiệuâm thanh không mong muốn Trong nhận dạng tiếng nói, chúng ta phải xácđịnh và lọc bỏ những tạpâm này ra khỏi tính hiệu tiếng nói.Một loại tiếng nhiễu khác là hiệu ứng tiếng vang, đó là tín hiệu tiếng nói bị vang vọng xung quanh, và đến microphone vài mili giây sau
đó Nếu ở mộtvị trí mà trong khi nói âm thanh được tạo ra vang lên rõ rệt, thì nó gọi là hiện tượng hồi âm và có thể kéo dài tới vài giây
1.1.3.6 Giới hạn về ngôn ngữ
Các hệ thốngnhận dạng có thể làm việc tốt với các câu có ngữ pháp, phátâm
rõ ràng trong các chương trình cụ thể, tuy nhiên mỗi ngôn ngữ có những đặc điểm riêng làm cho việc phátâm khác nhau hay cách sử dụng ngữ pháp tự do sẽ khiến cho việc nhận dạng trở nên khó khăn hơn
1.2 Giới thiệuhệ thống nhận dạng tiếng nói
1.2.1 Các thành phần chính trong hệ thống nhận dạng tiếng nói
Hình 1.1đưa ra một cấu trúc cơ bản của hệ thống nhận dạng tiếng nói Đầu tiên, tiến trình trích chọn đặc trưng sẽ chuyển tín hiệu tiếng nói dạng sóng thành các vector đặc trưng Vector đặc trưng nàyđại diện cho thông tin âm thanh, nó là đầu vào quan trọng của hệ thống nhận dạng Các vector đặc trưng này được chia làm hai nhóm, một nhóm dùng để huấn luyện mô hìnhâm học và nhóm còn lại dùng cho việcnhận dạng Sau đó, mô hình ngôn ngữ dựa trên HMM và từ điển ngữâm là tập danh sách các từ xuất hiện trong dữ liệu huấn luyện và phiên âm tương ứng của nó sẽ được kết hợp để giải mã ra văn bản của tiếng nói ban đầu
Trang 15Hình 1.1 Các thành phần trong hệ thống nhận dạng tiếng nói
1.2.2 Đặc trưng của tiếng nói
Đặc trưng tiếng nói là các vectortham sốđại diện cho thông tin củaâm thanh được chuyển từ tín hiệu tiếng nói trước khi đượcđưa tới công cụ nhận dạng Vector đặc trưng này lưu lại các thông tin riêng biệt trong các lớp của tín hiệu tiếng nói bất kể trong môi trường có nhiều loại tiếngồn hay mức độ nhiễuâm khác nhau Để tạo ra đặc trưng, tín hiệu tiếng nói được chia thành các khung thường có độ dài từ 20ms đến 40ms để mã hóa thành các thông tin nhằm giảm lượng dữ liệu cao của tín hiệu tiếng nói gốc[8]
Có hai loại vector đặc trưng tiếng nói phổ biến được sử dụng cho nhận dạng tiếng nói hiện nay, một là dựa trên phương pháp trích xuất đặc trưng MFCC (Mel Frequency Cepstral Coefficients) và hai là PLP (Perceptual Linear Prediction)
1.2.3 Mô hình âm học
Mô hìnhâm học thường được dùng trong nhận dạng tiếng nói để mô hình hóa mối quan hệ giữa tín hiệuâm thanh vàđơn vị ngữâm trong ngôn ngữ biểu diễn cho tiếng nói Các mô hìnhâm học này là các mô hình thống kê xác suấtcho cácâm vị được nói ra trong mộtđoạnâm thanh được ghi lại Các mô hình này được huấn luyện trước khi được sử dụng để nhận dạng, độ chính xác của nó phụ thuộc vào dữ liệu huấn luyện Hiện tại, các hệ thống nhận dạng tiếng nói sử dụng tập từ vựng lớn thường dùng mô hìnhâm học để mô hình hóa cho cácâm vị
Trang 16nhằm làm giảm kích thước của hệ thống cũng như tăng khả năng nhận diện mẫu
do các từ vựng đều cấu tạo từ sốâm vị này Ví dụ, nếu coi một từ là mộtđơn vị nhận dạng thì với hệ thống có 50.000 từ vựng sẽ phải có 50.000 mô hình cho số
từ vựng này Trong khi đó, nếu số lượng từ vựng trên được cấu tạo từ 52 âm vị thì sẽ chỉ cần xây dựng 52 mô hình cho cácâm vị này Do đó, hệ thống có thể nhận dạng được tất cả các từ mà không cần xây dựng thêm mô hình Mô hình ngôn ngữ được xây dựng bằng một số phương pháp như dùng mạng nơron sâu (DNN), mô hình Markov ẩn (HMM) trong đó mô hình Markov ẩn được sử dụng phổ biến cho mô hìnhâm học
1.2.4 Mô hình ngôn ngữ
Ngoài mô hìnhâm học, mô hình ngôn ngữ cũngđóng một vai trò rất quan trọng trong bất kỳ hệ thống nhận dạng tiếng nói Nó là một tập xác suất phân bố của các từ trong một tập văn bản Mô hình ngôn ngữ giúp cho ta có thể xácđịnh được chính xác từ mà mô hìnhâm họcđưa ra dựa trên xác suất của cả câu Về lý thuyết thì chúng ta cần ước lượng xác suất𝑃 𝑊 cho tất cả các từ
𝑃 𝑊 = 𝑃(𝑤𝑙 𝑤𝑙−1, … 𝑤𝑙−𝑁+1 )
𝐿
𝑙=1Giá trị của N thường là 2, 3 hoặc 4 tương ứng với bi-gram, tri-gram hoặc four-gram Thường thì ước lượng của mô hình ngôn ngữ dùng N-gram chỉđược tính toán cho một tập văn bản đầu vào xácđịnh.Vàvới bộ từđiển có V từ thì theo
mô hình N-gram phải có VN bộ từ.Do đó dẫn tới với một số bộ từ không xuất hiệnhoặc một số bộ từ có xuất hiệnrấtít thì giá trị xác suất của nó có thể bằng không Có một số phương pháp làm mịn cho mô hình N-gram được đề xuất như phương pháp Add-One, Good-Turing, mô hình Back-off hoặc mô hình nội suy Interpolation
1.3 Tình hình nghiên cứu trong và ngoài nước
Trang 17Trên thế giới, nhận dạng tiếng nói đã được nghiên cứu từ rất lâu, trải qua nhiều thập kỷ cùng với sự phát triển vượt bậc của khoa học kỹ thuật nhất là công nghệ máy tính những nghiên cứu về nhận dạng tiếng nói đã đạt được nhiều thành tựu nổi bật Trong đó nhiều phần mềm thương mại đã được cung cấp cho người dùng phổ thông như IBM Voice, Dragon Dictation, … cùng với đó là sự phát triển mạnh mẽ của trí tuệ nhân tạo giúp các hãng phần mềm lớn trên thế giới đưa ra các trợ lý ảo như Siri, Google Now, Cortana, Bixby,… dùng nhận dạng tiến nói để phục vụ giao tiếp giữa người và máy Tuy nhiên các hệ thống nhận dạng này chỉ hoạt động tốt với một số ngôn ngữ của các nước phát triển đã đầu tư nghiên cứu trong lĩnh vực này từ lâu như Anh, Pháp, Đức, Trung và chúng có độ chính xác cao hơn so với các ngôn ngữ khác Các nghiên cứu gần đây của các nhà khoa học trên thế giới chủ yếu tập trung vào việc nâng cao chất lượng nhận dạng tiếng nói thông qua việc phân tích và nghiên cứu về các đặc trưng tiếng nói, xây dựng mô hình âm học, mô hình ngôn ngữ và các bộ giải mã Các nghiên cứu này thường đưa ra các kỹ thuật mới hoặc cải tiến từ những kỹ thuật đã có như:
- Sử dụng mạng nơ-ron và học máy sâu (Deep learning) để trích chọn đặc trưng làm tăng sự khác biệt giữa các mẫu khác nhau
- Nghiên cứu các hệ thống lai kết hợp giữa mô hình Markov ẩn với mô hình mạng nơ-ron nhận tạo (ANN) hay kết hợp giữa HMM với mô hình Gaussian (HMM-GMM) để tối ưu hóa các tham số cho mô hình trên tập huấn luyện
- Nghiên cứu các phương pháp mới cho việc xây dựng mô hình ngôn ngữ ngoài phương pháp sử dụng mô hình n-gram đã phổ biến từ lâu như áp dụng mô hình mạng nơ-ron hay mạng học sâu (Deep learning)
- Ngoài giải thuật Viterbi được áp dụng phổ biến trong các hệ thống nhận dạng hiện nay thì các nghiên cứu mới cũng chỉ đề xuất các kỹ thuật làm tăng tốc tìm kiếm và giảm dung lượng bộ nhớ như áp dụng mô hình FST (Finite-State Transducer) để tìm đường đi tốt nhất mà không phải tính toán lại dữ liệu trên mô hình ngôn ngữ và mô hình âm học
Hầu hết các hướng nghiên cứu mới này đều mang lại những kết quả tốt như tăng độ chính xác trong nhận dạng, giảm thời gian giải mã cho hệ thống nhận dạng, giảm được dung lượng của tập dữ liệu đã huấn luyện
Tình hình nghiên cứu trong nước:
Trang 18Các nghiên cứu về nhận dạng tiếng nói ở nước ta mới chỉ đươc thực hiện trong hai thập kỷ gần đây, tuy nhiên các nghiên cứu trong thời gian đầu này còn nhiều hạn chế do lĩnh vực này còn chưa được quan tâm cũng như chưa
có nhiều người nghiên cứu Khi trên thế giới, nhận dạng tiếng nói phát triển mạnh thì trong nước lĩnh vực này mới được quan tâm và đã có nhiều nghiên cứu mới trong nước được thực hiện Tuy nhiên, các nghiên cứu về nhận dạng tiếng nói tiếng còn rất hạn chế do tiếng Việt là một ngôn ngữ khó vì nó có cả thanh điệu không như một số ngôn ngữ đã được nghiên cứu phổ biến trên thế giới Do đó có thể thấy lĩnh vực nghiên cứu về nhận dạng tiếng nói tiếng Việt
là hết sức cấp thiết và cần đầu tư nhiều nguồn lực vào Hiện tại, lĩnh vực nghiên cứu này cũng đã có những bước đi ban đầu như các nghiên cứu để tổng hợp và nhận dạng tiếng Việt nhằm giải quyết các ứng dụng điều khiển bằng giọng nói do Phòng Nhận dạng và Công nghệ Tri thức - Viện Công nghệ thông tin thực hiện Các nghiên cứu về trích chọn đặc trưng cho tiếng Việt cũng được đẩy mạnh nghiên cứu như nghiên cứu các đặc trưng âm vị, đặc trưng âm học, thanh điệu từ đó giúp cải thiện khả năng nhận dạng từ trong tiếng Việt Ngoài ra còn có những nghiên cứu liên quan đến việc gán nhãn cho dữ liệu tiếng Việt, nhận dạng tiếng Việt với bộ từ vựng lớn,… Có thể thấy nghiên cứu về nhận dạng tiếng Việt còn chưa nhiều, do đó nó vẫn sẽ
là một lĩnh vực nghiên cứu cần được khai thác trong thời gian tới
Trang 19CHƯƠNG 2: NHẬN DẠNG TIẾNG VIỆT PHÁT ÂM LIÊN TỤC 2.1 Tổng quan về tiếng Việt
2.1.1 Âm tiết và đặc điểm của âm tiết
Lời nói được con người phát ra gồm nhiều đoạn dài ngắn khác nhau trong
đó đơn vị được phát âm ngắn nhất gọi là âm tiết Âm tiết có tính chất toàn vẹn, không thể phân chia được vì nó được tạo ra bởi một đợt chùng – căng – chùng của bộ máy phát âm, nghe thành tiếng.Âm tiết trong tiếng Việt có các đặcđiểm sau[32]:
Tính độc lập cao
Âm tiết tiếng Việtluôn thể hiện khá đầyđủ, rõ ràng, được tách và ngắt thành từng khúcđoạn riêng biệt trong từng lời nói Và mỗi âm tiết tiếng việt đều mang một thanh điệu nhấtđịnh Do được thể hiện rõ ràng như vậy nên việc tách bạch giữa cácâm tiết trong tiếng việt trở nên rất dễ dàng
Khả năng biểu hiện ý nghĩa
Trong tiếng Việt, hầu hết cácâm tiết đều cóý nghĩa Có thể nói hầu hết cácâm tiết tiếng Việt đều tương đương như từ Do đó, nó không chỉđơn thuần là mộtđơn vị ngữâm mà còn là một đơn vị từ vựng và ngữ pháp Tức là nghĩa củaâm vàâm tiết có mối quan hệ chặt chẽ, có thể coi nó là một đặc trưng của tiếng Việt
Âm đệm Âm chính Âm cuối
Hình 2.1 Cấu trúcâm tiết tiếng Việt
Cấu trúc tổng quát của mộtâm tiết tiếng Việt là(𝐶1)(𝑤)𝑉(𝐶2), trong đó C1 là phụâm đầu, (w) làâm đệm, V làâm chính và C2 làâm cuối Cấu trúc củaâm tiết tiếng Việt là một cấu trúc hai bậc Trongđóâm đầu luôn giữ một trường độ riêng, còn các bộ phận còn lại thì nếu nguyên âm dài thì phụâm cuối ngắn, còn nguyên âm ngắn thì phụâm cuối dài, điều này giúp cho trường độ trong âm tiết được cốđịnh Thêm vàođó, số lượng những đường ranh giớiđi qua thanh điệu vàâm đầu là khác nhau so với những đường phân chia ranh giới trong cácbộ
Trang 20phận còn lại củaâm tiết Như vậy, có thể thấy tính độc lập củaâm đầu cao hơn so với các bộ phận còn lại phía sau củaâm tiết
Hình 2.2 Cấu trúc hai bậc củaâm tiết tiếng Việt
2.1.2 Âm vị tiếng Việt
Âm vị làđơn vị ngữâm nhỏ nhất có chức năng phân biệt nghĩa giữa các từ
Vì dướiâm vị ta không thể chia nhỏ được nữa, do đónó là nguyên nhân cho sự khác biệt về nghĩa giữa hai từ Âm vị là một cấu trúc ngôn ngữ học bao gồm những nét riêng biệt và ngôn ngữ học gọiâm vị là một tập hợp các nét riêng biệt
I …………Âm đầu Vần Thanh điều
II ……Âm đệm Âm chính Âm cuối
Trang 21Trong đó, theo cao độ thì thanh điệu được chia thành nhóm cóâm vực cao gồm các thanh ngang, ngã, sắc và nhóm cóâm vực thấp gồm các thanh huyền, hỏi, nặng Còn nếu theo đường nét, thì thanh điệu được chia thành nhóm đường nét bằng phẳng (thanh bằng) gồm các thanh ngang và huyền và nhóm đường nét không bằng phẳng (thanh trắc) gồm các thanh ngã, hỏi, sắc và nặng
2.1.2.2 Âm đầu
Trong tiếng Việt có 21 âm vị làâm đầu, đây là quan điểm giúp cho việc giảng dạy tiếng Việt có lợi hơn do có sự thống nhất giữa ngữâm và chữ viết Tuy nhiên, cũng có quan điểm cho rằng tiếng Việt có 22 âm đầu bằng việcđưa thêm
âm /p/ vào nhưng điều này cần được nghiên cứu thêm vì nó chỉ xuất hiện rấtít trong các phiên âm của thuật ngữ khoa học hoặc tên của các dân tộcít người, ví dụ: pô pơ lin, pe ni xi lin, Pắc Bó, Sa Pa,…
Để nhận biết cácâm đầu, người ta dựa trên tiêu chí về cấu âm và tiêu chí vềâm học Trong đó, các phụâm môi không kết hợp vớiâm đầu vần (trừ một số trường hợp hãn hữu), giá trịâm học của các phụâm và nhóm phụâm được cụ thể hóa theo đặc trưng về tắc, xát, rung Âm đầu có tác dụng làm tách biệt cácâm tiết
mở của các nguyên âm
2.1.2.4 Âm chính
Âm chính mang màu sắc chủđạo củaâm tiết và là hạt nhân củaâm tiết Nó cũng mang đường nét cơ bản của thanh điệu Trong tiếng Việt có 11 nguyên âm đơn và 3 nguyên âm đôi làmâm chính.Âm chính có thể nhận diện đặcđiểm theo một số tiêu chí sau:
Trang 22Theo vị trí lưỡi, có hai loại nguyên âm là nguyên âm hàng trước và nguyên âm hàng sau
Theo độ há của miệng, có bốn loại nguyên âm là nguyên âm hẹp, nguyên
âm hơi hẹp, nguyên âm hơi rộng và nguyên âm rộng
Theo hình dáng môi, có hai loại nguyên âm là nguyên âm tròn môi và nguyên âm không tròn môi
2.1.2.5 Âm cuối
Âm cuối có chức năng kết thúcâm tiết với nhiều cách khác nhau, làm thay đổiâm sắc củaâm tiết và do đó có thể phân biệtâm tiết này vớiâm tiết khác tuy nhiên âm cuối có thể khuyết Dựa vào sự xuất hiện hay không xuất hiện củaâm cuối, người ta phân âm tiết tiếng Việt thànhâm tiết mở, âm tiết hơi mở, âm tiết hơi đóng vàâm tiếtđóng Vị tríâm cuối trong cấu trúcâm tiết tiếng Việt do các phụâm và bán nguyên âm đảm nhiệm Số lượngâm cuối gồm 10 âm vị, trong đó
có 8 phụâm và 2 bánâm cuối
2.2 Mô hình Markov ẩn
2.2.1 Mô hình Markov
Hình 2.4 Mô hình trạng thái thời tiết
Trang 23Một mô hình Markov bao gồm một tập𝑁 các trạng thái riêng biêt Trong
ví dụhình 2.4, thời tiết có các trạng thái nắng, mưa, bão Thời tiết thay đổi các trạng thái trong những khoảng thời gian đều đặn theo xác xuất liên kết với mỗi trạng thái Các thờiđiểm mà thời tiết thay đổi trạng thái được đặt là𝑡 = 1,2,3 … Trạng thái thời tiết hiện tại được ký hiệu là𝑅𝑡 Sau khoảng thời gian 1 ngày, thời tiết sẽ thay đổi trạng thái Mô tả xác suất hoàn chỉnh của thời tiết sẽ cần phải biết trạng thái hiện tại và tất cả các trạng thái trước dẫn tới trạng thái hiện tại Trong trường hợp đầu tiên của chuỗi Markov giả định rằng trạng thái hiện tại chỉ phụ thuộc vào một trạng thái trước đó
𝑃 𝑟𝑡 = 𝑗 𝑟𝑡−1 = 𝑖, 𝑟𝑡−2 = 𝑘, … = 𝑃[ 𝑟𝑡 = 𝑗 𝑟𝑡 − 1 = 𝑖] (2.1)
Do đó, chỉ có xác suất chuyển đổi trạng thái 𝐴𝑖𝑗 liên quan đến hai trạng thái cần được xác định như sau
𝑎𝑖𝑗 = 𝑃 𝑟𝑡 = 𝑗 𝑟𝑡−1 = 𝑖 , 1 ≤ 𝑖, 𝑗 ≤ 𝑁 (2.2) với điều kiện
𝑎𝑖𝑗 ≥ 0 ∀𝑖, 𝑗 (2.3)
𝑎𝑖𝑗 = 1 ∀𝑖
𝑁
𝑗 =1 (2.4) Xác suất chuyển đổi trạng thái thời tiết được biểu thị trên mỗi mũi tên.Và xác suất ban đầu cho trạng thái đầu tiên được xác định như sau
𝜋𝑖 ≥ 0 1 ≤ 𝑖 ≤ 𝑁 (2.5)
𝜋𝑖 = 1
𝑁 𝑖=1 (2.6) Kết quả của một mô hình Markov có thể quan sát được là các trạng thái
đã xảy ra trong khoảng thời gian trước Các trạng thái tương ứng với các sự kiện quan sát được Một câu hỏi có thể được đặt ra cho mô hình này là: “Tính xác suất dự báo thời tiết của tuần này (nắng – mưa – mưa – bão –mưa) theo mô hình trên”
Gọi chuỗi quan sát là O, được định nghĩa theo dự báo tuần này như sau:
O = ( nắng, mưa, mưa, bão, mưa) = (𝑆1 , 𝑆2 , 𝑆2 , 𝑆3 , 𝑆2 )
t =( 1 , 2 , 3 , 4 , 5 )
Trang 24Xác suất 𝑃(𝑂|𝑀ô ì𝑛) được tính là xác suất 𝜋𝑆1 đang ở trạng thái 𝑆1 tại thời điểm 1 nhân với xác suất chuyển từ trạng thái 𝑆1 sang trạng thái 𝑆2 và cứ như vậy Do 𝑡 = 1 chính là ngày hôm nay nên 𝜋𝑆1 = 1
Mô hình Markov ẩn gồm các thành phần sau:
- 𝑁 là số lượng trạng thái trong mô hình Markov
- Phân phối xác suất chuyển trạng thái𝑨 = {𝒂𝒊𝒋} trong mô hình Markov
- Số ký hiệu quan sát M và tập con 𝑽 = {𝒗𝟏, 𝒗𝟐, … 𝒗𝑴}cho mỗi trạng thái
- Phân phối xác suất phát xạ quan sát trong mỗi trạng thái𝑩 = {𝒃𝒋(𝒌)} trong đó
𝒃𝒋 𝒌 = 𝑷 𝒐𝒕 = 𝒗𝒌 𝒓𝒕 = 𝒋 , 𝟏 ≤ 𝒌 ≤ 𝑴 (2.8) tại trạng thái j, j = 1,2,…N
- Phân phối trạng thái ban đầu𝚷 = {𝝅𝒊} trong đó
𝝅𝒊 = 𝑷 𝒓𝟏 = 𝒊 , 𝟏 ≤ 𝒊 ≤ 𝑵 (2.9)
Ký hiệu rút gọn cho mô hình Markov ẩn: 𝝀 = (𝑨, 𝑩, 𝚷) Áp dụng công thức trên cho nhận dạng tiếng nói liên tục, một mô hình HMM tương ứng với một đơn vị đặc trưng (Ví dụ: âm tiết, từ hoặc câu)
1 Các trạng thái đại diện cho chuỗi âm thanh
Trang 252 Phân phối xác suất chuyển trạng thái định nghĩa một đồ thị mà HMM có thể được truyền qua
Hình 2.5: Hai mô hình HMM với ba trạng thái cho âm A và B
Ma trận chuyển tương ứng cho âm A là:
S1 S2 S3
S1 a11 a12 a13
S2 0 a22 a23
S3 0 0 a33 Trong suốt quá trình huấn luyện và nhận dạng liên tục, các mô hình HMM cho các âm được kết nối ở điểm đầu và cuối của trạng thái
2.2.3 Ba bài toán cơ bản của mô hình Markov ẩn và giải pháp
Mô hình Markov ẩn đã giới thiệu ba vấn đề cơ bản:
- Tính xác suất của chuỗi quan sát
- Tìm được chuỗi trạng thái tốiưu nhất
- Tính các tham số của mô hình sao cho xác suất quan sát là lớn nhất
Trang 26Bài toán 1: Tính xác suất của chuỗi quan sát
Chuỗi quan sátO and chuỗi trạng tháir có độ dài là T
𝑂 = 𝑜1, 𝑜2, … 𝑜𝑇
𝑟 = (𝑟1, 𝑟2, … 𝑟𝑇) Xác suất của chuỗi trạng thái được cho bởi mô hình𝜆 được định nghĩa như sau:
Là bằng tích xác suất ban đầu𝜋𝑟1của trạng thái𝑟1 và các xác suất chuyển 𝑎𝑟𝑖𝑟𝑗
tương ứng với chuỗi trạng tháir Với chuỗi trạng thái r đã cho, xác suất của
chuỗi quan sát O được tính như sau
𝑃 𝑂 𝑟, 𝜆 = 𝑏𝑟1 𝑜1 𝑏𝑟2 𝑜2 … 𝑏𝑟𝑇(𝑜𝑇) (2.12) Tích của các xác suất ký hiệu quan sát cho mỗi trạng thái𝑟𝑖 Do đó
𝑃 𝑂 𝜆 = 𝑃 𝑂 𝑟, 𝜆 𝑃 𝑟 𝜆
𝑄
= 𝜋𝑟1𝑏𝑟1 𝑜1 𝑎𝑟1𝑟2𝑏𝑟2 𝑜2 …𝑟1,𝑟2,…,𝑟𝑇
𝑎𝑟𝑇−1𝑟𝑇𝑏𝑟𝑇(𝑜𝑇) (2.13)
được mô tả như sau: Trạng thái𝑟1được chọnban đầu với xác suất𝜋𝑟1 phát xạ ký hiệu𝑜1 với xác suất𝑏𝑟1 𝑜1 Sau đó quá trình tiếp tục từ trạng thái𝑟1 tới𝑟2 với xác suất𝑎𝑟1𝑟2 và phát xạ ký hiệu𝑜2 với xác suất𝑏𝑟2 𝑜2 Quá trình này dừng lạiở trạng thái𝑟𝑇 Quá trình tính toán này cóđộ phức tạp là2𝑇𝑁𝑇 Do đó việc tính toán theo cách trên là không khả thi vì khối lương tính toán rất lớn, ta cần tìm kiếm một phương pháp kháchiệu quả hơn đó là dùng thủ tục Forward-Backward
Thủ tục Forward, ta định nghĩa biến tiến𝛼𝑡(𝑖) như sau
𝛼𝑡 𝑖 = 𝑃 𝑜1, 𝑜2, … 𝑜𝑡, 𝑟𝑡 = 𝑖 𝜆 (2.14)
Trang 27Là xác suất của chuỗi quan sát O đến thờiđiểm𝑡 và trạng thái𝑖ở thờiđiểm 𝑡 được sinh ra bởi mô hình𝜆 𝛼1(𝑖)ở thờiđiểm khởi tạo cho trạng thái𝑖 được định nghĩa như sau
𝛼1 𝑖 = 𝜋𝑖𝑏𝑖 𝑜1 , 1 ≤ 𝑖 ≤ 𝑁 (2.15) Tính𝛼𝑡(𝑗) được tính đệ qui như sau
𝛼𝑡+1 𝑗 = 𝛼𝑡 𝑖 𝑎𝑖𝑗
𝑁 𝑖=1
𝑏𝑗 𝑜𝑡+1 , 1 ≤ 𝑡 ≤ 𝑇 − 1; 1 ≤ 𝑗 ≤ 𝑁 (2.16) Thay vì việc phải tính toán tất cả các đườngđi có thể, tương tự như mô hình Markov đầu, tất cả các đườngđi trước𝛼𝑡(𝑖) được hợp nhất thành𝛼𝑡+1(𝑖) được đánh trọng số bởi các xác suất chuyển tương ứng𝑎𝑖𝑗 Từđó ta có thể dễ dàng nhận thấy rằng
𝑃 𝑂 𝜆 = 𝑃(𝑜1, 𝑜2, … , 𝑜𝑇, 𝑟𝑇 = 𝑖 𝜆)
𝑁 𝑖=1
= 𝛼𝑇(𝑖)𝑁
𝑖=1
(2.17)
Quá trình tính toán này chỉ có độ phức tạp là𝑁2𝑇 tốt hơn rất nhiều so với2𝑇𝑁𝑇 Điểm khác biệt chính giữa cách tính trước và thủ thục Forward là tất cả chuỗi trạng thái có khả năng ở thờiđiểm𝑡 − 1 sẽ được hợp nhất thành𝛼𝑡(𝑖) với𝑡 > 1
Thủ tục Backward, định nghĩa biến lùi𝛽𝑡(𝑖) cũng tương tự như𝛼𝑡(𝑖)
𝛽𝑡 𝑖 = 𝑃(𝑜𝑡+1, 𝑜𝑡+2, … , 𝑜𝑇 𝑟𝑡 = 𝑖, 𝜆 ) (2.18) Đây là xác suất của chuỗi quan sát từ thờiđiểm 𝑡 + 1 cho tới kết thúc cho bởi trạng thái𝑖ở thờiđiểm𝑡 và mô hình𝜆 Cũng như𝛼𝑡(𝑖), 𝛽𝑡(𝑖) được định nghĩa quy nạp như sau
Cũng như với biến𝛼, đườngđi đúng được hợp nhất thành𝛽𝑡 𝑖 Và vấnđề giờđây
có thểđược giải quyết bằng cách sử dụng các biến𝛼 và𝛽
Bài toán 2: Chọn chuỗi trạng thái tối ưu - Thuật toán Viterbi
Để tìm được chuỗi trạng thái tốiưu, ta phải xácđịnh một tiêu chí tốiưu Chỉ chọn trạng thái tốiưu nhất cho mỗi thờiđiểm𝑡 có thể không cho ra được một đườngđi đúng vì các xác suất chuyển trạng thái có thể bằng không Do đó người ta cần tìm đườngđi hợp lý nhất𝑟 = (𝑟1, 𝑟2… 𝑟𝑇) Điều này có thể thực hiện được bằng cách sử dụng thuật toán Viterbi Cho điểm số của đườngđi tính như sau:
𝛿𝑡 𝑖 = max
𝑟1,𝑟2…𝑟𝑡−1,𝑟𝑡𝑃(𝑟1𝑟2… 𝑟𝑡−1, 𝑟𝑡 = 𝑖, 𝑜1𝑜2… 𝑜𝑡 𝜆 ) (2.20) Tương tự như thủ tục Forward, 𝛿𝑡+1 𝑖 đượcđịnh nghĩa như sau