1. Trang chủ
  2. » Giáo án - Bài giảng

Xử lý tiếng nói

154 70 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 154
Dung lượng 3,88 MB

Nội dung

BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THƠNG ******************************* IT BÀI GIẢNG PT XỬ LÝ TIẾNG NÓI BIÊN SOẠN: PHẠM VĂN SỰ LÊ XUÂN THÀNH HÀ NỘI - 2014 PT IT PT IT PT IT LỜI NĨI ĐẦU LỜI NĨI ĐẦU Tiếng nói phƣơng tiện trao đổi thơng tin tiện ích vốn có ngƣời Ƣớc mơ "máy nói", "máy hiểu tiếng nói" khơng xuất từ câu truyện khoa học viễn tƣởng xa xƣa mà cịn động lực thơi thúc nhiều nhà khoa học, nhóm nghiên cứu giới Hoạt động nghiên cứu xử lý tiếng nói trải qua gần kỷ với nhiều thành tựu to lớn việc xây dựng phát triển kỹ thuật cơng nghệ, hệ thống xử lý tiếng nói Tuy vậy, việc có đƣợc "máy nói" mang tính tự nhiên (về giọng điệu, phát âm ) nhƣ "máy hiểu tiếng nói" thực thụ cịn xa vời PT IT Xu phát triển công nghệ hội tụ kỷ 21 thúc việc hồn thiện cơng nghệ để đạt đƣợc mục tiêu ngƣời lĩnh vực xử lý tiếng nói Chính thế, việc nắm bắt đƣợc kỹ thuật nhƣ công nghệ tiến tiến cho việc xử lý tiếng nói trở nên thực cần thiết cho sinh viên chuyên ngành Xử lý Tín hiệu Truyền thơng nói riêng, sinh viên chun ngành Kỹ thuật Điện - Điện tử nhƣ Khoa học Máy tính nói chung Với mục đích đó, giảng mơn học Xử lý tiếng nói đƣợc biên soạn nhằm trang bị cho sinh viên khái niệm quan trọng cần thiết nhƣ nhằm giới thiệu cho sinh viên cách tổng quan công nghệ tiên tiến, xu nghiên cứu phát triển lĩnh vực xử lý tiếng nói Trong lần tái này, sách đƣợc phân chia lại thành chƣơng: Một số khái niệm Phân tích tín hiệu tiếng nói Mã hóa tiếng nói Tổng hợp tiếng nói Nhận dạng tiếng nói Cuốn giảng kinh nghiệm đúc rút tác giả trình giảng dạy nghiên cứu Học viện Cơng nghệ Bƣu Viễn thơng Cuốn giảng cịn kết nỗ lực đóng góp đầy nhiệt huyết thầy cô giáo, đồng nghiệp Khoa Kỹ thuật Điện tử, em sinh viên Mặc dù với cố gắng nỗ lực hết sức, nhƣ kinh nghiệm cịn nhiều hạn chế, nhóm tác giả khơng tránh khỏi sai sót nhầm lẫn Nhóm tác giả chân thành mong muốn nhận đƣợc đóng góp từ đồng nghiệp em sinh viên để hoàn thiện phiên sau Mọi góp ý xin gửi về: Bộ mơn Xử lý Tín hiệu Truyền thơng, Khoa Kỹ thuật Điện tử I, Học viện Công nghệ Bƣu Viễn thơng, Km10 Đƣờng Nguyễn Trãi, Hà Đơng, Hà Nội gửi email địa supv@ptit.edu.vn LỜI NÓI ĐẦU Hà Nội, tháng 12 năm 2014 PT IT Nhóm biên soạn DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC TỪ VIẾT TẮT Analog Digital Converter Bộ chuyển đổi tƣơng tự - số ADM Adaptive Delta Modulation Điều chế Delta thích nghi ADPCM Adaptive Differential PCM Điều xung mã vi sai thích nghi CSR Continuous Speech Recognition Nhận dạng tiếng nói liên tục DCT Discrete Cosine Transform Biến đổi Cosine rời rạc DFT Discrete Fourier Transform Biến đổi Fourier rời rạc DM Delta Modulation Điều chế Delta DTFT Discrete Time FT Biến đổi Fourier với thời gian rời rạc DPCM Differential PCM Điều chế xung mã vi sai FFT Fast FT Biến đổi Fourier nhanh FIR Finite Impulse Response Bộ lọc đáp ứng hữu hạn FT Fourier Transform Biến đổi Fourier HMM Hidden Markov Model Mô hình Markov ẩn PT IT ADC IDFT Inverse Discrete FT Biến đổi Fourier rời rạc ngƣợc IDTFT Inverse DTFT Biến đổi Fourier với thời gian rời rạc ngƣợc IFT Inverse FT Biến đổi Fourier ngƣợc LMS Least Mean Square Bình phƣơng trung bình tối thiểu LPC Linear Predictive Coding Mã hóa dự đốn tuyến tính LTI Linear Time-Invariant Bộ lọc tuyến tính khơng thay đổi theo thời gian MFCC Mel frequency cepstral Các hệ số cepstral tần số Mel coefficient NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên PAM Pulse Amplitude Modulation Điều chế biên độ xung mã SNR Signal to Noise Ratio Tỷ số tín hiệu nhiễu ST Short-time Transform Biến đổi ngắn hạn DANH MỤC CÁC TỪ VIẾT TẮT STFT Short-time FT Biến đổi Fourier ngắn hạn TDNN Time delay Neural Network Mạng nơ-ron với thời gian trễ TD-PSOLA Time-domain PSOLA Phƣơng pháp chồng lấn đồng PT IT pitch miền thời gian MỤC LỤC MỤC LỤC LỜI NÓI ĐẦU DANH MỤC CÁC TỪ VIẾT TẮT MỤC LỤC CHƢƠNG MỘT SỐ KHÁI NIỆM CƠ BẢN 11 MỞ ĐẦU 11 1.2 TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI .11 1.3 Q TRÌNH TẠO VÀ CẢM NHẬN TIẾNG NĨI 13 IT 1.1 Bản chất tiếng nói 14 1.3.2 Cấu tạo hệ thống phát âm 15 1.3.3 Phân loại tiếng nói 16 1.3.4 Cấu tạo hệ thống cảm nhận tiếng nói 17 1.3.5 Đặc điểm cảm nhận tiếng nói ngƣời 20 PT 1.3.1 1.4 MƠ HÌNH HĨA HỆ THỐNG CƠ QUAN PHÁT ÂM 25 1.5 BIỂU DIỄN TÍN HIỆU TIẾNG NĨI 26 1.5.1 Biểu diễn dạng sóng tín hiệu miền thời gian 27 1.5.2 Biểu diễn phổ tín hiệu tiếng nói 29 1.5.3 Biểu diễn spectrogram .31 1.6 CÁC THAM SỐ CƠ BẢN CỦA TÍN HIỆU TIẾNG NĨI 32 1.6.1 Tần số .32 1.6.2 Tần số formant 33 1.7 MỘT SỐ ĐẶC ĐIỂM NGỮ ÂM 33 1.7.1 Một số định nghĩa đơn vị ngữ âm 33 1.7.2 Đặc điểm ngữ âm tiếng Việt 34 1.8 CÂU HỎI VÀ BÀI TẬP CUỐI CHƢƠNG 35 MỤC LỤC CHƢƠNG PHÂN TÍCH TÍN HIỆU TIẾNG NĨI 38 2.1 MỞ ĐẦU 38 2.2 KHÁI NIỆM CHUNG VỀ PHÂN TÍCH TIẾNG NĨI 38 2.2.1 Mơ hình phân tích tín hiệu tiếng nói 38 2.2.2 Phân tích ngắn hạn .38 2.2.3 Hàm cửa sổ phân tích 40 2.3 CÁC PHÂN TÍCH CƠ BẢN TRONG MIỀN THỜI GIAN 41 Năng lƣợng ngắn hạn 41 2.3.2 Độ lớn biên độ ngắn hạn 43 2.3.3 Vi sai độ lớn biên độ ngắn hạn 43 2.3.4 Tốc độ trở không 43 2.3.5 Giá trị hàm tự tƣơng quan 44 2.4 IT 2.3.1 PHÂN TÍCH PHỔ TÍN HIỆU TIẾNG NĨI 44 Cấu trúc phổ tín hiệu tiếng nói 44 2.4.2 Phân tích spectrogram 47 PT 2.4.1 2.5 PHÂN TÍCH DỰ ĐỐN TUYẾN TÍNH 49 2.6 XỬ LÝ ĐỒNG HÌNH 57 2.7 ÁP DỤNG MỘT SỐ PHÉP PHÂN TÍCH ĐỂ XÁC ĐỊNH CÁC THAM SỐ CƠ BẢN CỦA TÍN HIỆU TIẾNG NĨI 58 2.7.1 Một số phƣơng pháp xác định tần số formant .58 2.7.2 Xác định formant từ phân tích STFT 59 2.7.3 Xác định formant từ phân tích LPC 59 2.7.4 Một số phƣơng pháp xác định tần số 59 2.7.5 Sử dụng hàm tự tƣơng quan .60 2.7.6 Sử dụng Vi sai độ lớn biên độ ngắn hạn 60 2.7.7 Sử dụng tốc độ trở không 60 2.7.8 Sử dụng phân tích STFT 60 Hình 5.17 IT CHƢƠNG NHẬN DẠNG TIẾNG NÓI Sơ đồ khối hệ thống kết hợp mạng nơ-ron mạch lọc tƣơng hợp cho việc nhận dạng tiếng nói PT Các mạng nơ-ron đƣợc xem xét ứng dụng rộng rãi nhiều lĩnh vực số lý sau: - Các mạng nơ-ron dễ dàng thực thi với cấp độ lớn tính tốn song song Điều cấu trúc mạng nơ-ron cấu trúc có tính song song cao thành phần tính tốn tƣơng tự đơn giản - Các mạng nơ-ron kế thừa chất cấu trúc chịu lỗi tốt (fault tolerance) Vì thơng tin nhúng mạng đƣợc trải (lan) đến phần tử tính tốn mạng, điều khiến cho cấu trúc trơ (least sensitive) với nhiễu lỗi không hoàn hảo bên cấu trúc - Các trọng số kết nối mạng không bị hạn chế phải cố định, chúng thay đổi theo thời gian thực để nâng cao chất lƣợng hệ thống Đây khái niệm việc học thích nghi có tính kế thừa từ cấu trúc mạng nơ-ron - Bởi khơng tuyến tính bên phần tử tính tốn, mạng có cấu trúc đủ lớn xấp xỉ (với khác biệt nhỏ bất kỳ) cấu trúc khơng tuyến tính hệ thống động khơng tuyến tính Nói cách khác, mạng nơ-ron cho phép thực phép biến đổi khơng tuyến tính tập đầu đầu vào thƣờng trở lên hiệu phƣơng pháp thực vật lý biến đổi khơng tuyến tính khác 138 CHƢƠNG NHẬN DẠNG TIẾNG NĨI 5.6.5 Hệ thống nhận dạng dựa mơ hình Markov ẩn (HMM) Hầu hết hệ thống nhận dạng liên tục dựa mơ hình Markov ẩn (HMM) Mặc dù tảng hệ thống nhận dạng liên tục (CSR) dựa HMM có trƣớc hàng thập kỷ, đến gần có đƣợc số tiến việc cải thiện công nghệ để giảm nhỏ phụ thuộc giả thiết cố hữu tính thích ứng mơ hình cho ứng dụng môi trƣờng định Các vector đặc trƣng Các từ Trích chọn đặc trƣng Tiếng nói Bộ giải mã Hình 5.18 Từ điền phát âm IT Mơ hình âm Mơ hình ngơn ngữ Sơ đồ cấu trúc hệ thống nhận dạng tiếng nói dựa mơ hình HMM PT Các thành phần hệ thống CSR làm việc với từ vựng lớn đƣợc mơ tả hình 5.18 Dạng sóng âm đầu vào từ mi-cờ-rô đƣợc chuyển đổi thành dãy có độ dài cố định véc-tơ âm y  y1 , , yT nhờ trình trích chọn mẫu Bộ giải mã sau cố gắng tìm kiếm dãy từ w  w1 , , wK có khả cao tạo y Nói cách khác, giải mã cố gắng giải toán: ˆ  arg max  p  w | y  w (3.31) w Tuy nhiên, p(w y ) khó xác định thực tế, cách áp dụng cơng thức Bayes ta có: ˆ  arg max  p  y | w  p  w  w (3.32) w Độ tƣơng đồng p(y w) đƣợc xác định mô hình âm xác suất tiên nghiệm p(w) đƣợc xác định mơ hình ngơn ngữ Trong thực tế, mơ hình âm (acoustic model) khơng đƣợc chuẩn hóa mơ hình ngơn ngữ thƣờng đƣợc tỷ lệ số đƣợc xác định cách thực nghiệm tham số bất lợi việc chèn từ đƣợc thêm vào Nói cách khác, lơ-ga-rít độ tƣơng đồng tổng đƣợc tính log( p(y w))  p(w)  p(w) ,  giá trị phổ biến khoảng 8-20  phổ 139 CHƢƠNG NHẬN DẠNG TIẾNG NÓI biến khoảng từ đến -20 Đơn vị âm đƣợc biểu diễn mô hình âm âm vị (phone) Ví dụ từ bat tiếng Anh gồm ba âm vị /b/, /ae/ /t/ Đối với tiếng Anh cần có khoảng 40 âm vị nhƣ Với w cho trƣớc, mô hình âm tƣơng ứng đƣợc tổng hợp cách chắp nối mơ hình âm vị để tạo từ nhƣ đƣợc quy định từ điển phát âm Các tham số mơ hình âm vị đƣợc ƣớc lƣợng từ liệu huấn luyện bao gồm dạng sóng tín hiệu ghi hệ thống tả chúng Mơ hình ngơn ngữ thƣờng mơ hình N-gram xác suất từ phụ thuộc điều kiện vào khả IT N-1 thành phần trƣớc Các tham số mơ hình N-gram đƣợc ƣớc lƣợng cách đếm tuýp N tập (corpora: corpus - a collection of recorded utterances used as a basis for the descriptive analysis of a language) chữ thích hợp Bộ giải mã hoạt động cách tìm kiếm qua tất dãy từ có thể, sử dụng phƣơng pháp chặt (prune) để loại bỏ giả thiết gần nhƣ khơng xảy cách giữ cho việc tìm kiếm kiểm sốt đƣợc Khi việc tìm kiếm đến tiến đến phần cuối cùng, dãy từ có tƣơng đồng kết Trong giải mã đại, thay sử dụng phƣơng pháp vừa nêu, giải mã sinh lƣới chứa biểu diễn gọn hầu hết giả thiết có PT 5.6.5.1 Trích chọn đặc trƣng Nhƣ đề cập, việc trích chọn đặc trƣng tìm tạo biểu diễn (thƣờng dạng mã hóa) tối ƣu tín hiệu tiếng nói Q trình phải đảm bảo giảm thiểu mát thông tin tạo phù hợp tốt với giả thiết phân tán tạo mơ hình âm Các véc-tơ đặc trƣng thƣờng đƣợc tính tốn khung có độ dài khoảng 10ms sử dụng hàm cửa sổ phân tích chồng lấn Phƣơng pháp trích trọn phổ biến ứng dụng nhận dạng sử dụng mơ hình HMM phƣơng pháp MFCC nhƣ trình bày phần 5.6.5.2 Các mơ hình âm học HMM Nhƣ đề cập, từ đƣợc phát w đƣợc phân tách thành dãy âm đƣợc gọi âm vị sở Để cho phép thay đổi phát âm có thể, độ tƣơng đồng p(y w) đƣợc tính phƣơng án phát âm: p  y | w    p  y | Q  p Q | w  (3.33) Q Các nhận dạng thƣờng xấp xỉ cơng thức phép tính cực đại phƣơng pháp phát âm khác đƣợc giải mã nhƣ thể chúng giả thiết từ 140 CHƢƠNG NHẬN DẠNG TIẾNG NÓI thay Mỗi Q dãy phát âm từ Q1 , , QK phƣơng án phát âm dãy âm vị sở QK  q1( k ) , q1( k ) , Khi ta có: K p  Q | w    p  Qk | wk  (3.34) k 1 Ở p(QK wk ) xác suất từ wk đƣợc phát âm dựa dãy âm vị sở Q Trong thực tế, có số khả phƣơng án phát âm QK cho từ wk , điều cho phép tổng (3.33) dễ dàng kiểm soát đƣợc Mơ hình Markov Y= b2 ( y1 ) y1 b2 ( y2 ) y2 PT Hình 5.19 IT Dãy vector âm b2 ( y3 ) b2 ( y4 ) b2 ( y5 ) y4 y3 y5 Mơ hình âm vị sở dựa mơ hình HMM Mỗi âm sở q đƣợc biểu diễn mơ hình Markov ẩn mật độ liên tục (HMM) đƣợc minh họa hình 5.19 Trong minh họa này, tham số dịch chuyển {aij } phân bố quan sát đầu {b j ( )} Các phân bố quan sát đầu thƣờng pha trộn phân bố chuẩn Gausse: M  b j  y    c jm y;  jm ,   m 1 jm   biểu     diễn phân bố chuẩn với giá trị trung bình  jm covariance (3.35)  jm Số lƣợng thành phần công thức (3.35) thƣờng lấy khoảng 10 đến 20 Vì kích thƣớc véc-tơ âm y thƣờng tƣơng đối lớn, covariance thƣờng đƣợc giới hạn ma trận đƣờng chéo Các trạng thái đầu kết thúc trạng thái không phát xạ (nonemitting) chúng đƣợc thêm vào nhằm đơn giản hóa q trình chắp nối mơ hình âm vị để tạo từ 141 CHƢƠNG NHẬN DẠNG TIẾNG NÓI Cho trƣớc HMM tổng hợp với Q đƣợc tạo chắp nối tất âm vị sở cấu thành, độ tƣơng đồng âm đƣợc tính bởi: p  y | Q    p  x, y | Q  (3.36) X Trong X  x(0), , x(T ) dãy trạng thái tồn mơ hình tổng hợp T p  x, y | Q   ax 0, x1  bx t  ax t , x t 1 (3.37) t 1 Các tham số mơ hình âm {aij } {b j ( )} đƣợc ƣớc lƣợng cách hiệu từ tập huấn luyện phƣơng pháp cực đại kỳ vọng 5.7 MỘT SỐ ĐẶC ĐIỂM CỦA VIỆC NHẬN DẠNG TIẾNG VIỆT IT Việc xây dựng hệ thống nhận dạng tiếng Việt cách xác với lƣợng từ vựng lớn có đáp ứng thời gian thực khó khăn tính phức tạp ngơn ngữ Cùng âm vị phát nhiều ngƣời có đặc điểm mặt âm học khác PT So với ngơn ngữ nhiều nƣớc, tiếng Việt có phân hóa mặt thổ ngữ tƣơng đối lớn Có thay đổi lớn cách phát âm ba miền Bắc, Trung, Nam Ngay miền, vùng địa phƣơng khác có phát âm dẫn khác Thêm nữa, giống nhƣ ngôn ngữ số nƣớc khu vực Châu Á, tiếng Việt có điệu Sự khác biệt điệu có nhỏ đƣợc phát âm số vùng miền Chẳng hạn, phía Bắc có phát âm s x tƣơng đƣơng nhau; dấu “?” “~” đƣợc phát âm giống vùng Bắc Trung Sự phức tạp khiến cho phƣơng pháp nhận dạng ngôn ngữ khác không hiệu áp dụng với tiếng Việt 5.8 CÂU HỎI VÀ BÀI TẬP CUỐI CHƢƠNG Ý tƣởng phƣơng pháp đối sánh mẫu nhận dạng tiêng nói? Ý tƣởng phƣơng pháp sử dụng mạng nơ-ron nhận dạng tiếng nói? Ý tƣởng việc sử dụng HMM nhận dạng tiếng nói? Sự khác biệt giác hệ thống nhân dạng tiếng nói: rời rạc liên tục; nhận dạng tiếng nói nhận dạng ngƣời nói? 142 CHƢƠNG NHẬN DẠNG TIẾNG NĨI (Matlab) Sử dụng máy tính cá nhân phần mềm Matlab (hoặc ngơn ngữ lập trình khác) thực công việc sau: - Xây dựng hệ thống nhận dạng tiếng nói đơn giản (từ vựng hạn chế) dựa vào: o Mạng nơ-ron PT IT o Mơ hình HMM 143 PHỤ LỤC MẠNG NƠ - RON Phụ lục 1: MẠNG NƠ-RON MỞ ĐẦU Hoạt động nghiên cứu chế hoạt động, cấu trúc não ngƣời đƣợc ý sớm Cùng với phát triển khoa học, đạt đƣợc số bƣớc tiến quan trọng lĩnh vực nghiên cứu Tuy nhiên, não ngƣời tổ hợp phức tạp hiểu biết ngƣời kiến trúc hoạt động não chƣa đầy đủ Mặc dù ngƣời ta tạo đƣợc máy có số tính tƣơng tự não nhờ mô đặc điểm: Tri thức thu nhận đƣợc nhờ q trình học - Tính có đƣợc nhờ kiến trúc mạng tính chất kết nối IT - Các máy mơ có tên chung mạng nơ-ron nhân tạo hay đơn giản mạng nơron Đặc điểm mạng nơ-ron: Phi tuyến Cho phép xử lý phi tuyến - Cơ chế ánh xạ đầu vào - đầu cho phép học có giám sát PT - - Cơ chế thích nghi Thay đổi tham số phù hợp với môi trƣờng - Đáp ứng theo mẫu huấn luyện - Thông tin theo ngữ cảnh.Tri thức đƣợc biểu diễn tuỳ theo trạng thái kiến trúc mạng - Cho phép có lỗi (fault tolerance) - Phỏng sinh học CƠ SỞ VỀ MẠNG NƠ-RON Sơ đồ mạng nơ-ron đơn giản đƣợc minh họa hình A.1 Giả sử có N đầu vào đƣợc đánh nhãn x1 , x2 , , x N với trọng số tƣơng ứng w1 , w2 , , wN Khi quan hệ phi tuyến đầu vào đầu đƣợc xác định nhƣ sau:  N  y  f   w i xi     i 1  144 PHỤ LỤC MẠNG NƠ - RON Trong  mức ngƣỡng nội hay gọi offset, f (.) hàm phi tuyến x1 w1 x2  N 1  y  f  W j x j     i 0  w2 ⋮ wk xk ⋮ xN wN Hình A.1: Cấu trúc đơn giản mạng nơ-ron N đầu vào IT Một số dạng phổ biến f có dạng nhƣ sau: Hàm ngƣỡng cứng: 1 x  f  x   1 x  Hàm log-sin: f  x     0 PT 1  e  x CẤU HÌNH MẠNG NƠ-RON Một yếu tố quan trọng cho việc thiết lập ứng dụng mạng nơ-ron cấu trúc tô-pô mạng (network topology) Có ba kiểu cấu trúc là: Mạng tầng nhiều tầng: x1 y1 x1 y1 x2 y2 x2 y2 ⋮ ⋮ ⋮ xN yM (a) ⋮ xN yM (b) Hình A.2: Cấu trúc mạng nơ-ron tầng (a) hai tầng (b) 145 PHỤ LỤC MẠNG NƠ - RON Mạng hồi quy: x1 y1 x2 y2 ⋮ ⋮ xN yM Hình A.3: Cấu trúc mạng nơ-ron hồi quy PT IT Mạng tự tổ chức: Hình A.4: Cấu trúc mạng nơ-ron tự tổ chức (SOM) 3x3 146 PHỤ LỤC MƠ HÌNH MARKOV ẨN Phụ lục 2: MƠ HÌNH MARKOV ẨN Q TRÌNH MARKOV Một q trình ngẫu nhiên X (t ) đƣợc gọi trình Markov tƣơng lai trình với trạng thái cho không phụ thuộc vào khứ q trình Nói cách khác, với thời gian xác định t1  t   t k  t k 1 thì: Pr  X  tk 1   xk 1 | X  tk   xk , , X  t1   x1   Pr  X  tk 1   xk 1 | X  tk   xk1  thời điểm t IT Các giá trị X (t ) thời điểm t thƣờng đƣợc gọi trạng thái trình CHUỖI MARKOV VỚI THỜI GIAN RỜI RẠC Giả sử X n chuỗi Markov với giá trị nguyên thời gian rời rạc với trạng thái PT bắt đầu n=0 có hàm phân bố xác suất rời rạc (pmf): p j (0)  Pr[X  j] (j=0,1,…) Khi đó, hàm mật độ phân bố xác suất rời rạc hợp n+1 giá trị q trình đƣợc tính bằng: Pr  X n  in , , X  i0   Pr  X n  in | X n 1  in 1  Pr  X1  i1 | X  i0  Pr  X  i0  Từ công thức ta thấy, hàm mật độ phân bố xác suất hợp rời rạc dãy xác định tích xác suất trạng thái khởi đầu xác suất dãy chuyển đổi trạng thái bƣớc Giả sử xác suất chuyển đổi trạng thái bƣớc cố định không thay đổi theo thời gian, nghĩa là: Pr  X n1  j | X n  i   aij n 147 PHỤ LỤC MƠ HÌNH MARKOV ẨN Khi X n đƣợc nói có xác suất chuyển đổi đồng Khi xác suất phân bố hợp rời rạc cho X n , , X trở thành: Pr  X n  in , , X  i0   ain1in ai0i1 pi0   Nhƣ vậy, X n hoàn toàn đƣợc xác định hàm mật độ phân bố xác suất rời rạc khởi đầu pi (0) ma trận xác suất chuyển bƣớc P:  a00 a  10 P    a01 a02 a11 a12 ai1        IT P đƣợc gọi ma trận xác suất chuyển Chú ý rằng, tổng hàng P phải Hình B.1 minh họa sơ đồ chuỗi Markov rời rạc với trạng thái đƣợc gán aij PT nhãn S1 – S5 xác suất chuyển tƣơng ứng nhãn nhánh Hình B.1: Minh họa chuỗi Markov rời rạc với trạng thái MƠ HÌNH MARKOV ẨN Trong phần ta ví dụ mơ hình Markov mà trạng thái tƣơng ứng với kiện (vật lý) quan sát đƣợc Tuy nhiên mơ hình nhƣ có ứng dụng hạn chế 148 PHỤ LỤC MƠ HÌNH MARKOV ẨN tốn thực tế Do đó, mơ hình đƣợc mở rộng bao gồm trƣờng hợp việc quan sát hàm xác suất trạng thái - tức mơ hình q trình thống kê chồng kép với trình thống kê bên mà không quan sát đƣợc (ẩn sâu bên trong), nhƣng quan sát đƣợc thơng qua tập trình thống kê khác, trình mà tạo dãy quan sát đƣợc Mơ hình nhƣ đƣợc gọi mơ hình Markov ẩn (HMM) Để minh họa, ta xét ví dụ mơ hình tung đồng xu nhƣ sau Một ngƣời thực việc tung đồng xu nhƣng khơng nói cho ta biết làm xác Anh ta PT IT thông báo cho ta kết đồng xu lật Nhƣ vậy, ta, loạt thí nghiệm tung đồng xu đƣợc ẩn dấu, mà có dãy quan sát đƣợc dãy kết chẵn lẻ Vấn đề đặt xây dựng mơ hình HMM thích hợp để mơ hình dãy chẵn lẻ quan sát đƣợc Vấn đề việc định trạng thái mơ hình tƣơng ứng với sau định trạng thái cần thiết mơ hình Hình B.2: Minh họa ba mơ hình Markov thí nghiệm tung đồng xu ẩn Hình B.2 minh họa trƣờng hợp ví dụ Trƣờng hợp thứ tƣơng ứng với giả thiết động xu khơng cân đƣợc tung Mơ hình trƣờng hợp mơ hình hai trạng thái trạng thái tƣơng ứng với mặt đồng xu Dễ thấy rằng, mơ 149 PHỤ LỤC MƠ HÌNH MARKOV ẨN hình Markov trƣờng hợp quan sát đƣợc Cũng cần ý rằng, ta sử dụng mơ hình Markov trạng thái trạng thái tƣơng ứng với đồng xu khơng cân đơn lẻ, tham số chƣa biết không cân đồng xu Trƣờng hợp thứ hai tƣơng ứng với mơ hình hai trạng thái trạng thái tƣơng ứng với đồng xu không cân khác đƣợc tung Mỗi trạng thái đƣợc đặc trƣng phân bố xác suất mặt chẵn mặt lẻ, chuyển đổi trạng thái đƣợc đặc trƣng ma trận chuyển trạng thái Trƣờng hợp thứ ba tƣơng ứng với thí nghiệm sử dụng ba đồng xu không cân khác nhau, việc chọn ba đồng xu đƣợc dựa kiện xác suất IT Với lựa chọn ba trƣờng hợp để giải thích dãy mặt chẵn mặt lẻ quan sát đƣợc, câu hỏi đặt mơ hình mơ tƣơng đồng với quan sát thực tế Ta thấy rằng, mơ hình trƣờng hợp có tham số chƣa biết, hay nói cách khác, bậc tự Trong mơ hình trƣờng hợp hai ba có bậc tự tƣơng ứng Do đó, với bậc tự lớn hơn, mơ hình HMM lớn dƣờng nhƣ có khả việc mơ tả dãy thí nghiệm tung xu so với mơ hình nhỏ Tuy nhiên cần ý, điều nhận xét mặt lý thuyết, thực tế có số hạn chế với kích thƣớc mơ hình PT Một HMM đƣợc đặc trƣng bởi: 11 Số trạng thái mơ hình N Mặc dù trạng thái ẩn, nhƣng với số ứng dụng thực tế thƣờng có số ý nghĩa vật lý gắn với trạng thái tập trạng thái mơ hình 12 Số ký hiệu quan sát phân biệt với trạng thái, tức kích thƣớc chữ rời rạc 13 Phân bố xác suất chuyển trạng thái P aij  Pr [ X n1  S j X n  Si ] , (1  i, j  N ) Trong trƣờng hợp đặc biệt trạng thái đạt đến trạng thái khác bƣớc nhất, ta có aij  với i, j Với loại HMM khác, ta có aij  cho nhiều cặp (i,j) 14 Phân bố xác suất ký hiệu quan sát trạng thái j, B  {b j (k )} , b j (k )  Pr [vk (t ) X t  S j ] , (1  j  N ,1  k  M ) 15 Phân bố trạng thái khởi đầu   {i } i  Pr [ X  Si ] , (1  j  N ) 150 PHỤ LỤC MƠ HÌNH MARKOV ẨN Với giá trị N, M, P, B π cho trƣớc, HMM đƣợc sử dụng nhƣ tạo cho dãy quan sát O  O1O2 OT (với quan sát Ot ký hiệu từ tập v T số quan sát dãy) nhƣ sau: Chọn trạng thái khởi đầu X  Si theo phân bố trạng thái khởi đầu π Đặt t=1 Chọn Ot  vk theo phân bố xác suất ký hiệu trạng thái S i , tức bi (k ) Chuyển sang trạng thái X t 1  S j theo phân bố xác suất chuyển trạng thái cho trạng thái S j , tức aij PT IT Đặt t=t+1; trở lại bƣớc t

Ngày đăng: 19/03/2021, 17:14

TỪ KHÓA LIÊN QUAN