BÁO CÁO CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	19
Dung lượng	1,16 MB

Nội dung

BÁO CÁO CSDL ĐA PHƯƠNG TIỆN Nội dung I XÂY DỰNG SƯU TẦM BỘ DỮ LIỆU ÂM THANH VỀ TIẾNG NÓI 2 II CÁC KỸ THUẬT XỬ LÝ VÀ NHẬN DẠNG TIẾNG NÓI HIỆN HÀNH 3 1 Tìm hiểu về tiếng nói 3 2 Các kỹ thuật xử lý và nhận dạng tiếng nói hiện hành 4 2 1 Các kỹ thuật trích chọn đặc trưng 4 2 2 Các kĩ thuật nhận dạng giọng nói 8 2 3 Kỹ thuật xử lý tách tiếng nói khỏi nhiễu 12 III XÂY DỰNG HT NHẬN DẠNG TIẾNG NÓI 15 1 Sơ đồ khối của hệ thống và quy trình thực hiện 15 2 Các thuộc tính sử dụng để nhận dạng tiếng người n.

BÁO CÁO CSDL ĐA PHƯƠNG TIỆN Nội dung I XÂY DỰNG/ SƯU TẦM BỘ DỮ LIỆU ÂM THANH VỀ TIẾNG NÓI .2 II CÁC KỸ THUẬT XỬ LÝ VÀ NHẬN DẠNG TIẾNG NÓI HIỆN HÀNH .3 Tìm hiểu tiếng nói .3 Các kỹ thuật xử lý nhận dạng tiếng nói hành 2.1 Các kỹ thuật trích chọn đặc trưng 2.2 Các kĩ thuật nhận dạng giọng nói 2.3 Kỹ thuật xử lý tách tiếng nói khỏi nhiễu 12 III XÂY DỰNG HT NHẬN DẠNG TIẾNG NÓI 15 Sơ đồ khối hệ thống quy trình thực .15 Các thuộc tính sử dụng để nhận dạng tiếng người nói, kỹ thuật trích rút 17 Cách lưu trữ thuộc tính âm cách nhân dạng dựa thuộc tính .18 I XÂY DỰNG/ SƯU TẦM BỘ DỮ LIỆU ÂM THANH VỀ TIẾNG NÓI Các file âm loại người nói: - Nam giới (20 – 25 tuổi) - Nữ giới (20 -25 tuổi) Các file mô tả âm 12 từ sau:             Bố Mẹ Cơ Dì Anh Em Chú Bác Ông Bà Cậu Mợ Các file có độ dài từ 0.1s ==> 0.5s, lưu dạng “.wav” Quy tắc đặt tên : Tiếng+STT_Giới Tính_ Người thu thập wav II CÁC KỸ THUẬT XỬ LÝ VÀ NHẬN DẠNG TIẾNG NĨI HIỆN HÀNH Tìm hiểu tiếng nói Tiếng nói mà người giao tiếp có chất sóng âm lan truyền khơng khí Sóng âm khơng khí sóng dọc sinh dãn nở khơng khí Tín hiệu âm tín hiệu biến thiên liên tục thời gian biên độ, có dải tần số rộng, người nhận biết khoảng 20-20000Hz - Độ cao: Chính tần số sóng học, phụ thuộc tần số dao động (của dây thanh) Nữ giới (120Hz => 400Hz) > Nam giới (80Hz => 250Hz) - Cường độ (I): Độ to nhỏ âm (chính biên độ sóng âm), lượng lượng sóng âm truyền đơn vị thời gian qua đơn vị diện tích đặt vng góc với phương truyền âm + Cường độ âm L lôgarit thập phân tỉ số I/Io: L(B) = lg(I/Io) Các kỹ thuật xử lý nhận dạng tiếng nói hành 2.1 Các kỹ thuật trích chọn đặc trưng 2.1.1 Định nghĩa Trích chọn đặc trưng nhận dạng tiếng nói việc tham số hóa chuỗi tín hiệu âm đầu vào, biến đổi tín hiệu âm thành chuỗi vector đặc trưng, vector đặc trưng bao gồm n giá trị thực (n phụ thuộc vào cách trích chọn đặc trưng) 2.1.2 Trích chọn đặc trưng MFCC (Mel frequency cepstral coefficients) Trong nhân dạng tiếng nói, kỹ thuật trích chọn đặc trưng MFCC phương pháp phổ biến MFCC viết tắt Mel frequency cepstral coefficients Kỹ thuật dựa việc thức biến đổi để chuyển đổi liệu âm đầu vào (đã biến đổi Fourier cho phổ) đo tần số Mel, thang đo diễn tả tốt nhạy cảm tai người âm Kỹ thuật trích chọn đặc trưng gồm bước biến đổi liên tiếp, đầu bước biến đổi trước đầu vào bước biến đổi sau Đầu vào trích chọn đặc trưng đoạn tín hiệu tiếng nói rời rạc hóa Trích chọn đặc trưng MFCC gồm bước hình vẽ kết tâp gồm 39 giá trị đặc trưng frame tiếng nói Hình1: Sơ đồ khối trích chọn đặc trưng MFCC Pre-emphasis Thực tăng cường độ tần số cao lên nhằm làm tăng lượng vùng có tần số cao Việc tăng cường độ vùng tần số cao lên làm cho thông tin rõ ràng với mơ hình âm học tăng độ xác việc nhận dạng mẩu âm (a) Trước, (b) sau biến đổi Windows Để nâng cao độ xác nhận dạng tiếng nói, từ đoạn hội thoại phân tích thành âm vị, hệ thống nhận dạng vị âm Windowing thực việc cắt tỉa tín hiệu âm đầu vào thành mẩu tín hiệu có thời lượng nhỏ, gọi frame Mỗi frame sau nhận dạng âm vị Hình2: Cắt tín hiệu cửa sổ trượt(window) DFT (Dicrete fourier transform) Thực biến đổi Fourier rời rạc mẩu tín hiệu cắt Qua phép biến đổi tín hiệu đưa khơng gian tần số Cơng thức biến đổi Trong đó: L kích thước cửa sổ, w[n] giá trị tín hiệu đầu vào sau qua hàm cửa sổ Mel filter-bank and log Kết trình biến đổi Fourier thể lượng tín hiệu tần số dài khác Tuy nhiên tai người khơng có nhạy cảm dải tần số Do ta phải mơ hình hóa tính chất tai người q trình trích chọn đặc trưng làm tăng khả nhận dạng hệ thống Trong mơ hình trích chọn đặc trưng MFCC tần số chuyển sang thang đo tần số mel Công thức biến đổi mel ��(�) = 2595 log10(1 + � 700) Các lọc băng tần thiết kế miền tần số Mel Hinh3: Thang sô mel DCT (Discrete consinse transform) Thực biến đổi cosine rời rạc DCT làm tách biệt đặc trưng máy phát âm nguôn âm Trên thực tế có khoảng 12 hệ số sau thực biến đổi DCT cần thiết cho nhận dạng tiếng nói Feature extraction Các hệ số mel thu sau bước DCT lấy làm đặc trưng Thông thường, 12 hệ số lấy làm đặc trưng đủ để nhận khác biệt âm khác phát Đặc trưng thứ 13 đặc trưng lượng tín hiệu có thê trính chọn sau bước windowing Với 13 đặc trưng gốc thêm vào 13 đặc trưng delta thể thay đổi tín hiệu frame Đề tăng độ xác nhận dạng ta thêm 13 đặc trung double delta đặc trưng delta  Có 39 đặc trưng 2.1.3 Phương pháp mã dự đốn tuyến tính LPC (linear-predictive-coding) Phương pháp trích chọn đặc trưng mã dự báo tuyến tính LPC sử dụng để trích chọn tham số đặc trưng tín hiệu tiếng nói Bản chất phương pháp mẫu tiếng nói biễu diễn xấp xỉ tổ hợp tuyến tính mẫu trước Sơ đồ khối trích chọn tham số đặc trưng LPC tín hiệu tiếng nói gồm bước thực cụ thể sau: Bước 1: Pre-emphasis, sử dụng lọc thơng cao có đáp ứng xung theo công thức Bước 2: Phân đoạn thành frame (frame khác với frame giai đoạn tìm điểm đầu điểm cuối), frame có N mẫu, độ chồng lấp M mẫu, thường M =N/2 Bước 3: Cửa sổ hóa Hàm cửa sổ thơng dụng cửa sổ Hamming định nghĩa sau: Bước 4: Xác định hệ số dự báo tuyến tính dùng thuật toán Levinson-Durbin Bước 5: Chuyển hệ số dự báo tuyến tính thành hệ số cepstral Các hệ số cepstral có độ tập trung cao đáng tin cậy so với hệ số dự báo tuyến tính Thơng thường chọn Q =3/2P Bước 6: Chuyển sang cepstral có trọng số: Hàm trọng số thích hợp lọc thông dải (trong miền cepstral) Bước 7: Tính đạo hàm cepstral Với µ số chuẩn (2K+1) số lượng frame cần tính K= giá trị thích hợp để tính đạo hàm cấp Vectơ đặc trưng tín hiệu gồm Q hệ số cepstral Q hệ số đạo hàm cepstral 2.2 Các kĩ thuật nhận dạng giọng nói KNN - Thuật toán K láng giềng (K-Nearest Neighbours) Nguyên tắc phương pháp đặc điểm mẫu định dựa đặc điểm k mẫu giống mẫu xét Ví dụ, muốn xác định nhãn phân loại, ta tìm k mẫu gần xem mẫu mang nhãn k-NN thường làm việc với liệu thuộc tính cho dạng vectơ số thực Như vậy, mẫu tương ứng với điểm không gian Euclid Giả sử mẫu x có giá trị thuộc tính < a1(x), a2(x), …, an(x) > Để xác định mẫu giống x, cần có độ đo khoảng cách mẫu Do mẫu tương ứng với điểm không gian, khoảng cách Euclid thường dùng cho mục đích Khoảng cách Euclid hai mẫu x i xj tính sau: Với khoảng cách vừa định nghĩa, k-NN cho hai trường hợp: phân loại hồi quy (regression) thực sau Phân loại Thuật toán k-NN cho phân loại: Giai đoạn học (huấn luyện): Lưu mẫu huấn luyện có dạng vào sở liệu Giai đoạn phân loại: Đầu vào: tham số k Với mẫu x cần phân loại: Tính khoảng cách d (x, xi) từ x tới tất mẫu xi sở liệu Tìm k mẫu có d (x, xi) nhỏ nhất, giả sử k mẫu x1, x2, …, xk Xác định nhãn phân loại f’(x) nhãn chiếm đa số tập {x 1, x2, …, xk.} Hồi quy Thuật toán k-NN dùng cho trường hợp Hồi quy, mẫu x có nhãn phân loại f(x) với f(x) số thực Thuật toán k-NN thay đổi bước sau: 2.2.1 Mơ hình markov ẩn ứng dụng nhận dạng tiếng nói 2.2.1.1 Giới thiệu Là mơ hình nhận dạng hiệu so với mơ hình khác, cho xác suất nhận dạng xác cao Đây hướng tiếp cận với phương pháp đối sánh mẫu xác suất, tức mơ hình so sánh mẫu cần nhận dạng với mẫu huấn luyện trước Mỗi từ sau trải qua giai đoạn trích đặc trưng ta thu dãy vector P chiều kí hiệu t1, t2, …, tn Dãy vector đặc trưng biến đổi thành quan sát sau lượng tử hóa vector kí hiệu o1, o2, …, on Một HMM xác định yếu tố sau: Q = q1q2…qT: tập trạng thái A = a11a12…a1N…aN1…aNN: ma trận xác suất chuyển trạng thái, giá trị aij biểu diễn xác suất chuyển từ trạng thái i sang trạng thái j O = o1o2…oT: chuỗi gồm T quan sát B = bi(ot): tập likelihood quan sát, hay gọi xác suất sinh, giá trị bi(ot) biểu diễn xác suất quan sát quan sát ot sinh từ trạng thái i q0, qend :là trạng thái bắt đầu kết thúc Hai trạng tahis ln HMM khơng liên hệ với chuỗi quan sát π = π1 π2 …πN: phân bố xác suất khởi tạo trạng thái, πi xác suất để trạng thái i vị trí Xác suất chuyển tới trạng thái phụ thuộc vào trạng thái Xác suất chuyển trạng thái không phụ thuộc vào thời gian Xác suất quan sát đầu ot phụ thuộc vào trạng thái sinh quan sát qt, khơng phục thuộc vào trạng thái hay quan sát khác 2.2.1.2 Quá trình Markov ẩn Mơ hình Markov Ẩn mơ hình Markov mà nút trạng thái phát sinh kiện hay gọi quan sát (observation), tương ứng với trạng thái hàm xác suất trạng thái Tập quan sát O sinh không gian trạng thái S, mà không gian không thấy (tức nút trạng thái khơng đếm được) Đó lý mà mơ hình Markov gọi mơ hình Markov Ẩn Một hệ thống nhận dạng giọng nói bao gồm hai giai đoạn, giai đoạn đào tạo giai đoạn xác minh Trong giai đoạn đào tạo, giọng nói người nói ghi lại 10 sau xử lý để tạo biểu mẫu mơ hình sở liệu Trong giai đoạn xác minh, mẫu tham chiếu có so sánh với đầu vào giọng nói khơng xác định [5] HMM bao gồm hai thành phần: Chuỗi Markov bị giới hạn trạng thái phân phối sản lượng trạng thái bị hạn chế Xét tiến triển hệ thống theo thời gian, kí hiệu qt vị trí hệ thời điểm t, S = {Si}là khơng gian trạng thái (các vị trí mà hệ xuất tương lai) Ở thời điểm t hệ trạng thái Si, xác suất chuyển sang trạng thái (Sj thời điểm t’) phụ thuộc vào trạng thái độc lập với khứ (tức phụ thuộc vào t, t’, Si, Sj) ta gọi tính Markov - Hệ có tính Markov gọi q trình Markov - Khơng gian trạng thái S quan sát tức đếm gọi xích Markov - Nếu t rời rạc (t = 0, 1,2,…) ta có Xích Markov Rời Rạc 2.2.1.3 Các thành phần HMM Mơ hình Markov ẩn bao gồm thành phần: + [1, 2, …, N]: trạng thái + N: số trạng thái mơ hình + qt: trạng thái thời điểm t + O = { o1, o2, …, oM}: tập quan sát + M: số lượng quan sát + A = {aij}: ma trận xác suất trạng thái + aij = P[ qt+1 = j | qt = i ] : xác suất từ trạng thái i ( thời điểm t) đến trạng thái j ( thời điểm t + 1) Tổng aij + B = { bj(k)}: ma trận xác suất quan sát + bj(k) = P[ Ot = vk | qt = j]: xác suất tạo quan sát vk mơ hình trạng thái j Tổng bj(k) +  = {  i }: ma trận xác suất trạng thái ban đầu +  i = P[qt=i] Tổng  i 2.2.1.4 Phân loại Có hai loại mơ hình Markov ẩn ( phân loại dựa vào cấu trúc ma trận A ): + Mơ hình Markov ẩn kết nối đầy đủ, tức nút trạng thái mơ hình đạt tới nút trạng thái khác + Mơ hình Bakis ( hay cịn gọi mơ hình trái – phải ): luận văn sử dụng mô hình để nhận dạng tiếng nói Mơ hình có đặc điểm: thời gian tăng trạng thái tăng lên, tức trạng thái tiến dần từ trái sang phải Điều phù hợp với cấu trúc tự nhiên tiếng nói biến thiên theo thời gian từ trái sang phải Có ba loại mơ hình Markov ẩn ( phân loại dựa vào tính chất hàm phát xạ quan sát) 11 + Mơ hình Markov ẩn rời rạc + Mơ hình Markov ẩn liên tục + Mơ hình Markov ẩn bán liên tục: mơ hình kết hợp hai mơ hình: rời rạc liên tục Những vấn đề HMM Có vấn đề cần đề cập đến sử dụng hệ thống HMM, là: Ước lượng xác suất mơ hình: - Cho trước: mơ hình λ = (A, B, π) chuỗi quan sát O = o1o2…oT - Cần làm: tính xác suất chuỗi quan sát với mơ hình P(O| λ) Nhận dạng: - Cho trước: mơ hình λ = (A, B, π) chuỗi quan sát O = o1o2…oT - Cần làm: tìm dãy trạng thái tối ưu Q = q1q2…qT có khả cao sinh ta chuỗi quan sát O, với mơ hình trước Huấn luyện - Cho trước: mơ hình λ = (A, B, π) chuỗi quan sát O = o1o2…oT Ok dãy quan sát cho ví dụ huấn luyện thứ k - Cần làm: khớp lại tham số mơ hình để có xác suất P(O| λ) lớn 2.3 Kỹ thuật xử lý tách tiếng nói khỏi nhiễu Sử dụng kết hợp phương pháp hàm lượng thời gian ngắn tỉ lệ qua điểm zero (ZCR) cho kết tốt Phương pháp dựa vào tính chất lượng tín hiệu tiếng nói thường lớn lượng tín hiệu nhiễu tỉ lệ qua điểm zero nhiễu lớn tín hiệu tiếng nói Hình cho thấy mối quan hệ tín hiệu thu được, giá trị hàm lượng thời gian ngắn tỉ lệ qua điểm zero 12 Hình Sự tương quan tín hiệu tiếng nói nhiễu Với cửa sổ kết thúc mẫu thứ m, hàm lượng thời gian ngắn E(m) xác định bởi: Đồ thị hàm lượng thời gian ngắn đoạn tín hiệu thể hình Hình Tín hiệu (a) lượng thời gian ngắn (b) Tỷ lệ qua điểm zero (zero crossing rate) thông số cho biết số lần mà biên độ tín hiệu qua điểm zero khoảng thời gian cho trước xác định bởi: 13 Trong đó, N chiều dài cửa sổ w(m-n) Nhiều thuật toán phát đầu cuối dựa độ lớn tín hiệu lượng thời gian ngắn tỉ lệ qua điểm zero để cố gắng phát xác đến mức Q trình thuật tốn sau: mẫu tín hiệu nhỏ nhiễu lấy suốt khoảng “lặng” (silence) trước điểm bắt đầu tín hiệu tiếng nói Từ ngưỡng tiếng nói xác định dựa lượng khoảng lặng lượng đỉnh Ban đầu, điểm kết thúc xác định nơi lượng tín hiệu vượt qua ngưỡng này, sau ta tính khoảng cách hai điểm xem có thoả mãn độ dài từ hay khơng Tương tự ta áp dụng cho tỉ lệ qua điểm zero Ví dụ: tín hiệu thu vào từ micro bao gồm nhiễu tiếng nói có đồ thị sau: Qua trình xử lý theo chu trình ta có đồ thị dạng xung sau: 14 Từ hình ta thấy cần xác định độ dài tối thiểu từ ta tách từ khỏi nhiễu Đây phần quan trọng hệ thống nhận dạng tiếng nói, ảnh hưởng lớn đến kết nhận dạng III XÂY DỰNG HT NHẬN DẠNG TIẾNG NÓI Sơ đồ khối hệ thống quy trình thực giai đoạn hệ thống: - Huấn luyện (Đàn ông, phụ nữ, trẻ em) Input: Tập file âm Trích chọn thuộc tính Mơ hình huấn luyện Đặc trưng loại người (CSDL) - Nhận dạng (Đàn ông, phụ nữ, trẻ em) Input: File âm Quyết định Trích chọn thuộc tính So sánh Mẫu Kết nhận dạng loại người 15 Quy trình thực hiện: - Huấn luyện: + Đưa đầu vào file âm loại: Đàn ông, Phụ nữ, Trẻ em + Sau trích rút đặc trưng âm Lá q trình thực phân tích nhằm xác định thông tin quan trọng, đặc trưng, ổn định tính hiệu tiếng nói để giảm khối lương liệu cần xử lý Trong hệ thống ta sử dụng MFCC (Mel-scale Frequency Ceptual Coefficient), MFCC phương pháp trích đặc trưng dựa vào đặc điểm cảm thụ từ tần số âm tai người: tuyến tính tầng số nhỏ 1kHz phi tuyến tính tần số 1kHz (theo thang tần số Mel) + Từ huấn luyện thành mẫu mơ hình cho loại, đưa chúng lưu trữ vào CSDL - Nhận dạng: + Đưa đầu vào file âm thuộc loại file có chưa có csdl + Thực trích rút đặc trưng + So sánh mẫu tức xác định tương đương mẫu, hay nói cách khác đo lường khoảng cách mẫu Thuật toán k láng riềng (KNN) + Quyết định đưa kết nhận dạng mẫu tín hiệu gần giống với file đầu vào cần nhận dạng Các thuộc tính sử dụng để nhận dạng tiếng người nói, kỹ thuật trích rút - Các thuộc tính sử dụng để nhận dạng tiếng người nói Tần số âm bản: Cao độ Độ cao âm phụ thuộc vào tần số dao động Đối với tiếng nói, tần số dao động dây quy định độ cao giọng nói người Mỗi người có cao độ giọng nói khác nhau, độ cao nữ giới thường cao nam giới độ cao trẻ em thường cao người lớn 16 - Các kỹ thuật trích rút Có nhiều phương pháp trích chọn đặc trưng khác như: LPC, MFCC, PLP… Tuy nhiên, phương pháp dựa việc tính hệ số MFCC (Mel-scale Frequency Cepstral Coefficient) sử dụng phổ biến hiệu Vì nghiên cứu sử dụng phương pháp MFCC làm cơng cụ để trích chọn đặc trưng cho hệ thống nhận dạng Âm chia thành khung có độ dài cố định Mục đích để lấy mẫu đoạn tín hiệu nhỏ (theo lý thuyết ổn định) Hàm cửa sổ bỏ hiệu ứng phụ vector đặc trưng cepstral thực khung cửa sổ Biến đổi Fourier rời rạc khung tính tốn lấy logarithm biên độ phổ Thông tin pha bị bỏ qua biên độ phổ quan trọng pha Thực lấy logarithm biên độ phổ âm lượng tín hiệu xấp xỉ logarith Tiếp theo biến đổi phổ theo thang Mel Từ kết này, vector Mel – spectral thành phần tương quan cao, bước cuối thực biến đổi cosine rời rạc để tổng hợp vector phổ Mel để tương quan lại thành phần Hướng tiếp cận để trích đặc trưng âm : Thực phân khung, chẳng hạn luồng tín hiệu âm chuyển thành tập khung tín hiệu Độ dài thời gian cho khung khoảng 20~30ms Nếu thời gian khung lớn, nắm bắt đặc điểm khác theo thời gian tín hiệu Ngược lại, thời gian khung q nhỏ, khơng thể rút trích đặc trưng hợp lệ có giá trị Nói chung, khung tín hiệu cần chứa vài chu kỳ tín hiệu âm định, thường kích thước khung với mũ số (chẳng hạn 256, 512, 1024 ) có khả để biến đổi Fourier nhanh Nếu muốn giảm bớt khác biệt khung lân cận, sử dụng khung chồng lấp nhau, thường thực chồng lấp ½ 2/3 khung tín hiệu gốc Khung chồng lắp nhiều, yêu cầu tính tốn nhiều 17 Giả sử tín hiệu âm khung khơng thay đổi, trích đặc trưng chẳng hạn tỷ lệ điểm qua zero, âm lượng, cao độ, MFCC, LPC,… Chúng ta thực phát điểm đầu cuối tín hiệu dựa tỷ lệ điểm qua zero âm lượng, giữ lại khung tín hiệu có tiếng nói để phân tích sau Khi thực bước trên, vài thuật ngữ thường sử dụng: • Kích thước khung (frame size): số điểm mẫu khung • Chồng lấp khung (frame overlap): số điểm mẫu chồng lấp khung liên tiếp • Bước khung (hoặc kích thước hop): với kích thước khung trừ khoảng chồng lấp • Tỷ lệ khung (frame rate): số khung giây, với tần số mẫu chia cho bước khung Cách lưu trữ thuộc tính âm cách nhân dạng dựa thuộc tính Sử dụng mơ hình lượng tử hóa vector (VQ: Vector Quantization): -Tập huấn luyện gốc tập vector thuộc tính trích rút MFCC - Tìm cách thay X tập vector C nhỏ đặc trưng cho X gọi codebook 18 -C tạo cách sử dụng thuật toán gom cụm (K-means, Split, GA ) -Kích thước gom cụm cho tốn nhận dạng loại người nói: 32 512 Sau so khớp mẫu với VQ để nhận dạng - Giả sử có: X={x1,x2, xn} vector đặc trưng loại người chưa biết C={c1,c2, ,ck} - Cơng thức tính độ méo lượng tử trung bình: - D (X, C) nhỏ X gần C 19 ... Phương pháp mã dự đốn tuyến tính LPC (linear-predictive-coding) Phương pháp trích chọn đặc trưng mã dự báo tuyến tính LPC sử dụng để trích chọn tham số đặc trưng tín hiệu tiếng nói Bản chất phương. .. luyện): Lưu mẫu huấn luyện có dạng vào sở liệu Giai đoạn phân loại: Đầu vào: tham số k Với mẫu x cần phân loại: Tính khoảng cách d (x, xi) từ x tới tất mẫu xi sở liệu Tìm k mẫu có d (x, xi) nhỏ nhất,... hệ số dự báo tuyến tính dùng thuật tốn Levinson-Durbin Bước 5: Chuyển hệ số dự báo tuyến tính thành hệ số cepstral Các hệ số cepstral có độ tập trung cao đáng tin cậy so với hệ số dự báo tuyến

Ngày đăng: 20/06/2022, 00:02