Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 44 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
44
Dung lượng
381,35 KB
Nội dung
Ket-noi.com diễn đàn cơng nghệ, giáo dục Tóm tắt nội dung Tiếngnói cơng cụ giao tiếp vơ hiệu thiếu người Ngày nay, với ý tưởng mở rộng việc giao tiếp người với máy móc qua tiếngnói thay thiết bị đầu vào phức tạp không dễ nhớ, nhiều nhà nghiên cứu khoa học đầu tư công sức vào việc xây dựng hệ thống nhậndạngtiếngnói tự động cho nhiều kiểu giọng nói nhiều ngôn ngữ Đặc điểm chung hệ nhậndạng bắt đầu trình tìm hiểu mơ đặc điểm tiếng nói, hay gọi q trình “trích chọnđặc trưng” Công việc đặt tảng quan trọng cho việc áp dụng phương pháp nhậndạng định tới tính xác tồn hệ thống Tiếp tục nghiên cứu trên, khóa luận tìm hiểu đặc điểm tiếngnóinói chung tiếngnóitiếng Việt nói riêng với mục đích kết xuất đặctrưngtiếngnóitiếng Việt dạng số thực cho trình nhậndạng Đồng thời áp dụng mơ hình thống kê HMM để nhậndạng sử dụng phương pháp phân biệt điệu để có kết kiểm chứng mức độ xác q trình tríchchọnđặctrưng hướng tới ứng dụng Ket-noi.com diễn đàn công nghệ, giáo dục Lời cảm ơn Đầu tiên, xin chân thành cảm ơn tiến sĩ Lê Anh Cường, đồng cảm ơn tiến sĩ Lê Sỹ Vinh công tác môn Khoa Học Máy Tính - khoa Cơng nghệ Thơng Tin - trường Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội, hai thầy hướng dẫn trực tiếp hướng dẫn tơi hồn thành khóa luận Nhờ động viên giúp đỡ nhiệt tình lời khuyên bổ ích, ý tưởng sáng tạo hai thầy q trình hướng dẫn giúp tơi hồn thành khóa luận cách tốt Tiếp theo xin dành lời cảm ơn tới PGS.TS Lương Chi Mai anh Vũ Tất Thắng công tác Viện Khoa Học Công Nghệ Việt Nam, hai người giúp đỡ cho nhiều lời khuyên kinh nghiệm hữu ích gặp khó khăn, bế tắc q trình hồn thành khóa luận Ngồi ra, xin gửi lời cảm ơn tới người bạn nhóm nghiên cứu: Đàm Tiến Dũng, người sát cánh, giúp đỡ động viên nhiều từ bắt đầu tới hoàn thành Đồng cảm ơn tới bạn lớp anh chị học khóa với chia sẻ kinh nghiệm bổ ích Cuối xin gửi lời cảm ơn tới gia đình tơi, ba mẹ người ln ủng hộ chỗ dựa tinh thần vững cho năm học đại học nói chung việc hồn thành khóa luận cuối khóa nói riêng Ket-noi.com diễn đàn công nghệ, giáo dục Mục lục Danh mục hình minh họa Ket-noi.com diễn đàn cơng nghệ, giáo dục Chương MỞ ĐẦU Chương dành để đặt vấn đề đề tài nhậndạngtiếngnóinói chung nhậndạngtiếngnóitiếng Việt nói riêng qua xác định tầm quan trọng việc tìm hiểu đặctrưngtiếngnói hệ thống nhậndạng Đồng thời, chương nghiên cứu hướng nghiên cứu sử dụng mục tiêu khóa luận đề tài 1.1 Đặt vấn đề Một mục đích xu hướng quan trọng khoa học ngày hướng tới việc tự động hóa cơng việc chân tay, thực tế máy móc với hiệu suất tốc độ vượt trội thực thay sức lao động người nhiều lĩnh vực điều khiển máy, chế tạo linh kiện, vật liệu… Một cách tự nhiên, điều nảy sinh nhu cầu giao tiếp người với máy móc, việc giao tiếp bình thường thơng qua thiết bị đầu vào dần trở nên phức tạp cỗ máy Trong nhiều năm qua, việc nghiên cứu xây dựng hệ thống nhậndạngtiếngnói phục vụ giao tiếp người – máy nhiều nhà nghiên cứu khoa học giới đầu tư thời gian công sức đạt nhiều kết khả quan (VD: Framework nhậndạngtiếngnói Sphinx4, xây dựng công ty Sun, nhậndạng câu nằm tập từ điển khoảng 65.000 từ) [8] Đặc điểm chung hệ thống nhậndạngtiếng nói, dù sử dụng phương pháp nào, trước hết phải số hóa tín hiệu tiếngnói để máy tính hiểu được, qua tìm đặctrưng riêng tiếngnói so với đặctrưng âm khác nhạc cụ, tiếng ồn… Chính việc tríchchọnđặctrưngnói vấn đề quan trọng hàng đầu cho hệ thống nhậndạngtiếng nói, tríchchọnđặctrưng xác, độ xác việc nhậndạng hệ thống cao, điều hồn tồn với tất tiếngnói ngơn ngữ, bao gồm tiếngnóitiếng Việt Ket-noi.com diễn đàn cơng nghệ, giáo dục Hình sau vị trí q trình tríchchọnđặctrưng hệ thống nhậndạngtiếngnói bất kì: TiếngnóiTríchchọnđặctrưng frame frame frame Huấn luyện nhậndạng Text Hình : Vị trí việc tríchchọnđặctrưng hệ thống nhậndạngtiếngnói 1.2 Hướng nghiên cứu phương pháp sử dụng Có ba phương pháp chính, hiệu để tìm hiểu đặctrưngtiếng nói, thứ mơ lại q trình phát tiếngnói máy phát âm (bao gồm phận bên miệng, mũi), thứ hai mơ q trình thu nhận âm máy cảm nhận âm (các phận bên tai) phương pháp phân tích phổ tổng hợp hai phương pháp Hiện phương pháp chọnđặctrưng mơ q trình phát âm thu nhận âm phương pháp “mã hóa dự đốn tuyến tính” – LPC (Linear predictive coding) [6][9] phương pháp lấy “hàm biên độ trung bình” – AMDF [12] (Average magnitude different function) mô tả cảm nhận cao độ âm tai, Ket-noi.com diễn đàn công nghệ, giáo dục nhiên hạn chế hai phương pháp thể việc kết nhậndạng chưa thật cao [12] Trong khóa luận này, ta đề cập tới kĩ thuậttríchchọnđặctrưngMFCC [2] kết hợp phương pháp để tríchchọnđặctrưngtiếngnóitiếng Việt, sử dụng lại phương pháp AMDF [9] để tríchchọnđặctrưngđặc thù tiếng Việt điệu TríchchọnđặctrưngMFCC xem phương pháp hiệu áp dụng nhiều hệ nhậndạngtiếng Sphinx công ty Sun Sử dụng kết tríchchọnđặc trưng, ta áp dụng phương pháp nhậndạng hiệu dùng mơ hình HMM [5] để huấn luyện nhậndạngtiếng nói, sử dụng đặctrưng điệu để phân biệt điệu tiếng Việt cho tín hiệu âm ban đầu 1.3 Giới hạn mục tiêu đề tài Mục tiêu việc tìm hiểu đặctrưngtiếngnói hướng tới việc xây dựng hệ thống nhậndạngtiếngnóitiếng Việt với độ xác cao, nhiên phạm vi thời gian khn khổ khóa luận cử nhân Công Nghệ Thông tin, giới hạn nội dung nghiên cứu vấn đề đây: Thứ nhất, việc tríchchọnđặctrưngMFCC AMDF áp dụng cho hệ nhậndạngtiếngnói liên tục (tiếng nóinói theo câu) hệ nhậndạng rời rạc (nói từ riêng biệt), hệ thống mà khóa luận xây dựng hệ nhậndạng rời rạc, với từ điển chữ số đếm tiếng Việt (KHONG, MOT, HAI, BA, BON, NAM, SAU, BAY, TAM, CHIN), phân biệt điệu không phụ thuộc từ điển Thứ hai, hệ nhậndạng chúng tơi (bao gồm người nhóm nghiên cứu) xây dựng “Phụ thuộc người nói”, chưa có điều kiện thu âm để huấn luyện kiểm thử với nhiều kiểu giọng nói nên khơng thể coi hệ thống xây dựng “Khơng phụ thuộc người nói” Hệ thống xây dựng huấn luyện nhậndạng với giọng nói người Từ việc xác định mục tiêu rõ ràng mình, chúng tơi định hướng tương lai nghiên cứu sâu kĩ thuậttríchchọnđặctrưng kĩ thuậtnhậndạng để Ket-noi.com diễn đàn công nghệ, giáo dục mở rộng từ vựng nhận dạng, hướng vào ứng dụng giao tiếp người máy, điều khiển máy giọng nói ứng dụng khác giao tiếp truyền thơng… Chương KỸTHUẬTTRÍCHCHỌNĐẶCTRƯNGMFCCTRONGNHẬNDẠNGTIẾNGNÓI 2.1 XỬ LÝ TÍN HIỆU ÂM THANH VÀ TRÍCHCHỌNĐẶCTRƯNG Tín hiệu âm ngồi đời thực tín hiệu liên tục, hay tín hiệu tương tự Trước thực bước xử lý nào, tín hiệu âm cần số hóa Việc thực tự động thiết bị thu âm, cách lấy mẫu tín hiệu đầu vào [1] Như vậy, tín hiệu âm đưa vào máy tính, tập mẫu liên tiếp nhau, mẫu giá trị biên độ tín hiệu thời điểm định Một tham số quan trọng việc lấy mẫu tín hiệu âm tần số lấy mẫu, Fs, tức số mẫu lấy giây Để đo lường xác, cần phải lấy mẫu chu kỳ tín hiệu tương tự đầu vào Như vậy, tần số lấy mẫu phải lớn lần tần số cao tín hiệu âm đầu vào Tuy nhiên, thực tế tai người nhận biết âm có tần số nhỏ 10.000Hz [12][3], tần số lấy mẫu 20.000Hz đủ cho việc nhậndạng với độ xác cao Trong lĩnh vực nhậndạngtiếngnói qua điện thoại, tần số lẫy mẫu cần 8.000Hz có tín hiệu có tần số nhỏ 4.000Hz truyền điện thoại [10] Các thiết bị thu âm thường có tần số lấy mẫu 16.000Hz [3] Tríchchọnđặctrưngnhậndạngtiếngnói việc tham số hóa chuỗi tín hiệu âm dạng sóng đầu vào, biến đổi tín hiệu âm thành chuỗi vector đặctrưng n chiều, chiều giá trị thực Hiện nay, có nhiều phương pháp tríchchọnđặctrưng như: LPC(Linear predictive coding – Dự đốn tuyến tính [6][9]), AMDF(Average magnitude different function – hàm biên độ trung bình), MFCC(Mel- Đồng nghiên cứu có phần nội dung chung với khóa luận “Các kĩ thuậtnhậndạngtiếng nói”, 2010 sinh viên Đàm Tiến Dũng – Đại học công nghệ Ket-noi.com diễn đàn công nghệ, giáo dục frequency cepstral coefficients), kết hợp phương pháp [12] Phần giới thiệu cụ thể phương pháp tríchchọnđặctrưngMFCCTrong tốn nhậndạngtiếngnói xét, với tần số lấy mẫu mặc định 16.000Hz, đoạn mẫu với số lượng định tạo thành frame, tín hiệu tiếngnói tập frame liên tiếp nhau, tríchchọnđặctrưngMFCC cho ta tập đặctrưng cho frame tiếngnói Tại phải chia thành frame frame cụ thể chúng có đặctrưng nào, ta đề cập tới phần sau 2.2 TRÍCHCHỌNĐẶCTRƯNGMFCCTrongnhậndạngtiếng nói, kỹthuậttríchchọnđặctrưngMFCC phương pháp phổ biến MFCC viết tắt Mel-frequency cepstral coefficients Kỹthuật dựa việc thực biến đổi để chuyển liệu âm đầu vào (đã biến đổi Fourier cho phổ) thang đo tần số Mel, thang đo diễn tả tốt nhạy cảm tai người âm Kỹthuậttríchchọnđặctrưng gồm bước biến đổi liên tiếp, đầu bước biến đổi trước đầu vào bước biến đổi sau Đầu vào trình tríchchọnđặctrưng đoạn tín hiệu tiếngnói Vì tín hiệu âm sau đưa vào máy tính rời rạc hóa nên đoạn tín hiệu tiếngnói bao gồm mẫu liên tiếp nhau, mẫu giá trị thực, thể giá trị biên độ âm thời điểm TríchchọnđặctrưngMFCC gồm sáu bước hình vẽ sau, kết tập gồm 39 giá trị đặctrưng cho frame tiếngnói Hình (nguồn [2]): Sơ đồ q trình tríchchọnđặctrưngMFCCNội dung tham khảo từ Speech and Language Processing, 2007, chapter Tác giả Daniel Jurafsky & Jame H.Martin Ket-noi.com diễn đàn cơng nghệ, giáo dục 2.2.1 Pre-emphasis Tín hiệu âm thường thu môi trường đời thường, tiếngnói bình thường người khơng to, trừ nói to có chủ định, nhiễu mơi trường (tần số thấp) nhiều có cường độ lớn phần đáng kể (nghe dễ dàngnhận ra) tiếngnói thu âm, bước q trình tríchchọnđặctrưngMFCC xử lý vấn đề này, việc thực tăng cường độ tần số cao lên nhằm làm tăng lượng vùng có tần số cao – vùng tần số tiếng nói, cách dễ hiểu làm tiếngnói lớn lên để ảnh hưởng âm môi trường nhiễu trở thành không đáng kể Việc tăng cường độ vùng tần số cao lên đồng thời làm cho thơng tin rõ ràng mẫu tiếngnói Hình sau mơ tả trước sau q trình Preemphasis đoạn tín hiệu âm thanh: Hình (nguồn [2]): Một đoạn tần âm trước sau Pre-Emphasis 2.2.2 Windowing Trong hệ thống nhậndạngtiếngnói trình bày khóa luận này, với mục đích nâng cao độ xác việc nhậndạng tiếng, thay nhậndạng từ riêng biệt, từ đoạn hội thoại phân tích thành âm vị (subphone) [7], hệ thống nhậndạng âm vị Âm vị đơn vị phát âm từ, âm vị cấu thành tiếng nói, tiếng Anh, đơn vị cấu thành phiên âm từ (chẳng hạn ONE: w-ah-n, âm vị w, ah n), cách phát âm tiếng Việt, cách viết từ hình thức văn âm vị (chẳng hạn “MOT” = “m-oo-t”, âm vị m, oo t) Ket-noi.com diễn đàn cơng nghệ, giáo dục Vì lý đó, đặctrưng cần phải tríchchọn âm vị, thay từ hay đoạn tiếngnói dài Windowing việc cắt đoạn tín hiệu âm đầu vào thành mẩu tín hiệu có thời lượng nhỏ, gọi frame Mỗi frame sau nhậndạng thuộc âm vị Nói cách khác, frame tập gồm số mẫu tín hiệu ban đầu ta đề cập phần 2.1 Một lý khác cho thấy cần thiết việc windowing tín hiệu âm thay đổi nhanh, thuộc tính biên độ, chu kỳ khơng ổn định Khi tín hiệu âm cắt thành đoạn nhỏ đoạn, coi tín hiệu ổn định, đặctrưng tín hiệu khơng đổi theo thời gian Hình vẽ sau mơ tả q trình Windowing: Hình (nguồn [2]): Minh họa trình Windowing Để thực việc này, sử dụng cửa sổ (window) chạy dọc tín âm cắt đoạn tín hiệu nằm cửa sổ Một cửa sổ định nghĩa thông số: - Frame size: độ rộng cửa sổ, độ lớn frame tín hiệu cắt - Frame shift: bước nhảy cửa sổ, độ dài đoạn mà cửa sổ trượt để cắt frame 10 Ket-noi.com diễn đàn công nghệ, giáo dục cụ thể ot vector 39 chiều thực, bjot tính lại theo cơng thức phân phối vector đa chiều bjot = Ở kì vọng phân phối thành phần thứ d trạng thái thứ j, hai giá trị tính theo cơng thức kì vọng phương sai đối khơng gian chiều: = = Ở Xjd giá trị chiều thứ d tất biến ot toàn mẫu tập huấn luyện xác suất tương ứng với ot mẫu thứ k Bk(j, t) Như vậy, xác suất tính tốn được, ta hồn tồn có ma trận xác suất A, B yêu cầu ban đầu 4.2.1.4 Nhậndạng (Decoding) Thuật toán Viterbi: Phần “Decoding” nhận đầu vào dãy quan sát O = o1 o2 oT (đặc trưng cho tín hiệu tiếng nói) cho dãy gán trạng thái có xác suất lớn tập training Để làm điều này, ta sử dụng giải thuật Viterbi Giả sử A = aij B = bj(ot) tương ứng ma trận chuyển trạng thái tập training phân phối trạng thái dãy quan sát O Gọi F = f(j, t) xác suất lớn để quan sát thứ t có trạng thái j, với giả thiết ok (k