Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 91 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
91
Dung lượng
1,62 MB
Nội dung
KHOA CNTT – ĐH KHTN TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN CÔNG NGHỆ TRI THỨC ĐẶNG THÁI DƯƠNG – 0012535 HÀ GIANG HẢI – 0012544 NHẬNDẠNGTIẾNGNÓITIẾNGVIỆTTHEOHƯỚNGTIẾPCẬNNHẬNDẠNGÂMVỊTỰĐỘNGLUẬN VĂN CỬ NHÂN TIN HỌC GIÁO VIÊN HƯỚNG DẪN Th.S. THÁI HÙNG VĂN NIÊN KHOÁ 2000 – 2004 KHOA CNTT – ĐH KHTN Lời cảm ơn L ỜI CẢM ƠN Xin chân thành cảm ơn thầy Thái Hùng Văn đã tận tình hướng dẫn chúng em trong quá trình hoàn thành đề tài. Những buổi nói chuyện, những kinh nghiệm cùng những tài liệu của thầy đã giúp chúng em có được những định hướng đúng đắn và đưa ra các phương pháp tốt để thực hiện đề tài. Xin gởi lời cảm ơn đến các thầy cô trong Khoa Công nghệ thông tin, những người đã dìu dắt chúng em trong suốt 4 năm ở Đại học. Xin cảm ơn bạn bè và các anh chị Khóa trên, những người đã cùng chúng tôi học tập, san sẻ khó khăn, trong đó có những ủng hộ tinh thần quý giá. Đặc biệt, anh Nguyễn Tấn Dũng đã nhiệt tình giúp đỡ nhiều về tài liệu. Và cuối cùng, nhưng quan trọng nhất, xin cám ơn ba mẹ và những người thân, những người ủng hộ chúng con về mọi mặt. Không có sự quan tâm đó, chúng con không thể hoàn thành tốt đồ án này. TP. HCM, ngày 10 tháng 7 n ăm 2004 Các sinh viên Đặng Thái Dương – Hà Giang Hải i KHOA CNTT – ĐH KHTN Mục lục M ỤC LỤC LỜI CẢM ƠN i MỤC LỤC ii DANH SÁCH CÁC HÌNH vii DANH SÁCH CÁC BẢNG ix GIỚI THIỆU CHUNG x CHƯƠNG 1 Sơ lược về ngữ âmtiếngViệt 1 1.1. Ý nghĩa của các nghiên cứu ngữ âm trong nhậndạngtiếngnóiTiếngViệt 1 1.2. Phân loại âm tố theo cấu âm 1 1.2.1. Định nghĩa âm tố 1 1.2.2. Các âm tố phụ âm 2 1.2.2.1. Đặc điểm cấu tạo của phụ âm 2 1.2.2.2. Một số cách phân chia phụ âm 2 1.2.2.3. Cấu âm bổ sung 4 1.2.3. Các âm tố nguyên âm 4 1.2.3.1. Đặc điểm cấu tạo của nguyên âm 4 1.2.3.2. Một số cách phân chia nguyên âm 4 1.3. Phân loại âm tố về mặt âm học - nhậndạngtiếngnói dựa vào đặc trưng âm học 6 1.3.1. Ý nghĩa của phân loại về mặt âm học 6 ii KHOA CNTT – ĐH KHTN Mục lục 1.3.2. Các đặc trưng âm học 6 1.3.3. Nhậndạngtiếngnói dựa vào các đặc trưng âm học 11 1.4. Sơ lược về âm tiết tiếngViệt 11 1.4.1. Giới thiệu về âm tiết 11 1.4.2. Một số đặc điểm của âm tiết tiếngViệt 12 1.4.2.1. Là ngôn ngữ có kết cấu âm tiết tính 12 1.4.2.2. Mỗi âm tiết có thanh điệu riêng 12 1.4.2.3. Âm tiết có cấu trúc chặt chẽ và ổn định 13 1.5. Lý thuyết về âmvị 14 1.5.1. Định nghĩa âmvị 14 1.5.2. Chức năng của âmvị 15 1.5.3. Tách âmvị và xác định âmvị trên chuỗi sóng âm 15 CHƯƠNG 2 Mô hình HMM áp dụng vào nhậndạngâmvị 17 2.1. Giới thiệu 17 2.2. Những vấn đề cơ bản của HMM 17 2.2.1. Các kiến thức toán của HMM và các vấn đề khi sử dụng HMM vào nhậndạngtiếngnói 17 2.2.1.1. Giới thiệu về nhậndạng thống kê và HMM 18 2.2.1.2. Các thành phần chính của HMM 19 2.2.1.3. Ví dụ về nhậndạngtừ đơn dựa trên HMM 21 2.2.1.4. Hai giả thuyết cơ bản để xây dựng hệ thống nhậndạng dựa trên HMM 22 2.2.1.5. Ba vấn đề thiết yếu của mô hình HMM và cách giải quyết các vấn đề trên 24 iii KHOA CNTT – ĐH KHTN Mục lục 2.3. Nhậndạngtiếngnói và nhậndạngâmvị dựa trên HMM 28 2.3.1. Mô hình Nhậndạng 28 2.3.2. Các thành phần cơ bản của hệ thống nhậndạngtiếngnói dựa trên HMM và mối liên hệ giữa chúng. 30 2.4. Mô hình HMM cho âmvị được sử dụng trong bài làm 32 CHƯƠNG 3 Tiền xử lý tín hiệu Tiếngnói và rút trích đặc trưng 34 3.1. Ý nghĩa của Tiền xử lý Tiếngnói 34 3.2. Một số công việc trong Tiền xử lý tín hiệu tiếngnói 35 3.2.1. Làm nổi tín hiệu (pre-emphasis) 35 3.2.2. Lọc tiếng ồn 36 3.3. Rút trích đặc trưng 37 3.3.1. Giới thiệu 37 3.3.2. Một số phương pháp trích đặc trưng 38 3.3.2.1. Phương pháp Mã hóa dự báo tuyến tính (LPC) 38 3.3.2.3. Phương pháp Mã hoá cepstral tần số Mel dựa trên LPC (MFCC) 42 3.3.2.4. Các hệ số delta (D) và hệ số gia tốc (A) 42 3.3.3. So sánh các phương pháp trích đặc trưng 43 CHƯƠNG 4 Thuật giải Embedded training – tách và xây dựng mô hình HMM tựđộng cho âmvị 45 4.1. Tách và nhậndạngâmvịtựđộng dựa trên HMM 45 4.1.1. Thuật toán huấn luyện đối với những đơn vị độc lập - Huấn luyện trên dữ liệu gán nhãn 45 4.1.2. Thuật giải Embedded training - huấn luyện trên dữ liệu âm thanh không gán nhãnâmvị 46 iv KHOA CNTT – ĐH KHTN Mục lục 4.2. Các công thức ước lượng tham số của mô hình HMM 49 4.2.1. Ước lượng tham số khi huấn luyện các mô hình HMM độc lập 49 4.2.2. Ước lượng tham số trong thuật giải Embedded training 51 4.3. Các vấn đề về tham số của HMM khi sử dụng thuật giải Embedded training. 53 4.3.1. Khởi tạo tham số 53 4.3.2. Ngưỡng 54 4.3.3. Số lần lặp trong mỗi bước luyện của thuật toán 54 4.3.4. Dữ liệu huấn luyện 54 CHƯƠNG 5 Thực hiện chương trình 56 5.1. Các khó khăn trong quá trình nhậndạng 56 5.1.1. Âmvị độc lập và âmvị phụ thuộc ngữ cảnh 56 5.1.2. Tách âm tiết trong tiếngnói liên tục và sự phụ thuộc giữa các âmvị lẫn nhau trong tiếngnói liên tục 58 5.1.3. Các nguyên âm đôi 58 5.1.4. Ảnh hưởng của thanh điệu lên âmvị 59 5.2. Quá trình thực hiện chương trình 59 5.2.1. Các bước chính 60 5.2.2. Thu dữ liệu và gán nhãn dữ liệu 60 5.2.2.1. Thu dữ liệu 60 5.2.2.2. Gán nhãn dữ liệu 61 5.2.2.3. Đánh giá dữ liệu 61 5.2.2.4. Rút trích đặc trưng dữ liệu 61 5.2.3. Khởi tạo mô hình HMM 62 v KHOA CNTT – ĐH KHTN Mục lục 5.2.4. Huấn luyện mô hình HMM 63 5.2.4.1. Huấn luyện mô hình HMM cho âmvị độc lập ngữ cảnh (monophone) 63 5.2.4.2. Huấn luyện trên mô hình âmvị phụ thuộc ngữ cảnh (triphone) 66 5.2.5. Nhậndạng 70 5.3. Đánh giá kết quả và hướng phát triển: 71 5.3.1. Kết quả nhậndạng 71 5.3.2. Nhận xét 73 5.3.3. Hướng phát triển 73 TÀI LIỆU THAM KHẢO 75 vi KHOA CNTT – ĐH KHTN Danh sách các hình D ANH SÁCH CÁC HÌNH HÌNH 1 – Phổ (spectrum) của một nguồn âm thanh tại thời điểm t 7 HÌNH 2 – Phổ đồ (spectrogram) của tiếng “hai” (trên) và sóng âm tương ứng (dưới). Những vùng có cường độ cao (vùng đen) tạo thành những dãi bắt ngang qua phổ đồ, đó là những vệt formant, được đánh số từ dưới lên là F1, F2, F3, … 8 HÌNH 3 – Cụm từ “âm tiết tiếng Việt” thể hiện trên sóng âm. Mỗi âm tiết có biên độ lớn ở giữa âm và giảm dần khi đi về đầu và cuối âm 12 HÌNH 4 – Cụm từ “bốn lăm” đứng kề nhau: có một khoảng chồng lấp giữa âmvị “n” cuối âm tiết “bốn” và âmvị “l” đầu âm tiết “lăm” 16 HÌNH 5 – Hai cách tách âmvị cho cùng một sóng âm của chữ “hai” 16 HÌNH 6 – Mô hình HMM 5 trạng thái 19 HÌNH 7 – Sơ đồ huấn luyện mô hình HMM 28 HÌNH 8 – Sơ đồ nhậndạngtừ mô hình HMM đã được huấn luyện 29 HÌNH 9 – Mô hình nhậndạngtheo 3 cấp 30 HÌNH 10 – Sóng âm của chữ “hai” trước khi (hình trái) và sau khi (hình phải) được làm phẳng 36 HÌNH 11 – Sơ đồ của bộ lọc MFCC dựa trên biến đổi dự báo tuyến tính và các biến đổi Fourier 42 HÌNH 12 – Lưu đồ huấn luyện từ đơn của công cụ HRest (HTK) 46 HÌNH 13 – Dãy sóng âm “MO6T MO6T HAI HAI BA MO6T” 47 HÌNH 14 – Mô hình huấn luyện Embedded training 48 HÌNH 15 – Các âmvị không nằm trong 1 siêu cầu 57 HÌNH 16 – Mô hình huấn luyện monophone (Từ in nghiêng trong dấu ngoặc đơn là tên thư mục hoặc tập tin trong bài làm của nhóm) 63 HÌNH 17 – Mối liên hệ giữa likelihood trung bình và số bước huấn luyện 64 vii KHOA CNTT – ĐH KHTN Danh sách các hình HÌNH 18 – Phương pháp góm nhóm âmvị dựa vào cây quyết định âm học 68 HÌNH 19 – Buộc trạng thái theo phương pháp Data-driven-clustering 69 HÌNH 20 – Sự phụ thuộc của kết quả nhậndạng vào ngưỡng phân nhóm các trạng thái của HMM 69 viii KHOA CNTT – ĐH KHTN Danh sách các bảng DANH SÁCH CÁC BẢNG BẢNG 1 – Phân chia nguyên âmtheo độ nâng của lưỡi 6 BẢNG 2 – Ảnh hưởng của số bước lặp huấn luyện đến kết quả nhậndạng 64 BẢNG 3 – Kết quả nhậndạng các tiếng là chữ số đọc liên tục 72 BẢNG 4 – Kết quả nhậndạngtừ đơn 73 ix [...]... ngữ âmtiếngViệt 1.1 Ý nghĩa của các nghiên cứu ngữ âm trong nhậndạngtiếngnóiTiếngViệt Các hệ nhậndạngtiếngnói phát triển gần đây bắt đầu đi theo hướng tiếpcận ngữ âm học kết hợp với hướngtiếpcậnnhậndạngtheo mẫu thống kê truyền thống Các hệ nhậndạngtiếngnói trong tương lai cũng kết hợp hướngnhậndạng thống kê H và sử dụng các tri thức về ngữ âm học để tạo ra các hệ nhậndạng hoạt động. .. cậnnhậndạngâmvịtựđộng đã được chúng tôi chọn trong đề tài nhậndạngtiếngnóitiếngViệt của mình Trong bài làm, chúng tôi muốn chứng minh hai điều: Nếu có đầy đủ dữ liệu tiếngnói (không gán nhãn), có thể nhậndạng được hướng tiếpcận nhận dạngâmvịtựđộng K H TN số lượng lớn các âm tiết tiếngViệt với độ chính xác tương đối cao theo Có thể nhậndạng được tiếngnóiTiếngViệtnói liên tục với... như âm vị) vì các đơn vị này có số lượng ít Theo thống kê, trong hầu hết các ngôn ngữ, số lượng âmvị dao độngtừ 20 đến 60 (ít hơn nhiều so với hàng ngàn hay hàng chục ngàn âm tiết) Vì vậy, nhậndạngâmvị là hướng thường được chọn trong số các hướngnhậndạng đơn vị dưới từ Trong nhậndạngtiếngnóitheohướngnhậndạng từng âm vị, một khó khăn chúng ta gặp phải là: các âmvị liền nhau trong chuỗi tiếng. .. bình Phần còn lại của luận văn này được tổ chức như sau: H CHƯƠNG 1: Sơ lược một số đặc điểm của ngữ âmtiếng Việt, hướngtiếp 2: Giới thiệu mô hình HMM và sự lựa chọn mô hình HMM cho C N TT CHƯƠNG – tách âmvịtựđộng trong tiếngViệt Đ cậnnhậndạngtiếngnói dựa vào đặc trưng âm học, giới thiệu về âmvị và bài toán đề tài nhậndạngtiếngViệt của nhóm CHƯƠNG 3: Tiền xử tiếngnói và rút trích đặc... tiếngnói không có vách ngăn rõ ràng (2 âmvị sát nhau có một phần giao nhau, khó xác định được phần giao nhau xi Giới thiệu chung thuộc âmvị trước hay âmvị sau) Ngay cả đối với con người, tách âmvịtừ một âm tiết (xác định vị trí bắt đầu và vị trí kết thúc của âmvị đó trên sóng âm của âm tiết) cũng không phải là công việc đơn giản Hiện nay, hầu hết các hướng tiếpcận để nhậndạngâmvị là nhận dạng. .. quả nhậndạng Trong hệ nhậndạngtiếng nói, đơn vị cơ bản phải nhận được là từ, hay còn gọi là âm tiết Trong hầu hết các ngôn ngữ, số lượng âm tiết là rất lớn TiếngViệt có hơn 8000 âm tiết, khoảng 6000 âm tiết được dùng phổ biến Với số lượng lớn như vậy, việc nhậndạng từng âm tiết là khó thực hiện được Vì vậy, chúng ta phải đi K H O A theohướngnhậndạng các đơn vị nhỏ hơn cấu thành âm tiết (đơn vị. .. xây dựng các hệ thống nhậndạngtiếngnói đã có từ những năm Đ 50 của thế kỷ 20 và đến nay đã đạt được nhiều kết quả đáng kể Có 3 hướng tiếpcận – chính cho nhậndạngtiếng nói: TiếpcậnÂm học: Hướng tiếpcận này dựa vào các đặc điểm âm học được C N TT rút ra được từ phổ âm thanh Tuy nhiên kết quả của hướngtiếpcận này còn thấp vì trong thực tế, các đặc trưng âm học có sự biến động rất lớn Hơn nữa... dựng hệ nhậndạngtheotừ Đ có khả năng phân biệt số lượng từ lớn đó quả là một thách thức Thay vào đó, người – ta nghĩ ra cách xây dựng hệ nhậndạng dựa trên hướngtiếpcậnâmvịTheo đó, chỉ cầnnhậndạng khoảng vài chục âmvị sẽ có thể nhậndạng được toàn bộ từ của một C N TT ngôn ngữ (Theo thống kê, số âmvị trong một ngôn ngữ dao độngtừ khoảng 20 đến 60) Và đây cũng chính là hướngtiếpcận đúng... nhậndạngtiếngnóitiếngViệt Tuy nhiên, người ta lại gặp một khó khăn khác, đó là tách âmvị và xác định âmvị trên chuỗi sóng âm: Cho một dãy tín hiệu tiếngnói đã thu sẵn Nhiệm vụ của chúng ta là tìm ranh giới của tất cả các âmvị và cho biết các âmvị đó là âmvị gì K H O A Khoan hãy nói đến khả năng thực hiện công việc đó tựđộng bằng máy Ngay cả con người vẫn có thể bị nhầm lẫn khi tách âm vị. .. tin, thông tin về nó, thông tin âmvị đứng trước và âmvị đứng sau nó) được nêu ra Phương pháp này về cơ bản giải quyết tốt công việc học và tách âmvị một cách tựđộng bằng máy Kết quả tách âmvị được dùng cho quá trình nhậndạngtiếngnóitiếngViệt và đã đạt được kết quả khả quan 16 Mô hình Markov ẩn áp dụng vào nhậndạngâmvị Mô hình HMM áp dụng vào nhậndạngâmvị K H TN CHƯƠNG 2 2.1 Giới thiệu . hàng chục ngàn âm tiết). Vì v ậy, nhận dạng âm vị là hướng thường được chọn trong số các hướng nhận dạng đơn vị dưới từ. Trong nhận dạng tiếng nói theo hướng nhận dạng từng âm vị, một khó khăn. tiếng nói (không gán nhãn), có thể nhận dạng được số lượng lớn các âm tiết tiếng Việt với độ chính xác tương đối cao theo hướng tiếp cận nhận dạng âm vị tự động. Có thể nhận dạng được tiếng. âm tiếng Việt C HƯƠNG 1 Sơ lược về ngữ âm tiếng Việt 1.1. Ý nghĩa của các nghiên cứu ngữ âm trong nhận dạng tiếng nói Tiếng Việt Các hệ nhận dạng tiếng nói phát triển gần đây bắt đầu đi theo