Nhận dạng tiếng nói tiếng Việt liên tục Nhận dạng tiếng nói tiếng Việt liên tục Nhận dạng tiếng nói tiếng Việt liên tục luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
Lời cảm ơn Tôi xin bày tỏ cảm ơn chân thành sâu sắc đến TS Nguyễn Quốc Cờng, ngời đà tận tình hớng dẫn nhiều mặt chuyên môn, hớng nghiên cứu, cách thực hiện, phát triển hoàn thành luận văn Những tài liệu tham khảo, lời hớng dẫn, bảo tận tình thầy đà giúp nhiều suốt trình làm luận văn Tôi xin chân thành cảm ơn ban giám đốc trung tâm MICA, PGS.TS Phạm Thị Ngọc Yến, TS Eric Castelli, cảm ơn NCS Lê Xuân Hùng, NCS Trần Đỗ Đạt, NCS Lê Việt Bắc toàn thể cán bộ, nghiên cứu viên làm việc trung tâm MICA đà tạo điều kiện thuận lợi giúp đỡ thiết bị, sở liệu tiếng nói, cách giải suốt trình thực luận văn Cuối cùng, xin chân thành cảm ơn toàn thể thầy cô giáo môn Kỹ Thuật Đo Tin Học Công Nghiệp - Khoa Điện, cảm ơn Ban giám hiệu Trung tâm đào tạo sau đại học trờng Đại học Bách Khoa Hà Nội đà tạo điều kiện cho hoàn thành luận văn Hà Nội, tháng 11 năm 2004 Học viên Nguyễn Việt Sơn Nhận dạng tiếng nói tiếng Việt liên tục Mở đầu Chơng 1: Tổng quan nhận dạng TiÕng Nãi 1.1 NhËn d¹ng tiÕng nãi 1.2 phân tích tham số đặc trng tiếng nói 1.2.1 Hàm lợng thời gian ngắn 1.2.2 HÖ sè MFCC 1.3 Các kỹ thuật nhận dạng tiÕng nãi 11 1.3.1 Kü thuật nhận dạng tiếng nói theo âm học - âm vị học 11 1.3.2 Kỹ thuật nhận dạng tiÕng nãi theo mÉu 13 1.3.3 Kü tht nhËn d¹ng tiÕng nãi dïng trÝ t nhân tạo 14 Chơng 2: mô hình markov Èn 17 2.1 Khái niệm mô hình Markov rời rạc 17 2.2 Khái niệm mô hình Markov ẩn 19 2.2.1 Mô hình Markov ẩn rêi r¹c 19 2.2.2 Các thành phần mô hình Markov ẩn rời rạc 22 2.3 Ba toán mô hình Markov ẩn 23 2.3.1 Bài toán 1: Đánh giá xác suất 23 2.3.2 Bài toán 2: Tìm dÃy trạng thái tối u 26 2.3.3 Bài toán 3: ớc lợng tham số mô hình 30 2.4 Mô hình Markov ẩn liên tục 32 2.4.1 Khái niệm mô hình Markov Èn liªn tơc 32 2.4.2 Một số kiểu mô hình Marrkov ẩn liên tục 33 2.4.3 Mét sè vÊn ®Ị cài đặt mô hình Markov ẩn 35 2.5 Mô hình HMM nhận dạng tiếng nói 37 Chơng 3: Các đặc trng tiếng việt 39 3.1 số đặc ®iĨm cđa tiÕng viƯt 40 3.2 hệ thống âm vị - âm tiết tiếng việt đại 41 3.2.1 Đặc điểm 41 3.2.2 CÊu tróc ©m tiÕt cđa tiÕng ViƯt 42 3.2.3 VÞ trÝ ®iƯu ©m tiÕt tiÕng ViƯt 43 3.2.4 Âm tắc họng 46 Ch−¬ng 4: Giíi thiÖu hÖ thèng HTK 47 4.1 tỉng quan vỊ hƯ thèng htk 47 Häc viªn: Ngun ViƯt Sơn - Chuyên ngành: Đo lờng hệ thống điều khiển Nhận dạng tiếng nói tiếng Việt liên tơc 4.1.1 Kh¸i niƯm vỊ hƯ thèng HTK 47 4.1.2 CÊu tróc phÇn mỊm cđa hƯ thèng HTK 48 4.2 Các trình xử lý hệ thống HTK 49 4.2.1 Giai đoạn chuẩn bị liÖu 50 4.2.2 Giai đoạn huấn luyện mô hình 51 4.2.3 Giai đoạn nhận dạng 52 4.2.4 Giai đoạn phân tích 52 Ch−¬ng 5: Sư dơng hƯ thèng HTK nhận dạng tiếng nói tiếng việt liên tục mức ®é ©m häc 54 5.1 Mô tả bớc tiến hành thí nghiệm 56 5.1.1 Phần thực chung cho tất c¸c thÝ nghiƯm 56 5.1.2 ThÝ nghiÖm 65 5.1.3 ThÝ nghiÖm 67 5.1.4 ThÝ nghiÖm 69 5.2 Đánh giá nhận xét 71 Ch−¬ng 6: KÕt ln - H−íng ph¸t triĨn 73 6.1 KÕt luËn 73 6.2 H−íng ph¸t triĨn 74 Tài liệu tham khảo 75 Häc viªn: Ngun ViƯt Sơn - Chuyên ngành: Đo lờng hệ thống điều khiển Nhận dạng tiếng nói tiếng Việt liên tục Mở đầu Nhận dạng tiếng nói tự động từ lâu đà ớc mơ loài ngời Trong nhiều năm trở lại đây, nhờ tiến vợt bậc khoa học công nghệ, ớc mơ đà trở thành thực Trong công nghiệp nh đời sống hàng ngày, có nhiều ứng dụng cần đến toán nhận dạng tiếng nói tự động nh giao tiếp với máy tính lời nói, hệ thống điều khiển tự động hỗ trợ ngời tàn tật, quay số điện thoại lời nói Hiện giới đà số sản phẩm công nghệ sử dụng hệ thống nhận dạng tiếng nói nh phần mềm Office hÃng Microsoft, phiên gần đà tích hợp khả nhập liệu lời nói trợ giúp cho ngời tàn tật, điện thoại di động đời đà có chức quay số giọng nói Các sản phẩm công nghệ đợc nghiên cứu phát triển từ lâu chúng hoạt động với độ xác tơng đối cao, sử dụng hệ sở liệu tơng đối hoàn chỉnh (chủ yếu tiếng Anh, tiếng Pháp ) Việt Nam, hớng nghiên cứu phát triển hệ thống nhận dạng tiếng nói phát triển mạnh mẽ Tuy nhiên, ngôn ngữ tiếng Việt lại có đặc thù riêng biệt khác so với nhiều ngôn ngữ khác giới nên việc chọn lựa cách tiếp cận tìm giải toán nhận dạng cho phù hợp vấn đề quan trọng tơng đối khó khăn Xuất phát từ điều này, luận văn đợc thực nhằm đa số vấn đề bắt đầu xây dựng hệ thống nhận dạng tiếng nói tiếng Việt đa cách giải cho toán nhận dạng tiếng nói tiếng Việt liên tục mức độ âm học Công cụ đợc sử dụng HTK, công cụ chuỗi Markov ẩn đợc sử dụng nhiều nghiên cứu nhận dạng tiếng nói phòng thí nghiệm giới Nội dung luận văn gồm chơng bao gồm: Chơng 1: Tổng quan nhận dạng tiếng nói Chơng đề cập đến khái niệm nhận dạng tiếng nói phơng pháp tiếp cận nhận dạng tiếng nói Học viên: Nguyễn Việt Sơn - Chuyên ngành: Đo lờng hệ thống điều khiển Nhận dạng tiếng nói tiếng Việt liên tục Chơng 2: Mô hình Markov ẩn Chơng trình bày khái niệm mô hình Markov ẩn khả áp dụng việc giải toán nhận dạng tiếng nói Chơng 3: Các đặc trng tiếng Việt Chơng trình bày đặc điểm ngôn ngữ tiếng Việt xem xét chúng dới góc độ toán nhận dạng tiếng nói để thấy ảnh hởng chúng việc xây dựng mô hình âm vị toán nhận dạng Chơng 4: Giới thiệu hệ thống HTK Chơng trình bày cách khái quát cấu trúc nguyên lý hoạt động hệ thống nhận dạng tiếng nói HTK Chơng 5: Sư dơng hƯ thèng HTK nhËn d¹ng tiÕng nãi tiÕng Việt liên tục mức độ âm học Chơng mô tả chi tiết thí nghiệm đà tiến hành kết thí nghiệm nhận dạng Chơng 6: Kết luận hớng phát triển Chơng tổng kết lại toàn kết nghiên cứu luận văn Từ đề phơng hớng phát triển luận văn thời gian tới Học viên: Nguyễn Việt Sơn - Chuyên ngành: Đo lờng hệ thống điều khiển Nhận dạng tiếng nói tiếng Việt liên tục Chơng 1: Tổng quan nhận dạng Tiếng Nãi 1.1 NhËn d¹ng tiÕng nãi NhËn d¹ng tiÕng nãi làm cho máy hiểu, nhận biết đợc ngữ nghĩa lời nói Thực chất trình biến đổi tín hiệu âm thu đợc qua micro, qua đờng dây điện thoại thiết bị thu âm khác, thành chuỗi từ, kết đợc sử dụng ứng dụng điều khiển thiết bị, nhập liệu, soạn thảo văn lời nói, đợc đa đến trình xử lý ngôn ngữ mức cao Các hệ thống nhận dạng tiếng nói đợc phân thành loại nh sau: ắ Hệ thống nhận dạng từ rời rạc/liên tục ắ Hệ thống nhận dạng có từ điển nhỏ (vài trăm từ)/từ điển lớn (hàng nghìn từ) ắ Nhận dạng tiếng nói mức độ âm học/câu Trong hệ thống nhận dạng tiếng nói phát ©m rêi r¹c, ng−êi nãi sau nãi mét tõ phải dừng lại trớc phát âm từ kế tiếp, tức có khoảng lặng từ câu Ngợc lại, hệ thống nhận dạng lời nói liên tục không đòi hỏi điều Độ xác hệ thống nhận dạng tiếng nói có từ điển cỡ lớn có nhiều từ dễ lẫn thờng không cao hƯ thèng nhËn d¹ng cã vèn tõ vùng cì nhá Hình 1.1 cho ta thấy phần tử hệ thống nhận dạng tiếng nói điển hình Tín hiệu tiếng nói sau đợc số hóa đợc đa vào Phân tích xác định đặc tính để chuyển thành tập vector tham số đặc trng với phân đoạn tiếng nói có độ dài khoảng 10 30ms Các đặc tính đợc đa vào Tìm kiếm để tìm kiếm từ gần với số điều kiện ràng buộc âm học, từ vựng ngữ pháp Cơ sở liệu tiếng nói đợc sử dụng trình huấn luyện để xác định tham số hệ thống Học viên: Nguyễn Việt Sơn - Chuyên ngành: Đo lờng hệ thống điều khiển Nhận dạng tiếng nói tiếng Việt liên tục Cơ sở liệu tiếng nói Tín hiệu tiếng nói Mô hình âm học Mô hình từ vựng Mô hình ngôn ngữ Phân tích xác định đặc tính Các vector đặc tính Tìm kiếm Câu đợc nhận dạng Hình 1.1: Sơ đồ khối hệ thống nhận dạng tiếng nói điển hình Một khó khăn lớn việc nghiên cứu nhận dạng tiếng nói tự động tính phụ thuộc đa chuyên ngành Có nhiều chuyên ngành khoa học liên quan đến nhận dạng tiếng nãi nh−: Xư lý tiÕng nãi, vËt lý (©m häc), nhận dạng mẫu, lý thuyết truyền tin, ngôn ngữ học, sinh lý học, khoa học máy tính Để xây dựng thành công hệ thống nhận dạng tiếng nói tự nhiên có từ điển cỡ lớn cần phải có nhiều kiến thức tất chuyên ngành đó, lợng kiến thức khổng lồ vợt khả ngời Vì hầu hết nhà khoa học thờng tập trung giải số toán cụ thể sở chuyên ngành hẹp 1.2 phân tích tham số đặc trng tiếng nói Trong lĩnh vực xử lý tiếng nói nh nhận dạng, tổng hợp, mà hóa cần phải phân tích tham số tiếng nói Có nhiều phơng pháp phân tích tham sè cña tiÕng nãi nh− LPC, MFCC, PLP … Tuy nhiên phơng pháp phân tích MFCCcó nhiều u điểm, phơng pháp hay đợc sử dụng Vì phần mô tả hàm lợng thời gian ngắn, phơng pháp phân tích cepstral theo thang đo mel để tính hệ số MFCC (Mel frequency Cepstral Coefficient) thông qua việc sử dụng dÃy băng läc (filter bank) ®Ĩ trÝch chän tham sè cđa tiÕng nói Học viên: Nguyễn Việt Sơn - Chuyên ngành: Đo lờng hệ thống điều khiển Nhận dạng tiếng nói tiếng Việt liên tục 1.2.1 Hàm lợng thời gian ngắn Khái niệm phân tích tín hiệu tiếng nói phân tích thời gian ngắn (short time analysis) Trong khoảng thời gian dài, tín hiệu tiếng nói không dừng, nhng khoảng thời gian đủ ngắn (10 - 30 ms) tiếng nói đợc coi dừng (ổn định thông số nh lợng, tần số, tín hiệu) Do đó, thông thờng c¸c øng dơng xư lý tiÕng nãi ng−êi ta thờng chia tiếng nói thành nhiều đoạn có thời gian gọi khung (frame), khung có độ dài khoảng từ 10 đến 30ms Hàm lợng thời gian ngắn tín hiệu tiếng nói đợc tính cách chia tín hiệu tiếng nói thành khung, khung dài N mẫu Mỗi khung đợc nhân víi mét hµm cưa sỉ W(n) vµ víi hµm cưa sổ bắt đầu mẫu thứ m hàm lợng ngắn hạn Em đợc định nghĩa nh sau: Em = m + N −1 ∑ [ x(n)W (n − m)]2 [1.1] n=m Hàm cửa sổ thờng đợc sử dụng cửa sổ hình chữ nhật có dạng nh sau: ⎡1 ≤ n