1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nhận dạng tiếng nói tiếng việt liên tụ

76 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 76
Dung lượng 2,39 MB

Nội dung

Trong công nghiệp cũng nh− trong đời sống hàng ngày, có rất nhiều các ứng dụng cần đến bài toán nhận dạng tiếng nói tự động nh− giao tiếp với máy tính bằng lời nói, các hệ thống điều khi

Lời cảm ơn Tôi xin bày tỏ cảm ơn chân thành sâu sắc đến TS Nguyễn Quốc Cờng, ngời đà tận tình hớng dẫn nhiều mặt chuyên môn, hớng nghiên cứu, cách thực hiện, phát triển hoàn thành luận văn Những tài liệu tham khảo, lời hớng dẫn, bảo tận tình thầy đà giúp nhiều suốt trình làm luận văn Tôi xin chân thành cảm ơn ban giám đốc trung tâm MICA, PGS.TS Phạm Thị Ngọc Yến, TS Eric Castelli, cảm ơn NCS Lê Xuân Hùng, NCS Trần Đỗ Đạt, NCS Lê Việt Bắc toàn thể cán bộ, nghiên cứu viên làm việc trung tâm MICA đà tạo điều kiện thuận lợi giúp đỡ thiết bị, sở liệu tiếng nói, cách giải suốt trình thực luận văn Cuối cùng, xin chân thành cảm ơn toàn thể thầy cô giáo môn Kỹ Thuật Đo Tin Học Công Nghiệp - Khoa Điện, cảm ơn Ban giám hiệu Trung tâm đào tạo sau đại học trờng Đại học Bách Khoa Hà Nội đà tạo điều kiện cho hoàn thành luận văn Hà Nội, tháng 11 năm 2004 Học viên Nguyễn Việt Sơn 1708330001039f657a283-d01f-484a-8b8a-87ae414ed3c0 170833000103978e80522-73fe-42ee-abab-d57fb8343659 1708330001039fbcf322f-5ecb-41f5-98db-818321f7cc0e Nhận dạng tiếng nói tiếng Việt liên tục Mở đầu Ch−¬ng 1: Tỉng quan vỊ nhËn d¹ng TiÕng Nãi 1.1 NhËn d¹ng tiÕng nãi 1.2 phân tích tham số đặc trng tiếng nói 1.2.1 Hàm lợng thêi gian ng¾n 1.2.2 HÖ sè MFCC 1.3 C¸c kü thuËt nhËn d¹ng tiÕng nãi 11 1.3.1 Kỹ thuật nhận dạng tiếng nói theo âm học - âm vị học 11 1.3.2 Kỹ thuËt nhËn d¹ng tiÕng nãi theo mÉu 13 1.3.3 Kü thuËt nhËn d¹ng tiÕng nãi dùng trí tuệ nhân tạo 14 Chơng 2: mô hình markov ẩn 17 2.1 Khái niệm mô hình Markov rời rạc 17 2.2 Khái niệm mô hình Markov Èn 19 2.2.1 M« hình Markov ẩn rời rạc 19 2.2.2 Các thành phần mô hình Markov ẩn rời rạc 22 2.3 Ba toán mô hình Markov ẩn 23 2.3.1 Bài toán 1: Đánh giá x¸c suÊt 23 2.3.2 Bài toán 2: Tìm dÃy trạng thái tối u 26 2.3.3 Bài toán 3: ớc lợng tham số mô hình 30 2.4 Mô hình Markov ẩn liên tục 32 2.4.1 Kh¸i niƯm mô hình Markov ẩn liên tục 32 2.4.2 Một số kiểu mô hình Marrkov ẩn liªn tơc 33 2.4.3 Mét sè vấn đề cài đặt mô hình Markov ẩn 35 2.5 Mô hình HMM nhận dạng tiếng nói 37 Chơng 3: Các đặc tr−ng cđa tiÕng viƯt 39 3.1 số đặc điểm tiếng việt 40 3.2 hệ thống âm vị - âm tiết tiếng việt đại 41 3.2.1 Đặc ®iÓm 41 3.2.2 CÊu tróc ©m tiÕt cđa tiÕng ViÖt 42 3.2.3 Vị trí điệu âm tiết tiếng Việt 43 3.2.4 Âm tắc họng 46 Ch−¬ng 4: Giíi thiƯu hƯ thèng HTK 47 4.1 tỉng quan vỊ hƯ thèng htk 47 Häc viên: Nguyễn Việt Sơn - Chuyên ngành: Đo lờng hệ thống điều khiển Nhận dạng tiếng nói tiếng Việt liên tục 4.1.1 Khái niệm hệ thống HTK 47 4.1.2 CÊu tróc phÇn mỊm cđa hƯ thèng HTK 48 4.2 Các trình xử lý hệ thống HTK 49 4.2.1 Giai đoạn chuẩn bị liệu 50 4.2.2 Giai đoạn huấn luyện mô hình 51 4.2.3 Giai đoạn nhận d¹ng 52 4.2.4 Giai đoạn phân tích 52 Ch−¬ng 5: Sư dơng hệ thống HTK nhận dạng tiếng nói tiếng việt liên tục mức độ âm học 54 5.1 Mô tả bớc tiến hành thí nghiƯm 56 5.1.1 PhÇn thùc hiƯn chung cho tất thí nghiệm 56 5.1.2 ThÝ nghiÖm 65 5.1.3 ThÝ nghiÖm 67 5.1.4 ThÝ nghiÖm 69 5.2 Đánh giá nhận xÐt 71 Chơng 6: Kết luận - Hớng phát triển 73 6.1 KÕt luËn 73 6.2 H−íng ph¸t triĨn 74 Tài liệu tham khảo 75 Häc viên: Nguyễn Việt Sơn - Chuyên ngành: Đo lờng hệ thống điều khiển Nhận dạng tiếng nói tiếng Việt liên tục Mở đầu Nhận dạng tiếng nói tự động từ lâu đà ớc mơ loài ngời Trong nhiều năm trở lại đây, nhờ tiến vợt bậc khoa học công nghệ, ớc mơ đà trở thành thực Trong công nghiệp nh đời sống hàng ngày, có nhiều ứng dụng cần đến toán nhận dạng tiếng nói tự động nh giao tiếp với máy tính lời nói, hệ thống điều khiển tự động hỗ trợ ngời tàn tật, quay số điện thoại lời nói Hiện giới đà số sản phẩm công nghệ sử dụng hệ thống nhận dạng tiếng nói nh phần mềm Office hÃng Microsoft, phiên gần đà tích hợp khả nhập liệu lời nói trợ giúp cho ngời tàn tật, điện thoại di động đời đà có chức quay số giọng nói Các sản phẩm công nghệ đợc nghiên cứu phát triển từ lâu chúng hoạt động với độ xác tơng đối cao, sử dụng hệ sở liệu tơng đối hoàn chỉnh (chủ yếu tiếng Anh, tiếng Pháp ) Việt Nam, hớng nghiên cứu phát triển hệ thống nhận dạng tiếng nói phát triển mạnh mẽ Tuy nhiên, ngôn ngữ tiếng Việt lại có đặc thù riêng biệt khác so với nhiều ngôn ngữ khác giới nên việc chọn lựa cách tiếp cận tìm giải toán nhận dạng cho phù hợp vấn đề quan trọng tơng đối khó khăn Xuất phát từ điều này, luận văn đợc thực nhằm đa số vấn đề bắt đầu xây dựng hệ thống nhận dạng tiếng nói tiếng Việt đa cách giải cho toán nhận dạng tiếng nói tiếng Việt liên tục mức độ âm học Công cụ đợc sử dụng HTK, công cụ chuỗi Markov ẩn đợc sử dụng nhiều nghiên cứu nhận dạng tiếng nói phòng thí nghiệm giới Nội dung luận văn gồm ch−¬ng bao gåm: Ch−¬ng 1: Tỉng quan vỊ nhËn dạng tiếng nói Chơng đề cập đến khái niệm nhận dạng tiếng nói phơng pháp tiếp cận nhận dạng tiếng nói Học viên: Nguyễn Việt Sơn - Chuyên ngành: Đo lờng hệ thống điều khiển Nhận dạng tiếng nói tiếng Việt liên tục Chơng 2: Mô hình Markov ẩn Chơng trình bày khái niệm mô hình Markov ẩn khả áp dụng việc giải toán nhận dạng tiếng nói Chơng 3: Các đặc trng tiếng Việt Chơng trình bày đặc điểm ngôn ngữ tiếng Việt xem xét chúng dới góc độ toán nhận dạng tiếng nói ®Ĩ thÊy sù ¶nh h−ëng cđa chóng ®èi víi viƯc xây dựng mô hình âm vị toán nhận dạng Chơng 4: Giới thiệu hệ thống HTK Chơng trình bày cách khái quát cấu trúc nguyên lý hoạt động hệ thống nhận dạng tiếng nói HTK Chơng 5: Sử dụng hệ thống HTK nhận dạng tiếng nói tiếng Việt liên tục mức độ âm học Chơng mô tả chi tiết thí nghiệm đà tiến hành kết thí nghiệm nhận dạng Chơng 6: Kết luận hớng phát triển Chơng tổng kết lại toàn kết nghiên cứu luận văn Từ đề phơng hớng phát triển luận văn thời gian tới Học viên: Nguyễn Việt Sơn - Chuyên ngành: Đo lờng hệ thống điều khiển Nhận dạng tiếng nói tiếng Việt liên tục Chơng 1: Tổng quan nhËn d¹ng TiÕng Nãi 1.1 NhËn d¹ng tiÕng nãi NhËn dạng tiếng nói làm cho máy hiểu, nhận biết đợc ngữ nghĩa lời nói Thực chất trình biến đổi tín hiệu âm thu đợc qua micro, qua đờng dây điện thoại thiết bị thu âm khác, thành chuỗi từ, kết đợc sử dụng ứng dụng điều khiển thiết bị, nhập liệu, soạn thảo văn lời nói, đợc đa đến trình xử lý ngôn ngữ mức cao Các hệ thống nhận dạng tiếng nói đợc phân thành loại nh sau: ắ Hệ thống nhận dạng từ rời rạc/liên tục ắ Hệ thống nhận dạng có từ điển nhỏ (vài trăm từ)/từ điển lớn (hàng nghìn từ) ắ Nhận dạng tiếng nói mức độ âm học/câu Trong hệ thống nhận dạng tiếng nói phát âm rời rạc, ngời nói sau nói từ phải dừng lại trớc phát âm từ kế tiếp, tức có khoảng lặng từ câu Ngợc lại, hệ thống nhận dạng lời nói liên tục không đòi hỏi điều Độ xác hệ thống nhận dạng tiếng nói có từ ®iĨn cì lín hc cã nhiỊu tõ dƠ lÉn th−êng không cao hệ thống nhận dạng có vốn từ vựng cỡ nhỏ Hình 1.1 cho ta thấy phần tử hệ thống nhận dạng tiếng nói điển hình Tín hiệu tiếng nói sau đợc số hóa đợc đa vào Phân tích xác định đặc tính để chuyển thành tập vector tham số đặc trng với phân đoạn tiếng nói có độ dài khoảng 10 30ms Các đặc tính đợc đa vào Tìm kiếm để tìm kiếm từ gần với số điều kiện ràng buộc âm học, từ vựng ngữ pháp Cơ sở liệu tiếng nói đợc sử dụng trình huấn luyện để xác định tham số hệ thống Học viên: Nguyễn Việt Sơn - Chuyên ngành: Đo lờng hệ thống điều khiển Nhận dạng tiếng nói tiếng Việt liên tục Cơ sở liệu tiếng nói Tín hiệu tiếng nói Mô hình âm học Mô hình từ vựng Mô hình ngôn ngữ Phân tích xác định đặc tính Các vector đặc tính Tìm kiếm Câu đợc nhận dạng Hình 1.1: Sơ đồ khối hệ thống nhận dạng tiếng nói điển hình Một khó khăn lớn việc nghiên cứu nhận dạng tiếng nói tự động tính phụ thuộc đa chuyên ngành Có nhiều chuyên ngành khoa học liên quan đến nhËn d¹ng tiÕng nãi nh−: Xư lý tiÕng nãi, vËt lý (âm học), nhận dạng mẫu, lý thuyết truyền tin, ngôn ngữ học, sinh lý học, khoa học máy tính Để xây dựng thành công hệ thống nhận dạng tiếng nói tự nhiên có từ điển cỡ lớn cần phải có nhiều kiến thức tất chuyên ngành đó, lợng kiến thức khổng lồ vợt khả ngời Vì hầu hết nhà khoa học thờng tập trung giải số toán cụ thể sở chuyên ngành hẹp 1.2 phân tích tham số đặc trng tiÕng nãi Trong c¸c lÜnh vùc xư lý tiÕng nãi nh nhận dạng, tổng hợp, mà hóa cần phải phân tích tham số tiếng nói Có nhiều phơng pháp ph©n tÝch tham sè cđa tiÕng nãi nh− LPC, MFCC, PLP Tuy nhiên phơng pháp phân tích MFCCcó nhiều u điểm, phơng pháp hay đợc sử dụng Vì phần mô tả hàm lợng thời gian ngắn, phơng pháp phân tích cepstral theo thang đo mel để tính hệ số MFCC (Mel frequency Cepstral Coefficient) th«ng qua viƯc sư dơng mét dÃy băng lọc (filter bank) để trích chọn tham số tiếng nói Học viên: Nguyễn Việt Sơn - Chuyên ngành: Đo lờng hệ thống điều khiển Nhận dạng tiếng nói tiếng Việt liên tục 1.2.1 Hàm lợng thời gian ngắn Khái niệm phân tích tín hiệu tiếng nói phân tích thời gian ngắn (short time analysis) Trong khoảng thời gian dài, tín hiệu tiếng nói không dừng, nhng khoảng thời gian đủ ngắn (10 - 30 ms) tiếng nói đợc coi dừng (ổn định thông số nh lợng, tần số, tín hiệu) Do đó, thông thờng ứng dụng xử lý tiếng nói ngời ta thờng chia tiếng nói thành nhiều đoạn có thời gian gọi khung (frame), khung có độ dài khoảng từ 10 đến 30ms Hàm lợng thời gian ngắn tín hiệu tiếng nói đợc tính cách chia tín hiệu tiếng nói thành khung, khung dài N mẫu Mỗi khung đợc nhân với hàm cửa sổ W(n) với hàm cửa sổ bắt đầu mẫu thứ m hàm lợng ngắn hạn Em đợc định nghĩa nh− sau: m+ N−1 Em = ∑ [ x( n)W( n − m)] [1.1] n= m Hµm cưa sỉ thờng đợc sử dụng cửa sổ hình chữ nhật cã d¹ng nh− sau: ⎡1 ≤ n

Ngày đăng: 19/02/2024, 23:02

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN