1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nhận dạng tiếng nói tiếng việt liên tục

76 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 76
Dung lượng 889,96 KB

Nội dung

Lời cảm ơn Tôi xin bày tỏ cảm ơn chân thành sâu sắc đến TS Nguyễn Quốc Cờng, ngời đà tận tình hớng dẫn nhiều mặt chuyên môn, hớng nghiên cứu, cách thực hiện, phát triển hoàn thành luận văn Những tài liệu tham khảo, lời hớng dẫn, bảo tận tình thầy đà giúp nhiều suốt trình làm luận văn Tôi xin chân thành cảm ơn ban giám đốc trung tâm MICA, PGS.TS Phạm Thị Ngọc Yến, TS Eric Castelli, cảm ơn NCS Lê Xuân Hùng, NCS Trần Đỗ Đạt, NCS Lê Việt Bắc toàn thể cán bộ, nghiên cứu viên làm việc trung tâm MICA đà tạo điều kiện thuận lợi giúp đỡ thiết bị, sở liệu tiếng nói, cách giải suốt trình thực luận văn Cuối cùng, xin chân thành cảm ơn toàn thể thầy cô giáo môn Kỹ Thuật Đo Tin Học Công Nghiệp - Khoa Điện, cảm ơn Ban giám hiệu Trung tâm đào tạo sau đại học trờng Đại học Bách Khoa Hà Nội đà tạo điều kiện cho hoàn thành luận văn Hà Nội, tháng 11 năm 2004 Học viên Nguyễn Việt Sơn Nhận dạng tiếng nói tiếng Việt liên tục Mở đầu Ch−¬ng 1: Tỉng quan vỊ nhËn d¹ng TiÕng Nãi 1.1 NhËn d¹ng tiÕng nãi 1.2 phân tích tham số đặc trng tiếng nói 1.2.1 Hàm lợng thời gian ng¾n 1.2.2 HÖ sè MFCC 1.3 C¸c kü thuËt nhËn d¹ng tiÕng nãi 11 1.3.1 Kỹ thuật nhận dạng tiếng nói theo âm học - ©m vÞ häc 11 1.3.2 Kü thuËt nhËn d¹ng tiÕng nãi theo mÉu 13 1.3.3 Kü thuËt nhËn d¹ng tiÕng nãi dïng trÝ tuệ nhân tạo 14 Chơng 2: mô h×nh markov Èn 17 2.1 Khái niệm mô hình Markov rời rạc 17 2.2 Khái niệm mô hình Markov ẩn 19 2.2.1 Mô hình Markov Èn rêi r¹c 19 2.2.2 Các thành phần mô hình Markov ẩn rời rạc 22 2.3 Ba toán mô hình Markov ẩn 23 2.3.1 Bài toán 1: Đánh giá xác suất 23 2.3.2 Bµi toán 2: Tìm dÃy trạng thái tối u 26 2.3.3 Bài toán 3: ớc lợng tham số mô hình 30 2.4 Mô hình Markov ẩn liên tục 32 2.4.1 Khái niệm mô hình Markov Èn liªn tơc 32 2.4.2 Một số kiểu mô hình Marrkov ẩn liên tục 33 2.4.3 Mét sè vÊn ®Ị cài đặt mô hình Markov ẩn 35 2.5 Mô hình HMM nhận dạng tiếng nói 37 Chơng 3: Các đặc trng tiÕng viÖt 39 3.1 mét sè ®Ỉc ®iĨm cđa tiÕng viƯt 40 3.2 hệ thống âm vị - âm tiết tiếng việt đại 41 3.2.1 Đặc điểm 41 3.2.2 CÊu tróc ©m tiÕt cđa tiÕng ViƯt 42 3.2.3 VÞ trÝ điệu âm tiết tiếng Việt 43 3.2.4 Âm tắc họng 46 Ch−¬ng 4: Giíi thiƯu hƯ thèng HTK 47 4.1 tỉng quan vỊ hƯ thèng htk 47 Häc viªn: Ngun Việt Sơn - Chuyên ngành: Đo lờng hệ thống điều khiển Nhận dạng tiếng nói tiếng Việt liên tục 4.1.1 Khái niệm hệ thống HTK 47 4.1.2 CÊu tróc phÇn mỊm cđa hƯ thèng HTK 48 4.2 Các trình xử lý hệ thống HTK 49 4.2.1 Giai đoạn chuẩn bị d÷ liƯu 50 4.2.2 Giai đoạn huấn luyện mô hình 51 4.2.3 Giai đoạn nhận dạng 52 4.2.4 Giai đoạn phân tích 52 Ch−¬ng 5: Sư dơng hƯ thèng HTK nhận dạng tiếng nói tiếng việt liên tục mức độ âm học 54 5.1 Mô tả bớc tiến hành thí nghiệm 56 5.1.1 PhÇn thùc hiƯn chung cho tÊt thí nghiệm 56 5.1.2 ThÝ nghiÖm 65 5.1.3 ThÝ nghiÖm 67 5.1.4 ThÝ nghiÖm 69 5.2 Đánh giá nhận xét 71 Ch−¬ng 6: KÕt ln - H−íng ph¸t triĨn 73 6.1 KÕt luËn 73 6.2 H−íng ph¸t triÓn 74 Tài liệu tham khảo 75 Häc viªn: Ngun Việt Sơn - Chuyên ngành: Đo lờng hệ thống điều khiển Nhận dạng tiếng nói tiếng Việt liên tục Mở đầu Nhận dạng tiếng nói tự động từ lâu đà ớc mơ loài ngời Trong nhiều năm trở lại đây, nhờ tiến vợt bậc khoa học công nghệ, ớc mơ đà trở thành thực Trong công nghiệp nh đời sống hàng ngày, có nhiều ứng dụng cần đến toán nhận dạng tiếng nói tự động nh giao tiếp với máy tính lời nói, hệ thống điều khiển tự động hỗ trợ ngời tàn tật, quay số điện thoại lời nói Hiện giới đà số sản phẩm công nghệ sử dụng hệ thống nhận dạng tiếng nói nh phần mềm Office hÃng Microsoft, phiên gần đà tích hợp khả nhập liệu lời nói trợ giúp cho ngời tàn tật, điện thoại di động đời đà có chức quay số giọng nói Các sản phẩm công nghệ đợc nghiên cứu phát triển từ lâu chúng hoạt động với độ xác tơng đối cao, sử dụng hệ sở liệu tơng đối hoàn chỉnh (chủ yếu tiếng Anh, tiếng Pháp ) Việt Nam, hớng nghiên cứu phát triển hệ thống nhận dạng tiếng nói phát triển mạnh mẽ Tuy nhiên, ngôn ngữ tiếng Việt lại có đặc thù riêng biệt khác so với nhiều ngôn ngữ khác giới nên việc chọn lựa cách tiếp cận tìm giải toán nhận dạng cho phù hợp vấn đề quan trọng tơng đối khó khăn Xuất phát từ điều này, luận văn ®−ỵc thùc hiƯn nh»m ®−a mét sè vÊn ®Ị bắt đầu xây dựng hệ thống nhận dạng tiếng nói tiếng Việt đa cách giải cho toán nhận dạng tiếng nói tiếng Việt liên tục mức độ âm học Công cụ đợc sử dụng HTK, công cụ chuỗi Markov ẩn đợc sử dụng nhiều nghiên cứu nhận dạng tiếng nói phòng thí nghiệm giới Nội dung luận văn gồm chơng bao gồm: Chơng 1: Tổng quan nhận dạng tiếng nói Chơng đề cập đến khái niệm nhận dạng tiếng nói phơng pháp tiếp cận nhận dạng tiếng nói Học viên: Nguyễn Việt Sơn - Chuyên ngành: Đo lờng hệ thống điều khiển Nhận dạng tiếng nói tiếng Việt liên tục Chơng 2: Mô hình Markov ẩn Chơng trình bày khái niệm mô hình Markov ẩn khả áp dụng việc giải toán nhận dạng tiếng nói Chơng 3: Các đặc trng tiếng Việt Chơng trình bày đặc điểm ngôn ngữ tiếng Việt xem xét chúng dới góc độ toán nhận dạng tiếng nói để thấy ảnh hởng chúng việc xây dựng mô hình âm vị toán nhận dạng Chơng 4: Giới thiệu hệ thống HTK Chơng trình bày cách khái quát cấu trúc nguyên lý hoạt động hệ thống nhận dạng tiếng nói HTK Chơng 5: Sư dơng hƯ thèng HTK nhËn d¹ng tiÕng nãi tiếng Việt liên tục mức độ âm học Chơng mô tả chi tiết thí nghiệm đà tiến hành kết thí nghiệm nhận dạng Chơng 6: Kết luận hớng phát triển Chơng tổng kết lại toàn kết nghiên cứu luận văn Từ đề phơng hớng phát triển luận văn thời gian tới Học viên: Nguyễn Việt Sơn - Chuyên ngành: Đo lờng hệ thống điều khiển Nhận dạng tiếng nói tiếng Việt liên tục Chơng 1: Tổng quan nhận dạng TiÕng Nãi 1.1 NhËn d¹ng tiÕng nãi NhËn d¹ng tiÕng nói làm cho máy hiểu, nhận biết đợc ngữ nghĩa lời nói Thực chất trình biến đổi tín hiệu âm thu đợc qua micro, qua đờng dây điện thoại thiết bị thu âm khác, thành chuỗi từ, kết đợc sử dụng ứng dụng điều khiển thiết bị, nhập liệu, soạn thảo văn lời nói, đợc đa đến trình xử lý ngôn ngữ mức cao Các hệ thống nhận dạng tiếng nói đợc phân thành loại nh sau: ắ Hệ thống nhận dạng từ rời rạc/liên tục ắ Hệ thống nhận dạng có từ điển nhỏ (vài trăm từ)/từ điển lớn (hàng nghìn từ) ắ Nhận dạng tiếng nói mức độ âm học/câu Trong hệ thống nhận dạng tiếng nói phát âm rời rạc, ngời nói sau nói từ phải dừng lại trớc phát âm từ kế tiếp, tức có khoảng lặng từ câu Ngợc lại, hệ thống nhận dạng lời nói liên tục không đòi hỏi điều Độ xác hệ thống nhận dạng tiếng nói có từ điển cỡ lớn có nhiều từ dễ lẫn thờng không cao b»ng hƯ thèng nhËn d¹ng cã vèn tõ vùng cì nhỏ Hình 1.1 cho ta thấy phần tử hệ thống nhận dạng tiếng nói điển hình Tín hiệu tiếng nói sau đợc số hóa đợc đa vào Phân tích xác định đặc tính để chuyển thành tập vector tham số đặc trng với phân đoạn tiếng nói có độ dài khoảng 10 30ms Các đặc tính đợc đa vào Tìm kiếm để tìm kiếm từ gần với số điều kiện ràng buộc âm học, từ vựng ngữ pháp Cơ sở liệu tiếng nói đợc sử dụng trình huấn luyện để xác định tham số hệ thống Học viên: Nguyễn Việt Sơn - Chuyên ngành: Đo lờng hệ thống điều khiển Nhận dạng tiếng nói tiếng Việt liên tục Cơ sở liệu tiếng nói Tín hiệu tiếng nói Mô hình âm học Mô hình từ vựng Mô hình ngôn ngữ Phân tích xác định đặc tính Các vector đặc tính Tìm kiếm Câu đợc nhận dạng Hình 1.1: Sơ đồ khối hệ thống nhận dạng tiếng nói điển hình Một khó khăn lớn việc nghiên cứu nhận dạng tiếng nói tự động tính phụ thuộc đa chuyên ngành Có nhiều chuyên ngành khoa học liên quan đến nhận dạng tiÕng nãi nh−: Xư lý tiÕng nãi, vËt lý (©m học), nhận dạng mẫu, lý thuyết truyền tin, ngôn ngữ học, sinh lý học, khoa học máy tính Để xây dựng thành công hệ thống nhận dạng tiếng nói tự nhiên có từ điển cỡ lớn cần phải có nhiều kiến thức tất chuyên ngành đó, lợng kiến thức khổng lồ vợt khả ngời Vì hầu hết nhà khoa học thờng tập trung giải số toán cụ thể sở chuyên ngành hẹp 1.2 phân tích tham số đặc trng tiếng nói Trong c¸c lÜnh vùc xư lý tiÕng nãi nh− nhËn dạng, tổng hợp, mà hóa cần phải phân tích tham số tiếng nói Có nhiều phơng pháp phân tích tham sè cña tiÕng nãi nh− LPC, MFCC, PLP … Tuy nhiên phơng pháp phân tích MFCCcó nhiều u điểm, phơng pháp hay đợc sử dụng Vì phần mô tả hàm lợng thời gian ngắn, phơng pháp phân tích cepstral theo thang ®o mel ®Ĩ tÝnh c¸c hƯ sè MFCC (Mel frequency Cepstral Coefficient) thông qua việc sử dụng dÃy băng lọc (filter bank) để trích chọn tham số tiếng nói Học viên: Nguyễn Việt Sơn - Chuyên ngành: Đo lờng hệ thống điều khiển Nhận dạng tiếng nói tiếng Việt liên tục 1.2.1 Hàm lợng thời gian ngắn Khái niệm phân tích tín hiệu tiếng nói phân tích thời gian ngắn (short time analysis) Trong khoảng thời gian dài, tín hiệu tiếng nói không dừng, nhng khoảng thời gian đủ ngắn (10 - 30 ms) tiếng nói đợc coi dừng (ổn định thông số nh lợng, tần số, tín hiệu) Do đó, thông th−êng c¸c øng dơng xư lý tiÕng nãi ng−êi ta thờng chia tiếng nói thành nhiều đoạn có thời gian gọi khung (frame), khung có độ dài khoảng từ 10 đến 30ms Hàm lợng thời gian ngắn tín hiệu tiếng nói đợc tính cách chia tín hiệu tiếng nói thành khung, khung dài N mẫu Mỗi khung đợc nhân với hàm cửa sổ W(n) với hàm cửa sổ bắt đầu mẫu thứ m hàm lợng ngắn hạn Em đợc định nghĩa nh sau: Em = m + N −1 ∑ [ x(n)W (n m)]2 [1.1] n=m Hàm cửa sổ thờng đợc sử dụng cửa sổ hình chữ nhật có dạng nh sau: ⎡1 ≤ n

Ngày đăng: 28/02/2021, 10:04

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w