1. Trang chủ
  2. » Giáo Dục - Đào Tạo

tiểu luận robot công nghiệp nhận dạng giọng nói

59 507 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

TIỂU LUẬN ROBOT CÔNG NGHIÊÊP KỸ THUẬT NHẬN DẠNG GIỌNG NÓI Internal use only – Do not distribute THÀNH VIÊN NHÓM GVHD: Th.S NGÔ VĂN CƯỜNG DHCK6DLT SVTH: MSSV: Trần Văn Bình Lê Thành Hưng Nguyễn Hà Giang Châu Bình Khang Trần Ngọc Trưởng Trương Trần Thiên Phu 10316531 10373791 10372861 10373771 10323651 10329671 Internal use only – Do not distribute Content – Nội Dung Mở đầu Lý thuyết âm và tiếng nói Lý thuyết nhâ n Ê dạng tiếng nói NhâÊn dạng tiếng nói tiếng Viê tÊ và những ứng dụng Kết luâÊn Internal use only – Do not distribute Mở đầu Ngày nay, với phát triển ngành điện tử và tin học, hệ thống máy tự động dần thay người nhiều công đoạn công việc Máy có khả làm việc hiệu và suất cao người nhiều Song nay, vấn đề giao tiếp người – máy cải thiện nhiều thủ công: thông qua bàn phím và thiết bị nhập liệu khác Giao tiếp với thiết bị máy tiếng nói là phương thức giao tiếp văn minh và tự nhiên nhất, dấu ấn giao tiếp người – máy mà thay vào là cảm nhận giao tiếp người với người, hoàn thiện thì là phương thức giao tiếp tiện lợi và hiệu Internal use only – Do not distribute Mở đầu Đăăc biêăt Việt Nam tham gia dự án Astar Viện Nghiên cứu Phát triển Công nghệ cao Nhật Bản khởi xướng năm 2008, với tham gia nước châu Á, gồm: Việt Nam, Nhật Bản, Trung Quốc, Singapore, Hàn Quốc, Ấn Độ, Thái Lan, Malaysia và Philippines Theo đó, nước xây dựng phần mềm nhận dạng âm ngôn ngữ nước mình để tích hợp phương thức nhận dạng âm vào hệ thống nhận dạng âm chung dự án Hệ thống dịch sang ngôn ngữ đích và gửi đến số điện thoại người gửi để phát âm thứ tiếng họ cần Khi đó, dễ dàng giao dịch thứ tiếng thông dụng ở châu Âu, châu Á tiếng Anh, tiếng Trung Quốc, tiếng Viêăt Nam… dù chưa biết ngoại ngữ Internal use only – Do not distribute Ứng dụng kỹ thuâ tÊ nhâÊn dạng tiếng nói đàm thoại đa ngôn ngữ Internal use only – Do not distribute NHÂÊN DẠNG TIẾNG NÓI LÀ GÌ? win stranlation Internal use only – Do not distribute LÝ THUYẾT ÂM THANH VÀ TIẾNG NÓI Nguồn gốc âm thanh: Âm là vật thể dao động học mà phát Âm phát dạng sóng âm Sóng âm là biến đổi tính chất môi trường đàn hồi lượng âm truyền qua Âm truyền đến tai người là môi trường dẫn âm Sóng âm truyền chất rắn ,chất lỏng, không khí Có chất dẫn âm gọi là chất hut âm như: len,da, chất xốp… Sóng âm truyền môi trường chân không Khi kích thích dao động âm mối trường không khí thì lớp khí bị nén và dãn.Trạng thái nén dãn lần lượt lan truyền từ nguồn âm dạng sóng dọc tới nơi thu âm Nếu cường độ nguồn âm càng lớn thì âm truyền càng xa Internal use only – Do not distribute LÝ THUYẾT ÂM THANH VÀ TIẾNG NÓI Các đại lượng đặc trưng cho âm thanh: a/ Tần số âm thanh: là số lần dao động phần tử khí giây Đơn vị là Hz , kí hiệu : f b/ Chu kì âm thanh: là thời gian mà âm thực dao động hoàn toàn Đơn vị là thời gian, kí hiệu là T c/ Tốc độ truyền âm: là tốc độ truyền lượng âm từ nguồn tới nơi thu Đơn vị m/s Tốc độ truyền âm không khí ở nhiệt độ từ 0- 200 C thường là 331 – 340 m/s d/ Cường độ âm thanh: là lượng sóng âm truyền đơn vị thời gian qua đơn vị diện tích đặt vuông góc với phương truyền âm e/ Thanh áp: là lực tác dụng vào tai người nghe điểm nào trường âm Đơn vị : 1pa=1 N/m2 1bar = 1dyn/cm2 f/ Âm sắc: Trong thành phần âm thanh, ngoài tần số có sóng hài ,số lượng sóng hài biểu diễn sắc thài âm Âm sắc là đặc tính âm nhờ mà ta phân biệt tiếng trầm, bổng khác nhau, phân biệt tiếng nhạc cụ, tiếng nam nữ ,tiếng người này với người khác k/ Âm lượng: là mức độ to nhỏ nguồn Đơn vị là W Internal use only – Do not distribute LÝ THUYẾT ÂM THANH VÀ TIẾNG NÓI Các tần số âm thanh: Fo gọi là tần số âm Nam giới fo = 150 Hz Nữ giới : fo = 250 Hz Giọng nam trầm 80 – 320 Hz Giọng nam trung 100 – 400 Hz Giọng nam cao 130 – 480 Hz Giọng nữ thấp 160 – 600 Hz Giọng nữ cao 260 – 1200 Hz Công suất tiếng nói , nói to nhỏ khác nhau.Khi nói thầm công suất 10-3 mW , nói bình thường 10 mW , nói to 103 mW Internal use only – Do not distribute 10 xem w = , thì biến đổi Fourier rời rạc (DFT) N XÂY DỰNG HỆ THỐNG tất frame NHẬN tín hiệu là: DẠNG TIẾNG NÓI TRONG MÔ HÌNH ĐIỀU KHIỂN XE HƠI Thực mô-đun 2: ♣ Phân tích phổ X (k ) = X (e j 2pk / N ) t t Internal use only – Do not distribute k = 0, , N - 45 XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TRONG MÔ HÌNH ĐIỀU KHIỂN XE HƠI Thực mô-đun 2: ♣ Lọc xử lý Việc phân tích phổ thể đặc trưng tín hiệu tiếng nói mà hình dạng vùng phát âm tạo Những đặc trưng phổ tín hiệu tiếng nói có sau cho qua lọc Đối với thang tần số Mel thì lọc cho thành phần tần số mong muốn (hình 7) Bộ lọc này có đáp ứng tần số dạng tam giác, và khoảng cách hay băng thông xác định bởi số Mel Internal use only – Do not distribute 46 XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TRONG MÔ HÌNH ĐIỀU KHIỂN XE HƠI Thực mô-đun 2: Internal use only – Do not distribute 47 XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TRONG MÔ HÌNH ĐIỀU KHIỂN XE HƠI Thực mô-đun 2: ♣ Tính lượng logarit (LOG) Các bước trước đóng vai trò làm phẳng phổ, thực xử lý giống tai người Đến bước này tính toán logarit bình phương độ lớn hệ số ngõ lọc Chu ý tai người thực tốt việc xử lý độ lớn và logarit Hơn nữa, xử lý độ lớn thì loại bỏ thông tin không cần thiết xử lý logarit thực nén động, trích đặc trưng nhạy biến đổi động Internal use only – Do not distribute 48 XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TRONG MÔ HÌNH ĐIỀU KHIỂN XE HƠI Thực mô-đun 2: ♣ Tính phổ tần số mel Bước cuối việc tính phổ tần số mel (MFCC) bao gồm thực biến đổi ngược DFT độ lớn logarit ngõ lọc Internal use only – Do not distribute 49 XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TRONG MÔ HÌNH ĐIỀU KHIỂN XE HƠI Thực mô-đun 3: Sau thực xong mô-đun thì chung ta có sở liệu vector đặc trưng ứng với từ Trong mô đun này chung ta xây dựng mô hình Markov ẩn với liệu huấn luyện là vector đặc trưng có từ mô-đun Sơ đồ huấn luyện và nhận dạng mô hình HMM thể hình với từ vựng gồm từ: tới, lui, trái Internal use only – Do not distribute 50 XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TRONG MÔ HÌNH ĐIỀU KHIỂN XE HƠI Thực mô-đun 3: Internal use only – Do not distribute 51 XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TRONG MÔ HÌNH ĐIỀU KHIỂN XE HƠI MÔ HÌNH HỆ THỐNG XE ĐIỀU KHIỂN Sơ đồ mô hình xe vô tuyến điều khiển tiếng nói từ máy tính trình bày hình 11 Internal use only – Do not distribute 52 XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TRONG MÔ HÌNH ĐIỀU KHIỂN XE HƠI Internal use only – Do not distribute 53 XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TRONG MÔ HÌNH ĐIỀU KHIỂN XE HƠI Xe vô tuyến điều khiển từ xa tiếng nói từ máy tính Tiếng nói là từ lệnh thu vào và nhận dạng nhận dạng tiếng nói, và cấp chuỗi từ nhận dạng cho định để xuất lệnh điều khiển thông qua cổng COM Một mạch giao tiếp máy tính thông qua cổng nối tiếp (RS232) thiết kế để điều khiển Mạch giao tiếp nhận tín hiệu và đóng mở khoá để chuyển thành tín hiệu điều khiển từ xa Mỗi có khoá đóng tổ hợp phím nhấn, điều khiển từ xa mã hóa thích hợp và đưa anten phát Internal use only – Do not distribute 54 XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TRONG MÔ HÌNH ĐIỀU KHIỂN XE HƠI Tín hiệu điều khiển điều chế và truyền đến xe sóng vô tuyến với tần số sóng mang FC = 27MHz Bộ điều khiển xe tiến hành điều khiển vận hành xe Mô hình hoạt động tốt với từ vựng gồm từ: phải, trái, tới, lui với kết tốt (99%) Internal use only – Do not distribute 55 XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TRONG MÔ HÌNH ĐIỀU KHIỂN XE HƠI xehoi xelancoban xelan1 Internal use only – Do not distribute 56 KỸ THUÂÊT NHÂÊN DẠNG GIỌNG NÓI KẾT LUÂÊN: Qua những giới thiêÊu sơ bôÊ về kỹ thuâÊt nhâÊn dạng giọng nói cũng ứng dụng tiếng ViêÊt vào kỹ thuâÊt nhâÊn dạng giọng nói chúng ta nhâ Ên thấy rằng: Đây là kỹ thuâÊt mới với nhiều tiềm phát triển tương lai gần với những ứng dụng phổ thông cũng những ứng dụng đòi hỏi trình đôÊ cao Những ứng dụng hiêÊn tại chưa thực cụ thể và phổ biến rôÊng rãi nên sẽ cần thêm nhiều thời gian và công sức để tiếp tục tìm hiểu nghiên cứu thêm Trong tiếng ViêÊt có những điêÊu nên càng phức tạp viêÊc nghiên cứu và ứng dụng Do đó, công viê Êc này hiêÊn vẫn trình nghiên cứu thêm Internal use only – Do not distribute 57 KỸ THUÂÊT NHÂÊN DẠNG GIỌNG NÓI KẾT LUÂÊN: Với những kết thu được đó chúng ta hy vọng rằng môÊt ngày không xa người toàn thế giới có thể hiểu thông qua những chiếc điêÊn thoại di đôÊng hay qua những thiết bị thu-phát điêÊn tử hiêÊn đại mà không nhất thiết phải học tâ Êp ngôn ngữ môÊt cách vất vả Hoặc những người khuyết tật sẽ thuận lợi sử dụng tiếng nói để điều khiển chiếc xe theo ý muốn mà không cần trợ giúp người khác Tuy nhiên, tương lai đó chỉ là môÊt phương tiêÊn giao tiếp hiêÊu và viêÊc học tâÊp môÊt ngôn ngữ nào đó để đọc, tham khảo hay nghiên cứu là điều không thể thiếu Do đó, viê Êc phát triển kỹ thuâÊt này sẽ mang lại cho người giao tiếp dễ dàng hơn, thoải mái và thuâÊn lợi mà Và những ứng dụng này rất lâu nữa mới có thể vào sống cách rộng rãi Internal use only – Do not distribute 58 The End Internal use only – Do not distribute 59 [...]... not distribute 17 LÝ THUYẾT NHẬN DẠNG TIẾNG NÓI Tổng quan về nhận dạng tiếng nói Internal use only – Do not distribute 18 LÝ THUYẾT NHẬN DẠNG TIẾNG NÓI Tổng quan về nhận dạng tiếng nói Các hệ thống nhận dạng tiếng nói có thể được phân loại như sau: • Nhận dạng từ phát âm rời rạc/liên tục; • Nhận dạng tiếng nói phụ thuộc người nói/ không phụ thuộc người nói; • Hệ thống nhận dạng từ điển cỡ nhỏ (dưới... nghìn từ); • Nhận dạng tiếng nói trong môi trường có nhiễu thấp/cao; • Nhận dạng người nói Internal use only – Do not distribute 19 LÝ THUYẾT NHẬN DẠNG TIẾNG NÓI Tổng quan về nhận dạng tiếng nói Trong hệ nhận dạng tiếng nói với cách phát âm rời rạc có khoảng lặng giữa các từ trong câu Trong hệ nhận dạng tiếng nói liên tục không đòi hỏi điều này Tùy thuộc vào quy mô và phương pháp nhận dạng, ta có... trong một khung thời gian ngắn ♣ Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các kí hiệu ngữ âm ♣ Nhận dạng tiếng nói là một quá trình nhận thức Internal use only – Do not distribute 22 LÝ THUYẾT NHẬN DẠNG TIẾNG NÓI Các quá trình nhận dạng tiếng nói: Hình sau đây cho ta thấy các bước cơ bản của một hệ thống nhận dạng tiếng nói, gồm có ba giai đoạn: phân tích đặc tính, phân... only – Do not distribute 16 LÝ THUYẾT NHẬN DẠNG TIẾNG NÓI Tổng quan về nhận dạng tiếng nói Nhận dạng tiếng nói là một hệ thống tạo khả năng để máy nhận biết ngữ nghĩa của lời nói Về bản chất, đây là quá trình biến đổi tín hiệu âm thanh thu được của người nói qua Micro, đường dây điện thoại hoặc các thiết bị khác thành một chuỗi các từ Kết quả của quá trình nhận dạng có thể được ứng dụng trong điều... dữ liệu tiếng nói được sử dụng trong quá trình huấn luyện (mô hình hóa/phân lớp) để xác định các tham số hệ thống Internal use only – Do not distribute 20 LÝ THUYẾT NHẬN DẠNG TIẾNG NÓI Tổng quan về nhận dạng tiếng nói Nhận dạng tiếng nói là một hệ thống tạo khả năng để máy nhận biết ngữ nghĩa của lời nói Về bản chất, đây là quá trình biến đổi tín hiệu âm thanh thu được của người nói qua Micro,... TIẾNG NÓI Quá trình sản xuất tiếng nói và thu nhận tiếng nói của con người: Sơ đồ biểu diễn quá trình thu nhận tiếng nói của con người Internal use only – Do not distribute 15 LÝ THUYẾT ÂM THANH VÀ TIẾNG NÓI Quá trình sản xuất tiếng nói và thu nhận tiếng nói của con người: Quá trình sản xuất tiếng nói bắt đầu khi người nói muốn chuyển tải thông điệp của mình cho người nghe thông qua tiếng nói. Tổ... trong nhận dạng tiếng nói Ưu điểm của mạng neuron trong nhận dạng tiếng nói là: thứ nhất về tốc độ huấn luyện cũng như tốc độ nhận dạng tỏ ra vượt trội,có thể mở rộng bộ từ vững Do đó mạng neuron có tính linh hoạt ,mềm dẻo dễ thích nghi với môi trường Internal use only – Do not distribute 29 LÝ THUYẾT NHẬN DẠNG TIẾNG NÓI TRONG TIẾNG VIÊ ÊT Những thuận lợi và khó khăn trong nhận dạng tiếng Việt Ưu điểm:... distribute 32 XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TRONG MÔ HÌNH ĐIỀU KHIỂN XE HƠI Một hệ thống nhận dạng nói chung thường bao gồm hai phần: phần huấn luyện (training phase) và phần nhận dạng (recognition phase) “Huấn luyện” là quá trình hệ thống “học” những mẫu chuẩn được cung cấp bởi những tiếng khác nhau (từ hoặc âm), để từ đó hình thành bộ từ vựng của hệ thống Nhận dạng là quá trình quyết... quát của hệ thống nhận dạng tiếng nói được thể hiện trên hình 1 Để thuận tiện cho việc kiểm tra và đánh giá kết quả, từ sơ đồ trên chung tôi chia chương trình nhận dạng thành ba mô-đun riêng biệt như sau: Internal use only – Do not distribute 33 XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TRONG MÔ HÌNH ĐIỀU KHIỂN XE HƠI Mô-đun 1: Thực hiện việc ghi âm tín hiệu tiếng nói, tách tiếng nói khỏi nền nhiễu... tiếng nói không rõ nét như các thành phần khác của âm tiết • Cách phát âm tiếng việt thay đổi theo từng vùng địa lý • Hệ thống ngữ pháp ngữ nghĩa tiếng Việt rất phức tạp, rất khó để áp dụng vào hệ nhận dạng với mục đích tăng hiệu năng nhận dạng Hệ thống phiên âm cũng chưa thống nhất • Các nghiên cứu nhận dạng cũng chưa nhiều và ít phổ biến Internal use only – Do not distribute 31 LÝ THUYẾT NHẬN DẠNG ... THUYẾT NHẬN DẠNG TIẾNG NÓI Tổng quan nhận dạng tiếng nói Internal use only – Do not distribute 18 LÝ THUYẾT NHẬN DẠNG TIẾNG NÓI Tổng quan nhận dạng tiếng nói Các hệ thống nhận dạng tiếng nói phân... • Nhận dạng tiếng nói môi trường có nhiễu thấp/cao; • Nhận dạng người nói Internal use only – Do not distribute 19 LÝ THUYẾT NHẬN DẠNG TIẾNG NÓI Tổng quan nhận dạng tiếng nói Trong hệ nhận dạng. .. THUYẾT NHẬN DẠNG TIẾNG NÓI Tổng quan nhận dạng tiếng nói Nhận dạng tiếng nói là hệ thống tạo khả để máy nhận biết ngữ nghĩa lời nói Về chất, là trình biến đổi tín hiệu âm thu người nói qua

Ngày đăng: 26/04/2016, 09:40

Xem thêm: tiểu luận robot công nghiệp nhận dạng giọng nói

TỪ KHÓA LIÊN QUAN

Mục lục

    TIỂU LUẬN ROBOT CÔNG NGHIỆP

    Ứng dụng kỹ thuật nhận dạng tiếng nói trong đàm thoại đa ngôn ngữ

    NHẬN DẠNG TIẾNG NÓI LÀ GÌ?

    LÝ THUYẾT ÂM THANH VÀ TIẾNG NÓI

    LÝ THUYẾT NHẬN DẠNG TIẾNG NÓI

    LÝ THUYẾT NHẬN DẠNG TIẾNG NÓI TRONG TIẾNG VIỆT

    XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TRONG MÔ HÌNH ĐIỀU KHIỂN XE HƠI

    KỸ THUẬT NHẬN DẠNG GIỌNG NÓI

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w