Nhận dạng tiếng việt truyền qua mạng

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	90
Dung lượng	2,65 MB

Nội dung

Nhận dạng tiếng việt truyền qua mạng Nhận dạng tiếng việt truyền qua mạng Nhận dạng tiếng việt truyền qua mạng luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp

MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỞ ĐẦU DANH MỤC HÌNH VẼ DANH MỤC BẢNG DANH MỤC TỪ VIẾT TẮT CHƢƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG TỰ ĐỘNG TIẾNG NĨI 11 1.1 Xử lý tiếng nói 11 1.1.1 Phân tích Fourier 11 1.1.2 Bộ lọc 15 1.1.3 Dự báo tuyến tính 17 1.1.4 Trích chọn đặc trưng tiếng nói .20 1.1.4.1 Các đặc trưng LP 20 1.1.4.2 Đặc trưng MFCCs (Mel-Frequency Cepstral Coefficients) 21 1.1.4.3 Đặc trưng PLP (Perceptual Linear Prediction) .24 1.2 Nhận dạng tự động tiếng nói .25 1.3 Mơ hình Markov ẩn (Hidden Markov models) 27 1.4 Mơ hình thứ bậc 30 1.5 Các thuật giải cho mơ hình Markov ẩn .31 1.6 Các đặc trưng âm học 34 1.7 Mơ hình âm học 35 1.7.1 Mơ hình Gauss hỗn hợp (GMM) 35 1.7.2 Các mơ hình âm (Phone models) 36 1.8 Mô hình ngơn ngữ .38 1.8.1 Mơ hình n-grams 40 1.8.2 Làm mịn .42 1.9 Tìm kiếm dãy từ phù hợp 44 1.10 Đánh giá chất lượng hệ thống nhận dạng tiếng nói 47 CHƢƠNG 2: XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT NÓI TRUYỀN QUA MẠNG 49 2.1 Giới thiệu 49 2.2 Lựa chọn giao thức giao tiếp .50 2.2.1 Mục tiêu .50 2.2.2 Giao thức WebSocket 52 2.3 Kiến trúc hệ thống .55 2.3.1 Khái quát 55 2.3.2 Các thành phần hệ thống .56 2.3.2.1 Máy chủ .56 2.3.2.2 Bộ nhận dạng tiếng Việt nói 57 2.3.2.3 Máy khách .58 CHƢƠNG 3: THỬ NGHIỆM HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TRUYỀN QUA MẠNG VỚI KALDI 59 3.1 Bộ nhận dạng tiếng nói .59 3.1.1 Giới thiệu Kaldi Toolkit .59 3.1.2 Tải cài đặt Kaldi Toolkit 61 3.1.3 Chuẩn bị liệu 62 3.1.3.1 Dữ liệu âm 62 3.1.3.2 Dữ liệu thông tin file âm 62 3.1.3.3 Dữ liệu ngôn ngữ 64 3.1.4 Huấn luyện mơ hình với tham số MFCC .65 3.1.5 Huấn luyện mơ hình với tham số MFCC cao độ (pitch) 69 3.1.6 Huấn luyện mơ hình với tham số PLP cao độ (pitch) .73 3.2 Thành phần chủ (master) nhánh (slave) 74 3.3 Kết nối nhận dạng tiếng Việt nói với nhánh 74 3.3.1 Giới thiệu GStreamer 75 3.3.2 Các khái niệm GStreamer 76 3.3.2.1 Các thành phần (Elements) 76 3.3.2.2 Pads .76 3.3.2.3 Bins pipelines 77 3.3.2.4 Giao tiếp 78 3.3.2.5 Cài đặt Gstreamer 79 3.3.3 Phương pháp kết nối nhận dạng vào nhánh 79 CHƢƠNG 4: KẾT LUẬN 81 4.1 Kết thử nghiệm .81 4.1.1 Phương pháp đánh giá 81 4.1.2 Kết đánh giá 81 4.2 Kết luận .83 PHỤ LỤC: CÁC CÂU THU ÂM 85 TÀI LIỆU THAM KHẢO 90 LỜI CAM ĐOAN Tác giả luận văn xin cam đoan rằng: Số liệu kết nghiên cứu luận văn trung thực chưa sử dụng cơng bố cơng trình khác Tôi xin cam đoan giúp đỡ cho việc thực luận văn cảm ơn thơng tin trích dẫn luận văn ghi rõ nguồn gốc Tác giả luận văn Nguyễn Đình Anh LỜI CẢM ƠN Trước hết, em xin gửi lời cảm ơn chân thành đến PGS TS Trịnh Văn Loan Nếu khơng có hướng dẫn nhiệt tình tạo điều kiện thầy có lẽ em khơng thể hồn thành luận văn Em xin gửi lời cảm ơn đến thầy cô trường giảng dạy tạo điều kiện cho chúng em học tập nghiên cứu suốt thời gian theo học trường Ngoài em không cảm ơn động viên chăm sóc gia đình, cộng tác giúp đỡ ủng hộ tinh thần bạn bè MỞ ĐẦU Với phát triển khoa học kỹ thuật, máy móc trở thành cơng cụ đắc lực hỗ trợ người Chính vậy, nhiều người bỏ nhiều thời gian công sức nghiên cứu để tạo cỗ máy giao tiếp với người công cụ giao tiếp hiệu tiếng nói Nhận dạng tiếng nói phần quan trọng nỗ lực Trên giới, người ta đưa nhiều công trình nghiên cứu với phương pháp nhận dạng tiếng nói khác Đã có nhiều nghiên cứu có thành công đáng kể với sản phẩm hỗ trợ cho việc thiết kế hệ thống nhận dạng tiếng nói ví dụ CMU Sphinx đại học Carnegie Mellon, HTK Toolkit đại học Cambridge, Kaldi Daniel Povey cộng sự… Những sản phẩm ngày trở nên phổ biến Luận văn xây dựng với mong muốn tiếp cận kiến thức nhận dạng tiếng nói từ xây dựng ứng dụng nhận dạng tiếng Việt nói truyền qua mạng DANH MỤC HÌNH VẼ Hình 1.1: Mơ tả xấp xỉ hàm điều hồ 12 Hình 1.2: Ví dụ biến đổi Fourier 14 Hình 1.3: Ví dụ dự báo tuyến tính 19 Hình 1.4: Mơ tả băng lọc thang Mel 23 Hình 1.5: Kiến trúc nhận dạng tiếng nói theo phương pháp thống kê 25 Hình 1.6: Tổng quan huấn luyện nhận dạng HT nhận dạng tiếng nói 27 Hình 1.7: Hai biểu diễn mơ hình Markov ẩn 29 Hình 1.8: Mơ hình thứ bậc nhận dạng tiếng nói mơ hình Markov ẩn 31 Hình 1.9: Mơ tả lập trình động 32 Hình 1.10: Một mơ hình ngôn ngữ trạng thái hữu hạn 38 Hình 1.11: Một bigram viết dạng mạng trạng thái hữu hạn có trọng số mà cung có xác suất gán vào chúng 41 Hình 1.12: Quá trình biên soạn mạng nhận dạng 45 Hình 2.1: Phác thảo hệ thống nhận dạng tiếng Việt nói truyền qua mạng 50 Hình 2.2: Minh hoạ đơn giản truyền bán song cơng 51 Hình 2.3: Minh hoạ đơn giản truyền song cơng tồn phần 51 Hình 2.4: Một mơ tả nhanh WebSocket 52 Hình 2.5: Khái quát kiến trúc hệ thống 55 Hình 3.1: Các thành phần Kaldi Toolkit 68 Hình 3.2: Một pipeline đơn giản cho trình chơi tập tin ogg 78 Hình 3.3: Mơ giao tiếp ứng dụng pipeline 79 Hình 3.4: Pipeline luận văn sử dụng 80 DANH MỤC BẢNG Bảng 1: Kết đánh giá nhận dạng với MFCC 81 Bảng 2: Kết đánh giá nhận dạng với MFCC+pitch 82 Bảng 3: Kết đánh giá nhận dạng với PLP+pitch 82 DANH MỤC TỪ VIẾT TẮT Tên đầy đủ Viết tắt Ý nghĩa DCT Discrete Fourier Transform Biến đổi Fourier rời rạc DSP Digital Signal Processing Xử lý tính hiệu số HMM Hidden Markov Model Mơ hình Markov ẩn FFT Fast Fourier Transform Biến đổi Fourier nhanh Mel Frequency Cepstral Coeficients Các hệ số Cepstral theo thang MFCC đo tần số Mel LP Linear Prediction Dự báo tuyến tính PLP Perceptual Linear Prediction Dự báo tiên đốn tuyến tính Gaussian Mixture Model Mơ hình Gauss hỗn hợp Expectation Maximization Tối đa hoá kỳ vọng WER Word Error Rate Tỷ lệ từ lỗi SER Sentence Error Rate Tỷ lệ câu lỗi Hypertext Transfer Protocol Giao thức truyền tải siêu văn GMM EM HTTP TCP Giao thức điều khiển truyền Transmission Control Protocol vận BLAS Boosted Maximum Mutual Thư viện đại số tuyến tính Information NCCF CMVN FST Normalized Cross Correlation Hàm tương quan chéo chuẩn Function hoá Cepstral Mean Variance Giá trị trung bình phương sai Normalization bình phương Finite State Transducers Bộ dị trạng thái hữu hạn Gói thư viện đại số tuyến tính LAPACK Liniear Algebra PACKage LDA Linear Dícriminant Analysis Phân tích biệt thức tuyến tính MLLT Maximum Likelihood Linear Biến đổi tuyến tính tối đa khả Transform 10 - Xử lý giao thức - Các nguồn: cho âm video - Các định dạng: parsers, formaters - Codecs: coders decoders - Các lọc: Chuyển đổi, hiệu ứng - Sinks cho âm video Gstreamer gom thành gói - Gstreamer - Gst-plugins-base - Gst-plugins-good - Gst-plugins-ugly - Gst-plugins-bad - Gst-libav - Một vài gói khác 3.3.2 Các khái niệm GStreamer 3.3.2.1 Các thành phần (Elements) Element lớp quan trọng đối tượng Gstreamer Ta thường tạo chuỗi element kết nối với để liệu qua chuỗi element Mỗi element có chức xác định(ví dụ đọc liệu từ file, đưa liệu card âm …) Bằng cách kết nối elements vậy, ta tạo pipeline thực nhiệm vụ xác định, ví dụ media playback … Mặc định Gstreamer kèm với lớn elements, khiến cho việc phát triện ứng dụng media lớn đa dạng trở nên khả thi Nếu cần thiết, ta viết elements 3.3.2.2 Pads Pads đầu đầu vào element, nơi mà ta kết nối elements khác Pads sử dụng để dàn xếp kết nối luồng liệu elements 76 Gstreamer Một pad xem cổng elements nơi mà kết nối thực với elements khác, qua liệu tới từ element Các kết nối cho phép hai Pads kiểu liệu cho phép hai pads tương đồng Các kiểu liệu dàn xếp pad sử dụng trình gọi cáp negotiation Các kiểu liệu mơ tả GstCaps Ta hình dung pad tương tự cổng hay jack cắm thiết bị vật lý Chẳng hạn, rạp chiếu phim gia gồm ampli, đầu DVD, máy chiếu Kết nối giữ đầu DVD ampli cho phép thiết bị sử dụng jacks audio, kết nối máy chiếu đầu DVD cho phép hai thiết bị tương thích với jack video Liên kết ampli máy chiếu thực máy chiếu ampli có kiểu jack khác Pad Gstreamer phục vụ mục đích tương tự jacks hệ thống rạp chiếu phim gia Thông thường, liệu Gstreamer chiều qua liên kết elements Dữ liệu từ element qua nhiều source pads, element nhận liệu đến qua hay nhiều sink pads 3.3.2.3 Bins pipelines Một bin chưa tập elements Do thân bin lớp elements, ta điều khiển bin element, trừu tượng hố nhiều phức tạp cho ứng dụng Ví dụ ta thay đổi trạng thái tất elements bin cách thay đổi trạng thái than bin Các bin gửi thơng điệp bus từ chứa chúng Một pipeline bin mức cao Nó cung cấp bú cho ứng dụng quản lý đồng cho Ta đặt thành PAUSED PLAYING, luồng liệu bắt đầu việc xử lý media thực 77 Hình 3.2: Một pipeline đơn giản cho trình chơi tập tin ogg 3.3.2.4 Giao tiếp Hình 3.3: Mơ giao tiếp ứng dụng pipeline Gstreamer cung cấp vài chế để giao tiếp trao đổi liệu ứng dụng pipeline - Buffers đối tượng để chuyển liệu streaming elements pipeline Buffers luôn từ sources đến sinks - Events đối tượng gửi elements từ ứng dụng đến elements - Messages tượng gửi elements bus message pipeline, nơi mà chúng giữ để ứng dụng thu thập 78 - Queries cho phép ứng dụng truy vấn thông tin thời lượng hay vị trí playback từ pipeline 3.3.2.5 Cài đặt Gstreamer Nếu sử dụng Ubuntu, Gstreamer cài đặt thông qua câu lệnh sudo apt-get install gstreamer1.0-plugins-bad gstreamer1.0-plugins-good gstreamer1.0-pulseaudio gstreamer1.0-plugins-base gstreamer1.0-plugins-ugly gstreamer1.0-tools libgstreamer1.0-dev Nếu sử dụng macOS, việc cài đặt thực qua HomeBrew 3.3.3 Phƣơng pháp kết nối nhận dạng vào nhánh Với việc sử dụng GStreamer, để kết nối nhận dạng vào nhánh cần thực công việc sau: - Xây dựng plugin(element) làm việc với thư viện nhận dạng tiếng nói Kaldi để nhận dạng liệu tiếng nói file mơ hình huấn luyện có từ phần 3.1 - Khi xây dựng phần nhánh ta sử dụng framework GStreamer để tạo pipeline có sử dụng plugin xây dựng Plugin mà luận văn xây dựng gọi online2gmmdecodefaster sử dụng thư viện(nạp file mơ hình huấn luyện, thực giải mã,…) cung cấp Kaldi để thực việc nhận dạng tiếng nói với file mơ hình huấn lun bước 3.1 Ở thành phần nhánh, pipeline xây dựng sau: cutter queue online2gmmdecodefaster Hình 3.4: Pipeline luận văn sử dụng Trong đó: 79 fakesink - cutter: Đóng vai trị phát tiếng nói (VAD – Voice Activity Detector) Thực chất sử dụng thành phần cutter, luận văn đặt ngưỡng mà đoạn âm ngưỡng bị bỏ không nhận dạng - queue: Hàng đợi để lưu liệu đưa liệu vào plugin online2gmmdecodefaster mà luận văn xây dựng - oline2gmmdecodefaster: plugin nhận dạng tiếng việt nói mà luận văn xây dựng để sử dụng thư viện nhận dạng tiếng nói Kaldi - fakesink: Điểm kết thúc liệu Tóm lại, thành phần nhánh đữa liệu âm cần nhận dạng qua pipeline tức lần lược qua cutter, queue, online2gmmdecodefaster, fakesink Khi liệu âm nhận dạng online2gmmdecodefaster kết trả cho thành phần nhánh Thành phần nhánh trả lại kết cho thành phần chủ để trả lại cho máy trạm 80 CHƢƠNG 4: KẾT LUẬN 4.1 Kết thử nghiệm 4.1.1 Phƣơng pháp đánh giá Để đánh giá hệ thống nhận dạng tiếng nói sau huấn luyện ta sử dụng phương pháp đánh giá chéo Cụ thể để thực việc đánh giá, 180 file âm chia thành bộ, 20 file Để huấn luyện ta sử dụng để huấn luyện đánh giá hệ thống Như với đặc trưng MFCC, MFCC+pitch PLP + pitch ta thực lần huấn luyện Sau lần huấn luyện ta đưa mô hình huấn luyện vào hệ thống thực đánh giá Kết đánh giá cuối đặc trưng tính trung bình lần huấn luyện đánh giá 4.1.2 Kết đánh giá Sau thực đánh giá, luận văn thu kết sau: Với đặc trưng MFCC ta có kết quả: Lần Lần Lần Lần Lần Lần Lần Lần Lần TB WER 12,32% 4,02% 6,29% 6,4% 6,36% 4,03% 7,43% 6,02% 19,13% 8% SER 50% 30% 35% 40% 35% 25% 50% 45% 80% 43,33% Lỗi 12 19 1 0 0 0,56 4 16 5,78 chèn Lỗi xoá Lỗi thay Bảng 1: Kết đánh giá nhận dạng với MFCC 81 Với đặc trưng MFCC+pitch ta có kết quả: Lần Lần Lần Lần Lần Lần Lần Lần Lần TB WER 7,97% 1,34% 5,03% 2,33% 2,31% 2,68% 2,86% 4,92% 12,57% 4.67% SER 45% 10% 40% 20% 20% 15% 25% 40% 75% 32% Lỗi 3 11 3,89 0 1 0 0 0,78 4 3 chèn Lỗi xoá Lỗi thay Bảng 2: Kết đánh giá nhận dạng với MFCC+pitch Với đặc trưng PLP+pitch ta có kết quả:: Lần Lần Lần Lần Lần Lần Lần Lần Lần TB WER 7,25% 1,34% 3,14% 2,91% 1,73% 5,37% 3,43% 4,92% 12,57% 4,74% SER 40% 10% 25% 20% 15% 20% 20% 40% 75% 29% Lỗi 4 12 4.3 0 0 0.67 2 chèn Lỗi xoá Lỗi thay Bảng 3: Kết đánh giá nhận dạng với PLP+pitch Như thấy việc sử dụng đặc trưng MFCC+pitch PLP+pitch đem 82 lại kết tốt nhất, MFCC+pitch có kết cao PLP+pitch chút 4.2 Kết luận Qua trình nghiên cứu nhận dạng tiếng Việt nói truyền qua mạng, luận văn thực số công việc sau - Nghiên cứu tiếng nói, số phương pháp xử lý tiếng nói - Nghiên cứu hệ thống nhận dạng tự động tiếng nói sử dụng HMM GMM - Nghiên cứu xây dựng hệ thống nhận dạng tiếng Việt nói truyền qua mạng - Nghiên cứu sử dụng công cụ Kaldi Toolkit để xây dựng nhận dạng tiêng Việt nói hệ thống nhận dạng tiếng Việt nói truyền qua mạng - Nghiên cứu sử dụng ngôn ngữ Python để xây dựng máy chủ nhận dạng tiếng nói theo mơ hình master-slave để giao tiếp với máy trạm - Nghiên cứu kết nối máy chủ nhận dạng với nhận dạng tiếng Việt nói (dựa Kaldi) thông qua Gstreamer Do hạn chế mặt kiến thức nên luận văn không tránh khỏi việc cịn thiếu sót: - Việc sử dụng mơ hình Markov ẩn để ứng dụng vào nhận dạng tiếng nói việc sử dụng tham số MFCC, PLP, cao độ khơng cịn q - Kết thu cho tỉ lệ từ lỗi ~5% nhiên kết liệu huấn luyến nhỏ - Dữ liệu thu âm chưa đa dạng số lượng người nói - Chưa có so sánh với việc sử dụng công cụ khác Kaldi để xây dựng nhận dạng tiếng Việt nói hệ thống Một số hướng phát triển luận văn: 83 - Nghiên cứu việc sử dụng học sâu mạng nơ ron nhân tạo để nâng cao hiệu suất hệ thống - Thực thu nhiều mẫu để liệu phong phú - So sánh việc sử dụng Kaldi Toolkit với việc sử dụng cơng cụ nhận dạng tiếng nói khác CMUSphinx, HTK Toolkit để xây dựng thành phần nhận dạng tiếng Việt nói hệ thống 84 PHỤ LỤC: CÁC CÂU THU ÂM xin chào bạn có rảnh khơng chơi gọi cho bạn để chơi với tơi gọi bố mẹ xin cà phê rảnh sang nhà chơi với tơi tơi khơng biết làm khơng làm bố mẹ tơi sang nhà chào cậu chào bạn có rảnh khơng cà phê tơi khơng biết bạn nhà để gọi với chơi cậu không nhà bố mẹ khơng biết làm bạn bận học không chơi cơng ty tơi khơng biết cơng ty làm xin bố mẹ chơi nhà làm việc xin bố mẹ sang nhà tơi làm cà phê nhà không để làm tơi bận khơng chơi với cơng ty cho cà phê xin bố mẹ cho chơi gọi nhà cho bố mẹ cậu biết bận sang nhà bạn học gọi nhà cậu không gọi cà phê khơng cậu nhà sang nhà học học chào bạn tơi gọi cho bạn khơng bạn có không không xin bố mẹ chơi cậu biết không nhà không gọi cho công ty không công ty gọi cho bạn không gọi cho bố mẹ xin cà phê nhà để gọi chơi tơi sang chào bố mẹ cậu làm tơi chơi nhà bận làm việc cơng ty làm khơng biết có cà phê khơng 85 rảnh cà phê khơng sang nhà tơi chào bố mẹ tơi với cà phê với bạn bạn rảnh sang nhà chơi cà phê nhà bạn có khơng bố mẹ tơi có nhà xin việc làm nhà cơng ty làm việc nhà học bố công ty khơng có nhà tơi học với bố bạn bận làm cơng ty không rảnh để chơi với bạn chào cơng việc có rảnh để chơi tơi rảnh chơi khơng khơng biết cậu có rảnh để chơi với có học nhà bạn để xin bố mẹ không không làm việc không nhà bận học gọi bạn cà phê nhé nhà cậu học khơng cậu có rảnh sang nhà tơi chơi tơi khơng biết học có làm cậu làm việc cho công ty cà phê cậu có bận khơng sang nhà tơi chơi không bận làm không chơi không chơi bận làm chào bạn làm công ty sang nhà bạn chơi xin bố mẹ chơi khơng cơng ty để làm việc khơng nhà tơi có cơng việc bận khơng chơi với nó bận học không sang nhà bạn cậu sang nhà làm cho tôi bận làm không rảnh để chơi xin chào rảnh không cà phê bạn xin bố mẹ sang nhà tơi học 86 nhà khơng công ty không nhà để xin bố mẹ cho chơi sang nhà cà phê với không công việc cho bố mẹ sang công ty bạn chơi với bạn nhà không bố mẹ bận cơng ty bạn có làm khơng bố cà phê với mẹ tôi làm việc cho bạn khơng học không làm mẹ chào bố bạn bố mẹ không cho chơi với bạn sang nhà chào mẹ bạn làm việc không chơi bạn sang nhà tôi cho làm nhà tơi có cà phê xin bố mẹ cà phê với không sang nhà làm việc cơng ty sang nhà bạn có cà phê khơng bạn xin bố mẹ nhà làm việc với mẹ tơi sang nhà chào mẹ bạn tơi xin chào nhà bạn có việc không sang nhà bạn chơi không biết nhà sang nhà sang nhà học với không cà phê khơng chơi nhà có cơng ty biết bạn nhà bố mẹ bạn làm việc với bố mẹ chào biết bạn không nhà công ty bố mẹ bạn làm việc với cơng ty xin chào bạn khơng sang tơi khơng tơi làm cho khơng học khơng làm xin chào bạn có rảnh làm việc cho mẹ nhà với bố tơi bận chơi khơng nhà học bạn chào bố mẹ tơi mẹ gọi nhà học chào cho tơi xin cơng việc 87 tơi gọi sang nhà để học chào bạn có việc khơng bố tơi gọi bố cậu để làm việc bạn gọi cà phê chào bạn bạn có chơi với bố mẹ bạn để làm việc sang nhà bạn khơng cà phê bố mẹ bạn có biết bạn sang nhà tơi chơi tơi biết bạn không học không xin chào biết tơi cà phê với cậu bố mẹ cậu gọi cậu nhà làm xin chào cậu rảnh làm cho xin chào tơi làm việc cơng ty cơng ty rảnh việc cậu sang làm không cà phê với bạn với tơi cà phê với khơng chào cậu gọi cho nhà bạn có biết chào bố mẹ không làm việc với bố mẹ nhà biết cậu rảnh để cà phê với tơi cậu học khơng tơi khơng học nhà bạn có biết bạn cà phê với nhà khơng bận khơng rảnh để chơi nhà có cà phê với nhà bạn khơng với cậu sang nhà chào bố mẹ nhà cậu gọi nhà cho bố mẹ cậu nhà sang nhà bạn chơi bố mẹ gọi bận khơng có nhà bạn có biết làm việc với khơng bận khơng chơi với cậu tơi biết tơi khơng làm việc với nó gọi cho cậu cậu bận làm khơng làm việc với bạn biết cậu khơng có nhà nhà tơi bận cà phê với nhà tơi gọi cho làm cơng bạn có việc làm khơng ty để tơi gọi cho làm 88 bận việc cậu bận không gọi cho bố mẹ bận việc cơng ty bố mẹ rảnh sang nhà chơi bạn khơng nhà để tơi học nhà làm sang nhà bạn chơi để cơng ty gọi khơng biết tơi với bạn bố mẹ cậu gọi cậu khơng bạn có rảnh không sang nhà chơi cậu gọi cho công ty để xin làm sang nhà làm cậu làm công ty bố mẹ nó biết bạn nhà cậu làm để chơi với tơi khơng biết bạn chơi với nó bận học khơng rảnh để chơi khơng biết bạn làm bố mẹ không rảnh để sang nhà cậu làm nhà tơi tơi làm chơi khơng làm việc nhà sang nhà chơi xin chào rảnh khơng chơi với tơi có nhà khơng tơi sang chơi với bạn làm không rảnh để chơi với bạn bận làm việc không chơi bố mẹ bạn có nhà khơng học khơng chơi 89 bận công ty làm việc nhà làm chơi với tơi tơi gọi cho khơng bạn có rảnh khơng sang chơi với tơi TÀI LIỆU THAM KHẢO [1] D Talkin, “A robust algorithm for pitch tracking(RAPT)”,1995 [2] Daniel P.W Ellis, “An introduction to signal processing for speech”, LabROSA, Columbia University, New York, 2008 [3] Daniel Povey, “The Kaldi Speech Recognition Toolkit” [4] Dan Jurafsky, James H Martin, “Speech and Language Processing”, 2000 [5] Dang Ngoc Duc, Nguyen Tien Dung, Luong Chi Mai, “Mơ hình phiên âm tiếng Việt mức âm vị”, 2011 [6] John Laver, Fiona E Gibbon, William J Hardcastle, “The handbook of phonetic sciences 2nd edition”, 2010 [7] Mark Gales, Steve Young, “The Application of Hidden Markov Models in Speech Recognition”, 2007 [8] Pegah Ghahremani, Bagher BabaAli, Daniel Povey,Korbinian Riedhammer, Jan Trmal, Sanjeev Khudanpur , “A pitch extraction algorithm tuned for automatic speech recognition”, 2014 [9] T.Alumäe, “Kaldi Gstreamer Server” [10] Xuedong Huang, Alex Acero, Hsiao-wuen Hon, “Spoken language Processing”, Carnegie Mellon University, 2001 90 ... 2.3.2.2 Bộ nhận dạng tiếng Việt nói 57 2.3.2.3 Máy khách .58 CHƢƠNG 3: THỬ NGHIỆM HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TRUYỀN QUA MẠNG VỚI KALDI 59 3.1 Bộ nhận dạng tiếng nói ... THỐNG NHẬN DẠNG TIẾNG VIỆT NÓI TRUYỀN QUA MẠNG 2.1 Giới thiệu Ngày nay, ứng dụng sử dụng nhận dạng tiếng nói ngày sử dụng rộng rãi giới Mục tiêu cuối xây dựng ứng dụng sử dụng nhận dạng tiếng. .. soạn mạng nhận dạng 45 Hình 2.1: Phác thảo hệ thống nhận dạng tiếng Việt nói truyền qua mạng 50 Hình 2.2: Minh hoạ đơn giản truyền bán song công 51 Hình 2.3: Minh hoạ đơn giản truyền

Ngày đăng: 12/02/2021, 21:27

Nguồn tham khảo

Tài liệu tham khảo

Loại

Chi tiết

[1]. D. Talkin, “A robust algorithm for pitch tracking(RAPT)”,1995

Sách, tạp chí

Tiêu đề:	A robust algorithm for pitch tracking(RAPT)

[2]. Daniel P.W. Ellis, “An introduction to signal processing for speech”, LabROSA, Columbia University, New York, 2008

Sách, tạp chí

Tiêu đề:	An introduction to signal processing for speech

[3]. Daniel Povey, “The Kaldi Speech Recognition Toolkit”

Sách, tạp chí

Tiêu đề:	The Kaldi Speech Recognition Toolkit

[4]. Dan Jurafsky, James H. Martin, “Speech and Language Processing”, 2000 [5]. Dang Ngoc Duc, Nguyen Tien Dung, Luong Chi Mai, “Mô hình và phiên âm tiếng Việt mức âm vị”, 2011

Sách, tạp chí

Tiêu đề:	Speech and Language Processing”, 2000 [5]. Dang Ngoc Duc, Nguyen Tien Dung, Luong Chi Mai, “Mô hình và phiên âm tiếng Việt mức âm vị

[6]. John Laver, Fiona E. Gibbon, William J. Hardcastle, “The handbook of phonetic sciences 2nd edition”, 2010

Sách, tạp chí

Tiêu đề:	The handbook of phonetic sciences 2nd edition

[7]. Mark Gales, Steve Young, “The Application of Hidden Markov Models in Speech Recognition”, 2007

Sách, tạp chí

Tiêu đề:	The Application of Hidden Markov Models in Speech Recognition

[8]. Pegah Ghahremani, Bagher BabaAli, Daniel Povey,Korbinian Riedhammer, Jan Trmal, Sanjeev Khudanpur , “A pitch extraction algorithm tuned for automatic speech recognition”, 2014

Sách, tạp chí

Tiêu đề:	A pitch extraction algorithm tuned for automatic speech recognition

[10]. Xuedong Huang, Alex Acero, Hsiao-wuen Hon, “Spoken language Processing”, Carnegie Mellon University, 2001

Sách, tạp chí

Tiêu đề:	Spoken language Processing