Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 60 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
60
Dung lượng
1,71 MB
Nội dung
LỜI CAM ĐOAN Học viên xin cam đoan công trình nghiêncứu riêng dƣới hƣớng dẫn khoa học TS Hồ Thị Hƣơng Thơm Các nội dungnghiên cứu, kết nêu luận văn trung thực chƣa đƣợc công bố công trình khác Các thông tin sử dụng luận văn có nguồn gốc đƣợc trích dẫn rõ ràng Học viên xin hoàn toàn chịu trách nhiệm tính xác thực nguyên luận văn Hải Phòng, ngày 10 tháng 03 năm 2016 Học viên Nguyễn Thị Huyền Thanh i LỜI CẢM ƠN Trong suốt trình học tập nghiêncứu học viên nhận đƣợc nhiều giúp đỡ thầy cô, bạn bè gia đình Học viên xin bày tỏ lòng biết ơn sâu sắc chân thành cảm ơn TS Hồ Thị Hƣơng Thơm tận tâm bảo, hƣớng dẫn giúp đỡ suốt thời gian thực đề tài:“NGHIÊN CỨUNHẬNDẠNGGIỌNGNÓI,ÁPDỤNGĐIỀUKHIỂNỨNGDỤNGHOẶCTRÒCHƠITRÊNMÁY TÍNH” Học viên xin cảm ơn Trƣờng Đại học Hàng Hải, thầy cô Viện đào tạo sau Đại họcđã tạo điều kiện tốt cho tất học viên đƣợc học tập nghiêncứu trƣờng Học viên xin cảm ơn đồng nghiệp thành viên gia đình động viên, ủng hộ, chia sẻ giúp học viên tập trung nghiêncứu hoàn thành luận văn Học viênxin kính chúc thầy cô luôn mạnh khỏe để tiếp tục thực sứ mệnh cao đẹp nghiệp giáo dục Xin chân thành cảm ơn! Học viên Nguyễn Thị Huyền Thanh ii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANG MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU v DANH MỤC CÁC HÌNH vi DANH MỤC CÁC BẢNG viii MỞ ĐẦU CHƢƠNG GIỚI THIỆU KHÁI NIỆM TỔNG QUAN 1.1 Khái niệm tƣơng tác ngƣời máy 1.2 Cơ sở lý thuyết âm giọng nói 1.2.1 Giới thiệu xử lý giọng nói 1.2.2 Chuyển đổi văn thành giọng nói 1.3 Nhậndạnggiọng nói 10 1.3.1 Giới thiệu nhậndạng tiếng nói 10 1.3.2 Phân loại hệ thống nhậndạng tiếng nói 13 1.4 Quá trình xử lý giọng nói 15 1.4.1 Phân tích ngữ âm văn 15 1.4.2 Chuyển đổi ký tự sang âm 17 1.5 Tổng hợp tiếng nói 19 1.6 Kỹ thuật thích ứng tiếng nói 22 1.7.Ứng dụngnhậndạnggiọng nói thực tế điềukhiểnmáytính 23 CHƢƠNG MỘT SỐ PHƢƠNG PHÁP NHẬNDẠNGGIỌNG NÓI 27 2.1 Phƣơng pháp mô hình độ tƣơng quan 27 2.1.1 Vị trí trình tự biến 28 iii 2.1.2 Miêu tả thành phần vector tham số phổ độc lập 29 2.1.3 Kiểu nhậndạng 29 2.2 Phƣơng pháp mạng nơron 31 2.2.1 Giới thiệu mạng nơron nhân tạo 32 2.2.2 Mô hình mạng nơron 32 2.2.3 Xử lý tín hiệu tiếng nói 34 2.2.4 Quá trình nhậndạng 34 2.2.5 Nhậndạng tiếng nói mạng nơron 37 CHƢƠNG CÀI ĐẶT, THỬ NGHIỆM VÀ ỨNGDỤNG 42 3.1 Môi trƣờng thử nghiệm 42 3.2 Mô chƣơng trình 42 3.3 Thử nghiệm đánh giá kết 45 KẾT LUẬN 49 TÀI LIỆU THAM KHẢO 51 iv DANG MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU Chữ viết tắt Giải thích ANN Artificial Neural Network CNPM SIGCHI Hiệp hội công nghệ phần mềm CPU Central Processing Unit CSDL Cơ sở liệu FD – PSOLA Frequency Domain -Pitch Synchronous Overlap Add HCI Human Computer Interaction HMM Hidden Markov Model iOS iphone Operating System LPC Lower Order Connection LP-PSOLA36 Linear Prediction - Pitch Synchronous Overlap Add MFCC Mel Frequency Cepstral Coeffcient PSOLA Pitch Synchronous Overlap Add TD – PSOLA Time Domain- Pitch Synchronous Overlap Add TTS Text To Speech VNPT Vietnam Posts Telecommunications v DANH MỤC CÁC HÌNH Số hình 1.1 Tên hình Mô hình xử lý thông tin ngƣời (do Card, Moran Newell đƣa năm 1983) Trang 1.2 Tƣơng tác ngƣời – máygiọngnói, cử chỉ, khuôn mặt 1.3 Dùnggiọng nói để lên thực đơn, điềukhiển robot chợ 1.4 Mô hình toán xử lý tiếng nói 1.5 Bộ phân tích ngữ âm 1.6 Nhậndạnggiọng nói qua tƣơng tác máytính 10 1.7 Các phần tử hệ thống nhậndạng tiếng nói 13 1.8 Điềukhiểnmáytínhgiọng nói qua phần mềm PC tohuman 14 1.9 Điềukhiển điện thoại giọng nói 14 1.10 Lƣu đồ thuật toán xét văn 15 1.11 Sự biến đổi tần số từ 16 1.12 Sơ đồ thuật toán chuyển đổi ký tự sang âm 18 1.13 Bộ tổng hợp tiếng nói 19 1.14 Mô hình thích ứng tiếng nói 23 1.15 Điềukhiểngiọng nói với máytính bảng 24 1.16 Soạn thảo văn giọng nói Google Dos 26 vi 2.1 Mô hình mạng Neuron 33 2.2 Sơ đồ tổng quan hệ thống nhậndạng 37 2.3 Sơ đồ khối mô tả hệ thống nhậndạng tiếng nói 37 3.1 Giao diện chƣơng trình 42 3.2 Giao diện mô 43 3.3 Dữ liệu data tập huấn luyện 43 3.4 Dữ liệu đƣợc huấn luyện 44 3.5 Thu tín hiệu dùng để huấn luyện nhậndạng 44 3.6 Kết mô 44 vii DANH MỤC CÁC BẢNG Số bảng Tên bảng Trang Kết nhậndạng huấn luyện mạng dùng LPC 46 Kết với từ vựng điềukhiển 47 viii MỞ ĐẦU Công nghệ thông tin giữ vai trò quan trọng không ngành công nghiệp, quân sự, nghiên cứu, giải trí…mà đời sống nhu cầu ngày ngƣời Có nhiều chuyên ngành khác công nghệ công tin, giao tiếp ngƣời máy phƣơng pháp đƣợc quan tâm có nhiều ứngdụng thực tiễn Cùng với phát triển không ngừng công nghệ, ngƣời giao tiếp với máytính thông qua nhiều phƣơng tiện hỗ trợ nhƣ: hình cảm ứng, thiết bị thu hình, thiết bị thu âm… Trong tiếng nói cách thức giao tiếp ngƣời, sử dụng lời nói cách diễn đạt hiệu Ngày nay, với phát triển khoa học kỹ thuật công nghệ, đặc biệt lĩnh vực tin học, nhu cầu giao tiếp với thiết bị máytính tiếng nói cần thiết hỗ trợ ngƣời nhiều ứngdụng Vì nghiêncứunhậndạnggiọng nói tƣơng tác ngƣời – máy đƣợc nhiều nhà nghiêncứu quan tâm,nó cho phép ngƣời tƣơng tác với máy dễ dàng thuận tiện mà không cần sử dụng phƣơng pháp tƣơng tác thông thƣờng nhƣ bàn phím, chuột… Về mặt kinh tế thƣơng mại, việc nhậndạng tiếng nói thay đổi cách ngƣời tƣơng tác với hệ thống thiết bị, không bị bó buộc cách tƣơng tác truyền thống nhƣ thông qua bàn phím máytính hay điện thoại mà chuyển sang tƣơng tác trực tiếp giọng nói Về mặt nghiêncứu khoa học, hệ thống nhậndạng tiếng nói dựa phƣơng pháp thống kê so khớp mẫu Phƣơng pháp đòi hỏi lƣợng kiến thức ngữ âm liệu huấn luyện lớn, bao gồm dạng âm dạng văn bản, để huấn luyện nhậndạng Lƣợng liệu huấn luyện lớn, nhậndạng có nhiều khả đƣa kết xác Việc nghiêncứu phƣơng pháp nhậndạnggiọng nói thu hút nhiều đầu tƣ nghiêncứu nhà khoa học khắp giới Trên giới có có nhiều công trình nghiêncứuứngdụng vấn đề với nhiều phƣơng pháp nhậndạng tiếng nói khác Và nghiêncứu có thành công đáng kể nhƣ: Via Voice Mellennium (IBM), Via Voice Standrad (IBM), nhậndạng tiếng Anh, số hệ thống nhậndạng tiếng nói ngôn ngữ khác nhƣ Trung Quốc, Ý, Đức… Nghiêncứunhậndạng tiếng nói đƣợc ứngdụng để đáp ứng nhu cầu thiết yếu ngƣời xã hội đem lại nhiều thuận lợi cho ngƣời nhiều lĩnh vực đời sống nhƣ: - Cải thiện hiệu nhập thông tin: nhập tiếng nói nhanh gấp lần nhập gõ phím - Những ứngdụng sử dụng đến đôi tay (trong phòng tối, buồng lái) - Giúp cho ngƣời khiếm thị giao tiếp dễ dàng với thiết bị - Lĩnh vực chuyển đổi tín hiệu: Chuyển đổi lời nói thành văn - Lĩnh vực nhận diện: Hệ thống mật mã giọng nói - Các lĩnh vực y tế, quân sự… Với mong muốn hiểu rõ cách thức giao tiếp ngƣời máy tính, học viên lựa chọn đề tài: “Nghiên cứu số kĩ thuật nhậndạng tiếng nói,ápdụng việc điềukhiển chương trình máy tính" dƣới hƣớng dẫn khoa học TS Hồ Thị Hƣơng Thơm để nghiêncứu tìm hiểu hệ thống với mục tiêu, phƣơng pháp cụ thể nhƣ sau: Mục tiêu đề tài Mục tiêu đề tài nghiêncứunhậndạnggiọngnói,ứngdụng tƣơng tác điềukhiển chƣơng trình máytính Đối tượng phạm vi nghiêncứu Đối tƣợng nghiêncứu đề tài: - Xử lý âm giọng nói - Nhậndạnggiọng nói Phạm vi nghiên cứu: - Âm giọng nói đƣợc đƣa vào dƣới dạng file wav từ thiết bị thu - Dựa vào tập âm giọng nói vào phân loại thành tập lệnh tƣơng ứng tƣơng tác với máytính tham số LPC trải qua vài xử lý trƣớc đƣợc đƣa tới đầu vào nhậndạng Phân tích tín hiệu tiếng nói phƣơng pháp LPC đƣợc thực qua bƣớc sau: - Cải thiện tín hiệu (preemphasis): Tín hiệu tiếng nói s(n) đƣợc đƣa qua hệ thống số bậc thấp (chẳng hạn nhƣ lọc FIR bậc thấp) để làm phẳng phổ với điều kiện hệ thống ổn định thích nghi chậm - Cắt khung (frame blocking) : Tín hiệu tiếng nói sau cải thiện đƣợc chia thành L khung - N mẫu, mẫu kế cận đƣợc phân tách M mẫu - Cửa sổ (windows): đƣợc đƣa qua hàm cửa sổ để tối thiểu hoá số điểm gián đoạn vị trí bắt đầu kết thúc khung - Phân tích tự tƣơng quan: khung đƣợc phân tích tự tƣơng quan, kết ta đƣợc giá trị tƣơng quan cao đƣợc gọi bậc phân tích LPC Thông thƣờng nhận giá trị từ đến 16 - Phân tích LPC: sử dụng thuật toán Durbin để chuyển đổi hệ số tự tƣơng quan thành tập tham số LPC - Chuyển đổi tham số LPC thành hệ số phân tích phổ Trong thực nghiệm ta chọn 12 hệ số cepstral để làm đặc trƣng tín hiệu 2.2.5.2 Mô tả mạng nơ ron nhậndạng - Phƣơng án lựa chọn số nút lớp mạng: theo kinh nghiệm chuyên gia mạng nơ ron toán phân lớp có sử dụng mạng lan truyền ngƣợc hƣớng, sử dụng lớp tính toán lớp mạng Kohonen làm lớp ẩn Ta xác định số nơ ron cho lớp + Số nơron lớp vào = số chiều vector vào, ta chọn 12 hệ số cepstral đặc trƣng mẫu, mẫu đƣợc xử lý L khung tiếng nói, số nơ ron lớp vào 12*L, ví dụ sử dụng frames/mẫu số nơ ron lớp vào 60 38 + Số nơron lớp Kohonen = số giá trị tập trả lời Ví dụ cần nhậndạng 10 từ từ đƣợc mô tả vector vào 60 thành phần, lớp ẩn cần lƣu trữ lời giải 600, cần số nơ ron lớp ẩn 625 nơ ron (ma trận nơron kích thƣớc 25x25) + Số nơron lớp = số lƣợng kết đầu ra, sử dụng phƣơng pháp mã hoá số bit biểu diễn số lƣợng kết quả, ví dụ cần nhậndạng 128 từ cần nơron lớp ra, nơron cho phép mã hoá 27 = 128 giá trị - Phƣơng pháp học cạnh tranh lớp ẩn trình học có đạo lớp mạng theo bƣớc sau: + Khởi tạo trọng số: thành phần ma trận trọng số đƣợc khởi tạo giá trị ngẫu nhiên + Đọc tín hiệu vào cho mạng: liệu file mẫu chứa thông tin mẫu học cho kết gồm thành phần: mảng chiều chứa vector tín hiệu vào mảng chiều chứa ma trận trọng số liên kết ban đầu lớp Kohonen + Hiệu chỉnh ma trận trọng số lớp Kohonen: hiệu chỉnh trọng số liên kết nơron lớp ẩn Kohonen cho mạng học mẫu tốt Từ mảng chiều chứa vector tín hiệu vào, mảng hai chiều chứa ma trận trọng số liên kết lớp ẩn số học amin, amax, tmax chức phải xác định mảng hai chiều chứa ma trận trọng số liên kết lớp ẩn theo công thức (2.16) HidWeight =HidWeight + rate(t)topo(Winner, i)(InVec(j) - HidWeight + Hiệu chỉnh ma trận trọng số lớp ra: hiệu chỉnh trọng số liên kết nơ ron lớp để tạo bảng tra cứu Từ mảng chiều chứa vector tín hiệu mảng hai chiều chứa ma trận trọng số liên kết lớp chức phải xác định mảng hai chiều chứa ma trận trọng số liên kết lớp cách hiệu chỉnh ma trận trọng số liên kết lớp theo công thức: OutWeight =OutVec(k) (2.17) 2.2.5.3 Phƣơng pháp nhậndạng Trích đặc trƣng LPC Bƣớc 1: Lọc nhiễu, sử dụng lọc thông cao có hàm truyền: 39 𝐻(𝑠) = s (2.18) s+ 𝑤 𝑐 với tần số cắt dƣới 300 Hz để lọc nhiễu tần số thấp microphone gây Bƣớc 2: Pre-emphasis, sử dụng lọc thông cao có đáp ứng xung: y(n) = x(n) – a*x(n-1) với 0.9 ≤ a ≤ (2.19) Bƣớc 3: Tách điểm đầu cuối từ dùng hàm lƣợng thời gian ngắn: m+N-1 Em = ∑[x(n)*w(n−m)] (2.20) n=m Bƣớc 4: Phân đoạn thành frame (frame khác với frame giai đoạn tìm điểm đầu điểm cuối), frame có N mẫu, độ chồng lấp M mẫu M = 1N (2.21) Bƣớc5:Cửasổhóa.Hàmcửasổthôngdụngnhất làcửasổHammingđƣợcđịnhnghĩanhƣsau: 0.54 − 0.46 𝑐𝑜𝑠(2𝑛𝜋/𝑀) ≤ n ≤ M (2.22) 𝑛 Ɇ [0, 𝑀] Bƣớc 6: Xác định hệ số dự báo tuyến tínhdùng thuật toán LevinsonDurbin Bƣớc 7: Chuyển hệ số dự báo tuyến tính thành hệ số cepstral 𝑤 𝑛 = m-1 cm =a m + 1∑kckam−kvới1≤m≤P (2.23) m k=1 m-1 Và c m =1 ∑kckam−kvớim > p k k=1 Cáchệsốcepstralnàycóđộtậptrungcaohơnvà báotuyếntính.Thông thƣờngchọnQ=3/2P Bƣớc 8: Chuyển sang cepstral có trọng số: 40 (2.24) đángtincậysovớicáchệsố dự c’m =wmcmvới1≤m≤Q (2.25) Hàm trọng số thích hợp lọc thông dải (trong miền cepstral) 𝑊𝑚 = + 𝑄 sin[ 𝜋𝑛 ] 1≤ m ≤ Q (2.26) 𝑄 Bƣớc 9: Tính đạo hàm cepstral 𝐷𝑐 𝑚 (𝑡 ) 𝑑𝑡 = ∆c m(t)≈ µ 𝑘 𝑘𝑐𝑘(t+k) 𝑘 =−𝐾 (2.27) với µ số chuẩn (2K+1) số lƣợng frame cần tính K= giá trị thích hợp để tính đạo hàm cấp Vectơ đặc trƣng tín hiệu gồm Q hệ số cepstral Q hệ số đạo hàm cepstral Quá trình nhậndạng tiếng nói đƣợc thực qua bƣớc: + Đọc tín hiệu vào: đọc liệu từ file wav từ buffer liệu âm + Xử lý tín hiệu giống nhƣ chức phân tích LPC + Đọc ma trận trọng số liên kết lớp ẩn lớp mạng + Xác định nơron trung tâm + Tra cứu kết quả: tra cứu đồ topo mạng nơron để đƣa giá trị cần nhậndạng Ta có: - Đầu vào: Là tín hiệu tiếng nói, tín hiệu trực tiếp từ micro hay tín hiệu từ file âm (ví dụ *.wav) File wave chứa liệu tín hiệu tiếng nói cần nhậndạng file dat chứa thông tin trọng số liên kết nơron lớp ẩn lớp Ngoài đầu vào nguồn âm từ micro thông qua sound card để làm, lúc liệu tiếng nói đƣợc đọc buffer liệu Windows - Phần thực tính toán: Xử lý tín hiệu đầu vào với công cụ mạng neuron nhằm thực hai nhiệm vụ: tích luỹ mạng nơron để tăng dần tínhnhận dạng, định xem tín hiệu thuộc âm - Đầu ra: kết cần nhậndạng 41 CHƢƠNG 3: CÀI ĐặT THử NGHIệM VÀ ứNGDụNGTrên sở số kỹ thuật nhậndạng đƣợc trình bày chƣơng 2, chƣơng thực đề mô chƣơng trình, cài đặt, thử nghiệm đánh giá kết nhậndạnggiọng nói phƣơng pháp mạng nơron 3.1 Môi trƣờng thử nghiệm - Ngôn ngữ cài đặt: Ngôn ngữ lập trình Matlab phiên 2015b - Môi trƣờng soạn thảo: Matlab phiên 2015b - Môi trƣờng chạy chƣơng trình: Môi trƣờng giao diện Matlab phiên 2015b - Cần khoảng 8GB ổ C Sử dụng hệ điều hành tối thiểu để cài đặt Matlab hệ điều hành Window7, Window Vista WinNT 3.2 Mô chƣơng trình Sau số cửa sổ giao diện chƣơng trình Cửa số chƣơng trình (hình 3.1) Các hình ví dụ minh họa chi tiết thực số chức nhậndạnggiọng nói cụ thể: Hình 3.1 Giao diện chƣơng trình 42 Sơ đồ hoạt động chƣơng trình: Đây giao diện mô nhận dạng, liệu huấn luyện kết huấn luyện Hình 3.2 Giao diện mô Hình 3.3 Dữ liệu data tập huấn luyện 43 Hình 3.4: Dữ liệu đƣợc huấn luyện Hình 3.5 Thu tín hiệu dùng để huấn luyện nhậndạng Hình 3.6 Kết mô 44 3.3.Thử nghiệm đánh giá kết 3.3.1 Tập liệu thử nghiệm Tập liệu tiếng nói dùng để thử nghiệm bao gồm tệp tiếng nói: tệp chữ số, tệp từ vựng điều khiển, tệp từ ghép điềukhiển Mỗi từ đƣợc thử nghiệm 10 lần Tín hiệu tiếng nói đƣợc trích đặc trƣng phƣơng pháp LPC.Trục dọc chữ số đọc để nhận dạng, số kết nhậndạng thể đƣờng chéo, trục ngang thể số lần số nhậndạng sai 3.3.2 Thực thử nghiệm Tiến hành thử nghiệm để nhậndạng cho tập liệu (gồm tệp),các file âm đƣợc định dạng (*.wav) Thực nghiệm môi trƣờng nhiễu (trong phòng có tiếng quạt máy nói chuyện từ xa )sau đánh giá chất lƣợng tín hiệu tiếng nói sau nhậndạng mạng nơron ta đƣợckết nhƣ sau: - Với tệp chữ số : 1,2,3,4,5,6,7,8,9 45 10 10 2 10 6 7 1 1 9 10 Độ chínhxáctrungbình:86,6% Bảng 1: Kết nhậndạng huấn luyện mạng dùng LPC Ví dụ đọc nhậndạng 10 lần số 1, nhậndạng 10 lần Nhậndạng sai thành số lần Trong cách nhậndạngdùng phƣơng pháp LPC, ta thấy có số từ có phát âm gần giống bị nhầm lẫn nhiều Ví dụ, từ “một” “bốn” ; “hai” “bảy”, “năm” “tám” Còn từ “một” “hai” cho kết xác 100% Ƣu điểm mạng nơron nhậndạng tiếng nói Thứ mặt tốc độ huấn luyện nhƣ tốc độ nhận dạng, mạng nơron tỏ vƣợt trội Thứ hai ƣu việc mở rộng từ vựng , đƣợc phát triển thêm cho nhậndạng từ điềukhiển dƣới - Với từ vựng điều khiển: lên, xuống, trái, phải, trên, dƣới 46 Lên Lên Xuống Xuống Trái Phải Trên Dƣới 10 10 Trái Phải 10 Trên 10 Dƣới Độ chínhxáctrungbình:90% Bảng 2: Kết với từ vựng điềukhiển Các kết khảo sát cho thấy việc nhậndạng có độ xác cao.Các từ có phụ âm giống nhau, nhƣ từ “một” “bốn”, “trái” “phải” thƣờng bị nhầm lẫn Khi tăng số từ nhậndạng lên, kết đi, với chƣơng trình số từ nhậndạng tốt dƣới từ Với từ khác nhiều, kết thu đƣợc tốt, thƣờng 70% Kết tốt nhƣ ngƣời huấn luyện ngƣời phát âm để nhận dạng, ngƣời huấn luyện ngƣời “ra lệnh” có giọng khác kết nhậndạng giảm rõ rệt 2.4.5.4 Ƣu nhƣợc điểm mạng nơ ron nhậndạng tiếng nói Ƣu điểm: Mạng nơ ron có khả miễn nhiễu chịu sai hỏng cao, chẳng hạn mạng nhận liệu bị sai lệch không đầy đủ mà hoạt động đƣợc Mạng nơ ron có khả thích ứng, “học” “điều chỉnh” trình hoạt động, điểm đáng ý mạng nơ ron 47 nhậndạng tiếng nói nhằm nâng cao khả nhậndạng hoạt động Có khả quát hóa tốt phân lớp mạng Phƣơng pháp LPC đƣợc sử dụng rộng rãi xử lý tiếng nói cung cấp mô hình lý tƣởng cho tín hiệu tiếng nói LPC tƣơng đối đơn giản, dễ thực phần cứng phần mềm mà đảm bảo độ xác.Mạng nơron nhậndạng tiếng nói có kết cao mặt tốc độ huấn luyện nhƣ tốc độ nhận dạng, việc mở rộng từ vựng Nhƣợc điểm: Hiệu mạng nơ ron phụ thuộc vào liệu huấn luyện Để đảm bảo hiệu mạng cần đƣợc huấn luyện với liệu lớn, nên trình huấn luyện dài Nếu liệu đƣợc chuẩn bị không tốt mạng có khả tổng quát hóa thấp LPC có nhƣợc điểm không giải đƣợc vấn đề tính chất động môn, làm giảm hiệu hệ thống nhận dạng, đặc biệt hệ thống độc lập ngƣời nói 48 KẾT LUẬN Ứngdụngnhậndạng tiếng nói đƣợc nhiều hƣớng nghiêncứu phát triển mang lại nhiều kết khả quan Kết độ xác trung bình ứngdụngnhậndạng phƣơng pháp mạng nơron qua kiểm tra khoảng 80% Với kết ứngdụngứngdụng vào nhiều dịch vụ thực tế mở rộng nhậndạng cho tập từ vựng khác Tuy nhiên số hạn chế công nghệ nhậndạng tiếng nói là:Việc nhậndạng với từ đơn, phụ thuộc vào khác âm nhấn từ, nên với cách tiếp cận nhƣ vốn từ vựng nhiều; nâng số từ lên, giống từ tránh khỏi Nhậndạng xác hoạt động môi trƣờng yên lặng tiếng ồn xung quanh, cách phát âm từ ngữ cần nhậndạng phải Tiếng Việt chuẩn Do việc thu âm xử lý liệu chƣa đƣợc phong phú nên kết nhậndạng chƣa đƣợc tốt Việc đƣợc khắc phục cách thu nhiều mẫu hơn, huy động thêm ngƣời tình nguyện để thu âm, thu âm theo vùng miền (Bắc, Trung, Nam), thu âm theo độ tuổi khác nhau, thu âm theo giới tính,… Với tảng kiến thức đƣợc nghiêncứu kết luận văn, số định hƣớng phát triển thêm tƣơng lai nhƣ: Tìm hiểu thêm mô hình ngôn ngữ thuật toán khác tìm kiếm nhậndạng tiếng nói để tăng tốc độ nhậndạng Nghiêncứu trình xử lý tiếng nói để tách đƣợc tiếng nói môi trƣờng nhiễu tiếng ồn lớn Phát triển hệ thống nhậndạng từ liên tục Qua thời gian học tập nghiêncứu vừa qua, với hƣớng dẫn, dạy giúp đỡ tận tình thầy TS Hồ Thị Hƣơng Thơm, học viên hoàn thành luận văn Mặc dù cách tiếp nhận giải vấn đề học 49 viên chƣa thực sâu sắc nhiều hạn chế, cộng thêm thiếu sót tránh khỏi trình viết luận văn, học viên cố gắng để làm bật lên nội dung đề tài Vì vậy, học viên mong nhận đƣợc thông cảm ý kiến đóng góp từ phía thầy cô toàn thể anh chị để học viên hoàn thiện luận văn có hƣớng phát triển thời gian tới Một lần nữa, học viên xin chân thành cảm ơn! 50 TÀI LIỆU THAM KHẢO [1].Giáo trình tƣơng tác ngƣời – máy Lƣơng Mạnh Bá – Nhà xuất Khoa Học Kỹ Thuật Hà Nội [2].[https://tinhte.vn/threads/cong-nghe-nhan-dang-va-xu-ly-giong-noi-tuonglai-cua-viec-nhap-lieu-tren-thiet-bi-di-dong.2319727/] [3].[http://vietbao.vn/Vi-tinh-Vien-thong/Dieu-khien-may-tinh-bang-giongnoi/45128384/217/] [4].[http://tailieu.vn/doc/Ly thuyet mang neuron va Ungdungnhandang tieng noi/1520829/] [5].Frederico Rodrigues, Ricardo Rodrigues, Ciro Martins: An Isolated Letter Recognizer for Proper Name Identification Over the Telephone; INESC Instituto de Engenharia de Sistemas e Computadores [6].Goel, S Garg, V Ranjan, P Rao, S Bhattacharya, M : ASR System Integration with Asterisk for SIP or IAX Softphone Clients Dept of Inf Technol., Indian Inst of Inf Technol & Manage., Gwalior, India [7].Alexandre Maciel, Weber Campos, Clêunio França, Edson Carvalho, SPEAKER VERIFICATION SYSTEM THROUGH TELEPHONE CHANNEL An integrated system for telephony plataform Asterisk; Informatics Center, Federal University of Pernambuco, Recife, Brazil [8].Theodore Wallingford, VoIP Hacks, O'Reilly Media, CA 95472, 2006 [9].Jim Van Meggelen, Jared Smith, Leif Madsen, “Asterisk: The Future of Telephony” O'Reilly Media, May 2011 51 52 ... ngƣời - máy, số sở lý thuyết âm giọng nói, nhận dạng giọng nói, ứng dụng nhận dạng giọng nói thực tế điều khiển máy tính Chƣơng 2: Một số phƣơng pháp nhận dạng giọng nói: vào nghiên cứu cụ thể... thực đề tài:“NGHIÊN CỨU NHẬN DẠNG GIỌNG NÓI, ÁP DỤNG ĐIỀU KHIỂN ỨNG DỤNG HOẶC TRÒ CHƠI TRÊN MÁY TÍNH” Học viên xin cảm ơn Trƣờng Đại học Hàng Hải, thầy cô Viện đào tạo sau Đại họcđã tạo điều kiện... giọng nói, ứng dụng tƣơng tác điều khiển chƣơng trình máy tính Đối tượng phạm vi nghiên cứu Đối tƣợng nghiên cứu đề tài: - Xử lý âm giọng nói - Nhận dạng giọng nói Phạm vi nghiên cứu: - Âm giọng nói