Nghiên cứu nhận dạng giọng nói, áp dụng điều khiển ứng dụng hoặc trò chơi trên máy tính

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	60
Dung lượng	1,71 MB

Nội dung

LỜI CAM ĐOAN Học viên xin cam đoan công trình nghiên cứu riêng dƣới hƣớng dẫn khoa học TS Hồ Thị Hƣơng Thơm Các nội dung nghiên cứu, kết nêu luận văn trung thực chƣa đƣợc công bố công trình khác Các thông tin sử dụng luận văn có nguồn gốc đƣợc trích dẫn rõ ràng Học viên xin hoàn toàn chịu trách nhiệm tính xác thực nguyên luận văn Hải Phòng, ngày 10 tháng 03 năm 2016 Học viên Nguyễn Thị Huyền Thanh i LỜI CẢM ƠN Trong suốt trình học tập nghiên cứu học viên nhận đƣợc nhiều giúp đỡ thầy cô, bạn bè gia đình Học viên xin bày tỏ lòng biết ơn sâu sắc chân thành cảm ơn TS Hồ Thị Hƣơng Thơm tận tâm bảo, hƣớng dẫn giúp đỡ suốt thời gian thực đề tài:“NGHIÊN CỨU NHẬN DẠNG GIỌNG NÓI, ÁP DỤNG ĐIỀU KHIỂN ỨNG DỤNG HOẶC TRÒ CHƠI TRÊN MÁY TÍNH” Học viên xin cảm ơn Trƣờng Đại học Hàng Hải, thầy cô Viện đào tạo sau Đại họcđã tạo điều kiện tốt cho tất học viên đƣợc học tập nghiên cứu trƣờng Học viên xin cảm ơn đồng nghiệp thành viên gia đình động viên, ủng hộ, chia sẻ giúp học viên tập trung nghiên cứu hoàn thành luận văn Học viênxin kính chúc thầy cô luôn mạnh khỏe để tiếp tục thực sứ mệnh cao đẹp nghiệp giáo dục Xin chân thành cảm ơn! Học viên Nguyễn Thị Huyền Thanh ii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANG MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU v DANH MỤC CÁC HÌNH vi DANH MỤC CÁC BẢNG viii MỞ ĐẦU CHƢƠNG GIỚI THIỆU KHÁI NIỆM TỔNG QUAN 1.1 Khái niệm tƣơng tác ngƣời máy 1.2 Cơ sở lý thuyết âm giọng nói 1.2.1 Giới thiệu xử lý giọng nói 1.2.2 Chuyển đổi văn thành giọng nói 1.3 Nhận dạng giọng nói 10 1.3.1 Giới thiệu nhận dạng tiếng nói 10 1.3.2 Phân loại hệ thống nhận dạng tiếng nói 13 1.4 Quá trình xử lý giọng nói 15 1.4.1 Phân tích ngữ âm văn 15 1.4.2 Chuyển đổi ký tự sang âm 17 1.5 Tổng hợp tiếng nói 19 1.6 Kỹ thuật thích ứng tiếng nói 22 1.7.Ứng dụng nhận dạng giọng nói thực tế điều khiển máy tính 23 CHƢƠNG MỘT SỐ PHƢƠNG PHÁP NHẬN DẠNG GIỌNG NÓI 27 2.1 Phƣơng pháp mô hình độ tƣơng quan 27 2.1.1 Vị trí trình tự biến 28 iii 2.1.2 Miêu tả thành phần vector tham số phổ độc lập 29 2.1.3 Kiểu nhận dạng 29 2.2 Phƣơng pháp mạng nơron 31 2.2.1 Giới thiệu mạng nơron nhân tạo 32 2.2.2 Mô hình mạng nơron 32 2.2.3 Xử lý tín hiệu tiếng nói 34 2.2.4 Quá trình nhận dạng 34 2.2.5 Nhận dạng tiếng nói mạng nơron 37 CHƢƠNG CÀI ĐẶT, THỬ NGHIỆM VÀ ỨNG DỤNG 42 3.1 Môi trƣờng thử nghiệm 42 3.2 Mô chƣơng trình 42 3.3 Thử nghiệm đánh giá kết 45 KẾT LUẬN 49 TÀI LIỆU THAM KHẢO 51 iv DANG MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU Chữ viết tắt Giải thích ANN Artificial Neural Network CNPM SIGCHI Hiệp hội công nghệ phần mềm CPU Central Processing Unit CSDL Cơ sở liệu FD – PSOLA Frequency Domain -Pitch Synchronous Overlap Add HCI Human Computer Interaction HMM Hidden Markov Model iOS iphone Operating System LPC Lower Order Connection LP-PSOLA36 Linear Prediction - Pitch Synchronous Overlap Add MFCC Mel Frequency Cepstral Coeffcient PSOLA Pitch Synchronous Overlap Add TD – PSOLA Time Domain- Pitch Synchronous Overlap Add TTS Text To Speech VNPT Vietnam Posts Telecommunications v DANH MỤC CÁC HÌNH Số hình 1.1 Tên hình Mô hình xử lý thông tin ngƣời (do Card, Moran Newell đƣa năm 1983) Trang 1.2 Tƣơng tác ngƣời – máy giọng nói, cử chỉ, khuôn mặt 1.3 Dùng giọng nói để lên thực đơn, điều khiển robot chợ 1.4 Mô hình toán xử lý tiếng nói 1.5 Bộ phân tích ngữ âm 1.6 Nhận dạng giọng nói qua tƣơng tác máy tính 10 1.7 Các phần tử hệ thống nhận dạng tiếng nói 13 1.8 Điều khiển máy tính giọng nói qua phần mềm PC tohuman 14 1.9 Điều khiển điện thoại giọng nói 14 1.10 Lƣu đồ thuật toán xét văn 15 1.11 Sự biến đổi tần số từ 16 1.12 Sơ đồ thuật toán chuyển đổi ký tự sang âm 18 1.13 Bộ tổng hợp tiếng nói 19 1.14 Mô hình thích ứng tiếng nói 23 1.15 Điều khiển giọng nói với máy tính bảng 24 1.16 Soạn thảo văn giọng nói Google Dos 26 vi 2.1 Mô hình mạng Neuron 33 2.2 Sơ đồ tổng quan hệ thống nhận dạng 37 2.3 Sơ đồ khối mô tả hệ thống nhận dạng tiếng nói 37 3.1 Giao diện chƣơng trình 42 3.2 Giao diện mô 43 3.3 Dữ liệu data tập huấn luyện 43 3.4 Dữ liệu đƣợc huấn luyện 44 3.5 Thu tín hiệu dùng để huấn luyện nhận dạng 44 3.6 Kết mô 44 vii DANH MỤC CÁC BẢNG Số bảng Tên bảng Trang Kết nhận dạng huấn luyện mạng dùng LPC 46 Kết với từ vựng điều khiển 47 viii MỞ ĐẦU Công nghệ thông tin giữ vai trò quan trọng không ngành công nghiệp, quân sự, nghiên cứu, giải trí…mà đời sống nhu cầu ngày ngƣời Có nhiều chuyên ngành khác công nghệ công tin, giao tiếp ngƣời máy phƣơng pháp đƣợc quan tâm có nhiều ứng dụng thực tiễn Cùng với phát triển không ngừng công nghệ, ngƣời giao tiếp với máy tính thông qua nhiều phƣơng tiện hỗ trợ nhƣ: hình cảm ứng, thiết bị thu hình, thiết bị thu âm… Trong tiếng nói cách thức giao tiếp ngƣời, sử dụng lời nói cách diễn đạt hiệu Ngày nay, với phát triển khoa học kỹ thuật công nghệ, đặc biệt lĩnh vực tin học, nhu cầu giao tiếp với thiết bị máy tính tiếng nói cần thiết hỗ trợ ngƣời nhiều ứng dụng Vì nghiên cứu nhận dạng giọng nói tƣơng tác ngƣời – máy đƣợc nhiều nhà nghiên cứu quan tâm,nó cho phép ngƣời tƣơng tác với máy dễ dàng thuận tiện mà không cần sử dụng phƣơng pháp tƣơng tác thông thƣờng nhƣ bàn phím, chuột… Về mặt kinh tế thƣơng mại, việc nhận dạng tiếng nói thay đổi cách ngƣời tƣơng tác với hệ thống thiết bị, không bị bó buộc cách tƣơng tác truyền thống nhƣ thông qua bàn phím máy tính hay điện thoại mà chuyển sang tƣơng tác trực tiếp giọng nói Về mặt nghiên cứu khoa học, hệ thống nhận dạng tiếng nói dựa phƣơng pháp thống kê so khớp mẫu Phƣơng pháp đòi hỏi lƣợng kiến thức ngữ âm liệu huấn luyện lớn, bao gồm dạng âm dạng văn bản, để huấn luyện nhận dạng Lƣợng liệu huấn luyện lớn, nhận dạng có nhiều khả đƣa kết xác Việc nghiên cứu phƣơng pháp nhận dạng giọng nói thu hút nhiều đầu tƣ nghiên cứu nhà khoa học khắp giới Trên giới có có nhiều công trình nghiên cứu ứng dụng vấn đề với nhiều phƣơng pháp nhận dạng tiếng nói khác Và nghiên cứu có thành công đáng kể nhƣ: Via Voice Mellennium (IBM), Via Voice Standrad (IBM), nhận dạng tiếng Anh, số hệ thống nhận dạng tiếng nói ngôn ngữ khác nhƣ Trung Quốc, Ý, Đức… Nghiên cứu nhận dạng tiếng nói đƣợc ứng dụng để đáp ứng nhu cầu thiết yếu ngƣời xã hội đem lại nhiều thuận lợi cho ngƣời nhiều lĩnh vực đời sống nhƣ: - Cải thiện hiệu nhập thông tin: nhập tiếng nói nhanh gấp lần nhập gõ phím - Những ứng dụng sử dụng đến đôi tay (trong phòng tối, buồng lái) - Giúp cho ngƣời khiếm thị giao tiếp dễ dàng với thiết bị - Lĩnh vực chuyển đổi tín hiệu: Chuyển đổi lời nói thành văn - Lĩnh vực nhận diện: Hệ thống mật mã giọng nói - Các lĩnh vực y tế, quân sự… Với mong muốn hiểu rõ cách thức giao tiếp ngƣời máy tính, học viên lựa chọn đề tài: “Nghiên cứu số kĩ thuật nhận dạng tiếng nói, áp dụng việc điều khiển chương trình máy tính" dƣới hƣớng dẫn khoa học TS Hồ Thị Hƣơng Thơm để nghiên cứu tìm hiểu hệ thống với mục tiêu, phƣơng pháp cụ thể nhƣ sau: Mục tiêu đề tài Mục tiêu đề tài nghiên cứu nhận dạng giọng nói, ứng dụng tƣơng tác điều khiển chƣơng trình máy tính Đối tượng phạm vi nghiên cứu Đối tƣợng nghiên cứu đề tài: - Xử lý âm giọng nói - Nhận dạng giọng nói Phạm vi nghiên cứu: - Âm giọng nói đƣợc đƣa vào dƣới dạng file wav từ thiết bị thu - Dựa vào tập âm giọng nói vào phân loại thành tập lệnh tƣơng ứng tƣơng tác với máy tính tham số LPC trải qua vài xử lý trƣớc đƣợc đƣa tới đầu vào nhận dạng Phân tích tín hiệu tiếng nói phƣơng pháp LPC đƣợc thực qua bƣớc sau: - Cải thiện tín hiệu (preemphasis): Tín hiệu tiếng nói s(n) đƣợc đƣa qua hệ thống số bậc thấp (chẳng hạn nhƣ lọc FIR bậc thấp) để làm phẳng phổ với điều kiện hệ thống ổn định thích nghi chậm - Cắt khung (frame blocking) : Tín hiệu tiếng nói sau cải thiện đƣợc chia thành L khung - N mẫu, mẫu kế cận đƣợc phân tách M mẫu - Cửa sổ (windows): đƣợc đƣa qua hàm cửa sổ để tối thiểu hoá số điểm gián đoạn vị trí bắt đầu kết thúc khung - Phân tích tự tƣơng quan: khung đƣợc phân tích tự tƣơng quan, kết ta đƣợc giá trị tƣơng quan cao đƣợc gọi bậc phân tích LPC Thông thƣờng nhận giá trị từ đến 16 - Phân tích LPC: sử dụng thuật toán Durbin để chuyển đổi hệ số tự tƣơng quan thành tập tham số LPC - Chuyển đổi tham số LPC thành hệ số phân tích phổ Trong thực nghiệm ta chọn 12 hệ số cepstral để làm đặc trƣng tín hiệu 2.2.5.2 Mô tả mạng nơ ron nhận dạng - Phƣơng án lựa chọn số nút lớp mạng: theo kinh nghiệm chuyên gia mạng nơ ron toán phân lớp có sử dụng mạng lan truyền ngƣợc hƣớng, sử dụng lớp tính toán lớp mạng Kohonen làm lớp ẩn Ta xác định số nơ ron cho lớp + Số nơron lớp vào = số chiều vector vào, ta chọn 12 hệ số cepstral đặc trƣng mẫu, mẫu đƣợc xử lý L khung tiếng nói, số nơ ron lớp vào 12*L, ví dụ sử dụng frames/mẫu số nơ ron lớp vào 60 38 + Số nơron lớp Kohonen = số giá trị tập trả lời Ví dụ cần nhận dạng 10 từ từ đƣợc mô tả vector vào 60 thành phần, lớp ẩn cần lƣu trữ lời giải 600, cần số nơ ron lớp ẩn 625 nơ ron (ma trận nơron kích thƣớc 25x25) + Số nơron lớp = số lƣợng kết đầu ra, sử dụng phƣơng pháp mã hoá số bit biểu diễn số lƣợng kết quả, ví dụ cần nhận dạng 128 từ cần nơron lớp ra, nơron cho phép mã hoá 27 = 128 giá trị - Phƣơng pháp học cạnh tranh lớp ẩn trình học có đạo lớp mạng theo bƣớc sau: + Khởi tạo trọng số: thành phần ma trận trọng số đƣợc khởi tạo giá trị ngẫu nhiên + Đọc tín hiệu vào cho mạng: liệu file mẫu chứa thông tin mẫu học cho kết gồm thành phần: mảng chiều chứa vector tín hiệu vào mảng chiều chứa ma trận trọng số liên kết ban đầu lớp Kohonen + Hiệu chỉnh ma trận trọng số lớp Kohonen: hiệu chỉnh trọng số liên kết nơron lớp ẩn Kohonen cho mạng học mẫu tốt Từ mảng chiều chứa vector tín hiệu vào, mảng hai chiều chứa ma trận trọng số liên kết lớp ẩn số học amin, amax, tmax chức phải xác định mảng hai chiều chứa ma trận trọng số liên kết lớp ẩn theo công thức (2.16) HidWeight =HidWeight + rate(t)topo(Winner, i)(InVec(j) - HidWeight + Hiệu chỉnh ma trận trọng số lớp ra: hiệu chỉnh trọng số liên kết nơ ron lớp để tạo bảng tra cứu Từ mảng chiều chứa vector tín hiệu mảng hai chiều chứa ma trận trọng số liên kết lớp chức phải xác định mảng hai chiều chứa ma trận trọng số liên kết lớp cách hiệu chỉnh ma trận trọng số liên kết lớp theo công thức: OutWeight =OutVec(k) (2.17) 2.2.5.3 Phƣơng pháp nhận dạng  Trích đặc trƣng LPC  Bƣớc 1: Lọc nhiễu, sử dụng lọc thông cao có hàm truyền: 39 𝐻(𝑠) = s (2.18) s+ 𝑤 𝑐 với tần số cắt dƣới 300 Hz để lọc nhiễu tần số thấp microphone gây  Bƣớc 2: Pre-emphasis, sử dụng lọc thông cao có đáp ứng xung: y(n) = x(n) – a*x(n-1) với 0.9 ≤ a ≤ (2.19)  Bƣớc 3: Tách điểm đầu cuối từ dùng hàm lƣợng thời gian ngắn: m+N-1 Em = ∑[x(n)*w(n−m)] (2.20) n=m  Bƣớc 4: Phân đoạn thành frame (frame khác với frame giai đoạn tìm điểm đầu điểm cuối), frame có N mẫu, độ chồng lấp M mẫu M = 1N (2.21)  Bƣớc5:Cửasổhóa.Hàmcửasổthôngdụngnhất làcửasổHammingđƣợcđịnhnghĩanhƣsau: 0.54 − 0.46 𝑐𝑜𝑠(2𝑛𝜋/𝑀) ≤ n ≤ M (2.22) 𝑛 Ɇ [0, 𝑀]  Bƣớc 6: Xác định hệ số dự báo tuyến tính dùng thuật toán LevinsonDurbin  Bƣớc 7: Chuyển hệ số dự báo tuyến tính thành hệ số cepstral 𝑤 𝑛 = m-1 cm =a m + 1∑kckam−kvới1≤m≤P (2.23) m k=1 m-1 Và c m =1 ∑kckam−kvớim > p k k=1 Cáchệsốcepstralnàycóđộtậptrungcaohơnvà báotuyếntính.Thông thƣờngchọnQ=3/2P  Bƣớc 8: Chuyển sang cepstral có trọng số: 40 (2.24) đángtincậysovớicáchệsố dự c’m =wmcmvới1≤m≤Q (2.25) Hàm trọng số thích hợp lọc thông dải (trong miền cepstral) 𝑊𝑚 = + 𝑄 sin[ 𝜋𝑛 ] 1≤ m ≤ Q (2.26) 𝑄  Bƣớc 9: Tính đạo hàm cepstral 𝐷𝑐 𝑚 (𝑡 ) 𝑑𝑡 = ∆c m(t)≈ µ 𝑘 𝑘𝑐𝑘(t+k) 𝑘 =−𝐾 (2.27) với µ số chuẩn (2K+1) số lƣợng frame cần tính K= giá trị thích hợp để tính đạo hàm cấp Vectơ đặc trƣng tín hiệu gồm Q hệ số cepstral Q hệ số đạo hàm cepstral  Quá trình nhận dạng tiếng nói đƣợc thực qua bƣớc: + Đọc tín hiệu vào: đọc liệu từ file wav từ buffer liệu âm + Xử lý tín hiệu giống nhƣ chức phân tích LPC + Đọc ma trận trọng số liên kết lớp ẩn lớp mạng + Xác định nơron trung tâm + Tra cứu kết quả: tra cứu đồ topo mạng nơron để đƣa giá trị cần nhận dạng Ta có: - Đầu vào: Là tín hiệu tiếng nói, tín hiệu trực tiếp từ micro hay tín hiệu từ file âm (ví dụ *.wav) File wave chứa liệu tín hiệu tiếng nói cần nhận dạng file dat chứa thông tin trọng số liên kết nơron lớp ẩn lớp Ngoài đầu vào nguồn âm từ micro thông qua sound card để làm, lúc liệu tiếng nói đƣợc đọc buffer liệu Windows - Phần thực tính toán: Xử lý tín hiệu đầu vào với công cụ mạng neuron nhằm thực hai nhiệm vụ: tích luỹ mạng nơron để tăng dần tính nhận dạng, định xem tín hiệu thuộc âm - Đầu ra: kết cần nhận dạng 41 CHƢƠNG 3: CÀI ĐặT THử NGHIệM VÀ ứNG DụNG Trên sở số kỹ thuật nhận dạng đƣợc trình bày chƣơng 2, chƣơng thực đề mô chƣơng trình, cài đặt, thử nghiệm đánh giá kết nhận dạng giọng nói phƣơng pháp mạng nơron 3.1 Môi trƣờng thử nghiệm - Ngôn ngữ cài đặt: Ngôn ngữ lập trình Matlab phiên 2015b - Môi trƣờng soạn thảo: Matlab phiên 2015b - Môi trƣờng chạy chƣơng trình: Môi trƣờng giao diện Matlab phiên 2015b - Cần khoảng 8GB ổ C Sử dụng hệ điều hành tối thiểu để cài đặt Matlab hệ điều hành Window7, Window Vista WinNT 3.2 Mô chƣơng trình Sau số cửa sổ giao diện chƣơng trình Cửa số chƣơng trình (hình 3.1) Các hình ví dụ minh họa chi tiết thực số chức nhận dạng giọng nói cụ thể: Hình 3.1 Giao diện chƣơng trình 42 Sơ đồ hoạt động chƣơng trình: Đây giao diện mô nhận dạng, liệu huấn luyện kết huấn luyện Hình 3.2 Giao diện mô Hình 3.3 Dữ liệu data tập huấn luyện 43 Hình 3.4: Dữ liệu đƣợc huấn luyện Hình 3.5 Thu tín hiệu dùng để huấn luyện nhận dạng Hình 3.6 Kết mô 44 3.3.Thử nghiệm đánh giá kết 3.3.1 Tập liệu thử nghiệm Tập liệu tiếng nói dùng để thử nghiệm bao gồm tệp tiếng nói: tệp chữ số, tệp từ vựng điều khiển, tệp từ ghép điều khiển Mỗi từ đƣợc thử nghiệm 10 lần Tín hiệu tiếng nói đƣợc trích đặc trƣng phƣơng pháp LPC.Trục dọc chữ số đọc để nhận dạng, số kết nhận dạng thể đƣờng chéo, trục ngang thể số lần số nhận dạng sai 3.3.2 Thực thử nghiệm Tiến hành thử nghiệm để nhận dạng cho tập liệu (gồm tệp),các file âm đƣợc định dạng (*.wav) Thực nghiệm môi trƣờng nhiễu (trong phòng có tiếng quạt máy nói chuyện từ xa )sau đánh giá chất lƣợng tín hiệu tiếng nói sau nhận dạng mạng nơron ta đƣợckết nhƣ sau: - Với tệp chữ số : 1,2,3,4,5,6,7,8,9 45 10 10 2 10 6 7 1 1 9 10 Độ chínhxáctrungbình:86,6% Bảng 1: Kết nhận dạng huấn luyện mạng dùng LPC Ví dụ đọc nhận dạng 10 lần số 1, nhận dạng 10 lần Nhận dạng sai thành số lần Trong cách nhận dạng dùng phƣơng pháp LPC, ta thấy có số từ có phát âm gần giống bị nhầm lẫn nhiều Ví dụ, từ “một” “bốn” ; “hai” “bảy”, “năm” “tám” Còn từ “một” “hai” cho kết xác 100% Ƣu điểm mạng nơron nhận dạng tiếng nói Thứ mặt tốc độ huấn luyện nhƣ tốc độ nhận dạng, mạng nơron tỏ vƣợt trội Thứ hai ƣu việc mở rộng từ vựng , đƣợc phát triển thêm cho nhận dạng từ điều khiển dƣới - Với từ vựng điều khiển: lên, xuống, trái, phải, trên, dƣới 46 Lên Lên Xuống Xuống Trái Phải Trên Dƣới 10 10 Trái Phải 10 Trên 10 Dƣới Độ chínhxáctrungbình:90% Bảng 2: Kết với từ vựng điều khiển Các kết khảo sát cho thấy việc nhận dạng có độ xác cao.Các từ có phụ âm giống nhau, nhƣ từ “một” “bốn”, “trái” “phải” thƣờng bị nhầm lẫn Khi tăng số từ nhận dạng lên, kết đi, với chƣơng trình số từ nhận dạng tốt dƣới từ Với từ khác nhiều, kết thu đƣợc tốt, thƣờng 70% Kết tốt nhƣ ngƣời huấn luyện ngƣời phát âm để nhận dạng, ngƣời huấn luyện ngƣời “ra lệnh” có giọng khác kết nhận dạng giảm rõ rệt 2.4.5.4 Ƣu nhƣợc điểm mạng nơ ron nhận dạng tiếng nói  Ƣu điểm:  Mạng nơ ron có khả miễn nhiễu chịu sai hỏng cao, chẳng hạn mạng nhận liệu bị sai lệch không đầy đủ mà hoạt động đƣợc  Mạng nơ ron có khả thích ứng, “học” “điều chỉnh” trình hoạt động, điểm đáng ý mạng nơ ron 47 nhận dạng tiếng nói nhằm nâng cao khả nhận dạng hoạt động  Có khả quát hóa tốt phân lớp mạng Phƣơng pháp LPC đƣợc sử dụng rộng rãi xử lý tiếng nói cung cấp mô hình lý tƣởng cho tín hiệu tiếng nói LPC tƣơng đối đơn giản, dễ thực phần cứng phần mềm mà đảm bảo độ xác.Mạng nơron nhận dạng tiếng nói có kết cao mặt tốc độ huấn luyện nhƣ tốc độ nhận dạng, việc mở rộng từ vựng  Nhƣợc điểm:  Hiệu mạng nơ ron phụ thuộc vào liệu huấn luyện Để đảm bảo hiệu mạng cần đƣợc huấn luyện với liệu lớn, nên trình huấn luyện dài Nếu liệu đƣợc chuẩn bị không tốt mạng có khả tổng quát hóa thấp  LPC có nhƣợc điểm không giải đƣợc vấn đề tính chất động môn, làm giảm hiệu hệ thống nhận dạng, đặc biệt hệ thống độc lập ngƣời nói 48 KẾT LUẬN Ứng dụng nhận dạng tiếng nói đƣợc nhiều hƣớng nghiên cứu phát triển mang lại nhiều kết khả quan Kết độ xác trung bình ứng dụng nhận dạng phƣơng pháp mạng nơron qua kiểm tra khoảng 80% Với kết ứng dụng ứng dụng vào nhiều dịch vụ thực tế mở rộng nhận dạng cho tập từ vựng khác Tuy nhiên số hạn chế công nghệ nhận dạng tiếng nói là:Việc nhận dạng với từ đơn, phụ thuộc vào khác âm nhấn từ, nên với cách tiếp cận nhƣ vốn từ vựng nhiều; nâng số từ lên, giống từ tránh khỏi Nhận dạng xác hoạt động môi trƣờng yên lặng tiếng ồn xung quanh, cách phát âm từ ngữ cần nhận dạng phải Tiếng Việt chuẩn Do việc thu âm xử lý liệu chƣa đƣợc phong phú nên kết nhận dạng chƣa đƣợc tốt Việc đƣợc khắc phục cách thu nhiều mẫu hơn, huy động thêm ngƣời tình nguyện để thu âm, thu âm theo vùng miền (Bắc, Trung, Nam), thu âm theo độ tuổi khác nhau, thu âm theo giới tính,… Với tảng kiến thức đƣợc nghiên cứu kết luận văn, số định hƣớng phát triển thêm tƣơng lai nhƣ:  Tìm hiểu thêm mô hình ngôn ngữ thuật toán khác tìm kiếm nhận dạng tiếng nói để tăng tốc độ nhận dạng  Nghiên cứu trình xử lý tiếng nói để tách đƣợc tiếng nói môi trƣờng nhiễu tiếng ồn lớn  Phát triển hệ thống nhận dạng từ liên tục Qua thời gian học tập nghiên cứu vừa qua, với hƣớng dẫn, dạy giúp đỡ tận tình thầy TS Hồ Thị Hƣơng Thơm, học viên hoàn thành luận văn Mặc dù cách tiếp nhận giải vấn đề học 49 viên chƣa thực sâu sắc nhiều hạn chế, cộng thêm thiếu sót tránh khỏi trình viết luận văn, học viên cố gắng để làm bật lên nội dung đề tài Vì vậy, học viên mong nhận đƣợc thông cảm ý kiến đóng góp từ phía thầy cô toàn thể anh chị để học viên hoàn thiện luận văn có hƣớng phát triển thời gian tới Một lần nữa, học viên xin chân thành cảm ơn! 50 TÀI LIỆU THAM KHẢO [1].Giáo trình tƣơng tác ngƣời – máy Lƣơng Mạnh Bá – Nhà xuất Khoa Học Kỹ Thuật Hà Nội [2].[https://tinhte.vn/threads/cong-nghe-nhan-dang-va-xu-ly-giong-noi-tuonglai-cua-viec-nhap-lieu-tren-thiet-bi-di-dong.2319727/] [3].[http://vietbao.vn/Vi-tinh-Vien-thong/Dieu-khien-may-tinh-bang-giongnoi/45128384/217/] [4].[http://tailieu.vn/doc/Ly thuyet mang neuron va Ung dung nhan dang tieng noi/1520829/] [5].Frederico Rodrigues, Ricardo Rodrigues, Ciro Martins: An Isolated Letter Recognizer for Proper Name Identification Over the Telephone; INESC Instituto de Engenharia de Sistemas e Computadores [6].Goel, S Garg, V Ranjan, P Rao, S Bhattacharya, M : ASR System Integration with Asterisk for SIP or IAX Softphone Clients Dept of Inf Technol., Indian Inst of Inf Technol & Manage., Gwalior, India [7].Alexandre Maciel, Weber Campos, Clêunio França, Edson Carvalho, SPEAKER VERIFICATION SYSTEM THROUGH TELEPHONE CHANNEL An integrated system for telephony plataform Asterisk; Informatics Center, Federal University of Pernambuco, Recife, Brazil [8].Theodore Wallingford, VoIP Hacks, O'Reilly Media, CA 95472, 2006 [9].Jim Van Meggelen, Jared Smith, Leif Madsen, “Asterisk: The Future of Telephony” O'Reilly Media, May 2011 51 52 ... ngƣời - máy, số sở lý thuyết âm giọng nói, nhận dạng giọng nói, ứng dụng nhận dạng giọng nói thực tế điều khiển máy tính Chƣơng 2: Một số phƣơng pháp nhận dạng giọng nói: vào nghiên cứu cụ thể... thực đề tài:“NGHIÊN CỨU NHẬN DẠNG GIỌNG NÓI, ÁP DỤNG ĐIỀU KHIỂN ỨNG DỤNG HOẶC TRÒ CHƠI TRÊN MÁY TÍNH” Học viên xin cảm ơn Trƣờng Đại học Hàng Hải, thầy cô Viện đào tạo sau Đại họcđã tạo điều kiện... giọng nói, ứng dụng tƣơng tác điều khiển chƣơng trình máy tính Đối tượng phạm vi nghiên cứu Đối tƣợng nghiên cứu đề tài: - Xử lý âm giọng nói - Nhận dạng giọng nói Phạm vi nghiên cứu: - Âm giọng nói

Ngày đăng: 14/10/2017, 16:21

Xem thêm