Nhận dạng và sản xuất tiếng nói bằng mạng nơron tự tổ chức (tt)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	28
Dung lượng	1,13 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Quang Trung NHẬN DẠNG VÀ SẢN XUẤT TIẾNG NÓI BẰNG MẠNG NƠRON TỰ TỔ CHỨC Chuyên ngành:Khoa học máy tính Mã số: 62.48.01.01 TĨM TẮT LUẬN ÁN TIẾN SĨ CƠNG NGHỆ THƠNG TIN Hà Nội - 2017 Cơng trình hồn thành tại:Trường Đại học Cơng nghệ, Đại học Quốc gia Hà Nội Người hướng dẫn khoa học:PGS TS Bùi Thế Duy Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp tại: Đại học Công nghệ, Đại học Quốc Gia Hà Nội Vào hồigiờngàythángnăm Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam - Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà Nội PHẦN MỞ ĐẦU Tính cấp thiết luận án Ngày nay, với bùng nổ xã hội thơng tin, người khơng có nhu cầu giao tiếp với mà cần giao tiếp với thiết bị điện tử Hình thức giao tiếp người - máy thông qua ngôn ngữ tự nhiên đem lại nhiều ứng dụng, góp phần giải phóng sức lao động người Chính vậy, việc làm cho máy tính nhận thức tiếng nói (hiểu tiếng nói) có tầm quan trọng đặc biệt liên quan đến trình phát triển văn minh nhân loại Nhận thức tiếng nói nói riêng nghiên cứu từ đầu năm 1950 (Sumby & Pollack, 1954) (Cooper, 1952) (Broadbent D &., 1957) Tuy nhiên, nghiên cứu nhận thức tiếng nói thời kỳ đầu tập chung vào số toán cụ thể tốn tách nguồn tiếng nói, tốn nhận dạng tiếng nói, tồn nhận dạng hay xác thực người nói Gần đây, nghiên cứu nhận thức tiếng nói đạt nhiều thành tựu to lớn Tuy nhiên, nghiên cứu nhận thức tiếng nói xây dựng hệ thống hiểu mức độ phân biệt tiếng nói khía cạnh Các nghiên cứu tập trung mơ hoạt động nhận thức tiếng nói xảy vùng vỏ não thính giác đặc biệt vùng vỏ não thính giác sơ cấpvà vùng vỏ não thính giác thứ cấp Rất nghiên cứu đặt tốn nhận thức tiếng nói mối quan hệ với nhận thức hệ giác quan khác trình nhận thức xảy vùng vỏ não liên kết đa giác quan Các nghiên cứu vai trò vùng vỏ não liên kết đa giác quan nhận thức tiếng nói nghiên cứu, đó, q trình nhận thức tiếng nói người trình phức tạp, với tham gia tất giác quan, vùng vỏ não, đặc biệt vùng vỏ não liên kết, vùng chiếm tỷ lệ cao vỏ não người Xuất phát từ lý trên, việc lựa chọn đề tài nghiên cứu hướng tiếp cận cho tốn nhận thức tiếng nói đề xuất mơ hình mơ q trình nhận thức tiếng nói thông qua việc học mối quan hệ hay liên kết vùng vỏ não thính giác với vùng vỏ não khác đặc biệt liên kết vùng vỏ não thính giác với vùng vỏ não thị giác Kết đề tài ứng dụng việc nhận dạng tiếng nói tác từ, câu rời rạc, nhận dạng mệnh lệnh điều khiển học hay ứng dụng giao tiếp người máy, hay ứng dụng tìm kiếm video dựa đoạn hội thoại ngắn Mục tiêu luận án Mục tiêu luận án xây dựng mơ hình nhận thức tiếng nói dựa mơ vùng vỏ não liên kết thính giác thị giác cách xây dựng mơ hình học mối quan hệ đặc trưng thu từ âm hình ảnh vùng vỏ não liên kết đa giác quan Phạm vi nghiên cứu đề tài tập trung vào vấn đề sau: Xử lý với đoạn tín hiệu âm tiếng nói, lựa chọn đặc trưng dựa đặc trưng ảnh phổ tín hiệu tiếng nói, nhận thức tiếng nói mức độ liên kết tín hiệu tiếng nói với từ định nghĩa sẵn, nhận thức tiếng nói khía cạnh liên kết với tín hiệu hình ảnh Các đóng góp luận án - Đề xuất sử dụng đặc trưng SIFT trích chọn từ ảnh phổ tín hiệu tiếng nói - Đề xuất sử dụng kết hợp phương pháp phân lớp LNBNN phương pháp trích chọn đặc trưng SIFT ảnh phổ tiếng nói áp dụng cho tốn nhận dạng tiếng nói - Đề xuất xây dựng mơ hình nhận thức tiếng nói mơ việc nhận thức người vùng não liên kết đa giác quan cách xây dựng mơ hình học mối quan hệ tín hiệu tiếng nói với tín hiệu hình ảnh - Đề xuất cải tiến hiệu mơ hình thơng qua việc rút gọn liệu dựa trung vị thành phần véc tơ đặc trưng - Đề xuất cài đặt phương pháp phân lớp LNBNN Hadoop, cho phép kết hợp nhiều máy tính có cấu hình thấp để tạo thành hệ thống xử lý song song, phân tán mạnh Bố cục luận án Chương 1: Giới thiệu sơ lược toán tốn nhận thức tiếng nói, bước q trình nhận thức tiếng nói người, việc mơ nhận thức tiếng nói mơ hình học máy Giới thiệu tổng quan nghiên cứu tốn nhận thức tiếng nói, khó khăn tốn Chương 2: Giới thiệu tổng quan lý thuyết, mơ hình số mơ hình học máy cho tốn nhận thức tiếng nói Chương giới thiệu số phương pháp trích chọn đặc trưng phổ biến sử dụng mơ hình học máy cho tốn nhận thức tiếng nói Chương 3: Giới thiệu tổng quan ảnh phổ tín hiệu tiếng nói, đặc trưng SIFT cách trích chọn đặc trưng SIFT từ ảnh phổ tín hiệu tiếng nói, giới thiệu hướng tiếp dựa ảnh phổ cho tốn nhận thức tiếng nói kết hợp với việc áp dụng phương pháp phân lớp LNBNN Mơ hình tiến hành thí nghiệm khác để đánh giá hiệu mơ hình cho tốn nhận dạng tiếng nói từ, cụm từ độc lập Chương 4: Giới thiệu tổng quan trình nhận thức người, đánh giá vấn đề tồn tại, đề xuất mơ hình nhận thức tiếng nói dựa việc học mối quan hệ tiếng nói với khái niệm cho trước tín hiệu hình ảnh thu biểu diễn cho vật, tượng xảy lúc với tín hiệu âm nghe thấy Chương 5: Giới thiệu hai cải tiến cho tốn nhận thức tiếng nói đề xuất phương pháp rút gọn đặc trưng lượng tử hóa thành phần đặc trưng SIFT thành nhị phân sau mã hóa lại thành đặc trưng đề xuất cài đặt phương pháp phân lớp LNBNN tảng Hadoop cho toán nhận dạng tiếng nói Chương TỔNG QUAN VỀ NHẬN THỨC TIẾNG NÓI 1.1 Giới thiệu Nhận thức tiếng nói phân biệt hay hiểu khác tín hiệu tiếng nói để từ có hành động đáp ứng phù hợp Quá trình nhận thức tiếng nói người gồm bước sau: Hình 1.1 Sơ đồ q trình nhận thức tiếng nói Các mơ hình học máy cho tốn nhận thức tiếng nóimơ phỏngcơ chế hoạt động nhận thức tiếng nói người Q trình mơ nhận thức tiếng nói máy tính có bước sau: Hình Mô bước nhận thức tiếng nói máy tính 1.2 Một số tốn nhận thức tiếng nói Các nghiên cứu nhận thức tiếng nói thường tập trung nhiều việc giải số tốn cụ thể tốn nhận dạng người nói tốn nhận dạng tiếng nói 1.3 Q trình nhận thức tiếng nói người Q trình nhận thức tiếng nói việc thu nhận tín hiệu âm người trải qua số giai đoạn sau:Thu nhận tín hiệu tiếng nói tai ngồi; Thu nhận tiếng nói tai giữa; Cơ chế truyền sóng âm ởốc tai đến nhận thức tiếng nói não 1.4 Quá trình mơ nhận thức âm máy tính Tín hiệu tiếng nói tín hiệu tương tự, để hệ thống máy tính mơ q trình nhận thức tiếng nói tín hiệu tiếng nói phải biến đổi, biểu diễn xử lý cách phù hợp với máy tính Các bước mơ hình học máy cho tốn nhận thức tiếng nói gồm bước sau:Lấy mẫu tín hiệu tiếng nói; Lượng tử hố mẫu; Mã hóa mẫu lượng tử hóa; Biểu diễn tín hiệu tiếng nói;Trích chọn đặc trưng tiếng nói; Liên kết với khái niệm; Phân lớp, phân cụm liệu 1.5 Tổng quan nghiên cứu nhận thức tiếng nói Những nghiên cứu nhận thức tiếng nói nghiên cứu khả phân biệt tín hiệu định từ âm khác mà chúng xuất đồng thời mơi trường hay gọi tên hiệu ứng bữa tiệc hay toán nhận thức nhiều người nói(Cherry, 1953),(Broadbent & Ladefoged, 1957) Nghiên cứu tốn nhận dạng tiếng nói thực phòng thí nghiệm Bell vào năm 1952 để nhận dạng số người nói Sau thành cơng thí nghiệm này, nhiều hướng nghiên cứu đưa nhằm nâng cao như: Hướng tiếp cận tích hợp nguồn hay khả tích hợp thơng tin từ nhiều phương thức khác cho toán nhận dạng tiếng nói(Sumby & Pollack, 1954), (Massaro, 1998); Hướng nghiên cứu vai trò não nhận dạng tiếng;Nghiên cứu vai trò nhớ nhận thức tiếng nói kể đến Miller như(Miller G , 1956), (Pisoni, 1973),(Goldinger, 1998),(Allen & Miller, 2004),(Smith, 2004) Các nghiên cứu nhận dạng tiếng nói số tác giả tổng hợp xây dựng nên lý thuyết mơ hình cho tốn nhận thức tiếng nói: mơ hình nhận dạng tiếng nói dựa phân tích tổng hợp (analysis-by-synthesis) (Halle & Stevens, 1962); lý thuyết vận động (Liberman, Cooper, Shankweiler, & StuddertKennedy, 1967); Lý thuyết lượng tử hóa (Quantal Theory)(Stevens, The quantal nature of speech: Evidence from articulatory-acoustic data, 1972),(Stevens, On the quantal nature of speech, 1989); Mơ hình nhận Cohort(Marslen-Wilson, Functional parallelism in spoken word recognition, 1987);Lý thuyết mẫu ( Pierrehumbert,2001) Trong khoa học máy tính, nhiều mơ hình học máy nghiên cứu áp dụng cho toán nhận thức tiếng nóinhư mơ hình Markov ẩn (HMM), mơ hình GMM, phương pháp SVM, hay mạng nơ-ron(Sak, 2014)(Soltau, 2014) 1.6 Một số khó khăn nhận thức tiếng nói Tính tuyến tính: phát âm liên tục âm thường chịu ảnh hưởng lớn từ âm trước sau Phân đoạn tiếng nói: q trình xác định ranh giới từ, âm tiết, âm vị ngơn ngữ nói Vấn đề phụ thuộc người nói: người nói có cấu trúc máy tạo âm khác dẫn đến đặc tính tiếng nói phát chịu ảnh hưởng nhiều vào người nói Vấn đề nhiễu: tín hiệu tiếng nói thường bị ảnh hưởng tạp âm từ môi trường Đơn vị nhận thức bản: lựa chọn đơn vị nhỏ để phân tích 1.7 Hướng tiếp cận cho tốn nhận thức tiếng nói Từ phân tích thấy tốn nhận thức lĩnh vực rộng, từ khái niệm nhận thức tiếng nói nghiên cứu hiểu “nhận thức tiếng nói nhận thức hay hiểu khác tín hiệu tiếng nóiđể từ có hành động đáp ứng phù hợp” Trong khuôn khổ nghiên cứu tập trung nghiên cứu tới khía cạnh nhận thức tiếng nói khía cạnh liên kết tín hiệu tiếng nói với khái niệm (bài tốn nhận dạng từ, cụm từ độc lập – chương 3) liên kết tín hiệu tiếng nói với tín hiệu hình ảnh, đề xuất mơ hình nhận thức tiếng nói dựa mơ hình mơ q trình liên kết thơng tin vùng vỏ não liên kết đa giác quan (chương 4) Đây hướng tiếp cận so với tiếp cận trước cho toán nhận thức tiếng nói hướng tiếp cận trước chủ yếu tập trung mơ q trình nhận thức tiếng nói vùng nhớ sơ cấp vùng nhớ liên kết quan thính giác, nghiên cứu đề cập tới vùng nhớ liên kết đa giác quan Chương 2.Lý thuyết, mơ hình phương pháp cho tốn nhận thức tiếng nói 2.1.Giới thiệu Trong phần giới thiệu số lý thuyết mơ hình cho tốn nhận thức tiếng nói đồng thời giới thiệu số mơ hình học máy phương pháp trích chọn đặc trưng tiếng nói mơ hình học máy cho tốn nhận thức tiếng nói 2.2.Một số lý thuyết cho tốn nhận thức tiếng nói Lý thuyết vận động: phát triển Liberman đồng nghiệp vào năm 1967 Nguyên lý lý thuyết dựa việc sản sinh tiếng nói đường phát âm người nói phương pháp thác lọctheo bước sau: Phát điểm cực trị Scale-Space; Định vị điểm hấp dẫn; Xác định hướng cho điểm hấp dẫn; Mơ tả điểm hấp dẫn 3.4.Thuật tốn phân lớp NBNN Thuật toán 3.1 3.5.Phương pháp phân lớp LNBNN Phương pháp phân lớp LNBNN Sancho đề xuất nhằm cải tiến thuật toán NBNN cho toán phân lớp ảnh Thuật toán 3.2 12 3.6.Hướng tiếp cận ảnh phổ cho tồn nhận dạng tiếng nói Trong nghiên cứu này, chúng tơi đề xuất mơ hình phân lớp tiếng nói dựa ảnh phổ tín hiệu tiếng nói cách áp dụng phương pháp phân lớp LNBNN kết hợp với phương pháp trích chọn đặc trưng bất biến SIFT ảnh phổ tín hiệu tiếng nói (Hình 3.8) 13 Hình 1Mơ hình phân lớp tiếng nói LNBNN kết hợp với đặc trưng SIFT ảnh phổ tiếng nói 3.7 Thí nghiệm kết 3.7.1 Dữ liệu thí nghiệm: thí nghiệm tiến hành 06 liệu là: ISOLET, English Digits, Vietnamese Places, Vietnamese Digits, TMW, JVPD 3.7.2 Thí nghiệm so sánh độ xác phân lớp đặc trưng SIFT với đặc trưng MFCC sử dụng LNBNN Bảng So sánh độ xác phân lớp LNBNN với SIFT MFCC Bộ liệu SIFT 14 MFCC 0.73 0.96 0.95 0.97 1.00 0.97 ISOLET English Digits Vietnamese Places Vietnamese Digits TMW JVPD 0.34 0.94 0.39 0.72 0.39 0.53 3.7.3 Thí nghiệm với liệu co dãn theo thời gian Bảng So sánh kết liệu bị co dãn chiều Database Origin Scale 10% Scale 20% Scale 30% 0.734 0.731 0.729 0.724 ISOLET 0.962 0.962 0.959 0.958 English Digits 0.953 0.951 0.948 0.941 Vietnamese Places 0.972 0.971 0.969 0.965 VietnameseDigits 1.000 1.000 0.991 0.985 TMW 0.973 0.972 0.967 0.963 JVPD 3.7.4 Thí nghiệm so sánh LNBNN phân loại khác Bảng 3.3 So sánh độ xác phương pháp phân lớp với đặc trưng MFCC Method ISOLET LNBNN Naïve Bayes Bayes Net SVM RandomForest TreeJ48 34.0 64.2 57.0 61.6 64.4 38.1 EN Digits 94.1 98.6 99.5 99.5 98.4 90.2 VN Places 38.5 67.6 70.2 78.0 71.8 53.8 VN Digits 72.0 42.4 47.5 62.8 73.5 42.4 TMW JVPD 39.0 44.6 21.3 40.7 56.7 15.2 87.1 44.5 21.3 96.5 97.2 82.7 Bảng 3.4 So sánh độ xác phương pháp phân lớp với đặc trưng SIFT Method ISOLET LNBNN Naïve Bayes Bayes Net SVM RandomForest Tree J48 72.8 32.8 20.6 3.8 37.7 18.3 EN Digits 96.2 50.4 57.2 11.3 70.7 47.3 VN Places 95.0 58.5 70.5 12.5 78.5 60.3 VN Digits 96.9 53.1 47.7 14.6 55.2 34.6 TMW JVPD 100.0 34.1 33.1 8.5 69.0 17.4 96.9 55.8 60.8 35.2 62.4 46.8 3.7.5 Thí nghiệm khả học tăng cường LNBNN Bảng 3.5So sánh độ xác phân lớp bổ sung thêm liệu Database 20% 40% 60% 80% 100% 15 ISOLET English Digits VN Places VN Digits TMW JVPD training samples 0.46 0.90 0.91 0.27 0.92 0.94 training samples 0.56 0.92 0.92 0.72 0.93 0.96 training samples 0.60 0.94 0.93 0.71 0.98 0.96 training samples 0.68 0.95 0.94 0.82 0.99 0.95 training samples 0.73 0.96 0.95 0.97 1.00 0.97 Bảng 3.6 So sánh độ xác phân lớp bổ sung thêm lớp (tri thức) Database ISOLET English Digits VN Places VN Digits TMW JVPD 20% classes 0.55 1.00 1.00 1.00 1.00 1.00 40% classes 0.64 0.98 0.97 0.97 1.00 1.00 60% classes 0.60 0.98 0.95 0.98 1.00 0.97 80% classes 0.60 0.97 0.94 0.96 1.00 0.97 100% classes 0.73 0.96 0.95 0.97 1.00 0.97 3.6.Kết luận Trong chương này, chúng tơi đề xuất phương pháp trích chọn đặc trưng tiếng nói mức độ thính giác dựa ảnh phổ tín hiệu tiếng nói đồng thời kết hợp với phương pháp phân lớp LNBNN phương pháp phân lớp phi tham số có ưu điểm cho phép mơ hình học thêm mẫu liệu huấn luyện, học thêm tri thức mà huấn luyện lại 16 Chương 4.Mơ hình nhận thức tiếng nói thơng qua học mối quan hệ tín hiệu tiếng nói hình ảnh 4.1 Giới thiệu Trong chương này, chúng tơi xây dựng mơ hình nhận thức tiếng nói thơng qua việc học mối quan hệ đặc trưng từ cặp liệu tiếng nói hình ảnh xảy đồng thời mà người học thu nhận thơng qua hai quan cảm giác thính giác thị giác 4.2 Các phương pháp học mối quan hệ Học mối quan hệ mạng nơ-ron: thường dùng để học mối quan hệ liệu miền Mối quan hệ thể trọng số mạng Học mối quan hệ HMM: học mối quan hệ liệu miền có tính liên kết theo thời gian, dạng chuỗi Mối quan hệ thể ma trận chuyển trạng thái Học mối quan hệ dựa luật: thường học mối quan hệ văn Quan hệ thể dạng luật 4.3.Đề xuất mơ hình nhận thức tiếng nói Cơ sở đề xuất mơ hình Vỏ não lớp vỏ ngồi chất xám bán cầu Một số vùng vỏ não có chức đơn giản hơn, gọi vỏ não sơ cấp (Wanda, 2017) Vỏ não gồm khu vực trực tiếp tiếp nhận thông tin từ quan giác quan thị giác, thính giác, xúc giác, vị giác vùng vỏ não liên kết có chức phức tạp vùng vỏ não sơ cấp Vùng vỏ não liên kết chia làm hai loại vùng vỏ não liên kết quan cảm giác vùng vỏ não liên kết đa giác quan 17 Vùng vỏ não liên kết giác quan có vai trò việc lưu trữ mối quan hệ tín hiệu giác quan đó, đó, vùng vỏ não liên kết đa giác quan có vai trò việc liên kết thơng tin giác quan khác để nhận thức Theo hướng tiếp cận này, để máy tính nhận thức tiếng nói thực chất xây dựng mạng quan hệ tín hiệu tiếng nói với thơng tin vật tượng thu từ giác quan khác Các tín hiệu âm đối tượng (khái niệm lớp trừu tượng) nhận thức số số đặc trưng định gọi đặc điểm chung đối tượng Tương tự vậy, tín hiệu hình ảnh đối tượng, khái niệm nhận thức số đặc trưng hình ảnh chung đối tượng Khi đó, nhận thức tiếng nói q trình xây dựng mạng quan hệ tập đặc trưng Quan hệ đặc trưng trừu tượng Quan hệ đặc trưng thu từ tín hiệu Tín hiệu tiếng nói Tín hiệu hình ảnh Định nghĩa 1:Quan hệ mẫu tiếng nói mẫu hình ảnh:Một mẫu tiếng nói thu từ hệ thính giác đồng thời với hình ảnh vật, tượng từ môi trường xung quanh thời điểm gọi có quan hệ 18 Định nghĩa Quan hệ đặc trưng tiếng nói với đặc trưng hình ảnh Giả sử có mẫu tiếng nói S biểu diễn bẳng tập đặc trưng 𝑓 , 𝑓 , … , mẫu hình ảnh biểu diễn tập đặc trưng 𝑔 , 𝑔 , … Khi đặc trưng fi đặc trưng gj gọi có quan hệ S có quan hệ với I Mơ hình nhận thức tiếng nói học mối quan hệ tín hiệu âm hình ảnh Bài tốn mơ hình hóa sau: Cho tập liệu huấn luyện tập cặp mẫu gồm tín hiệu tiếng nói hình ảnh mà hai giác quan thu thời điểm Như mẫu huấn luyện cặp Như vậy, cho mẫu cặp bất kỳ, hỏi cặp mẫu có quan hệ với hay không? Chúng đề xuất cải tiến LNBNN để phân lớp cặp liệu thành lớp có quan hệ khơng có quan hệ sau: Cách 1: Sử dụng pha phân lớp LNBNN: cải tiến cách lưu trữ tìm kiếm K hàng xóm gần Cách 2: Sử dụng phân lớp LNBNN với ước lượng xác suất KNN: cải tiến ước lượng xác suất KNN Cách Sử dụng LNBNN lớp Thực chất tốn có tập nhỏ cặp có quan hệ sử dụng làm tập huấn luyện khơng có cặp liệu khơng có quan hệ tập huấn luyện Vì toán phải coi toán phân lớp quan hệ có lớp (one class classification) Từ đó, chúng tơi đề xuất phân lớp theo thuật tốn 4.2 19 Thuật toán Thuật toán học mối quan hệ - Pha phân lớp Đầu vào: SF: đặc trưng liệu huấn luyện tiếng nói IF: đặc trưng liệu huấn luyện hình ảnh W: Ma trận trọng số quan hệ {sp, im}: cặp mẫu truy vấn {speech, image} Threshold: tham số ngưỡng Đầu ra: cặp mẫu truy vấn {sp, im} có quan hệ hay khơng 1: TotalWeight = 0; 2: Tìm tập SP_index K+1 hàng xóm gần đặc trưng mẫu tiếng nói SF 3: Tìm tập IM_index số K+1 hàng xóm gần đặc trưng mẫu hình ảnh IM 4: For each i in SP_index 5: For each j in IM_index TínhdistB khoảng cách tới cặp biên tạo từ phần tử K+1 7: Tính khoảng cách ngắn distC cặp liệu 8: TotalWeight = TotalWeight + w(i,j)*(distC - distB)/(N*M) 9: End for 10: End for 11: If TotalWeight < Threshold Then 12: return true 13: Else if 14: return false 15: End if 4.4.Thí nghiệm kết 4.4.1Xây dựng tập liệu thí nghiệm Bộ liệu thí nghiệm thứ xây dựng từ liệu DIGITS,và liệu ảnh MNIST Từ hai liệu chọn ngẫu nhiên 454 mẫu huấn luyện chia thành hai tập, tập huấn luyện gồm 266 mẫu tập kiểm tra 188 mẫu Bộ liệu thứ hai xây dựng từ liệu tiếng nói tên gọi đối tượng (Bút, Quả bóng Điện thoại) liệu ảnh chụp ba đối tượng khoảng cách góc chụp khác Bộ liệu gồm 100 mẫu huấn luyện 40 mẫu kiểm tra lớp 20 4.4.2 Thí nghiệm học mối quan hệ dựa LNBNN Bảng Kết phân lớp mối quan hệ LNBNN liệu DIGITS K TP FP TN FN Accuracy 1249 633 821 1061 0.614 1204 678 771 1111 0.615 1206 676 776 1106 0.614 1206 676 792 1090 0.610 10 1211 671 792 1090 0.611 12 1212 670 792 1090 0.612 14 1212 670 791 1091 0.612 16 1213 669 790 1092 0.612 18 1213 669 787 1095 0.613 20 1210 672 750 1132 0.622 Bảng Kết phân lớp quan hệ với LNBNN liệu OBJECTS K TP FP TN FN Accuracy 22 18 32 0.375 28 12 32 0.450 32 32 0.500 33 33 0.506 10 34 35 0.494 12 37 37 0.500 14 39 38 0.513 16 40 40 0.500 18 40 40 0.500 20 40 40 0.500 4.4.3 Thí nghiệm học mối quan hệ dựa LNBNN với KNN Bảng Kết phân lớp quan hệ áp dụng KNN liệu DIGITS K TP FP TN FN Accuracy 1448 434 924 958 0.639 1627 255 1031 851 0.658 1696 186 1166 716 0.641 1734 148 1340 542 0.605 10 1756 126 1465 417 0.577 12 1790 92 1550 332 0.564 14 1815 67 1688 194 0.534 16 1832 50 1787 95 0.512 18 1850 32 1837 45 0.503 20 1882 1882 0.500 21 Bảng 4 Kết phân lớp quan hệ áp dụng KNN liệu OBJECTS K TP FP TN FN Accuracy 36 40 0.550 34 40 0.575 31 40 0.613 12 28 39 0.638 10 14 26 38 0.650 12 16 24 36 0.650 14 18 22 34 0.650 16 19 21 32 0.638 18 21 19 10 30 0.638 20 22 18 12 28 0.625 4.4.4 LNBNN lớp cho toán phân lớp quan hệ 0.75 0.73 0.71 0.69 0.67 0.65 Hình Kết phẩn lớp one-class LNBNN liệu DIGITS 0.0092 0.0091 0.009 0.0089 0.0088 0.0087 0.0086 0.0085 0.0084 0.0083 0.0082 0.0081 0.008 0.0079 0.0078 0.0077 0.0076 0.0075 0.75 0.70 0.65 0.60 0.55 0.50 Hình Kết phân lớp one-class LNBNN liệu OBJECTS 5.7 Kết luận Chương đề xuất hướng tiếp cận cho tốn 22 nhận thức tiếng nói dựa mơ hình học mối quan hệ đặc trưng tiếng nói với đặc trưng thu hình ảnh cách áp dụng phương pháp phân lớp đồng thời đề xuất ba cách cải tiến phương pháp phân lớp LNBNN để áp dụng cho toán Kết thực nghiệm chứng tỏ mơ hình phù hợp cải tiến áp dụng cho việc huấn luyện người máy việc nhận thức tiếng nói Chương 5.Một số cải tiến cho tốn nhận thức tiếng nói 5.1.Giới thiệu Trong phần này, đề xuất phương pháp rút gọn liệu cho đặc trưng SIFT đề xuất cài đặt phương pháp phân lớp LNBNN Hadoop cho toán phân lớp tiếng nói với liệu lớn 5.2.Rút gọn liệu Bảng So sánh độ xác phân lớp liệu Database ISOLET EN DIGITS VN PLACES JVPD TMW Binary SIFT Binary SIFT KD-TREE Linear Brute Force Hierarchical 56.3 95.4 91.2 95.1 83.1 56.3 95.8 90.5 94.6 89.9 Origin SIFT Clustering 56.3 95.3 89.8 93.7 89.9 Binary SIFT MIH 56.3 96.2 90.8 95.0 89.9 Bảng 5.2 So sánh thời gian chạy liệu khác (tính giây) Origin Binary SIFT Binary SIFT Binary Num Databases SIFT Linear Brute Hierarchical SIFT descriptor KD-TREE Force Clustering MIH ISOLET 327,396 657 654 124 473 EN.DIGITS 581,134 1,584 3,848 643 2,331 VN PLACES 856,121 725 13,359 307 1,919 JVPD 489,998 11,144 1,613 228 901 TMW 3,605,234 25,364 73,595 1,892 43,295 Chúng đề xuất phương pháp rút gọn liệu cách lượng tử hóa thành phần đặc trưng SIFT dựa trung vị chúng Như vậy, sau lượng tử hóa với giá trị trung vịmỗi 23 điểm đặc trưng SIFTsẽ trở thành véc tơ 128 bit, sau chúng mã hóa thành véc tơ 16 bytes giảm kích thước lần 5.3.Cài đặt phương pháp phân lớp LNBNN Hadoop Việc cài đặt thuật toán LNBNN tiến hành thủ tục Setup, Map, Reduce Cleanup Hai thủ tục Map Reduce trình bày thuật tốn 5.1 5.2 Thuật toán Thuật toán LNBNN Hadoop – thủ tục Map Input: Value dòng liệu tập huấn luyện bao gồm liệu nhãn Out put: A list of pair Convert Value (current line in training) to a vector curVec For each test_vectorintestListdo Calculate distance from curVec to test_vector Create KeyOut = is a pair of feature point id in query (test_vector ) and its distance to the current feature point in training set (curVec) Create ValueOut = is a pair of class label and its distance from a feature point id in query (test_vector ) to the current feature point in training set (curVec) Context.write(KeyOut,ValueOut) End for Trong thí nghiệm chúng tơi thiết kế hệ thống phân tán bao gồm 03 node kết nối thông qua mạng cục tiến hành 04 sở liệu DIGITS, VN PLACES, TMW, JVPD Kết so sánh thời gian chạy trình bày bảng 5.5 Bảng 5.5 So sánh thời gian truy vấn trung bình đặc trưng(tính giây) Database JVPD English Digits VN Places TMW VN Places + TMW JVPD + English Digits + VN Places + TMW Number feature 489,998 581,134 3,190,303 3,605,234 6,795,537 Single node 295 363 1,902 2,253 4,281 7,866,669 4,806 24 nodes nodes 302 245 1,858 1,606 4,088 201 261 1,927 1,471 4,253 4,700 4,938 Thuật toán Thuật toán LNBNN Hadoop – thủ tục Reduce Input: - K số hàng xóm gần cần tìm - Key cặp gồm số điểm đặc trưng khoảng cách (Feature point Id of query, distance), - Value tập cặp (class label, distance) Output: Totals : tổng khoảng cách từ truy vấn tới tất lớp Count =0; For each RecordKey in Value If Count = K then BG_distance = recordKey.getDistance() break; Else Count = Count +1; End if If recordKey not in NeighborList then 10 Add recordKey to NeighborList 11 End if 12 End for 13 For each neighbor in NeighborList 14 Totals[neighbor] += neighbor.Distance() – BG_distance; 15 End For 5.4 Kết luận Trong chương đề xuất hai cải tiến cho phương pháp phân lớp LNBNN cho toán nhận dạng tiếng nói dựa đặc trưng SIFT trích chọn từ ảnh phổ tín hiệu tiếng nói Một là, đề xuất phương pháp rút gọn đặc trưng việc biến đổi đặc trưng SIFT từ 128 chiều, với chiều byte thành đặc trưng SIFT nhị phân, sau mã hóa lại thành véc tơ 16 chiều để giảm kích thước lưu trữ tăng tốc độ tính tốn Hai là, chúng tơi đề xuất cài đặt phương pháp phân lớp LNBNN song song, phân tán tảng Hadoop, framework phổ biến cho toán xử lý liệu lớn 25 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ [1] Quang Trung, Nguyễn; Thế Duy, Bùi; Thị Châu, Ma; 2015, An Image based approach for speech perception, 2015 2nd National Foundation for Science and Technology Development Conference on Information and Computer Science, Springer, 208 – 213 [2]Quang Trung, Nguyen; The Duy, Bui;(2016) Speech classification using SIFT features on spectrogram images, Vietnam Journal of Computer Science, 3(4), 247-257 [3] The Duy, Bui; Quang Trung, Nguyen; Speech classification by using binary quantized SIFT features of signal spectrogram images, 2016,3rd National Foundation for Science and Technology Development Conference on Information and Computer Science, IEEE [4] Quang Trung, Nguyen; The Duy, Bui; 2016, MapReduce based for speech classification , SoICT '16: Proceedings of the Seventh Symposium on Information and Communication Technology, ACM [5] The Duy, Bui; Quang Trung, Nguyen; (2016), Learning relationshipbetween speech and image, The Eighth International Conference on Knowledge and Systems Engineering (KSE) 2016, IEEE, 103-108 26 ... nguồn tiếng nói, tốn nhận dạng tiếng nói, tồn nhận dạng hay xác thực người nói Gần đây, nghiên cứu nhận thức tiếng nói đạt nhiều thành tựu to lớn Tuy nhiên, nghiên cứu nhận thức tiếng nói xây... tốn nhận dạng người nói tốn nhận dạng tiếng nói 1.3 Q trình nhận thức tiếng nói người Q trình nhận thức tiếng nói việc thu nhận tín hiệu âm người trải qua số giai đoạn sau:Thu nhận tín hiệu tiếng. .. cho tốn nhận dạng tiếng nói Chương TỔNG QUAN VỀ NHẬN THỨC TIẾNG NÓI 1.1 Giới thiệu Nhận thức tiếng nói phân biệt hay hiểu khác tín hiệu tiếng nói để từ có hành động đáp ứng phù hợp Q trình nhận

Ngày đăng: 14/03/2019, 14:56