Trong cuộc sống hàng ngày, tiếng nói tự nhiên chính là phương tiện giao tiếp đơn giản, hiệu quả và thông dụng nhất giữa người với người. Tiếng nói đã trở nên quá quen thuộc đối với con người ngay từ khi mới lọt lòng. Tầm quan trọng của tiếng nói trong cuộc sống hàng ngày là điều không thể phủ nhận. Tuy nhiên, ngày nay khi “vạn vật đều được kết nối” và máy móc có ở khắp mọi nơi xung quanh chúng ta thì loại hình giao tiếp cơ bản nhất giữa con người và máy móc lại là các dòng lệnh, các chỉ thị thông qua việc gõ phím hay nhấn nút. Các dòng lệnh đó thường rất máy móc và khó nhớ đỗi với mỗi con người, đồng thời các thao tác bằng tay cũng chậm hơn so với việc sử dụng tiếng nói. Chúng ta hãy thử tưởng tượng xem cuộc sống sẽ trở nên dễ dàng như thế nào nếu chúng ta có thể giao tiếp được với máy móc bằng ngôn ngữ tiếng nói, chúng ta có thể điểu khiển quay số, mở cửa, soạn thảo văn bản đều bằng tiếng nói.
TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN BÙI TRUNG DŨNG SỬ DỤNG SVM KẾT HỢP VỚI HỌC SÂU ĐỂ NÂNG CAO CHẤT LƯỢNG XỬ LÝ TIẾNG NÓI KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC Chuyên ngành: Khoa học máy tính Người hướng dẫn khoa học TS Nguyễn Năng An HÀ NỘI - NĂM 2020 LỜI CẢM ƠN Em xin chân thành cảm ơn thầy TS Nguyễn Năng An, giảng viên Viện Công nghệ thông tin, trường Đại học Sư phạm Hà Nội 2, người trực tiếp hướng dẫn em suốt thời gian qua để em hồn thành khóa luận Em xin gửi lời cảm ơn tới thầy, cô giáo Viện Công nghệ thông tin, bạn lớp K43 – Công nghệ thông tin tạo điều kiện, động viên khích lệ em suốt q trình học tập nghiên cứu Do thời gian nghiên cứu hạn chế nên vấn đề mà em trình bày khóa luận khơng tránh khỏi thiếu xót Em kính mong nhận ý kiến đóng góp từ thầy bạn để khóa luận em hoàn thiện Em xin trân thành cảm ơn! Hà Nội, ngày tháng năm 2021 Sinh viên Bùi Trung Dũng LỜI CAM ĐOAN Tôi xin cam đoan khóa luận hồn thành cố gắng thân, hướng dẫn tận tình thầy giáo TS Nguyễn Năng An tham khảo số tài liệu ghi rõ nguồn Khóa luận hồn tồn khơng chép từ tài liệu có sẵn Kết nghiên cứu không trùng lặp với tác giả khác Nếu sai, tơi xin hồn tồn chịu trách nhiệm! Hà Nội, ngày tháng năm 2021 Sinh viên Bùi Trung Dũng DANH MỤC CÁC HÌNH MỤC LỤC CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN 1.1 Lý chọn đề tài Trong sống hàng ngày, tiếng nói tự nhiên phương tiện giao tiếp đơn giản, hiệu thông dụng người với người Tiếng nói trở nên quen thuộc người từ lọt lòng Tầm quan trọng tiếng nói sống hàng ngày điều phủ nhận Tuy nhiên, ngày “vạn vật kết nối” máy móc có khắp nơi xung quanh loại hình giao tiếp người máy móc lại dịng lệnh, thị thơng qua việc gõ phím hay nhấn nút Các dịng lệnh thường máy móc khó nhớ đỗi với người, đồng thời thao tác tay chậm so với việc sử dụng tiếng nói Chúng ta thử tưởng tượng xem sống trở nên dễ dàng giao tiếp với máy móc ngơn ngữ tiếng nói, điểu khiển quay số, mở cửa, soạn thảo văn tiếng nói Xử lý tiếng nói dạng kỹ thuật phân biệt tín hiệu xử lý tiếng nói nghiên cứu tiếng nói người dạng tín hiệu Mặc dù có nhiều lý thuyết đưa ra, nhiên đạt chưa đủ để tiếng nói thay hồn tồn dịng lệnh hay nút bấm giao tiếp người máy Tuy nhiên tành tựu đạt giúp người giải nhiều toán sống Một số điện thoại di động cho phép quay số tự động người dùng đọc tên người cần gọi có danh bạ, hay người điều khiển robot giọng nói thị ngắn nằm tập hữu hạn thị huấn luyện trước Xử lý tiếng nói dựa vào kỹ thuật xử lý không đồng đặc trưng âm để thực phân biệt nhận dạng Kỹ thuật xử lý tiếng nói kỹ thuật bị ảnh hưởng nguyên nhân môi trường, thông tin độ dài thời gian Đối với kỹ thuật xử lý tiếng nói trước chưa khác phục hết nguyên nhân kể Từ dẫn đến kỹ thuật xử lý tiếng nói truyền thống khơng cịn nhận quan tâm chuyên gia đòi hỏi yêu cầu bắt buộc phải cải tiến Trong năm gần theo xu phát triển thiết bị thông minh sử dụng nhiều đến xử lý tiếng nói, đồng thời lợi dụng vào phát triển mạnh mẽ lý thuyết học sâu kỹ thuật xử lý tiếng nói trở thành lĩnh vực nhiều người quan tâm Cùng với phát triển kỹ thuật nhận dạng vân tay nhận dạng khuôn mặt Kỹ thuật phân biệt tiếng nói ngày có tên gọi phân biệt “Vân âm”, công việc chủ yếu phân biệt tiếng nói mơi trường thực tại, tiến hành nhận dạng thân phận dựa vào kỹ thuật phân biệt tiếng nói Chính u cầu tính bảo mật, an tồn xác phân biệt tiếng nói ngày coi trọng Các kỹ thuật xử lý tiếng nói chưa đáp ứng yêu cầu nêu nhóm nghiên cứu chúng tơi đề xuất phương pháp kết hợp kỹ thuật xử lý tiếng nói trước với máy hỗ trợ vector (SVM) kết hợp với học sâu để đưa mơ hình xử lý tiếng nói Xử lý tiếng nói làm cho máy hiểu, nhận biết ngữ nghĩa lời nói Đây q trình biến đổi tín hiệu âm thu micro, qua thiết bị thu khác thành chuỗi từ, sau nhận dạng để sử dụng ứng dụng điều khiển thiết bị, nhập liệu soạn thảo văn lời đưa đến q trình xử lý ngơn ngữ mức cao Tiếng nói cơng cụ truyền đạt thơng tin quan trọng người Như bình thường, khơng để ý q trình nhận dạng tiếng nói diễn nào? hiểu từ, câu, đoạn cách đơn giản vậy? Trên thực tế, thi trình nhận dạng tiếng nói người q trình phức tạp Hiện nay, nhà nghiên cứu cố gắng tìm hiểu mơ q trình nhận dạng tiếng nói người dạng chương trình máy tính Nhưng vấn đề rộng, có liên quan tới nhiều ngành nghiên cứu sinh học, hoá học, vật lý,… Do vậy, việc mơ tiếng nói gặp nhiều khó khăn 1.2 Kết trạng nghiên cứu nước 1.2.1 Kết trạng nghiên cứu nước Trong sống nay, tiếng nói đóng vai trò quan trọng người Cùng với tiếng nói xuất nhiều loại dịch vụ thoại ngày Tuy nhiên việc bảo tồn hết tín hiệu tiếng nói dịch vụ điều vơ khó khăn mát suy giảm tín hiệu ảnh hưởng nhiễu làm cho tín hiệu tiếng nói khơng cịn lúc ban đầu Bước đầu cho cơng nghệ xử lý tiếng nói tiếng Việt Phịng thí nghiệm Trí tuệ Nhân tạo TPHCM (AILab) Trường Đại học Khoa học Tự nhiên vừa công bố sản phẩm có tiềm ứng dụng, gồm: iSago - ứng dụng giao tiếp giọng nói tiếng Việt điện thoại iPhone (phiên 1.0) VIS (Viet Voice Systems) - tổng đài hỏi đáp thông tin tự động tiếng Việt, sử dụng công nghệ nhận dạng tổng hợp giọng nói tiếng Việt với độ xác cao tốc độ xử lý nhanh 1.2.2 Kết trạng nghiên cứu nước Xử lý tiếng nói dùng đến lĩnh vực quân sự, thời kỳ chiến tranh giói thứ để nghe trộm điện thoại phán đoán người nói tướng lĩnh từ lĩnh vực xử lý tiếng nói bắt đầu nghiên cứu Năm 1945 L G Kesta đưa khái niệm xử lý tiếng nói (vân âm), sau ơng phát người có giọng nói gần giống có phổ tiếng nói gần giống nhau, từ kỹ thuật xử lý tín hiệu bắt đầu ứng dụng xử lý tiếng nói Những năm 70 đầu kỷ 20 B S Atal đưa đặng trưng khác ngữ âm, ông phát thơng qua hệ thống phân biệt tiếng nói DSP phân tích đặc trưng ngữ âm MFCC LPCCC có hiệu tốt Những năm 80 kỷ 20 bước chuyển mạnh mẽ xử lý tiếng nói với việc mơ hình xử lý tiếng nói xây dựng cách mạnh mẽ mang lại hiệu cao mơ hình Markov ẩn (HMM), Dynamic Time Warping (DTW), mơ hình mạng neron thần kinh (ANN), vector lượng hóa (VQ) … Năm 1999 Mỹ đưa kỹ thuật nghiên cứu nhận dạng tiếng nói người đồng thời đưa mơ hình nhận dạng tiếng nói khơng dựa vào mẫu GMM-UBM (Gaussian Mixture Model – Universal Background Model) 1.3 Mục tiêu đề tài Nhận dạng tiếng nói trình nhận dạng mẫu, với mục đích phần lớn thơng tin đầu vào tín hiệu tiếng nói thành dãy mẫu học trước lưu trữ nhớ Các mẫu đơn vị nhận dạng, từ âm vị Nếu mẫu bất biến khơng thay đổi cơng việc nhận dạng tiếng nói trở nên đơn giản cách so sánh liệu tiếng nói cần nhận dạng với mẫu học lưu trữ nhớ Nhận dạng tiếng nói lĩnh vực khơng phức tạp Nhận dạng tiếng nói giới nghiên cứu cách 50 năm, nhiên kết thực tế đạt vô khiêm tốn Còn phải lâu người đạt đến việc xây dựng hệ thống hiểu tiếng nói người, Trong phạm vi đồ án môn học phần em xây dựng chương trình nhận dạng mười chữ số tiếng Việt cơng cụ có sẵn Matlab Định hưởng xây dựng chương trình nhận dạng tất từ, câu tiếng việt để ứng dụng vào thực tế Tuy nhiên tiếp xúc lĩnh vực nên khả năng, kiến thức em cịn hạn chế cơng vào khó khăn thời gian, phương tiện nên em xây dựng hệ thống nhận dạng nhỏ Trong tương lai có điều kiện tiếp xúc nghiên cứu sâu lĩnh vực này, em mong muốn phát triển đô án lên để ứng dụng thực tế CHƯƠNG 2: CÁC KỸ THUẬT TƯƠNG QUAN CỦA XỬ LÝ TIẾNG NÓI 2.1 Các kỹ thuật xử lý tiếng nói Tiếng nói phương tiện giao tiếp người nhằm trao đổi thơng tin ngơn ngữ tình cảm người nói, xử lý tiếng nói nghiên cứu tiếng nói người dạng tín hiệu, phương pháp xử lý tín hiệu [6] Tín hiệu tiếng nói thể dạng số, tức “số hóa”, xử lý tiếng nói coi giao “xử lý tín hiệu số” “xử lý ngôn ngữ” Các kỹ thuật xử lý tiếng nói rộng điển hình như: • Nhận dạng tiếng nói: phân tích xử lý mặt nội dung ngơn ngữ tín hiệu tiếng nói Mục đích để chuyển nội dung nói thành tín hiệu đầu vào máy tính, giúp cho máy tính xử lý tương tác với người nói • Nhận dạng người nói: mục đích để nhận người nói và/hoặc xác minh liệu người nói có người mà máy tính biết trước hay khơng (tính xác thực giọng nói) • Tăng chất lượng tiếng nói: nhằm tăng cảm nhận người nghe chất lượng tiếng nói Nó bao gồm: giảm nhiễu ồn tín hiệu tiếng nói, giảm khử tiếng vọng (trong kỹ thuật điện thoại), v.v • Mã hóa tiếng nói: dạng nén liệu, có vai trị quan trọng lĩnh vực viễn thơng Ví dụ thể thức truyền tiếng nói qua internet (voIP), việc nén liệu tiếng nói điều bắt buộc để giảm băng thơng đường truyền • Tổng hợp tiếng nói: tạo tiếng nói cách nhân tạo nhờ máy tính • Phân tích giọng nói: ứng dụng chủ yếu y học, nhằm phát khuyết tật hay vấn đề dây âm, quản, v.v • Định vị nguồn âm thanh: xử lý tín hiệu tiếng nói để xác định vị trí nguồn phát âm (có thể âm thanh, người nói, v.v ) Được ứng dụng hội nghị hình thoại (videoconference) hội nghị mà người tham gia nơi khác nhau, hình ảnh âm hai hay nhiều đầu cầu hội nghị truyền tải cho qua hệ thống điện thoại số, internet sóng vệ tinh Khi vị trí người nói hội nghị xác định máy ghi hình lập trình tự động quay đến vị trí gửi hình ảnh Ngồi định vị nguồn âm cịn ứng dụng kỹ thuật tăng chất lượng tiếng nói, theo dõi an ninh, v.v 10 i đại diện cho mẫu thứ i) khoảng hàm siêu phẳng (w, b) liên quan đến tập liệu tạo (3.5 ) Tuy nhiên, khoảng hàm xác định theo cách có số vấn đề định Nếu w b thay đổi theo tỷ lệ định, chẳng hạn 2w 2b, khoảng hàm f (x) tăng gấp đôi (siêu phẳng không thay đổi), Chỉ khoảng chức khơng đủ Nếu điều kiện ràng buộc thêm vào vectơ pháp tuyến w để có khái niệm lề hình học (Geometrical Margin), khoảng cách điểm siêu phẳng theo nghĩa Giả sử điểm x, đặt điểm tương ứng hình chiếu thẳng đứng lên siêu phẳng , w vectơ vng góc với siêu phẳng γ ̂ khoảng cách từ mẫu x đến siêu phẳng, Hình 3.4: Hình Phân vùng siêu phẳng x = x0 + γˆ w ,w w Theo kiến thức hình học, có chuẩn bậc hai w (chuẩn w w khái niệm tương tự độ dài môđun), vectơ đơn vị (vectơ đơn vị nhận chia vectơ cho mơđun nó), γ ̂ mẫu Khoảng cách từ x đến khoảng phân loại Vì điểm siêu phẳng, lấy thay vào phương trình wT x + b = để thu wT x0 + b = x = x0 + γˆ Sau nhân hai vế w x0 = −b T wT w = w2 , cụ thể wT x0 = −b w w công thức với wT , theo , bạn tính : 23 γˆ = wT x + b f ( x) = w w (3.6) Nếu bạn muốn nhận giá trị tuyệt đối , nhân với hạng mục tương ứng y Lúc này, bạn biết định nghĩa khoảng hình học (biểu diễn ): γ%= γˆ w (3.7) Theo định nghĩa khoảng hàm khoảng hình học trên, thấy khoảng hình học cuối thu cách chia khoảng w hàm cho , khoảng hàm y ( wT x + b ) = yf ( x ) thiết lập giả tạo, khoảng hình học phẳng f ( x) w f ( x) , phép đo khoảng khoảng cách từ điểm đến siêu (2) Bộ phân loại khoảng thời gian tối đa Để phân loại điểm liệu, "khoảng cách tách biệt" điểm liệu siêu phẳng lớn độ xác việc phân loại lớn Để làm cho độ xác phân loại cao tốt, cần phải tối đa hóa giá trị "khoảng" cho siêu phẳng Khoảng nửa Gap Hình 3.5 Hình Bộ phân loại khoảng thời gian tối đa Từ phân tích trước, thấy giá trị khoảng cực đại không phù hợp để biểu diễn khoảng hàm Sau siêu phẳng cố định, độ dài w giá trị b chia tỷ lệ nhau, làm cho Giá trị + b lớn tùy ý, có nghĩa khoảng hàm lớn tùy ý siêu phẳng không 24 đổi Nhưng chia tỷ lệ w b, khoảng hình học khơng thay đổi, hai tham số thay đổi theo siêu phẳng, so với khoảng hàm phương pháp phù hợp để biểu diễn khoảng Vì vậy, có hàm mục tiêu Bộ phân loại ký quỹ tối đa (Maximum Margin Classifier), định nghĩa cần đáp ứng số điều kiện Theo định nghĩa khoảng, có: (3.8 ) Từ = thấy khoảng hàm (giả sử 1, để thuận tiện cho việc lấy tối ưu hóa, cách tiếp cận không ảnh hưởng đến việc tối ưu hóa hàm mục tiêu), Với / hàm mục tiêu thời điểm chuyển thành , tương đương với giá trị lớn bên với điều kiện Gọi khoảng hình học Như hình 3.6, Mặt phẳng siêu tối ưu (Optimal Hyper Plane) đường liền nét khoảng cách hai đường đứt nét mặt phẳng tối ưu Đây khoảng hình học đề cập trên, đường đứt nét đường đứt nét Khoảng cách ̃ Các điểm ranh giới chấm chấm vectơ hỗ trợ Các vectơ hỗ trợ thỏa mãn Cho Với điểm khơng phải vectơ hỗ trợ, Hình Siêu phẳng tối ưu SVM sử dụng để phân loại nhị phân mục đích tìm siêu phẳng tối ưu , để siêu phẳng tập liệu cho với hai loại đặc trưng tách rời SVM học siêu tham số w cách giải tốn tối ưu hóa cơng thức (3.9): (3.9 25 ) Trong số đó, khoảng cách Manhattan, mơ hình L1 tiếng Nó tổng giá trị tuyệt đối phần tử C tham số phạt (nó giá trị giá trị chọn điều chỉnh siêu tham số) Tránh lắp mức q trình đào tạo mơ hình; , gọi L1-SVM, có đặc điểm chuỗi tiêu chuẩn Trong phương trình sau (3.10), L2-SVM thuật ngữ tương ứng phân biệt So với L1-SVM trên, cho kết ổn định tồn diện (3.1 0) Trong số đó, mơ hình Euclide, cịn gọi mơ hình L2, bình phương chuỗi (3) Mạng nơron Mạng phức hợp VGG sâu ban đầu đề xuất thi Imagenet2014 phân loại hình ảnh Kể từ đó, áp dụng thành cơng để phân loại hình ảnh, ASR, phân loại âm quy mơ lớn nhận dạng cảm xúc giọng nói , kiến trúc mạng sau Hình Sơ đồ cấu trúc mạng VGG16 Bằng cách quan sát Hình 3.7, thấy VGG sửa đổi phần lớp mạng ALEXNET Có phân đoạn tích chập mạng biến đổi, phân đoạn chứa nhiều lớp tích chập giai đoạn tích chập theo sau lớp tổng hợp tối đa Lớp tổng hợp chủ yếu sử dụng cho tính nâng cao chia tỷ lệ kích thước Trong mạng VGG, ngoại trừ nhân chập 1x1 đặt cấu trúc C., lại nhân chập 3x3 26 Thao tác làm giảm lượng tham số định Đồng thời, so với ALEXNET, VGG phát triển chiều sâu mạng đạt kết tốt Mơ hình RNN mơ hình tích lũy trạng thái theo chuỗi thời gian, thông qua tham số kết nối tuần hồn thời gian, RNN tìm hiểu thơng tin lịch sử lâu hơn, từ nâng cao khả dự đốn phân loại mơ hình Trước đây, người ta thử áp dụng RNN vào mơ hình tín hiệu giọng nói, phức tạp hệ thống nhiều khó khăn việc huấn luyện mơ hình, nên hầu hết nỗ lực giới hạn tác vụ liệu nhỏ, hiệu không đáng kể Với tiến phương pháp tối ưu hóa mơ hình học sâu gia tăng khối lượng liệu, người ta nhận thấy có đủ liệu huấn luyện, mơ hình RNN học hiệu động thái tín hiệu cải thiện hiệu suất nhận dạng giọng nói Một số nhà nghiên cứu khám phá loạt cấu trúc RNN phù hợp cho mơ hình giọng nói, chẳng hạn LSTM, GRU LSTM hai chiều Đồng thời, người ta thấy việc thêm nhiều lớp RNN để tạo thành cấu trúc RNN sâu cải thiện hiệu suất nhận dạng Tác động RNN mơ hình HMM sâu rộng Giống HMM, RNN mơ hình vào trạng thái khác thông qua thông tin lịch sử trước thay đổi đặc tính đầu mơ hình từ hướng Khác với cấu trúc HMM, RNN mơ hình trạng thái liên tục nên thích hợp cho việc mơ tả q trình phát triển động từ đầu đến cuối, giống tín hiệu lời nói Do đó, sử dụng RNN thay HMM, thay trường hợp rời rạc trường hợp liên tục, thống tất mơ-đun nhận dạng giọng nói thành mơ hình mạng nơ-ron vấn đề cần quan tâm Các nhà nghiên cứu tiến hành thăm dò nghiên cứu lĩnh vực này, trình phát triển sau đó, phương pháp đào tạo end-to-end dần xuất Phương pháp đào tạo end-to-end không dựa vào mơ hình GMM ban đầu để chỉnh tín hiệu khung nhãn theo khung, sau xem xét đường để tính tốn hàm mát Cách tiếp cận có mơ hình xác Đối với cấu trúc RNN, thay đổi trạng thái bên âm vị không biểu thị HMM mà dựa vào trạng thái bên RNN / LSTM, điều cho thấy nghiên cứu nhận dạng giọng nói mở chương vượt qua giai đoạn khác 3.4 Resnet Với phát triển Internet vạn vật (Internet of Things, IoT), sản phẩm liên quan đến Internet vạn vật giúp cải thiện đời sống người nhiều, chẳng hạn nhà thông minh ô tô tự lái Hầu hết thiết bị đầu 27 cuối thiết bị sử dụng nhà thơng minh điều khiển giọng nói Vì vậy, để nâng cao trải nghiệm người dùng, công nghệ xử lý giọng nói cần phát triển khơng ngừng cải tiến liên tục Nói chung, hệ thống nhận dạng người nói truyền thống bắt đầu việc trích xuất đặc điểm âm thanh, chẳng hạn Hệ số Frequency Cepstrum (MFCC), sau sử dụng lượng lớn liệu giọng nói khơng gắn nhãn để đào tạo mơ hình, nhằm thu đặc điểm giọng nói người nói thơng qua học có giám sát Cuối cùng, phân loại dựa giọng nói đào tạo để phân loại người nói Hiện nay, có nhiều phương pháp xử lý giọng nói áp dụng thành cơng cho hướng nhận dạng giọng nói, bao gồm: thay đổi wavelet [7], mơ hình Markov ẩn (HMM), lượng tử hóa véc tơ (VQ), thưa Mã hóa, Mơ hình hỗn hợp Gaussian (GMM), khung hệ thống GMM-UBM, I-Vector [11], Máy vectơ hỗ trợ (SVM), Mạng thần kinh sâu (DNN) v.v Đặc biệt cách sử dụng máy vectơ hỗ trợ để ánh xạ liệu đầu vào sang khơng gian đa chiều, sau sử dụng siêu phẳng để phân đoạn danh mục khác cuối kết hợp SVM với khái niệm siêu vectơ GMM để phân tích truy xuất yếu tố tiềm ẩn, ồng thời, âm kênh bù trừ Hệ thống I-Vector sử dụng phân tích nhân tố GMM bù kênh tiếng nói kênh biến sử dụng khơng gian chiều thấp, thường gọi không gian biến đổi Ngồi ra, Mơ hình chung (UBM) tạo xếp mức khung vectơ thông qua q trình dự đốn I-Vector thường sử dụng thuật tốn phân tích định tuyến tính (LDA) để xử lý nhằm tạo hàm bù giảm kích thước số kênh Hàm bù thiết lập mơ hình kết tính tốn cách cụ thể Sau tính tốn xong, sử dụng phụ Các công cụ, phân loại SVM để tạo thành hệ thống lai Không thể phủ nhận thành công to lớn hệ thống nhận dạng I-Vector, hệ thống không đạt kết nhận dạng tốt mà cịn chiếm vị trí thống trị lĩnh vực nhận dạng xử lý giọng nói thời gian dài Tuy nhiên, khả hoạt động hiệu mạng nơ-ron, mơ hình I-Vector truyền thống khơng cịn thể tính ưu việt nữa, chúng chủ yếu thiết kế đào tạo theo nhiều cách khác nhau, không xây dựng mô-đun khác mà mơ-đun cịn tồn Các tiêu chuẩn khác gây trở ngại đáng kể cho việc hoàn thành nhiệm vụ nhận dạng giọng nói người thiết bị IoT Hiện với phát triển học sâu nhận dạng giọng nói, số DNN áp dụng thành công để nhận dạng giọng nói người Lei cộng đề xuất phương pháp sử dụng DNN để nhận dạng xử lý giọng nói Lần đầu tiên, DNN sử dụng để thay GMM tiêu chuẩn để tạo liên kết khung nội Âm sau sử dụng để nâng cao mơ hình giọng nói 28 mơ hình phổ quát I-Vector Tuy nhiên, hệ thống phụ thuộc nhiều vào nhu cầu liệu huấn luyện miền độ phức tạp tính tốn lớn Để rút ngắn thời gian chạy thuật toán, hệ thống nhận dạng giọng nói dựa mạng nơ-ron trở thành lĩnh vực nghiên cứu tích cực Hệ thống dựa mạng nơ-ron tối ưu hóa hiệu nhận dạng giọng nói tiếng nói khác sau thiết kế hồn thành Các thiết kế cần sử dụng lệnh đào tạo, đồng thời thu thập trích xuất tính giọng nói dựa liệu lớn Nếu thông tin thời gian nhúng âm thanh, phương pháp bỏ qua Trong mơ hình nhận dạng giọng nói này, sử dụng thêm SVM để tách âm thanh, giọng nói phân loại theo cách nhanh Do đó, viết đề xuất mơ hình nhận dạng giọng nói hồn tồn mới, mơ hình nhận dạng giọng nói kết hợp Mạng nơ-ron hình thành (CNN) Máy vectơ hỗ trợ (SVM) Bài viết sử dụng ưu điểm hai mơ hình để thích ứng với tín hiệu giọng nói cách nhanh Tự động ghi lại đặc điểm liệu cách sử dụng cấp mạng khác Bài báo sử dụng thí nghiệm để phân tích lợi việc kết hợp mạng nơ-ron sâu (DNN) SVM nhận dạng giọng nói để xây dựng hệ thống Kiến trúc mạng kết hợp sở cho phát triển thiết bị nhà thông minh Kết thực nghiệm liệu Voxceleb chuẩn cho thấy so với phương pháp I-Vector truyền thống phương pháp CNN khác, mơ hình đề xuất viết có khả nhận dạng giọng nói vượt trội 29 CHƯƠNG 4: MƠ HÌNH VÀ KẾT QUẢ NGHIÊN CỨU 4.1 Mơ hình liệu thử nghiệm Bài viết chủ yếu sử dụng phương pháp nhận dạng kết hợp mạng nơron tái phát RNN công nghệ phân loại SVM để nhận dạng người nói Đầu tiên, tính ngắn hạn khung giọng nói 25 mili giây trích xuất thơng qua đào tạo RNN nhãn phân loại gán cho khung phân đoạn, sau máy vectơ hỗ trợ (SVM) giới thiệu SVM sử dụng để hoàn thành việc phân loại định cuối Quy trình huấn luyện RNN sau: nhập liệu thoại vào RNN khung có thứ tự, qua khung với kích thước 39 * 39, Nó chứa hai lớp ẩn với 512 nút nhớ dài - ngắn hạn (LSTM) Mỗi nút LSTM bao gồm cổng quên, kênh đầu vào kênh đầu ra, chúng điều chỉnh trạng thái đơn vị thần kinh Đối với kênh đầu vào kênh đầu ra, chức kích hoạt thường sử dụng "logistic sigmoid", để cập nhật trạng thái nơron, viết sử dụng chức kích hoạt "tanh" Đồng thời, viết gán nhãn dấu cho lớp LSTM, để mơ hình tìm hiểu phụ thuộc dài hạn cách lấy đầu nút trước phần đầu vào nút Mơ hình xây dựng với cấu trúc tìm hiểu khác biệt cách phát âm trọng âm khác phát biểu (chẳng hạn formant) khác biệt phát âm theo thời gian (chẳng hạn quỹ đạo formant) Cụ thể, thể mức kết hợp phần RNN Hình 4.1 đây, đầu vào chuỗi thời gian đặc trưng âm học có độ dài N Ở giữa, dãy ẩn tính tốn thơng qua RNN H thu được đưa vào lớp tính tốn phần đầu vào, sau thơng qua việc lặp lại từ n = đến N Đưa dự đoán xác suất cho khung, hình đây: (4.1) (4.2) Để thực mơ hình, viết bổ sung lớp loại bỏ vào mạng Lớp loại bỏ làm giảm hiệu xuất việc lắp mức đạt hiệu việc quy hóa mức độ định Xác suất đầu vào đơn vị đầu vào cho lớp 0,5 Thuật toán RMSProp sử dụng để tối ưu hóa hàm mát, làm cho khơng gian tham số có bước tiến lớn theo hướng nhẹ nhàng, làm trơn hướng dốc, từ đẩy nhanh tốc độ huấn luyện Trong thử nghiệm này, tỷ lệ học đặt thành 0,001 quy mơ lơ khóa đào tạo 256 mẫu 30 Sau sơ đồ phân cấp phần RNN: Hình Hệ thống đề xuất sử dụng RNN để kết hợp tính dài ngắn hạn Cho đến nay, việc xây dựng mạng mơ hình q trình thực hoàn thành SVM ban đầu sử dụng để giải tốn phân loại hai Ngun tắc tìm siêu phẳng tối ưu , chẳng hạn a Siêu phẳng tách hai loại với đặc trưng ,∈Rm tập liệu định Dựa lý thuyết này, việc phân loại định đặc trưng âm làm cho cấu trúc mơ hình đề xuất cuối khác với mơ hình mạng nơ-ron Trong thử nghiệm này, tập liệu VoxCeleb sử dụng để thử nghiệm với cấu trúc RNN-SVM đề xuất Chương Điều đáng nói tập liệu VoxCeleb kho liệu nhận dạng người nói khơng phụ thuộc vào văn quy mơ lớn, bao gồm 153.486 giọng nói 1251 cá nhân trích xuất từ video YouTube Như hình 4.2, thời lượng 153.486 giọng nói khơng hồn tồn giống nhau, dao động từ 3,96 giây đến 144,92 giây Khoảng 55% người nói tập liệu nam 45% nữ Những giọng nói bao gồm chủng tộc, giọng, nghề nghiệp độ tuổi khác Ngồi ra, mơi trường âm liệu thách thức, bao gồm thảm đỏ, sân vận động trời, vấn trường quay yên tĩnh, phát biểu trước đông đảo khán giả, đoạn trích từ đa phương tiện quay chuyên nghiệp thiết bị cầm tay quay video, v.v., kết cho thấy tất chất liệu giọng nói làm giảm chất lượng giọng nói tiếng ồn giới thực Nguồn gốc tiếng ồn bao gồm rung nền, tiếng cười, giọng nói chồng chéo, âm phịng, v.v Đồng thời, chất lượng thiết bị ghi độ nhiễu kênh khác 31 Hình Phân chia giọng nói tập liệu Voxceleb Trong thử nghiệm nhận dạng người nói, phân chia liệu giọng nói thể Bảng 4.1 Trong thử nghiệm sau, viết tuân theo phân chia thức tập liệu đề xuất độ xác Top-1 Top-5 để xác định kết cuối Độ xác Top-1 đề cập đến độ xác danh mục dịng với kết thực tế Tỷ lệ xác Top-5 đề cập đến tỷ lệ xác năm danh mục hàng đầu phù hợp với kết thực tế Tỷ lệ xác số nhãn có năm xác suất phân loại tất khóa đào tạo phát biểu kiểm tra chia cho tổng số giọng nói kiểm tra Bảng Phân chia tập liệu Voxceleb Validat Train 1383 27 ion Test 6908 8251 Σ 1534 86 4.2 Tiền xử lý đào tạo mơ hình Để trích xuất tính âm học, viết trước tiên thực nhấn mạnh trước 0,97, sau sử dụng độ dài khung hình 25ms, độ dịch mã 10ms Hamming Window để bước đầu hoàn thành việc xây dựng ngân hàng lọc mel 40 chiều Vì thời lượng trình phát âm tập liệu VoxCeleb khác (dài 144,92 giây), để có kết tương đối ổn định, viết sửa độ dài chuỗi đầu vào thành giây Sau biến đổi, lọc mel kỹ thuật số với kích thước 40 × 300 cuối hình thành, giúp phát âm giây 32 Ngồi ra, việc chuẩn hóa giá trị trung bình phương sai thực điểm tần số số mel Phép toán làm cho giá trị phương sai trung bình đơn vị khơng Phép tốn xác minh thử nghiệm Nó đóng vai trị quan trọng hệ thống nhận dạng giọng nói người nói Trong giai đoạn thử nghiệm, tất giọng nói có thời lượng khác thử nghiệm mơ hình Vì thời lượng tùy ý, giọng nói kiểm tra nhập vào mạng nơ-ron đào tạo để kiểm tra hoạt động thực theo hiệu ứng quan sát cuối Hình Q trình tính tốn lọc mel logarit cho đầu vào mạng sâu Tất thử nghiệm viết dựa khung học sâu TensorFlow Google phát triển Quá trình thực sau: Đầu tiên, đặt kích thước lơ thành 128 hồn thành q trình thực mạng thần kinh GPU NVIDIA GTX 1080Ti Sau đó, sử dụng Adam làm trình tối ưu hóa mơ hình, đặt β1 = 0,9, β2 = 0,98, ǫ = 10-9 Sử dụng quy trình tiền xử lý thay đổi tốc độ học, giá trị tốc độ học tăng tuyến tính bước thực định trước đầu tiên, sau giảm tương ứng để tăng tốc q trình học Ngồi ra, viết sử dụng tìm kiếm lưới để xác định tập hợp siêu tham số tối ưu, chẳng hạn suy giảm trọng lượng, kích thước lớp nhúng, xác suất mát định mức gradient tối đa Để giảm độ nhạy mạng nơ-ron độ dài lời nói, cần phải thực khối giọng nói để nắm bắt phạm vi thời lượng mà mơ hình mong đợi gặp phải q trình kiểm tra Tuy nhiên, giới hạn điều kiện phần cứng nhớ GPU, phải thực cân kích thước lơ độ dài ví dụ đào tạo tối đa Ngoài ra, để tránh trang bị q nhiều mơ hình nhiều có thể, khoảng thời gian giây chọn ngẫu nhiên từ câu nói q trình thực để thực xác minh liệu, coi phương pháp mở rộng liệu đơn giản 4.3 Đánh giá hiệu suất phân tích kết 33 So sánh với phương pháp sau để đánh giá hiệu phương pháp mơ hình đề xuất Chương (1) I-Vectors + SVM [8]: Phương thức ban đầu phát hành lúc với tập liệu VoxCeleb Việc triển khai khung hệ thống sau: Đầu tiên, sử dụng MFCC 13 chiều làm đầu vào để xây dựng hệ thống GMM-UBM, chuẩn hóa phương sai trung bình cepstrum (CMVN) áp dụng để trích xuất đối tượng địa lý Sử dụng khung GMM-UBM thông thường, UBM độc lập với giọng nói chứa 1024 thành phần hỗn hợp thực 10 lần lặp lại từ liệu thực Sau đó, sử dụng trình trích xuất I-Vector vơ tính để đào tạo tập liệu VoxCeleb để tạo I-Vector 400 chiều Sau đó, sử dụng xác suất LDA (PLDA) để giảm số chiều I-Vector xuống 200 Để xác định tốt giọng nói, phân loại SVM nhị phân đối đào tạo cho giọng nói Tất đầu vào chức hỗ trợ SVM chuẩn hóa tập hợp xác thực sử dụng để xác định tham số C (xác định cân việc tối đa hóa ranh giới xử phạt lỗi huấn luyện) Việc phân loại thực cách chọn giọng nói tương ứng với điểm SVM cao (2) I-Vectors + PLDA + SVM [3]: Hệ thống tương tự hệ thống I-Vectors + SVM, ngoại trừ chức tính điểm PLDA áp dụng cách sử dụng SVM (3) CNN + TAP [12]: Sử dụng khối giây cố định biểu đồ quang phổ có kích thước 512 × 300 làm đầu vào CNN giống VGG thực sửa đổi thích hợp cho nhiệm vụ nhận dạng người nói Sau lớp fc6, lớp tổng thời gian trung bình (TAP) sử dụng để mạng có đầu vào đoạn thoại có độ dài cố định (4) ResNet34 + {TAP, SAP, LDE} : Tương ứng với ba ResNets 34 lớp dựa TAP báo cáo gần (ResNet34), nhóm tự ý (SAP) hệ thống nhận dạng người nói (LDE) dựa nhóm mã hóa từ điển học Đầu vào ResNet34 sử dụng Fbank 64 chiều tiêu chuẩn hóa cửa sổ trượt trung bình lên đến giây Trước thực mạng sâu này, nhận 34 diện giọng nói dựa lượng (VAD) mức khung cần chọn tính tương ứng với khung thoại Dựa việc ứng dụng thành cơng mạng nơron tích hợp CNN lĩnh vực phân loại hình ảnh, viết đề xuất cấu trúc mạng CNN-VGG + LSTM kết hợp phân loại để xây dựng hệ thống nhận dạng người nói CNN-VGG + LSTM + SVM Thuật tốn đề xuất viết so sánh với cơng nghệ nhận dạng người nói khác để đánh giá hiệu phương pháp mơ hình đề xuất Chương Kết thử nghiệm cho thấy hệ thống nhận dạng người nói kết hợp với mạng nơ-ron tích tụ mạng nơ-ron tuần hồn tốt hệ thống nhận dạng người nói dựa mạng nơ-ron sâu Đối với tác vụ nhận dạng người nói, trường hợp số lượng lớn tập liệu, phương pháp học sâu tốt so với thuật toán cổ điển dựa Ivectơ Kết thử nghiệm Bảng 4.2 dựa thí nghiệm thiết kế, CNN sử dụng giống kết hợp với phương pháp I-Vector Dựa hai phương pháp CNN đề xuất gần thử nghiệm tập liệu Voxceleb, độ dài liệu giọng nói thử nghiệm ln khác nhau, độ dài giọng nói xử lý văn cuối xác định giây Điều cho phép mơ hình đề xuất để đạt kết tốt Đối với phân tích thực nghiệm độ dài thực tế đầu vào, lớn giây nhỏ giây làm giảm hiệu suất mơ hình mức độ khác sau nhiều thời gian Vì vậy, chọn giây làm độ dài thực tế cuối để phát nhận dạng May mắn thay, việc chọn độ dài giây không gây thêm q nhiều gánh nặng cho mơ hình tổng thể Phương pháp mơ hình đề xuất viết đạt tỷ lệ nhận dạng thành công 75,2% 80,2% Đối với CNN-DenseCNN, cải thiện thêm 1,7% 6,7%, bước đột phá nhỏ hệ thống nhận dạng giọng nói Hệ thống nhận dạng giọng nói kết hợp với mạng nơ-ron tích tụ mạng nơ-ron tuần hồn vượt trội so với hệ thống nhận dạng tiếng nói khác dựa mạng nơ-ron sâu So với hệ thống nhận dạng người nói, hệ thống nhận dạng người nói có thêm SVM có độ xác cao cho thấy hiệu việc sử dụng CNN cho phương pháp nhận dạng giọng nói người phương pháp sử dụng thiết bị nhà thơng minh Ngồi ra, thử nghiệm chứng minh kết hợp CNN VGG kết hợp RNN SVM hoàn toàn quán nhận dạng xử lý giọng nói Bảng 4.2 So sánh thực nghiệm 35 Thuật tốn Hiệu suất nhận dạng thành cơng(%) I-vectors + SVM 48.5% I-vectors + PLDA + SVM 60.2% CNN-VGG 68.2% CNN-ResNet 72.1% CNN-Inception 72.7% CNN-DenseCNN 73.5% LSTM RNN 66.5% CNN-VGG + LSTM 75.2% CNN-VGG + LSTM + SVM 80.2% 36 TÀI LIỆU THAM KHẢO [1] Cart G Looney (1997), Parttern Recognition Using Neural Network, Oxfoxd University Press [2] J A Louw and E Barnard, “Automatic intonation modeling with INTSINT,” Proc Pattern Recognit Assoc South Afr., pp 107–111, 2004 [3] L.R Rabiner, R.W.Sharfer (1978), Digital Processing of Speech Signals, PrenticeHall [4] D Hirst and A Di Cristo, Intonation systems: a survey of twenty languages Cambridge University Press, 1998 [5] Practical Approaches to Speech Coding, P E Papamichalis, Prentice Hall Inc., 1987 [6] Speech Analysis, R W Schafer and J D Markel (eds.), IEEE Press Selected Reprint Series, 1979 [7] Speech Communication, Human and Machine, D O’Shaughnessy, AddisonWesley, 1987 [8] From Text to Speech, J Allen, S Hunnicutt and D Klatt, Cambridge University Press, 1987 [9] Acoustics of American English, J P Olive, A Greenwood and J Coleman, Springer-Verlag, 1993 [10] Practical Approaches to Speech Coding, P E Papamichalis, Prentice Hall Inc., 1987 [11] Speech Coding, A Computer Laboratory Textbook, T P Barnwell and K Nayebi, John Wiley and Sons, 1996 [12] Speech Enhancement, Theory and Practice, P C Loizou, CRC Press, 2007 [13] Connectionist Speech Recognition-A Hybrid Approach, H A Bourlard and N Morgan, Kluwer Academic Publishers, 1994 [14] Statistical Methods for Speech Recognition, F Jelinek, MIT Press, 1998 [15] Digital Speech Transmission, Enhancement, Coding and Concealment, P Vary and R Martin, John Wiley and Sons, Ltd., 2006 Error 37 ... CNN-VGG 68.2% CNN-ResNet 72 .1% CNN-Inception 72 .7% CNN-DenseCNN 73 .5% LSTM RNN 66.5% CNN-VGG + LSTM 75 .2% CNN-VGG + LSTM + SVM 80.2% 36 TÀI LIỆU THAM KHẢO [1] Cart G Looney (19 97) , Parttern Recognition... Dũng LỜI CAM ĐOAN Tôi xin cam đoan khóa luận hồn thành cố gắng thân, hướng dẫn tận tình thầy giáo TS Nguyễn Năng An tham khảo số tài liệu ghi rõ nguồn Khóa luận hồn tồn khơng chép từ tài liệu... gian nghiên cứu hạn chế nên vấn đề mà em trình bày khóa luận khơng tránh khỏi thiếu xót Em kính mong nhận ý kiến đóng góp từ thầy bạn để khóa luận em hoàn thiện Em xin trân thành cảm ơn! Hà Nội,