tiểu luận tìm hiểu công nghệ nhận dạng giọng nói

BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP HCM KHOA: CÔNG NGHỆ THÔNG TIN MÔN HỌC: CÔNG NGHỆ PHẦN MỀM ■■ Đề tài: TÌM HIỂU CƠNG NGHỆ NHẬN DIỆN GIỌNG NÓI Giảng viên hướng dẫn: Mạnh Thiên Lý Sinh viên thực hiện: ■■ Võ Trương Minh Nhật Phan Mai Như Ý Trần Thị Kim Nhiên Nguyễn Thị Thu Bích Nguyễn Thị Khánh Kiều Tan Thị Minh Thư 2001181238 2001181437 2001180178 2001180384 2001181170 2001181350 TP Hồ Chí Minh, 28 Tháng 02 Năm 2021 LỜI MỞ ĐẦU Ngày nay, công nghệ thông tin ngày phát triển với tiến vượt bậc khoa học kỹ thuật nói chung, có nhiều cơng nghệ cho mắt Hơn thập kỷ qua, với phát triển mạnh mẽ công nghệ thông tin, công nghệ xử lý tiếng nói mã hố, nhận dạng tiếng nói, chuyển lời nói thành văn bản, chuyển chữ viết thành lời nói, trở thành vấn đề nghiên cứu trọng điểm nhiều nhà khoa học quan tâm nhiều lĩnh vực khác như: tin học, toán học, điều khiển, điện tử, sinh học, Trong thời gian gần đây, nhà nghiên cứu tập trung vào cơng nghệ nhận dạng giọng nói có số thành công việc nhận dạng tiếng Anh số ngơn ngữ khác Đã có nhiều cơng trình nghiên cứu lĩnh vực nhận dạng giọng nói (Speech recognition) sở lý thuyết hệ thống thông minh nhân tạo, nhiều kết trở thành sản phẩm Via Voice Gold hãng IBM, Dragon Natural Speaking Dragon System, Speech SDK Microsoft, Triển khai cơng trình nghiên cứu đưa vào thực tế ứng dụng vấn đề việc làm có ý nghĩa giai đoạn cơng nghiệp hố, đại hố nước nhà Vì thế, nhóm em chọn đề tài “Tìm hiểu Cơng nghệ nhận diện giọng nói” để tìm hiểu trình bày nội dung tổng quan công nghệ Tuy cố gắng học hỏi tìm hiểu tài liệu từ nhiều nguồn thông tin điều kiện thời gian khả có hạn nên khơng tránh thiếu sót Kính mong đóng góp ý kiến từ bạn để nhóm em hồn thiện báo cáo cơng nghệ Nhóm em xin chân thành cảm ơn Thành phơ Hồ Chí Minh, ngày 28 tháng 02 năm 2021 MỤC LỤC DANH SÁCH HÌNH ẢNH I GIỚI THIỆU VỀ CƠNG NGHỆ NHẬN DIỆN GIỌNG NĨI Giới thiệu công nghiệp 4.0 tầm ảnh hưởng Công nghiệp 4.0 tập trung vào công nghệ kỹ thuật số từ thập kỷ gần lên cấp độ hoàn toàn với trợ giúp kết nối thông qua Internet vạn vật, truy cập liệu thời gian thực giới thiệu hệ thống vật lý không gian mạng Công nghiệp 4.0 cung cấp cách tiếp cận toàn diện hơn, liên kết tồn diện cho sản xuất Nó kết nối vật lý với kỹ thuật số cho phép cộng tác truy cập tốt phận, đối tác, nhà cung cấp, sản phẩm người Công nghiệp 4.0 trao quyền cho chủ doanh nghiệp kiểm sốt hiểu rõ khía cạnh hoạt động họ cho phép họ tận dụng liệu tức thời để tăng suất, cải thiện quy trình thúc đẩy tăng trưởng Công nghiệp 4.0 cho phép nhà máy thông minh, sản phẩm thông minh chuỗi cung ứng thông minh, làm cho hệ thống sản xuất dịch vụ trở nên linh hoạt, linh hoạt đáp ứng khách hàng Các thuộc tính hệ thống sản xuất dịch vụ với Công nghiệp 4.0 nêu bật lợi ích mà Cơng nghiệp 4.0 mang lại cho doanh nghiệp thảo luận Trong tương lai, khoa học cơng nghệ tiếp tục phát triển đóng vai trị ngày quan trọng q trình phát triển kinh tế xã hội quốc gia Tri thức xác định lực lượng sản xuất trực tiếp động lực phát triển hàng đầu quốc gia Để phát triển bền vững, quốc gia phải tiếp tục đẩy mạnh đầu tư phát triển khoa học công nghệ nhằm ứng dụng thành tựu khoa học công nghệ vào sản xuất, đặc biệt thành tựu cách mạng công nghiệp lần thứ tư nhằm tạo sản phẩm cơng nghệ sản xuất Tới cơng nghệ nhận diện giả lập giọng nói đời để đáp nhu cầu phát triển người Sơ lược lịch sử công nghệ nhận diện giọng nói Trước đây, việc điều khiển cỗ máy cách nói chuyện với chúng câu chuyện khoa học viễn tưởng Nhưng viễn tưởng dần trở thành thực với phát triển vượt bậc công nghệ, đặc biệt phát triển Trí tuệ nhân tạo (AI) tảng khác để tạo giao diện người dùng cho phép sử dụng giọng nói để điều khiển thiết bị công nghệ Năm 1877, ứng dụng nhận diện giọng nói tạo Thomas Edison phát minh máy ghi âm, thiết bị ghi tái tạo âm Năm 1952, kỹ sư Bell Labs phát triển nhận dạng chữ số tự động có tên Audrey Audrey cao feet, có nhiều tín hiệu tương tự với tụ điện, khuếch đại lọc, nhận 10 chữ số nói giọng nói Mặc dù thiết bị nhận đầu vào giọng nói với độ xác 97-99% kích thước lớn, chi phí cao thiết bị điện tử phức tạp nên khơng thể trở thành sản phẩm thương mại hóa Tuy nhiên, thiết bị Audrey đánh dấu khởi đầu cơng nghệ nhận dạng giọng nói tiếp tục cho nghiên cứu sau Hệ thống Audrey cịn xem thiết bị nhận dạng giọng nói Năm 1962, máy Shoe box IBM phát triển, nhận 16 từ tiếng anh, 10 chữ số lệnh số học Từ năm 1971 - 1976, Bộ Quốc phòng Mỹ tài trợ cho chương trình DARPA SUR (Nghiên cứu hiểu lời nói), dẫn đến phát triển Harpy tạo Carnegie Mellon hiểu 1011 từ Vào năm 1984, Cơng nghệ nhận dạng giọng nói hệ SpeechWorks Nuance giới thiệu thông qua hệ thống tổng đài trả lời tự động (IVR) Những IVR nhận giọng nói người qua gọi thực nhiệm vụ giao cho chúng Bất có điện thoại nhận tất thơng tin tìm thời gian chiếu phim địa phương, nghe thơng tin giao thông, báo giá cổ phiếu, đặt chuyến bay máy bay, chuyển tiền tài khoản, đặt mua thuốc theo toa, Mọi thứ xoay quanh điện thoại cầm tay giọng nói người Các hệ thống IVR trở thành xu hướng chủ đạo năm 2000 phần dịch vụ chăm sóc hỗ trợ khách hàng ngày Năm 1992, Apple sản xuất hệ thống nhận dạng giọng nói liên tục theo thời gian thực hiện, nhận lên đến 20.000 từ Năm 2006, Apple giới thiệu khái niệm Siri, cho phép người dùng tương tác với máy sử dụng giọng nói Sau đó, Google giới thiệu nghiên cứu hỗ trợ giọng nói vào năm 2007 Những gã khổng lồ công nghệ Microsoft, Apple Google sau tung trợ lý giọng nói cho thiết bị di động Đến năm 2008, Google lên với ứng dụng Google Voice Search dành cho Iphone Năm 2010, Google giới thiệu nhận dạng cá nhân hoá, thiết bị Android ghi lại truy vấn giọng nói người dùng khác để phát triển mơ hình giọng nói nâng cao Nó bao gồm 230 tỷ từ tiếng anh Năm 2011, cuối Siri Apple triển khai Iphone 4S, dựa điện toán đám mây Năm 2014 Amazon giới thiệu Amazon Echo, loa thông minh tích hợp với trợ lý ảo (Alex, Siri ) Những lời kết hợp với ứng dụng di động thông qua kỹ Alexa Tương tự, đối thủ cạnh tranh để giới thiệu Google home, Apple Homepod để cải thiện trải nghiệm người dùng họ văn phịng, nhà chí trung tâm mua sắm Năm 2015, Microsoft công bố sẵn có Cortana cho máy tính để bàn thiết bị di động Windows 10 phần việc hợp Windows Phone vào hệ điều hành nói chung Vào tháng năm 2016, Trợ lý Google (Google Assistant) trợ lý cá nhân ảo phát triển Google cho thiết bị di động nhà thông minh, mắt lần đầu hội nghị nhà phát triển hãng Không Google Now, Trợ lý Google tham gia trị chuyện hai chiều Trợ lý Google đưa vào ứng dụng nhắn tin Google Allo, loa thông minh Google Home năm 2017, Google Assistant đ ược tiếp tục mở rộng hỗ trợ cho lượng lớn thiết bị, bao gồm xe thiết bị nhà thơng minh Các chức Assistant bổ sung nhà phát triển bên thứ ba Giới thiệu công nghệ nhận diện giọng nói a Cơng nghệ nhận diện giọng nói gì? Cơng nghệ nhận diện giọng nói máy hệ thống có khả nhận dịch (hoặc hiểu thực hiện) lệnh thu từ giọng nói người Nó sử dụng nhiều lĩnh vực trí tuệ nhân tạo (AI), Google Assistant ví dụ điển hình Đây máy hệ thống có khả nhận dịch (hoặc hiểu thực hiện) lệnh thu từ giọng nói người Nhận diện giọng nói gồm thuật ngữ: Voice recognition Speech recognition Voice recognition liên quan đến việc xác định giọng nói xác cá nhân đó, tương tự phương pháp nhận diện sinh trắc học Speech recognition việc xác định từ ngữ câu nói dịch chúng sang ngơn ngữ máy tính b Cách thức hoạt động cơng nghệ nhận diện giọng nói Để’ chuyể’n giọng nói sang văn câu lệnh máy tính, hệ thống phải thực trình gồm nhiều bước phức tạp Khi nói, bạn tạo rung động khơng khí Bộ chuyển đổi tín hiệu tương tự sang số (Analog-to-Digital Converter, ADC) chuyển sóng tương tự (analog) thành liệu mà máy tính hiểu Để làm điều này, hệ thống thu thập mẫu (hoặc số hóa) âm cách đo xác sóng âm khoảng thời gian gần nhau, sau lọc âm số hố để loại bỏ tiếng ồn, đơi tách chúng thành dải tần số khác Nó "bình thường hóa" tinh chỉnh âm đến mức âm lượng không thay đổi xếp theo thời gian Khơng phải lúc người nói với tốc độ nên âm phải điều chỉnh cho phù hợp với tốc độ mà âm mẫu ghi nhận nhớ máy Tiếp theo, tín hiệu chia thành nhiều phần nhỏ (thời gian khoảng vài phần trăm giây, chí phần ngàn giây trường hợp có phụ âm cuối khó phân biệt "p" "t") Chương trình sau đặt phần âm vào âm vị có sẵn ngơn ngữ thích hợp Với phát triển công nghệ, ứng dụng nhận dạng giọng nói ngày hồn thiện với tính xác cao Thay nhận dạng chữ cái, cơng nghệ cịn có khả nhận dạng theo ngữ nghĩa câu nói để’ giảm thiể’u sai sót trình nhận dạng c Ưu, nhược điểm cơng nghệ nhận diện giọng nói > Ưu điể’m phần mềm nhận diện giọng nói: - Khả truy cập: Đây thuận lợi người khuyết tất họ khơng thể’ dùng chuột hay bàn phím, có thể’ dùng giọng nói để’ hệ thống chuyển thành văn bản, giúp nhập liệu hay điều khiển cách dễ dàng - Kiểm tra tả: Người dùng truy cập vào cơng cụ chỉnh sửa tương tự giải pháp xử lý văn chuẩn Đương nhiên thứ khơng xác 100% phần mềm nhận diện xử lý phần lớn lỗi tả, ngữ pháp - Tốc độ nhanh: Phần mềm nhận dạng giọng nói nắm bắt giọng nói người dùng với tốc độ nhanh so với nhập liệu bàn phím, tốc độ nhập liệu giọng nói cải thiện đáng kể > Nhược điểm phần mềm nhận diện giọng nói: - Thiết lập "dạy": Mặc dù tất phần mềm nhận dạng giọng nói hứa hẹn hoạt động sau vài phút thiết lập, thực trình ghi nhận, làm quen với giọng nói, âm điệu tốc độ nói người dùng có đơi chút phức tạp tốn thời gian Một số phần mềm nhận dạng giọng nói cịn bắt người dùng nói lại, chí khơng thể nhận diện bạn nói - Chưa thực ổn định: Việc nói mà bị ngắt chừng khiến người dùng cảm thấy khó chịu Đặc biệt, số người khơng thích phần mềm nhận dạng giọng nói gây bối rối cho người dùng lên xuống giọng hay dưng nói nhỏ lại - Kho từ vựng hạn chế: Người dùng phải sẵn sàng chấp nhận trường hợp phần mềm xử lý q lâu từ vừa nói khơng nằm từ điển có sẵn Đó điều nhà nghiên cứu cố gắng cải tiến phần mềm nhận dạng giọng nói d Một số thư viện hỗ trợ cho cơng nghệ nhận diện giọng nói Nuance tên nhắc đến nhiều việc cung cấp thư viện giọng nói cho app di động Chính nhờ vào thư viện mà lập trình viên khơng cần phải tự thiết kế hệ thống nhận dạng, phiên dịch cho app mà cần xài lại có sẵn, tiết kiệm nhiều thời gian, cơng sức tiện bạc Nuance có hỗ trợ cho tiếng Việt ứng dụng Dragon Dictation hãng phát triển OpenEars thư viện khác thuộc dạng nguồn mở hoạt động offline, hạn chế hỗ trợ tiếng Anh Tây Ban Nha Vài tên khác có th ể kể đến Ivona, iSpeech, Vocalkit and Acapela Một cách khác mà nhiều phần mềm xài t ận dụng nguồn nhận dạng có sẵn hệ điều hành di động Người dùng có thể’ kích hoạt tính chỗ cần nhập văn Từ iOS trước tính khơng hỗ trợ tiếng Việt, phải lên iOS có Google bắt đầu hỗ trợ nhập liệu tiếng Việt cho Android khoảng năm trước Ngồi ra, Apple, Google có cung cấp hàm API giúp app c lập trình viên biết nói với vài dịng mã nguồn II TỔNG QUAN VỀ CƠNG NGHỆ NHẬN DIỆN GIỌNG NĨI Mơ hình triển khai cơng nghệ nhận diện giọng nói Hình Mơ hình cơng nghệ nhận diện giọng nói Có nhiều cách thức mà cơng ty triển khai, kể đến phương pháp phổ biến sau: Điện toán đám mây: Trong trường hợp này, việc nhận dạng, xử lý ngôn ngữ diễn máy chủ công ty cung cấp dịch vụ Phương pháp đám mây giúp việc nhận dạng xác hơn, ứng dụng có dung lượng nhỏ, bù lại thiết bị phía người dùng phải kết nối với Internet Độ trễ q trình gửi giọng nói từ máy lên server trả kết từ server lại máy thứ đáng cân nhắc Tích hợp thẳng vào app: Với phương thức này, trình xử lý giọng nói diễn nội ứng dụng, khơng cần giao tiếp với bên ngồi, tốc độ nhanh Người dùng không bắt buộc phải kết nối vào mạng thường trực Tuy nhiên, giải pháp gặp nhược điểm có cập nhật thay đổi máy nhận dạng, nhà sản xuất phải cập nhật lại app, với phương thức đám mây thay đổi cần làm phía Để xử lý vấn đề này, sử dụng số kỹ thuật đặc biệt thêm vài bước vào mạng deep learning a Kỹ thuật xử lý ngôn ngữ tự nhiên (Natural Language Processing) Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) tập hợp nhiều thuận tốn phức tạp nhằm phân tích mệnh lệnh người dùng không bắt buộc họ phải nói theo cấu trúc câu định sẵn Nhiều năm trước muốn điều khiển giọng nói, bạn có thể’ nói thứ "Mở đồ, "Báo thức lúc sáng" Cịn nhờ có NLP, ta có thể’ nói câu "Siri, đánh thức lúc sáng ngày mai" NLP đơn giản để’ phát triể’n Cả Apple, Google Microsoft phải đầu tư nhiều tiền bạc nguồn lực để đưa NLP lên đến mức tiến Mặc dù vậy, công ty phải tiếp tục nghiên cứu để cải thiện độ xác hỗ trợ thêm nhiều ngôn ngữ khác b Chuyển âm thành số Bước nhận diện giọng nói rõ ràng - cần truyền sóng âm vào máy tính, xem hình ảnh tập hợp giá trị, với giá trị đại diện cho độ sáng điểm ảnh, để truyền vào mạng nơron Sóng âm có chiều liệu thời điểm, chúng có giá trị cao độ Để chuyển sóng âm thành số, cần ghi lại cao ca súng tng khong: 1ô ô ãH _ — -—— M 1» Bi Hình Ví dụ lấy mẫu sampling Hình Ví dụ lấy mẫu sampling Hình Ví dụ lấy mẫu sampling Hình Ví dụ lấy mẫu sampling Phương pháp gọi sampling - lấy mẫu Chúng ta đọc mẫu 1/1000S ghi lại số đại diện chiều cao cùa sóng âm Đây file wav không bị nén Những âm chất lượng tốt ghi tần số 44.1khz (44,100 lần đọc giây) Nhưng với nhận diện giọng nói, tốc độ lấy mẫu 16khz (16,000 mẫu giây) đủ Lấy mẫu tạo đồ thị xấp xỉ so với sóng âm, đọc liệu theo khoảng Vì thế, để tránh bị liệu lần đọc, ta áp dụng lý thuyết Nyquist, có thể’ sử dụng tốn học để’ tái tạo xác sóng âm gốc từ mẫu tách biệt - miễn lấy mẫu với tần số gấp đôi tần số âm muốn ghi lại Không phải lấy mẫu với tần số cao chất lượng âm tốt c Kỹ thuật tiền xử lý liệu mẫu âm Ta có thể’ truyền số vào mạng nơron, cố gắng nhận diện cấu trúc âm trực tiếp mẫu khó Thay vào đó, giải vấn đề dễ cách tiền xử lý liệu Đầu tiên, bắt đầu nhóm mẫu âm khoảng 20ms: [-1274, -1252, -1160, -986, -792, -692, -614, -429, -286, -134, -57, -41, -169, -456, -450, -541, -761, -1067, -1231, -1047, -952, -645, -489, -448 -397, -212, 193, 114, -17, 116 128, 261, 198, 390, 461, 772, 948, 1451 1974, 2624, 3793, 4968, 5939, 6057, 6581, 7302, 7640, 7223, 6119, 5461, 4820 4353 3611 2746 2004 1349 1178, 1085 901 301 -262 499 -488 707 1406, -1997, -2377 -2494 2665 -2675 -2627, -2500 -2148 1648, -970, -364, 13, 260, 494, 788, 1011, 938, 717, 507, 323, 324, 325, 350, 103, -113, 64, 176, 93, -249, -461, -606, -909, -1159, -1367, -1544, -1815, -1725 -1341 -971 -959, -723 -261 51 210 142 152 92 345 -439 -529, -710 -907 -887 -693 -463, -180 -14 -12 29 89, -47 398, 896, -1262, -1610, -1862, -2021, -2077, -2105, -2623, -1697, -1360, -1159, -1148, -1091, -1013, -1018, -1126, -1255, -1270, -1266 -1174, -10 03, -707, -468, -300, -116, 92, 224, 72, -150, -336, -541, -820, -1178, -1289, -1345, 1385, -1365, -1223, 1004, -839, -734, -481, -396, -580, -52 7, -531, -376, 458, -581, -254, -277, 50, 331, 531, 641, 416, 697, 810, 812, 759, 739, 888, 1008, 1977, 3145, 4219, 4454, 4521, 5691, 6563, 6909, 6117, 5244 4951 4462 4124, 3435 2671, 1847, 1370, 1591 1900 1586, 713 341, 462 673 60 -938, -1664 -2185 -2527, -2967 -3253, -3636, -38 59, 3723, -3134, -2380, -2032, -1831, -1457 804, -241, -51, -113, -136, 122, -158 -147, -114, -181, -338, -266, 131, 418, 471, 651, 994, 1295, 1267, 1197, 1291 1110, 793 514, 370, 174, -90, -139, 104, 334, 407, 524, 771, 1106, 1087, 878, 703, 591, 471, 91, -199, -357, -454, -561, -605, -552 -512, -575 -669, -672» -763 -1022, -1435 -1791 -1999 -2242, -2563 -2853 -2893, -2740 -2625 -2556, -2385 -2138 -1936, -1803, -1649 -1495, -1460, -1446, -1345, -1177, -1088, -1672, -1063, -856, -719, -621, -585 -613, -634, -638, -636, -683, -819, -946, -1012, -964, -836, -762 -788] _ Hình 320 mẫu âm 20ms Ghi lại số đồ thị giúp có âm gốc chu kỳ 20ms: ước lượng xấp xỉ Hình Âm gốc chu kỳ 20ms Bản ghi âm khoảng 1/50s Nhưng chí đoạn ghi âm ngắn mớ hỗn độn cao độ âm khác Có âm thấp, âm trung chí âm cao Nhưng với nhau, âm tạo lên giọng nói Để giúp mạng nơron xử lý liệu dễ hơn, ta tách sóng âm phức tạp thành phần: phần chứa âm thấp, âm cao hơn, cao Sau đó, ta tính tổng lượng những dải tần số (từ thấp đến cao) kết nối lại tạo fingerprint - nhận dạng cho đoạn trích âm Chúng ta làm điều nhờ vào việc sử dụng Fourier transform tốn học Nó chia nhỏ sóng âm phức tạp thành sóng âm đơn tạo nó, ta có thể’ tính tổng lượng đơn âm Sau sử dụng lý thuyết Nyquist trên, sóng âm trở thành dải liên tục Và sử dụng Fourier transform, lại tách dải liên tục thành notes riêng biệt (được tính tốn thuật tốn Fourier) để’ tìm tổng lượng note Kết cuối bảng số thể’ độ lượng khoảng tần số, từ âm thấp tới âm cao Mỗi số đại diện cho lượng dải 50hz clip 20ms: ■ r ■■ ■ ■■ MU ■ I • ! > .V • , 159 2ẾO23828556S98, 163 24469*10981628, 149 15527353931867, 1$4.34196586290136, 151.4617906111 Wì, 152.93674239973979, 143.90878156117371, 156.6033737693738, 155.78237536428544, 157 17930941017*3 146.28632297569679, 164.37233032929228 158.12*2656446888, 147.23266451005145, 133.26597973863801, 116.5170100028831 116.85501120577126, 115 40519005123537 120.85619013711488, 112.48406123161« 111.80244755457571 92 590,76871856431 105.75863927434719 95.673146446282971 90.3917481280Ú42M 79.355818655314899 86.660143147713926 84 748266268789567 83 650569583779665 «6 207180262242 758 90 252831938154676 89 361567351948437 96.917367389643206 90 746777849123649 86 726552726337033 85 789412745066928 95 938846816664865 99.09254575917869 96.632437741434885 163.23961231Í6 6669 105.88328302591124, 109.53829281234787 116.46408227060996 129 28890691592615 130.43460361780441, 138.15581799444712, 128.25056-761852832, 138.14492240466387, 40.0352714810314, 128.151381394 29752 123.93018478493934, 121.19289035588113 119.03159255422509 114.23027889344033 U9.1717342154997 101.82560719093093 110.91192243698025, 186.04872005953503 100.86977927980999, 92.123301579 000341, 94,376766266590295 97.8507WW8634489 113.37126364077845 110.24526597732718, 113.72249347908621 120 63960942628063 122 06482553759932 117 96716716036715 120.87682744817975 125.060973 81947157, 111.57319012901624 115 54483708595307, 116 «8507» »265, 114.4M5961932*52» 79 8W54»80883975, 164 83111191845597 104.6671136»?ee4588 184.91»173*58rt>42, 97.143620527536072, 78.43459 781117835 82.214144782667248 67 246072805959614 66 578937262360313 74.100»722600679* 64.861423011415653 59 167561212002269 62.479712687304911 63.568362396107467 55 906096471453267, 42.7908 02909362839 55.693923524361097 50.776364877715011 41.196111220671298 51.062413666348945 58.493563858289065 53.081835042922709 , 73.066663128159547 68.21625202122361 66.7701034934517 59.76625 124915202 35.413635563802389 22.705615809958832 16.458048045346381 44.910670465379937 59.282513769840795 «9 241393677323856 81.778634874076346 88.409923803546008 94,688033733251245 96.6408 67526244051 91 806226496828543 94.570526932206619 99 25O924315589O74 97.899164767741183 75.176507616277235 80.947474423758905 71,859103451990862 93 8636*4037461738 96 757146539348298 96 52 8614354926241, 99.36645653363*413, 102.18717608176904, 102 06596663023235, 101.78493139911082, 103.78*3358299547 , 99.915220403820741, 107.43478470929935, 104.46449552620618, ỈO5.7O789868195298, 101 10596541338749, 100.75737831526195, 91.742897073196886 88.307278943969093 90.936627732905492, 71.134275744339803, 72.50430*977841457, 76.233185506299705 63.2812*4410272761, 45.380164336858961, 43 O189637C625Ô437 49.133709791276826 S3.SO77S10O9S32953 48.586423555688746, 4.4730776113028883 , 50.833000650183408, 51.003802143009629, 39.577356593427531, 47.090919248906332 , 55.442197175664383, - ■ M • _ Hình Bảng số thể độ lượng khoảng tần số Nhưng dễ dàng nhiều ta biể’u diễn dãy số trên đồ thị: Frequency (hz) s ố Õ 5000 2000 ỢỊ 8 Hình Đồ thị thể độ lượng khoảng tần số Ta thấy dài tần số có nhiều lượng tần số thấp, lượng tần số cao Đây giọng nam điển hình Nếu lặp lại trình cho khoảng 20ms, có quang phổ (mỗi cột từ trái qua phải khoảng 20ms): 00 Hình Quang phổ cho lượng khoảng tần số lặp lại trình Tạo quang phổ giúp thực nhìn thấy âm cấu trúc độ cao Mạng nơron tìm cấu trúc liệu dễ dàng so với sóng âm thơ Do đó, đặc trưng mà ta truyền vào mạng nơron Qua ta thấy, hầu hết liệu thô chứa nhiều nhiễu khó xử lý ảnh âm Một cách giúp hạn chế nhiễu tổng quát hóa: mạng CNN trích lọc đặc trưng thơng qua convolution - tích chập max pooling - tách lọc lớn nhất, hay xử lý âm lấy tổng lượng theo âm Việc tổng quát hóa giúp giảm chiều liệu hạn chế ảnh hưởng từ nhiễu Chú ý tổng quát hóa lại có thể’ làm tiêu biến đặc trưng, khiến học máy khơng thể’ tìm lời giải d Kỹ thuật nhận diện ký tự từ đoạn âm ngắn Ta truyền dải âm 20ms vào mạng nơron đa lớp Với mảng cắt âm thanh, cố gắng tìm ký tự đại diện cho âm phát Hình Mơ hình trạng thái Chúng ta sử dụng Recurrent Neural Network - RNN - mạng nơron hồi quy: kết tiên đốn q khứ có ảnh hưởng tới kết tiên đoán tương lai Đó ký tự có liên quan đến Ví dụ tìm "HEL", có khả nói tiếp "LO" Vì thế, dự đốn q khứ giúp dự đoán tương lai tốt Sau chạy tồn âm thơng qua mạng nơron, kết nối dải âm với ký tự có khả nói cao Đây đồ kết nối từ "HELLO": Time in Millisecondỉ Hình Bản đồ kết nối từ "HELLO" Mạng nơron dự đốn từ nói “HHHEE_LL_LLLOOO”, nghĩ có khả từ “HHHUU_LL_LLLOOO”, chí “AAAUU_LL_LLLOOO” Chúng ta có thêm vài bước để làm kết Đầu tiên, bỏ ký tự bị lặp, bỏ khoảng trống: HHHEE_LL_LLLOOO => HE_L_LO => HELLO HHHUU_LL_LLLOOO => HU_L_LO => HULLO AAAUU_LL_LLLOOO => AU_L_LO => AULLO Như vậy, ta có khả phân âm "Hello", "Hullo" "Aullo" Nếu ta nói chúng thật to, nghe giống với "Hello" Bởi dự đốn ký tự một, mạng nơron tìm cách đọc âm khơng phải cách viết Ví dụ: ta nói "He would not go", máy có thể’ dịch "He wud net go" Thủ thuật kết hợp dự đoán phiên âm với khả xuất văn (sách, bảo ) Ta loại bỏ phiên âm có khả thực tế giữ phiên âm thực tế Và từ "Hello", Hullo" "Aullo" Rõ ràng, "Hello" có tần xuất cao rất nhiều, phiên âm lựa chọn e Áp dụng Machine Learning tự xây dựng hệ thống nhận diện nói Machine learning sử dụng thuật toán lặp để học từ liệu cho phép máy tính tìm thấy thơng tin, giá trị ẩn sâu mà khơng lập trình cách rõ ràng nơi để’ tìm Khía cạnh lặp lại Machine learning quan trọng mơ hình tiếp xúc với liệu chúng có thể’ thích ứng cách độc lập Các hệ thống Machine Learning có thể’ nhanh chóng áp dụng kiến thức đào tạo từ liệu lớn để’ thực công việc nhận diện giọng nói cách xuất sắc Nhận diện ngơn ngữ vấn đề khó, ta phải chấp nhận vấn đề như: chất lượng micro kém, môi trường ghi âm ồn, tiếng dội lại, giọng điệu khác Tất vấn đề hữu trình đào tạo, khiến mạng nơron khơng có độ xác cao Và để xử lý tiếng ồn, ta cần liệu đào tạo giống mà người gào thét vào mặt người nói Để xây dựng hệ thống nhận diện âm đạt tới trình độ Siri, Google Now! hay Alexa, ta cần nhiều liệu Không muốn hệ thống nhận diện đạt 80% độ xác Vì vậy, cần cho máy tự động lưu học (train data) lượng lớn liệu người dùng tự cung cấp Ta tạo lên hệ thống nhận diện giọng nói hồn chỉnh f Giao diện giọng nói người dùng (Voice user interface) Giao diện giọng nói người dùng (Tiếng anh: Voice user interface, viết tắt: VUI) công nghệ nhận dạng giọng nói, cho phép người dùng tương tác với hệ thống thiết bị máy tính, điện thoại thông minh thiết bị khác thông qua lệnh thoại giọng nói Điều làm nên độc đáo VUI sử dụng giọng nói làm tương tác chính, khơng dùng tay hay mắt trái ngược với tương tác bàn phím - chuột - hình hình cảm ứng Cách tiếp cận giọng nói cho phép người dùng bắt đầu thao tác dịch vụ tự động thực tác vụ hàng ngày họ theo cách nhanh hơn tập trung làm việc khác Công dụng công nghệ nhận diện giọng nói Tốc độ điều người ta nhắc đến đề cập đến câu hỏi Thay phải ngồi nhập tay email, soạn văn bản, đặt lịch hẹn, điện thoại máy tính gây tốn thời gian, chí sai sót Giờ sử dụng giọng nói phương thức để nhập liệu Nó nhanh chóng, đơn giản, thuận tiện vơ dễ dàng giọng Không dừng lại việc nhập liệu, nhận dạng giọng nói cịn ứng dụng hệ thống điều khiển hệ sinh thái smarthome Nhận diện giọng nói cịn sử dụng nhiều lĩnh vực trí tuệ nhân tạo (Artificial Intelligence) Siri hay Google Assistant nh ững ví dụ điển hình Ngồi ra, cơng nghệ nhận dạng giọng nói đánh giá sản phẩm tuyệt vời dành cho người khiếm thị Những người khiếm thị có thể’ tận hưởng tiến cơng nghệ tương tự mà người bình thường có thể’ làm, khơng cịn khoảng cách xuất khiếm khuyết giác quan Sự cần thiết công nghệ nhận diện giọng nói sống Có trăm, nghìn ứng dụng cho phép người dùng tìm kiếm, viết email, ghi đặt lịch hẹn smartphone Thế nhưng, với số người, việc sử dụng bàn phím nhỏ xíu điện thoại khơng tiện lợi, chí khó chịu Tốc độ gõ bạn có thể’ nhanh xác, có người điên lên phải xóa viết lại chữ họ bấm nhầm sang phím bên cạnh Giọng nói giải pháp hợp lý tính đến thời điểm Người dùng khơng xài giọng nói phương thức nhập liệu mà thân thiết bị xài giọng nói để đọc thơng tin cần thiết Đó chưa kể đến lợi ích to lớn mà phần mềm dựa giọng nói mang lại cho người khiếm thị Họ tận hưởng tiến cơng nghệ tương tự mà người bình thường làm, khơng cịn khoảng cách xuất khiếm khuyết giác quan Tất nhiên, cơng nghệ giọng nói giai đoạn đầu chưa thể thay hoàn toàn bàn phím ảo/vật lý nút hình Tuy nhiên, dần tiến đến kỉ nguyên đại hơn, ứng dụng giọng nói hồn thiện Ngơn ngữ lập trình sử dụng cho nhận diện giọng nói Thuật tốn nhận dạng giọng nói hoạt động thơng qua mơ hình âm ngơn ngữ Mơ hình âm đặc trưng kết hợp đơn vị ngôn ngữ tín hiệu giọng nói âm Mơ hình ngơn ngữ khớp âm với trình tự từ để giúp phân biệt từ có âm tương tự Để nhận dạng mẫu thời gian lời nói để cải thiện độ xác hệ thống, ta dùng Mơ hình Markov ẩn với số ngôn ngữ sau: a Ngôn ngữ C# C# ngôn ngữ mã nguồn mở chạy Windows, Mac Linux Ngôn ngữ giúp phát triển ứng dụng cửa hàng Windows, ứng dụng Android ứng dụng IOS Nó có thể’ hữu ích để’ xây dựng khung thư viện phụ trợ trung cấp Nó hỗ trợ khả tương tác ngơn ngữ, nghĩa C# có thể’ truy cập mã viết ngôn ngữ tuân thủ NET C# chạy nhiều tảng máy tính khác để’ nhà phát triể’n có thể’ dễ dàng thực tái sử dụng mã hóa C# hỗ trợ nạp chồng tốn tử thị tiền xử lý giúp cho ngữ pháp nhận dạng giọng nói Với ngơn ngữ này, ta dễ dàng xử lý kiện nhận dạng giọng nói b Ngơn ngữ Java Java ngơn ngữ lập trình hướng đối tượng u cầu cao Nó có nhu cầu cao tính mở rộng Để phát triển khái niệm nhận dạng giọng nói, Java tạo API Java Speech Nó tập hợp lớp trừu tượng giao diện sử dụng mà nhà phát triển Java tạo khung nhìn cơng cụ lời nói Nó có khả tuyệt vời để học mẫu giọng nói bạn cơng cụ xử lý tình khơng hỗ trợ cách lưu lốt Vì Java hỗ trợ tính tuyệt vời trung lập kiến trúc nên nhà phát triển chạy xử lý có sẵn giới thực mà không cần nghĩ đến việc phát triển biên dịch c Ngôn ngữ PHP PHP ngơn ngữ lập trình hướng tính phổ biến PHP ngôn ngữ cấp cao cú pháp tương tự ngơn ngữ C, dễ dàng cho người bắt đầu tạo phần mềm nhận dạng giọng nói PHP hỗ trợ nhiều hệ điều hành nên nhà phát triển dễ dàng di chuyển ứng dụng viết PHP từ máy chủ Windows gốc sang máy chủ Linux mà không cần sửa đổi PHP hỗ trợ số lớp mã nguồn mở hữu ích cho việc tạo ứng dụng nhận dạng giọng nói ta cung cấp ứng dụng tạo miễn phí Việc tạo ứng dụng 'chuyển lời nói thành văn bản' 'chuyển văn thành giọng nói' dễ dàng giao diện ứng dụng dịch vụ lưu trữ web rẻ d Ngôn ngữ Perl Perl ngôn ngữ lập trình đa tảng ổn định ban đầu sử dụng để xử lý văn ngày việc sử dụng ngơn ngữ lập trình viên phát triển ứng dụng web ứng dụng mạng Vì ngơn ngữ có chức class tuyệt vời nên việc phát triển, ứng dụng nhận dạng giọng nói trở nên dễ dàng nhà phát triển Trong nhiều ngôn ngữ, khoảng trắng thừa tạo lỗi, ngơn ngữ lập trình Perl khơng quan tâm đến khoảng trắng để người dùng dễ dàng tạo chương trình Ngơn ngữ lập trình Perl thực nhập liệu tự động quản lý nhớ tự động nên việc tạo ứng dụng nhận dạng giọng nói trở nên đơn giản III MỘT SỐ ỨNG DỤNG VỀ CÔNG NGHỆ NHẬN DIỆN GIỌNG NĨI ■■■ - Phần mềm nhận dạng giọng nói Gboard: Hình Phần mềm Gboard Phần mềm nhận dạng giọng nói Gboard có tên gọi trước Google Keyboard Phần mềm hỗ trợ 120 ngôn ngữ khác tích hợp nhiều tính mạnh mẽ nhập liệu giọng nói, biểu tượng cảm xúc, tìm kiếm ảnh động (GIF), tra cứu thơng tin, dịch thuật nội dung tin nhắn bàn phím Nếu sử dụng thiết bị iOS, sau cài đặt xong, bàn phím xuất người dùng cần nhấn giữ lên biểu tượng dấu phẩy chạm vào hình Trái đất Cuối cùng, nhấn vào biểu tượng micro bàn phím bắt đầu nói để’ nhập liệu Người dùng laptop PC có thể’ thực sử dụng tính nhập liệu văn giọng nói thơng qua Google Docs Nếu muốn gõ dấu chấm, phẩy, xuống dịng người dùng cần phải nói chậm rãi ngắt quãng Theo thử nghiệm, khả nhận diện giọng nói (tiếng Việt) Gboard tốt, nội dung thể rõ ràng bị sai tả - Phần mềm nhận dạng giọng nói ListNote Speech-to-Text Notes Hình Phần mềm ListNote Speech-to-Text Notes Với phần mềm nhận dạng giọng nói ListNote Speech-to-Text Notes, người dùng tạo nhanh ghi giọng nói So với ứng dụng khác, ListNote Speech-to-Text Notes tương đối dễ sử dụng, liệu (ghi chú) lập mục nên việc tìm kiếm diễn nhanh Người dùng cịn có thể’ đặt mật mã hóa nội dung theo tiêu chuẩn AES muốn bảo vệ tập tin khỏi mắt tò mò người khác - Phần mềm nhận dạng giọng nói Voice Text Hình Phần mềm Voice Text Voice Text phần mềm nhận dạng giọng nói cho phép người dùng có thể’ gửi/nhận tin nhắn giọng nói, nhập văn mà khơng cần chạm vào điện thoại, dự đoán nội dung, thực gọi giọng nói IV KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Tiềm cơng nghệ nhận dạng giọng nói lớn Hiện khai thác bề chưa thật sâu Hãy nghĩ đến tương lai nơi ta hồn tồn để điện thoại túi quần thực tất cách nói vào tai nghe Bluetooth Nhìn rộng hơn, ta vừa tới nhà nói vào điện thoại mình: “mở máy lạnh, mở nhạc” mở cửa bước vào thứ thực Tính nhận dạng giọng nói khơng dừng lại việc nhập liệu mà cịn mở chân trời để khai thác đơn giản hóa sống Để AI thơng minh cần phải có liệu để huấn luyện cho nó, nhận diện hình ảnh, văn bản, giọng nói Google có hàng tỷ người dùng với cơng cụ tìm kiếm, biết khoảng thời gian nào, thời điểm người dùng quan tâm từ khóa nào, lĩnh vực Đó cách người dùng tự tạo liệu cho AI Cũng cách người dùng trực tiếp cung cấp liệu cho AI Cơng nghệ nhận dạng giọng nói ví dụ sống động AI mà ta trực tiếp trải nghiệm Đi kèm với rủi ro nhìn thấy Một câu châm ngơn Định lý Tesler nói "AI điều chưa thực hiện" Hi vọng tương lai, người làm khoa học máy tính nghiên cứu phát triển công nghệ phục vụ cho phát triển nhân loại Công nghệ sinh để làm cho sống dễ dàng hơn, việc nhận dạng giọng nói chắn ngoại lệ TÀI LIỆU THAM KHẢO [1] C Lin, H Nein and J Hwu, GA-based noisy speech recogni-tion using two-dimensional cepstrum, IEEE Transactions onSpeech and Audio Processing 8(6) (2000) [2] J Sun, F Karray, O Basir and M Kamel, Fuzzy logic-based natural language processing and its application tospeech recognition, Proceedings of the 5th Biannual World 13(2002), 429-434 [3] Nguyen Dinh Tung, Nhận diện giọng nói: https://viblo.asia/p/machinelearning-that-thu-vi-6-nhan-dien-giong-noi-1Je5E8DylnL, 08/01/2018 [4] Duy Luân, Công nghệ nhận dạng xử lý giọng nói, tương lai việc nhập liệu thiết bị di động ... dụng nhận dạng giọng nói trở nên đơn giản III MỘT SỐ ỨNG DỤNG VỀ CÔNG NGHỆ NHẬN DIỆN GIỌNG NÓI ■■■ - Phần mềm nhận dạng giọng nói Gboard: Hình Phần mềm Gboard Phần mềm nhận dạng giọng nói Gboard... Giới thiệu cơng nghệ nhận diện giọng nói a Cơng nghệ nhận diện giọng nói gì? Cơng nghệ nhận diện giọng nói máy hệ thống có khả nhận dịch (hoặc hiểu thực hiện) lệnh thu từ giọng nói người Nó sử... triển công nghệ, ứng dụng nhận dạng giọng nói ngày hồn thiện với tính xác cao Thay nhận dạng chữ cái, cơng nghệ cịn có khả nhận dạng theo ngữ nghĩa câu nói để’ giảm thiể’u sai sót q trình nhận dạng

Định dạng
Số trang	26
Dung lượng	276,98 KB