Tiểu luận môn công nghệ phần mềm tìm hiểu công nghệ nhận diện giọng nói

BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP HCM KHOA: CÔNG NGHỆ THÔNG TIN ểu Ti MÔN HỌC: CƠNG NGHỆ PHẦN MỀM lu Đề tài: ận TÌM HIỂU CƠNG NGHỆ NHẬN DIỆN GIỌNG NĨI ơn m Giảng viên hướng dẫn: Mạnh Thiên Lý Sinh viên thực hiện: họ 2001181238 2001181437 2001180178 2001180384 2001181170 2001181350 c Võ Trương Minh Nhật Phan Mai Như Ý Trần Thị Kim Nhiên Nguyễn Thị Thu Bích Nguyễn Thị Khánh Kiều Tan Thị Minh Thư TP Hồ Chí Minh, 28 Tháng 02 Năm 2021 LỜI MỞ ĐẦU Ngày nay, công nghệ thông tin ngày phát triển với tiến vượt bậc khoa học kỹ thuật nói chung, có nhiều công nghệ cho mắt Hơn thập kỷ qua, với phát triển mạnh mẽ cơng nghệ thơng tin, cơng nghệ xử lý tiếng nói mã hố, nhận dạng tiếng nói, chuyển lời nói thành văn bản, chuyển chữ viết thành lời nói, … trở thành vấn đề nghiên cứu trọng điểm nhiều nhà khoa học quan tâm nhiều lĩnh vực khác như: tin học, toán học, điều khiển, điện tử, sinh học, … ểu Ti Trong thời gian gần đây, nhà nghiên cứu tập trung vào công nghệ nhận dạng giọng nói có số thành công việc nhận dạng tiếng Anh số ngơn ngữ khác Đã có nhiều cơng trình nghiên cứu lĩnh vực nhận dạng giọng nói (Speech recognition) sở lý thuyết hệ thống thông minh nhân tạo, nhiều kết trở thành sản phẩm Via Voice Gold hãng IBM, Dragon Natural Speaking Dragon System, Speech SDK Microsoft, … Triển khai cơng trình nghiên cứu đưa vào thực tế ứng dụng vấn đề việc làm có ý nghĩa giai đoạn cơng nghiệp hố, đại hố nước nhà ận lu ơn m c họ Vì thế, nhóm em chọn đề tài “Tìm hiểu Cơng nghệ nhận diện giọng nói” để tìm hiểu trình bày nội dung tổng quan công nghệ Tuy cố gắng học hỏi tìm hiểu tài liệu từ nhiều nguồn thông tin điều kiện thời gian khả có hạn nên khơng tránh thiếu sót Kính mong đóng góp ý kiến từ bạn để nhóm em hồn thiện báo cáo cơng nghệ Nhóm em xin chân thành cảm ơn Thành phố Hồ Chí Minh, ngày 28 tháng 02 năm 2021 MỤC LỤC LỜI MỞ ĐẦU MỤC LỤC _3 DANH SÁCH HÌNH ẢNH I GIỚI THIỆU VỀ CÔNG NGHỆ NHẬN DIỆN GIỌNG NÓI _5 Giới thiệu công nghiệp 4.0 tầm ảnh hưởng Sơ lược lịch sử công nghệ nhận diện giọng nói _5 Giới thiệu công nghệ nhận diện giọng nói _7 a Cơng nghệ nhận diện giọng nói gì? _7 b Cách thức hoạt động cơng nghệ nhận diện giọng nói _8 c Ưu, nhược điểm công nghệ nhận diện giọng nói _8 Ti d Một số thư viện hỗ trợ cho công nghệ nhận diện giọng nói ểu II TỔNG QUAN VỀ CƠNG NGHỆ NHẬN DIỆN GIỌNG NĨI _10 lu Mơ hình triển khai cơng nghệ nhận diện giọng nói _10 ận Các kỹ thuật áp dụng cơng nghệ nhận diện giọng nói _10 a Kỹ thuật xử lý ngôn ngữ tự nhiên (Natural Language Processing) 11 m ôn b Chuyển âm thành số _12 c Kỹ thuật tiền xử lý liệu mẫu âm _13 họ d Kỹ thuật nhận diện ký tự từ đoạn âm ngắn _16 c e Áp dụng Machine Learning tự xây dựng hệ thống nhận diện giọng nói 18 f Giao diện giọng nói người dùng (Voice user interface) _18 Công dụng công nghệ nhận diện giọng nói 18 Sự cần thiết cơng nghệ nhận diện giọng nói sống 19 Ngơn ngữ lập trình sử dụng cho nhận diện giọng nói 19 a Ngôn ngữ C# _19 b Ngôn ngữ Java _20 c Ngôn ngữ PHP _20 d Ngôn ngữ Perl 20 III MỘT SỐ ỨNG DỤNG VỀ CƠNG NGHỆ NHẬN DIỆN GIỌNG NĨI_21 IV KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN _23 TÀI LIỆU THAM KHẢO _24 DANH SÁCH HÌNH ẢNH ểu Ti Hình Mơ hình cơng nghệ nhận diện giọng nói _11 Hình Input output Cơng nghệ nhận diện giọng nói _12 Hình Ví dụ lấy mẫu sampling 13 Hình Ví dụ lấy mẫu sampling 13 Hình Ví dụ lấy mẫu sampling 14 Hình Ví dụ lấy mẫu sampling 14 Hình 320 mẫu âm 20ms 15 Hình Âm gốc chu kỳ 20ms 15 Hình Bảng số thể độ lượng khoảng tần số _16 Hình 10 Đồ thị thể độ lượng khoảng tần số _16 Hình 11 Quang phổ cho lượng khoảng tần số lặp lại trình _16 Hình 12 Mơ hình trạng thái _17 Hình 13 Bản đồ kết nối từ "HELLO" 18 Hình 14 Phần mềm Gboard _21 Hình 15 Phần mềm ListNote Speech-to-Text Notes 22 Hình 16 Phần mềm Voice Text 22 ận lu ôn m c họ I GIỚI THIỆU VỀ CÔNG NGHỆ NHẬN DIỆN GIỌNG NÓI Giới thiệu công nghiệp 4.0 tầm ảnh hưởng Công nghiệp 4.0 tập trung vào công nghệ kỹ thuật số từ thập kỷ gần lên cấp độ hoàn toàn với trợ giúp kết nối thông qua Internet vạn vật, truy cập liệu thời gian thực giới thiệu hệ thống vật lý không gian mạng Công nghiệp 4.0 cung cấp cách tiếp cận toàn diện hơn, liên kết toàn diện cho sản xuất Nó kết nối vật lý với kỹ thuật số cho phép cộng tác truy cập tốt phận, đối tác, nhà cung cấp, sản phẩm người Công nghiệp 4.0 trao quyền cho chủ doanh nghiệp kiểm soát hiểu rõ khía cạnh hoạt động họ cho phép họ tận dụng liệu tức thời để tăng suất, cải thiện quy trình thúc đẩy tăng trưởng Ti ểu Công nghiệp 4.0 cho phép nhà máy thông minh, sản phẩm thông minh chuỗi cung ứng thông minh, làm cho hệ thống sản xuất dịch vụ trở nên linh hoạt, linh hoạt đáp ứng khách hàng Các thuộc tính hệ thống sản xuất dịch vụ với Công nghiệp 4.0 nêu bật lợi ích mà Công nghiệp 4.0 mang lại cho doanh nghiệp thảo luận Trong tương lai, khoa học cơng nghệ tiếp tục phát triển đóng vai trị ngày quan trọng trình phát triển kinh tế xã hội quốc gia Tri thức xác định lực lượng sản xuất trực tiếp động lực phát triển hàng đầu quốc gia Để phát triển bền vững, quốc gia phải tiếp tục đẩy mạnh đầu tư phát triển khoa học công nghệ nhằm ứng dụng thành tựu khoa học công nghệ vào sản xuất, đặc biệt thành tựu cách mạng công nghiệp lần thứ tư nhằm tạo sản phẩm công nghệ sản xuất Tới cơng nghệ nhận diện giả lập giọng nói đời để đáp nhu cầu phát triển người ận lu ôn m c họ Sơ lược lịch sử công nghệ nhận diện giọng nói Trước đây, việc điều khiển cỗ máy cách nói chuyện với chúng câu chuyện khoa học viễn tưởng Nhưng viễn tưởng dần trở thành thực với phát triển vượt bậc công nghệ, đặc biệt phát triển Trí tuệ nhân tạo (AI) tảng khác để tạo giao diện người dùng cho phép sử dụng giọng nói để điều khiển thiết bị công nghệ ểu Ti Năm 1877, ứng dụng nhận diện giọng nói tạo Thomas Edison phát minh máy ghi âm, thiết bị ghi tái tạo âm Năm 1952, kỹ sư Bell Labs phát triển nhận dạng chữ số tự động có tên Audrey Audrey cao feet, có nhiều tín hiệu tương tự với tụ điện, khuếch đại lọc, nhận 10 chữ số nói giọng nói Mặc dù thiết bị nhận đầu vào giọng nói với độ xác 97-99% kích thước lớn, chi phí cao thiết bị điện tử phức tạp nên khơng thể trở thành sản phẩm thương mại hóa Tuy nhiên, thiết bị Audrey đánh dấu khởi đầu công nghệ nhận dạng giọng nói tiếp tục cho nghiên cứu sau Hệ thống Audrey cịn xem thiết bị nhận dạng giọng nói Năm 1962, máy Shoe box IBM phát triển, nhận 16 từ tiếng anh, 10 chữ số lệnh số học Từ năm 1971 – 1976, Bộ Quốc phịng Mỹ tài trợ cho chương trình DARPA SUR (Nghiên cứu hiểu lời nói), dẫn đến phát triển Harpy tạo Carnegie Mellon hiểu 1011 từ Vào năm 1984, Cơng nghệ nhận dạng giọng nói hệ SpeechWorks Nuance giới thiệu thông qua hệ thống tổng đài trả lời tự động (IVR) Những IVR nhận giọng nói người qua gọi thực nhiệm vụ giao cho chúng Bất có điện thoại nhận tất thơng tin tìm thời gian chiếu phim địa phương, nghe thông tin giao thông, báo giá cổ phiếu, đặt chuyến bay máy bay, chuyển tiền tài khoản, đặt mua thuốc theo toa, Mọi thứ xoay quanh điện thoại cầm tay giọng nói người Các hệ thống IVR trở thành xu hướng chủ đạo năm 2000 phần dịch vụ chăm sóc hỗ trợ khách hàng ngày Năm 1992, Apple sản xuất hệ thống nhận dạng giọng nói liên tục theo thời gian thực hiện, nhận lên đến 20.000 từ Năm 2006, Apple giới thiệu khái niệm Siri, cho phép người dùng tương tác với máy sử dụng giọng nói Sau đó, Google giới thiệu nghiên cứu hỗ trợ giọng nói vào năm 2007 Những gã khổng lồ cơng nghệ Microsoft, Apple Google sau tung trợ lý giọng nói cho thiết bị di động Đến năm 2008, Google lên với ứng dụng Google Voice Search dành cho Iphone ận lu ôn m c họ ểu Ti Năm 2010, Google giới thiệu nhận dạng cá nhân hoá, thiết bị Android ghi lại truy vấn giọng nói người dùng khác để phát triển mơ hình giọng nói nâng cao Nó bao gồm 230 tỷ từ tiếng anh Năm 2011, cuối Siri Apple triển khai Iphone 4S, dựa điện toán đám mây Năm 2014 Amazon giới thiệu Amazon Echo, loa thơng minh tích hợp với trợ lý ảo (Alex, Siri ) Những lời kết hợp với ứng dụng di động thông qua kỹ Alexa Tương tự, đối thủ cạnh tranh để giới thiệu Google home, Apple Homepod để cải thiện trải nghiệm người dùng họ văn phòng, nhà chí trung tâm mua sắm Năm 2015, Microsoft cơng bố sẵn có Cortana cho máy tính để bàn thiết bị di động Windows 10 phần việc hợp Windows Phone vào hệ điều hành nói chung Vào tháng năm 2016, Trợ lý Google (Google Assistant) trợ lý cá nhân ảo phát triển Google cho thiết bị di động nhà thông minh, mắt lần đầu hội nghị nhà phát triển hãng Khơng Google Now, Trợ lý Google tham gia trò chuyện hai chiều Trợ lý Google đưa vào ứng dụng nhắn tin Google Allo, loa thông minh Google Home năm 2017, Google Assistant tiếp tục mở rộng hỗ trợ cho lượng lớn thiết bị, bao gồm xe thiết bị nhà thông minh Các chức Assistant bổ sung nhà phát triển bên thứ ba ận lu ôn m c họ Giới thiệu công nghệ nhận diện giọng nói a Cơng nghệ nhận diện giọng nói gì? Cơng nghệ nhận diện giọng nói máy hệ thống có khả nhận dịch (hoặc hiểu thực hiện) lệnh thu từ giọng nói người Nó sử dụng nhiều lĩnh vực trí tuệ nhân tạo (AI), Google Assistant ví dụ điển hình Đây máy hệ thống có khả nhận dịch (hoặc hiểu thực hiện) lệnh thu từ giọng nói người Nhận diện giọng nói gồm thuật ngữ: Voice recognition Speech recognition Voice recognition liên quan đến việc xác định giọng nói xác cá nhân đó, tương tự phương pháp nhận diện sinh trắc học Speech recognition việc xác định từ ngữ câu nói dịch chúng sang ngơn ngữ máy tính b Cách thức hoạt động cơng nghệ nhận diện giọng nói Để chuyển giọng nói sang văn câu lệnh máy tính, hệ thống phải thực trình gồm nhiều bước phức tạp Khi nói, bạn tạo rung động khơng khí Bộ chuyển đổi tín hiệu tương tự sang số (Analog-toDigital Converter, ADC) chuyển sóng tương tự (analog) thành liệu mà máy tính hiểu ểu Ti Để làm điều này, hệ thống thu thập mẫu (hoặc số hóa) âm cách đo xác sóng âm khoảng thời gian gần nhau, sau lọc âm số hố để loại bỏ tiếng ồn, đơi tách chúng thành dải tần số khác Nó "bình thường hóa" tinh chỉnh âm đến mức âm lượng không thay đổi xếp theo thời gian Không phải lúc người nói với tốc độ nên âm phải điều chỉnh cho phù hợp với tốc độ mà âm mẫu ghi nhận nhớ máy ận lu Tiếp theo, tín hiệu chia thành nhiều phần nhỏ (thời gian khoảng vài phần trăm giây, chí phần ngàn giây trường hợp có phụ âm cuối khó phân biệt "p" "t") Chương trình sau đặt phần âm vào âm vị có sẵn ngơn ngữ thích hợp m ôn Với phát triển công nghệ, ứng dụng nhận dạng giọng nói ngày hồn thiện với tính xác cao Thay nhận dạng chữ cái, cơng nghệ cịn có khả nhận dạng theo ngữ nghĩa câu nói để giảm thiểu sai sót q trình nhận dạng c họ c Ưu, nhược điểm công nghệ nhận diện giọng nói  Ưu điểm phần mềm nhận diện giọng nói: - Khả truy cập: Đây thuận lợi người khuyết tất họ khơng thể dùng chuột hay bàn phím, dùng giọng nói để hệ thống chuyển thành văn bản, giúp nhập liệu hay điều khiển cách dễ dàng - Kiểm tra tả: Người dùng truy cập vào công cụ chỉnh sửa tương tự giải pháp xử lý văn chuẩn Đương nhiên thứ khơng xác 100% phần mềm nhận diện xử lý phần lớn lỗi tả, ngữ pháp - Tốc độ nhanh: Phần mềm nhận dạng giọng nói nắm bắt giọng nói người dùng với tốc độ nhanh so với nhập liệu bàn phím, tốc độ nhập liệu giọng nói cải thiện đáng kể  Nhược điểm phần mềm nhận diện giọng nói: - Thiết lập "dạy": Mặc dù tất phần mềm nhận dạng giọng nói hứa hẹn hoạt động sau vài phút thiết lập, thực trình ghi nhận, làm quen với giọng nói, âm điệu tốc độ nói người dùng có đơi chút phức tạp tốn thời gian Một số phần mềm nhận dạng giọng nói cịn bắt người dùng nói lại, chí khơng thể nhận diện bạn nói - Chưa thực ổn định: Việc nói mà bị ngắt chừng khiến người dùng cảm thấy khó chịu Đặc biệt, số người khơng thích phần mềm nhận dạng giọng nói gây bối rối cho người dùng lên xuống giọng hay dưng nói nhỏ lại Ti ểu - Kho từ vựng hạn chế: Người dùng phải sẵn sàng chấp nhận trường hợp phần mềm xử lý q lâu từ vừa nói khơng nằm từ điển có sẵn Đó điều nhà nghiên cứu cố gắng cải tiến phần mềm nhận dạng giọng nói ận lu ơn m d Một số thư viện hỗ trợ cho công nghệ nhận diện giọng nói Nuance tên nhắc đến nhiều việc cung cấp thư viện giọng nói cho app di động Chính nhờ vào thư viện mà lập trình viên khơng cần phải tự thiết kế hệ thống nhận dạng, phiên dịch cho app mà cần xài lại có sẵn, tiết kiệm nhiều thời gian, công sức tiện bạc Nuance có hỗ trợ cho tiếng Việt ứng dụng Dragon Dictation hãng phát triển OpenEars thư viện khác thuộc dạng nguồn mở hoạt động offline, hạn chế hỗ trợ tiếng Anh Tây Ban Nha Vài tên khác kể đến Ivona, iSpeech, Vocalkit and Acapela Một cách khác mà nhiều phần mềm xài tận dụng nguồn nhận dạng có sẵn hệ điều hành di động Người dùng kích hoạt tính chỗ cần nhập văn Từ iOS trước tính khơng hỗ trợ tiếng Việt, phải lên iOS có Google bắt đầu hỗ trợ nhập liệu tiếng Việt cho Android khoảng năm trước Ngồi ra, Apple, Google có cung cấp hàm API giúp app lập trình viên biết nói với vài dịng mã nguồn c họ II TỔNG QUAN VỀ CÔNG NGHỆ NHẬN DIỆN GIỌNG NĨI Mơ hình triển khai cơng nghệ nhận diện giọng nói ểu Ti ận lu m Hình Mơ hình cơng nghệ nhận diện giọng nói ơn Có nhiều cách thức mà công ty triển khai, kể đến phương pháp phổ biến sau: họ c Điện toán đám mây: Trong trường hợp này, việc nhận dạng, xử lý ngôn ngữ diễn máy chủ công ty cung cấp dịch vụ Phương pháp đám mây giúp việc nhận dạng xác hơn, ứng dụng có dung lượng nhỏ, bù lại thiết bị phía người dùng phải kết nối với Internet Độ trễ q trình gửi giọng nói từ máy lên server trả kết từ server lại máy thứ đáng cân nhắc Tích hợp thẳng vào app: Với phương thức này, trình xử lý giọng nói diễn nội ứng dụng, khơng cần giao tiếp với bên ngồi, tốc độ nhanh Người dùng không bắt buộc phải kết nối vào mạng thường trực Tuy nhiên, giải pháp gặp nhược điểm có cập nhật thay đổi máy nhận dạng, nhà sản xuất phải cập nhật lại app, với phương thức đám mây thay đổi cần làm phía server Kích thước ứng dụng tăng lên, lên tới vài trăm MB 10 Các kỹ thuật áp dụng công nghệ nhận diện giọng nói Thoạt nhìn việc triển khai cơng nghệ nhận dạng giọng nói đơn giản, thực chất thế: - Thứ nhất, nhà phát triển phải xây dựng nên cơng nghệ lắng nghe, phân tích phiên dịch cách xác giọng nói người dùng Nếu khơng app biết bạn nói gì, cịn độ xác khơng cao khơng - Thứ hai, vấn đề địa hóa (localization) chuyện làm đau đầu lập trình viên Mỗi quốc gia có ngơn ngữ riêng mình, vấn đề làm để hỗ trợ nhiều ngôn ngữ tốt Hiện hầu hết dịch vụ giọng nói hỗ trợ tiếng Anh, Google Voice Input Android Voice Dictation iOS có hỗ trợ tiếng Việt cịn nhiều hạn chế Đó chưa nói đến việc vùng miền lại có cách nói, giọng điệu khác họ sử dụng ngôn ngữ Ti ểu Tuy nhiên, với cách máy dịch thuật hoạt động, cần truyền đoạn ghi âm vào mạng nơron đào tạo để tạo "bản dịch", điều mà nhận diện giọng nói với deep learning hướng tới: ận lu ôn m c họ Hình Input output Cơng nghệ nhận diện giọng nói Vấn đề lớn tốc độ nói biến thiên Một người nói "Hello" nhanh người khác nói "heeeellllllloooooo!" cực chậm, tạo âm dài với nhiều liệu Cả âm nên nhận dạng xác từ - "hello!" Tự động chỉnh file âm với nhiều biến thể độ dài khác từ để tạo văn đồng lại khó Để xử lý vấn đề này, sử dụng số kỹ thuật đặc biệt thêm vài bước vào mạng deep learning a Kỹ thuật xử lý ngôn ngữ tự nhiên (Natural Language Processing) Xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP) tập hợp nhiều thuận tốn phức tạp nhằm phân tích mệnh lệnh người dùng 11 khơng bắt buộc họ phải nói theo cấu trúc câu định sẵn Nhiều năm trước muốn điều khiển giọng nói, bạn nói thứ "Mở đồ, "Báo thức lúc sáng" Cịn nhờ có NLP, ta nói câu "Siri, đánh thức lúc sáng ngày mai" NLP đơn giản để phát triển Cả Apple, Google Microsoft phải đầu tư nhiều tiền bạc nguồn lực để đưa NLP lên đến mức tiến Mặc dù vậy, công ty phải tiếp tục nghiên cứu để cải thiện độ xác hỗ trợ thêm nhiều ngôn ngữ khác b Chuyển âm thành số Bước nhận diện giọng nói rõ ràng - cần truyền sóng âm vào máy tính, xem hình ảnh tập hợp giá trị, với giá trị đại diện cho độ sáng điểm ảnh, để truyền vào mạng nơron Sóng âm có chiều liệu Ở thời điểm, chúng có giá trị cao độ Để chuyển sóng âm thành số, cần ghi lại độ cao sóng khoảng: ểu Ti ận lu ơn m c họ Hình Ví dụ lấy mẫu sampling Hình Ví dụ lấy mẫu sampling 12 Hình Ví dụ lấy mẫu sampling ểu Ti ận lu m ơn Hình Ví dụ lấy mẫu sampling c họ Phương pháp gọi sampling - lấy mẫu Chúng ta đọc mẫu 1/1000s ghi lại số đại diện chiều cao cùa sóng âm Đây file wav không bị nén Những âm chất lượng tốt ghi tần số 44.1khz (44,100 lần đọc giây) Nhưng với nhận diện giọng nói, tốc độ lấy mẫu 16khz (16,000 mẫu giây) đủ Lấy mẫu tạo đồ thị xấp xỉ so với sóng âm, đọc liệu theo khoảng Vì thế, để tránh bị liệu lần đọc, ta áp dụng lý thuyết Nyquist, sử dụng tốn học để tái tạo xác sóng âm gốc từ mẫu tách biệt - miễn lấy mẫu với tần số gấp đôi tần số âm muốn ghi lại Không phải lấy mẫu với tần số cao chất lượng âm tốt c Kỹ thuật tiền xử lý liệu mẫu âm Ta truyền số vào mạng nơron, cố gắng nhận diện cấu trúc âm trực tiếp mẫu khó Thay vào đó, 13 giải vấn đề dễ cách tiền xử lý liệu Đầu tiên, bắt đầu nhóm mẫu âm khoảng 20ms: Hình 320 mẫu âm 20ms Ghi lại số đồ thị giúp có ước lượng xấp xỉ âm gốc chu kỳ 20ms: ểu Ti ận lu Hình Âm gốc chu kỳ 20ms m ôn Bản ghi âm khoảng 1/50s Nhưng chí đoạn ghi âm ngắn mớ hỗn độn cao độ âm khác Có âm thấp, âm trung chí âm cao Nhưng với nhau, âm tạo lên giọng nói họ c Để giúp mạng nơron xử lý liệu dễ hơn, ta tách sóng âm phức tạp thành phần: phần chứa âm thấp, âm cao hơn, cao Sau đó, ta tính tổng lượng những dải tần số (từ thấp đến cao) kết nối lại tạo fingerprint - nhận dạng cho đoạn trích âm Chúng ta làm điều nhờ vào việc sử dụng Fourier transform tốn học Nó chia nhỏ sóng âm phức tạp thành sóng âm đơn tạo nó, ta tính tổng lượng đơn âm Sau sử dụng lý thuyết Nyquist trên, sóng âm trở thành dải liên tục Và sử dụng Fourier transform, lại tách dải liên tục thành notes riêng biệt (được tính tốn thuật tốn Fourier) để tìm tổng lượng note 14 Kết cuối bảng số thể độ lượng khoảng tần số, từ âm thấp tới âm cao Mỗi số đại diện cho lượng dải 50hz clip 20ms: Hình Bảng số thể độ lượng khoảng tần số Nhưng dễ dàng nhiều ta biểu diễn dãy số trên đồ thị: ểu Ti Hình 10 Đồ thị thể độ lượng khoảng tần số ận lu Ta thấy dài tần số có nhiều lượng tần số thấp, lượng tần số cao Đây giọng nam điển hình Nếu lặp lại trình cho khoảng 20ms, có quang phổ (mỗi cột từ trái qua phải khoảng 20ms): ơn m c họ Hình 11 Quang phổ cho lượng khoảng tần số lặp lại trình Tạo quang phổ giúp thực nhìn thấy âm cấu trúc độ cao Mạng nơron tìm cấu trúc liệu dễ dàng so với sóng âm thơ Do đó, đặc trưng mà ta truyền vào mạng nơron Qua ta thấy, hầu hết liệu thơ chứa nhiều nhiễu khó xử lý ảnh âm Một cách giúp hạn chế nhiễu tổng quát hóa: 15 mạng CNN trích lọc đặc trưng thơng qua convolution - tích chập max pooling - tách lọc lớn nhất, hay xử lý âm lấy tổng lượng theo âm Việc tổng quát hóa giúp giảm chiều liệu hạn chế ảnh hưởng từ nhiễu Chú ý tổng quát hóa lại làm tiêu biến đặc trưng, khiến học máy khơng thể tìm lời giải d Kỹ thuật nhận diện ký tự từ đoạn âm ngắn Ta truyền dải âm 20ms vào mạng nơron đa lớp Với mảng cắt âm thanh, cố gắng tìm ký tự đại diện cho âm phát ểu Ti ận lu ôn m c họ Hình 12 Mơ hình trạng thái Chúng ta sử dụng Recurrent Neural Network - RNN - mạng nơron hồi quy: kết tiên đốn q khứ có ảnh hưởng tới kết tiên đốn tương lai Đó ký tự có liên quan đến Ví dụ tìm "HEL", có khả nói tiếp "LO" Vì thế, dự đoán khứ giúp dự đốn tương lai tốt Sau chạy tồn âm thông qua mạng nơron, kết nối dải âm với ký tự có khả nói cao Đây đồ kết nối từ "HELLO": 16 ểu Ti Hình 13 Bản đồ kết nối từ "HELLO" lu ận Mạng nơron dự đốn từ nói “HHHEE_LL_LLLOOO”, nghĩ có khả từ “HHHUU_LL_LLLOOO”, chí “AAAUU_LL_LLLOOO” ơn m họ Chúng ta có thêm vài bước để làm kết Đầu tiên, bỏ ký tự bị lặp, bỏ khoảng trống: c HHHEE_LL_LLLOOO => HE_L_LO => HELLO HHHUU_LL_LLLOOO => HU_L_LO => HULLO AAAUU_LL_LLLOOO => AU_L_LO => AULLO Như vậy, ta có khả phân âm "Hello", "Hullo" "Aullo" Nếu ta nói chúng thật to, nghe giống với "Hello" Bởi dự đốn ký tự một, mạng nơron tìm cách đọc âm khơng phải cách viết Ví dụ: ta nói "He would not go", máy dịch "He wud net go" Thủ thuật kết hợp dự đoán phiên âm với khả xuất văn (sách, bảo ) Ta loại bỏ phiên âm có khả ngồi thực tế giữ phiên âm thực tế Và từ "Hello", Hullo" "Aullo" Rõ ràng, "Hello" có tần xuất cao rất nhiều, phiên âm lựa chọn 17 e Áp dụng Machine Learning tự xây dựng hệ thống nhận diện giọng nói Machine learning sử dụng thuật toán lặp để học từ liệu cho phép máy tính tìm thấy thông tin, giá trị ẩn sâu mà không lập trình cách rõ ràng nơi để tìm Khía cạnh lặp lại Machine learning quan trọng mơ hình tiếp xúc với liệu chúng thích ứng cách độc lập Các hệ thống Machine Learning nhanh chóng áp dụng kiến thức đào tạo từ liệu lớn để thực công việc nhận diện giọng nói cách xuất sắc ểu Ti Nhận diện ngơn ngữ vấn đề khó, ta phải chấp nhận vấn đề như: chất lượng micro kém, môi trường ghi âm ồn, tiếng dội lại, giọng điệu khác Tất vấn đề hữu trình đào tạo, khiến mạng nơron khơng có độ xác cao Và để xử lý tiếng ồn, ta cần liệu đào tạo giống mà người gào thét vào mặt người nói Để xây dựng hệ thống nhận diện âm đạt tới trình độ Siri, Google Now! hay Alexa, ta cần nhiều liệu Không muốn hệ thống nhận diện đạt 80% độ xác Vì vậy, cần cho máy tự động lưu học (train data) lượng lớn liệu người dùng tự cung cấp Ta tạo lên hệ thống nhận diện giọng nói hồn chỉnh ận lu ơn m f Giao diện giọng nói người dùng (Voice user interface) Giao diện giọng nói người dùng (Tiếng anh: Voice user interface, viết tắt: VUI) công nghệ nhận dạng giọng nói, cho phép người dùng tương tác với hệ thống thiết bị máy tính, điện thoại thông minh thiết bị khác thông qua lệnh thoại giọng nói Điều làm nên độc đáo VUI sử dụng giọng nói làm tương tác chính, khơng dùng tay hay mắt trái ngược với tương tác bàn phím - chuột - hình hình cảm ứng Cách tiếp cận giọng nói cho phép người dùng bắt đầu thao tác dịch vụ tự động thực tác vụ hàng ngày họ theo cách nhanh hơn tập trung làm việc khác c họ Công dụng cơng nghệ nhận diện giọng nói Tốc độ điều người ta nhắc đến đề cập đến câu hỏi Thay phải ngồi nhập tay email, soạn văn bản, đặt lịch hẹn, … điện thoại máy tính gây tốn thời gian, chí sai sót Giờ sử dụng giọng nói phương thức để nhập liệu Nó nhanh chóng, đơn giản, thuận tiện vơ dễ dàng Không dừng lại việc nhập liệu, nhận dạng giọng nói cịn ứng dụng hệ thống điều khiển hệ sinh thái smarthome Nhận diện 18 giọng nói cịn sử dụng nhiều lĩnh vực trí tuệ nhân tạo (Artificial Intelligence) Siri hay Google Assistant ví dụ điển hình Ngồi ra, cơng nghệ nhận dạng giọng nói đánh giá sản phẩm tuyệt vời dành cho người khiếm thị Những người khiếm thị tận hưởng tiến cơng nghệ tương tự mà người bình thường làm, khơng cịn khoảng cách xuất khiếm khuyết giác quan Sự cần thiết công nghệ nhận diện giọng nói sống Có trăm, nghìn ứng dụng cho phép người dùng tìm kiếm, viết email, ghi đặt lịch hẹn smartphone Thế nhưng, với số người, việc sử dụng bàn phím nhỏ xíu điện thoại khơng tiện lợi, chí khó chịu Tốc độ gõ bạn nhanh xác, có người điên lên phải xóa viết lại chữ họ bấm nhầm sang phím bên cạnh Ti ểu Giọng nói giải pháp hợp lý tính đến thời điểm Người dùng khơng xài giọng nói phương thức nhập liệu mà thân thiết bị xài giọng nói để đọc thơng tin cần thiết Đó chưa kể đến lợi ích to lớn mà phần mềm dựa giọng nói mang lại cho người khiếm thị Họ tận hưởng tiến cơng nghệ tương tự mà người bình thường làm, khơng cịn khoảng cách xuất khiếm khuyết giác quan ận lu ôn m c họ Tất nhiên, công nghệ giọng nói giai đoạn đầu chưa thể thay hồn tồn bàn phím ảo/vật lý nút hình Tuy nhiên, dần tiến đến kỉ nguyên đại hơn, ứng dụng giọng nói hồn thiện Ngơn ngữ lập trình sử dụng cho nhận diện giọng nói Thuật tốn nhận dạng giọng nói hoạt động thơng qua mơ hình âm ngơn ngữ Mơ hình âm đặc trưng kết hợp đơn vị ngôn ngữ tín hiệu giọng nói âm Mơ hình ngơn ngữ khớp âm với trình tự từ để giúp phân biệt từ có âm tương tự Để nhận dạng mẫu thời gian lời nói để cải thiện độ xác hệ thống, ta dùng Mơ hình Markov ẩn với số ngôn ngữ sau: a Ngôn ngữ C# C# ngôn ngữ mã nguồn mở chạy Windows, Mac Linux Ngôn ngữ giúp phát triển ứng dụng cửa hàng Windows, ứng dụng Android ứng dụng IOS Nó hữu ích để xây dựng khung thư viện phụ trợ trung cấp Nó hỗ trợ khả tương tác ngôn ngữ, nghĩa C# truy cập mã viết ngôn ngữ tuân thủ NET C# chạy nhiều 19 tảng máy tính khác để nhà phát triển dễ dàng thực tái sử dụng mã hóa C# hỗ trợ nạp chồng tốn tử thị tiền xử lý giúp cho ngữ pháp nhận dạng giọng nói Với ngơn ngữ này, ta dễ dàng xử lý kiện nhận dạng giọng nói b Ngơn ngữ Java Java ngơn ngữ lập trình hướng đối tượng u cầu cao Nó có nhu cầu cao tính mở rộng Để phát triển khái niệm nhận dạng giọng nói, Java tạo API Java Speech Nó tập hợp lớp trừu tượng giao diện sử dụng mà nhà phát triển Java tạo khung nhìn cơng cụ lời nói Nó có khả tuyệt vời để học mẫu giọng nói bạn cơng cụ xử lý tình khơng hỗ trợ cách lưu lốt Vì Java hỗ trợ tính tuyệt vời trung lập kiến trúc nên nhà phát triển chạy xử lý có sẵn giới thực mà không cần nghĩ đến việc phát triển biên dịch ểu Ti c Ngôn ngữ PHP PHP ngơn ngữ lập trình hướng tính phổ biến PHP ngôn ngữ cấp cao cú pháp tương tự ngơn ngữ C, dễ dàng cho người bắt đầu tạo phần mềm nhận dạng giọng nói PHP hỗ trợ nhiều hệ điều hành nên nhà phát triển dễ dàng di chuyển ứng dụng viết PHP từ máy chủ Windows gốc sang máy chủ Linux mà không cần sửa đổi PHP hỗ trợ số lớp mã nguồn mở hữu ích cho việc tạo ứng dụng nhận dạng giọng nói ta cung cấp ứng dụng tạo miễn phí Việc tạo ứng dụng 'chuyển lời nói thành văn bản' 'chuyển văn thành giọng nói' dễ dàng giao diện ứng dụng dịch vụ lưu trữ web rẻ ận lu ôn m họ c d Ngôn ngữ Perl Perl ngôn ngữ lập trình đa tảng ổn định ban đầu sử dụng để xử lý văn ngày việc sử dụng ngơn ngữ lập trình viên phát triển ứng dụng web ứng dụng mạng Vì ngơn ngữ có chức class tuyệt vời nên việc phát triển, ứng dụng nhận dạng giọng nói trở nên dễ dàng nhà phát triển Trong nhiều ngôn ngữ, khoảng trắng thừa tạo lỗi, ngơn ngữ lập trình Perl khơng quan tâm đến khoảng trắng để người dùng dễ dàng tạo chương trình Ngơn ngữ lập trình Perl thực nhập liệu tự động quản lý nhớ tự động nên việc tạo ứng dụng nhận dạng giọng nói trở nên đơn giản 20 III MỘT SỐ ỨNG DỤNG VỀ CƠNG NGHỆ NHẬN DIỆN GIỌNG NĨI - Phần mềm nhận dạng giọng nói Gboard: ểu Ti lu Hình 14 Phần mềm Gboard ận ơn m Phần mềm nhận dạng giọng nói Gboard có tên gọi trước Google Keyboard Phần mềm hỗ trợ 120 ngơn ngữ khác tích hợp nhiều tính mạnh mẽ nhập liệu giọng nói, biểu tượng cảm xúc, tìm kiếm ảnh động (GIF), tra cứu thông tin, dịch thuật nội dung tin nhắn bàn phím… c họ Nếu sử dụng thiết bị iOS, sau cài đặt xong, bàn phím xuất người dùng cần nhấn giữ lên biểu tượng dấu phẩy chạm vào hình Trái đất Cuối cùng, nhấn vào biểu tượng micro bàn phím bắt đầu nói để nhập liệu Người dùng laptop PC thực sử dụng tính nhập liệu văn giọng nói thơng qua Google Docs Nếu muốn gõ dấu chấm, phẩy, xuống dòng… người dùng cần phải nói chậm rãi ngắt quãng Theo thử nghiệm, khả nhận diện giọng nói (tiếng Việt) Gboard tốt, nội dung thể rõ ràng bị sai tả - Phần mềm nhận dạng giọng nói ListNote Speech-to-Text Notes 21 Hình 15 Phần mềm ListNote Speech-to-Text Notes ểu Ti Với phần mềm nhận dạng giọng nói ListNote Speech-to-Text Notes, người dùng tạo nhanh ghi giọng nói So với ứng dụng khác, ListNote Speech-to-Text Notes tương đối dễ sử dụng, liệu (ghi chú) lập mục nên việc tìm kiếm diễn nhanh… Người dùng cịn đặt mật mã hóa nội dung theo tiêu chuẩn AES muốn bảo vệ tập tin khỏi mắt tò mò người khác ận lu m - Phần mềm nhận dạng giọng nói Voice Text ơn c họ Hình 16 Phần mềm Voice Text Voice Text phần mềm nhận dạng giọng nói cho phép người dùng gửi/nhận tin nhắn giọng nói, nhập văn mà khơng cần chạm vào điện thoại, dự đoán nội dung, thực gọi giọng nói… 22 IV KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Tiềm công nghệ nhận dạng giọng nói lớn Hiện khai thác bề chưa thật sâu Hãy nghĩ đến tương lai nơi ta hồn tồn để điện thoại túi quần thực tất cách nói vào tai nghe Bluetooth Nhìn rộng hơn, ta vừa tới nhà nói vào điện thoại mình: “mở máy lạnh, mở nhạc” mở cửa bước vào thứ thực Tính nhận dạng giọng nói khơng dừng lại việc nhập liệu mà cịn mở chân trời để khai thác đơn giản hóa sống ểu Ti Để AI thơng minh cần phải có liệu để huấn luyện cho nó, nhận diện hình ảnh, văn bản, giọng nói Google có hàng tỷ người dùng với cơng cụ tìm kiếm, biết khoảng thời gian nào, thời điểm người dùng quan tâm từ khóa nào, lĩnh vực Đó cách người dùng tự tạo liệu cho AI Cũng cách người dùng trực tiếp cung cấp liệu cho AI lu ận Công nghệ nhận dạng giọng nói ví dụ sống động AI mà ta trực tiếp trải nghiệm Đi kèm với rủi ro nhìn thấy Một câu châm ngôn Định lý Tesler nói "AI điều chưa thực hiện" Hi vọng tương lai, người làm khoa học máy tính nghiên cứu phát triển công nghệ phục vụ cho phát triển nhân loại Công nghệ sinh để làm cho sống dễ dàng hơn, việc nhận dạng giọng nói chắn khơng phải ngoại lệ ôn m c họ 23 TÀI LIỆU THAM KHẢO [1] C Lin, H Nein and J Hwu, GA-based noisy speech recogni-tion using two-dimensional cepstrum, IEEE Transactions onSpeech and Audio Processing 8(6) (2000) [2] J Sun, F Karray, O Basir and M Kamel, Fuzzy logic-based natural language processing and its application tospeech recognition, Proceedings of the 5th Biannual World 13(2002), 429–434 [3] Nguyen Dinh Tung, Nhận diện giọng nói: https://viblo.asia/p/machinelearning-that-thu-vi-6-nhan-dien-giong-noi-1Je5E8DylnL, 08/01/2018 [4] Duy Luân, Công nghệ nhận dạng xử lý giọng nói, tương lai việc nhập liệu thiết bị di động ểu Ti ận lu ôn m c họ 24

Định dạng
Số trang	24
Dung lượng	898,05 KB