Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 24 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
24
Dung lượng
240,75 KB
Nội dung
BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP HCM KHOA: CÔNG NGHỆ THÔNG TIN MÔN HỌC: CÔNG NGHỆ PHẦN MỀM Đề tài: TÌM HIỂU CƠNG NGHỆ NHẬN DIỆN GIỌNG NÓI Giảng viên hướng dẫn: Mạnh Thiên Lý Sinh viên thực hiện: Võ Trương Minh Nhật Phan Mai Như Ý Trần Thị Kim Nhiên Nguyễn Thị Thu Bích Nguyễn Thị Khánh Kiều Tan Thị Minh Thư 2001181238 2001181437 2001180178 2001180384 2001181170 2001181350 TP Hồ Chí Minh, 28 Tháng 02 Năm 2021 LỜI MỞ ĐẦU Ngày nay, công nghệ thông tin ngày phát triển với tiến vượt bậc khoa học kỹ thuật nói chung, có nhiều cơng nghệ cho mắt Hơn thập kỷ qua, với phát triển mạnh mẽ công nghệ thông tin, công nghệ xử lý tiếng nói mã hố, nhận dạng tiếng nói, chuyển lời nói thành văn bản, chuyển chữ viết thành lời nói, trở thành vấn đề nghiên cứu trọng điểm nhiều nhà khoa học quan tâm nhiều lĩnh vực khác như: tin học, toán học, điều khiển, điện tử, sinh học, Trong thời gian gần đây, nhà nghiên cứu tập trung vào công nghệ nhận dạng giọng nói có số thành công việc nhận dạng tiếng Anh số ngơn ngữ khác Đã có nhiều cơng trình nghiên cứu lĩnh vực nhận dạng giọng nói (Speech recognition) sở lý thuyết hệ thống thông minh nhân tạo, nhiều kết trở thành sản phẩm Via Voice Gold hãng IBM, Dragon Natural Speaking Dragon System, Speech SDK Microsoít, Triển khai cơng trình nghiên cứu đưa vào thực tế ứng dụng vấn đề việc làm có ý nghĩa giai đoạn cơng nghiệp hố, đại hố nước nhà Vì thế, nhóm em chọn đề tài “Tìm hiểu Cơng nghệ nhận diện giọng nói” để tìm hiểu trình bày nội dung tổng quan công nghệ Tuy cố gắng học hỏi tìm hiểu tài liệu từ nhiều nguồn thông tin điều kiện thời gian khả có hạn nên khơng tránh thiếu sót Kính mong đóng góp ý kiến từ bạn để nhóm em hồn thiện báo cáo cơng nghệ Nhóm em xin chân thành cảm ơn Thành phố Hồ Chí Minh, ngày 28 tháng 02 năm 2021 MỤC LỤC LỜI MỞ ĐẦU MỤC LỤC DANH SÁCH HÌNH ẢNH I GIỚI THIỆU VỀ CƠNG NGHỆ NHẬN DIỆN GIỌNG NĨI Giới thiệu cơng nghiệp 4.0 tầm ảnh hưởng Sơ lược lịch sử cơng nghệ nhận diện giọng nói Giới thiệu cơng nghệ nhận diện giọng nói a Cơng nghệ nhận diện giọng nói gì?7 b Cách thức hoạt động công nghệ nhận diện giọng nói c Ưu, nhược điểm cơng nghệ nhận diện giọng nói d Một số thư viện hỗ trợ cho cơng nghệ nhận diện giọng nói II TỔNG QUAN VỀ CƠNG NGHỆ NHẬN DIỆN GIỌNG NĨI 10 Mơ hình triển khai cơng nghệ nhận diện giọng nói 10 Các kỹ thuật áp dụng cơng nghệ nhận diện giọng nói 10 a Kỹ thuật xử lý ngôn ngữ tự nhiên (Natural Language Processing) _11 b Chuyển âm thành số 12 c Kỹ thuật tiền xử lý liệu mẫu âm 13 d Kỹ thuật nhận diện ký tự từ đoạn âm ngắn 16 e Áp dụng Machine Learning tự xây dựng hệ thống nhận diện giọng nói 18 f Giao diện giọng nói người dùng (Voice user interíace)18 Cơng dụng cơng nghệ nhận diện giọng nói 18 Sự cần thiết cơng nghệ nhận diện giọng nói sống 19 Ngơn ngữ lập trình sử dụng cho nhận diện giọng nói 19 a Ngơn ngữ C#19 b Ngôn ngữ Java 20 c Ngôn ngữ PHP 20 d Ngôn ngữ Perl _20 III MỘT SỐ ỨNG DỤNG VỀ CÔNG NGHỆ NHẬN DIỆN GIỌNG NÓI 21 IV KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 23 TÀI LIỆU THAM KHẢO 24 DANH SÁCH HÌNH ẢNH Hình Mơ hình cơng nghệ nhận diện giọng nói 11 Hình Input output Cơng nghệ nhận diện giọng nói 12 Hình Ví dụ lấy mẫu sampling 13 Hình Ví dụ lấy mẫu sampling 13 Hình Ví dụ lấy mẫu sampling 14 Hình Ví dụ lấy mẫu sampling 14 Hình 320 mẫu âm 20ms 15 Hình Âm gốc chu kỳ 20ms 15 Hình Bảng số thể độ lượng khoảng tần số 16 Hình 10 Đồ thị thể độ lượng khoảng tần số 16 Hình 11 Quang phổ cho lượng khoảng tần số lặp lại trình 16 Hình 12 Mơ hình trạng thái 17 Hình 13 Bản đồ kết nối từ "HELLO"18 Hình 14 Phần mềm Gboard 21 Hình 15 Phần mềm ListNote Speech-to-Text Notes 22 Hình 16 Phần mềm Voice Text 22 I GIỚI THIỆU VỀ CƠNG NGHỆ NHẬN DIỆN GIỌNG NĨI Giới thiệu công nghiệp 4.0 tầm ảnh hưởng Công nghiệp 4.0 tập trung vào công nghệ kỹ thuật số từ thập kỷ gần lên cấp độ hoàn toàn với trợ giúp kết nối thông qua Internet vạn vật, truy cập liệu thời gian thực giới thiệu hệ thống vật lý không gian mạng Công nghiệp 4.0 cung cấp cách tiếp cận toàn diện hơn, liên kết tồn diện cho sản xuất Nó kết nối vật lý với kỹ thuật số cho phép cộng tác truy cập tốt phận, đối tác, nhà cung cấp, sản phẩm người Công nghiệp 4.0 trao quyền cho chủ doanh nghiệp kiểm sốt hiểu rõ khía cạnh hoạt động họ cho phép họ tận dụng liệu tức thời để tăng suất, cải thiện quy trình thúc đẩy tăng trưởng Công nghiệp 4.0 cho phép nhà máy thông minh, sản phẩm thông minh chuỗi cung ứng thông minh, làm cho hệ thống sản xuất dịch vụ trở nên linh hoạt, linh hoạt đáp ứng khách hàng Các thuộc tính hệ thống sản xuất dịch vụ với Công nghiệp 4.0 nêu bật lợi ích mà Cơng nghiệp 4.0 mang lại cho doanh nghiệp thảo luận Trong tương lai, khoa học cơng nghệ tiếp tục phát triển đóng vai trị ngày quan trọng q trình phát triển kinh tế xã hội quốc gia Tri thức xác định lực lượng sản xuất trực tiếp động lực phát triển hàng đầu quốc gia Để phát triển bền vững, quốc gia phải tiếp tục đẩy mạnh đầu tư phát triển khoa học công nghệ nhằm ứng dụng thành tựu khoa học công nghệ vào sản xuất, đặc biệt thành tựu cách mạng công nghiệp lần thứ tư nhằm tạo sản phẩm cơng nghệ sản xuất Tới cơng nghệ nhận diện giả lập giọng nói đời để đáp nhu cầu phát triển người Sơ lược lịch sử công nghệ nhận diện giọng nói Trước đây, việc điều khiển cỗ máy cách nói chuyện với chúng câu chuyện khoa học viễn tưởng Nhưng viễn tưởng dần trở thành thực với phát triển vượt bậc công nghệ, đặc biệt phát triển Trí tuệ nhân tạo (AI) tảng khác để tạo giao diện người dùng cho phép sử dụng giọng nói để điều khiển thiết bị công nghệ ị- Năm 1877, ứng dụng nhận diện giọng nói tạo Thomas Edison phát minh máy ghi âm, thiết bị ghi tái tạo âm -I- Năm 1952, kỹ sư Bell Labs phát triển nhận dạng chữ số tự động có tên Audrey Audrey cao feet, có nhiều tín hiệu tương tự với tụ điện, khuếch đại lọc, nhận 10 chữ số nói giọng nói Mặc dù thiết bị nhận đầu vào giọng nói với độ xác 97-99% kích thước lớn, chi phí cao thiết bị điện tử phức tạp nên khơng thể trở thành sản phẩm thương mại hóa Tuy nhiên, thiết bị Audrey đánh dấu khởi đầu cơng nghệ nhận dạng giọng nói tiếp tục cho nghiên cứu sau Hệ thống Audrey xem thiết bị nhận dạng giọng nói -I- Năm 1962, máy Shoe box IBM phát triển, nhận 16 từ tiếng anh, 10 chữ số lệnh số học -I- Từ năm 1971 - 1976, Bộ Quốc phòng Mỹ tài trợ cho chương trình DARPA SUR (Nghiên cứu hiểu lời nói), dẫn đến phát triển Harpy tạo Carnegie Mellon hiểu 1011 từ ị Vào năm 1984, Công nghệ nhận dạng giọng nói hệ SpeechWorks Nuance giới thiệu thông qua hệ thống tổng đài trả lời tự động (IVR) Những IVR nhận giọng nói người qua gọi thực nhiệm vụ giao cho chúng Bất có điện thoại nhận tất thơng tin tìm thời gian chiếu phim địa phương, nghe thông tin giao thông, báo giá cổ phiếu, đặt chuyến bay máy bay, chuyển tiền tài khoản, đặt mua thuốc theo toa, Mọi thứ xoay quanh điện thoại cầm tay giọng nói người Các hệ thống IVR trở thành xu hướng chủ đạo năm 2000 phần dịch vụ chăm sóc hỗ trợ khách hàng ngày -I- Năm 1992, Apple sản xuất hệ thống nhận dạng giọng nói liên tục theo thời gian thực hiện, nhận lên đến 20.000 từ ị Năm 2006, Apple giới thiệu khái niệm Siri, cho phép người dùng tương tác với máy sử dụng giọng nói Sau đó, Google giới thiệu nghiên cứu hỗ trợ giọng nói vào năm 2007 Những gã khổng lồ cơng nghệ Microsoft, Apple Google sau tung trợ lý giọng nói cho thiết bị di động -I- Đến năm 2008, Google lên với ứng dụng Google Voice Search dành cho Iphone -I- Năm 2010, Google giới thiệu nhận dạng cá nhân hoá, thiết bị Android ghi lại truy vấn giọng nói người dùng khác để phát triển mơ hình giọng nói nâng cao Nó bao gồm 230 tỷ từ tiếng anh -I- Năm 2011, cuối Siri Apple triển khai Iphone 4S, dựa điện toán đám mây ị Năm 2014 Amazon giới thiệu Amazon Echo, loa thông minh tích hợp với trợ lý ảo (Alex, Siri ) Những lời kết hợp với ứng dụng di động thông qua kỹ Alexa Tương tự, đối thủ cạnh tranh để giới thiệu Google home, Apple Homepod để cải thiện trải nghiệm người dùng họ văn phịng, nhà chí trung tâm mua sắm -I- Năm 2015, Microst cơng bố sẵn có Cortana cho máy tính để bàn thiết bị di động Windows 10 phần việc hợp Windows Phone vào hệ điều hành nói chung -I- Vào tháng năm 2016, Trợ lý Google (Google Assistant) trợ lý cá nhân ảo phát triển Google cho thiết bị di động nhà thông minh, mắt lần đầu hội nghị nhà phát triển hãng Không Google Now, Trợ lý Google tham gia trò chuyện hai chiều Trợ lý Google đưa vào ứng dụng nhắn tin Google Allo, loa thông minh Google Home -I- năm 2017, Google Assistant tiếp tục mở rộng hỗ trợ cho lượng lớn thiết bị, bao gồm xe thiết bị nhà thông minh Các chức Assistant bổ sung nhà phát triển bên thứ ba Giới thiệu công nghệ nhận diện giọng nói a Cơng nghệ nhận diện giọng nói gì? Cơng nghệ nhận diện giọng nói máy hệ thống có khả nhận dịch (hoặc hiểu thực hiện) lệnh thu từ giọng nói người Nó sử dụng nhiều lĩnh vực trí tuệ nhân tạo (AI), Google Assistant ví dụ điển hình Đây máy hệ thống có khả nhận dịch (hoặc hiểu thực hiện) lệnh thu từ giọng nói người Nhận diện giọng nói gồm thuật ngữ: Voice recognition Speech recognition ị- Voice recognition liên quan đến việc xác định giọng nói xác cá nhân đó, tương tự phương pháp nhận diện sinh trắc học ị- Speech recognition việc xác định từ ngữ câu nói dịch chúng sang ngơn ngữ máy tính b Cách thức hoạt động công nghệ nhận diện giọng nói Để chuyển giọng nói sang văn câu lệnh máy tính, hệ thống phải thực trình gồm nhiều bước phức tạp Khi nói, bạn tạo rung động khơng khí Bộ chuyển đổi tín hiệu tương tự sang số (Analog-toDigital Converter, ADC) chuyển sóng tương tự (analog) thành liệu mà máy tính hiểu Để làm điều này, hệ thống thu thập mẫu (hoặc số hóa) âm cách đo xác sóng âm khoảng thời gian gần nhau, sau lọc âm số hoá để loại bỏ tiếng ồn, tách chúng thành dải tần số khác Nó "bình thường hóa" tinh chỉnh âm đến mức âm lượng không thay đổi xếp theo thời gian Không phải lúc người nói với tốc độ nên âm phải điều chỉnh cho phù hợp với tốc độ mà âm mẫu ghi nhận nhớ máy Tiếp theo, tín hiệu chia thành nhiều phần nhỏ (thời gian khoảng vài phần trăm giây, chí phần ngàn giây trường hợp có phụ âm cuối khó phân biệt "p" "t") Chương trình sau đặt phần âm vào âm vị có sẵn ngơn ngữ thích hợp Với phát triển công nghệ, ứng dụng nhận dạng giọng nói ngày hồn thiện với tính xác cao Thay nhận dạng chữ cái, cơng nghệ cịn có khả nhận dạng theo ngữ nghĩa câu nói để giảm thiểu sai sót q trình nhận dạng c Ưu, nhược điểm cơng nghệ nhận diện giọng nói > Ưu điểm phần mềm nhận diện giọng nói: - Khả truy cập: Đây thuận lợi người khuyết tất họ dùng chuột hay bàn phím, dùng giọng nói để hệ thống chuyển thành văn bản, giúp nhập liệu hay điều khiển cách dễ dàng - Kiểm tra tả: Người dùng truy cập vào cơng cụ chỉnh sửa tương tự giải pháp xử lý văn chuẩn Đương nhiên thứ khơng xác 100% phần mềm nhận diện xử lý phần lớn lỗi tả, ngữ pháp - Tốc độ nhanh: Phần mềm nhận dạng giọng nói nắm bắt giọng nói người dùng với tốc độ nhanh so với nhập liệu bàn phím, tốc độ nhập liệu giọng nói cải thiện đáng kể > Nhược điểm phần mềm nhận diện giọng nói: - Thiết lập "dạy": Mặc dù tất phần mềm nhận dạng giọng nói hứa hẹn hoạt động sau vài phút thiết lập, thực trình ghi nhận, làm quen với giọng nói, âm điệu tốc độ nói người dùng có đơi chút phức tạp tốn thời gian Một số phần mềm nhận dạng giọng nói cịn bắt người dùng nói lại, chí khơng thể nhận diện bạn nói - Chưa thực ổn định: Việc nói mà bị ngắt chừng khiến người dùng cảm thấy khó chịu Đặc biệt, số người khơng thích phần mềm nhận dạng giọng nói gây bối rối cho người dùng lên xuống giọng hay dưng nói nhỏ lại - Kho từ vựng hạn chế: Người dùng phải sẵn sàng chấp nhận trường hợp phần mềm xử lý q lâu từ vừa nói khơng nằm từ điển có sẵn Đó điều nhà nghiên cứu cố gắng cải tiến phần mềm nhận dạng giọng nói d Một số thư viện hỗ trợ cho công nghệ nhận diện giọng nói -I- Nuance tên nhắc đến nhiều việc cung cấp thư viện giọng nói cho app di động Chính nhờ vào thư viện mà lập trình viên khơng cần phải tự thiết kế hệ thống nhận dạng, phiên dịch cho app mà cần xài lại có sẵn, tiết kiệm nhiều thời gian, công sức tiện bạc Nuance có hỗ trợ cho tiếng Việt ứng dụng Dragon Dictation hãng phát triển ị- OpenEars thư viện khác thuộc dạng nguồn mở hoạt động offline, hạn chế hỗ trợ tiếng Anh Tây Ban Nha Vài tên khác kể đến Ivona, iSpeech, Vocalkit and Acapela ị- Một cách khác mà nhiều phần mềm xài tận dụng nguồn nhận dạng có sẵn hệ điều hành di động Người dùng kích hoạt tính chỗ cần nhập văn Từ iOS trước tính khơng hỗ trợ tiếng Việt, phải lên iOS có Google bắt đầu hỗ trợ nhập liệu tiếng Việt cho Android khoảng năm trước Ngồi ra, Apple, Google có cung cấp hàm API giúp app lập trình viên biết nói với vài dịng mã nguồn II TỔNG QUAN VỀ CƠNG NGHỆ NHẬN DIỆN GIỌNG NĨI Mơ hình triển khai cơng nghệ nhận diện giọng nói Hình Mơ hình cơng nghệ nhận diện giọng nói Có nhiều cách thức mà cơng ty triển khai, kể đến phương pháp phổ biến sau: ị- Điện toán đám mây: Trong trường hợp này, việc nhận dạng, xử lý ngôn ngữ diễn máy chủ công ty cung cấp dịch vụ Phương pháp đám mây giúp việc nhận dạng xác hơn, ứng dụng có dung lượng nhỏ, bù lại thiết bị phía người dùng phải ln kết nối với Internet Độ trễ q trình gửi giọng nói từ máy lên server trả kết từ server lại máy thứ đáng cân nhắc ị- Tích hợp thẳng vào app: Với phương thức này, trình xử lý giọng nói diễn nội ứng dụng, khơng cần giao tiếp với bên ngồi, tốc độ nhanh Người dùng không bắt buộc phải kết nối vào mạng thường trực Tuy nhiên, giải pháp gặp nhược điểm có cập nhật thay đổi máy nhận dạng, nhà sản xuất phải cập nhật lại app, với phương thức đám mây thay đổi cần làm phía server Kích thước ứng dụng tăng lên, lên tới vài trăm MB 2 Các kỹ thuật áp dụng công nghệ nhận diện giọng nói Thoạt nhìn việc triển khai cơng nghệ nhận dạng giọng nói đơn giản, thực chất khơng phải thế: - Thứ nhất, nhà phát triển phải xây dựng nên cơng nghệ lắng nghe, phân tích phiên dịch cách xác giọng nói người dùng Nếu khơng app biết bạn nói gì, cịn độ xác khơng cao khơng - Thứ hai, vấn đề địa hóa (localization) chuyện làm đau đầu lập trình viên Mỗi quốc gia có ngơn ngữ riêng mình, vấn đề làm để hỗ trợ nhiều ngôn ngữ tốt Hiện hầu hết dịch vụ giọng nói hỗ trợ tiếng Anh, Google Voice Input Android Voice Dictation iOS có hỗ trợ tiếng Việt cịn nhiều hạn chế Đó chưa nói đến việc vùng miền lại có cách nói, giọng điệu khác họ sử dụng ngôn ngữ Tuy nhiên, với cách máy dịch thuật hoạt động, cần truyền đoạn ghi âm vào mạng nơron đào tạo để tạo "bản dịch", điều mà nhận diện giọng nói với deep learning hướng tới: Hình Input output Cơng nghệ nhận diện giọng nói Vấn đề lớn tốc độ nói biến thiên Một người nói "Hello" nhanh người khác nói "heeeellllllloooooo!" cực chậm, tạo âm dài với nhiều liệu Cả âm nên nhận dạng xác từ - "hello!" Tự động chỉnh file âm với nhiều biến thể độ dài khác từ để tạo văn đồng lại khó Để xử lý vấn đề này, sử dụng số kỹ thuật đặc biệt thêm vài bước vào mạng deep learning a Kỹ thuật xử lý ngôn ngữ tự nhiên (Natural Language Processing) Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) tập hợp nhiều thuận tốn phức tạp nhằm phân tích mệnh lệnh người dùng 11 không bắt buộc họ phải nói theo cấu trúc câu định sẵn Nhiều năm trước muốn điều khiển giọng nói, bạn nói thứ "Mở đồ, "Báo thức lúc sáng" Cịn nhờ có NLP, ta nói câu "Siri, đánh thức lúc sáng ngày mai" NLP đơn giản để phát triển Cả Apple, Google Microsoít phải đầu tư nhiều tiền bạc nguồn lực để đưa NLP lên đến mức tiến Mặc dù vậy, công ty phải tiếp tục nghiên cứu để cải thiện độ xác hỗ trợ thêm nhiều ngôn ngữ khác b Chuyển âm thành số Bước nhận diện giọng nói rõ ràng - cần truyền sóng âm vào máy tính, xem hình ảnh tập hợp giá trị, với giá trị đại diện cho độ sáng điểm ảnh, để truyền vào mạng nơron Sóng âm có chiều liệu Ở thời điểm, chúng có giá trị cao độ Để chuyển sóng âm thành số, cần ghi lại độ cao sóng khoảng: Hình Ví dụ lấy mẫu sampling Hình Ví dụ lấy mẫu sampling 2 Hình Ví dụ lấy mẫu sampling Hình Ví dụ lấy mẫu sampling Phương pháp gọi sampling - lấy mẫu Chúng ta đọc mẫu 1/1000S ghi lại số đại diện chiều cao cùa sóng âm Đây file wav khơng bị nén Những âm chất lượng tốt ghi tần số 44.1khz (44,100 lần đọc giây) Nhưng với nhận diện giọng nói, tốc độ lấy mẫu 16khz (16,000 mẫu giây) đủ Lấy mẫu tạo đồ thị xấp xỉ so với sóng âm, đọc liệu theo khoảng Vì thế, để tránh bị liệu lần đọc, ta áp dụng lý thuyết Nyquist, sử dụng tốn học để tái tạo xác sóng âm gốc từ mẫu tách biệt - miễn lấy mẫu với tần số gấp đôi tần số âm muốn ghi lại Không phải lấy mẫu với tần số cao chất lượng âm tốt c Kỹ thuật tiền xử lý liệu mẫu âm Ta truyền số vào mạng nơron, cố gắng nhận diện cấu trúc âm trực tiếp mẫu khó Thay vào đó, giải vấn đề dễ cách tiền xử lý liệu Đầu tiên, bắt đầu nhóm mẫu âm khoảng 20ms: [-1274, -1252, -1160, -986, -792, -692, -614, -429, -286, -134, -57, -41, -169, -456, -450, -541, -761, 1667, -1231, -1047, -952, -645, -489, -448 , -397, -212, 193, 114, -17, -110, 128, 261, 198, 390, 461, 772, 948, 1451, 1974, 2624, 3793, 4968, 5939, 6057, 6581, 7302, 7640, 7223, 6119, 5461, 4820 4353 3611, 2746 2064, 1349 1178, 1085, 901, 301 -262, -499 -488 707 1406 1997, 2377 2494 -2605 -2675, 2627, -2500 -2148, 1648, -970, -364, 13, Z60, 494 788, 1011, 938, 717, 507, 323, 324, 325, 350, 103, -113, 64, 176, 93, -249, -461, -666, -909 -1159, -1307, -1544, -1815, -1725, -1341, -971, -959, -723, -261, 51, 21Ỏ, 142, 152, -92 -345, -439, -529, -710, -907, -887, -693, -403, -180 -14, -12, 29, 89, -47, 398, -896, -1262, -1610, -1862 -2021, -2077, -2105, -2023, -1697, -1360, -1150, -1148, -1091, -1013, -1018, -1126, -1255, -1270, -1266, -1174, -16 03, -767, -468, -300, -116, 92, 224, 72, -150, -336, -541, -820, 1178, -1289, -1345, -1385, -1365, -1223, 1004, 839, -734, -481, -396, -580, -52 7, -531, -376, -458, -581, -254, -277, 50, 331, 531, 641, 416, 697, 810, 812, 759, 739, 888, 1008, 1977, 3145, 4219, 4454, 4521, 5691, 6563, 6969, 6117, 5244, 4951, 4462 4124, 3435, 2671, 1847, 1370, 1591, 1960 1586, 713, 341, 462, 673, 60, -938, -1664, -2185, -2527, -2967, -3253, -3636, -38 59, -3723, -3134, -2380, -2032, -1831, -1457, -804, 241, 51, -113, -136, -122, -158, -147 -114, -181, -338, -266, 131, 418, 471, 651, 994, 1295, 1267 1197, 1291, 1110, 793 514, 379 174, -90, -139, 164 334, 467, 524 771, 1106, 1087 878 703 591, 471, 91, -199 -357, -454, -561, -665 -552, -512, -575 -669, -672, -763, -1022, -1435, -1791, -1999, -2242, -2563, -2853, -2893, -2740, -2625, -2556, -2385, -2138, -1936, -1803, -1649, -1495, -1460, -1446, -1345 -1177, -1088, -1072, -1003, -856, -719, -621, -585, -613, -634, -638, -636, -683, -819, -946, -1012, -964, -836, -762, -788] Hình 320 mẫu âm 20ms Ghi lại số đồ thị giúp có ước lượng xấp xỉ âm gốc chu kỳ 20ms: Hình Âm gốc chu kỳ 20ms Bản ghi âm khoảng 1/50s Nhưng chí đoạn ghi âm ngắn mớ hỗn độn cao độ âm khác Có âm thấp, âm trung chí âm cao Nhưng với nhau, âm tạo lên giọng nói Để giúp mạng nơron xử lý liệu dễ hơn, ta tách sóng âm phức tạp thành phần: phần chứa âm thấp, âm cao hơn, cao Sau đó, ta tính tổng lượng những dải tần số (từ thấp đến cao) kết nối lại tạo fingerprint - nhận dạng cho đoạn trích âm Chúng ta làm điều nhờ vào việc sử dụng Fourier transíorm tốn học Nó chia nhỏ sóng âm phức tạp thành sóng âm đơn tạo nó, ta tính tổng lượng đơn âm Sau sử dụng lý thuyết Nyquist trên, sóng âm trở thành dải liên tục Và sử dụng Fourier transform, lại tách dải liên tục thành notes riêng biệt (được tính tốn thuật tốn Fourier) để tìm tổng lượng note Kết cuối bảng số thể độ lượng khoảng tần số, từ âm thấp tới âm cao Mỗi số đại diện cho lượng dải 50hz clip 20ms: [110 474« 15*4 7911?? 166 153724795V 55, 1« 4Ỉ561&M.’: 1469 175 »»51 1W e 16*691045916 176 0061 «774 77167 179.797377117*65*7 17» 53*7571 354*719, 176.1717711*46*58 I7B 47684737*5): 71 , 159.26O2M285S6SO8, 163 244«« 199*167«, 149 15527K3931867, 154.34196586290136, 151.46179061113972, 152.99674739973979, 143.98871156117371, 156 «33737693738, 155 78237SMM2Í544, 157 1793094101783 « 146.28632297509679, 1M.37233832929228 158.1282656446088 147.23266451805145, 133.26597973863001, 116.5170100028831, 116.85501120577126, 115.40519005123537, 120.85619013711408, 112.4*40612 3161« 111.80244759457571 92 590676871856431 105 75063927434719 95.673146446202971 90.391748128064208 79.35581M55314899 86 «014)147713926 84 748200268709567 83.050569583779065 86 207180262242 75« 9* 25203193*154*76 «9 3615673519*8437 «.917307309643206 w.746777849123*49 86.726552726337033 85.70941274506692« 95.938840816664865 99.09254575917069 96.632437741434885 103.2396123166 6669 105.80328302591124, 109.53029281234707 116.46*00227060996 129.208906915926)5, 130 4346036178*441, 13« 1558)799*44712, 128.2SO56761852832, )38.14*92240466387, 140.03527148)0314 128.15138139« 29752 123.93*1*478493934 121.192890355*8113 119.03159255*22509 114.23027889344033, 119.171734215*997, 101.82560719093*93 110.91192243698025 186.04872005953503 1W.«697 7927980999, 92.123301579 «0341 94.376766266590295 97.«0709698634489 113.3712636*077845, 110.2*526597732718, H3.722*93479OW21 120 63960942628063 122 06*82553759932 117 967167160)6715 120.876*274*817975 125.060973 819*7157 111.57»1Ạ01Z«16Z4 115.5*4837«5Ọ5M»7 116 990*7501*265 11*.«659619324576 79 J*95*)98eM«75 1*4 83)11191*45597 1«* 66? 186*7«*5W 10*.91«!73*58/6*?, 97.14 *205?7536072 78.4)459 781117835, 82.21414478266ĩ2U 67.2460728O59596Ỉ4 66.57893726236031) 74.1MÌ0722608679* 64.861423011415653 99 167S61212002269 62.479712687304911 63.568362396107467 55.906096471453267 42 7908 0290)362839 55.693923524361097 50.776364877715011 41.196111220671298 51.06241366634*945 58.493563858289065 53.M1835O42922769 73.060663128159547 68.21625202122361 66.7701034934517 $9.76625 124915202 35.413635503802389 22.705615809358832 16.458048*45346381 44.91067*465379937 59.282513769840205 69.241393677323856 «1.770634874076346 88.40992380)546008 94.688033733251245 , 96.6*8 67526244051 91 806226496828543 94.57*526932206619 99 250924315589*74 97 «99164767741183 75.1765076162772)5 «0.947474423758905 71.«5910345)990862 93 «636640)74617» 96 7571465393*829« 96 V «614)5*976241, 99.36645653)63*413, 102.18712608176904, 1*2.065966630232», 101.78493139911882, 183.7883358299547 , 99.91522O4O387O748, 107.4347*470929935, 1*4.46449552620618, 105.70789868195298, 101 10596541338749, 100.75737831526195 , 91.742897*73196886 88.»727*9*3060093 » 936627732905*92 , 71.13*27574*339803 72.5*4 «4977*41457, 76.23318SS06299785, 63.281284410272761, 45.380164336858961, 43 018963766250437 , 49.133709791276826, 53.5O77S10O9S32953 48.586423555688746 4.47*776113028883 50.8338086581834« 51.003802143009629 , 39.577356593427531, 47.096919248996332 55.44219717566*313, ■ ■ ■ ■ I ■■ _ Hình Bảng số thể độ lượng khoảng tần số Nhưng dễ dàng nhiều ta biểu diễn dãy số trên đồ thị: Frequency (hz) Hình 10 Đồ thị thể độ lượng khoảng tần số Ta thấy dài tần số có nhiều lượng tần số thấp, lượng tần số cao Đây giọng nam điển hình Nếu lặp lại trình cho khoảng 20ms, có quang phổ (mỗi cột từ trái qua phải khoảng 20ms): aoo 7000 - = vxx> _ _ 5000 I ►— I -———, -— _ — —* _ _ — z~ĩ- ~ — 77 7— r -j * »00 -— — - - 2000 • ■ SST— - — — - _ 25 30 15 W*xtow f!Ufnbcf (20rm / 370 Mmptei p«r MnndoMl 40 Hình 11 Quang phổ cho lượng khoảng tần số lặp lại trình Tạo quang phổ giúp thực nhìn thấy âm cấu trúc độ cao Mạng nơron tìm cấu trúc liệu dễ dàng so với sóng âm thơ Do đó, đặc trưng mà ta truyền vào mạng nơron Qua ta thấy, hầu hết liệu thơ chứa nhiều nhiễu khó xử lý ảnh âm Một cách giúp hạn chế nhiễu tổng qt hóa: mạng CNN trích lọc đặc trưng thơng qua convolution - tích chập max pooling - tách lọc lớn nhất, hay xử lý âm lấy tổng lượng theo âm Việc tổng quát hóa giúp giảm chiều liệu hạn chế ảnh hưởng từ nhiễu Chú ý q tổng qt hóa lại làm tiêu biến đặc trưng, khiến học máy tìm lời giải d Kỹ thuật nhận diện ký tự từ đoạn âm ngắn Ta truyền dải âm 20ms vào mạng nơron đa lớp Với mảng cắt âm thanh, cố gắng tìm ký tự đại diện cho âm phát Hình 12 Mơ hình trạng thái Chúng ta sử dụng Recurrent Neural Network - RNN - mạng nơron hồi quy: kết tiên đốn q khứ có ảnh hưởng tới kết tiên đốn tương lai Đó ký tự có liên quan đến Ví dụ tìm "HEL", có khả nói tiếp "LO" Vì thế, dự đoán khứ giúp dự đoán tương lai tốt Sau chạy toàn âm thông qua mạng nơron, kết nối dải âm với ký tự có khả nói cao Đây đồ kết nối từ "HELLO": Hình 13 Bản đồ kết nối từ "HELLO" Mạng nơron dự đốn từ nói “HHHEE_LL_LLLOOO”, nghĩ có khả từ “HHHUU_LL_LLLOOO”, chí “AAAUU_LL_LLLOOO” Chúng ta có thêm vài bước để làm kết Đầu tiên, bỏ ký tự bị lặp, bỏ khoảng trống: 4- HHHEE_LL_LLLOOO => HE_L_LO => HELLO 4- HHHUU_LL_LLLOOO => HU_L_LO => HULLO 4- AAAUU_LL_LLLOOO => AU_L_LO => AULLO Như vậy, ta có khả phân âm "Hello", "Hullo" "Aullo" Nếu ta nói chúng thật to, nghe giống với "Hello" Bởi dự đốn ký tự một, mạng nơron tìm cách đọc âm khơng phải cách viết Ví dụ: ta nói "He would not go", máy dịch "He wud net go" Thủ thuật kết hợp dự đoán phiên âm với khả xuất văn (sách, bảo ) Ta loại bỏ phiên âm có khả ngồi thực tế giữ phiên âm thực tế Và từ "Hello", Hullo" "Aullo" Rõ ràng, "Hello" có tần xuất cao rất nhiều, phiên âm lựa chọn e Áp dụng Machine Learning tự xây dựng hệ thống nhận diện giọng nói Machine learning sử dụng thuật toán lặp để học từ liệu cho phép máy tính tìm thấy thơng tin, giá trị ẩn sâu mà khơng lập trình cách rõ ràng nơi để tìm Khía cạnh lặp lại Machine learning quan trọng mơ hình tiếp xúc với liệu chúng thích ứng cách độc lập Các hệ thống Machine Learning nhanh chóng áp dụng kiến thức đào tạo từ liệu lớn để thực cơng việc nhận diện giọng nói cách xuất sắc Nhận diện ngôn ngữ vấn đề khó, ta phải chấp nhận vấn đề như: chất lượng micro kém, môi trường ghi âm ồn, tiếng dội lại, giọng điệu khác Tất vấn đề hữu trình đào tạo, khiến mạng nơron khơng có độ xác cao Và để xử lý tiếng ồn, ta cần liệu đào tạo giống mà người gào thét vào mặt người nói Để xây dựng hệ thống nhận diện âm đạt tới trình độ Siri, Google Now! hay Alexa, ta cần nhiều liệu Không muốn hệ thống nhận diện đạt 80% độ xác Vì vậy, cần cho máy tự động lưu học (train data) lượng lớn liệu người dùng tự cung cấp Ta tạo lên hệ thống nhận diện giọng nói hồn chỉnh f Giao diện giọng nói người dùng (Voice user interíace) Giao diện giọng nói người dùng (Tiếng anh: Voice user interface, viết tắt: VUI) cơng nghệ nhận dạng giọng nói, cho phép người dùng tương tác với hệ thống thiết bị máy tính, điện thoại thơng minh thiết bị khác thông qua lệnh thoại giọng nói Điều làm nên độc đáo VUI sử dụng giọng nói làm tương tác chính, khơng dùng tay hay mắt trái ngược với tương tác bàn phím - chuột - hình hình cảm ứng Cách tiếp cận giọng nói cho phép người dùng bắt đầu thao tác dịch vụ tự động thực tác vụ hàng ngày họ theo cách nhanh hơn tập trung làm việc khác Công dụng công nghệ nhận diện giọng nói Tốc độ điều người ta nhắc đến đề cập đến câu hỏi Thay phải ngồi nhập tay email, soạn văn bản, đặt lịch hẹn, điện thoại máy tính gây tốn thời gian, chí sai sót Giờ sử dụng giọng nói phương thức để nhập liệu Nó nhanh chóng, đơn giản, thuận tiện vô dễ dàng Không dừng lại việc nhập liệu, nhận dạng giọng nói ứng dụng hệ thống điều khiển hệ sinh thái smarthome Nhận diện giọng nói cịn sử dụng nhiều lĩnh vực trí tuệ nhân tạo (Artificial Intelligence) Siri hay Google Assistant ví dụ điển hình Ngồi ra, cơng nghệ nhận dạng giọng nói đánh giá sản phẩm tuyệt vời dành cho người khiếm thị Những người khiếm thị tận hưởng tiến cơng nghệ tương tự mà người bình thường làm, khơng cịn khoảng cách xuất khiếm khuyết giác quan Sự cần thiết cơng nghệ nhận diện giọng nói sống Có trăm, nghìn ứng dụng cho phép người dùng tìm kiếm, viết email, ghi đặt lịch hẹn smartphone Thế nhưng, với số người, việc sử dụng bàn phím nhỏ xíu điện thoại khơng tiện lợi, chí khó chịu Tốc độ gõ bạn nhanh xác, có người điên lên phải xóa viết lại chữ họ bấm nhầm sang phím bên cạnh Giọng nói giải pháp hợp lý tính đến thời điểm Người dùng khơng xài giọng nói phương thức nhập liệu mà thân thiết bị xài giọng nói để đọc thơng tin cần thiết Đó chưa kể đến lợi ích to lớn mà phần mềm dựa giọng nói mang lại cho người khiếm thị Họ tận hưởng tiến công nghệ tương tự mà người bình thường làm, khơng cịn khoảng cách xuất khiếm khuyết giác quan Tất nhiên, công nghệ giọng nói giai đoạn đầu chưa thể thay hồn tồn bàn phím ảo/vật lý nút hình Tuy nhiên, dần tiến đến kỉ nguyên đại hơn, ứng dụng giọng nói hồn thiện Ngơn ngữ lập trình sử dụng cho nhận diện giọng nói Thuật tốn nhận dạng giọng nói hoạt động thơng qua mơ hình âm ngơn ngữ Mơ hình âm đặc trưng kết hợp đơn vị ngôn ngữ tín hiệu giọng nói âm Mơ hình ngơn ngữ khớp âm với trình tự từ để giúp phân biệt từ có âm tương tự Để nhận dạng mẫu thời gian lời nói để cải thiện độ xác hệ thống, ta dùng Mơ hình Markov ẩn với số ngôn ngữ sau: a Ngôn ngữ C# C# ngôn ngữ mã nguồn mở chạy Windows, Mac Linux Ngôn ngữ giúp phát triển ứng dụng cửa hàng Windows, ứng dụng Android ứng dụng IOS Nó hữu ích để xây dựng khung thư viện phụ trợ trung cấp Nó hỗ trợ khả tương tác ngôn ngữ, nghĩa C# truy cập mã viết ngôn ngữ tuân thủ NET C# chạy nhiều tảng máy tính khác để nhà phát triển dễ dàng thực tái sử dụng mã hóa C# hỗ trợ nạp chồng tốn tử thị tiền xử lý giúp cho ngữ pháp nhận dạng giọng nói Với ngơn ngữ này, ta dễ dàng xử lý kiện nhận dạng giọng nói b Ngơn ngữ Java Java ngơn ngữ lập trình hướng đối tượng u cầu cao Nó có nhu cầu cao tính mở rộng Để phát triển khái niệm nhận dạng giọng nói, Java tạo API Java Speech Nó tập hợp lớp trừu tượng giao diện sử dụng mà nhà phát triển Java tạo khung nhìn cơng cụ lời nói Nó có khả tuyệt vời để học mẫu giọng nói bạn cơng cụ xử lý tình khơng hỗ trợ cách lưu lốt Vì Java hỗ trợ tính tuyệt vời trung lập kiến trúc nên nhà phát triển chạy xử lý có sẵn giới thực mà không cần nghĩ đến việc phát triển biên dịch c Ngôn ngữ PHP PHP ngơn ngữ lập trình hướng tính phổ biến PHP ngôn ngữ cấp cao cú pháp tương tự ngơn ngữ C, dễ dàng cho người bắt đầu tạo phần mềm nhận dạng giọng nói PHP hỗ trợ nhiều hệ điều hành nên nhà phát triển dễ dàng di chuyển ứng dụng viết PHP từ máy chủ Windows gốc sang máy chủ Linux mà không cần sửa đổi PHP hỗ trợ số lớp mã nguồn mở hữu ích cho việc tạo ứng dụng nhận dạng giọng nói ta cung cấp ứng dụng tạo miễn phí Việc tạo ứng dụng 'chuyển lời nói thành văn bản' 'chuyển văn thành giọng nói' dễ dàng giao diện ứng dụng dịch vụ lưu trữ web rẻ d Ngôn ngữ Perl Perl ngôn ngữ lập trình đa tảng ổn định ban đầu sử dụng để xử lý văn ngày việc sử dụng ngơn ngữ lập trình viên phát triển ứng dụng web ứng dụng mạng Vì ngơn ngữ có chức class tuyệt vời nên việc phát triển, ứng dụng nhận dạng giọng nói trở nên dễ dàng nhà phát triển Trong nhiều ngôn ngữ, khoảng trắng thừa tạo lỗi, ngơn ngữ lập trình Perl khơng quan tâm đến khoảng trắng để người dùng dễ dàng tạo chương trình Ngơn ngữ lập trình Perl thực nhập liệu tự động quản lý nhớ tự động nên việc tạo ứng dụng nhận dạng giọng nói trở nên đơn giản III MỘT SỐ ỨNG DỤNG VỀ CÔNG NGHỆ NHẬN DIỆN GIỌNG NĨI - Phần mềm nhận dạng giọng nói Gboard: Hình 14 Phần mềm Gboard Phần mềm nhận dạng giọng nói Gboard có tên gọi trước Google Keyboard Phần mềm hỗ trợ 120 ngôn ngữ khác tích hợp nhiều tính mạnh mẽ nhập liệu giọng nói, biểu tượng cảm xúc, tìm kiếm ảnh động (GIF), tra cứu thơng tin, dịch thuật nội dung tin nhắn bàn phím Nếu sử dụng thiết bị iOS, sau cài đặt xong, bàn phím xuất người dùng cần nhấn giữ lên biểu tượng dấu phẩy chạm vào hình Trái đất Cuối cùng, nhấn vào biểu tượng micro bàn phím bắt đầu nói để nhập liệu Người dùng laptop PC thực sử dụng tính nhập liệu văn giọng nói thơng qua Google Docs Nếu muốn gõ dấu chấm, phẩy, xuống dịng người dùng cần phải nói chậm rãi ngắt quãng Theo thử nghiệm, khả nhận diện giọng nói (tiếng Việt) Gboard tốt, nội dung thể rõ ràng bị sai tả - Phần mềm nhận dạng giọng nói ListNote Speech-to-Text Notes Hình 15 Phần mềm ListNote Speech-to-Text Notes Với phần mềm nhận dạng giọng nói ListNote Speech-to-Text Notes, người dùng tạo nhanh ghi giọng nói So với ứng dụng khác, ListNote Speech-to-Text Notes tương đối dễ sử dụng, liệu (ghi chú) lập mục nên việc tìm kiếm diễn nhanh Người dùng cịn đặt mật mã hóa nội dung theo tiêu chuẩn AES muốn bảo vệ tập tin khỏi mắt tò mò người khác - Phần mềm nhận dạng giọng nói Voice Text Hình 16 Phần mềm Voice Text Voice Text phần mềm nhận dạng giọng nói cho phép người dùng gửi/nhận tin nhắn giọng nói, nhập văn mà khơng cần chạm vào điện thoại, dự đoán nội dung, thực gọi giọng nói 2 IV KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Tiềm công nghệ nhận dạng giọng nói lớn Hiện khai thác bề chưa thật sâu Hãy nghĩ đến tương lai nơi ta hồn tồn để điện thoại túi quần thực tất cách nói vào tai nghe Bluetooth Nhìn rộng hơn, ta vừa tới nhà nói vào điện thoại mình: “mở máy lạnh, mở nhạc” mở cửa bước vào thứ thực Tính nhận dạng giọng nói khơng dừng lại việc nhập liệu mà cịn mở chân trời để khai thác đơn giản hóa sống Để AI thơng minh cần phải có liệu để huấn luyện cho nó, nhận diện hình ảnh, văn bản, giọng nói Google có hàng tỷ người dùng với cơng cụ tìm kiếm, biết khoảng thời gian nào, thời điểm người dùng quan tâm từ khóa nào, lĩnh vực Đó cách người dùng tự tạo liệu cho AI Cũng cách người dùng trực tiếp cung cấp liệu cho AI Công nghệ nhận dạng giọng nói ví dụ sống động AI mà ta trực tiếp trải nghiệm Đi kèm với rủi ro nhìn thấy Một câu châm ngơn Định lý Tesler nói "AI điều chưa thực hiện" Hi vọng tương lai, người làm khoa học máy tính nghiên cứu phát triển công nghệ phục vụ cho phát triển nhân loại Công nghệ sinh để làm cho sống dễ dàng hơn, việc nhận dạng giọng nói chắn ngoại lệ TÀI LIỆU THAM KHẢO [1] C Lin, H Nein and J Hwu, GA-based noisy speech recogni-tion using two-dimensional cepstrum, IEEE Transactions onSpeech and Audio Processing 8(6) (2000) [2] J Sun, F Karray, O Basir and M Kamel, Fuzzy logic-based natural language processing and its application tospeech recognition, Proceedings of the 5th Biannual World 13(2002), 429-434 [3] Nguyen Dinh Tung, Nhận diện giọng nói: https://viblo.asia/pZmachinelearning-that-thu-vi-6-nhan-dien-giong-noi-1Je5E8DylnL, 08/01/2018 [4] Duy Ln, Cơng nghệ nhận dạng xử lý giọng nói, tương lai việc nhập liệu thiết bị di động ... CƠNG NGHỆ NHẬN DIỆN GIỌNG NĨI Giới thiệu công nghiệp 4.0 tầm ảnh hưởng Sơ lược lịch sử cơng nghệ nhận diện giọng nói Giới thiệu cơng nghệ nhận diện giọng nói a Cơng nghệ nhận diện giọng nói gì?7... hoạt động cơng nghệ nhận diện giọng nói c Ưu, nhược điểm công nghệ nhận diện giọng nói d Một số thư viện hỗ trợ cho cơng nghệ nhận diện giọng nói II TỔNG QUAN VỀ CƠNG NGHỆ NHẬN DIỆN GIỌNG NĨI 10... ba Giới thiệu công nghệ nhận diện giọng nói a Cơng nghệ nhận diện giọng nói gì? Cơng nghệ nhận diện giọng nói máy hệ thống có khả nhận dịch (hoặc hiểu thực hiện) lệnh thu từ giọng nói người Nó