Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
439,07 KB
Nội dung
BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP HCM KHOA: CÔNG NGHỆ THÔNG TIN MÔN HỌC: CÔNG NGHỆ PHẦN MỀM Đề tài: TÌM HIỂU CƠNG NGHỆ NHẬN DIỆN GIỌNG NÓI Giảng viên hướ ng dẫn: Mạnh Thiên Lý Sinh viên thực hiện: Võ Trương Minh Nhật Phan Mai Như Ý Trần Thị Kim Nhiên Nguyễn Thị Thu Bích Nguyễn Thị Khánh Kiều Tan Thị Minh Thư TP Hồ Chí Minh, 28 Tháng 02 Năm 2021 LỜI MỞ ĐẦU Ng ày nay, công nghệ thông tin ngày phát tri ển vớ i nhữ ng tiến vượ t bậ c củ a khoa họ c kỹ thuậ t nói chung, có rấ t nhiề u cơng nghệ cho mắt Hơ n mộ t thậ p kỷ qua, vớ i phát triể n mạ nh mẽ củ a công nghệ thông tin, công nghệ xử l ý tiế ng nói mã hố, nhậ n ng tiế ng nói, chuyể n lời nói thành văn bả n, chuyển chữ viết thành lờ i nói, … trở th ành vấ n đề nghiên u trọ ng điểm nhiề u nh khoa họ c quan tâm nhiề u lĩnh vực khác : tin họ c, toán họ c, điề u khiển, điệ n tử , sinh học, … Trong thờ i gian g ần đây, nhà nghiên u tập trung vào công nghệ nhậ n ng giọ ng nói có mộ t số thành công đố i vớ i việ c nhận ng tiếng Anh mộ t số ngôn ngữ khác Đã có nhiề u cơng tr ì nh nghiên cứu l ĩnh vự c nhậ n ng giọ ng nói (Speech recognition) sở l ý thuyết hệ thố ng thông minh nhân tạ o, nhiề u kế t trở thành sả n phẩ m Via Voice Gold củ a hãng IBM, Dragon Natural Speaking Dragon System, Speech SDK Microsoft, … Triển khai cơng trình nghiên u đưa vào thự c tế ứ ng dụ ng vấ n đề mộ t việ c làm hế t sức có ý nghĩa giai đoạ n cơng nghiệp hố, đạ i hố củ a nước nhà Vì thế, nhóm em chọ n đề t ài “Tìm hiể u Cơng nghệ nhậ n diệ n giọng nói” để t ìm hiểu trình bày nộ i dung tổ ng quan công nghệ Tuy cố gắng học hỏi tìm hiểu tài liệu từ nhiều nguồn thông tin điều kiện thời gian khả có hạn nên khơng tránh thiếu sót Kính mong đóng góp ý kiến từ bạn để nhóm em hồn thiện báo cáo cơng nghệ Nhóm em xin chân thành cảm ơn Thành phố Hồ Chí Minh, ngày 28 tháng 02 năm 2021 MỤC LỤC DANH SÁCH HÌNH ẢNH I GIỚI THIỆU VỀ CƠNG NGHỆ NHẬN DIỆN GIỌNG NĨI Giới thiệu n ền công nghiệp 4.0 tầ m ảnh hưởng Công nghiệp 4.0 tập trung vào công nghệ kỹ thuật số từ thập kỷ gần lên cấp độ hoàn toàn với trợ giúp kết nối thông qua Internet vạn vật, truy cập liệu thời gian thực giới thiệu hệ thống vật lý không gian mạng Công nghiệp 4.0 cung cấp cách tiếp cận toàn diện hơn, liên kết tồn diện cho sản xuất Nó kết nối vật lý với kỹ thuật số cho phép cộng tác truy cập tốt phận, đối tác, nhà cung cấp, sản phẩm người Công nghiệp 4.0 trao quyền cho chủ doanh nghiệp kiểm sốt hiểu rõ khía cạnh hoạt động họ cho phép họ tận dụng liệu tức thời để tăng suất, cải thiện quy trình thúc đẩy tăng trưởng Cơng nghiệp 4.0 cho phép nhà máy thông minh, sản phẩm thông minh chuỗi cung ứng thông minh, làm cho hệ thống sản xuất dịch vụ trở nên linh hoạt, linh hoạt đáp ứng khách hàng Các thuộc tính hệ thống sản xuất dịch vụ với Công nghiệp 4.0 nêu bật lợi ích mà Cơng nghiệp 4.0 mang lại cho doanh nghiệp thảo luận Trong tương lai, khoa học công nghệ tiếp tục phát triển đóng vai trị ngày quan trọng trình phát triển kinh tế xã hội quốc gia Tri thức xác định lực lượng sản xuất trực tiếp động lực phát triển hàng đầu quốc gia Để phát triển bền vững, quốc gia phải tiếp tục đẩy mạnh đầu tư phát triển khoa học công nghệ nhằm ứng dụng thành tựu khoa học công nghệ vào sản xuất, đặc biệt thành tựu cách mạng công nghiệp lần thứ tư nhằm tạo sản phẩm công nghệ sản xuất Tới cơng nghệ nhận diện giả lập giọng nói đời để đáp nhu cầu phát triển người Sơ lược lịch sử công nghệ nhận diện giọng nói Trước đây, việc điều khiển cỗ máy cách nói chuyện với chúng câu chuyện khoa học viễn tưởng Nhưng viễn tưởng dần trở thành thực với phát triển vượt bậc công nghệ, đặc biệt phát triển Trí tuệ nhân tạo (AI) tảng khác để tạo mộ t giao diện ngườ i dùng cho phép sử dụ ng giọ ng nói để điề u khiển thiết bị công nghệ Năm 1877, ứ ng dụ ng nhậ n diện giọ ng nói đầ u tiên đượ c tạo Thomas Edison phát minh máy ghi âm, thiết bị ghi tái tạo âm Năm 1952, kỹ sư tạ i Bell Labs phát triển mộ t nhậ n dạng chữ số tự độ ng có tên Audrey Audrey cao feet, có nhiề u tín hiệu tươ ng tự vớ i tụ điệ n, khuế ch đạ i lọ c, nhậ n 10 chữ số đượ c nói bở i mộ t giọ ng nói nhấ t Mặ c dù thiế t bị nhận đầ u vào bằ ng giọ ng nói vớ i độ xác 9799% kích thướ c lớ n, chi ph í cao thiết bị điệ n tử phứ c tạp nên không th ể trở thành mộ t sả n phẩ m đượ c thươ ng mạ i h óa Tuy nhiên, thiết bị Audrey đánh dấ u khở i đầ u củ a công nghệ nhận ng giọ ng nói v tiếp tụ c cho nhữ ng nghi ên u sau Hệ thống Audrey đượ c xem thiết bị nhậ n ng giọ ng nói Năm 1962, máy Shoe box IBM phát triển, nhận 16 từ tiếng anh, 10 chữ số lệnh số học Từ năm 1971 – 1976, Bộ Quốc phịng Mỹ tài trợ cho chương trình DARPA SUR (Nghiên cứu hiểu lời nói), dẫn đến phát triển Harpy tạo Carnegie Mellon hiểu 1011 từ Vào năm 1984, Công nghệ nhận dạng giọng nói hệ SpeechWorks Nuance giới thiệu thông qua hệ thống tổng đài trả lời tự động (IVR) Những IVR nhận giọng nói người qua gọi thực nhiệm vụ giao cho chúng Bất có điện thoại nhận tất thơng tin tìm thời gian chiếu phim địa phương, nghe thông tin giao thông, báo giá cổ phiếu, đặt chuyến bay máy bay, chuyển tiền tài khoản, đặt mua thuốc theo toa, Mọi thứ xoay quanh điện thoại cầm tay giọng nói người Các hệ thống IVR trở thành xu hướng chủ đạo năm 2000 phần dịch vụ chăm sóc hỗ trợ khách hàng ngày Năm 1992, Apple sản xuất hệ thống nhận dạng giọng nói liên tục theo thời gian thực hiện, nhận lên đến 20.000 từ Năm 2006, Apple giớ i thiệu khái niệm Siri, cho phép người dùng tươ ng tác với máy sử dụ ng giọng nói Sau đó, Google giớ i thiệu mộ t nghiên u hỗ trợ giọ ng nói vào năm 2007 Những gã khổ ng lồ c ông nghệ Microsoft, Apple Google sau tung trợ l ý giọ ng nói cho thiết bị di động Đến năm 2008, Google nổ i lên vớ i ứ ng dụng Google Voice Search dành cho Iphone Năm 2010, Google giớ i thiệu nhậ n ng cá nhân hoá, thiết bị Android ghi lại truy vấ n giọ ng nói củ a người dùng khác để phát triển mộ t mơ hình giọ ng nói nâng cao Nó bao gồm 230 tỷ từ tiếng anh Năm 2011, cuối Siri Apple triển khai Iphone 4S, dựa điện toán đám mây Năm 2014 Amazon giới thiệu Amazon Echo, loa thơng minh tích hợp với trợ lý ảo (Alex, Siri ) Những lời kết hợp với ứng dụng di động thông qua kỹ Alexa Tương tự, đối thủ cạnh tranh để giới thiệu Google home, Apple Homepod để cải thiện trải nghiệm người dùng họ văn phịng, nhà chí trung tâm mua sắm Năm 2015, Microsoft cơng bố sẵn có Cortana cho máy tính để bàn thiết bị di động Windows 10 phần việc hợp Windows Phone vào hệ điều hành nói chung Vào tháng năm 2016, Trợ lý Google (Google Assistant) trợ lý cá nhân ảo phát triển Google cho thiết bị di động nhà thông minh, mắt lần đầu hội nghị nhà phát triển hãng Không Google Now, Trợ lý Google tham gia trị chuyện hai chiều Trợ lý Google đưa vào ứng dụng nhắn tin Google Allo, loa thông minh Google Home năm 2017, Google Assistant tiếp tục mở rộng hỗ trợ cho lượng lớn thiết bị, bao gồm xe thiết bị nhà thông minh Các chức Assistant bổ sung nhà phát triển bên thứ ba Giới thiệu c ông nghệ nhận diện giọng nói a Cơng nghệ nhận diện giọng nói gì? Cơng nghệ nhận diện giọ ng nói mộ t máy hoặ c hệ thố ng có khả nhận dịch (hoặc hiểu thực hiện) lệnh thu từ giọng nói người Nó sử dụng nhiều lĩnh vực trí tuệ nhân tạo (AI), Google Assistant ví dụ điển hình Đây máy hệ thống có khả nhận dịch (hoặc hiểu thực hiện) lệnh thu từ giọng nói người Nhận diện giọng nói gồm thuật ngữ: Voice recognition Speech recognition Voice recognition liên quan đến việc xác định giọng nói xác cá nhân đó, tương tự phương pháp nhận diện sinh trắc học Speech recognition việc xác định từ ngữ câu nói dịch chúng sang ngơn ngữ máy tính b Cách thứ c hoạt độ ng củ a công nghệ nhận diện giọng nói Để chuyển giọng nói sang văn câu lệnh máy tính, hệ thống phải thực q trình gồm nhiều bước phức tạp Khi nói, bạn tạo rung động khơng khí Bộ chuyển đổi tín hiệu tương tự sang số (AnalogtoDigital Converter, ADC) chuyển sóng tương tự (analog) thành liệu mà máy tính hiểu Để làm điều này, hệ thống thu thập mẫu (hoặc số hóa) âm cách đo xác sóng âm khoảng thời gian gần nhau, sau lọc âm số hoá để loại bỏ tiếng ồn, tách chúng thành dải tần số khác Nó "bình thường hóa" tinh chỉnh âm đến mức âm lượng không thay đổi xếp theo thời gian Không phải lúc người nói với tốc độ nên âm phải điều chỉnh cho phù hợp với tốc độ mà âm mẫu ghi nhận nhớ máy Tiếp theo, tín hiệu chia thành nhiều phần nhỏ (thời gian khoảng vài phần trăm giây, chí phần ngàn giây trường hợp có phụ âm cuối khó phân biệt "p" "t") Chương trình sau đặt phần âm vào âm vị có sẵn ngơn ngữ thích hợp Vớ i phát triển củ a công nghệ , ứ ng dụ ng nhậ n ng giọng nói ngày hồn thiện với tính xác cao Thay nhận dạng chữ cái, cơng nghệ cịn có khả nhận dạng theo ngữ nghĩa câu nói để giảm thiểu sai sót q trình nhận dạng c Ưu, nhược điể m củ a công nghệ nhậ n diệ n giọng nói Ưu điểm phần mềm nhận diện giọng nói: Khả truy cập: Đây thuận lợi người khuyết tất họ dùng chuột hay bàn phím, dùng giọng nói để hệ thống chuyển thành văn bản, giúp nhập liệu hay điều khiển cách dễ dàng Kiểm tra tả: Người dùng truy cập vào cơng cụ chỉnh sửa tương tự giải pháp xử lý văn chuẩn Đương nhiên thứ khơng xác 100% phần mềm nhận diện xử lý phần lớn lỗi tả, ngữ pháp Tốc độ nhanh: Phần mềm nhận dạng giọng nói nắm bắt giọng nói người dùng với tốc độ nhanh so với nhập liệu bàn phím, tốc độ nhập liệu giọng nói cải thiện đáng kể Nhược điểm phần mềm nhận diện giọng nói: Thiết lập "dạy": Mặc dù tất phần mềm nhận dạng giọng nói hứa hẹn hoạt động sau vài phút thiết lập, thực trình ghi nhận, làm quen với giọng nói, âm điệu tốc độ nói người dùng có đơi chút phức tạp tốn thời gian Một số phần mềm nhận dạng giọng nói cịn bắt người dùng nói lại, chí khơng thể nhận diện bạn nói Chưa thực ổn định: Việc nói mà bị ngắt chừng khiến người dùng cảm thấy khó chịu Đặc biệt, số người khơng thích phần mềm nhận dạng giọng nói gây bối rối cho người dùng lên xuống giọng hay dưng nói nhỏ lại Kho từ vựng hạn chế: Người dùng phải sẵn sàng chấp nhận trường hợp phần mềm xử lý lâu từ vừa nói khơng nằm từ điển có sẵn Đó điều nhà nghiên cứu cố gắng cải tiến phần mềm nhận dạng giọng nói d Một số thư viện hỗ trợ cho cơng nghệ nhậ n diệ n giọng nói Nuance l tên nhắ c đế n nhiề u nhấ t việc cung cấp thư viện giọ ng nói cho app di độ ng Chí nh nhờ v nhữ ng thư viện mà lậ p trình viên khơng cầ n phả i tự thiế t kế hệ thố ng nhậ n ng, phiên dị ch cho app mà cầ n xài lạ i có sẵ n, tiết kiệm đượ c nhiề u thời gian, công sứ c tiệ n bạ c Nuance có hỗ trợ cho tiếng Việt ứng dụng Dragon Dictation hãng phát triển OpenEars mộ t th viện khác ng thuộ c ng nguồn mở hoạ t độ ng offline, hạ n ch ế l hỗ trợ tiếng Anh Tây Ban Nha Vài tên khác kể đế n Ivona, iSpeech, Vocalkit and Acapela Mộ t cách khác mà nhiều phầ n mềm xài tận dụ ng nguồ n nhậ n ng có sẵ n hệ điề u hành di động Ngườ i dùng kích hoạ t tính nhữ ng chỗ cầ n nhập văn Từ iOS trước tính không hỗ trợ tiếng Việt, phải lên iOS có Google bắt đầu hỗ trợ nhập liệu tiếng Việt cho Android khoảng năm trước Ngoài ra, Apple, Google có cung cấp hàm API giúp app lập trình viên biết nói với vài dòng mã nguồn 10 Để xử l ý vấ n đề này, sử dụ ng mộ t số kỹ thuậ t đặ c biệt thêm mộ t vài bướ c vào mạng deep learning a Kỹ thuật xử lý ngôn ngữ tự nhiên (Natural Language Processing) Xử l ý ngôn ngữ tự nhi ên (Natural Language Processing – NLP) tậ p hợp củ a nhiều thuậ n toán phứ c tạ p nhằ m phân tích mệ nh lệ nh củ a người dùng ng không bắ t buộ c họ phả i nói theo mộ t cấ u trúc câu đị nh sẵ n Nhiều năm trướ c muố n điề u khiể n bằ ng giọ ng nói, bạ n nói nhữ ng thứ "Mở bả n đồ , "Báo thứ c lúc sáng" Cịn nhờ có NLP, ta nói câu "Siri, đánh thứ c tơi lúc sáng ngày mai" NLP không phả i l n giả n để phát triển Cả Apple, Google Microsoft phả i đầ u tư rấ t nhiề u tiề n bạ c nguồ n lự c để đưa NLP lên đến mứ c ti ến Mặ c dù vậ y, công ty vẫ n phải tiếp tụ c nghiên u để i thiệ n độ xác hỗ trợ thêm nhiều ngôn ngữ khác b Chuyển âm thành số Bướ c đầ u tiên nhậ n diện giọ ng nói kh rõ r àng cần truy ền sóng âm v máy t ính, xem hình ả nh tậ p hợ p giá trị , vớ i mỗ i giá trị đạ i diện cho độ s củ a điể m ả nh, để truyề n vào mạ ng nơron S óng âm có mộ t chiều liệu Ở mỗ i thờ i điể m, chúng có mộ t giá trị cao độ Để chuyển sóng âm thành số, cần ghi lại độ cao sóng khoảng: Hình Ví dụ lấy mẫu sampling 13 Hình Ví dụ lấy mẫu sampling Hình Ví dụ lấy mẫu sampling Hình Ví dụ lấy mẫu sampling Phươ ng pháp gọi sampling lấ y mẫ u Chúng ta đọ c mẫ u 1/1000s ghi lại số đạ i diệ n chiều cao cùa sóng âm Đây l file wav khơng bị nén Nhữ ng âm chấ t lượng tố t đượ c ghi tầ n số 14 44.1khz (44,100 lần đọ c mỗ i giây) Như ng vớ i nhậ n diện giọ ng nói, tố c độ lấ y mẫ u 16khz (16,000 mẫ u mỗ i giây) đủ Lấ y mẫ u tạ o đồ thị xấ p xỉ so vớ i sóng âm, bở i đọ c liệu theo khoảng Vì thế, để tránh bị liệu lần đọc, ta áp dụng lý thuyết Nyquist, sử dụng tốn học để tái tạo xác sóng âm gốc từ mẫu tách biệt miễn lấy mẫu với tần số gấp đôi tần số âm muốn ghi lại Không phải lấy mẫu với tần số cao chất lượng âm tốt c Kỹ thuật tiền xử lý liệu mẫu âm Ta truyền số vào mạng nơron, cố gắng nhận diện cấu trúc âm trực tiếp mẫu khó Thay vào đó, giải vấn đề dễ cách tiền xử lý liệu Đầu tiên, bắt đầu nhóm mẫu âm khoảng 20ms: Hình 320 mẫu âm 20ms Ghi lại số đồ thị giúp có ước lượng xấp xỉ âm gốc chu kỳ 20ms: Hình Âm gốc chu kỳ 20ms Bản ghi âm khoảng 1/50s Nhưng chí đoạn ghi âm ngắn mớ hỗn độn cao độ âm khác Có âm thấp, âm trung chí âm cao Nhưng với nhau, âm tạo lên giọng nói 15 Để giúp mạ ng nơron xử l ý liệ u dễ hơ n, ta tách sóng âm phứ c tạp thành phần: phần chứa âm thấp, âm cao hơn, cao Sau đó, ta tính tổng lượng những dải tần số (từ thấp đến cao) kết nối lại tạo fingerprint nhận dạng cho đoạn trích âm Chúng ta làm điều nhờ vào việc sử dụng Fourier transform tốn học Nó chia nhỏ sóng âm phức tạp thành sóng âm đơn tạo nó, ta tính tổng lượng đơn âm Sau sử dụng lý thuyết Nyquist trên, sóng âm trở thành dải liên tục Và sử dụng Fourier transform, lại tách dải liên tục thành notes riêng biệt (được tính tốn thuật tốn Fourier) để tìm tổng lượng note Kết cuối bảng số thể độ lượng khoảng tần số, từ âm thấp tới âm cao Mỗi số đại diện cho lượng dải 50hz clip 20ms: Hình Bảng số thể độ lượng khoảng tần số Nhưng dễ dàng nhiều ta biểu diễn dãy số trên đồ thị: Hình Đồ thị thể độ lượng khoảng tần số Ta thấy dài tần số có nhiều lượng tần số thấp, lượng tần số cao Đây giọng nam điển hình Nếu lặp lại trình cho khoảng 20ms, có quang phổ (mỗi cột từ trái qua phải khoảng 20ms): 16 Hình Quang phổ cho lượng khoảng tần số lặp lại trình Tạ o quang phổ gi úp thự c nhìn thấ y âm cấu trúc độ cao củ a Mạ ng nơron t ìm nhữ ng cấ u tr úc liệ u dễ dàng hơ n so vớ i sóng âm thơ Do đó, đặ c trư ng mà ta truyền vào mạ ng nơron Qua ta thấy, hầu hết d ữ liệu thơ đề u a nhiề u nhiễ u khó xử lý ảnh âm Mộ t c ách giúp hạ n chế nhiễ u tổ ng qt hóa: mạng CNN trích lọ c đặ c trư ng thơng qua convolution tích chập max pooling tách lọ c lớ n nhấ t, hay xử l ý âm lấ y tổng lượng theo âm Việc tổng quát hóa giúp giảm chiều liệu hạn chế ảnh hưởng từ nhiễu Chú ý tổng quát hóa lại làm tiêu biến đặc trưng, khiến học máy khơng thể tìm lời giải d Kỹ thuật nhận diện ký tự từ đoạ n âm ngắn Ta truyền dải âm 20ms vào mạng nơron đa lớp Với mảng cắt âm thanh, cố gắng tìm ký tự đại diện cho âm phát 17 Hình Mơ hình trạng thái Chúng ta sử dụng Recurrent Neural Network RNN mạ ng nơron hồi quy: kết tiên đốn q khứ có ả nh hưở ng tớ i kết tiên đoán tươ ng lai Đó bở i ký tự có liên quan đế n Ví dụ ch úng ta tìm "HEL", rấ t có khả nói tiếp "LO" Vì , nhữ ng dự đốn q khứ s ẽ giúp dự đoán tương lai đượ c tố t Sau ch ạy to àn âm thông qua mạ ng nơron, kế t nối mỗ i dải âm vớ i mộ t ký tự có khả đượ c nói cao nhấ t Đây bả n đồ kết nối từ "HELLO": 18 Hình Bản đồ kết nối từ "HELLO" Mạng nơron dự đốn từ nói “HHHEE_LL_LLLOOO”, nghĩ có khả từ “HHHUU_LL_LLLOOO”, chí “AAAUU_LL_LLLOOO” Chúng ta có thêm vài bước để làm kết Đầu tiên, bỏ ký tự bị lặp, bỏ khoảng trống: HHHEE_LL_LLLOOO => HE_L_LO => HELLO HHHUU_LL_LLLOOO => HU_L_LO => HULLO AAAUU_LL_LLLOOO => AU_L_LO => AULLO Như vậy, ta có khả phân âm "Hello", "Hullo" "Aullo" Nếu ta nói chúng thật to, nghe giống với "Hello" Bởi dự đốn ký tự một, mạng nơron tìm cách đọc âm khơng phải cách viết Ví dụ: ta nói "He would not go", máy dịch "He wud net go" Thủ thuật kết hợp dự đoán phiên âm với khả xuất văn (sách, bảo ) Ta loại bỏ phiên âm có khả ngồi thực tế giữ phiên âm thực tế Và từ "Hello", Hullo" "Aullo" Rõ ràng, "Hello" có tần xuất cao rất nhiều, phiên âm lựa chọn 19 e Áp dụ ng Machine Learning tự xây dự ng hệ thống nhận diện giọng nói Machine learning sử dụng thuật toán lặp để học từ liệu cho phép máy tính tìm thấy thông tin, giá trị ẩn sâu mà không lập trình cách rõ ràng nơi để tìm Khía cạnh lặp lại Machine learning quan trọng mơ hình tiếp xúc với liệu chúng thích ứng cách độc lập Các hệ thống Machine Learning nhanh chóng áp dụng kiến thức đào tạo từ liệu lớn để thực công việc nhận diện giọng nói cách xuất sắc Nhận diện ngơn ngữ vấn đề khó, ta phải chấp nhận vấn đề như: chất lượng micro kém, môi trường ghi âm ồn, tiếng dội lại, giọng điệu khác Tất vấn đề hữu q trình đào tạo, khiến mạng nơron khơng có độ xác cao Và để xử lý tiếng ồn, ta cần liệu đào tạo giống mà người gào thét vào mặt người nói Để xây dựng hệ thống nhận diện âm đạt tới trình độ Siri, Google Now! hay Alexa, ta cần nhiều liệu Không muốn hệ thống nhận diện đạt 80% độ xác Vì vậy, cần cho máy tự động lưu học (train data) lượng lớn liệu người dùng tự cung cấp Ta tạo lên hệ thống nhận diện giọng nói hồn chỉnh f Giao diện giọng nói người dùng (Voice user interface) Giao diện giọng nói người dùng (Tiếng anh: Voice user interface, viết tắt: VUI) cơng nghệ nhận dạng giọng nói, cho phép người dùng tương tác với hệ thống thiết bị máy tính, điện thoại thơng minh thiết bị khác thơng qua lệnh thoại giọng nói Điều làm nên độc đáo VUI sử dụng giọng nói làm tương tác chính, khơng dùng tay hay mắt trái ngược với tương tác bàn phím chuột hình hình cảm ứng Cách tiếp cận giọng nói cho phép người dùng bắt đầu thao tác dịch vụ tự động thực tác vụ hàng ngày họ theo cách nhanh hơn tập trung làm việc khác Cơng dụ ng cơng nghệ nhận diện giọng nói Tốc độ điều người ta nhắc đến đề cập đến câu hỏi Thay phải ngồi nhập tay email, soạn văn bản, đặt lịch hẹn, … điện thoại máy tính gây tốn thời gian, chí sai sót Giờ sử dụng giọng nói phương thức để nhập liệu Nó nhanh chóng, đơn giản, thuận tiện vơ dễ dàng 20 Không dừng lại việc nhập liệu, nhận dạng giọng nói cịn ứng dụng hệ thống điều khiển hệ sinh thái smarthome Nhận diện giọng nói cịn sử dụng nhiều lĩnh vực trí tuệ nhân tạo (Artificial Intelligence) Siri hay Google Assistant ví dụ điển hình Ngồi ra, cơng nghệ nhận dạng giọng nói đánh giá sản phẩm tuyệt vời dành cho người khiếm thị Những người khiếm thị tận hưởng tiến công nghệ tương tự mà người bình thường làm, khơng khoảng cách xuất khiếm khuyết giác quan Sự cần thiết công nghệ nhận diện giọng nói cuộ c sống Có trăm, nghìn ứng dụng cho phép người dùng tìm kiếm, viết email, ghi đặt lịch hẹn smartphone Thế nhưng, với số người, việc sử dụng bàn phím nhỏ xíu điện thoại khơng tiện lợi, chí khó chịu Tốc độ gõ bạn nhanh xác, có người điên lên phải xóa viết lại chữ họ bấm nhầm sang phím bên cạnh Giọng nói giải pháp hợp lý tính đến thời điểm Người dùng khơng xài giọng nói phương thức nhập liệu mà thân thiết bị xài giọng nói để đọc thơng tin cần thiết Đó chưa kể đến lợi ích to lớn mà phần mềm dựa giọng nói mang lại cho người khiếm thị Họ tận hưởng tiến cơng nghệ tương tự mà người bình thường làm, khơng cịn khoảng cách xuất khiếm khuyết giác quan Tất nhiên, cơng nghệ giọng nói giai đoạn đầu chưa thể thay hồn tồn bàn phím ảo/vật lý nút hình Tuy nhiên, dần tiến đến kỉ nguyên đại hơn, ứng dụng giọng nói hồn thiện Ngơn ngữ lập trình sử dụng cho nhận diện giọng nói Thuật tốn nhận dạng giọng nói hoạt động thơng qua mơ hình âm ngơn ngữ Mơ hình âm đặc trưng kết hợp đơn vị ngơn ngữ tín hiệu giọng nói âm Mơ hình ngơn ngữ khớp âm với trình tự từ để giúp phân biệt từ có âm tương tự Để nhận dạng mẫu thời gian lời nói để cải thiện độ xác hệ thống, ta dùng Mơ hình Markov ẩn với số ngôn ngữ sau: 21 a Ngôn ngữ C# C# ngôn ngữ mã nguồ n mở chạy Windows, Mac Linux Ngôn ngữ giúp phát triển ứ ng dụ ng cử a h àng Windows, ứ ng dụng Android ứng dụ ng IOS Nó hữ u ích để xây dự ng khung thư viện phụ trợ trung cấ p Nó hỗ trợ khả tươ ng tác ngơn ngữ, nghĩa C# có th ể truy cập mã viế t bằ ng bấ t kỳ ngôn ngữ tuân thủ NET C# chạ y nhiều tả ng máy tính khác để nhà phát triể n dễ dàng thự c tái sử dụ ng mã hóa C# hỗ trợ nạ p chồ ng to án tử thị tiền xử lý gi úp cho ngữ pháp nhậ n ng giọ ng nói Vớ i ngơn ngữ này, ta dễ dàng xử l ý kiệ n nhậ n ng giọng nói b Ngơn ngữ Java Java ngơn ngữ lậ p trì nh hướ ng đố i tượng đượ c yêu cầu cao Nó có nhu cầ u cao tính mở r ộng củ a Để phát triể n khái niệ m nhậ n dạng giọng nói, Java tạo API Java Speech Nó tập hợp lớp trừu tượng giao diện sử dụng mà nhà phát triển Java tạo khung nhìn cơng cụ lời nói Nó có khả tuyệt vời để học mẫu giọng nói bạn cơng cụ xử lý tình khơng hỗ trợ cách lưu lốt Vì Java hỗ trợ tính tuyệt vời trung lập kiến trúc nên nhà phát triển chạy xử lý có sẵn giới thực mà không cần nghĩ đến việc phát triển biên dịch c Ngôn ngữ PHP PHP ngôn ngữ lập trình hướng tính phổ biến PHP ngơn ngữ cấp cao cú pháp tương tự ngơn ngữ C, dễ dàng cho người bắt đầu tạo phần mềm nhận dạng giọng nói PHP hỗ trợ nhiều hệ điều hành nên nhà phát triển dễ dàng di chuyển ứng dụng viết PHP từ máy chủ Windows gốc sang máy chủ Linux mà không cần sửa đổi PHP hỗ trợ số lớp mã nguồn mở hữu ích cho việc tạo ứng dụng nhận dạng giọng nói ta cung cấp ứng dụng tạo miễn phí Việc tạo ứng dụng 'chuyển lời nói thành văn bản' 'chuyển văn thành giọng nói' dễ dàng giao diện ứng dụng dịch vụ lưu trữ web rẻ d Ngơn ngữ Perl Perl ngơn ngữ lập trình đa tảng ổn định ban đầu sử dụng để xử lý văn ngày việc sử dụng ngơn ngữ lập trình viên phát triển ứng dụng web ứng dụng mạng Vì ngơn ngữ có chức class tuyệt vời nên việc phát triển, ứng dụng nhận dạng giọng nói trở nên dễ dàng nhà phát triển Trong nhiều ngôn ngữ, khoảng trắng thừa tạo lỗi, ngơn ngữ lập trình Perl khơng quan tâm đến 22 khoả ng trắ ng để người dùng dễ d àng tạ o mộ t chươ ng trình Ngơn ngữ lậ p trình Perl thự c nhậ p li ệu tự độ ng n lý nhớ tự động nên việc tạ o ứ ng dụ ng nhậ n ng giọ ng nói trở nên n giản 23 BI MỘT SỐ ỨNG DỤNG VỀ CƠNG NGHỆ NHẬN DIỆN GIỌNG NĨI Phần mềm nhận dạng giọng nói Gboard: Hình Phần mềm Gboard Phần mềm nhận dạng giọng nói Gboard có tên gọ i trước Google Keyboard Phần mềm hỗ trợ 120 ngơn ngữ khác tích hợ p nhiều tính mạ nh mẽ nhậ p liệu bằ ng giọ ng n ói, biể u tượng m xúc, tìm kiếm ảnh độ ng (GIF), tra u thông tin, dị ch thuậ t nội dung tin nhắn bàn phím… Nếu sử dụ ng thiết bị iOS, sau cài đặ t xong, bàn phím xuấ t người dùng cầ n nhấ n giữ l ên biể u tượ ng dấ u phẩ y chạm vào hình Trái đấ t Cuố i cùng, nhấ n vào biể u tượ ng micro bàn phím bắ t đầ u nói để nhậ p liệu Người dùng laptop hoặ c PC thự c sử dụ ng tính nhập liệu văn bả n bằ ng giọ ng nói thơng qua Google Docs Nếu muố n gõ dấu chấ m, ph ẩy, xuố ng dòng… ngườ i dùng cầ n phả i nói chậ m r ãi ngắt quãng Theo th nghiệm, kh ả nhậ n diệ n giọ ng nói (tiế ng Việ t) Gboard tố t, nộ i dung thể rõ ràng bị sai tả Phần mềm nhận dạng giọng nói ListNote SpeechtoText Notes 24 Hình Phần mềm ListNote Speech-to-Text Notes Với phầ n m ềm nhận dạng giọ ng nói ListNote SpeechtoText Notes, người dùng t ạo nhanh ghi bằ ng giọ ng nói So vớ i ứ ng dụng khác, ListNote SpeechtoText Notes t ương đố i dễ sử dụ ng, mọ i liệu (ghi chú) lậ p mụ c nên việ c tìm kiế m diễ n nhanh… Người dùng cịn đặ t mậ t khẩ u hoặ c mã hóa nộ i dung theo tiêu chuẩ n AES muố n bả o vệ t ậ p tin khỏi mắt tò mò củ a người khác Phần mềm nhận dạng giọng nói Voice Text Hình Phần mềm Voice Text Voice Text l mộ t phần m ềm nh ận dạng giọ ng nói cho phép ngườ i dùng gử i/nh ận tin nhắn b ằng giọng nói, nhậ p văn bả n mà không cầ n chạm vào điện thoại, dự đoán nộ i dung, thự c hiệ n cuộ c gọ i bằ ng giọng nói… 25 IV KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Tiềm củ a công nghệ nhậ n ng giọ ng nói rấ t lớ n Hiện mớ i khai th ác nhữ ng bề nổ i củ a chư a thậ t sâu Hãy nghĩ đến mộ t tươ ng lai nơ i ta hồn tồn để điệ n thoại túi quầ n thự c tấ t cách nói vào tai nghe Bluetooth Nhìn rộng hơn, ta vừa tới nhà nói vào điện thoại mình: “mở máy lạnh, mở nhạc” mở cửa bước vào thứ thực Tính nhận dạng giọng nói khơng dừng lại việc nhập liệu mà cịn mở chân trời để khai thác đơn giản hóa sống Để AI thơng minh cần phải có liệu để huấn luyện cho nó, nhận diện hình ảnh, văn bản, giọng nói Google có hàng tỷ người dùng với cơng cụ tìm kiếm, biết khoảng thời gian nào, thời điểm người dùng quan tâm từ khóa nào, lĩnh vực Đó cách người dùng tự tạo liệu cho AI Cũng cách người dùng trực tiếp cung cấp liệu cho AI Công nghệ nhận dạng giọng nói ví dụ sống động AI mà ta trực tiếp trải nghiệm Đi kèm với rủi ro nhìn thấy Một câu châm ngơn Định lý Tesler nói "AI điều chưa thực hiện" Hi vọng tương lai, người làm khoa học máy tính nghiên cứu phát triển công nghệ phục vụ cho phát triển nhân loại Công nghệ sinh để làm cho sống dễ dàng hơn, việc nhận dạng giọng nói chắn ngoại lệ 26 TÀI LIỆU THAM KHẢO C Lin, H Nein and J Hwu, GAbased noisy speech recognition using twodimensional cepstrum, IEEE Transactions onSpeech and Audio Processing 8(6) (2000) [1] J Sun, F Karray, O Basir and M Kamel, Fuzzy logicbased natural language processing and its application tospeech recognition, Proceedings of the 5th Biannual World 13(2002), 429–434 [2] [3] Nguyen Dinh Tung, Nhận diện giọng nói: https://viblo.asia/p/machine learningthatthuvi6nhandiengiongnoi1Je5E8DylnL, 08/01/2018 [4] Duy Ln, Cơng nghệ nhậ n ng xử l ý giọ ng nói, tươ ng lai củ a việc nhậ p liệu thiết bị di động 27 ... thiệu c ông nghệ nhận diện giọng nói a Cơng nghệ nhận diện giọng nói gì? Cơng nghệ nhận diện giọ ng nói mộ t máy hoặ c hệ thố ng có khả nhận dịch (hoặc hiểu thực hiện) lệnh thu từ giọng nói người... a công nghệ , ứ ng dụ ng nhậ n ng giọng nói ngày hồn thiện với tính xác cao Thay nhận dạng chữ cái, cơng nghệ cịn có khả nhận dạng theo ngữ nghĩa câu nói để giảm thiểu sai sót q trình nhận dạng. .. nhậ n ng giọ ng nói trở nên n giản 23 BI MỘT SỐ ỨNG DỤNG VỀ CÔNG NGHỆ NHẬN DIỆN GIỌNG NĨI Phần mềm nhận dạng giọng nói Gboard: Hình Phần mềm Gboard Phần mềm nhận dạng giọng nói Gboard có tên