ĐIỆN tử VIỄN THÔNG 7 đạt chuyển giọng nói thành văn bản khotailieu

Ứng dụng: Chuyển giọng nói thành văn Thực hiện: Phạm Minh Đạt Chuyển giọng nói thành văn Giới thiệu Trong phim khoa học viễn tưởng, thường hay thấy cảnh người tương tác với thiết bị điện tử giọng nói Giấc mơ có từ lâu dần trở thành thực Những smartphone, tablet có tính điều khiển giọng nói, số sản phẩm chí trả lời lại người dùng thể hai người nói chuyện với Sự đời cơng nghệ trở thành xu hướng mẻ thị trường ứng dụng di động, đặc biệt app trước đòi hỏi người dùng phải gõ nhập liệu nhiều.Sau đây, xin chia sẻ với bạn vài kiến thức hữu ích lĩnh vực Chuyển giọng nói thành văn Vì lại giọng nói ??????? Có trăm, nghìn ứng dụng cho phép người dùng tìm kiếm, viết email, ghi đặt lịch hẹn smartphone Thế nhưng, với số người, việc sử dụng bàn phím nhỏ xíu điện thoại khơng tiện lợi, chí khó chịu Tốc độ gõ bạn nhanh xác, có người điên lên phải xóa viết lại chữ họ bấm nhầm sang phím bên cạnh Giọng nói giải pháp hợp lý tính đến thời điểm Người dùng khơng dùng giọng nói phương thức nhập liệu mà thân thiết bị dùng giọng nói để đọc thơng tin cần thiết Đó chưa kể đến lợi ích to lớn mà phần mềm dựa giọng nói mang lại cho người khiếm thị Họ tận hưởng tiến cơng nghệ tương tự mà người bình thường làm, khơng khoảng cách xuất khiếm khuyết giác quan Chuyển giọng nói thành văn Vì lại giọng nói ??????? Tất nhiên,hiện cơng nghệ giọng nói giai đoạn đầu chưa thể thay hoàn tồn bàn phím ảo/vật lý nút hình Tuy nhiên, dần tiến đến kỉ nguyên đại hơn, ứng dụng giọng nói hồn thiện Hãy nhìn vào Google Voice Input, Apple Siri hay làMicrosoft Cortana là bạn dễ dàng thấy xu hướng Càng ngày phần mềm nhận dạng giọng nói càng thơng minh hơn, khả nhận dạng xác hơn, thơng tin trả hữu ích đa dạng Người ta áp dụng kĩ thuật data mining (khai thác liệu theo chiều sâu, đưa phân tích nhiều mặt), machine learning (cho phép máy móc tự học hỏi thói quen, hành vi người dùng) nhằm cải thiện hiệu suất làm việc cơng nghệ nhận dạng giọng nói Chuyển giọng nói thành văn Một số vị dụ giới cơng nghệ Đã có nhiều nghiên cứu việc triển khai giới thiệu thành công ứng dụng giọng nói Chúng nhắc đến Ask.com, dịch vụ cho phép người dùng hỏi nhận câu trả lời, tích hợp cơng nghệ nhận dạng giọng nói Nuance phát triển vào ứng dụng iOS Android Sự liên kết cho phép người dùng hỏi, trả lời đăng tải lời bình luận Amazon cập nhật app Kindle iOS để hỗ trợ tính VoiceOver iOS VoiceOver tự động đọc nội dung hình để giúp cho việc xem sách người bị khiếm thị dễ dàng thuận tiện Hãng cho biết có khoảng 1,8 triệu đầu sách e-book tương thích với tính Bản thân Amazon mua lại công ty IVONA Software vốn cung cấp giải pháp chuyển đổi từ chữ sang giọng nói cho sách mua từ Amazon Chuyển giọng nói thành văn Một số vị dụ giới công nghệ Và có Siri, Google Voice hay Cortana Đây ứng dụng phát triển tập đồn cơng nghệ lớn với tiềm lực mạnh mẽ quy tụ nhiều nhân tài Bộ ba phần mềm giúp người dùng thiết bị di động tương tác với thiết bị cách thơng minh hơn, từ việc đặt câu hỏi, nhận câu trả lời điều chỉnh thông số máy khởi chạy app Một việc đơn giản kể đến đặt lịch hẹn báo thức Trước phải chục thao tác chạm đặt xong kiện, với Siri, Google Voice hay Cortana, bạn cần lệnh xong Mọi thao tác, từ việc ghi nội dung thiết lập giấc, thực cách tự động Bạn thấy xuất ngày phổ biến cơng nghệ nhận dạng giọng nói ứng dụng chat/nhắn tin Chuyển giọng nói thành văn Một số vị dụ giới công nghệ Facebook Messenger có tính chia sẻ giọng nói từ lâu nhiều dịch vụ OverThe-Top Zalo, Viber WhatsApp nước ngồi nhanh chóng đón đầu xu hướng để tích hợp tính chat giọng nói vào sản phẩm (mặc dù chưa phải phiên dịch từ giọng nói sang văn mà gửi tập tin âm thanh).Việc gõ từ bàn phím trở nên q lâu lắc cần nói nội dung dài, khơng nói cho nhanh? Đây suy nghĩ hầu hết người dùng thích chat phải thường xuyên đối mặt với bàn phím kích cỡ nhỏ thiết bị di động Chuyển giọng nói thành văn Cách thức xây dựng dịch vụ nhận dạng,điều khiển giọng nói Vậy người ta áp dụng cơng nghệ giọng nói vào phần mềm ???????? Thông thường máy giọng nói có hai phần. Phần thứ nhất gọi speech synthesizer (còn gọi Text to Speech hay TTS) Đây trình tổng hợp giọng nói thiết bị ứng dụng dùng để tương tác với người dùng,ví dụ: đọc văn hình, thơng báo tiến độ chạy tác vụ Chuyển giọng nói thành văn Cách thức xây dựng dịch vụ nhận dạng,điều khiển giọng nói Phần thứ hai là cơng nghệ nhận dạng cho phép app biết người dùng nói gì, từ chuyển thể thành lệnh để thiết bị thực thi chuyển đổi thành kí tự nhập liệu Nói cách khác, thứ thay cho bàn phím Một ứng dụng nhận dạng giọng nói lý tưởng bao gồm hai phận nói trên, số app dùng từ từ nâng cấp sau Siri, Google Voice, Cortana ví dụ phần mềm tương tác giọng nói lý tưởng, Facebook Messenger, Zalo, WhatsApp phần mềm sử dụng giọng nói cho chiều nhập liệu, khơng có nhiều phản hồi Thoạt nhìn việc triển khai cơng nghệ nhận dạng giọng nói đơn giản, thực chất khơng phải Chuyển giọng nói thành văn Cách thức xây dựng dịch vụ nhận dạng,điều khiển giọng nói Thứ nhất, nhà phát triển phải xây dựng nên cơng nghệ lắng nghe, phân tích phiên dịch cách xác giọng nói người dùng Nếu khơng app biết bạn nói gì, độ xác khơng cao khơng Thứ hai, vấn đề địa hóa (localization) chuyện làm đau đầu lập trình viên Mỗi quốc gia có ngơn ngữ riêng mình, vấn đề làm để hỗ trợ nhiều ngôn ngữ tốt Hiện hầu hết dịch vụ giọng nói hỗ trợ tiếng Anh, Google Voice Input Android Voice Dictation iOS có hỗ trợ tiếng Việt nhiều hạn chế Đó chưa nói đến việc vùng miền lại có cách nói, giọng điệu khác họ sử dụng ngơn ngữ Chuyển giọng nói thành văn Cách thức xây dựng dịch vụ nhận dạng,điều khiển giọng nói Có kĩ thuật nhắc đến nhiều thời gian gần đây, Xử lý ngơn ngữ tự nhiên (Natural Language Processing - NLP) Nó tập hợp nhiều thuận tốn phức tạp nhằm phân tích mệnh lệnh người dùng khơng bắt buộc họ phải nói theo cấu trúc câu định sẵn Nhiều năm trước muốn điều khiển giọng nói, bạn nói thứ "Mở đồ", "Nhắn tin cho vợ", "Báo thức lúc sáng" Còn nhờ có NLP, nói câu "Siri, vui lòng nhắn tin cho vợ tơi trễ nhé", hay "Hãy đánh thức lúc sáng ngày mai" NLP đơn giản để phát triển Cả Apple, Google Microsoft phải đầu tư nhiều tài nguồn lực để đưa NLP lên đến mức tiến Mặc dù vậy, công ty phải tiếp tục nghiên cứu để cải thiện độ xác hỗ trợ thêm nhiều ngơn ngữ khác Chuyển giọng nói thành văn Mơ hình triển khai cơng nghệ giọng nói Có nhiều cách thức mà cơng ty triển khai voice technology, kể đến phương pháp phổ biến sau: Điện toán đám mây: Trong trường hợp này, việc nhận dạng, xử lý ngôn ngữ (chính TTS NLP nói trên) diễn máy chủ công ty cung cấp dịch vụ Phương pháp đám mây giúp việc nhận dạng xác hơn, ứng dụng có dung lượng nhỏ, bù lại thiết bị phía người dùng phải ln kết nối với Internet Độ trễ q trình gửi giọng nói từ máy lên server trả kết từ server lại máy thứ đáng cân nhắc Siri, Google Voice, Cortana dùng cách Chuyển giọng nói thành văn Mơ hình triển khai cơng nghệ giọng nói Tích hợp thẳng vào app: Với phương thức này, trình xử lý giọng nói diễn nội ứng dụng, khơng cần giao tiếp với bên ngồi, tốc độ nhanh Người dùng không bắt buộc phải kết nối vào mạng thường trực Tuy nhiên, giải pháp gặp nhược điểm có cập nhật thay đổi máy nhận dạng, nhà sản xuất phải cập nhật lại app, với phương thức đám mây thay đổi cần làm phía server Kích thước ứng dụng tăng lên, lên tới vài trăm MB Hiện có Nuance vài app nhỏ xài phương pháp tích hợp Apple, Google có bổ sung tùy chọn offline cho số ngôn ngữ định dùng việc chuyển văn thành chữ viết Chuyển giọng nói thành văn Các thư viện giọng nói phổ biến Nuance có lẽ tên nhắc đến nhiều việc cung cấp thư viện giọng nói cho app di động Chính nhờ vào thư viện mà lập trình viên khơng cần phải tự thiết kế hệ thống nhận dạng, phiên dịch cho app mà cần xài lại có sẵn, tiết kiệm nhiều thời gian, công sức tiện bạc Nuance có hỗ trợ cho tiếng Việt ứng dụng Dragon Dictation hãng phát triển OpenEars thư viện khác thuộc dạng nguồn mở hoạt động offline, hạn chế hỗ trợ tiếng Anh Tây Ban Nha Vài tên khác kể đến Ivona, iSpeech, Vocalkit and Acapela Chuyển giọng nói thành văn Các thư viện giọng nói phổ biến Một cách khác mà nhiều phần mềm dùng tận dụng nguồn nhận dạng có sẵn hệ điều hành di động Người dùng kích hoạt tính chỗ cần nhập văn Từ iOS trước tính khơng hỗ trợ tiếng Việt, phải lên iOS có Google bắt đầu hỗ trợ nhập liệu tiếng Việt cho Android khoảng năm trước Ngoài ra, Apple, Google có cung cấp hàm API giúp app lập trình viên biết nói với vài dòng mã nguồn Chuyển giọng nói thành văn Kết Tiềm cơng nghệ nhận dạng giọng nói lớn Hiện khai thác bề chưa thật sâu Hãy nghĩ đến tương lai nơi bạn hoàn toàn để điện thoại túi quần thực tất cách nói vào tai nghe Bluetooth Nhìn rộng hơn, bạn vừa tới nhà nói vào điện thoại mình: mở máy lạnh nha, kao nhà rồi, mở sẵn nhạc nhé, mở cửa bước vào thứ thực Tính nhận dạng giọng nói khơng dừng lại việc nhập liệu mà mở chân trời để khai thác đơn giản hóa sống Cơng nghệ sinh để làm cho sống dễ dàng mà, việc nhận dạng giọng nói chắn khơng phải ngoại lệ ... ngôn ngữ định dùng việc chuyển văn thành chữ viết Chuyển giọng nói thành văn Các thư viện giọng nói phổ biến Nuance có lẽ tên nhắc đến nhiều việc cung cấp thư viện giọng nói cho app di động Chính... bị di động Chuyển giọng nói thành văn Cách thức xây dựng dịch vụ nhận dạng,điều khiển giọng nói Vậy người ta áp dụng cơng nghệ giọng nói vào phần mềm ???????? Thơng thường máy giọng nói có hai.. .Chuyển giọng nói thành văn Giới thiệu Trong phim khoa học viễn tưởng, thường hay thấy cảnh người tương tác với thiết bị điện tử giọng nói Giấc mơ có từ lâu dần trở thành thực Những

Định dạng
Số trang	16
Dung lượng	1,12 MB