1. Trang chủ
  2. » Tất cả

Chuyển giọng nói thành văn bản

19 30 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 19
Dung lượng 680,97 KB
File đính kèm speech-to-text.rar (538 B)

Nội dung

BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Báo cáo bài tập lớn Đề tài Chuyển giọng nói thành văn bản Giảng viên hướng dẫn TS Vũ Hữu Tiến Mục Lục Chương I Giới thiệu chung 1 1.

BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG  Báo cáo tập lớn Đề tài: Chuyển giọng nói thành văn Giảng viên hướng dẫn: TS Vũ Hữu Tiến Mục Lục Chương I: Giới thiệu chung 1 Đặt vấn đề .1 a Lý chọn đề tài b Những nghiên cứu trước c Mục tiêu Kiến thức nội dung liên quan .6 Chương II: Mô tả đề tài Chương III: Kết đánh giá .12 File Clean (những file thu âm điều kiện lý tưởng): 12 File NoisyVoice (những file ghi âm mơi trường có nhiễu): 13 Chương I: Giới thiệu chung Đặt vấn đề a Lý chọn đề tài Chúng ta sống xã hội ngày phát triển, giới ngày đại hóa Điều đặt yều cầu tất lĩnh vực đời sống xã hội phải phát triển với tốc độc nhanh từ kinh tế, văn hóa, giáo dục, y tế, … Để đảm bảo mục tiêu phát triển lĩnh vực yếu tố người vơ quan trọng Con người nguồn tài ngun vơ thiết yếu, từ trình hình thành văn minh cổ đại lên bước vượt bậc công nghiệp nay, người trung tâm Tuy vậy, q trình đó, họ gặp nhiều khó khăn để khắc phục điều thế, người tạo nhiều công cụ, giải pháp để vượt qua thách thức Quay trở lại với tại, để hồn thành cơng dần đại hóa người cần yếu tố vơ cấp thiết, Khoa học – Cơng nghệ thành khoa học cơng nghệ Giải pháp chuyển đổi giọng nói thành văn Giải pháp chuyển đổi giọng nói thành văn công nghệ đại phát triển nhằm hỗ trợ nhu cầu chuyển đổi từ file âm (audio) sang văn (text) cách nhanh chóng dễ dàng Với giải pháp này, bạn cần nói, hệ thống xử lý thơng tin nhận sau tự động chuyển đổi sang văn Hơn thế, phần mềm cịn hỗ trợ chuyển đổi giọng nói khoảng cách xa với độ xác cao, nên ứng dụng nhiều lĩnh vực, từ văn phịng, doanh nghiệp, đến phóng viên, học sinh, sinh viên - người có nhu cầu ghi chép soạn thảo lớn Giải pháp chuyển đổi giọng nói thành văn đời trở thành công cụ hữu hiệu việc ghi chép lưu trữ người dùng Tích hợp nhiều tính đại, giải pháp cịn có khả lưu trữ lớn, giúp người dùng dễ dàng tìm kiếm quản lý Ngày nay, song song với phát triển công nghệ đại, giải pháp chuyển đổi giọng nói thành văn trở thành công cụ thiếu người Một điều bàn cãi, ứng dụng “tiến xa” tương lai, mà tốc độ trở thành yếu tố để tạo nên thành cơng Trang Với nhiều lợi ích ưu việt, giải pháp chuyển đổi giọng nói ứng dụng nhiều lĩnh vực, phù hợp với nhu cầu nhiều đối tượng Thư ký họp thường phải ngồi ghi chép lại toàn nội dung họp, nhiên việc gây khó khăn lớn mà tốc độ lời nói nhanh tốc độ ghi chép tay Trung bình tốc độ đánh máy thư ký khoảng 70-90 từ/phút liên tục không 1h đồng hồ, tốc độ nói chuẩn 125 từ/phút Hơn nữa, việc ghi chép lại có khả bỏ sót nội dung quan trọng thư ký khó bắt kịp tồn nội dung người nói Do đó, phần mềm chuyển đổi giọng nói cơng cụ hỗ trợ đắc lực thư ký hỗ trợ ghi chép lời nói thành văn tức Học sinh, sinh viên vừa phải ghi chép lại nội dung giảng vừa phải tập trung lắng nghe nội dung học Phần mềm chuyển đổi giọng nói thành văn cơng cụ tuyệt vời việc tạo ghi giảng cách nhanh thay ghi chép thủ cơng Phóng viên người thường xuyên phải lấy ý kiến vấn, ghi âm lại bóc băng ghi âm Việc nhiều thời gian lĩnh vực tốc độ chìa khóa để tạo nên thành cơng Nếu khơng lên nhanh chóng, tin tức giảm nhiệt, thông tin hết “hot” Giải pháp chuyển đổi giọng nói thành văn phương án hữu hiệu giúp phóng viên lấy ý kiến vấn nhanh chóng, lên tức tăng suất làm việc Qua đây, ta thấy Giải pháp chuyển đổi giọng nói thành văn thực hữu dụng cần thiết nhiều lĩnh vực b Những nghiên cứu trước Giải pháp chuyển đổi giọng nói thành văn lĩnh vực liên ngành khoa học máy tính ngơn ngữ học Hình thái ban đầu tổng qt cơng nghệ Nhận dạng tiếng nói (Speech recognition) Lĩnh vực bắt đầu nghiên cứu từ năm 70 kỷ trước bùng nổ, trở thành phần quan trọng hầu hết tất lĩnh vực, ứng dụng nhiều đời sống Trước năm 1970 1952 – Ba nhà nghiên cứu Bell Labs, Stephen Balashek, R Biddulph, K H Davis xây dựng hệ thống gọi “Audrey” để nhận dạng chữ số Hệ thống họ định hình hệ thống nhận dạng tiếng nói Trang 1966 – Mã hóa dự đốn tuyến tính , phương pháp mã hóa giọng nói, lần đề xuất Fumitada Itakura Đại học Nagoya Shuzo Saito Nippon Telegraph and Telephone nghiên cứu nhận dạng giọng nói Khoảng thời gian này, nhà nghiên cứu Liên Xô phát minh thuật toán cong vênh thời gian động sử dụng để tạo nhận biết có khả hoạt động 200 từ vựng DTW xử lý lời nói cách chia thành khung ngắn, ví dụ phân đoạn 10ms xử lý khung đơn vị 1970–1990 1971 – DARPA tài trợ năm năm cho nghiên cứu nhận dạng giọng nói mục tiêu từ vựng tối thiểu 1.000 từ Họ nghĩ hiểu biết lời nói chìa khóa để đạt tiến nhận dạng giọng nói, điều sau chứng minh khơng thật 1976 – ICASSP lần tổ chức Philadelphia, kể từ địa điểm để xuất nghiên cứu nhận dạng giọng nói Một thập kỷ sau, CMU, sinh viên Raj Reddy James Baker Janet M Baker bắt đầu sử dụng Mơ hình Markov ẩn để nhận dạng giọng nói Vào năm 1980, nhóm Fred Jelinek IBM tạo máy đánh chữ kích hoạt giọng nói có tên Tangora, xử lý từ vựng 20.000 từ cách tiếp cận thống kê Jelinek nhấn mạnh vào việc mơ cách não người xử lý hiểu lời nói có lợi cho việc sử dụng kỹ thuật mơ hình thống kê HMMs Tuy nhiên, HMM chứng tỏ cách hữu ích để mơ hình hóa lời nói thay độ cong thời gian động để trở thành thuật toán nhận dạng giọng nói thống trị năm 1980 Những năm 1980 chứng kiến đời mơ hình ngơn ngữ n-gram 1987 – Mơ hình back-off cho phép mơ hình ngơn ngữ sử dụng nhiều n-gram chiều dài, CSELT sử dụng HMM để nhận dạng ngôn ngữ Phần lớn tiến lĩnh vực tốc độ xử lý máy tính 1984 - Apricot Portable phát hành với tối đa 4096 từ hỗ trợ, có 64 từ giữ RAM thời điểm Trang 1990 - Dragon Dictate, sản phẩm tiêu dùng phát hành vào năm 1990 AT&T triển khai dịch vụ Xử lý gọi nhận dạng giọng nói vào năm 1992 để định tuyến gọi điện thoại mà không cần sử dụng nhà điều hành người Công nghệ phát triển Lawrence Rabiner người khác Bell Labs Đến thời điểm này, vốn từ vựng hệ thống nhận dạng giọng nói thương mại điển hình lớn từ vựng trung bình người Học trị cũ Raj Reddy, Xuedong Huang, phát triển hệ thống Sphinx-II CMU Hệ thống Sphinx-II hệ thống thực độc lập với người nói, từ vựng lớn, nhận dạng giọng nói liên tục có hiệu suất tốt đánh giá năm 1992 DARPA Xử lý lời nói liên tục với vốn từ vựng lớn cột mốc quan trọng lịch sử nhận dạng giọng nói Huang tiếp tục thành lập nhóm nhận dạng giọng nói Microsoft vào năm 1993 Sinh viên kai-Fu Lee Raj Reddy gia nhập Apple, nơi vào năm 1992, ông giúp phát triển ngun mẫu giao diện giọng nói cho máy tính Apple gọi Casper Thập niên 2000 Trong năm 2000, DARPA tài trợ cho hai chương trình nhận dạng giọng nói: Hiệu tái sử dụng giọng nói với giá phải vào năm 2002 Khai thác ngơn ngữ tự trị tồn cầu Bốn nhóm tham gia vào chương trình EARS: IBM, nhóm BBN dẫn đầu với LIMSI Univ Pittsburgh, Đại học Cambridge, nhóm bao gồm ICSI, SRI Đại học Washington EARS tài trợ cho việc thu thập tổng đài tập tin phát biểu qua điện thoại chứa 260 hội thoại ghi lại từ 500 diễn giả Chương trình GALE tập trung vào phát biểu tin tức phát sóng tiếng Ả Rập tiếng Quan Thoại Nỗ lực Google việc nhận dạng giọng nói vào năm 2007 sau thuê số nhà nghiên cứu từ Nuance Sản phẩm GOOG-411, dịch vụ thư mục dựa điện thoại Các ghi âm từ GOOG-411 tạo liệu có giá trị giúp Google cải thiện hệ thống nhận dạng họ Google Voice Search hỗ trợ 30 ngôn ngữ Tại Hoa Kỳ, Cơ quan An ninh Quốc gia sử dụng loại nhận dạng giọng nói để phát từ khóa từ năm 2006 Công nghệ cho phép nhà phân tích Trang tìm kiếm thơng qua khối lượng lớn hội thoại ghi lại cô lập đề cập đến từ khóa Các ghi âm lập mục nhà phân tích chạy truy vấn qua sở liệu để tìm hội thoại quan tâm Một số chương trình nghiên cứu phủ tập trung vào ứng dụng tình báo nhận dạng giọng nói, ví dụ chương trình EARS DARPA chương trình Babel IARPA Vào đầu năm 2000, nhận dạng giọng nói bị chi phối phương pháp truyền thống Mơ hình Markov ẩn kết hợp với mạng thần kinh nhân tạo feedforward Tuy nhiên, ngày nay, nhiều khía cạnh nhận dạng giọng nói tiếp quản phương pháp học sâu gọi Trí nhớ ngắn hạn dài hạn , mạng lưới thần kinh tái phát xuất Sepp Hochreiter & Jürgen Schmidhuber vào năm 1997 RSTM tránh vấn đề chuyển hướng biến học nhiệm vụ «Rất sâu học» địi hỏi ký ức kiện xảy hàng ngàn bước thời gian rời rạc trước đây, điều quan trọng lời nói Khoảng năm 2007, LSTM đào tạo Connectionist Temporal Classification bắt đầu vượt trội so với nhận dạng giọng nói truyền thống số ứng dụng định Vào năm 2015, nhận dạng giọng nói Google trải qua bước nhảy vọt hiệu suất đáng kể 49% thông qua LSTM CTC đào tạo, có sẵn thơng qua Google Voice cho tất người dùng điện thoại thông minh Thập niên 2010 Vào đầu năm 2010, nhận dạng giọng nói, cịn gọi nhận dạng giọng nói phân biệt rõ ràng với nhận dạng người nói, độc lập người nói coi bước đột phá lớn Năm 2017, nhà nghiên cứu Microsoft đạt cột mốc tương đương lịch sử người việc phiên âm lời nói điện thoại đàm thoại nhiệm vụ Tổng đài chuẩn hóa rộng rãi Nhiều mơ hình học sâu sử dụng để tối ưu hóa độ xác nhận dạng giọng nói Tỷ lệ lỗi từ nhận dạng giọng nói báo cáo thấp người phiên âm người chuyên nghiệp làm việc điểm chuẩn, tài trợ nhóm phát biểu IBM Watson nhiệm vụ Trang Ở Việt Nam có nhiều cơng ty, tổ chức phát triển cơng nghệ chuyển đổi giọng nói thành văn Một số tên kể đến V-IONE, FPT,… Giải pháp chuyển đổi giọng nói thành văn từ tổ chức tiện dụng tiết kiệm nhiều thời gian cho người dùng, độ xác mức tương đối Tuy nhiên, số cịn giới hạn lượt sử dụng, số cịn thu phí nên bất tiện cho người dùng Chính nhóm chúng em xin phép chọn đề tài Giải pháp chuyển đổi giọng nói thành văn để mổ lại cơng nghệ củng cố thêm kiến thức c Mục tiêu Với đề này, mục tiêu đề sẽ:  Đạt độ xác 80-90% chuyển đổi giọng nói thành văn  Chuyển đổi nhiều files lần thực Kiến thức nội dung liên quan Mơ hình Markov: Hệ thống nhận dạng giọng nói đa đại dựa Mơ hình Markov ẩn Đây mơ hình thống kê xuất chuỗi biểu tượng số lượng HMM sử dụng nhận dạng giọng nói tín hiệu giọng nói xem tín hiệu cố định theo phần tín hiệu cố định thời gian ngắn Trong quy mô thời gian ngắn, lời nói xấp xỉ q trình đứng yên Lời nói coi mơ hình Markov cho nhiều mục đích ngẫu nhiên Trong nhận dạng giọng nói, mơ hình Markov ẩn tạo chuỗi vectơ có giá trị thực n chiều, xuất số sau 10 mili giây Các vectơ bao gồm hệ số cepstral, thu cách thực biến đổi Fourier cửa sổ thời gian ngắn lời nói giải mã quang phổ cách sử dụng biến đổi cosine, sau lấy hệ số Mơ hình Markov ẩn có xu hướng có tiểu bang phân bố thống kê hỗn hợp biến số chéo Gaussians, mà cung cấp cho khả cho vectơ quan sát Mô tả yếu tố cốt lõi cách tiếp cận phổ biến nhất, dựa HMM để nhận dạng giọng nói Các hệ thống nhận dạng giọng nói đại sử dụng kết hợp Trang khác số kỹ thuật tiêu chuẩn để cải thiện kết so với cách tiếp cận mô tả Nhiều hệ thống sử dụng gọi kỹ thuật đào tạo phân biệt đối xử phân phối với cách tiếp cận thống kê túy để ước tính tham số HMM thay vào tối ưu hóa số biện pháp liên quan đến phân loại liệu đào tạo Giải mã phát biểu có lẽ sử dụng thuật tốn Viterbi để tìm đường tốt nhất, có lựa chọn việc tự động tạo mơ hình Markov ẩn kết hợp, bao gồm thơng tin mơ hình âm ngơn ngữ kết hợp tĩnh trước Một cải tiến để giải mã giữ tập hợp ứng cử viên tốt thay giữ ứng cử viên tốt sử dụng chức chấm điểm tốt để đánh giá ứng cử viên tốt để chọn ứng cử viên tốt theo điểm số tinh tế Tập hợp ứng cử viên giữ dạng danh sách dạng tập hợp mơ hình Nhận dạng giọng nói dựa độ cong thời gian động (DTW) Cong vênh thời gian động cách tiếp cận sử dụng lịch sử để nhận dạng giọng nói phần lớn bị thay cách tiếp cận dựa HMM thành công Cong vênh thời gian động thuật toán để đo lường tương đồng hai chuỗi thay đổi thời gian tốc độ Ví dụ, tương đồng mơ hình phát hiện, video, người chậm video khác, cô ta nhanh hơn, chí có tăng tốc giảm tốc trình quan sát DTW áp dụng cho video, âm đồ họa thực sự, liệu biến thành biểu diễn tuyến tính phân tích DTW Một ứng dụng tiếng nhận dạng giọng nói tự động, để đối phó với tốc độ nói khác Nói chung, phương pháp cho phép máy tính tìm thấy kết hợp tối ưu hai chuỗi định (ví dụ: chuỗi thời gian) với hạn chế Trang định Đó là, chuỗi "vênh" phi tuyến tính để phù hợp với Phương pháp chỉnh trình tự thường sử dụng bối cảnh mô hình Markov ẩn Mạng lưới thần kinh ( Neural networks) Mạng lưới thần kinh lên phương pháp mơ hình hóa âm hấp dẫn ASR vào cuối năm 1980 Kể từ đó, mạng thần kinh sử dụng nhiều khía cạnh nhận dạng giọng nói phân loại âm vị, phân loại âm vị thơng qua thuật tốn tiến hóa đa khách quan, nhận dạng từ bị cô lập, nhận dạng giọng nói nghe nhìn, nhận dạng loa nghe nhìn thích nghi loa Các mạng thần kinh đưa giả định rõ ràng thuộc tính thống kê tính so với HMM có số phẩm chất làm cho chúng trở thành mơ hình nhận dạng hấp dẫn để nhận dạng giọng nói Khi sử dụng để ước tính xác suất phân đoạn tính giọng nói, mạng thần kinh cho phép đào tạo phân biệt đối xử cách tự nhiên hiệu Tuy nhiên, hiệu chúng việc phân loại đơn vị thời gian ngắn âm vị riêng lẻ từ bị cô lập, mạng thần kinh ban đầu thành công cho nhiệm vụ nhận dạng liên tục khả hạn chế chúng để mơ hình hóa phụ thuộc thời gian Một cách tiếp cận giới hạn sử dụng mạng thần kinh trình xử lý trước, chuyển đổi tính giảm kích thước, bước trước nhận dạng dựa HMM Tuy nhiên, gần hơn, LSTM mạng thần kinh tái phát liên quan (RNNs) Time Delay Neural Networks (TDNN) chứng minh hiệu suất cải thiện lĩnh vực Trang Chương II: Mô tả đề tài I/ Speech to text Tổng quan speech to text Hiện có nhiều cách tiếp cận nhận dạng tiếng nói khác bao gồm: sử dụng Mơ hình HMM (Markov), mạng Neural, sở tri thức, mơ hình kết hợp mơ hình Ta thấy tốn khó, âm người nói phức tạp, có tính liên tục âm quyện nối vào nhau, người giọng, có tạp âm khác nhiễu vào thiết bị thu, Với tiếng nói chuẩn, hệ đại nhận dạng khoảng 70% Bài tốn nhận dạng tiếng nói làm cho máy tính nhận biết chuyển tiếng nói thu nhận người thành chuỗi từ tương ứng, kết dùng ứng dụng điều khiển thiết bị, nhập liệu, soạn thảo văn bản, chuyển cho trình xử lý ngơn ngữ mức cao Nhận dạng tiếng nói phát triển từ nhận dạng từ nói riêng biệt đến nhận dạng từ nói liên tục, từ vựng sử dụng hệ thống chia thành nhóm: Từ vựng nhỏ: sử dụng tối đa khoảng 100 từ Từ vựng trung bình: sử dụng từ hàng trăm đến 20000 từ Từ vựng lớn: cho phép mở rộng đến 64000 từ Một hệ thống dạng tiếng nói thiết bị có khả tự động chuyển đổi tiếng nói thành văn Hình 1: Mơ tả q trình nhận dạng tiếng nói Hình mơ tả cách tổng thể q trình nhận dạng tiếng nói Đầu tiên, tiếng nói phát theo ý nghĩ người nói, tiếng nói thu nhận thu dạng sóng âm, sau rút trích đặc trưng chuyển tới phận xử lý ngữ âm Tại đặc trưng phân tích thành ngữ âm Sau ngữ âm xử lý giải mã chuỗi từ phù hợp Trang THỰC TẬP TỐT NGHIỆP Sinh viên thực hiện: Nguyễn Cao Thăng – Lớp 11TLT Hiện có nhiều cách tiếp cận nhận dạng tiếng nói khác bao gồm: sử dụng Mơ hình HMM, mạng Neural, sở tri thức, mơ hình kết hợp mơ hình Mơ hình Markov ẩn (HMM) Mơ hình Markov ẩn (HMM) mơ hình thống kê, thích hợp ứng dụng việc nhận dạng mẫu: tiếng nói, hình ảnh chữ viết HMM ứng dụng rộng rãi năm gần vi hai lý Thứ nhất, mơ hình có độ xác cao nhiều ứng dụng Trang 10 Thứ hai, cấu trúc mơ hình thay đổi dễ dàng cho phù hợp với ứng dụng cụ thể   Mơ hình Markov ẩn xác định yếu tố sau:      Chuỗi quan sát O=(o1,o2, ,on, )O=(o1,o2, ,on, ) Tập trạng thái S={s1,s2, ,sn}S={s1,s2, ,sn} Ma trận xác suất chuyển AA của trạng thái thuộc S:A=(aij)S:A=(aij) Ma trận xác suất phụ thuộc trạng thái B=(pi(oi))B=(pi(oi)) Phân phối ban đầu π Hình 2: Các chuyển tiếp trạng thái mơ hình Markov ẩn Nhận dạng giọng nói dựa độ cong thời gian động (DTW) Cong vênh thời gian động cách tiếp cận sử dụng lịch sử để nhận dạng giọng nói phần lớn bị thay cách tiếp cận dựa HMM thành công Cong vênh thời gian động thuật toán để đo lường tương đồng hai chuỗi thay đổi thời gian tốc độ Mạng lưới thần kinh ( Neural networks) Mạng nơron nhân tạo hay gọi mạng nơron nhân tạo, viết tắt: ANN (tiếng Anh Artificial neural network, ANN), mạng nơron nhân tạo Chúng đối tượng nghiên cứu tin học thần kinh đại diện cho nhánh trí tuệ nhân tạo Trang 11 Giống tế bào thần kinh nhân tạo, mạng lưới thần kinh nhân tạo có mơ hình sinh học Chúng so sánh với mạng lưới tế bào thần kinh tự nhiên, đại diện cho mạng lưới tế bào thần kinh hệ thống thần kinh sinh vật Đề tài sử dụng ngôn ngữ lập trình Python với cơng cụ PyCharm để người dễ tiếp cận Vì vậy, để thực hiện, máy tính cần cài Python PyCharm Link tải Python: Download Python | Python.org Link tải PyCharm: Download PyCharm: Python IDE for Professional Developers by JetBrains Sau tải tiến hành cài đặt theo hướng dẫn sau: Hướng dẫn cài đặt Pycharm IDE - YouTube Tiến hành cài thư viện cho chương trình: Cách cài đặt thư viện Librosa Pycharm B1: Sử dụng tổ hợp Ctrl + Alt + S vào mục File /Settings có biểu tượng hình cờ-lê Trang 12 B2: Tại chọn mục Project: tên Project bạn/ Python Interpreter Trang 13 B3: Click vào biểu tượng dấu cộng dùng tổ hợp Alt + Insert B4: Tại nhập vào thư viện bạn cần tìm kiếm sau chọn Click vào Install Package Trang 14  Thư viện : speech_recognition Python: Là thư viện nhận diện giọng nói sử dụng phổ biến Python Thư viện bao gồm nhiều thư viện khác với nhiều thuật toán xử lý tiếng nói để nhận diện tiếng nói file audio Mã chương trình: import speech_recognition as sr import os import webbrowser as wb i_path = 'D:\hoctap\TTDPT\Clean' r = sr.Recognizer() for rootpath, dirs, files in os.walk(i_path): for file in files: if file.endswith('.wav'): wav_path = os.path.join(rootpath, file) with sr.AudioFile(wav_path) as source: #LOAD ÂM THANH Trang 15 audio_data = r.record(source) #NHẬN BIẾ T TIẾ NG VIỆT txt_name = wav_path.replace('.wav', '.txt') try: text = r.recognize_google(audio_data, language = 'vi-VN') with open(txt_name, 'w', encoding='utf8') as txt_file: txt_file.writelines(text) print(txt_name) except Exception as e: print('{} !!!'.format(txt_name)) print(e) Sau chạy chương trình, phần văn lưu trữ thư mục “i_path” thư mục đường dẫn file audio Chương III: Kết đánh giá Chương trình có khả chuyển đổi âm từ vững thành văn xét phân đoạn ngắt nghỉ để thêm dấu câu hay in hoa chữ Vì thế, ta so sánh thống kế từ vựng chuyển đổi File Clean (những file thu âm điều kiện lý tưởng): Biểu đồ hiệu suất chuyển đổi âm thành văn điều kiện lý tưởng Trang 16 Thực tiến hành chạy thử nghiệm 61 files cho kết tương đối xác giọng đọc thống từ đài phát nên khơng có lỗi phát âm Vì mà chương trình dễ dàng có đoạn văn với hiệu suất khoảng 96% Cao phần cho dùng thử số phần mềm thị trường File NoisyVoice (những file ghi âm mơi trường có nhiễu): Biểu đồ hiệu suất chuyển đổi âm thành văn điều kiện có nhiễu Tiến hành chuyển đổi file thu âm điều kiện chưa lý tưởng lẫn tạp âm với giọng nói địa phương từ ngữ chuyên ngành nên hiệu suất chuyển đổi chưa cao điều kiện lý tưởng Trang 17 ... để hồn thành cơng dần đại hóa người cần yếu tố vơ cấp thiết, Khoa học – Công nghệ thành khoa học cơng nghệ Giải pháp chuyển đổi giọng nói thành văn Giải pháp chuyển đổi giọng nói thành văn công... tài Giải pháp chuyển đổi giọng nói thành văn để mổ lại cơng nghệ củng cố thêm kiến thức c Mục tiêu Với đề này, mục tiêu đề sẽ:  Đạt độ xác 80-90% chuyển đổi giọng nói thành văn  Chuyển đổi nhiều... có nhiều cơng ty, tổ chức phát triển công nghệ chuyển đổi giọng nói thành văn Một số tên kể đến V-IONE, FPT,… Giải pháp chuyển đổi giọng nói thành văn từ tổ chức tiện dụng tiết kiệm nhiều thời

Ngày đăng: 04/02/2023, 16:58

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w