Bài tập lớnmôn công nghệ đa phương tiện đề tài nghiên cứu tổng hợp tiếng nói bằng phương pháp học sâu

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN VIỆN CÔNG NGHỆ THÔNG TIN VÀ KINH TẾ SỐ BÀI TẬP LỚN MÔN CÔNG NGHỆ ĐA PHƯƠNG TIỆN Đề tài nghiên cứu: Tổng hợp tiếng nói phương pháp học sâu GVHD: TS Phạm Minh Hồn Lớp HP: CNTT1149_01 Nhóm Sinh viên: Nhóm HÀ NỘI, THÁNG NĂM 2022 Mục lục I Giới thiệu chung Mở đầu Giới thiệu tổng hợp tiếng nói II Học sâu (Deep learning) Học sâu(Deep learning) gì? .4 Tổng hợp tiếng nói dựa phương pháp học sâu Mạng nơron tích chập Phân loại Tìm hiểu số thuật tốn III Xử lý liệu âm Giới thiệu phân tích âm Xử lý liệu miền âm .6 IV Tìm hiểu mơ hình Transformer .7 Transformer gì? Kiến trúc Transformer Hoạt động mơ hình Transformer V Kiến trúc mơ hình Wav2Vec 2.0 .8 VI Beam Search VII VLSP2021 ASR .10 VIII Tìm hiểu ngơn ngữ lập trình Python 10 IX Xây dựng .11 X Kết luận 13 Phân chia công việc Thành Viên Nguyễn Ngọc Long Ma Thái Bảo Dương Minh Sơn Lưu Quốc Tuấn Dương Danh Hải Cơng viêc + Xây dựng mơ hình + Thuyết trình + Làm fontend + Báo cáo chương 2, + Làm slide + Làm backend + Báo cáo 4, 5, + Báo cáo chương 10 + Báo cáo chương 1,7, I Giới thiệu chung Mở đầu - - - Tổng hợp tiếng nói từ văn trình chuyển đổi tự động văn thành lời nói Hệ thống sử dụng cho mục đích gọi hệ thống tổng hợp tiếng nói, hệ thống tổng hợp tiếng nói gồm hai thành phần bản: Phần xử lý ngôn ngữ tự nhiên phần xử lý tổng hợp tiếng nói Tổng hợp tiếng nói ứng dụng nhiều lĩnh vực đời sống ứng dụng cho người mù, cho người bị điếc gặp khó khăn phát âm, ứng dụng giáo dục, trung tâm hỗ trợ khách hàng, hệ thống tương tác người máy Tổng hợp tiếng nói dựa phương pháp học sâu bắt đầu phát triển mạnh mẽ vài năm trở lại đây, phương pháp xây dựng dựa việc mơ hình hóa mơ hình âm học mạng nơ ron học sâu Văn đầu vào chuyển hóa thành véc tơ đặc trưng ngôn ngữ, véc tơ mang thông tin âm vị, ngữ cảnh xung quanh âm vị, điệu Sau mơ hình âm học dựa mạng nơ ron lấy đầu vào véc tơ đặc trưng ngôn ngữ tạo đặc trưng âm học tương ứng đầu Từ đặc trưng âm học tạo thành tín hiệu tiếng nói nhờ tổng hợp tiếng nói vocoder Mạng nơ ron học sâu sử dụng sản phẩm Google, Baidu, Microsoft hay hệ thống Merlin CSTR đạt độ tự nhiên tiếng nói cao Giới thiệu tổng hợp tiếng nói - Tổng hợp tiếng nói (Speech Synthesis) q trình tạo tiếng nói người cách nhân tạo Tổng hợp tiếng nói từ văn (Text-To-Speech) trình chuyển đổi tự động văn có nội dung thành lời nói Hệ thống sử dụng cho mục đích gọi hệ thống tổng hợp tiếng nói Một hệ thống tổng hợp tiếng nói gồm hai thành phần bản: Phần xử lý ngôn ngữ tự nhiên (Natural Language Processing) phần xử lý tổng hợp tiếng nói (Speech Synthesis Processing) - Khối xử lý ngôn ngữ tự nhiên có nhiệm vụ chuyển chuỗi ký tự văn đầu vào thành dạng chuỗi nhãn ngữ âm thiết kế trước hệ thống tổng hợp tiếng nói Tức thực chuyển đổi văn đầu vào thành chuỗi dạng biểu diễn ngữ âm Từ thông tin ngôn điệu ngữ âm chuỗi nhãn phụ thuộc ngữ cảnh mức âm vị văn đầu vào, khối xử lý tổng hợp tiếng nói chọn tham số thích hợp từ tập giá trị tần số bản, phổ tín hiệu, trường độ âm (âm vị, âm tiết) Cuối cùng, tiếng nói dạng sóng tín hiệu tạo kỹ thuật tổng hợp II Học sâu (Deep learning) Học sâu(Deep learning) gì? - Học sâu chức trí tuệ nhân tạo (AI), bắt chước hoạt động não người việc xử lí liệu tạo mẫu để sử dụng cho việc định - Học sâu tập học máy AI, có mạng lưới có khả "học" mà khơng bị giám sát từ liệu khơng có cấu trúc không gắn nhãn - Học sâu phát triển với thời đại kĩ thuật số, điều mang lại bùng nổ liệu hình thức từ khu vực giới Dữ liệu này, gọi đơn giản liệu lớn, lấy từ nguồn phương tiện truyền thông xã hội, cơng cụ tìm kiếm internet, tảng thương mại điện tử rạp chiếu phim trực tuyến, - Lượng liệu khổng lồ truy cập dễ dàng chia sẻ thơng tin qua ứng dụng Fintech điện toán đám mây Tổng hợp tiếng nói dựa phương pháp học sâu - Tổng hợp tiếng nói dựa phương pháp học sâu bắt đầu phát triển mạnh mẽ vài năm trở lại đây, phương pháp xây dựng dựa việc mơ hình hóa mơ hình âm học mạng nơ ron học sâu Trong đó, văn đầu vào chuyển hóa thành véc tơ đặc trưng ngôn ngữ, véc tơ đặc trưng mang thông tin âm vị, ngữ cảnh xung quanh âm vị, điệu… Sau đó, mơ hình âm học dựa mạng nơ ron học sâu lấy đầu vào véc tơ đặc trưng ngôn ngữ tạo đặc trưng âm học tương ứng đầu Từ đặc trưng âm học mô hình âm học tạo thành tín hiệu tiếng nói nhờ tổng hợp tín hiệu tiếng nói - Kiến trúc tổng quan hệ thống tổng hợp tiếng nói dựa mạng nơ ron học sâu mô tả sau: Document continues below Discover more from: Cơ sở lập trình 123456 214 documents Go to course Tổng hợp Trắc nghiệm CSLT 169 Cơ sở lập trình 100% (4) Chương-1 - Trắc nghiệm ôn tập chương CSLT Cơ sở lập trình 100% (3) CSLT Chuong - Hoii 14 Cơ sở lập trình 100% (3) Chuong P2 - trac nghiem Cơ sở lập trình 100% (2) Quiz-3-7 - quiz Hương 12 Cơ sở lập trình 100% (2) Tổng-hợp-LTTN-chương đến chương 7- sở lập trình 20 Cơ sở lập trình 100% (2) - Văn cần tổng hợp qua phân tích văn để trích chọn đặc trưng ngơn ngữ học chuyển hóa thành véc tơ nhị phân Input feature extraction, véc tơ nhị phân đầu vào {xn t} với xn t đặc trưng thứ n khung t (frame t), véc 17 tơ tương ứng tạo {ym t} đặc trưng đầu vào thông qua mạng nơ ron DNN huấn luyện, với ym t đặc trưng đầu thứ m khung t Các đặc trưng đầu chứa thông tin phổ tín hiệu kích thích, thơng qua tạo tham số (Parameter Generation) chuyển thành tham số đặc trưng âm học đưa vào tạo tín hiệu tiếng nói để tạo tín hiệu tiếng nói - Mạng nơ ron học sâu dựa lớp nơ ron nhân tạo, có khả mơ hình hóa mối quan hệ phi tuyến phức tạp đầu vào đầu Đặc biệt trường hợp sử dụng mạng nơ ron mơ hình hóa cách mạnh mẽ quan hệ phi tuyến, phức tạp đặc trưng ngôn ngữ học văn đặc trưng âm học tín hiệu tiếng nói, nhiên việc sử dụng mạng nơ ron có hạn chế mạnh mẽ nên nhạy cảm với thông tin sai lệch không tốt nhiễu, cần nhiều liệu để huấn luyện mơ hình Mạng nơron tích chập - Mạng nơron tích chập (CNN) thuật tốn Deep Learning lấy hình ảnh đầu vào, gán độ quan trọng (các trọng số - weights độ lệch - bias học được) cho đặc trưng/đối tượng khác hình ảnh phân biệt đặc trưng/đối tượng với Công việc tiền xử lý yêu cầu cho mạng nơron tích chập nhiều so với thuật toán phân loại khác Trong phương thức sơ khai, lọc thiết kế tay (hand - engineered), với trình huấn luyện để chọn lọc/đặc trưng phù hợp mạng nơron tích chập lại có khả tự học để chọn lọc/ đặc trưng tối ưu - Đầu vào CNN phân loại hình ảnh cách lấy hình ảnh đầu vào, xử lý phân loại theo hạng mục định (Ví dụ: Chó, Mèo, Hổ, ) Máy tính coi hình ảnh đầu vào mảng pixel phụ thuộc vào độ phân giải hình ảnh Dựa độ phân giải hình ảnh, máy tính thấy H x W x D (H: Chiều cao, W: Chiều rộng, D: Độ dày) Ví dụ: Hình ảnh mảng ma trận RGB 4x4x3 (3 giá trị RGB) - Lớp tích chập – lọc (the kernel) - Ví dụ Kích thước hình ảnh = (Chiều cao) x (Chiều rộng) x - Ở hình bên, phần màu xanh lục hình ảnh đầu vào x x chúng ta, ta gọi hình ảnh đầu vào I - Phần tử liên quan đến việc thực thao tác tích chập phần lớp tích chập gọi Bộ lọc (Kernel / Filter) , K, thể màu vàng Chúng ta chọn K ma trận x x Bộ lọc di chuyển sang phải với Giá trị trượt cố định (Stride) hoàn thành việc quét theo chiều rộng Tiếp tục, nhảy xuống phía đầu bên trái hình ảnh với Giá trị trượt lặp lại trình tồn hình ảnh duyệt qua - Mục tiêu phép tính tích chập trích xuất đặc trưng cấp cao cạnh (edges), từ hình ảnh đầu vào Mạng nơron tích chập khơng thiết giới hạn lớp tích chập Thơng thường, lớp tích chập chịu trách nhiệm nắm bắt đặc trưng cấp thấp màu sắc (colors), hướng dốc (gradient orientation), v.v Với lớp tích chập thêm vào, mơ hình nắm bắt đặc trưng cấp cao, mang đến cho mạng lưới nơron tích chập có hiểu biết tồn diện hình ảnh liệu, tương tự cách - người hiểu hình ảnh - Lớp gộp (Pooling layer), tương tự lớp tích chập (Convolutional Layer), pooling chịu trách nhiệm làm giảm chiều kết tích chập (Convolved Feature) Điều nhằm mục đích để giảm chi phí tính tốn cần phải có để xử lý liệu thơng qua việc giảm kích thước tính đầu vào Hơn nữa, hữu ích để trích xuất đặc trưng cốt lõi, thường bất biến trước phép xoay phép trượt, làm cho q trình huấn luyện mơ hình hiệu - Có hai loại phép gộp: Gộp cực đại (Max Pooling) Gộp trung bình (Average Pooling) Phép gộp cực đại trả giá trị lớn từ phần hình ảnh bao phủ lọc Trong đó, phép gộp trung bình trả giá trị trung bình tất giá trị từ phần hình ảnh bao phủ lọc - Lớp tích chập (Convolutional Layer) lớp gộp (Pooling layer), kết hợp với tạo thành lớp thứ i mạng nơron tích chập Tùy thuộc vào độ phức tạp ảnh, số lượng lớp Xử lý liệu miền âm - Tại số định dạng liệu phi cấu trúc Đối với liệu âm đó, có vài bước tiền xử lý Điều cần phải làm theo trước trình bày để phân tích âm Đầu tiên phải tải liệu vào định dạng dễ hiểu cho máy Đối với điều này, cần lấy giá trị sau bước thời gian cụ thể Ví dụ: tệp âm giây, chúng tơi trích xuất giá trị nửa giây Đây gọi lấy mẫu liệu âm tốc độ lấy mẫu gọi tốc độ lấy mẫu - Chúng ta đại diện cho theo cách khác Vì chuyển đổi liệu sang miền khác, cụ thể miền tần số Khi lấy mẫu liệu âm thanh, yêu cầu nhiều điểm liệu để thể toàn liệu Ngoài ra, tỷ lệ lấy mẫu phải cao tốt Vì vậy, chúng tơi đại diện cho liệu âm miền tần số Sau đó, khơng gian tính tốn nhiều u cầu - Có vài cách khác để biểu diễn liệu âm phân tích âm Ví dụ sử dụng MFC Đây cách khác để thể liệu Hơn nữa, chúng tơi phải trích xuất tính từ đại diện âm Thuật tốn hoạt động tính thực nhiệm vụ mà thiết kế cho Đây đại diện trực quan loại tính âm trích xuất IV Tìm hiểu mơ hình Transformer Transformer gì? - Transformer mơ hình học sâu giới thiệu năm 2017, dùng chủ yếu lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) - Giống mạng thần kinh hồi quy (recurrent neural network - RNN), Transformer thiết kế để xử lý liệu tuần tự, chẳng hạn ngôn ngữ tự nhiên, cho tác vụ dịch máy thống kê hay tóm tắt tự động Tuy nhiên, khác với RNN, Transformer không yêu cầu liệu xử lý theo thứ tự Ví dụ, liệu đầu vào câu ngôn ngữ tự nhiên, Transformer không cần phải xử lý phần đầu câu trước phần cuối câu Do tính này, Transformer cho phép nhiều phép tính tốn song song giảm thời gian huấn luyện Kiến trúc Transformer - Kiến trúc Transformer tuân theo cấu trúc giải mã mã hóa, khơng dựa vào lặp lại tích chập để tạo đầu - Nhiệm vụ mã hóa, nửa bên trái kiến trúc Transformer, ánh xạ chuỗi đầu vào đến chuỗi biểu diễn liên tục, sau đưa vào giải mã - Bộ giải mã, nửa bên phải kiến trúc, nhận đầu mã hóa với đầu giải mã bước thời gian trước đó, để tạo chuỗi đầu Hoạt động mơ hình Transformer Mỗi từ tạo thành chuỗi đầu vào chuyển thành dmơ hình-vector nhúng chiều Mỗi vectơ nhúng đại diện cho từ đầu vào tăng cường cách tính tổng (về mặt phần tử) thành vectơ mã hóa vị trí từ dmơ hình chiều dài, đưa thơng tin vị trí vào đầu vào Các vectơ nhúng tăng cường đưa vào khối mã hóa, bao gồm hai lớp giải thích Vì mã hóa tham dự vào tất từ chuỗi đầu vào, chúng trước hay thành công từ xem xét, mã hóa Transformer hai chiều Bộ giải mã nhận dạng đầu vào từ đầu dự đốn bước thời gian, t–1 Đầu vào cho giải mã tăng cường cách mã hóa vị trí, theo cách tương tự điều thực phía mã hóa Đầu vào giải mã tăng cường đưa vào ba lớp bao gồm khối giải mã giải thích Mặt nạ áp dụng lớp đầu tiên, để ngăn giải mã tham gia vào từ thành công Ở lớp thứ hai, giải mã nhận đầu mã hóa, cho phép giải mã tham gia vào tất từ chuỗi đầu vào Đầu giải mã cuối qua lớp kết nối hoàn toàn, lớp softmax, để tạo dự đoán cho từ chuỗi đầu V Kiến trúc mô hình Wav2Vec 2.0 Các mơ hình Speech to Text Acoustic Model (Mơ hình âm thanh) Mơ hình âm mơ hình phức tạp, mơ hình hóa mối quan hệ tín hiệu âm đơn vị ngữ âm ngôn ngữ HMM-GMM Acoustic model HMM (Mơ hình Markov ẩn) Mơ hình Markov ẩn với ba trạng thái: - Mô hnh Markov ẩn (HMM) mô hình thống kê máy trạng thái, cho phép xem xét đến hai thành phần kiện quan sát kiện ẩn Ví dụ nhận dạng giọng nói kiện quan sát đặc trưng âm học tiếng nói, cịn kiện ẩn từ HMM bao gồm thành phần sau:  Q = q1, q2, …, qN: tập N trạng thái ** A = a11, q12, …, ann*: ma trận chuyển trạng thái (transition matrix) với aij xác suất để trạng thái j xuất hiê ‹n thời điểm t+1 trạng thái i xuất hiê ‹n thời điểm t  O = o1, o2, …, oT: chuỗi T quan sát thời điểm t khác Tương ứng với trạng thái thời điểm t có tập V = {o1, o2, …, om} tập tất quan sát quan sát thấy trạng thái  � = {�� (�� )}: B phân bố xác suất quan sát quan sát o trạng thái qj  Π = {π1, π2, …, πN}: tâp‹ phân bố xác suất cho trạng thái khởi đầu, πi xác suất để trạng thái i chọn thời điểm khởi đầu t = (có thể hiểu khởi tạo tham số cho mơ hình Deep Learning) => Ở hình biểu diễn ví dụ HMM với trạng thái Q = q1, q2, q3 Tại trạng thái q, kiện quan sát V = (v1, v2, v3, v4) B = (b1, b2, b3, b4) phân bố xác suất quan sát kiện với bj(k) xác suất quan sát kiện vk trạng thái qj Đối với HMM, có tốn chính:  Bài tốn 1: Computing likelihood Cho biết trước mơ hình HMM λ(π, A, B) chuỗi quan sát O=O1, O2, …, OT Xác định likelihood P(O|λ) Ví dụ nhận dạng tiếng nói, ta có quan sát O tín hiệu tiếng nói λ mơ hình, tốn cần giải tính likelihood P để mơ hình λ quan sát O  Bài toán 2: Decoding Cho chuỗi quan sát O mơ hình HMM λ(A,B,π), xác định chuỗi Q tốt Trong nhận dạng tiếng nói tốn nhận dạng, quan sát O tín hiệu tiếng nói tốn tìm chuỗi âm vị Q tương ứng với tín hiệu Bài tốn 3: Learning - Co chuỗi quan sát O tập trạng thái HMM, điều chỉnh tham số λ = {A, B, π} HMM để P(O| λ) lớn Đây tốn huấn luyện mơ hình HMM Trong HMM, âm vị thường biểu diễn HMM tuyến tính trạng thái Câu trả lời sử dụng GMM (Gaussian Mixture Model) GMM mơ hình phân phối để đánh giá khả quan sát tạo Việc đào tạo HMM-GMM giải Tối đa hóa kỳ vọng (Expectation Maximization - EM) HMM-DNN Acoustic model - Kiến trúc HMM-DNN tiếp cận mơ hình âm theo cách khác Thay tìm kiếm câu trả lời cho P(X|W), HMM-DNN trực tiếp trả lời cho P(W|X) DNN dự đoán xác suất trạng thái khung thoại, HMM kết hợp dự đoán DNN để dự đoán trạng thái Language Modeling (Mơ hình ngơn ngữ) - Mơ hình ngơn ngữ biểu diễn P(W) Mơ hình ngơn ngữ thống kê loại mơ hình gán xác suất cho chuỗi từ N-gram language model Cơng thức: P(w|h), tính xác suất từ w biết trước từ trước h Ví dụ: P(u|Tơi gái đáng) Ở đây, w = yêu, h = Tôi cô gái đáng - Tính xác suất phương pháp đếm tần suất tương đối, cần sử dụng kho ngữ liệu (corpus) lớn Từ kho ngữ liệu này, đếm số lần xuất “Tơi gái đáng”, sau đếm số lần xuất “u" sau  P(u|Tơi cô gái đáng) = C(Tôi cô gái đáng yêu)/C(Tôi cô gái đáng) - Thử tượng tưởng, corpus bạn lên đến hàng triệu, hàng trăm nghìn từ tính tốn có khả thi khơng? Mơ hnh N-gram giải vấn đề này, thay tính tốn xác suất cách sử dụng tồn kho liệu, ước tính vài từ (N) xuất trước đó.Trong n 1(unigram), 2(bigram), 3(trigram)  Có thể thấy nhược điểm mơ hình ngơn ngữ thống kê đào tạo dựa kho ngữ liệu cố định Nếu liệu tập ngữ liệu này, dẫn đến xác suất Ngồi cịn thiếu tính tổng qt tùy vào thể loại, chủ đề có cách kết hợp câu, từ khác  Để giải vấn đề này, sử dụng mơ hình ngơn ngữ học sâu Gần đây, lĩnh vực NLP, mơ hình ngơn ngữ dựa mạng nơ ron ngày trở nên phổ biến Mơ hình WAV2VEC 2.0 - Kiến trúc mơ hình cuối sử dụng để dự đốn bao gồm ba phần chính:  lớp phức tạp xử lý đầu vào dạng sóng thơ để có biểu diễn tiềm ẩn - Z,  lớp biến áp, tạo biểu diễn theo ngữ cảnh - C,  chiếu tuyến tính đến đầu – Y Kiến trúc mơ hình Wav2Vec 2.0 VI Beam Search - Beam Search thuật toán phổ biến kiến trúc seq2seq đại - Các mơ hình seq2seq sử dụng kiến trúc bao gồm encoder decoder Encoder mã hóa chuỗi đầu vào chuyển đến decoder Decoder có nhiệm vụ sinh chuỗi đầu ứng với thông tin nhận từ encoder - Ví dụ, ta cần dịch câu sang tiếng Anh Chúng ta mong muốn chuỗi đầu không tập hợp lộn xộn từ mà câu hoàn chỉnh tiếng Anh có ý nghĩa với câu đầu vào - - Cách thức đơn giản cho việc với tập từ vựng ngôn ngữ đích (ví dụ có 10 nghìn từ), dựa câu đầu vào, ta tính xác suất từ 10K từ Thuật tốn tìm kiếm tham lam chọn ứng viên tốt cho bước tính toán Mặc dù vậy, ứng viên tốt cho bước không đảm bảo ứng viên tốt cho toàn câu Mục tiêu khơng phải dịch word-by-word mà tìm dịch tốt cho toàn câu đầu vào Beam search chọn vài ứng viên cho bước tính tốn dựa xác suất có điều kiện Số lượng ứng viên tham số mang tên Beam Width Giá trị beam width lớn, khả có dịch tốt cao tốn nhiều nhớ lực tính tốn Việc đánh đổi chất lượng chi phí tính tốn vấn đề mn thuở Khoa học máy tính VII VLSP2021 ASR - - VLSP2021 ASR có hai nhiệm vụ đánh giá Các nhóm tham gia vào hai nhiệm vụ hai Task-01 (ASR-T1): Tập trung vào việc phát triển toàn quy trình mơ hình ASR từ đầu Ban tổ chức cung cấp hai liệu đào tạo Tập liệu khoảng 280 liệu phiên âm miền chung Mỗi người tham gia phải gắn nhãn phần tập liệu trước nhận Tập liệu thứ hai khoảng 400 liệu miền không đăng ký Tất người tham gia yêu cầu sử dụng liệu cung cấp để phát triển mơ hình bao gồm mơ hình âm ngơn ngữ Bất kỳ việc sử dụng tài ngun khác để phát triển mơ hình chấp nhận Task-02 (ASR-T2): Tập trung vào lời nói tự phát tình thực tế khác nhau, ví dụ: hội thoại họp, phát biểu giảng Đối với nhiệm vụ này, tổ chức không cung cấp liệu đào tạo, người tham gia sử dụng tất nguồn liệu có sẵn để phát triển mơ hình họ mà khơng có giới hạn VIII Công cụ Python - Python ngôn ngữ lập trình bậc cao cho mục đích lập trình đa năng, Guido van Rossum tạo lần đầu mắt vào năm 1991 Python thiết kế với ưu điểm mạnh dễ đọc, dễ học dễ nhớ Python ngơn ngữ có hình thức sáng sủa, cấu trúc rõ ràng, thuận tiện cho người học lập trình ngơn ngữ lập trình dễ học; dùng rộng rãi phát triển trí tuệ nhân tạo Các dự án ML/AI sử dụng ngôn ngữ Python Code Python mang âm hưởng toán học giống với lối đọc/hiểu người nên giúp đơn giản hóa vấn đề để lập trình viên tập trung vào AI, ML so với ngôn ngữ khác Streamlit công cụ demo code python - Streamlit công cụ xây dựng với mục đích dành cho Machine Learning Engineer, tạo giao diện web Jupyter notebook Điểm đặc biệt khác với Jupyter notebook Streamlit hiển thị code, giúp cho bạn tạo sản phẩm có tính hồn thiện cao - Về hiển thị kết từ python web, nên sử dụng để tạo app với python - Cache lưu trữ theo trạng thái thiết lập điều giúp cho ứng dụng không cần phải chạy lại cho người dùng khác Để đảm bảo cache hoạt động đúng, hàm sử dụng cache, không dùng hàm streamlit Các chức nên dùng cache như: tải file, xử lý tính tốn cho kết IX Xây dựng Mơ hình nhóm sử dụng - Mơ hình pre-trained qua 13 tiếng liệu tiếng việt youtube (khơng gán nhãn) Sau fine-tuned với 250 tiếng liệu gán nhãn tập liệu VLSP ASR (16000HZ) - Sử dụng kiến trúc wav2vec2 - Phương pháp giải mã beamsearch - Luồng chương trình: - Code Nhóm chúng em sử dụng framed work transformer streamlit để xây dụng chương trình: Xây dựng thành hàm riêng biệt Vì chạy web-app nên chúng em cần xử lý cẩn thận cache để tránh trường hợp đầy ram tăng thời gian xử lý:   Tiếp đến hàm nhận đầu vào đầu cho mơ hình: chúng em dùng librosa để đọc file âm thành giá chị đại diện so sóng âm với 16000 HZ Và dùng thêm thuật toán để giải mã đầu đưa kết ngồi hình Và cuối kết hợp hàm xây dụng giao diện cho website  Và giao diện Kịch thử nghiệm: Nhóm thử nghiệm nhiều kịch khác nhau, thử nghiệm với nhiều giọng khác (miền nam, miền bắc, miền trung) đưa kết luận sau: Mơ hình thực tốt với giọng nói chậm Những câu nói nhanh mơ hình cịn nhận diện sai Xử lý tốt câu dài Dù không sử dụng api công ty lớn hoạt động tốt Tốt độ xử lý nhanh chạy hoàn toàn CPU X Kết luận  Hệ thống tổng hợp tiếng nói theo phương pháp mạng nơ ron học sâu cho tiếng nói tổng hợp có chất lượng tốt Vì vậy, hướng phát triển tiếp tục thử nghiệm để tối ưu để đưa phương pháp tổng hợp tiếng nói theo phương pháp học sâu vào hệ thống công nghiệp như: Thiết bị định vị dẫn đường, tổng đài chăm sóc khách hàng cung cấp dịch vụ báo nói cho trang báo điện tử

Định dạng
Số trang	28
Dung lượng	5,1 MB