ÁP DỤNG CÔNG NGHỆ CHUYỂN ĐỔI GIỌNG NÓI THÀNH VĂN BẢN ĐỂ PHỤC VỤ CÔNG VIỆC GHI CHÉP CỦA THƯ KÝ TRƯỜNG ĐHCNHN

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	32
Dung lượng	258,58 KB

Nội dung

Ngày nay, công nghệ thông tin đang phát triển mạnh mẽ và nó đang trở thành một ngành mũi nhọn. Đề tài đã được ứng dụng rộng rãi trong tất cả các lĩnh vực của đời sống xã hội. Có thể nói sự phát triển của công nghệ thông tin đã giúp con người giải quyết các bài toán khó trong thời gian ngắn, mà trước đây đòi hỏi con người phải mất nhiều thời gian và công sức với độ chính xác và độ tin cậy cao. Điều này đánh dấu một bước ngoặc vĩ đại trong ngành tin học nói riêng và trong các lĩnh vực đời sống nói chung. Trong thời đại công nghệ số, việc chuyển đổi giọng nói thành văn bản đang trở thành một nhu cầu thiết yếu trong đời sống và công việc của con người. Với sự phát triển của trí tuệ nhân tạo, các ứng dụng của nó cũng được áp dụng rộng rãi trong các lĩnh vực khác nhau, trong đó có lĩnh vực xử lí ngôn ngữ tự nhiên. Do đó, xây dựng phần mềm chuyển giọng nói thành văn bản là một giải pháp tiện lợi và hiệu quả. Phần mềm này giúp cho người dùng tiếp kiệm thời gian và nỗ lực trong công việc chuyển giọng nói thành văn bản, đồng thời giảm sự mệt mỏi và sai sót trong quá trình thực hiện công việc này. Giải pháp chuyển đổi giọng nói thành văn bản là công nghệ hiện đại được phát triển nhằm hỗ trợ nhu cầu chuyển đổi từ file âm thanh (audio) sang văn bản (text) một cách nhanh chóng và dễ dàng. Với giải pháp này, bạn chỉ cần nói, hệ thống sẽ xử lý thông tin nhận được sau đó tự động chuyển đổi sang văn bản. Hơn thế, phần mềm còn hỗ trợ chuyển đổi giọng nói ở khoảng cách xa với độ chính xác cao, vì thế nên nó được ứng dụng trong rất nhiều lĩnh vực, từ văn phòng, doanh nghiệp, đến phóng viên, học sinh, sinh viên những người có nhu cầu ghi chép và soạn thảo lớn.

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO THỰC TẬP CƠ SỞ NGÀNH Mã lớp độc lập: IT6046.1 (20222IT6046001) ÁP DỤNG CÔNG NGHỆ CHUYỂN ĐỔI GIỌNG NÓI THÀNH VĂN BẢN ĐỂ PHỤC VỤ CÔNG VIỆC GHI CHÉP CỦA THƯ KÝ TRƯỜNG ĐHCNHN GVHD: Thạc sĩ Lê Như Hiền Nhóm sinh viên: Nhóm 14 Nguyễn Viết Vượng Mã SV: 2021601739 Đinh Thị Mừng Mã SV: 2021603445 Lê Văn Xuân Mã SV: 2021605103 Lớp: KHMT01K16 Đàm Lê Tuấn Vũ Mã SV: 2021606931 Lớp: KHMT01K16 Lê Trần Anh Tú Mã SV: 2021601281 Hà Nội, 2023 Lớp: KHMT01K16 Lớp: KHMT01K16 Lớp: KHMT01K16 CHƯƠNG - LỜI CẢM ƠN Để hoàn thành báo cáo này, nhóm chúng em xin gửi lời cảm ơn chân thành đến:  Giáo viên hướng dẫn đề tài – cô Lê Như Hiền, Giảng viên Khoa Công nghệ Thông tin Trường Đại học Công Nghiệp Hà Nội - hết lòng giúp đỡ, hướng dẫn, dạy tận tình để nhóm em hồn thành đề tài  Các cán văn phòng, thầy giáo trường nhiệt tình tạo điều kiện giúp đỡ nhóm em thực khảo sát trường  Các bạn Nhóm 14 góp ý giúp đỡ trình làm đề tài Một lần nữa, chúng em xin cảm ơn cô chúc cô dồi sức khỏe, hạnh phúc, thành cơng nghiệp giảng dạy mình! mục lụ MỞ ĐẦU Lý chọn đề tài Mục tiêu đề tài .6 Phạm vi nghiên cứu đề tài Cấu trúc đề tài CHƯƠNG - CƠ SỞ LÝ THUYẾT 1.1 Tổng quan hệ thống chuyển đổi giọng nói thành văn 1.2 Các công nghệ sử dụng để xây dựng hệ thống .13 CHƯƠNG - KHẢO SÁT NHU CẦU VÀ TÍNH NĂNG 20 2.1 Lập phiếu khảo sát 20 2.2 Những nhận xét rút qua việc khảo sát người dùng 23 2.3 Đánh giá tính khả thi 24 CHƯƠNG - THIẾT KẾ VÀ XÂY DỰNG HỆ THỐNG 26 3.1 Thiết kế 26 3.2 Xây dựng 27 KẾT LUẬN 29 TÀI LIỆU THAM KHẢO .31 CHƯƠNG - MỞ ĐẦU Lý chọn đề tài CHƯƠNG - Ngày nay, công nghệ thông tin phát triển mạnh mẽ trở thành ngành mũi nhọn Đề tài ứng dụng rộng rãi tất lĩnh vực đời sống xã hội Có thể nói phát triển cơng nghệ thơng tin giúp người giải tốn khó thời gian ngắn, mà trước đòi hỏi người phải nhiều thời gian công sức với độ xác độ tin cậy cao Điều đánh dấu bước ngoặc vĩ đại ngành tin học nói riêng lĩnh vực đời sống nói chung CHƯƠNG - Trong thời đại cơng nghệ số, việc chuyển đổi giọng nói thành văn trở thành nhu cầu thiết yếu đời sống công việc người Với phát triển trí tuệ nhân tạo, ứng dụng áp dụng rộng rãi lĩnh vực khác nhau, có lĩnh vực xử lí ngơn ngữ tự nhiên Do đó, xây dựng phần mềm chuyển giọng nói thành văn giải pháp tiện lợi hiệu Phần mềm giúp cho người dùng tiếp kiệm thời gian nỗ lực công việc chuyển giọng nói thành văn bản, đồng thời giảm mệt mỏi sai sót q trình thực công việc CHƯƠNG - Giải pháp chuyển đổi giọng nói thành văn cơng nghệ đại phát triển nhằm hỗ trợ nhu cầu chuyển đổi từ file âm (audio) sang văn (text) cách nhanh chóng dễ dàng Với giải pháp này, bạn cần nói, hệ thống xử lý thơng tin nhận sau tự động chuyển đổi sang văn Hơn thế, phần mềm hỗ trợ chuyển đổi giọng nói khoảng cách xa với độ xác cao, nên ứng dụng nhiều lĩnh vực, từ văn phòng, doanh nghiệp, đến phóng viên, học sinh, sinh viên - người có nhu cầu ghi chép soạn thảo lớn CHƯƠNG - Giải pháp chuyển đổi giọng nói thành văn đời trở thành công cụ hữu hiệu việc ghi chép lưu trữ người dùng Tích hợp nhiều tính đại, giải pháp cịn có khả lưu trữ lớn, giúp người dùng dễ dàng tìm kiếm quản lý Ngày nay, song song với phát triển công nghệ đại, giải pháp chuyển đổi giọng nói thành văn trở thành công cụ thiếu người Một điều bàn cãi, ứng dụng “tiến xa” tương lai, mà tốc độ trở thành yếu tố để tạo nên thành cơng CHƯƠNG - Với nhiều lợi ích ưu việt, giải pháp chuyển đổi giọng nói ứng dụng nhiều lĩnh vực, phù hợp với nhu cầu nhiều đối tượng thư ký họp thường phải ngồi ghi chép lại toàn nội dung họp, nhiên việc gây khó khăn lớn mà tốc độ lời nói nhanh tốc độ ghi chép tay Trung bình tốc độ đánh máy thư ký khoảng 70-90 từ/phút liên tục không 1h đồng hồ, tốc độ nói chuẩn 125 từ/phút Do khó bắt kịp tồn nội dung người nói Điều dễ dẫn đến tình trạng nội dung ghi chép lại bị sai lệch, chắp vá, thiếu sót ý quan trọng, chí thất lạc ghi Nếu dùng cách ghi âm thoại, nhanh ghi lại tồn thơng tin Nhưng khâu xử lý hậu cầu bạn lại nhiều thời gian Không phải thông tin đoạn ghi âm có giá trị nên bạn cần chắt lọc nó, chí phải nghe nghe lại nhiều lần, sau đánh máy lại thành văn Một vấn đề khác mà nhiều người thường xuyên gặp phải ghi chép biên họp thủ cơng khơng thể ghi lại hết tồn thơng tin có nhiều đại biểu tranh luận lúc Viết nội dung người phát biểu lại lỡ thoại người Do đó, phần mềm chuyển đổi giọng nói cơng cụ hỗ trợ đắc lực thư ký hỗ trợ ghi chép lời nói thành văn tức Học sinh, sinh viên vừa phải ghi chép lại nội dung giảng vừa phải tập trung lắng nghe nội dung học Phần mềm chuyển đổi giọng nói thành văn công cụ tuyệt vời việc tạo ghi giảng cách nhanh thay ghi chép thủ cơng Phóng viên người thường xun phải lấy ý kiến vấn, ghi âm lại bóc băng ghi âm Việc nhiều thời gian lĩnh vực tốc độ chìa khóa để tạo nên thành cơng Nếu khơng lên nhanh chóng, tin tức giảm nhiệt, thơng tin hết “hot” Giải pháp chuyển đổi giọng nói thành văn phương án hữu hiệu giúp phóng viên lấy ý kiến vấn nhanh chóng, lên tức tăng suất làm việc Qua đây, ta thấy Giải pháp chuyển đổi giọng nói thành văn thực hữu dụng cần thiết nhiều lĩnh vực CHƯƠNG - Với lợi ích tiềm ứng dụng rộng rãi công nghệ chuyển đổi giọng nói thành văn bản, nắm bắt xu công nghệ nay, chúng em chọn đề tài “Áp dụng công nghệ chuyển đổi giọng nói thành văn việc ghi chép thư ký trường Đại học Công Nghiệp Hà Nội” Mục tiêu đề tài CHƯƠNG - Đề tài chúng em có mục tiêu sau:  Tìm hiểu đặc trưng giọng nói từ loại, ngữ nghĩa, cú pháp  Qua đó, thu thập phân tích yêu cầu cho sản phẩm chuyển đổi giọng nói thành văn  Hướng đến ứng dụng đáp ứng độ xác 8090% chuyển đổi giọng nói thành văn Phạm vi nghiên cứu đề tài CHƯƠNG 10 - Phạm vi đề tài tập trung vào nghiên cứu công nghệ chuyển đổi giọng nói thành văn có thị trường Tìm hiểu quy trình ghi chép trường đại học Cơng Nghiệp Hà Nội, khó khăn q trình ghi chép đánh giá tính khả thi ứng dụng cơng nghệ chuyển đổi giọng nói thành văn việc giải vấn đề Đồng thời đề xuất giải pháp đưa khuyến nghị để áp dụng cơng nghệ chuyển đổi giọng nói thành văn trình ghi chép thư ký trường đại học Công Nghiệp Hà Nội, với mục tiêu giảm thiểu thời gian, tăng tính xác nâng cao hiệu công việc thư ký Cấu trúc đề tài CHƯƠNG 11 - Ngoài phần mở đầu, kết luận tài liệu tham khảo, cấu trúc đề tài chúng em gồm chương sau Chương 1: Cơ sở lý thuyết: CHƯƠNG 12 - Phần nhằm mục đích đề yêu cầu cho phần mềm chuyển đổi giọng nói thành văn cách hiệu quả, đáp ứng nhu cầu đề Tiếp theo, chúng em trình bày tảng lý thuyết liên quan đến đề tài, bao gồm khái niệm xử lý ngôn ngữ tự nhiên, phương pháp học sâu mơ hình sử dụng để chuyển đổi giọng nói thành văn Ngồi ra, phần đưa số cơng trình nghiên cứu liên quan đến đề tài đánh giá tình hình nghiên cứu lĩnh vực Chương 2: Khảo sát nhu cầu tính CHƯƠNG 13 - Phần nêu kết trình khảo sát thư ký, nhằm đánh giá tính khả thi hệ thống chuyển đổi giọng nói thành văn dành cho đối tượng Chương 3: Thiết kế xây dựng hệ thống CHƯƠNG 14 - Phần trình bày phương pháp quy trình để xây dựng hệ thống chuyển đổi giọng nói thành văn phù hợp với nhu cầu thư kí Ngồi ra, chương đề cập đến số lưu ý trình thiết kế xây dựng hệ thống CHƯƠNG - CƠ SỞ LÝ THUYẾT 1.1 Tổng quan hệ thống chuyển đổi giọng nói thành văn 1.1.1 Yêu cầu hệ thống CHƯƠNG 15 - Để thiết kế hệ thống chuyển đổi giọng nói thành văn phù hợp với nhu cầu thư kí, chúng em tiến hành khảo sát nhằm thu thập thông tin yêu cầu tính mà họ mong muốn hệ thống Dựa kết khảo sát này, chúng em xác định số u cầu tính cần có hệ thống sau:  Tốc độ chuyển đổi: hệ thống phải có tốc độ chuyển đổi nhanh để đảm bảo thời gian ghi chép nhanh chóng hiệu  Độ xác: hệ thống phải có độ xác cao để đảm bảo tính xác nội dung ghi chép tránh sai sót  Tính di động: hệ thống phải có tính di động để thư ký sử dụng lúc nơi dễ dàng mang theo di chuyển  Tính bảo mật: hệ thống phải có tính bảo mật để đảm bảo an tồn bảo vệ thơng tin thư ký sử dụng  Tích hợp với ứng dụng khác: hệ thống phải có tính tương thích tích hợp với ứng dụng khác Word, Excel, PowerPoint để thuận tiện cho việc sử dụng quản lý nội dung ghi chép CHƯƠNG 16 - Dựa yêu cầu tính xác định, chúng em thiết kế kiến trúc hệ thống chuyển đổi giọng nói thành văn Kiến trúc hệ thống chia thành hai phần chính:  Phần mềm: phần mềm trung tâm hệ thống, thiết kế để chuyển đổi giọng nói thành văn Phần mềm xây dựng tảng công nghệ chuyển đổi giọng nói thành văn có Speech-to-Text, Nhận dạng giọng nói dựa độ cong thời gian động (DTW) Mạng lưới thần kinh (Neural networks)  Thiết bị cần thiết: để sử dụng phần mềm, thư ký cần phải có thiết bị điện tử hỗ trợ, chẳng hạn smartphone máy tính bảng, để ghi âm kết nối với phần mềm chuyển đổi giọng nói thành văn Đối với thiết bị khơng có tính ghi âm tích hợp sẵn, thư ký cần có thiết bị ghi âm bên ngồi để sử dụng 1.1.2 Mơ tả tốn chuyển đổi giọng nói thành văn CHƯƠNG 17 - Ta thấy tốn khó, âm người nói phức tạp, có tính liên tục âm quyện nối vào nhau, người giọng, có tạp âm khác nhiễu vào thiết bị thu Với tiếng nói chuẩn, hệ đại nhận dạng khoảng 70% Bài tốn nhận dạng tiếng nói làm cho máy tính nhận biết chuyển tiếng nói thu nhận người thành chuỗi từ tương ứng, kết dùng ứng dụng điều khiển thiết bị, nhập liệu, soạn thảo văn bản, chuyển cho q trình xử lý ngơn ngữ mức cao Nhận dạng tiếng nói phát triển từ nhận dạng từ nói riêng biệt đến nhận dạng từ nói liên tục, từ vựng sử dụng hệ thống chia thành nhóm:  Từ vựng nhỏ: sử dụng tối đa khoảng 100 từ  Từ vựng trung bình: sử dụng từ hàng trăm đến 20000 từ  Từ vựng lớn: cho phép mở rộng đến 64000 từ CHƯƠNG 18 - Một hệ thống dạng tiếng nói thiết bị có khả tự động chuyển đổi tiếng nói thành văn CHƯƠNG 19 - CHƯƠNG 20 - Hình 1.1 Mơ tả q trình nhận dạng tiếng nói CHƯƠNG 21 - Hình mơ tả cách tổng thể q trình nhận dạng tiếng nói Đầu tiên, tiếng nói phát theo ý nghĩ người nói, tiếng nói thu nhận thu dạng sóng âm, sau rút trích đặc trưng chuyển tới phận xử lý ngữ âm Tại đặc trưng phân tích thành ngữ âm Sau ngữ âm xử lý giải mã chuỗi từ phù hợp 1.1.3 Tổng quan công nghệ sử dụng đề tài 1.1.3.1 Mơ hình Markov: CHƯƠNG 22 - Hệ thống nhận dạng giọng nói đa đại dựa Mơ hình Markov ẩn Đây mơ hình thống kê xuất chuỗi biểu tượng số lượng HMM sử dụng nhận dạng giọng nói tín hiệu giọng nói xem tín hiệu cố định theo phần tín hiệu cố định thời gian ngắn Trong quy mơ thời gian ngắn, lời nói xấp xỉ q trình đứng n 10 rút trích đặc trưng tín hiệu giọng nói Tiếp theo, ta sử dụng thuật toán DTW để so sánh độ khác biệt hai chuỗi giọng nói CHƯƠNG 55 - Khi sử dụng DTW hệ thống chuyển đổi giọng nói thành văn bản, ta so sánh giọng nói người dùng với chuỗi giọng nói thu thập lưu trữ sở liệu Sau đó, ta sử dụng thuật tốn xử lý ngôn ngữ tự nhiên để chuyển đổi đoạn giọng nói nhận dạng thành văn CHƯƠNG 56 - Việc sử dụng phương pháp DTW giúp tăng độ xác hệ thống chuyển đổi giọng nói thành văn bản, đặc biệt xử lý tín hiệu giọng nói khơng đồng tốc độ âm sắc 1.2.4 Mạng lưới thần kinh (Neural networks) CHƯƠNG 57 - Trong cơng nghệ chuyển đổi giọng nói thành văn bản, áp dụng mạng lưới thần kinh phương pháp hiệu để cải thiện độ xác hiệu suất làm việc CHƯƠNG 58 - Mạng lưới thần kinh loại thuật toán học sâu dùng rộng rãi lĩnh vực nhận dạng giọng nói, xử lý ngơn ngữ tự nhiên, nhiều lĩnh vực khác Đối với tốn chuyển đổi giọng nói thành văn bản, mạng lưới thần kinh sử dụng để tạo mơ hình dự đốn cho việc chuyển đổi giọng nói thành văn CHƯƠNG 59 - Tuy nhiên, để áp dụng mạng lưới thần kinh vào việc chuyển đổi giọng nói thành văn bản, cần có tập liệu phù hợp để huấn luyện mạng Việc lựa chọn tập liệu phù hợp quan trọng ảnh hưởng đến chất lượng mơ hình Tập liệu cần thu thập chọn lọc cẩn thận để đảm bảo đủ đại diện đa dạng cho mẫu giọng nói từ vựng sử dụng cơng việc ghi chép thư kí CHƯƠNG 60 - Sau thu thập chọn lọc tập liệu, sử dụng mạng lưới thần kinh để xây dựng mơ hình dự đốn cho việc chuyển đổi giọng nói thành văn Một mơ hình mạng lưới thần kinh sử 18 dụng phổ biến mơ hình Encoder-Decoder Mơ hình bao gồm hai phần Encoder Decoder CHƯƠNG 61 - Trong phần Encoder, giọng nói chuyển đổi sang đại diện số học (vector) biểu diễn dạng chuỗi giá trị số Trong phần Decoder, chuỗi giá trị số chuyển đổi thành văn đầu CHƯƠNG 62 - Một số mơ hình Encoder-Decoder sử dụng chế Attention để tập trung vào phần quan trọng giọng nói từ vựng để cải thiện độ xác mơ hình CHƯƠNG 63 - Ngoài ra, để đạt hiệu suất tốt nhất, cần huấn luyện mơ hình với số kỹ thuật thủ thuật định Đầu tiên, cần chuẩn bị liệu đầu vào cho phù hợp với mơ hình Điều bao gồm việc tiền xử lý chuẩn hóa liệu giọng nói văn đầu vào Sau đó, cần chọn tham số siêu tham số phù hợp cho mơ hình, bao gồm số lượng lớp mạng, số lượng nơ-ron lớp, hàm kích hoạt, tốc độ học, số lượng epoch CHƯƠNG 64 - Việc huấn luyện mơ hình cần thực theo số quy trình định để đảm bảo chất lượng hiệu mơ hình Chẳng hạn, sử dụng phương pháp suy giảm trọng số để giảm thiểu tượng khớp trình huấn luyện Ngoài ra, cần sử dụng kỹ thuật tối ưu hóa điều chỉnh tốc độ học để đạt tốc độ hội tụ tốt CHƯƠNG 65 - Khi mơ hình huấn luyện, sử dụng để chuyển đổi giọng nói thành văn đầu Để đánh giá chất lượng mơ hình, sử dụng số đánh độ xác, độ mát, độ tương đồng (similarity score) văn đầu vào đầu CHƯƠNG 66 - Nếu kết đạt chưa tốt, tiến hành cải tiến mơ hình cách điều chỉnh tham số siêu tham số cải thiện tập liệu 19 CHƯƠNG 67 - Kết luận, áp dụng mạng lưới thần kinh phương pháp hiệu để chuyển đổi giọng nói thành văn cơng việc ghi chép thư kí CHƯƠNG 68 CHƯƠNG 69 CHƯƠNG 70 CHƯƠNG 71 CHƯƠNG 72 CHƯƠNG 73 CHƯƠNG 74 CHƯƠNG 75 CHƯƠNG 76 CHƯƠNG 77 CHƯƠNG 78 - KHẢO SÁT NHU CẦU VÀ TÍNH NĂNG 78.1 Lập phiếu khảo sát CHƯƠNG 79 - Mục đích khảo sát cho đề tài "Áp dụng công nghệ chuyển đổi giọng nói thành văn để phục vụ cho cơng việc ghi chép thư kí" để thu thập thông tin đánh giá khả ứng dụng công nghệ việc hỗ trợ công việc ghi chép thư kí CHƯƠNG 80 - Cụ thể, khảo sát tập trung vào mục đích sau đây:  Xác định nhu cầu: Khảo sát giúp xác định nhu cầu sử dụng công nghệ chuyển đổi giọng nói thành văn cơng việc ghi chép thư kí Điều giúp định hướng cho việc phát triển công nghệ cải thiện chất lượng sản phẩm  Đánh giá hiệu quả: Khảo sát giúp đánh giá hiệu công nghệ chuyển đổi giọng nói thành văn việc hỗ trợ cơng 20

Ngày đăng: 14/08/2023, 00:35