(Luận văn thạc sĩ) xây dựng hệ thống biến đổi giọng nói trên nền tảng di động iphone

53 27 0
(Luận văn thạc sĩ) xây dựng hệ thống biến đổi giọng nói trên nền tảng di động   iphone

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VĂN HIỂN XÂY DỰNG ỨNG DỤNG BIẾN ĐỔI GIỌNG NÓI TRÊN NỀN TẢNG DI ĐỘNG – IPHONE Ngành: Công nghệ thông tin Chuyên ngành: Công nghệ phần mềm Mã số: 60 48 10 TÓM TẮT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2012 MỤC LỤC LỜI CAM ĐOAN 1! LỜI CẢM ƠN 2! MỤC LỤC 3! DANH MỤC HÌNH VẼ 5! DANH MỤC BẢNG BIỂU 5! Chương – GIỚI THIỆU 6! 1.1.!!Lý chọn đề tài 6! 1.2.!Xác định toán 7! 1.3.!Ý nghĩa thực tiễn 7! 1.4.!Phạm vi đề tài 8! 1.5.!Nội dung cấu trúc luận văn 8! Chương – CƠ SỞ LÝ THUYẾT VÀ CÔNG NGHỆ 10! 2.1 Tổng quan toán biến đổi giọng nói 10! 2.1.1 Giới thiệu tiếng nói 11! 2.1.2 Biểu diễn tín hiệu tiếng nói 12! 2.1.2.1 Xác định tần số lấy mẫu 14! 2.1.2.2 Lượng tử hoá 15! 2.1.2.3 Nén tín hiệu tiếng nói 15! 2.1.2.4 Mã hoá tín hiệu tiếng nói 16! 2.1.3 Biến đổi giọng nói 18! 2.2 Tổng quan tảng công nghệ 18! 2.2.1 Nền tảng iOS 19! 2.2.1.1 Tổng quan tảng iOS 19! 2.2.1.2 Kiến trúc hệ thống iOS 19! 2.2.2 Ứng dụng Skype 24! 2.2.2.1 Tổng quan ứng dụng Skype 24! 2.2.2.2 Skype Plugin 24! Xây dựng hệ thống biến đổi giọng nói tảng di động iPhone Nguyễn Văn Hiển – 2012 Chương – XÂY DỰNG HỆ THỐNG BIẾN ĐỔI GIỌNG NĨI 26! 3.1 Mơ tả toán 26! 3.2 Biến đổi giọng nói 27! 3.2.1 Biến đổi sang giọng khác 27! 3.2.2 Biến đổi giọng nói sang môi trường khác 31! Chương – CÀI ĐẶT VÀ THỰC NGHIỆM 36! 4.1 iPhone 36! 4.1.1 Môi trường 36! 4.1.2 Cài đặt 36! 4.1.2.1 Mơ tả giọng nói, lưu trữ chương trình 36! 4.1.2.2 Cấu trúc chương trình iPhone 38! 4.1.3 Kết 40! 4.1.3.1 Âm sau biến đổi 40! 4.1.3.2 Đánh giá hiệu 41! 4.1.3.3 Đánh giá người dùng 43! 4.1.3.4 Hình ảnh chương trình 46! 4.2 Skype Windows 48! 4.2.1 Môi trường 48! 4.2.2 Cài đặt 48! 4.2.3 Kết 49! 4.3 Đánh giá ứng dụng 51! 4.3.1 Ưu điểm 51! 4.3.2 Nhược điểm 51! KẾT LUẬN 52! TÀI LIỆU THAM KHẢO 54! Xây dựng hệ thống biến đổi giọng nói tảng di động iPhone Nguyễn Văn Hiển – 2012 DANH MỤC HÌNH VẼ! Hình 2.1: Biểu diễn tín hiệu tiếng nói 13! Hình 2.2: Các layer iOS (1) 20! Hình 2.3: Các layer iOS (2) 21! Hình 2.4: Thư viện phát triển iOS 23! Hình 3.1: Tần số thay đổi (giảm) 50% sau bước 28! Hình 3.2: Tổng hợp âm từ hai nguồn khác 31! Hình 4.1: Thư viện OpenAL iPhone 38! Hình 4.2: Cấu trúc chương trình iPhone 39! Hình 4.3: Sóng âm giọng nói ban đầu, nữ giới, độ tuổi 20-25 40! Hình 4.4: Sóng âm sau biến đổi sang giọng nam giới 40! Hình 4.5: Sóng âm sau biến đổi sang giọng trẻ em 41! Hình 4.6: Sóng âm sau biến đổi sang môi trường hang động 41! Hình 4.7: Giao diện tuỳ chọn chương trình 46! Hình 4.8: Giao diện chọn giọng nói nghe lại giọng nói biến đổi 47! Hình 4.9: Giao diện lựa chọn thêm hiệu ứng bổ sung 47! Hình 4.10: Class diagram plugin cho Skype 49! Hình 4.11: Giao diện thêm hiệu ứng 50! Hình 4.12: Giao diện chỉnh hiệu ứng 50! DANH MỤC BẢNG BIỂU Bảng 3.1: Các tham số biến đổi giọng nói 29! Bảng 4.1: Thời gian thực thi hiệu ứng 42! Bảng 4.2: MOS đánh giá độ xác hiệu ứng 43! Bảng 4.3: MOS số hiệu ứng 44! Bảng 4.4: MOS đánh giá chất lượng hiệu ứng 44! Xây dựng hệ thống biến đổi giọng nói tảng di động iPhone Nguyễn Văn Hiển – 2012 Chương – GIỚI THIỆU 1.1 Lý chọn đề tài Ngày nay, phát triển khoa học cơng nghệ nói chung cơng nghệ thơng tin nói riêng góp phần khơng nhỏ thay đổi phát triển sống người Chiếc máy vi tính ngày có nhiều chức mạnh mẽ giúp ích người thực thi cơng việc nhiều lĩnh vực khoa học, sản xuất công nghiệp hay lĩnh vực xã hội khác kinh tế, trị, văn hóa Khơng máy tính, phát triển chóng mặt thiết bị di động cầm tay tác động không nhỏ đến đời sống người Những smartphone nhỏ gọn, thông minh không giúp người liên lạc với dễ dàng hơn, mà cịn cung cấp nhiều tính hữu ích khác ứng dụng văn phịng, giải trí, khả kết nối mạng để tìm hiểu thơng tin Với tính mạnh mẽ cộng với giá thành vừa phải khiến thiết bị trở nên phổ biến vật bất ly thân nhiều người Theo báo cáo Nielsen [9] – công ty nghiên cứu thị trường hàng đầu giới – số lượng smartphone quý năm 2011 472 triệu, tương đương 46% tổng số điện thoại toàn giới Cũng theo tổng hợp App Store [8], có khoảng ứng dụng, đạt khoảng triệu lượt tải, phục vụ cho việc biến đổi giọng nói Tuy nhiên, ứng dụng cung cấp cho người dùng số lượng hiệu ứng để biến đổi giọng nói tương đối khó dùng yêu cầu người sử dụng phải tinh chỉnh tham số thân thiện Chính vậy, ý tưởng luận văn “Xây dựng hệ thống biến đổi giọng nói tảng di động – iPhone” đời với lý do: - Đưa cách tiếp cận chung cho toán biến đổi giọng nói - Đưa nhiều tham số tương ứng với nhiều hiệu ứng khác nhằm biến đổi giọng nói sang nhiều mơi trường khác Đây tốn nhiều người quan tâm, song chưa có báo cáo đưa tham số cụ thể với hiệu ứng nên ứng dụng thường cài đặt hiệu ứng Xây dựng hệ thống biến đổi giọng nói tảng di động iPhone Nguyễn Văn Hiển – 2012 đòi hỏi người sử dụng phải hiểu biết sâu sắc âm Đề tài đưa cách tiếp cận hợp lý để biến đổi giọng nói sang nhiều hiệu ứng khác - Xây dựng ứng dụng cho phép biến đổi giọng nói tảng di động, tạo tiền đề cho toán xây dựng ứng dụng cho phép tạo gọi giả, giúp người gọi che giấu giọng nói mơi trường 1.2 Xác định tốn Đề tài tơi nghiên cứu thực hiện: “Xây dựng hệ thống biến đổi giọng nói tảng di động – iPhone” xuất phát từ mong muốn xây dựng ứng dụng di động độc đáo, cụ thể hố tảng cơng nghệ iPhone Với ứng dụng này, người dùng có thể: - Ghi âm giọng nói - Biến đổi giọng nói • Sang giọng nói khác như: nam giới, nữ giới, trẻ em,… • Trong mơi trường khác: mưa rơi, đường phố,… - Biến đổi giọng nói đàm thoại qua Skype 1.3 Ý nghĩa thực tiễn Hệ thống biến đổi giọng nói xây dựng có nhiều ý nghĩa thực tiễn Trên tảng di động, hệ thống giúp tạo gọi giả Người gọi – cần che giấu, hay đánh lạc hướng qua giọng nói – sử dụng hệ thống nhằm tránh người nghe nhận giọng nói Ngồi ra, người gọi lựa chọn hiệu ứng môi trường khác nhằm đánh lừa người nghe vị trí gọi điện Đây ứng dụng phổ biến, tính riêng tảng iPhone có ứng dụng khoảng gần triệu lượt cài đặt [8] Đây ứng dụng hệ thống biến đổi giọng nói tảng di động Người viết chọn việc xây dựng ứng dụng tảng di động phổ biến – iPhone Xây dựng hệ thống biến đổi giọng nói tảng di động iPhone Nguyễn Văn Hiển – 2012 Như đề cập, ứng dụng có cung cấp số hiệu ứng tự nhiên Luận văn đưa phương pháp tiếp cận phù hợp nhằm tạo nhiều hiệu ứng 1.4 Phạm vi đề tài Vì tốn “biến đổi giọng nói” phức tạp có nhiều ứng dụng, thời gian thực ngắn, đề tài tập trung vào vấn đề phạm vi sau: - Tìm hiểu tốn biến đổi giọng nói, tìm hiểu số cách tiếp cận để giải tốn, từ đưa cách tiếp cận hợp lý - Đề xuất biến đổi dựa cách tiếp cận tìm hiểu, đưa tham số phù hợp để biến đổi sang khoảng 20 giọng nói hiệu ứng môi trường - Cài đặt ứng dụng iPhone theo cách tiếp cận đề - Cài đặt plugin Skype để biến đổi giọng nói theo cách tiếp cận đề 1.5 Nội dung cấu trúc luận văn Với nội dung trình bày lý thuyết tốn xử lý giọng nói, xây dựng ứng dụng tảng di động cách giải toán xây dựng ứng dụng cụ thể tảng iPhone, luận văn trình bày theo cấu trúc sau: Chương Một trình bày lý chọn đề tài Qua trình bày nhu cầu thực tiễn cần sản phẩm biến đổi giọng nói tảng di động – iPhone Chương Hai trình bày hệ thống lý thuyết công nghệ liên quan, sử dụng việc Xây dựng hệ thống biến đổi giọng nói tảng di động – iPhone Những sở lý thuyết cơng nghệ trình bày gồm có: - Bài tốn biến đổi giọng nói - Biểu diễn tín hiệu tiếng nói - Những phương pháp biến đổi giọng nói - Nền tảng di động iPhone - Nền tảng Skype Xây dựng hệ thống biến đổi giọng nói tảng di động iPhone Nguyễn Văn Hiển – 2012 Trên sở lý thuyết cơng nghệ trình bày chương Hai, chương Ba trình bày trình áp dụng sở lý thuyết công nghệ nhằm xây ứng dụng biến đổi giọng nói tảng di động – iPhone Nội dung chương tập trung vào: - Những yêu cầu kỹ thuật, khó khăn xây dựng hệ thống - Những giải pháp đề xuất áp dụng - Đánh giá ưu, nhược điểm hệ thống Chương Bốn mô tả trình cài đặt, sử dụng hệ thống kết thực nghiệm, đánh giá sử dụng hệ thống thực tế Xây dựng hệ thống biến đổi giọng nói tảng di động iPhone Nguyễn Văn Hiển – 2012 10 Chương – CƠ SỞ LÝ THUYẾT VÀ CÔNG NGHỆ 2.1 Tổng quan tốn biến đổi giọng nói Biến đổi giọng nói kỹ thuật thay đổi tiếng nói người phát âm sang tiếng nói đối tượng khác Bài tốn biến đổi giọng nói có số ứng dụng tuỳ chỉnh giọng nói cho hệ thống “đọc văn bản” (text to speech), biến đổi thành giọng nói người tiếng nhằm sử dụng lĩnh vực hoạt hoạ, tuỳ chỉnh chất giọng ca sỹ… [6] u cầu để giải tốn xử lý số lượng lớn tín hiệu tiếng nói đầu vào, chuyển đổi thành dãy tín hiệu tiếng nói tương ứng Có số cách tiếp cận để giải tốn biến đổi giọng nói, bật hai cách tiếp cận sau: Thứ nhất, cách tiếp cận dựa “tập mẫu” (codebook based) giải tốn thơng qua việc xây dựng tập lớn tín hiệu mẫu giọng nói khác Khi cần biến đổi tiếng nói đối tượng A sang tiếng nói đối tượng B, cách tiếp cận hoạt động theo bước: - Nhận dạng tiếng nói phát từ đối tượng A, so sánh với tín hiệu mẫu lưu trữ - Nếu tín hiệu đối tượng A nhận dạng “tốt” (gần giống xác với mẫu lưu trữ), hệ thống biến đổi bẳng cách đưa tín hiệu tương ứng đối tượng B - Trong trường hợp tín hiệu đối tượng A không trùng với mẫu, hệ thống phải cài đặt thuật toán nhằm giúp sinh tín hiệu dựa mẫu có Tương tự, tín hiệu B xây dựng dựa tín hiệu mẫu tương ứng thuật tốn Cách tiếp cận có ưu điểm là: thường cho độ xác cao tập mẫu lớn tín hiệu rời rạc Khi đó, mẫu nhỏ thường dễ so sánh việc biến đổi trở nên dễ dàng Ngược lại, việc sinh tín hiệu khơng lưu mẫu khiến thời gian xử lý lâu Vì tiếng nói tự nhiên đa dạng, với vài trăm ngàn từ tạo thành hàng trăm triệu câu nói với ngữ điệu khác nên cách tiếp cận bộc lộ nhược điểm Xây dựng hệ thống biến đổi giọng nói tảng di động iPhone Nguyễn Văn Hiển – 2012 11 phải đánh đổi thời gian xử lý kích thước lưu trữ Chính cách tiếp cận sử dụng số tốn biến đổi giọng nói định Cách tiếp cận thứ hai, dựa việc biến đổi (transformation based) [6] thường cho chất lượng dễ thực thời gian thực Cách tiếp cận dựa xử lý sau: - Tìm kiếm đặc trưng giọng nói, từ đưa cách thức biến đổi từ giọng nói sang giọng nói khác - Tín hiệu tiếng nói A, dựa cách thức biến đổi xác định, biến đổi sang tín hiệu tiếng nói B Cách tiếp cận thường cho phép biến đổi nhanh thời gian thực với kết chấp nhận Đây cách tiếp cận luận văn Để làm vậy, hệ thống cần phải thực theo quy trình sau: - Tìm kiếm đặc trưng giọng nói - Chuyển đổi giọng nói từ tín hiệu tương tự sang tín hiệu số - Xử lý số, thay đổi đặc trưng giọng nói - Chuyển đổi ngược tín hiệu số sang tín hiệu tương tự 2.1.1 Giới thiệu tiếng nói Tiếng nói loại sóng âm Khi ta nói, tiếng nói truyền mang thông tin dạng dao động phương truyền đến tai người nhận Mức độ truyền tin giọng nói xem nhanh khả tự nhiên người Khác với sách, báo, thư tín… truyền tin chiều, tiếng nói giúp truyền tin hai chiều Sách báo giúp ghi lại thông tin để sau đọc lại, tiếng nói giúp thể thân Thơng qua cách nói chuyện, khả ứng xử, ta đánh giá trình độ nhân cách người Tiếng nói có nhiều đặc tính: - Đặc tính sóng âm gồm đặc tính sinh lý, vật lý như: • Độ cao: Là mức độ cao thấp âm, phụ thuộc vào chấn động nhanh hay chậm không khí khoảng thời gian định, Xây dựng hệ thống biến đổi giọng nói tảng di động iPhone Nguyễn Văn Hiển – 2012 40 4.1.3 Kết Trong ứng dụng iPhone, chức đề thực tốt: - Việc ghi âm thực tốt, cho phép ghi âm không giới hạn (phụ thuộc nhớ thiết bị tảng iOS) - Cả 26 hiệu ứng cho tốc độ xử lý nhanh - Giao diện chương trình dễ sử dụng 4.1.3.1 Âm sau biến đổi Một số sóng âm sau biến đổi qua hiệu ứng Sóng âm giọng nói ban đầu nữ giới, độ tuổi 20 – 25: Hình 4.3: Sóng âm giọng nói ban đầu, nữ giới, độ tuổi 20-25 Sóng âm sau biến đổi sang giọng nam giới: Hình 4.4 – Sóng âm sau biến đổi sang giọng nam giới Xây dựng hệ thống biến đổi giọng nói tảng di động iPhone Nguyễn Văn Hiển – 2012 41 Sóng âm sau biến đổi sang giọng trẻ em: Hình 4.5: Sóng âm sau biến đổi sang giọng trẻ em Sóng âm sau biến đổi sang mơi trường hang động: Hình 4.6: Sóng âm sau biến đổi sang môi trường hang động 4.1.3.2 Đánh giá hiệu a Khả lưu trữ Do ứng dụng không giới hạn khả lưu trữ nên khả lưu trữ hoàn toàn phụ thuộc vào thiết bị tảng iOS Qua thực nghiệm với môi trường trên, ghi âm thời gian 90 phút – tương đương file kích thước 90MB – ứng dụng hoạt động tốt b Hiệu thực thi Đối với ứng dụng, tốc độ xử lý quan trọng, Bảng 4.1 tổng hợp kết thực nghiệm môi trường giả lập thiết bị Vì thiết bị iOS khơng có ứng dụng đo thời gian thực thi tài nguyên sử dụng ứng dụng, việc đo thông số phải thực qua môi trường giả lập nên kết tương đối xác Tuy nhiên, Xây dựng hệ thống biến đổi giọng nói tảng di động iPhone Nguyễn Văn Hiển – 2012 42 người viết thực số thực nghiệm thiết bị thật nhận thấy tốc độ xử lý gần tương đương với kết Kết hoàn toàn chấp nhận thời gian xử lý nhớ sử dụng Thời lượng Hiệu ứng 10s 120s 1200s Thời gian Bộ nhớ Thời gian Bộ nhớ Thời gian Bộ nhớ xử lý (s) sử dụng xử lý (s) sử dụng xử lý (s) sử dụng (MB) (MB) (MB) Giọng ban đầu 0.34 18.83 0.42 21.27 0.41 41.89 Man 2.05 21.45 2.81 25.10 4.16 60.34 Woman 2.12 22.21 2.94 26.17 4.36 60.38 Child 2.29 22.12 2.99 26.45 4.91 61.10 Baby 2.82 23.34 3.16 26.43 5.11 62.31 Squirrel 2.12 21.43 2.67 25.12 4.18 60.30 Helium 2.46 22.17 3.32 25.32 5.35 62.31 Clown 2.36 21.46 2.81 25.14 4.17 60.24 Echo 2.73 22.73 3.31 26.36 4.99 61.14 Deamon 2.14 21.30 2.64 25.12 4.42 60.27 Ghost 1.96 21.43 2.82 25.11 4.21 59.94 Giant 2.22 21.43 2.98 25.28 4.32 60.39 Announcer 2.45 22.18 4.10 26.78 5.17 62.47 Radio 2.67 22.74 3.35 25.73 5.01 62.31 Tough guy 2.20 21.45 2.63 25.11 4.18 60.10 Wolf 2.12 21.41 2.88 25.18 4.28 60.10 Cat 2.33 21.65 3.09 25.19 4.30 60.14 Dog 2.45 22.19 3.14 25.12 4.34 61.34 Bảng 4.1: Thời gian thực thi hiệu ứng Xây dựng hệ thống biến đổi giọng nói tảng di động iPhone Nguyễn Văn Hiển – 2012 43 4.1.3.3 Đánh giá người dùng Để nhận đánh giá người dùng, sử dụng độ đo MOS (Mean Opinion Score) [12]-[4], cho người dùng thực hai thực nghiệm sau a Đánh giá độ xác số hiệu ứng Để thực thực nghiệm này, người viết cho người dùng nghe đoạn tiếng nói sau thay đổi (người dùng khơng biết việc tiếng nói biến đổi sau hiệu ứng) để người dùng trả lời câu hỏi: “Tiếng nói có phải tiếng {tên hiệu ứng} khơng?” (VD: “Tiếng nói có phải tiếng nam giới khơng?”, “Tiếng nói có phải tiếng nói người đường phố khơng?”) đánh giá tiếng nói theo thang điểm sau: MOS Đánh giá Chính xác Khơng chắn Chắc chắn khơng Bảng 4.2: MOS đánh giá độ xác hiệu ứng Vì cách đánh giá thực với số hiệu ứng dễ để người dùng trả lời nên hiệu ứng mang đánh giá với kết thể Bảng 4.3: Xây dựng hệ thống biến đổi giọng nói tảng di động iPhone Nguyễn Văn Hiển – 2012 44 Số lượng người đánh giá: 30 Hiệu ứng MOS Man 2.5 Woman 2.7 Child 2.3 Baby 2.6 Echo 2.0 Announcer 2.1 Radio 1.8 Bảng 4.3: MOS số hiệu ứng b Đánh giá hiệu ứng Để thực thực nghiệm này, người viết cho người dùng ghi âm đoạn tiếng nói biến đổi theo hiệu ứng, sau đánh giá hiệu ứng theo thang điểm sau: MOS Chất lượng Xuất sắc Tốt Trung bình Kém Rất Bảng 4.4: MOS đánh giá chất lượng hiệu ứng Xây dựng hệ thống biến đổi giọng nói tảng di động iPhone Nguyễn Văn Hiển – 2012 45 Kết đánh giá đương tổng hợp bảng 4.5: Số lượng người đánh giá: 13 Hiệu ứng MOS Man 4.3 Woman 4.7 Child 4.2 Baby 4.5 Squirrel 3.1 Helium 3.8 Clown 3.9 Echo 4.0 Deamon 2.1 Ghost 3.1 Giant 2.7 Announcer 3.2 Radio 3.3 Tough guy 2.6 Wolf 1.3 Cat 2.5 Dog 1.2 Bảng 4.5: MOS số hiệu ứng Nhìn chung, hệ thống người dùng đánh giá tốt hiệu ứng biến đổi giọng nói sang nam giới, nữ giới, trẻ em,… hiệu ứng phức tạp gặp thực tế không đánh giá cao Xây dựng hệ thống biến đổi giọng nói tảng di động iPhone Nguyễn Văn Hiển – 2012 46 4.1.3.4 Hình ảnh chương trình Một số hình ảnh chương trình Hình 4.7: Giao diện tuỳ chọn chương trình Xây dựng hệ thống biến đổi giọng nói tảng di động iPhone Nguyễn Văn Hiển – 2012 47 Hình 4.8: Giao diện chọn giọng nói nghe lại giọng nói biến đổi Hình 4.9: Giao diện lựa chọn thêm hiệu ứng bổ sung Xây dựng hệ thống biến đổi giọng nói tảng di động iPhone Nguyễn Văn Hiển – 2012 48 4.2 Skype Windows 4.2.1 Môi trường Ứng dụng Windows thực nghiệm môi trường: - Phần cứng: Tốc độ 2x2.8 GHz, nhớ 4GB RAM - Hệ điều hành: Windows 64 bit - Phần mềm: Skype phiên 5.7 4.2.2 Cài đặt Việc biến đổi giọng nói Skype sử dụng thông qua Skype API, cấu trúc chương trình mơ tả sau: Xây dựng hệ thống biến đổi giọng nói tảng di động iPhone Nguyễn Văn Hiển – 2012 49 Hình 4.10: Class diagram plugin cho Skype 4.2.3 Kết Trong plugin cho Skype, ứng dụng Skype hoạt động tốt: - Các hiệu ứng thực gọi - Có thể tuỳ chỉnh hiệu ứng gọi Xây dựng hệ thống biến đổi giọng nói tảng di động iPhone Nguyễn Văn Hiển – 2012 50 Một số hình ảnh chương trình Hình 4.11: Giao diện thêm hiệu ứng Hình 4.12: Giao diện chỉnh hiệu ứng Xây dựng hệ thống biến đổi giọng nói tảng di động iPhone Nguyễn Văn Hiển – 2012 51 4.3 Đánh giá ứng dụng 4.3.1 Ưu điểm Về bản, hệ thống thực chức đề ra, hình thành chương trình độc đáo: - Có nhiều hiệu ứng chương trình có Hiện tại, ứng dụng tiếng iPhone – Voice Changer – có khoảng 18 hiệu ứng giọng nói mơi trường Hệ thống cài đặt tất hiệu ứng có Voice Changer thêm vào số hiệu ứng tiếng mưa rơi, âm đường phố, tiếng còi báo động - Cho phép tuỳ chỉnh tham số để biến đổi giọng nói Khi chọn hiệu ứng, người dùng tuỳ chỉnh tham số đầu vào nhằm biến đổi giọng nói cho phù hợp - Cho phép biến đổi giọng nói thời gian thực Skype - Đánh giá người dung dành cho hệ thống tương đối tốt 4.3.2 Nhược điểm - Do tảng iOS không cho can thiệp vào gọi nên ứng dụng iPhone chưa thể thực biến đổi giọng nói thời gian thực với gọi - Hiện Skype cung cấp API cho ứng dụng desktop nên plugin Skype hoạt động desktop, chưa hoạt động mobile Xây dựng hệ thống biến đổi giọng nói tảng di động iPhone Nguyễn Văn Hiển – 2012 52 KẾT LUẬN Qua trình nghiên cứu đề tài Xây dựng hệ thống biến đổi giọng nói tảng di động – iPhone, tơi nghiên cứu đưa phương pháp xây dựng hệ thống biến đổi giọng nói với nhiều tham số khác Những kết mà tơi đạt chưa đạt (kết hướng tới) tổng kết đây: Những kết đạt Những kết luận văn đạt là: - Đánh giá đưa cách tiếp cận phù hợp cho tốn biến đổi giọng nói tảng di động - Đưa nhiều tham số nhằm biến đổi giọng nói sang nhiều hiệu ứng khác - Xây dựng thành công ứng dụng biến đổi giọng nói tảng di động – iPhone – với nhiều hiệu ứng khác Các thành phần ứng dụng có tính độc lập cao, tái sử dụng cần thiết - Xây dựng thành công plugin Skype cho phép biến đổi giọng nói gọi Skype Những kết hướng tới hướng phát triển tương lai Ngoài kết đạt được, vấn đề mà luận văn chưa giải Điều thể rõ qua phạm vi toán mà đề tài đặt Trong tương lai, tiếp tục nghiên cứu, mở rộng đề tài: - Xây dựng hệ thống biến đổi giọng nói đa tảng plugin cho Skype Hiện Skype cung cấp API cho tảng desktop khác Để dễ dàng việc phát triển sau, cần viết lại lớp giao tiếp với API mức độ trừu tượng hơn, nhằm dễ dàng cho việc porting thiết bị tảng khác Xây dựng hệ thống biến đổi giọng nói tảng di động iPhone Nguyễn Văn Hiển – 2012 53 - Tiếp cận theo hướng khác để can thiệp vào gọi thiết bị di động, nhằm biến đổi giọng nói gọi Hiện tảng iPhone không cho phép can thiệp vào API liên quan tới gọi Dù vậy, việc thực thơng qua việc xây dựng hệ thống VoIP Tuy nhiên việc xây dựng hệ thống đòi hỏi nhiều thời gian nằm phạm vi luận văn nên coi hướng nghiên cứu tương lai Xây dựng hệ thống biến đổi giọng nói tảng di động iPhone Nguyễn Văn Hiển – 2012 54 TÀI LIỆU THAM KHẢO Tiếng Anh Patrick Bastien (2003), Pitch shifting and voice transformation techniques, TCHelicon, Canada Frank Fallside (1985), Computer speech processing, Prentice Hall International, London Yoon Kim (May 1996), Voice Gender Transformation with a Modified Vocoder, Stanford University, California Gordon E.Pelton (1993), Voice processing, McGraw Hill, New York Lawrence R.Rabiner, Ronald W.Schafer (1978), Digital processing of speech signals, Prentice Hall, New Jersey Hui Ye, Steve Young, High quality Voice Morphing Hui Ye, Steve Young (2006), Quality-enhanced Voice Morphing using Maximum Likelihood Transformations Các nguồn Internet Apple Developer: https://developer.apple.com/ Nielsen (January 18th, 2012): More US Consumer Choosing Smartphones as Apple Closes the Gap on Android: http://blog.nielsen.com/nielsenwire/consumer/moreus-consumers-choosing-smartphones-as-apple-closes-the-gap-on-android/ 10 Nyquist – Shannon sampling theorem: http://en.wikipedia.org/wiki/Nyquist%E2%80%93Shannon_sampling_theorem 11 OpenAL: http://connect.creativelabs.com/openal/default.aspx 12 Wikipedia http://en.wikipedia.org/wiki/IOS http://en.wikipedia.org/wiki/Vocal_range http://en.wikipedia.org/wiki/Voice_changer http://en.wikipedia.org/wiki/Mean_opinion_score 13 Người viết tự thống kê http://itunes.apple.com/ Xây dựng hệ thống biến đổi giọng nói tảng di động iPhone Nguyễn Văn Hiển – 2012 ... ứng dụng hệ thống biến đổi giọng nói tảng di động Người viết chọn việc xây dựng ứng dụng tảng di động phổ biến – iPhone Xây dựng hệ thống biến đổi giọng nói tảng di động iPhone Nguyễn Văn Hiển... sau: Xây dựng hệ thống biến đổi giọng nói tảng di động iPhone Nguyễn Văn Hiển – 2012 39 Hình 4.2: Cấu trúc chương trình iPhone Xây dựng hệ thống biến đổi giọng nói tảng di động iPhone Nguyễn Văn. .. nghệ trình bày gồm có: - Bài tốn biến đổi giọng nói - Biểu di? ??n tín hiệu tiếng nói - Những phương pháp biến đổi giọng nói - Nền tảng di động iPhone - Nền tảng Skype Xây dựng hệ thống biến đổi giọng

Ngày đăng: 05/12/2020, 09:20

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • DANH MỤC HÌNH VẼ!

  • DANH MỤC BẢNG BIỂU

  • Chương 1 – GIỚI THIỆU

  • 1.1. Lý do chọn đề tài

  • 1.2. Xác định bài toán

  • 1.3. Ý nghĩa thực tiễn

  • 1.4. Phạm vi đề tài

  • 1.5. Nội dung và cấu trúc luận văn

  • Chương 2 – CƠ SỞ LÝ THUYẾT VÀ CÔNG NGHỆ

  • 2.1. Tổng quan về bài toán biến đổi giọng nói

  • 2.1.1. Giới thiệu tiếng nói

  • 2.1.2. Biểu diễn tín hiệu tiếng nói

  • 2.1.3. Biến đổi giọng nói

  • 2.2. Tổng quan về nền tảng công nghệ

  • 2.2.1. Nền tảng iOS

  • 2.2.2. Ứng dụng Skype

  • Chương 3 – XÂY DỰNG HỆ THỐNG BIẾN ĐỔI GIỌNG NÓI

  • 3.1. Mô tả bài toán

  • 3.2. Biến đổi giọng nói

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan