.9 Chức năng thu âm giọng nói

Mô tả Cho phép người dùng nghe lại đoạn âm thanh giọng nói mà người dùng đã thu âm trước đó.

Luồng hành động

4. 1. Từ trang chủ click chuột vào biểu tượng và hình ảnh có nội dung “Sound Recognition”.

5. 2. Trên trang nhận dạng âm thanh click vào biểu tượng và hình ảnh có nội dung “Replay sound recored”.

Tiền điều kiện Người dùng phải thu âm giọng nói của chính mình trước khi có thể sử dụng chức năng nghe lại âm thanh đã thu. Bảng 4.10 Bảng chức năng nghe lại giọng nói đã thu âm

Mơ tả

Cho phép người dùng dự đốn đoạn âm thanh giọng nói mà người dùng đã thu âm trước đó là nam hay nữ và họ đến từ vùng nào của Việt Nam.

Luồng hành động 6. 1. Từ trang chủ click chuột vào biểu tượng và hình ảnh có nội dung “Sound Recognition”.

7. 2. Trên trang nhận dạng âm thanh click vào biểu tượng microphone trên trang web để bắt đầu thu âm giọng nói. 8. 3. Click vào biểu tượng microphone có dấu chéo để

hồn tất q trình thu âm. Âm thanh sẽ được lưu vào hệ thống.

9. 4. Click vào biểu tượng và hình ảnh có nội dung “Sound Recognition” để hệ thống xử lý dữ liệu âm thanh vừa ghi lại được.

Tiền điều kiện Người dùng phải thu âm giọng nói của chính mình trước khi có thể sử dụng chức năng nghe lại âm thanh đã thu. Bảng 4.11 Bảng chức năng dự đốn âm thanh đầu vào

Mơ tả

Cho phép người dùng dự đoán đoạn âm thanh giọng nói mà người dùng đã thu âm trước đó là nam hay nữ và họ đến từ vùng nào của Việt Nam.

Luồng hành động

10. 1. Từ trang chủ click chuột vào biểu tượng và hình ảnh có nội dung “Sound Recognition”.

11. 2. Trên trang nhận dạng âm thanh click vào biểu tượng microphone trên trang web để bắt đầu thu âm giọng nói.

12. 3. Click vào biểu tượng microphone có dấu chéo để hồn tất q trình thu âm. Âm thanh sẽ được lưu vào hệ thống.

13. 4. Click vào biểu tượng và hình ảnh có nội dung “Sound Recognition” để hệ thống xử lý dữ liệu âm thanh vừa ghi lại được.

14. 5. Dữ liệu dự đoán sẽ được hệ thống trả về và hiển thị lên trang nhận dạng âm thanh.

Tiền điều kiện Người dùng phải thu âm giọng nói của chính mình trước khi có thể sử dụng chức năng nghe lại âm thanh đã thu. Bảng 4.12 Bảng chức năng xem kết quả dự đoán

CHƯƠNG 5

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Trong chương này, luận văn trình bày tổng quát kết quả thực hiện, đưa ra các hướng phát triển cho mơ hình trong tương lai.

5.1. Kết quả đạt được

Luận văn đã đề xuất giải pháp cho việc phân loại giới tính và và khu vực của giọng nói tiếng Việt bằng cách sử dụng mơ hình mạng nơ-ron học sâu tích chập, kết hợp trích xuất tính năng Log-Mel Spectrogram và sử dụng CNN để nhận dạng giới tính và vùng miền tiếng Việt. Luận văn đã tiến hành thử nghiệm trên dữ liệu của cuộc thi Zalo AI 2019 và bộ dữ liệu Vivos Corpus thuộc Lab khoa Khoa học máy tính – Trường Đại học Khoa học Tự nhiên Thành phố Hồ Chí Minh để đánh giá kết quả. Hệ

thống nhận dạng giới tính và giọng nói vùng miền tiếng Việt vẫn cịn hạn chế và độ chính xác chưa cao, tuy nhiên đã đạt được các kết quả như sau:

➢ Phân tích và đánh giá mơ hình đề xuất.

➢ Xử lý dữ liệu âm thanh phù hợp với mạng CNN.

➢ Xây dựng được hệ thống nhận dạng tiếng nói tiếng Việt bằng phương pháp học sâu sử dụng mạng nơ ron tích chập CNN.

➢ Sử dụng cơng nghệ mới Flask Framework để trực quan hoá kết quả trên nền tảng website.

5.2. Hướng phát triển

Chuẩn hóa, xây dựng bộ dữ liệu âm thanh có độ tương đồng cao, giảm tối đa độ nhiễu.

Ngoài việc dùng Log-Mel Spectrogram kết hợp mạng nơ-ron tích chập CNN, cần xử lý giải quyết bài toán nhận dạng khác nhau như VGGNet, AlexNet, RestNet, DenseNet.

Tối ưu hóa giải thuật, lựa chọn các thơng số phù hợp cho mạng CNN nhằm tăng khả năng nhận dạng giọng nói vùng miền Việt Nam.

CƠNG TRÌNH CƠNG BỐ

Trần Thanh Hiệp, Bùi Thanh Hùng. (2021). “Nhận dạng tiếng nói tiếng Việt

bằng phương pháp học sâu”, Kỷ yếu Ngày hội Khoa học cán bộ, giảng viên trẻ và

học viên cao học lần V - năm 2021. Đại học Thủ Dầu Một. 6.2021.

Bùi Thanh Hùng, Trần Thanh Hiệp. (2021). “Nhận dạng tiếng nói tiếng Việt

bằng phương pháp học sâu”, Fundamental and Applied Information Technology

TÀI LIỆU THAM KHẢO

[1] Fukushima, Kunihiko (April 1980). "A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position". Biological Cybernetics. 36 (4): 193–202.

[2] Yoshua Bengio, Yann LeCun, Craig Nohl, Chris Burges. “LeRec: ANN/HMM Hybrid for On-Line Handwriting Recognition”, Neural Compulation, Volume 7, Number 5 (1995).

[3] Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton. “ImageNet Classification with Deep Convolutional Neural Networks”, Advances in Neural Information Processing Systems 25 (NIPS 2012). 2012

[4] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich. “Going deeper with convolutions” (2014).

[5] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, Zbigniew Wojna. “Rethinking the Inception Architecture for Computer Vision”. (2015)

[6] Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. “Deep Residual Learning for Image Recognition”.

[7] Isra Khan, Rafi Ullah, Shah Muhammad Emaduddin. (2019). Robust Feature Extraction Techniques in Speech Recognition: A Comparative Analysis.

[8] Sayan Mandal, Sarthak Yadav and Atul Rai. End-to-End Bengali Speech Recognition. Staqu Technologies, India, 2020.

[9] Hua Zhang, Ruoyun Gou, Jili Shang, Fangyao Shen, Yifan Wu and Guojun Dai. Pre-trained Deep Convolution Neural Network Model With Attention for Speech Emotion ecognition, 2020 .

[10] Anvarjon Tursunov , Mustaqeem , Joon Yeon Choeh and Soonil Kwon. Age and Gender Recognition Using a Convolutional Neural Network with a Specially Designed Multi-Attention Module through Speech Spectrograms, 2021.

[11] Fatih Demir, Daban Abdulsalam Abdullah, Abdulkadir Sengur. A New Deep CNN Model for Environmental Sound Classification, 2020.

[12] Yu-Fu Yeh , Bo-Hao Su , Yang-Yen Ou , Jhing-Fa Wang. Taiwanese Speech Recognition Based on Hybrid Deep Neural Network Architecture, 2020.

[13] Shashidhar R, S Patilkulkarni, Nishanth S Murthy. Visual Speech Recognition using VGG16 Convolutional Neural Network, 2021.

[14] Stevens, Stanley Smith; Volkmann; John & Newman, Edwin B. (1937). Journal of the Acoustical Society of America.

[15] Luận văn thạc sĩ ngành Công nghệ Thông tin của Phú Thị Quyên, Xây dựng hệ thống tìm kiếm âm thanh theo nội dung dựa trên đặc trưng miền tần số, Đại học Dân lập Hải phòng 2016.

[16] D. Scherer, A. Müller, and S. Behnke, “Evaluation of pooling operations in convolutional architectures for object recognition,” .Proc. 20th Int. Conf. Artif. Neural Netw.: Part III, Berlin/Heidelberg, Germany, 2010.

[17] Pydub: https://github.com/jiaaro/pydub [18] Librosa: https://github.com/librosa/librosa [19] Numpy: https://numpy.org/ [20] Keras: https://keras.io [21] Tensorflow: https://www.tensorflow.org [22] Matplotlib: https://matplotlib.org/

.11 Minh họa tích chập trên ma trận ảnh

Các mơ hình CNN tiêu biểu