2023Ứng dụng học sâu phân tích tín hiệu điều khiển tự động sử dụng âm thanh Luận văn thạc sĩ khoa học - Nguyễn Xuân Nam 1 / 29... Các nội dung chính1 Cơ sở lý thuyết Tín hiệu âm thanh Tr
Trang 1Ứng dụng học sâu phân tích tín hiệu điều khiển tự động sử dụng âm thanh
Luận văn thạc sĩ khoa học
Nguyễn Xuân Nam
Giảng viên hướng dẫn: TS Pham Tiến Lâm
TS Phạm Văn Thành
Bộ môn Vật lý vô tuyến và điện tử Khoa Vật lý-Đại học Khoa học Tự Nhiên Đại học Quốc Gia Hà Nội
Hà nội 30 11 2023Ứng dụng học sâu phân tích tín hiệu điều khiển tự động sử dụng âm thanh Luận văn thạc sĩ khoa học - Nguyễn Xuân Nam 1 / 29
Trang 2Các nội dung chính
1 Cơ sở lý thuyết
Tín hiệu âm thanh
Trích chọn đặc trưng của âm thanh
Một số thuật toán học sâu
Trang 3Tín hiệu âm thanh
Âm thanh là một dạng tín hiệu mang tính liên tục, để có thể biểu diễn và xử
lý trên máy tính, ta cần chuyển đổi tín hiệu âm thanh sang dạng số.
Quá trình chuyển đổi tín hiệu từ dạng liên tục sang dạng số được gọi là quá trình Analog-to-Digital Conversion (ADC).
Hình 1: Chuyển đổi âm thanh từ tín hiệu liên tục sang tín hiệu số
Trang 4Biểu diễn âm thanh trong miền tín hiệu
Hình 2: Tín hiệu âm thanh “Lên” theo miền thời gian
Trang 5Đặc trưng âm thanh trong miền tần số
Băng thông, phân bổ năng lượng, điều hòa, cao độ.
Ảnh phổ (Spectrogram): Là một biểu đồ hai chiều thời gian và tần số Màu sắc hoặc cường độ của các điểm ảnh đại diện cho mức năng lượng của âm thanh tại một thời điểm và tần số cụ thể.
Hình 4: Ảnh phổ của tín hiệu âm thanh “Lên”
Trang 6Đặc trưng âm thanh Mel spectrogram
Mel spectrogram là một biến thể của spectrogram nhưng được biểu diễn theo thang mel.
Hình 5: Bộ lọc mel Hình 6: Ảnh phổ của tín hiệu âm thanh
“Lên”
Trang 7Đặc trưng âm thanh MFCCs
Hình 7: Đặc trưng âm thanh MFCCs
Trang 9Mạng Long Short-term memory
Mạng LSTM được thiết kế để lọc đi những thông tin không cần thiết và một kiến trúc có thể nhớ dài hạn.
Hình 9: Luồng xử lý của LSTM
Trang 11Các nội dung chính
1 Cơ sở lý thuyết
Tín hiệu âm thanh
Trích chọn đặc trưng của âm thanh
Một số thuật toán học sâu
Trang 12Nguyên lý hoạt động
Khối 1: Máy tính hoặc thiết bị điều khiển của người dùng Người dùng ra lệnh bằng giọng nói, câu lệnh sẽ được thiết bị thu âm và xử lý Kết quả đầu
ra là chuỗi văn bản tương ứng với câu lệnh.
Khối 2: Xe robot với bo mạch Raspberry nhận tín hiệu thông qua giao tiếp socket và internet.
Hình 11: Nguyên lý hoạt động của hệ thống
Trang 13Phần cứng hệ thống
Phần cứng hệ thống sẽ được lựa chọn với các tiêu chí: Chi phí thấp, khả năng tiếp cận dễ dàng và tính dễ lắp đặt.
Hình 12: Phần cứng hệ thống
Trang 14Thu thập và tiền xử lý dữ liệu
Trong nghiên cứu này, ta sẽ xây dựng một mô hình học sâu để điều khiển một xe robot với bốn câu lệnh đơn giản: “Lên”, “Xuống”, “Trái”, “Phải”.
Hình 13: Các tệp âm thanh xử lý được chia vào các thư mục riêng
Trang 15Xây dựng mô hình học sâu
Trang 16Kết nối Socket
Socket là giao diện lập trình ứng dụng mạng được dùng để truyền và nhận
dữ liệu trên internet.
Hình 14: Mô hình kết nối Socket
Trang 17Xây dựng phần cứng
Ta phát triển hai chương trình để điều khiển xe robot Trong đó:
Chương trình 1: Nhận dữ liệu thông qua kết nối socket.
Chương trình 2: Sử dụng các chân GPIO trên Raspberry Pi để điều khiển động
cơ của xe robot di chuyển.
Ta kết nối các thiết bị phần cứng
bao gồm: Bo mạch Raspberry Pi,
module L298N và các motor DC
để tạo thành một xe robot đơn
giản giống như hình:
Hình 15: Kết nối động cơ
Trang 18Các nội dung chính
1 Cơ sở lý thuyết
Tín hiệu âm thanh
Trích chọn đặc trưng của âm thanh
Một số thuật toán học sâu
Trang 20Kết quả trích chọn đặc trưng
Hình 20: Các đặc trưng được lưu lại vào tệp JSON
Trang 21Kết quả đánh giá mô hình
Ta thực hiện việc chia tập dữ liệu thành hai phần, trong đó 80% được dùng
để huấn luyện và 20% của bộ dữ liệu sử dụng để kiểm tra.
Bảng 1: Đánh giá mô hình với LR = 0.001
Trang 22Kết quả hệ thống phần cứng
Trang 23Kết quả hệ thống phần cứng
Trang 24Kết quả kết nối
Trang 25Chất lượng mô hình: Mô hình Hybrid thể hiện độ chính xác cao, đáp ứng tốt yêu cầu của bài toán là phân loại các câu lệnh điều khiển khác nhau.
Phương thức kết nối
Độ trễ gửi tin: Hệ thống gần như không trải qua độ trễ đáng kể do dung lượng thông tin truyền đi nhỏ.
Phần cứng hệ thống:
Bo mạch Raspberry xử lý tốt các câu lệnh được gửi xuống để điều khiển xe.
Xe robot di chuyển đúng hướng theo các câu lệnh khác nhau Tuy nhiên do động cơ không có sẵn chức năng xoay bánh nên việc rẽ trái rẽ phải còn gặp nhiều khó khăn.
Trang 26Các nội dung chính
1 Cơ sở lý thuyết
Tín hiệu âm thanh
Trích chọn đặc trưng của âm thanh
Một số thuật toán học sâu
Trang 27Kết luận
Thông qua nghiên cứu này, tôi đã thành công trong việc phát triển một hệ thống điều khiển xe robot thông qua giọng nói Trong đó, hệ thống bao gồm những thành phần quan trọng sau:
Mô hình học sâu: Được áp dụng để phân loại các câu lệnh khác nhau dựa trên giọng điều khiển của người sử dụng Mô hình ổn định, tốc độ xử lý nhanh, và đạt được độ chính xác cao.
Phương thức truyền tin: Hệ thống được thiết kế để sử dụng giao tiếp socket, nhằm truyền các chuỗi văn bản đến bộ xử lý trên xe robot với độ trễ thấp.
Trang 29Thanks For Your Attention!