1. Trang chủ
  2. » Luận Văn - Báo Cáo

ứng dụng học sâu phân tích tín hiệu điều khiển tự động sử dụng âm thanh

29 13 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng học sâu phân tích tín hiệu điều khiển tự động sử dụng âm thanh
Tác giả Nguyễn Xuân Nam
Người hướng dẫn TS. Pham Tiến Lâm, TS. Phạm Văn Thành
Trường học Đại học Quốc Gia Hà Nội
Chuyên ngành Vật lý
Thể loại Luận văn thạc sĩ khoa học
Thành phố Hà Nội
Định dạng
Số trang 29
Dung lượng 8,39 MB

Nội dung

2023Ứng dụng học sâu phân tích tín hiệu điều khiển tự động sử dụng âm thanh Luận văn thạc sĩ khoa học - Nguyễn Xuân Nam 1 / 29... Các nội dung chính1 Cơ sở lý thuyết Tín hiệu âm thanh Tr

Trang 1

Ứng dụng học sâu phân tích tín hiệu điều khiển tự động sử dụng âm thanh

Luận văn thạc sĩ khoa học

Nguyễn Xuân Nam

Giảng viên hướng dẫn: TS Pham Tiến Lâm

TS Phạm Văn Thành

Bộ môn Vật lý vô tuyến và điện tử Khoa Vật lý-Đại học Khoa học Tự Nhiên Đại học Quốc Gia Hà Nội

 

 

Hà nội 30 11 2023Ứng dụng học sâu phân tích tín hiệu điều khiển tự động sử dụng âm thanh Luận văn thạc sĩ khoa học - Nguyễn Xuân Nam 1 / 29

Trang 2

Các nội dung chính

1 Cơ sở lý thuyết

Tín hiệu âm thanh

Trích chọn đặc trưng của âm thanh

Một số thuật toán học sâu

Trang 3

Tín hiệu âm thanh

Âm thanh là một dạng tín hiệu mang tính liên tục, để có thể biểu diễn và xử

lý trên máy tính, ta cần chuyển đổi tín hiệu âm thanh sang dạng số.

Quá trình chuyển đổi tín hiệu từ dạng liên tục sang dạng số được gọi là quá trình Analog-to-Digital Conversion (ADC).

Hình 1: Chuyển đổi âm thanh từ tín hiệu liên tục sang tín hiệu số

Trang 4

Biểu diễn âm thanh trong miền tín hiệu

Hình 2: Tín hiệu âm thanh “Lên” theo miền thời gian

Trang 5

Đặc trưng âm thanh trong miền tần số

Băng thông, phân bổ năng lượng, điều hòa, cao độ.

Ảnh phổ (Spectrogram): Là một biểu đồ hai chiều thời gian và tần số Màu sắc hoặc cường độ của các điểm ảnh đại diện cho mức năng lượng của âm thanh tại một thời điểm và tần số cụ thể.

Hình 4: Ảnh phổ của tín hiệu âm thanh “Lên”

Trang 6

Đặc trưng âm thanh Mel spectrogram

Mel spectrogram là một biến thể của spectrogram nhưng được biểu diễn theo thang mel.

Hình 5: Bộ lọc mel Hình 6: Ảnh phổ của tín hiệu âm thanh

“Lên”

Trang 7

Đặc trưng âm thanh MFCCs

Hình 7: Đặc trưng âm thanh MFCCs

Trang 9

Mạng Long Short-term memory

Mạng LSTM được thiết kế để lọc đi những thông tin không cần thiết và một kiến trúc có thể nhớ dài hạn.

Hình 9: Luồng xử lý của LSTM

Trang 11

Các nội dung chính

1 Cơ sở lý thuyết

Tín hiệu âm thanh

Trích chọn đặc trưng của âm thanh

Một số thuật toán học sâu

Trang 12

Nguyên lý hoạt động

Khối 1: Máy tính hoặc thiết bị điều khiển của người dùng Người dùng ra lệnh bằng giọng nói, câu lệnh sẽ được thiết bị thu âm và xử lý Kết quả đầu

ra là chuỗi văn bản tương ứng với câu lệnh.

Khối 2: Xe robot với bo mạch Raspberry nhận tín hiệu thông qua giao tiếp socket và internet.

Hình 11: Nguyên lý hoạt động của hệ thống

Trang 13

Phần cứng hệ thống

Phần cứng hệ thống sẽ được lựa chọn với các tiêu chí: Chi phí thấp, khả năng tiếp cận dễ dàng và tính dễ lắp đặt.

Hình 12: Phần cứng hệ thống

Trang 14

Thu thập và tiền xử lý dữ liệu

Trong nghiên cứu này, ta sẽ xây dựng một mô hình học sâu để điều khiển một xe robot với bốn câu lệnh đơn giản: “Lên”, “Xuống”, “Trái”, “Phải”.

Hình 13: Các tệp âm thanh xử lý được chia vào các thư mục riêng

Trang 15

Xây dựng mô hình học sâu

Trang 16

Kết nối Socket

Socket là giao diện lập trình ứng dụng mạng được dùng để truyền và nhận

dữ liệu trên internet.

Hình 14: Mô hình kết nối Socket

Trang 17

Xây dựng phần cứng

Ta phát triển hai chương trình để điều khiển xe robot Trong đó:

Chương trình 1: Nhận dữ liệu thông qua kết nối socket.

Chương trình 2: Sử dụng các chân GPIO trên Raspberry Pi để điều khiển động

cơ của xe robot di chuyển.

Ta kết nối các thiết bị phần cứng

bao gồm: Bo mạch Raspberry Pi,

module L298N và các motor DC

để tạo thành một xe robot đơn

giản giống như hình:

Hình 15: Kết nối động cơ

Trang 18

Các nội dung chính

1 Cơ sở lý thuyết

Tín hiệu âm thanh

Trích chọn đặc trưng của âm thanh

Một số thuật toán học sâu

Trang 20

Kết quả trích chọn đặc trưng

Hình 20: Các đặc trưng được lưu lại vào tệp JSON

Trang 21

Kết quả đánh giá mô hình

Ta thực hiện việc chia tập dữ liệu thành hai phần, trong đó 80% được dùng

để huấn luyện và 20% của bộ dữ liệu sử dụng để kiểm tra.

Bảng 1: Đánh giá mô hình với LR = 0.001

Trang 22

Kết quả hệ thống phần cứng

Trang 23

Kết quả hệ thống phần cứng

Trang 24

Kết quả kết nối

Trang 25

Chất lượng mô hình: Mô hình Hybrid thể hiện độ chính xác cao, đáp ứng tốt yêu cầu của bài toán là phân loại các câu lệnh điều khiển khác nhau.

Phương thức kết nối

Độ trễ gửi tin: Hệ thống gần như không trải qua độ trễ đáng kể do dung lượng thông tin truyền đi nhỏ.

Phần cứng hệ thống:

Bo mạch Raspberry xử lý tốt các câu lệnh được gửi xuống để điều khiển xe.

Xe robot di chuyển đúng hướng theo các câu lệnh khác nhau Tuy nhiên do động cơ không có sẵn chức năng xoay bánh nên việc rẽ trái rẽ phải còn gặp nhiều khó khăn.

Trang 26

Các nội dung chính

1 Cơ sở lý thuyết

Tín hiệu âm thanh

Trích chọn đặc trưng của âm thanh

Một số thuật toán học sâu

Trang 27

Kết luận

Thông qua nghiên cứu này, tôi đã thành công trong việc phát triển một hệ thống điều khiển xe robot thông qua giọng nói Trong đó, hệ thống bao gồm những thành phần quan trọng sau:

Mô hình học sâu: Được áp dụng để phân loại các câu lệnh khác nhau dựa trên giọng điều khiển của người sử dụng Mô hình ổn định, tốc độ xử lý nhanh, và đạt được độ chính xác cao.

Phương thức truyền tin: Hệ thống được thiết kế để sử dụng giao tiếp socket, nhằm truyền các chuỗi văn bản đến bộ xử lý trên xe robot với độ trễ thấp.

Trang 29

Thanks For Your Attention!

Ngày đăng: 01/07/2024, 14:09

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w