Báo cáo dự Án hệ thống thông minh hệ thống Điều khiển các thiết bị bằng giọng nói

KHOA CÔNG NGHỆ THÔNG TINBÁO CÁO PBL4 – DỰ ÁN HỆ THỐNG THÔNG MINH HỆ THỐNG ĐIỀU KHIỂN CÁC THIẾT BỊ BẰNG GIỌNG NÓI Giảng viên hướng dẫn: Bùi Thị Thanh Thanh ĐÀ NẴNG, 01/2025... Dự án hệ th

Trang 1

KHOA CÔNG NGHỆ THÔNG TIN

BÁO CÁO

PBL4 – DỰ ÁN HỆ THỐNG THÔNG MINH

HỆ THỐNG ĐIỀU KHIỂN CÁC THIẾT BỊ

BẰNG GIỌNG NÓI

Giảng viên hướng dẫn: Bùi Thị Thanh Thanh

ĐÀ NẴNG, 01/2025

Trang 2

TÓM TẮT ĐỒ ÁN

Đầu tiên, nhóm xin gửi lời cảm ơn đến TS Bùi Thị Thanh Thanh đã theo sát tiến độ và

hỗ trợ nhóm trong suốt quá trình thực hiện dự án này

Dự án hệ thống thông minh "Điều khiển các thiết bị bằng giọng nói" nhằm giải quyết vấn

đề quản lý và điều khiển thiết bị trong nhà một cách tiện lợi và không tiếp xúc, đáp ứng

sự phát triển và ứng dụng nhanh chóng của công nghệ thông tin vào đời sống hàng ngày

Hệ thống được xây dựng bằng cách kết hợp công nghệ AI và IoT Phương pháp giảiquyết bao gồm việc sử dụng mô hình AI để nhận dạng và chuyển đổi giọng nói thành vănbản, sau đó gửi lệnh qua kết nối Wi-Fi đến các thiết bị thông minh bao gồm cửa, đèn vàquạt kết hợp với module wifi Người dùng có thể điều khiển thiết bị bằng giọng nói thôngqua ứng dụng di động, đồng thời nhận các thông số về các cảm biến được lắp đặt trongnhà, đảm bảo giao diện dễ dùng và trực quan Kết quả đạt được là một hệ thống hoạtđộng hiệu quả, có khả năng phản hồi nhanh và chính xác, mang đến sự thuận tiện, dễdàng mở rộng và nâng cấp, tạo nền tảng cho ngôi nhà thông minh với trải nghiệm ngườidùng tối ưu

Trang 3

BẢNG PHÂN CÔNG NHIỆM VỤ

Nguyễn Công Tuấn Ứng dụng di động và mô hình Đã hoàn thành

Lê Trần Diễm Ly Cơ sở dữ liệu và báo cáo Đã hoàn thành

Trang 4

MỤC LỤC

1 Gi i thi u ớ ệ 6

1.1 Th c tr ng ự ạ 6

1.2 Các v n đ c n gi i quy t ấ ề ầ ả ế 6

1.3 Đ xu t gi i pháp t ng quan ề ấ ả ổ 6

1.4 S đ ho t đ ng t ng quan ơ ồ ạ ộ ổ 7

2 Gi i pháp ả 8

2.1 Gi i pháp ph n c ng và truy n thông ả ầ ứ ề 8

2.1.1 Các thi t b thông minh ế ị 8

2.1.2 Giao th c truy n thông ứ ề 8

2.1.3 Linh ki n, tham s kỹ thu t và nguyên t c ho t đ ng ệ ố ậ ắ ạ ộ 9

2.2 Gi i pháp TTNT/KHDL ả 12

2.2.1 Kh o sát mô hình AI ả 12

2.2.2 Mô hình Transformer 13

2.2.3 Mô hình AI Whisper 14

2.2.4 T ng quan quá trình fine-tune Whisper ổ 15

2.3 Gi i pháp ph n m m ả ầ ề 16

2.3.1 ng d ng di đ ng Ứ ụ ộ 16

2.3.2 Máy ch x lý d li u ủ ử ữ ệ 18

2.3.3 C s d li u ơ ở ữ ệ 19

3 K t qu ế ả 20

3.1 Thu th p và x lý d li u ậ ử ữ ệ 20

3.2 Công c và framework ụ 21

4 K t lu n ế ậ 26

5 Danh m c tài li u tham kh o ụ ệ ả 27

Trang 5

DANH MỤC HÌNH ẢNH

Hình 1 Sơ đồ hoạt động tổng quan 8

Hình 2 Cách mắc mạch điều khiển các thiết bị và cảm biến 9

Hình 3 Quy trình hoạt động của hệ thống 10

Hình 4 Sơ đồ hoạt động của mô hình Whisper 14

Hình 5 Tổ chức lưu trữ dữ liệu trên Firebase 20

Hình 6 Độ dài dữ liệu 21

Hình 7 Kết quả dữ liệu trên tập huấn luyện 22

Hình 8 Giao diện ứng dụng 23

Hình 9 Mô hình nhà nhìn từ trên cao 24

Hình 10 Mô hình nhà nhìn từ phía trước 25

Hình 11 Khu vực chứa công cụ điều khiển 26

DANH MỤC BẢNG Bảng 1 Đề xuất giải pháp tổng quan 6

Bảng 2 Danh sách linh kiện 9

Trang 6

1 Giới thiệu

1.1 Thực trạng

Thực trạng của dự án hệ thống thông minh "Điều khiển các thiết bị bằng giọng nói" phảnánh xu hướng phát triển công nghệ hiện nay, nơi AI và IoT được tích hợp để cải thiệnchất lượng cuộc sống Tuy nhiên, việc triển khai thực tế vẫn gặp một số hạn chế Nhiều

hệ thống điều khiển bằng giọng nói hiện tại chỉ hỗ trợ ngôn ngữ phổ biến như tiếng Anh,gây khó khăn cho người dùng nói ngôn ngữ khác Bên cạnh đó, độ chính xác của việcnhận diện giọng nói bị ảnh hưởng bởi các yếu tố như giọng vùng miền, tạp âm, hoặc chấtlượng mạng Ngoài ra, chi phí để xây dựng và duy trì một hệ thống như vậy còn khá cao,khiến việc tiếp cận rộng rãi gặp trở ngại Mặc dù vậy, các tiến bộ trong AI, như mô hìnhnhận diện giọng nói tiên tiến, và sự phát triển của phần cứng IoT đang dần khắc phụcnhững hạn chế này, mở ra tiềm năng lớn cho việc ứng dụng trong các ngôi nhà thôngminh

1.2 Các vấn đề cần giải quyết

 Nhận diện yêu cầu từ giọng nói và thực hiện lệnh chính xác

 Độ chính xác trong nhận diện giọng nói: Xử lý tạp âm và cải thiện khả năng nhậndạng trong môi trường phức tạp, nhận diện chính xác các giọng vùng miền

 Độ trễ và hiệu suất: Đảm bảo xử lý và thực thi lệnh nhanh chóng, theo thời gianthực

 Khả năng mở rộng: Dễ dàng bổ sung các thiết bị hoặc tính năng mới mà khôngảnh hưởng đến hệ thống hiện tại

 Chi phí triển khai: Giảm chi phí phần cứng và tối ưu hóa phần mềm để tăng khảnăng tiếp cận

1.3 Đề xuất giải pháp tổng quan

Trang 7

Bảng 1 Đề xuất giải pháp tổng quan

▫ Thiết bị thông minh: đèn, cửa, quạt

▫ Các cảm biếnNhận diện giọng nói ▫ Khảo sát và lựa chọn mô hình xử lý giọng nói

▫ Thu thập dữ liệu giọng nói từ hơn 100 người với cácngữ cảnh, điều kiện môi trường khác nhau

▫ Huấn luyện tập dữ liệu trên Google CollabỨng dụng di động ▫ Ứng dụng di động viết bằng ngôn ngữ Kotlin

▫ Cho phép người dùng điều khiển các thiết bị trực tiếpqua ứng dụng hoặc sử dụng giọng nói

▫ Ứng dụng có thể chạy nền để lắng nghe hiệu lệnh bắtđầu, sau đó thực hiện yêu cầu từ người dùng

1.4 Sơ đồ hoạt động tổng quan

Hình 1 Sơ đồ hoạt động tổng quan

Trang 8

2 Giải pháp

2.1 Giải pháp phần cứng và truyền thông

2.1.1 Các thiết bị thông minh

Sơ đồ tổng quan về phần cứng và các thiết bị thông minh:

Hình 2 Cách mắc mạch điều khiển các thiết bị và cảm biến

2.1.2 Giao thức truyền thông

Hệ thống thông minh sử dụng vi điều khiển ESP8266 làm trung tâm, kết hợp với giaothức HTTP để giao tiếp với máy chủ web và ứng dụng di động ESP8266 đóng vai trònhư một cầu nối giữa phần cứng và phần mềm, đảm bảo luồng dữ liệu giữa các thiết bị vàngười dùng được thực hiện một cách liền mạch và hiệu quả

Dữ liệu từ các cảm biến, như nhiệt độ, độ ẩm và khí gas, được thu thập và xử lý tạiESP8266 Sau đó, thông tin này được truyền tới máy chủ web qua giao thức HTTP, nơi

nó được lưu trữ và hiển thị cho người dùng thông qua ứng dụng di động Đồng thời,người dùng có thể gửi lệnh từ xa qua ứng dụng di động, truyền đến máy chủ, và sau đóđược ESP8266 xử lý để điều khiển các thiết bị như quạt, đèn và cửa trong hệ thống

Trang 9

Việc sử dụng giao thức HTTP giúp hệ thống trở nên đơn giản nhưng hiệu quả, phù hợpcho việc triển khai trên các thiết bị IoT quy mô nhỏ ESP8266, với khả năng kết nối Wi-

Fi tích hợp và chi phí hợp lý, không chỉ đáp ứng yêu cầu kỹ thuật mà còn hỗ trợ mở rộng

hệ thống dễ dàng trong tương lai Giải pháp này mang lại sự tiện lợi, tính linh hoạt cao vàkhả năng quản lý từ xa thông qua mạng Internet

Hình 3 Quy trình hoạt động của hệ thống

2.1.3 Linh kiện, tham số kỹ thuật và nguyên tắc hoạt động

Bảng 2 Danh sách linh kiện

(VNĐ)

Nguyên tắc hoạt động

động: 3.3V

 Dòng điện tiêu thụ: Khoảng

80mA - 170mA(tùy trạng thái hoạt động)

 Wi-Fi: IEEE

802.11 b/g/n

 CPU: Tensilica

L106, tốc độ 80MHz hoặc 160MHz

 Bộ nhớ: 32KB

RAM, 80KB RAM người dùng, và flash

80.000 Thu thập dữ liệu từ cảm

biến, gửi dữ liệu lên máychủ qua Wi-Fi và nhậnlệnh điều khiển từ ứngdụng di động qua HTTP.Thu thập dữ liệu từ cảmbiến, gửi dữ liệu lên máychủ qua Wi-Fi và nhậnlệnh điều khiển từ ứngdụng di động qua HTTP

Trang 10

512KB đến 4MB

 Giao tiếp:

GPIO, UART, SPI, I2C, PWM, ADC (1 kênh, 10-bit)

2 Đèn led Điện áp mà đèn

LED cần để bắt đầu phát sáng:

Khoảng 2.0V - 2.1V

1.000 Điều khiển bật hoặc tắt

bằng cách thay đổi điện

áp đầu ra từ ESP8266

3 Quạt brushless

5V (2 dây)

 Điện áp hoạt động: 5V DC

 Dòng điện tiêu thụ: ~0.2A -

0.5A (tùy kích thước)

 Tốc độ quay:

~2000 - 5000 RPM

(vòng/phút)

 Cấu tạo: 2 dây

(dây nguồn và dây đất)

25.000 Khi được cấp nguồn 5V,

quạt sẽ quay ở tốc độ cốđịnh

servo(điều

khiển cửa)

 Điện áp hoạt động: 4.8V -

6V DC

 Góc quay: 0° -

180°

 Tín hiệu điều khiển: PWM

(tín hiệu 1-2ms,tần số 50Hz)

Trang 11

 Dòng điện tiêu thụ:

 Không tải:

~10mA

 Khi hoạt động:

~100mA - 250mA

5 Relay 1 kênh

5V

 Điện áp điều khiển: 5V DC

 Điện áp tải tối đa:

 AC: 250V, 10A

 DC: 30V, 10A

 Dòng điều khiển: ~15mA

khi đo, ~50μA

ở chế độ chờ

 Phạm vi đo:

 Nhiệt độ: 0°C - 50°C (±2°C)

 Độ ẩm: 20% - 90% RH (±5%

 Dòng điện tiêu thụ: ~150mA

 Phát hiện khí:

25.000 Đo nồng độ khí gas và

gửi giá trị tín hiệuanalog đến ESP8266

Trang 12

LPG, Butane, Methane, Hydrogen, Smoke

 Độ nhạy:

200ppm - 10000ppm

8 Nguồn điện Adapter 5VDC, 2A 35.000 Cung cấp nguồn điện

cho vi điều khiển và cácmodule

2.2.2 Mô hình Transformer

a Giới thiệu về mô hình Transformer

 Transformer là một kiến trúc mô hình học sâu dựa trên cơ chế self-attention, cho

phép mô hình này hiểu được mối quan hệ giữa các từ trong một câu mà không cần

Trang 13

đến kiến trúc tuần tự truyền thống như RNN (Recurrent Neural Networks) hayLSTM (Long Short-Term Memory) Transformer có khả năng xử lý toàn bộ câucùng một lúc, điều này giúp tăng tốc độ huấn luyện và cải thiện hiệu quả xử lý.

 Trong kiến trúc của mình, Transformer chứa 6 encoder và 6 decoder Mỗiencoder chứa hai lớp: Self-attention và mạng truyền thẳng (FNN) Self-Attention

là cơ chế giúp encoder nhìn vào các từ khác trong lúc mã hóa một từ cụ thể, vì vậy, Transformers có thể hiểu được sự liên quan giữa các từ trong một câu, kể cả khichúng có khoảng cách xa Các decoder cũng có kiến trúc giống như vậy nhưnggiữa chúng có một lớp attention để nó có thể tập trung vào các phần liên quan củađầu vào

b Các điểm nổi bật chính của Transformer

1 Xử lý song song: Transformer xử lý đầu vào theo từng khối, không tuần tự Điều

này cho phép việc huấn luyện mô hình được thực hiện song song, giảm đáng kểthời gian cần thiết để huấn luyện mô hình

2 Self-Attention: Cơ chế này giúp Transformer xác định được mối quan hệ giữa tất

cả các từ trong một câu, bất kể khoảng cách giữa chúng trong văn bản, giải quyếtvấn đề về phụ thuộc dài hạn

3 Hiệu suất và mở rộng: Với khả năng xử lý đồng thời, Transformer tận dụng tối

đa sức mạnh của phần cứng hiện đại, như GPU và TPU, để xử lý các tác vụ NLPmột cách hiệu quả

c Cách hoạt động của mô hình Transformer

Cốt lõi của transformer là attention mechanism (cơ chế tập trung), giúp mô hình tậptrung vào các phần quan trọng của văn bản để đưa ra dự đoán chính xác hơn

Transformer được cấu trúc thành hai phần chính là encoder và decoder.

nhớ hoặc context mà Decoder có thể sử dụng sau đó

Trang 14

 Decoder: Decoder nhận đầu vào từ đầu ra của Encoder (gọi là "Encoded input")

kết hợp với một chuỗi đầu vào khác (gọi là "Target") để tạo ra chuỗi đầu ra cuốicùng

Mỗi encoder và decoder đều bao gồm nhiều lớp, mỗi lớp chứa các thành phần attention và feed-forward neural networks

self-2.2.3 Mô hình AI Whisper

Hình 4 Sơ đồ hoạt động của mô hình Whisper

1 Bắt đầu với một đoạn âm thanh

2 Xử lý trước đoạn âm thanh bằng cách đệm (hoặc cắt ngắn) đến 30 giây

3 Xử lý nó để có được các đặc trưng âm thanh

Trang 15

4 Chuyển các đặc trưng âm thanh cho bộ mã encoder để lấy âm thanh đã được mãhóa

5 Âm thanh đã mã hóa sẽ chuyển đến bộ giải mã decoder để có được văn bản dự đoán (bằng cách lấy mẫu từ đầu ra của bộ giải mã)

Whisper sử dụng mô hình "sequence-to-sequence", khi nhận vào giọng nói, Whisper sẽ

mã hóa âm thanh thành các đoạn dữ liệu (vector), sau đó sử dụng kiến trúc Transformer

để giải mã thành văn bản

2.2.4 Tổng quan quá trình fine-tune Whisper

a Chuẩn bị dữ liệu

Thu thập dữ liệu âm thanh và Metadata: Bộ dữ liệu bao gồm các tệp âm thanh

và thông tin chú thích (metadata) tương ứng Dữ liệu này được lưu trữ trênGoogle Drive, trong đó bao gồm các đường dẫn tới tệp âm thanh và các văn bảnghi âm (transcriptions) tương ứng

Tiền xử lý dữ liệu: Sử dụng thư viện datasets của Hugging Face để tạo và xử lý

bộ dữ liệu Các bước trong quá trình tiền xử lý dữ liệu bao gồm:

 Đọc dữ liệu metadata từ file CSV

 Xáo trộn dữ liệu, đảm bảo sự liên kết giữa tệp âm thanh và văn bản

 Tạo đường dẫn đầy đủ tới các tệp âm thanh

 Chia dữ liệu thành ba phần: train, validation, và test với tỷ lệ lần lượt là 70%

- 15% - 15%

b Chuyển đổi âm thanh thành đặc trưng (Feature Extraction)

Resampling âm thanh:

Trang 16

Dữ liệu âm thanh được chuẩn hóa về tần số mẫu (sampling rate), thông thường là

16 kHz Điều này giúp đảm bảo rằng tất cả các tệp âm thanh có tần số mẫu giốngnhau, từ đó giúp mô hình học tốt hơn và nhận diện hiệu quả hơn

Trích xuất đặc trưng:

Các đặc trưng như log-Mel spectrogram thường được sử dụng để đại diện cho dữ

liệu âm thanh Những đặc trưng này được trích xuất từ dữ liệu âm thanh bằng cách

sử dụng các bộ xử lý (feature extractors) như WhisperProcessor hoặc Wav2Vec2Processor từ Hugging Face.

c Huấn luyện và Fine-Tuning mô hình Whisper

Xử lý dữ liệu đầu ra:

 Tokenization và Labeling:

Sau khi Whisper nhận diện giọng nói và chuyển thành văn bản, bạn sẽ sử dụng các

kỹ thuật như tokenization để xử lý văn bản này, biến nó thành các token mà mô

hình có thể hiểu được Các nhãn (labels) từ dữ liệu chú thích văn bản sẽ được mã

hóa thành các chỉ số bằng cách sử dụng tokenizer.

d Lưu trữ bộ dữ liệu và mô hình lên Hugging Face

Cuối cùng, bộ dữ liệu đã qua xử lý và mô hình đã được fine-tune sẽ được lưu trữlên Hugging Face để dễ dàng chia sẻ và sử dụng cho các dự án tiếp theo

2.3 Giải pháp phần mềm

2.3.1 Ứng dụng di động

a Chức năng chính của ứng dụng

1 Điều khiển thiết bị IoT:

 Ứng dụng có thể điều khiển bật/tắt đèn, quạt và mở/đóng cửa thông qua giao tiếpvới module ESP8266 qua HTTP

 Trạng thái của các thiết bị được đồng bộ hóa với cơ sở dữ liệu Firebase theo thờigian thực

Trang 17

2 Ghi âm và đưa âm thanh lên máy chủ để xử lý:

 Hỗ trợ người dùng ghi âm giọng nói

 File âm thanh được tải lên máy chủ để xử lý, tìm ra lệnh điều khiển chứa trong nó

 Từ đó xử lý dựa trên kết quả trả về

3 Quản lý trạng thái thiết bị:

 Các trạng thái thiết bị được hiển thị thông qua giao diện người dùng và đồng bộvới cơ sở dữ liệu Firebase

 Giá trị các cảm biến được hiển thị trên giao diện và cập nhật theo thời gian thực

2 Xử lý thời gian thực với Firebase:

 Sử dụng listener từ Firebase Realtime Database để cập nhật trạng thái thiết bị khi

có thay đổi từ máy chủ

3 Ghi âm và xử lý âm thanh:

 Dùng MediaRecorder để ghi âm thông qua microphone

4 Tải file lên máy chủ:

 Sử dụng HTTP POST với multipart form-data để tải file ghi âm lên máy chủ vànhận phản hồi dạng JSON

Trang 18

c Công nghệ sử dụng

1 Ngôn ngữ lập trình:

 Sủ dụng ngôn ngữ Kotlin jetpack compose cho phát triển ứng dụng Android

2 Thư viện và công cụ:

 Firebase Realtime Database: Đồng bộ dữ liệu giữa ứng dụng và máy chủ

 FFmpegKit: Xử lý và chuyển đổi định dạng file âm thanh

 Jetpack Compose: Xây dựng giao diện người dùng động

 MediaRecorder và MediaPlayer: Xử lý ghi âm và phát lại âm thanh

3 Kết nối thiết bị IoT:

 ESP8266: Module Wi-Fi giao tiếp với ứng dụng thông qua giao thức HTTP

2.3.2 Máy chủ xử lý dữ liệu

a Tổng quan bài toán

Hệ thống này nhằm mục đích xử lý các yêu cầu từ người dùng thông qua giọng nói Cụthể:

1 Kích hoạt bằng từ khóa: Hệ thống sẽ chờ đợi từ khóa "hey misa" trong âm

thanh đầu tiên để kích hoạt, giống như việc người dùng gọi trợ lý ảo

2 Nhận diện và phân tích lệnh: Sau khi nhận diện được từ khóa, hệ thống sẽ

tiếp tục nhận diện âm thanh trong tệp thứ hai, và so khớp văn bản nhận diệnvới các lệnh có sẵn trong từ điển (bật đèn, tắt đèn, mở cửa, đóng cửa, bật quạt,tắt quạt)

3 Phản hồi kết quả: Hệ thống sẽ trả về kết quả về lệnh nhận diện được, hoặc

thông báo lỗi nếu không xác định được lệnh

b Công nghệ sử dụng

1 Flask:

Tiêu đề	Hệ Thống Điều Khiển Các Thiết Bị Bằng Giọng Nói
Tác giả	Nguyễn Công Tuấn, Tạ Quang Hữu, Lê Thảo Vy, Lê Trần Diễm Ly
Người hướng dẫn	TS. Bùi Thị Thanh Thanh
Trường học	Trường Đại Học Bách Khoa - Đại Học Đà Nẵng
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	báo cáo
Năm xuất bản	2025
Thành phố	Đà Nẵng

Định dạng
Số trang	28
Dung lượng	4,61 MB