1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo pbl5 – dự án kỹ thuật máy tính tên Đề tài trợ lý ảo thông

40 4 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Trợ Lý Ảo Thông Minh
Tác giả Dương Bích Hòa An, Phạm Minh Quân
Người hướng dẫn TS. Huỳnh Hữu Hưng
Trường học Trường Đại Học Bách Khoa
Chuyên ngành Công Nghệ Thông Tin
Thể loại báo cáo
Năm xuất bản 2024
Thành phố Đà Nẵng
Định dạng
Số trang 40
Dung lượng 4,6 MB

Cấu trúc

  • 1. GIỚI THIỆU (5)
  • 2. GIẢI PHÁP (12)
    • 2.1. Giải pháp phần cứng và truyền thông (12)
      • 2.1.1 Giải pháp phần cứng (12)
      • 2.1.2. Giải pháp truyền thông(HTTP) (14)
    • 2.2. Giải pháp Phần mềm (15)
      • 2.2.1. Ứng dụng trợ lý ảo trên máy tính (15)
      • 2.2.2. Chương trình trên module IoT (19)
    • 2.3. Giải pháp AI (20)
      • 2.3.1. Mô hình nhận diện giọng nói tự động(ASR) (20)
      • 2.3.2. Nhận diện ý định người dùng bằng cách Fine Tuning mô hình BERT để đánh nhãn ý định cho từng từ trong câu (29)
  • 3. TRIỂN KHAI VÀ ĐÁNH GIÁ KẾT QUẢ (36)
    • 3.1. Kết quả mô hình (36)
      • 3.1.1. Mô hình nhận diện giọng nói tự động(ASR) (36)
      • 3.1.2. Mô hình nhận diện ý định người dùng (36)
    • 3.2. Triển khai phần cứng (37)
    • 3.3. Ứng dụng trợ lý ảo (38)
  • 4. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN (38)
    • 4.1 Kết luận đạt được (38)
    • 4.2 Kiến nghị và hướng phát triển (39)
  • 5. TÀI LIỆU THAM KHẢO (40)

Nội dung

Phương pháp giải quyết bao gồmviệc sử dụng công nghệ xử lý ngôn ngữ tự nhiên NLP và nhận diện giọng nói tựđộngASR nhằm giúp cho trợ lý ảo có thể hiểu và thực hiện các lệnh từ người dùng.

GIỚI THIỆU

1.1 Tổng quan về đề tài

Hệ thống điều khiển bằng giọng nói đang trở thành một phần quan trọng trong cuộc sống hiện đại, nhờ vào sự phát triển của trí tuệ nhân tạo (AI) và công nghệ xử lý ngôn ngữ tự nhiên (NLP) Các hệ thống này ngày càng thông minh, có khả năng nhận diện và hiểu nhiều ngôn ngữ cũng như giọng nói khác nhau Ứng dụng của chúng không chỉ giới hạn trong các thiết bị thông minh gia đình như loa thông minh, đèn, và điều hòa không khí, mà còn mở rộng đến ô tô tự lái, chăm sóc sức khỏe và giáo dục Điều này giúp giảm bớt công việc tay chân cho người dùng và tăng cường khả năng tương tác cũng như tự động hóa trong nhiều hoạt động hàng ngày.

Đề tài của nhóm tập trung vào điều khiển thiết bị Internet of Things (IoT) và ứng dụng trên máy tính thông qua hệ thống điều khiển bằng giọng nói và văn bản Sự tích hợp này mang lại tiện lợi vượt trội, cho phép người dùng dễ dàng quản lý các thiết bị gia đình thông minh như đèn, quạt, loa, cảm biến và cửa từ xa Hệ thống cũng hỗ trợ thực hiện các tác vụ hàng ngày như khởi động phần mềm, mở ứng dụng và tìm kiếm thông tin Mục tiêu của đề tài là nghiên cứu và phát triển giải pháp tích hợp nhằm tối ưu hóa trải nghiệm người dùng và nâng cao mức độ tự động hóa trong cuộc sống hiện đại.

1.2 Hiện trạng và vấn đề cần giải quyết

Hiện nay, Trợ lý ảo đang dần phổ biến và có đa dạng ứng dụng trong thực tế:

Trợ lý ảo ngày càng phổ biến và được ứng dụng rộng rãi trong nhiều lĩnh vực, bao gồm chăm sóc khách hàng, hỗ trợ kỹ thuật, quản lý công việc cá nhân và tương tác xã hội.

● Các trợ lý ảo nổi tiếng hiện nay bao gồm Siri của Apple, Alexa của Amazon, Google Assistant, và Cortana của Microsoft.

Các công nghệ và kỹ thuật hiện nay đã có thể đáp ứng cho việc xây dựng 1 trợ lý ảo:

● Sử dụng các kỹ thuật học máy (machine learning) và xử lý ngôn ngữ tự nhiên (NLP) để hiểu và phản hồi người dùng.

● Kết hợp các công nghệ khác như nhận diện giọng nói, nhận diện khuôn mặt, và học sâu (deep learning).

Tính năng và dịch vụ:

Trợ lý ảo có khả năng thực hiện nhiều nhiệm vụ đa dạng, bao gồm lên lịch hẹn, gửi tin nhắn, tìm kiếm thông tin trên internet, điều khiển thiết bị thông minh trong nhà và tham gia vào các cuộc trò chuyện phức tạp.

1.2.2 Các vấn đề cần giải quyết

1 Nhận biết ý định của người dùng thông qua câu lệnh

Nhận diện ý định của người dùng qua câu lệnh (Intent Recognition) là một vấn đề quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và trí tuệ nhân tạo (AI) Mục tiêu chính của bài toán này là xác định mục đích hoặc yêu cầu của người dùng từ câu lệnh mà họ nhập, giúp thực hiện các hành động phù hợp trong các ứng dụng như trợ lý ảo, chatbot, và hệ thống hỏi đáp.

● Đầu vào: Một câu lệnh hoặc câu hỏi từ người dùng, dưới dạng văn bản.

Đầu ra của hệ thống trợ lý ảo phản ánh ý định của người dùng, thường được biểu diễn dưới dạng nhãn hoặc danh mục Ví dụ, các ý định có thể bao gồm việc hỏi về thời tiết hoặc tìm kiếm thông tin.

Hệ thống phải đạt được độ chính xác cao trong việc phân loại ý định của người dùng Để đo lường độ chính xác của mô hình, các tiêu chí quan trọng như độ chính xác (accuracy), độ nhạy (recall) và độ đặc hiệu (precision) sẽ được áp dụng.

Hệ thống cần có khả năng phản hồi nhanh chóng, đặc biệt trong các ứng dụng thời gian thực như trợ lý ảo và chatbot Ngoài ra, hệ thống cũng phải dễ dàng mở rộng để tích hợp các ý định mới khi nhu cầu ứng dụng thay đổi hoặc mở rộng.

2 Nhận diện giọng nói tự động

Bài toán nhận diện giọng nói tự động (ASR) là một phần quan trọng của xử lý ngôn ngữ tự nhiên (NLP) và trí tuệ nhân tạo (AI) Mục tiêu chính của ASR là chuyển đổi ngôn ngữ nói của con người thành văn bản, giúp hệ thống hiểu và xử lý các yêu cầu hoặc mệnh lệnh từ người dùng.

● Đầu vào: Một đoạn âm thanh chứa giọng nói của người dùng.

● Đầu ra: Văn bản chuyển đổi từ đoạn âm thanh đầu vào.

● Độ chính xác cao: Hệ thống cần chuyển đổi chính xác các đoạn âm thanh thành văn bản, giảm thiểu các lỗi về từ và cú pháp.

Phản hồi nhanh chóng là yếu tố quan trọng trong các ứng dụng thời gian thực như trợ lý ảo và chatbot, nơi hệ thống cần cung cấp kết quả ngay lập tức để nâng cao trải nghiệm người dùng.

● Xử lý nhiễu và tiếng ồn: Hệ thống cần hoạt động tốt trong các môi trường có tiếng ồn và nhiễu âm thanh.

1.3 Đề xuất giải pháp tổng quan

Phát triển hệ thống trợ lý ảo cho các thiết bị IoT yêu cầu sự kết hợp của nhiều công nghệ tiên tiến và một kiến trúc linh hoạt Dưới đây là giải pháp tổng quan cho hệ thống trợ lý ảo mà nhóm đã đề xuất.

Kiến trúc tổng quan của hệ thống

Hệ thống trợ lý ảo điều khiển các thiết bị IoT có thể được chia thành các thành phần chính sau:

Chương trình trên máy tính cung cấp một giao diện thân thiện cho người dùng, cho phép tương tác với trợ lý ảo Nó hỗ trợ điều khiển và giám sát các thiết bị IoT, đồng thời thực hiện nhiều hành động khác trên máy tính như bật tắt ứng dụng và điều chỉnh âm lượng.

Giao diện giọng nói và văn bản cho phép người dùng điều khiển thiết bị một cách dễ dàng bằng giọng nói thông qua các thiết bị thu âm, hoặc nhập liệu từ bàn phím.

Lưu trữ và xử lý dữ liệu: Lưu trữ các thông tin cần thiết như thông tin các loại thiết bị IoT và các ứng dụng trong máy tính.

2 Các Mô hình Trí tuệ nhân tạo:

Hệ thống áp dụng các mô hình vừa phải, cho phép hoạt động trực tiếp trên máy tính của người dùng, nhằm hỗ trợ hiệu quả cho các chức năng của trợ lý ảo.

Xử lý ngôn ngữ tự nhiên: Sử dụng mô hình BERT để nhận biết yêu cầu của người dùng.

Nhận diện giọng nói tự động: Sử dụng một mô hình nhận diện giọng nói tự động có kích thước nhỏ để chuyển đổi giọng nói thành văn bản.

3 Nền tảng IoT (IoT Platform)

Để xây dựng hệ thống IoT với chi phí thấp, nhóm đã sử dụng các module IoT giá rẻ như ESP8266 để điều khiển các thiết bị như đèn LED RGB, động cơ DC và động cơ servo Việc sử dụng các thiết bị này không chỉ giúp tiết kiệm chi phí mà còn dễ dàng trong lập trình và triển khai Tuy nhiên, cần lưu ý rằng các thiết bị này chỉ có tính chất mô phỏng và không hoàn toàn giống với các thiết bị IoT thực tế.

Giao thức giao tiếp (Communication Protocols): Các module IoT giá rẻ như

GIẢI PHÁP

Giải pháp phần cứng và truyền thông

Hình 2 Sơ đồ IoT của hệ thống

Bảng các thiết bị cần mua

Các thiết bị phần cứng Mô tả Giá thành Tình trạng

Micro cho máy tính Thu âm giọng nói Sử dụng micro cá nhân Đã mua

ESP8266 Đóng vai trò như 1 module IoT, nhận yêu cầu từ máy tính và trả phản

90,000 đ Đã mua hồi về máy tính Đèn LED RGB Đóng vai trò như 1 bóng đèn 1,000 đ Đã mua Động cơ DC và

Mạch cầu L298N Đóng vai trò như 1 máy quạt 50,000 đ Đã mua

Cảm biến nhiệt độ độ ẩm Đóng vai trò như 1 cảm biến

25,000 đ Đã mua Động cơ Servo Đóng vai trò như 1 cánh cửa 10,000 đ Đã mua

Adapter 5V Cấp điện cho module IoT và các thiết bị khác(trừ động cơ DC)

Adapter 9V Cấp điện cho động cơ DC 25,000 đ Đã mua

Tổng 201,000 đ Đã mua toàn bộ

Dưới đây là danh sách các chân mà module IoT ESP8266 sử dụng:

● Vin: Cấp nguồn 5V cho module

● GND: Chân đất của module

● D0: Chân điều khiển động cơ Servo

● D1: Điều khiển chân in1 của mạch cầu L298N

● D2: Điều khiển chân in2 của mạch cầu L298N

● D3: Điều khiển chân enA của mạch cầu L298N

● D4: Điều khiển chân R(Red) của LED RGB

● D5: Điều khiển chân G(Green) của LED RGB

● D6: Điều khiển chân B(Blue) của LED RGB

● D7: Đọc giá trị cảm biến nhiệt độ ẩm

Hình 3 Sơ đồ lắp mạch ESP8266

2.1.2 Giải pháp truyền thông(HTTP)

Giao thức HTTP cho phép trợ lý ảo gửi lệnh điều khiển đến ESP8266, hoạt động theo mô hình client-server Ưu điểm của HTTP là khả năng chia các yêu cầu (request) theo các URI và hỗ trợ kèm theo tham số.

HTTP (Hypertext Transfer Protocol) is the foundational protocol of the web, facilitating data transmission between clients and servers RESTful API (Representational State Transfer) is an architectural style that utilizes HTTP for creating, reading, updating, and deleting resources.

● Phương thức HTTP: Các phương thức chính của HTTP như GET, POST,

PUT, DELETE được sử dụng để thực hiện các hành động khác nhau trên tài nguyên. b Cấu trúc URI

● Endpoint: URI (Uniform Resource Identifier) xác định các endpoint mà trợ lý ảo có thể truy cập để thực hiện các hành động cụ thể.

● Tham số và Headers: Sử dụng tham số URL và headers để truyền dữ liệu và thông tin cấu hình giữa client và server.

Giải pháp Phần mềm

2.2.1 Ứng dụng trợ lý ảo trên máy tính

Trợ lý ảo là phần mềm hoặc ứng dụng có khả năng nhận diện và phản hồi lệnh của người dùng bằng ngôn ngữ tự nhiên, thông qua giọng nói hoặc văn bản Chúng có thể thực hiện các nhiệm vụ mà người dùng yêu cầu, giúp tối ưu hóa quy trình làm việc và nâng cao trải nghiệm người dùng.

Việc phát triển ứng dụng trợ lý ảo là một quy trình quan trọng, yêu cầu sự kết hợp giữa công nghệ tiên tiến và thiết kế lấy người dùng làm trung tâm Các khía cạnh cần xem xét trong ứng dụng trợ lý ảo thông minh bao gồm tính năng, trải nghiệm người dùng và khả năng tương tác.

Giao diện người dùng là nơi mà người dùng thực hiện tương tác lên trợ lý ảo. Giao diện người dùng phải đảm bảo các yếu tố sau:

Giao diện thiết kế cần phải trực quan và thân thiện, với cấu trúc đơn giản để người dùng dễ dàng tương tác mà không bị rối rắm hay cảm thấy quá tải.

Để tạo trải nghiệm người dùng mượt mà, ứng dụng cần phản hồi ngay lập tức các thao tác của người dùng Điều này đảm bảo rằng giao diện hoạt động trơn tru, ngay cả khi xử lý các tác vụ phức tạp.

Hệ thống hỗ trợ đa ngôn ngữ, cho phép hoạt động trên các ngôn ngữ khác nhau Trong dự án này, nhóm đã quyết định huấn luyện mô hình để trợ lý ảo có khả năng hoạt động hiệu quả cả trên tiếng Anh và tiếng Việt.

Để cải thiện trải nghiệm tương tác giọng nói, cần thiết kế các nút hoặc biểu tượng cho phép người dùng dễ dàng kích hoạt và tắt micrô Bên cạnh đó, cần có chỉ báo rõ ràng để người dùng biết khi nào ứng dụng đang lắng nghe hoặc xử lý giọng nói.

Dưới đây là các giao diện của hệ thống:

Hình 4 Cửa sổ giao tiếp với trợ lý ảo

Hình 5 Cửa sổ quản lý thiết bị IoT Và ứng dụng

Hình 6 Cửa sổ theo dõi thiết bị IoT

2 Các Mô hình Trí tuệ nhân tạo được sử dụng:

Trong các hệ thống trợ lý ảo, mô hình trí tuệ nhân tạo (AI) đóng vai trò quan trọng trong việc xử lý ngôn ngữ tự nhiên, giúp hiểu ngữ cảnh và thực hiện các hành động phù hợp.

● Nhận diện ý định người dùng:Mô hình BERT để đánh nhãn hành động và thực thể cho từng từ trong câu

● Chuyển đổi giọng nói thành văn bản:Mô hình nhận diện giọng nói tự động.

● Ngoài ra, trợ lý ảo còn sử dụng dịch vụ của ChatGPT để trả lời câu hỏi

Trợ lý ảo có thể thực hiện các chức năng sau đây:

● Điều khiển các thiết bị IoT

○ Đèn RGB(light): bật/tắt đèn, điều chỉnh độ sáng và màu sắc

○ Quạt(fan): bật tắt quạt và điều chỉnh tốc độ

○ Loa: kết nối tới loa và thay đổi âm lượng

○ Cửa: kiểm tra tình trạng cửa, đóng mở cửa

○ Cảm biến: Kiểm tra cảm biến

● Mở các ứng dụng, trang web

● Điều chỉnh độ sáng và âm lượng máy tính

● Trả lời câu hỏi bằng ChatGPT

Hình 7 Sử dụng trợ lý ảo để trả lời câu hỏi

Hình 8 Sử dụng trợ lý ảo để mở ứng dụng

Hình 9 Sử dụng trợ lý ảo để điều khiển các module IoT

Hình 10 Sử dụng trợ lý ảo để mở các trang web mạng xã hội

2.2.2 Chương trình trên module IoT

Chương trình tích hợp module IoT cho phép điều khiển các thiết bị kết nối và nhận yêu cầu từ trợ lý ảo thông qua một Web server.

● Response: Thông tin về r, g, b và độ sáng của đèn

● Mục đích: Chỉnh màu và độ sáng cho đèn, cũng như cho biết thông tin của đèn

● Response: Thông tin về tốc độ quạt

● Mục đích: Chỉnh tốc độ quạt, cũng như thông tin của quạt

● Mục đích:Đóng mở cửa, cũng như cho biết thông tin của cửa

● Response: Thông tin về nhiệt độ độ ẩm đo được từ cảm biến

● Mục đích: Cho biết các chỉ số đo đạt được từ cảm biến

Giao diện Web cho phép điều khiển module IoT trong trường hợp trợ lý ảo không hoạt động Giao diện này sẽ nằm ở trang chủ trang web

Hình 11 Giao diện Web của module IoT

Giải pháp AI

2.3.1 Mô hình nhận diện giọng nói tự động(ASR)

Mô hình nhận diện giọng nói tự động (ASR) có khả năng chuyển đổi âm thanh từ giọng nói thành văn bản hoặc lệnh điều khiển một cách chính xác ASR sử dụng các thuật toán và mô hình học máy để thực hiện quá trình nhận dạng giọng nói Để phát triển mô hình ASR cho trợ lý ảo, nhóm đã tham khảo các mô hình có sẵn trong repo GitHub.

Nhóm LearnedVector/A-Hackers-AI-Voice-Assistant đã mở rộng bộ ký tự và tiến hành huấn luyện mô hình trên tập dữ liệu tiếng Việt, nhằm cải thiện khả năng hoạt động của mô hình trong ngôn ngữ này.

Mô hình Nhận diện giọng nói tự động nhóm sử dụng có cấu trúc như sau:

Hình 12 Sơ đồ mô hình ASR

Mô hình gồm các thành phần sau:

1 Text Process(Xử lý văn bản):Text Process có chức năng chuyển đổi qua lại giữa các kí tự và chỉ số theo bảng sau:

Kí tự ‘ a b c d e f g h i j k l m n o p q r Chỉ số 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

Kí tự ‘ a b c d e f g h i j k l m n o p q r Chỉ số 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

Việc chuyển đổi giữa các kí tự và chỉ số có 2 mục đích sau:

● Chuyển đổi phần văn bản phiên âm thành các thành ma trận chỉ mục phục vụ việc huấn luyện

● Chuyển đổi đầu ra là ma trận chỉ mục của mô hình thành văn bản

2 Log-Mel Spectrogram Transform(Biến đổi tín hiệu âm thanh thành phổ Log-Mel):

Phổ log-mel là một biểu diễn âm thanh quan trọng, thường được áp dụng trong nhận dạng giọng nói, phân loại nhạc và các nhiệm vụ liên quan đến âm thanh Bằng cách kết hợp phép biến đổi Mel và phép biến đổi logarithm, phổ log-mel nâng cao hiệu quả trong việc phân tích và xử lý tín hiệu âm thanh.

Mô hình sử dụng đầu vào là phổ Log-Mel để nhận diện và chuyển đổi tín hiệu thành ma trận xác suất của các ký tự Bài viết này sẽ phân tích chi tiết từng phần của mô hình.

Convolutional Neural Networks (CNNs) là một công cụ mạnh mẽ trong việc trích xuất các đặc trưng không gian từ dữ liệu đầu vào Trong mô hình này, CNN đóng vai trò quan trọng trong việc rút ra các đặc trưng từ biểu đồ Log-Mel Spectrogram, giúp cải thiện độ chính xác trong phân tích dữ liệu âm thanh.

Các lớp Dense đóng vai trò quan trọng trong việc xử lý dữ liệu sau khi đã trích xuất các đặc trưng bằng CNN Những lớp này kết nối các đặc trưng đã được trích xuất và xử lý chúng theo một cấu trúc có tổ chức, giúp tăng cường khả năng nhận diện với nhiều đặc trưng hơn.

LSTM, hay mạng hồi tiếp dài ngắn (Long Short-Term Memory), là một loại mạng nơ-ron hồi tiếp đặc biệt, có khả năng xử lý và ghi nhớ thông tin qua các bước thời gian dài Mô hình LSTM rất hiệu quả trong việc xử lý chuỗi thời gian của các đặc trưng âm thanh.

Các Thành phần Cuối cùng

● Layer Normalization, hàm kích hoạt GELU và Dropout: Nó giúp chuẩn hóa giá trị, ổn định quá trình huấn luyện và giảm overfitting đầu ra của LSTM.

Lớp nn.Linear là lớp fully connected cuối cùng, có nhiệm vụ chuyển đổi đầu ra của LSTM thành một vector dự đoán Kích thước của vector này tương ứng với số lượng lớp đầu ra, tức là số ký tự đã được định nghĩa.

● Hàm softmax:chuyển đổi đẩu ra thành xác suất xuất hiện ký tự

4 GreedyDecoder(Giải mã bằng thuật toán tham lam)

Sử dụng chiến lược tham lam (greedy) để giải mã chuỗi số từ đầu ra của mạng, trong đó đầu ra là các xác suất Hàm arg_max được áp dụng để lấy chỉ số có xác suất cao nhất tại mỗi bước thời gian Các chỉ số này sau đó được chuyển đổi thành văn bản thông qua TextProcess Ví dụ, nếu chuỗi đầu ra là “bậậật đđèènn”, thì khi áp dụng GreedyDecoder, ta sẽ thu được chuỗi “bật đèn”.

5 Hàm mất mát CTC loss

CTC loss (Hàm mất mát phân loại tạm thời kết nối) là một hàm mất mát quan trọng trong các mô hình nhận dạng chuỗi, chẳng hạn như nhận dạng giọng nói và ký tự Hàm CTC cho phép các mô hình học từ các chuỗi đầu vào không có sự đồng bộ rõ ràng, như chuỗi biểu đồ Mel-Spectrogram kết hợp với các chuỗi ký tự.

Các bước thực hiện tính CTC loss:

1 Chuẩn bị chuỗi đầu ra

Chuỗi đầu ra là kết quả của mô hình sau khi áp dụng hàm softmax, phản ánh xác suất xuất hiện của các ký tự trong đoạn âm thanh ban đầu theo thời gian.

2 Xác định tất cả các chuỗi có thể ánh xạ:

● CTC cho phép các dự đoán có thể bao gồm các ký tự "blank" (ký tự trống) để xử lý các khoảng trống giữa các ký tự thực sự.

Để xác định tất cả các cách mà chuỗi đầu vào có thể ánh xạ tới chuỗi đầu ra, cần sử dụng các ký tự "blank" và các ký tự trùng lặp Việc này giúp phân tích và tìm ra các phương thức kết hợp khác nhau giữa các ký tự, từ đó tạo ra các cấu trúc chuỗi đầu ra đa dạng.

Ví dụ: Giả sử nhãn của kết quả là y=“AB” thì các chuỗi sau đây có thể ánh xạ đến nhãn: “∅A∅B∅”, “∅AB∅∅”, “∅A∅BB”, “A∅∅ ∅B ”,

3 Tính xác suất cho các chuỗi ánh xạ:

● Tính xác suất cho từng chuỗi ánh xạ dựa trên các xác suất của các ký tự tại mỗi bước thời gian đầu vào:

● Tổng hợp các xác suất của tất cả các chuỗi ánh xạ hợp lệ để tính xác suất của chuỗi đầu ra mục tiêu:

Vớiβ −1 (𝑦)là tập hợp tất cả các chuỗi mở rộng π có thể ánh xạ đến y.

● Tính toán CTC Loss bằng cách lấy giá trị âm từ logarit tự nhiên của tổng hợp xác suất Công thức của CTC Loss là:

Bộ dữ liệu huấn luyện cho mô hình nhận diện giọng nói tự động bao gồm tín hiệu rời rạc từ giọng nói tiếng Việt, được thu thập từ ba nguồn khác nhau.

Bộ dữ liệu bao gồm khoảng 600 mẫu ghi âm trực tiếp từ các thành viên trong nhóm, chủ yếu chứa các câu lệnh bằng tiếng Việt Những mẫu này có sử dụng các danh từ đặc biệt để chỉ các nền tảng như Youtube, Facebook và các con số kèm theo ký hiệu phần trăm.

Bộ dữ liệu mozilla-foundation/common-voice cho tiếng Việt chứa khoảng 11.000 mẫu thu âm, được thu thập từ nhiều người khác nhau Dữ liệu này chủ yếu bao gồm các câu lệnh bằng tiếng Việt, không có từ tiếng Anh hay con số, giúp phục vụ cho các nghiên cứu và phát triển công nghệ xử lý ngôn ngữ tự nhiên.

TRIỂN KHAI VÀ ĐÁNH GIÁ KẾT QUẢ

Kết quả mô hình

3.1.1 Mô hình nhận diện giọng nói tự động(ASR)

Mô hình đạt được tỷ lệ lỗi từ (WER) trung bình khoảng 0.6, nhưng chỉ hoạt động hiệu quả trên các câu lệnh thuần tiếng Việt Nó không thể xử lý tốt các ký tự chữ số và phần trăm.

Hình 31 WER trong quá trình huấn luyện

Hình 32 Dự đoán đúng từ ASR Hình 33 Các dự đoán sai từ ASR

3.1.2 Mô hình nhận diện ý định người dùng

Mô hình nhận diện người dùng đạt độ chính xác cao trên tập dữ liệu được huấn luyện khi đo đạt trên số từ chính xác:

● Entity Precision(Độ chính xác đối tượng): 92%

● Entity Recall(Độ nhạy đối tượng): 85%

● Intent Precision(Độ chính xác hành động): 87.5%

● Intent Recall(Độ nhạy hành động): 75%

Khi phân tích từ góc độ dự đoán thực tế, mô hình vẫn thể hiện sự nhầm lẫn giữa các hành động và thực thể Dưới đây là ma trận nhầm lẫn cho các đối tượng và hành động, được tính toán dựa trên 10 mẫu dữ liệu cho mỗi hành động.

Hình 34 Ma trận nhầm lẫn của đối tượng

Hình 35 Ma trận nhầm lẫn với 1 số hành động

Triển khai phần cứng

Dưới đây là phần cứng mà nhóm đã triển khai để mô phỏng các thiết bị Iot

Hình 36 Lắp đặt phần cứng

Ứng dụng trợ lý ảo

Ứng dụng đã hoàn thành nhiều tính năng theo kế hoạch, nhưng một số tính năng vẫn chưa được triển khai do hạn chế về khả năng thực hiện hoặc mức độ an toàn không đảm bảo, chẳng hạn như việc tắt trang web hoặc tắt ứng dụng.

Mô hình hiện tại có khả năng nhận diện ý định của người dùng một cách hiệu quả, nhưng vẫn tồn tại một số hành động mà chúng chưa thể nhận diện và thực hiện chính xác.

Trải nghiệm người dùng là yếu tố quan trọng, tuy ứng dụng có khả năng thực hiện các chức năng cần thiết, nhưng giao diện lại thiếu thẩm mỹ và phức tạp, điều này dễ làm người dùng cảm thấy khó chịu.

Trợ lý ảo có khả năng hoạt động hiệu quả trên các máy tính có cấu hình trung bình thấp, yêu cầu tối thiểu 2.5 GB RAM để vận hành tốt Thời gian tải mô hình phụ thuộc vào tốc độ CPU, thường mất từ 3 đến 5 phút để sẵn sàng sử dụng.

Ngày đăng: 02/12/2024, 15:56

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN