1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Kỹ thuật viễn thông: Ứng dụng máy học nhận dạng thông tin cờ hiệu phất tay

118 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

NGUYỄN VĂN HIẾU

ỨNG DỤNG MÁY HỌC NHẬN DẠNG THÔNG TIN CỜ HIỆU PHẤT TAY

LUẬN VĂN THẠC SĨ

TP HỒ CHÍ MINH, tháng 01 năm 2023

Trang 2

Cán bộ hướng dẫn khoa học : PGS TS Hà Hoàng Kha

2 Ủy viên: PGS TS Đỗ Hồng Tuấn

3 Thư ký: PGS TS Võ Nguyễn Quốc Bảo 4 Phản biện 1: TS Võ Tuấn Kiệt

5 Phản biện 2: TS Huỳnh Thế Thiện

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa

CHỦ TỊCH HỘI ĐỒNG

GS TS Lê Tiến Thường

TRƯỞNG KHOA ĐIỆN –ĐIỆN TỬ

Trang 3

NHIỆM VỤ LUẬN VĂN THẠC SĨ

1 Họ tên học viên: Nguyễn Văn Hiếu MSHV:1970278 2 Ngày, tháng, năm sinh: 02/03/1992 Nơi sinh: Hà Tĩnh 3 Chuyên ngành: Kỹ thuật Viễn thông Mã số : 8520208 4 TÊN ĐỀ TÀI

 Ứng dụng máy học nhận dạng thông tin cờ hiệu phất tay

 Signal recognition of hand waving flags by machine learning 5 NHIỆM VỤ VÀ NỘI DUNG:

 Nghiên cứu mô hình truyền tin sử dụng cờ hiệu phất tay

 Nghiên cứu giải pháp máy học và thị giác máy tính cho thuật toán nhận dạng thông tin của cờ hiệu phất tay

 Xây dựng chương trình nhận dạng thông tin từ cờ hiệu phất tay và đánh giá kết quả của mô hình

6 NGÀY GIAO NHIỆM VỤ : 05/09/2022

7 NGÀY HOÀN THÀNH NHIỆM VỤ : 25/12/2022 8 CÁN BỘ HƯỚNG DẪN : PGS.TS Hà Hoàng Kha

9 PHẦN HƯỚNG DẪN : Toàn bộ nội dung và yêu của LVTN đã được thông qua bộ môn

Tp HCM, ngày tháng … năm 2023

CÁN BỘ HƯỚNG DẪN

PGS TS Hà Hoàng Kha

CHỦ NHIỆM BỘ MÔN VIỄN THÔNG

TRƯỞNG KHOA ĐIỆN – ĐIỆN TỬ

Trang 4

giáo PGS TS Hà Hoàng Kha, người thầy đã tận tình hướng dẫn và giúp đỡ em trong quá trình hoàn thành luận văn thạc sĩ Em xin gửi lời cảm ơn quý thầy, cô giáo trong khoa Điện - Điện tử, trường Đại học Bách khoa Thành phố Hồ Chí Minh đã hướng dẫn và cho em những kiến thức chuyên ngành phong phú và có tính ứng dụng cao, làm nền tảng kiến thức cho em thực hiện luận văn này Em cũng xin gửi lời cảm ơn sâu sắc đến quý thầy, cô giáo trường Đại học Bách khoa Thành phố Hồ Chí Minh đã giúp đỡ, tọa điều kiện cho em trong quá trình học tập và nghiên cứu tại trường

Em xin cảm ơn Ban lãnh đạo Trường Đại học Đại học Bách khoa Thành phố Hồ Chí Minh, cũng như các phòng ban của nhà trường đã tạo điều kiện, cơ sở vật chất để em có cơ hội và môi trường tốt nhất học tập và nghiên cứu

Về kiến thức và khả năng lý luận, bản thân đã nỗ lực cố gắng hoàn thiện, tuy nhiên trong quá trình thực hiện luận văn vẫn còn những thiếu sót nhất định Em rất mong nhận được những đóng góp của quý thầy giáo, cô giáo, bạn bè để luận văn thạc sĩ của em được hoàn thiện hơn

Em xin chân thành cảm ơn gia đình luôn bên cạnh và động viên trong suốt quá trình thực hiện luận văn, bạn học khóa 2019, 2020 khoa Điện – Điện tử đã trao đổi và hỗ trợ em trong suốt quá trình học tập và nghiên cứu

Cuối cùng, em xin kính chúc quý thầy cô giáo, Ban lãnh đạo và các phòng ban trường Đại học Bách khoa Thành phố Hồ Chí Minh dồi dào sức khỏe, hạnh phúc và thành công trong sự nghiệp

Em xin chân thành cảm ơn!

Thành phố Hồ Chí Minh, tháng 01 năm 2023

Nguyễn Văn Hiếu

Trang 5

TÓM TẮT LUẬN VĂN

Thông tin liên lạc có vai trò rất quan trọng trong đời sống hàng ngày, có nhiều phương thức truyền thông tin như thông tin cơ bản, thông tin hữu tuyến, thông tin vô tuyến Trong những phương thức truyền thông tin đó, có phương pháp truyền thông tin cờ hiệu phất tay, là một phương pháp truyền thông tin cơ bản, ngày nay phương pháp này vẫn được sử dụng để truyền thông tin giữa các tàu trên biển, giữa tàu và cảng biển Tuy nhiên tốc độ và khoảng cách truyền thông tin của phương pháp này không cao Khoa học công nghệ ngày càng phát triển mạnh mẽ, cùng với cuộc cách mạng công nghệ lần thứ 4, trí tuệ nhân tạo được ứng dụng mạnh mẽ vào nhiều lĩnh vực Máy học được sử dụng để giải quyết những bài toán trước đây rất khó để giải

Từ những thực tiễn như trên, luận văn thực hiện nghiên cứu phương pháp ứng dụng máy học, nhận dạng thông tin trong truyền thông tin cờ hiệu vẫy tay Trong quá trình nghiên cứu luận văn đã khảo sát các mô hình máy học được đã được công bố, của các công trình nghiên cứu trên thế giới như Resnet, Mobilenet Sau khi khảo sát, đánh giá luận văn thực hiện xây dựng một mô hình máy học phù hợp với yêu cầu nhận dạng các ký tự trong bảng chữ cái, đoạn văn bản được truyền bằng phương pháp cờ hiệu phất tay Thực nghiệm sản phẩm của luận văn được xây dựng bằng ngôn ngữ lập trình python, chạy trên máy tính Sau đó đánh giá kết quả thực nghiệm làm cơ sở cho đánh gía tính hiệu quả của thiết kế

Trang 6

ABSTRACT

Communication plays an important role in daily life There are various methods of transmitting information such as basic communication, wired communication, wireless communication Among those communication methods, there is a method of transmitting information by waving flags, which is a traditional method of information transmission, and today this method is still used to transmit information between ships on sea, between ships and seaports However, the speed and distance of this method is not high Science and technology is developing rapidly, along with the 4th technological revolution, artificial intelligence is applied in many fields Machine learning is used to solve problems that were previously difficult to solve

In this situation, the thesis conducts research on methods of a machine learning application and information recognition in hand-waving flags During the research process, the thesis has surveyed the published machine learning models of research works in the world such as Resnet, Mobilenet After surveying and evaluating the system performance, the thesis will build a machine learning model suitable for the requirements of recognizing characters in the alphabet, the text in which it is transmitted by the method of waving flags Experimental product of the thesis is built in python programming language, running on computer Then thesis analyzes the experimental results as the basis for evaluating the effectiveness of the design

Trang 7

LỜI CAM ĐOAN CỦA TÁC GIẢ

Tôi xin cam đoan công trình nghiên cứu khoa học độc lập này là của riêng tôi Thống kê, số liệu được sử dụng trong luận văn đã được công bố theo đúng quy định, có nguồn gốc rõ ràng Những kết quả nghiên cứu trong luận văn do tôi tự tìm hiểu, phân tích, thực nghiệm, khách quan, phù hợp với thực tiễn của Việt Nam Kết quả nghiên cứu này chưa từng được công bố trong bất kỳ nghiên cứu nào

Học viên

Nguyễn Văn Hiếu

Trang 8

1.1.1 Xu hướng ứng dụng trí tuệ nhân tạo trong các lĩnh vực hiện nay 1

1.1.2 Thực trạng sử dụng cờ hiệu phất tay hiện nay 5

1.2 Lý do chọn đề tài 6

1.3 Mục tiêu và nhiệm vụ nghiên cứu 7

1.4 Đối tượng và phạm vi nghiên cứu 8

1.4.1 Đối tượng nghiên cứu 8

1.4.2 Phạm vi nghiên cứu 8

1.5 Ý nghĩa khoa học và thực tiễn của đề tài 8

1.5.1 Ý nghĩa khoa học 8

1.5.2 Ý nghĩa thực tiễn 9

1.6 Phương pháp nghiên cứu 9

1.7 Cấu trúc luận văn 10

CHƯƠNG 2 THÔNG TIN CỜ HIỆU PHẤT TAY VÀ LÝ THUYẾT MÁY HỌC 11

2.1 Thông tin cờ hiệu phất tay 11

2.1.1 Tư thế người phát 11

2.1.2 Phương pháp truyền tin tức 16

Trang 9

3.2.2 Xác định tọa độ các điểm mang thông tin 63

3.2.3 Xây dựng model neural network 71

Trang 11

DANH MỤC HÌNH ẢNH

Hình 1.1 Ước lượng giá trị thu được từ AI vào năm 2030 của các khu vực trên thế giới

[3] 2

Hình 1.2 Ứng dụng trí tuệ nhân tạo trong một số lĩnh vực [4] 3

Hình 1.3 Hình ảnh minh họa cho các thiết bị robot và drone sử dụng trí tuệ nhân tạo trong tác chiến [7] 3

Hình 1.4 Một AUV tấn công tàu hải quân; (a) khi UAV tiếp cận gần tàu, (b) Khi UAV tấn công vào tàu 4

Hình 1.5 Thủy thủ tàu 265 Hải quân Việt Nam đánh tín hiệu bằng cờ tay thực hiện thủ tục chào (Hello ASEAN) và trao đổi thông tin với biên đội tàu Hải quân Thái Lan [14] 6

Hình 2.1 Cờ tay được sử dụng khi truyền thông tin 12

Hình 2.2 Vị trí tay người phát tin có thể được sử dụng 12

Hình 2.3 Thứ tự động tác khi phát tín hiệu chữ “HOA” 17

Hình 2.4 Ví dụ về một ảnh nhị phân đơn giản 20

Hình 2.5 Ví dụ về một ảnh đen trắng 20

Hình 2.6 Ví dụ về một ảnh màu 22

Hình 2.7 Mô phỏng tập dữ liệu có 2 loại nằm về 2 phía của đường thẳng 31

Hình 2.8 Mô phỏng một neural network với 5 input, 4 node trong hidden layer và 2 node ở output layer 32

Hình 2.9 Sự thay đổi của độ chính xác phụ thuộc vào số lượng dữ liệu 33

Hình 2.10 Kiến trúc một neural network cơ bản với 5 node đầu vào và 1 node ở đầu ra mà không có hidden layer 34

Hình 2.11 Cấu trúc Multilayer Neural Networks không có bias 37

Hình 2.12 Cấu trúc Multilayer Neural Networks có bias 38

Hình 2.13 Kích thước của weights qua từng hidden layers 39

Hình 2.14 Phân loại 2 lớp dữ liệu hình sao và vuông 40

Hình 2.15 Dữ liệu hình sao và vuông có thể được phân chia bằng nhiều đường thẳng khác nhau 42

Trang 12

Hình 2.16 Khoảng cách một điểm dữ liệu bất kỳ đến đường phân chia 43

Hình 2.17 Giá trị soft margin của 2 tập dữ liệu ngôi sao và hình vuông 45

Hình 2.18 Sự khác nhau của dữ liệu trong không gian 2 chiều(a) và 3 chiều(b) [27] 47

Hình 2.19 Vị trí các điểm thuộc các lớp ứng với điểm score [24] 50

Hình 3.1 Một kết nối cơ bản trong mạng Resnet 55

Hình 3.2 Kiến trúc của mô hình Resnet152 55

Hình 3.3 Tổng hợp thông tin cấu trúc, số params mô hình resnet50 sử dụng 56Hình 3.4 Độ chính xác và sai lệch của mô hình Resnet50 với epochs = 10 56

Hình 3.5 Độ phức tạp của các phép tính trong Convolution (a) và DSC (b,c) 58

Hình 3.6 Độ chính xác và sai lệch của mô hình Mobilenet_V2 60

Hình 3.10 Mô phỏng dự đoán vị trí khuôn mặt và 2 điểm chính [37] 67

Hình 3.11 Cấu trúc của phần phát hiện tọa độ các điểm mang thông tin trên khung xương người trong ảnh 68

Hình 3.12 Tư thế mang thông tin khác nhau của 2 cánh tay 69

Hình 3.13 Ví dụ về một hình ảnh được điều chỉnh gốc tọa độ 70

Hình 3.14 Tư thế của người phát tin tương ứng với các ký tự trong bảng chữ cái 71

Hình 3.15 Mô phỏng vị trí các tọa độ của 1 lớp dữ liệu trong tập test, 72

Hình 3.16 Ví dụ về số node trong mỗi hidden layer với số node output khác nhau 73

Hình 3.17 Cấu trúc và thông tin model nhận dạng ký tự trong bảng chữ cái 74

Hình 3.18 Tăng cường dữ liệu cho điểm có id 12 75Hình 3.19 Độ chính xác và giá trị hàm loss của model khi training với epochs

Trang 13

= 5 77

Hình 3.20 Độ chính xác và giá trị hàm loss của model khi training với epochs = 20 77

Hình 3.21 Độ chính xác của các lớp dữ liệu trong tập test, epoch = 20 78

Hình 3.22 Độ chính xác và giá trị hàm loss của model khi training với epochs = 50 79

Hình 3.23 Độ chính xác dự đoán của model đối với tập dữ liệu kiểm thử 81

Hình 3.24 Mô phỏng dữ liệu của 2 lớp trong tập test 82

Hình 3.25 Độ chính xác các lớp dữ liệu trong tập test model SVM 85

Hình 3.26 Hình ảnh được chọn ngẫu nhiên đưa vào hệ thống nhận dạng 86

Hình 4.1 Lưu đồ hệ thống nhận dạng bảng điện trong thông tin cờ hiệu phất tay 89

Hình 4.2 Lưu đồ xử lý hệ thống nhận dạng đoạn văn bản 91

Hình 4.3 Giao diện phần mềm nhận dạng đoạn văn bản thông tin cờ hiện phất tay 94

Trang 14

DANH MỤC BẢNG BIỂU

Bảng 2.1 Tư thế phát tương ứng ký tự alphabet 12

Bảng 2.2 Các ký tự phiên âm tiếng việt 18

Bảng 2.3 Một số hàm thông kernel thông dụng trong thư viện sklearn 49

Bảng 3.1 Bảng Confusion của mô hình Resnet50 với epochs = 10 57

Bảng 3.2 Bảng Confusion của mô hình MobilenetV2 của tập dữ liệu kiểm thử 60Bảng 3.3 ID và ý nghĩa của vị trí trong kết quả trả về của thư viện mediapipe 67

Bảng 3.4 Tọa độ các điểm trên hình 3.14 có giá trị được chuẩn hóa từ 0 đến 1 70

Bảng 3.5 Tọa độ mới của các điểm trên hình 3.13 71

Bảng 3.6 Các lớp dữ liệu đầu ra tương ứng với ký tự 75

Bảng 3.7 Giá trị confusion matrix của dữ liệu trong tập test mô hình Neural Network 79

Bảng 3.8 Giá trị confusion matrix của dữ liệu trong tập test mô hình SVM 83

Bảng 3.9 Tổng hợp độ chính xác của 2 model neural network và SVM 85

Trang 15

DANH MỤC CÁC TỪ VIẾT TẮT

Ký hiệu

Ý nghĩa

ANN Artificial Neural Networks Mạng neural nhân tạo

AI Artificial Intelligence Trí tuệ nhân tạo AUV Autonomous Underwater

Vehicle

Robot ngầm tự hành

BNN Biological Neural Network Mạng neural sinh học

CNN Convolutional neural network Mạng neural tích chập CV Computer Vision Thị giác máy tính

DNN Deep Neural Network Mạng học sâu DSC Depthwise Separable

Hội kỹ sư điện và điện tử

NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên

SVM Support Vector Machine Máy véc-tơ hỗ trợ

UAV Unmanned Aerial Vehicle Phương tiện bay không người lái

Trang 16

CHƯƠNG 1 MỞ ĐẦU

Chương 1 giới thiệu một cách nhìn tổng thể về sự phát triển của trí tuệ nhân tạo, thông tin cờ hiệu phất tay, những khảo sát làm cơ sở cho việc nghiên cứu của đề tài Tác giả làm rõ vị trí vai trò và tính cấp thiết trong nâng cao hiệu suất thông tin cờ hiệu phất tay, từ những thực trạng trên trình bày lý do lựa chọn đề tài nghiên cứu Tiếp theo trong chương là phần đối tượng và và phạm vi nghiên cứu, cũng như mục đích nghiên cứu của đề tài Trong phần cuối Chương, tác giả trình bày những đóng góp và phương pháp nghiên cứu của đề tài

1.1 Tính cấp thiết

1.1.1 Xu hướng ứng dụng trí tuệ nhân tạo trong các lĩnh vực hiện nay

Khoa học công nghệ ngày càng phát triển, trong đó có ngành công nghệ thông tin với nhiều thành tựu khoa học và tính ứng dụng rất cao trong đời sống con người Một số bài toán có tính phức tạp rất cao và không có tính logic thống nhất và rõ ràng, gây rất nhiều khó khăn cho việc lập trình một chương trình theo logic, chính vì điều đó công nghệ trí tuệ nhân tạo AI (Artificial Intelligence) ra đời để giải quyết những bài toán như vậy

AI là một kỹ thuật cho phép máy tính có thể thu thập thông tin, dữ liệu từ một tập dữ liệu ban đầu, sau đó thực hiện suy luận tương tự như con người Allen Newell và Herbert Simon là những người tiên phong, đặt nền móng đầu tiên cho trí tuệ nhân tạo vào những năm 1950 tại trường đại học Carnegie Mellon [1] Khái niệm này lần đầu tiên xuất hiện trong một hội nghị vào năm 1956 [2]

Trong thời gian đầu phát triển AI, có rất nhiều khái niệm mang tính mô hình, và rất trì tượng, để máy tính có thể học được những khái niệm mang tính trừu tượng trong thực tế, một khái niệm thu hẹp hơn AI là Máy học (Machine Learning) được ra đời vào những năm 1980 Nối tiếp sự phát triển của máy học trong đó có một hướng nghiên cứu về mạng neural (Neural Network) mang lại một số thành tựu quan trong, mạng neural ngày càng được phát triển và quá trình học của máy tính được cải thiện

Trang 17

Trong đó có kỹ thuật mạng nơ ron học sâu DNN (Deep Neural Network) xử lý các bài toán về lĩnh vực về robot, ngôn ngữ tự nhiên (NLP) và thị giác máy tính CV (Computer Vision) đạt được những kết quả rất cao

Hình 1.1 Ước lượng giá trị thu được từ AI vào năm 2030 của các khu vực trên thế giới [3]

Trên Hình 1.1 chúng ta thấy rõ giá trị của ngành trí tuệ nhân tạo ngày càng lớn, trong đó các nước lớn như Trung quốc đang chiếm tỷ lệ rất lớn so với phần còn lại của thế giới, theo sau đó là các nước Bắc Mỹ và Châu Âu Châu Á đang chiếm một phần tương đối nhỏ, cho thấy tiềm năng của trí tuệ nhân tạo ở khu vực Châu Á là rất lớn

Tại Việt Nam trong thời gian hơn 30 năm đổi mới, đất nước có nhiều chuyển biến, trở thành một nền kinh tế có tính hội nhập cao Trong sự phát triển mạnh mẽ của cuộc cách mạng công nghiệp 4.0, chính phủ có nhiều chủ trương trong ứng dụng khoa học công nghệ cao vào các lĩnh vực kỹ thuật, kinh tế…v.v được cụ thể hóa bằng

quyết định số “38/2020/QĐ-TTg Danh mục công nghệ cao được ưu tiên đầu tư phát

triển Thủ tướng Chính phủ đã ký, ngày 30/12/2020”, trong quyết định này thể hiện

trí tuệ nhân tạo nằm trong danh mục được ưu tiên đầu tư, phát triển đầu tiên Cùng với chủ trương của chính phủ các ngành cũng có những ứng dụng mạnh mẽ trong các lĩnh vực như kinh tế, y tế, sản xuất, bất động sản, giải trí [4] [5]

Trong lĩnh vực khoa học quân sự trí tuệ nhân tạo cũng là một mũi nhọn trong các chiến lược phát triển vũ khí trang bị ngày này Những cường quốc về khoa học quân sự như Mỹ, NATO, Trung Quốc, Nga đang phát triển mạnh mẽ về trí tuệ nhân

Trang 18

tạo, trong đó Trung Quốc đang là quốc gia có sự ứng dụng mạnh mẽ nhất trí tuệ nhân tạo trong lĩnh vực khoa học quân sự Trong chính sách quốc phòng của Mỹ có một báo cáo 750 trang về sự phát triển trí tuệ nhân tạo trong lĩnh vực khoa học quân sự, nhằm cân bằng sự phát triển của Trung quốc trong lĩnh vực này [6]

Hình 1.2 Ứng dụng trí tuệ nhân tạo trong một số lĩnh vực [4]

Một số cuộc chiến tranh diễn ra gần đây như chiến tranh Vùng Vịnh, chiến tranh Kosovo và chiến tranh Afghanistan, cho thấy các loại vũ được sử dụng trong các cuộc chiến tranh này như robot, máy bay không người lái (UAV), thiết bị không người lái dưới nước (AUV), có trang bị trí tuệ nhân tạo được sử dụng ngày càng nhiều Những trang bị này đã khẳng định được vị trí, vai trò và tính hiệu quả của nó được thể hiện trong tác chiến [7]

Hình 1.3 Hình ảnh minh họa cho các thiết bị robot và drone sử dụng trí tuệ nhân tạo trong tác chiến [7]

Trang 19

Hình 1.4 Một AUV tấn công tàu hải quân; (a) khi UAV tiếp cận gần tàu, (b) Khi UAV tấn công vào tàu

Nguồn ảnh được cắt ra từ video trên mạng xã hội Youtube [8]

Trên Hình 1.4 cho thấy được một thiết bị máy bay không người lái tấn công tự sát vào một tàu hải quân Chi phí sản xuất một thiết bị AUV là thấp hơn rất nhiều so với sự tàn phá của nó cho đối phương

Thị giác máy tính (Computer Vision) là một phần trong trí tuệ nhân tạo, trong đó máy tính, hệ thống thực hiện lấy những thông tin mang tính đặc trưng từ ảnh, video và các thiết bị trực quan khác, sau đó đưa ra những nhận định hoặc gợi ý về những dữ liệu được nhận từ ngõ vào Tổng hợp một số công trình nghiên cứu trong lĩnh vực máy học và thị giác máy tính

 Một thuật toán Local Binary Pattern Histogram (LBPH) giải quyết bài toán nhận dạng khuôn mặt dưới những điều kiện khác nhau như ánh sáng, nét mặt, biểu cảm của khách hàng, kết hợp với kiến trúc cơ bản Convolution Neural Network (CNN) chống sự giả mạo Từ sự kết hợp trên tạo nên module eKYC (Electronic Know Your Customer) cho hệ thống nhận dạng và chống giả mạo [9]

 Những hành động của con người như cử chỉ, hay động tác di chuyển sẽ tương ứng với sự chuyển động trên khung xương, bằng việc biểu diễn vị trí tọa độ của một số điểm trên khung xương dưới dạng ma trận và sử dụng mạng CNN nhằm phát hiện động tác cơ bản của con người [10]

Trang 20

Hầu hết con người giao tiếp với nhau bằng giọng nói, tuy nhiên trong thực tế có nhiều người khiếm khuyết, người câm, người khiếm thính không có khả năng giao tiếp bằng giọng nói, phương pháp giao tiếp của họ là bằng ngôn ngữ ký hiệu Hệ thống giúp hỗ trợ việc dịch những ngôn ngữ ký hiệu của người khiếm thính và người câm bằng sự kết hợp của mô hình CNN và Single Shot multi-box Detector (SSD) sử dụng cho phát hiện cử chỉ [11]

 Trong lĩnh vực quân sự, việc phát hiện đối tượng và phân loại đánh giá mức độ đe dọa của tường đối tượng rất quan trọng Bằng cách kết hợp việc xử lý hình ảnh như tăng cường ảnh, triệt nhiễu đối tượng, phát hiện cạnh viền đối tượng, làm nổi bật đối tượng từ đó sử dụng phương pháp tìm kiếm nhanh đối tượng Thuật toán có thể được kiểm nghiệm với việc phát hiện nhanh các đối tượng quân sự [12]

1.1.2 Thực trạng sử dụng cờ hiệu phất tay hiện nay

Truyền tin thị giác là một hình thức truyền thông tin đơn giản, bằng cách quan sát đối tượng phát tin, phương pháp truyền tin này gồm những hình thức như truyền tin cờ hiệu hàng hải, truyền tin đèn hiệu, truyền tin bằng gương hiệu và truyền tin bằng cờ hiệu phất tay (Semaphore Flags), những hình thức truyền tin này có sự ra đời trước điện tín, vô tuyến điện Cờ hiệu phất tay là một hình thức trong truyền tin thị giác, hình thức truyền tin này có tốc độ nhanh hơn so với những hình thức như người đưa tin, tuy nhiên chúng bị hạn chế bởi những vấn đề về địa hình che khuất Ngày nay phương pháp truyền tin này sử dụng 2 người ở 2 đầu phát tin và thu tin, mỗi người sẽ sử dụng việc thay đổi vị trí của 2 lá cờ đang giữ để truyền thông tin [13] Phương pháp truyền tin cụ thể sẽ được tác giả trình bày ở Chương 2 của đề tài này

Trong lĩnh vực hàng hải cờ hiệu vẫn đang được sử dụng rất nhiều, khi một tàu quốc tế đi vào một vùng biển của một quốc gia bất kỳ sẽ phải treo cờ hiệu quốc tế và cờ hiệu của quốc gia sẽ vào vùng lãnh hải Tại Việt Nam chính phủ đã ban hành nghị định về quy định việc treo cờ hiệu hàng hải, khi tàu nước ngoài vào vùng lãnh hải của Việt Nam phải treo cờ Quốc kỳ của Việt Nam, tương tự như vậy khi tàu buôn của

Trang 21

Việt Nam vào vùng lãnh hải của các nước khi được sự cho phép của chính quyền, nội

dung này được quy định cụ thể tại “Nghị định 58/2017/NĐ-CP, hướng dẫn Bộ luật

Hàng hải Việt Nam về quản lý hoạt động hàng hải (có hiệu lực từ ngày 01/07/2017)”

Cờ hiệu phất tay vẫn được sử dụng khi tàu ra vào cảng, hay trao đổi thông tin khi tàu gặp nhau trên biển, trao đổi các phương thức liên lạc

Hình 1.5 Thủy thủ tàu 265 Hải quân Việt Nam đánh tín hiệu bằng cờ tay thực hiện thủ tục chào (Hello ASEAN) và trao đổi thông tin với biên đội tàu Hải quân Thái Lan [14]

Nhằm mục đích nâng cao hiệu quả của quá trình truyền cờ hiệu phất tay, Hải quân Việt Nam thường tổ chức các cuộc thi truyền thông tin bằng cờ hiệu phất tay, những cuộc thi này được tổ chức hằng năm [15]

Một hệ thống giải mã thông tin cờ hiệu phất tay bằng các phương pháp xử lý hình ảnh, tính khoảng cách Euclidean của 2 lá cờ, từ đó nhận định ký tự Nghiên cứu được thực hiện với tập dữ liệu được thu thập với điều kiện khoảng cách của máy ghi hình và người phát trong khoảng 3,5m đến 5m [16]

1.2 Lý do chọn đề tài

Trong sự phát triển ngày càng mạnh mẽ của khoa học và công nghệ, những thành tựu về công nghệ trí tuệ nhân tạo được trình bày tổng quan ở Phần 1.1 Cùng với sự phát triển nhanh của phần cứng máy tính và camera, cho phép máy tính có thể thông qua camera thu nhận được những hình ảnh rõ nét ở cự ly hàng trăm mét Thực

Trang 22

trạng phương pháp thông tin liên lạc bằng cờ hiệu phất tay hiện nay được thực hiện chủ yếu bằng thủ công, con người tự giải mã những nội dung hình ảnh mang tin tức Ngoài ra việc nâng cao hiệu quả trong truyền thông tin cờ hiệu phất tay có vị trí, vai trò quan trọng trong Hải quân Việt Nam [15]

Xuất phát từ những thực trạng thông tin cờ hiệu trong Hải quân Việt Nam và những thành tựu về thuật toán nhận dạng trong máy học liên quan được trình bày ở

trên, luận văn xác định đề tài nghiên cứu là “Ứng dụng máy học nhận dạng thông tin

cờ hiệu phất tay”

Tên tiếng anh: “Signal recognition of hand waving flags by machine learning”

1.3 Mục tiêu và nhiệm vụ nghiên cứu

Luận văn được thực hiện với mục tiêu nghiên cứu các thuật toán nhận dạng trong máy học, ứng dụng chúng vào thông tin cờ hiệu phất tay, làm giảm quá trình thủ công, và tăng tốc độ nhận tin tức trong phương pháp truyền thông tin cờ hiệu phất tay, cụ thể luận văn mong muốn đạt được những mục tiêu dự kiến như sau:

 Thực hiện khảo sát một số thuật toán máy học phổ biến trong bài toán nhận dạng, nghiên cứu cách tiếp cận, phát hiện các điểm chính trên khung xương người như media pose landmarks, thuật toán học sâu như neural network, support vector machine Phân tích phương pháp ứng dụng máy học vào truyền thông tin cờ hiệu phất tay

 Xây dựng model máy học nhận dạng các ký tự chữ cái alphabet trong truyền thông tin cờ hiệu phất tay, thông qua việc thu thập và xử lý hình ảnh của từng ký tự tương ứng, thay đổi khoảng cách từ vị trí thu thập hình ảnh tới người truyền tin từ 40m đến 100m, kết hợp với các công cụ như numpy, mediapipe, keras

 Phát triển phần mềm nhận dạng đoạn văn bản, với tốc độ và khoảng cách được nâng cao hơn so với phương pháp truyền dữ liệu bằng thủ công, dựa vào sự kết hợp module máy học nhận dạng các ký tự đã được nghiên cứu trong đề tài này, và thư viện tkinter và ngôn ngữ lập trình python

Trang 23

1.4 Đối tượng và phạm vi nghiên cứu 1.4.1 Đối tượng nghiên cứu

 Thiết bị ghi hình camera xt3 fujifilm x-t3, len xf 55-200

 Phương pháp phát hiện hiện tọa độ các điểm chính trên khung xương người BlazePose và các thuật toán nhận dạng trong học sâu, xử lý tọa độ những điểm trên khung xương người mang thông tin

 Phần mềm xử lý hình ảnh thông tin cờ hiệu phất tay, ghi nhận được trong quá trình truyền thông tin được xây dựng trên máy tính

1.5 Ý nghĩa khoa học và thực tiễn của đề tài

Luận văn mang lại một số ý nghĩa về mặt lý thuyết và thực tiễn áp dụng cho việc tối ưu quá trình truyền và nhận thông tin cờ hiệu phất tay

1.5.1 Ý nghĩa khoa học

 Luận văn đã khảo sát, thống kê những kỹ thuật trong máy học liên quan đến ứng dụng nhận dạng các ký tự trong bảng alphabet và số của thông tin cờ hiệu phất tay

 Kết hợp các thuật toán, so sánh kết quả thực nghiệm lựa chọn được những tham số cho thuật toán học sâu có giá trị tối ưu trong nhận dạng thông tin cờ hiệu phất tay

Trang 24

1.6 Phương pháp nghiên cứu

Luận văn thực hiện khảo sát, tổng hợp, thống kê và kế thừa kiến thức và kết quả nghiên cứu khoa học về học sâu trong máy học, có liên quan đến kỹ thuật nhận dạng và phân loại hình ảnh, nhằm mục đích nâng cao hiệu suất và xây dựng mô hình thu thông tin cờ hiệu phất tay Kinh phí xây dựng một hệ thống bao gồm thu hình ảnh ở cự ly xa và xử lý hình ảnh là rất lớn, do đó phương pháp của luận văn sẽ thực hiện mô phỏng và xử lý những hình ảnh đã được ghi nhận trước đó Nội dung trong phương pháp nghiên cứu đề tài bao gồm:

 Đánh giá, thu thập những hạn chế của quá trình truyền thông tin cờ tay hoàn thủ công bằng con người Tìm kiếm tài liệu, các kết quả nghiên cứu của các công trình liên quan đến xử lý ảnh, máy học, học sâu qua các tài liệu, giáo trình của các giảng viên trường đại học, bài báo khoa học và một số nguồn cơ sở dữ liệu trực tuyến như Google Scholar, IEEE Xplore, cổng truy cập nguồn tin điện tử Natasi, Thư viện đại học quốc gia TP HCM

 Từ những cơ sở về yêu cầu thực tiễn và cơ sở lý thuyết tích lũy và tham khảo được, đề xuất mô hình thu thông tin cờ tay, bằng cách ứng dụng kỹ thuật nhận dạng, kỹ thuật phân loại ảnh

 Thực hiện các giải thuật để xây dựng model phân loại, nhận dạng hành động của con người, thu thập tâp dữ liệu huấn luyện và tập dữ liệu kiểm định Huấn luyện model, so sánh kết quả thực nghiệm, lựa chọn các tham

Trang 25

số tối ưu nhất cho model đã xây dựng

 Mô phỏng quá trình thu dữ liệu thông tin cờ tay, so sánh và đánh giá các tham số về độ chính xác của bảng điện, tốc độ xử lý của mô hình với các tham số khi thực hiện thủ công

 Tổng hợp các quá trình nghiên cứu, kết quả thực nghiệm, báo cáo về mô hình, đề xuất các hướng nghiên cứu tiếp theo

1.7 Cấu trúc luận văn

Luận văn được cấu trúc từ các chương, mỗi chương sẽ mang một nội dung lớn và trong chương sẽ được nêu ra các vấn đề vấn đề nhỏ, phân tích, giải quyết các vấn đề, và tổng hợp để kết luận vấn đề trong chương Các chương trong luận văn sẽ được sắp xếp phù hợp logic và nội dung chương sẽ liên quan, chương trước làm cơ sở để phát triển các chương sau Nội dung luận văn được trình bày trong 5 chương gồm:

Chương 1 Mở đầu: Giới thiệu tổng quan tính cấp thiết, phạm vi nghiên cứu,

đối tượng nghiên cứu, mục tiêu nghiên cứu, những đóng góp và cấu trúc của luận văn

Chương 2 Thông tin cờ hiệu phất tay và lý thuyết máy học: trình bày về những

quy định và quá trình truyền thông tin cờ hiệu phất tay và tổng quan về máy học, xử lý ảnh và một số thuật toán học sâu

Chương 3 Nhận dạng ký tự alphabet trong thông tin cờ hiệu phất tay: nêu ra

một số mô hình học sâu, nhận dạng các ký tự và số trong cờ hiệu phất tay

Chương 4 Hệ thống nhận dạng đoạn văn bản trong thông tin cờ hiệu phất tay:

trình bày phần mềm được xây dựng trên module chương 3, phát hiện các bảng điện

Chương 5 Kết luận chung và hướng phát triển: Ở phần này luận văn sẽ đánh

giá và so sánh các kết quả mà mô hình đã đạt được trên tập dữ liệu và kết quả thực tế của quá trình thu tin tức

Trang 26

2.1 Thông tin cờ hiệu phất tay

Thông tin cờ hiệu phất tay là một hình thức thông tin cơ bản được sử dụng nhiều trong lĩnh vực thông tin hàng hải, thông tin hải quân Trong những trường hợp không thể sử dụng thông tin vô tuyến để truyền thông tin giữa hai đối tượng với nhau, thông tin cờ tay được coi là phương pháp kết nối Thông tin cờ tay thường được sử dụng để trao đổi thông tin giữa các tàu chờ hàng với nhau, giữa tàu và cảng biển, và được sử dụng trong hải quân Trong chương này sẽ trình bày về phương pháp cách thức truyền thông tin, bao gồm các quy định trong truyền thông tin cờ hiệu phất tay

2.1.1 Tư thế người phát

Trong thông tin cờ tay khi phát tin tức người phát sẽ phát từng ký tự trong bảng 26 ký tự gồm: A, B, C, D, E, F, G, H, I, J, K, L, M, N, O, P, Q, R, S, T, U, V, W, X, Y, Z, và các chữ số từ 0 đến 9 [17]

Quy định về tư thế phát tin tức của người phát tin:

- Người luôn đứng thẳng, mỗi tay luôn cầm một cờ

- Trong quá trình phát tin, cờ luôn ở phía trước người phát, không được che khuất hay đưa ra phía sau

Trang 27

- Khi phát xong một từ luôn chuyển về tư thế nghỉ để chuẩn bị phát từ tiếp theo

Hình 2.1 Cờ tay được sử dụng khi truyền thông tin

Tư thế người phát tin

Cánh tay người phát và cán cờ luôn tạo thành một đường thẳng, vị trí cờ và cánh tay sẽ hợp với thân người một góc có giá trị tương ứng với giá trị ký tự muốn truyền đi, lúc này người phát sẽ có tư thế tương ứng với giá trị

Hình 2.2 Vị trí tay người phát tin có thể được sử dụng

Trên Hình 2.2 Chúng ta thấy tay phải của người phát tin chỉ về hướng 450, còn tay trái chỉ về hướng 2700, tư thế này của người phát tương ứng với một ký tự

Bảng 2.1 Tư thế phát tương ứng ký tự alphabet

Tay trái ở vị trí 1800Phát ký tự 1

Tay trái ở vị trí 1800 Phát ký tự 2

Trang 28

3 C(Số 3) Tay phải ở vị trí 450 Tay trái ở vị trí 1800 Phát ký tự 3

Tay trái ở vị trí 1800 Phát ký tự 4

Tay trái ở vị trí 3150 Phát ký tự 5

Tay trái ở vị trí 2700 Phát ký tự 6

Tay trái ở vị trí 1350 Phát ký tự 7

Tay trái ở vị trí 1350 Phát ký tự 8

Tay trái ở vị trí 2250 Phát ký tự 9

Trang 29

10 J(Số 0) Tay phải ở vị trí 000 Tay trái ở vị trí 2700 Phát ký tự 10

Tay trái ở vị trí 3150 Phát ký tự 11

Tay trái ở vị trí 00 Phát ký tự 12

Tay trái ở vị trí 3150 Phát ký tự 13

Tay trái ở vị trí 2700 Phát ký tự 14

Tay trái ở vị trí 2250 Phát ký tự 15

Tay trái ở vị trí 900 Phát ký tự 16

Q

M

N

O

Trang 30

17 Q Tay phải ở vị trí 900 Tay trái ở vị trí 00 Phát ký tự 17

Tay trái ở vị trí 2700 Phát ký tự 18

Tay trái ở vị trí 2250 Phát ký tự 19

Tay trái ở vị trí 3150 Phát ký tự 20

Tay trái ở vị trí 2700 Phát ký tự 21

Tay trái ở vị trí 3150 Phát ký tự 22

Tay trái ở vị trí 2250 Phát ký tự 23

P

Trang 31

24 X Tay phải ở vị trí 2700 Tay trái ở vị trí 3150 Phát ký tự 24

Tay trái ở vị trí 3150 Phát ký tự 25

Tay trái ở vị trí 2700 Phát ký tự 26

Tay trái ở vị trí 1800

Trạng thái nghỉ chuẩn bị cho ký tự tiếp theo Cũng là trạng thái kết thúc phát một ký tự

Bắt đầu phát số hoặc kết thúc quá trình phát số

2.1.2 Phương pháp truyền tin tức

Sau khi hai bên nhận được sự sẵn sàng truyền tin tức, bên phát tín hiệu sẽ thực hiện phát tin từng ký tự trong bảng điện Mỗi bảng điện sẽ bao gồm nhiều từ trong đó, mỗi từ sẽ có một hoặc nhiều chữ (ký tự) khi phát người phát sẽ phát từng từ bao gồm nhiều ký tự Để phát một từ người phát sẽ từ tư thế nghỉ bắt đầu chuyển về các tư thế theo thứ tự trong từ, khi kết thúc từ muốn phát người phát sẽ chuyển về tư thế nghỉ, quan sát người thu đã thu được từ mình muốn phát hay chưa Trong trường hợp

W

Trang 32

người thu đã thu được tin tức sẽ phát trở lại ký tự 3 giá trị “C” mang ý nghĩa đã thu được tin tức Trong trường hợp người thu tin tức đứng yên, người phát cần quan sát thêm một thời gian nếu vẫn không thấy người thu tin tức phát ký tự 3 giá trị “C” thì phải thực hiện phát lại từ vừa rồi Người thu tin quan sát tư thế của người phát tin, nếu nhận được tin tức từ người phát tin thì phát lại ký tự 3 giá trị “C”, để người phát tin tức biết người thu đã nhận được tin tức, nếu không thể nhận diện được ký tự người phát tin muốn truyền cho mình thì người thu tin sẽ đứng yên đợi người phát tin tức phát lại từ đã phát

Xét một ví dụ sau: Bảng điện cần truyền “HOA”, các tư thế người phát và người thu lần lượt như sau:

Người phát từ tư thế nghỉ chuyển sang tư thế mang giá trị “H”, sau đó chuyển sang tư thế mang giá trị “O”, tiếp theo người phát chuyển sang tư thế mang giá trị “A” và cuối cùng là chuyển về tư thế nghỉ Trong Hình 2.3 chúng ta thấy được 4 động tác của người phát tương ứng các hành động trên Đối với người thu tin trong quá trình người phát thay đổi tư thế, người thu quan sát tới khi người phát chuyển về tư thế nghỉ và không thực hiện chuyển đổi tư thế nữa thì ghép các ký tự đã thu được Nếu các ký tự thu được rõ và có ý nghĩa thì phát lại ký tự “C” bằng 2 động tác Từ tư thế nghỉ người thu chuyển sang tư thế mang giá trị “H”, sau đó chuyển về tư thế nghỉ

Hình 2.3 Thứ tự động tác khi phát tín hiệu chữ “HOA”

Trang 33

Trong trường hợp phát bảng điện có dấu thì chuyển đổi các dấu tương ứng thành các ký tự, các dấu trong một chữ được phát sau cùng của chữ đó:

Dấu "sắc" phát chữ S Dấu "huyền" phát chữ F Dấu "hỏi" phát chữ R Dấu "ngã" phát chữ X Dấu "nặng" phát chữ J

Các thành phần phụ âm được phát tương ứng như sau:

Bảng 2.2 Các ký tự phiên âm tiếng việt

Ví dụ bảng điện muốn phát là “HÒA” thì người phát phải phát chuỗi ký tự tương ứng là “HOAF” Trong trường hợp khi phát có 2 ký tự liên tiếp giống nhau thì người phát sẽ thực hiện chèn thêm tư thế nghỉ ở giữa những ký tự giống nhau này

Ví dụ khi phát bảng điện có “EE”, người phát sau khi phát xong ký tự “E” đầu tiên thì chuyển về tư thế nghỉ sau đó chuyển về tư thế mang giá trị ký tự “E” thứ 2, và tiếp tục cho hết từ muốn phát

Để kết thúc phiên liên lạc 2 bên phát ký tự “R” 3 lần

2.2 Lý thuyết về xử lý ảnh

Để xử lý được những hình ảnh mang thông tin truyền đi được trình bày trong Phần 2.1 trình bày, chúng ta cần có những hiểu biết cơ bản về lý thuyết xử lý hình ảnh như hình ảnh là gì, cấu trúc bên trong hình ảnh, các khái niệm như ảnh màu, pixel Nhũng nội dung này sẽ được luận văn trình bày cụ thể trong phần này

Giới thiệu chung

Xử lý ảnh đang được ứng dụng trong nhiều lĩnh vực khác nhau và ngày càng được nghiên cứu và phát triển mạnh mẽ Điều này do việc sử dụng nhiều hình ảnh kỹ thuật trong các lĩnh vực Viễn thám, Y học, xử lý video, kính hiển vi…

Hình ảnh kỹ thuật số là sự biểu diễn của hình ảnh hai chiều dưới dạng một tập

Trang 34

hợp hữu hạn các phần tử hình ảnh kỹ thuật số được gọi là điểm ảnh (pixel) Các giá trị pixel này đại diện cho các thông số khác nhau như mức xám, chiều cao, màu sắc, độ trong suốt.v.v… của hình ảnh ở dạng chữ số, các chữ số này có thể biểu diễn dưới dạng phương trình toán học [18]

Kích thước hình ảnh kỹ thuật số có thể được xác định bằng ma trận được sử dụng để lưu trữ các điểm ảnh dựa trên kích thước của chúng Để truy cập một điểm ảnh cụ thể trong hình ảnh kỹ thuật số, các tọa độ liên quan tại trục x và y được xác định Mỗi pixel có cường độ và độ sáng riêng biệt Các điểm ảnh trong một hình ảnh sẽ có các giá trị khác nhau theo một hình ảnh hoặc nếu không các hình ảnh có thể không xuất hiện khác nhau Các hỗn hợp màu sắc khác nhau sẽ tạo ra một hình ảnh màu Kích thước pixel là số đo chiều ngang và chiều dọc của hình ảnh Mỗi pixel được xác định bằng cách sử dụng độ sâu bit được xác định bởi số lượng bit Độ phân giải là tỷ lệ không gian của hình ảnh kỹ thuật số, là chỉ số của tần số không gian mà hình ảnh đã được lấy mẫu

Điểm ảnh (Pixel) là một phần tử của ảnh số tại toạ độ (i, j) với độ xám hoặc màu nhất định Tập hợp số các điểm ảnh này lại với nhau sẽ tạo ra kích thước ảnh và khoảng cách giữa các điểm ảnh đó được chọn thích hợp sao cho mắt người cảm nhận sự liên tục về không gian và mức xám (hoặc màu) của ảnh số gần như ảnh thật Mỗi phần tử trong ma trận được gọi là một phần tử ảnh [19]

Độ phân giải ảnh biểu thị số điểm ảnh trên một đơn vị diện tích, hay mật độ điểm ảnh trên một ảnh được hiển thị Mật độ điểm ảnh sẽ phản ảnh độ mịn của ảnh, tức là khoảng cách giữa các điểm ảnh sẽ làm cho mắt người phân biệt được sự liên tục hoặc rời rạc của các điểm ảnh Đối với mỗi ảnh, khoảng cách của mỗi điểm ảnh phải bảo đảm một giá trị tối đa nhất định để mắt người có cảm giác các điểm cảnh không có khoảng cách, hay liên tục với nhau

Ví dụ Một ảnh có kích thước chiều x là 300 điểm ảnh và chiều y là 450 điểm ảnh, vậy kích thước của ảnh sẽ là 300*450 Khi biểu diễn ảnh này trên 2 màn hình có kích thước khác nhau, mọt màn hình 12 inch và một màn hình 24 inch thì tại màn hình 12 inch sẽ có mật độ điểm ảnh lớn hơn so với màn hình 24 inch

Trang 35

Mức xám: Mỗi điểm ảnh được xác định vị trí theo chiều x và chiều y, tạo thành tọa độ điểm ảnh(x, y) Ngoài vị trí mỗi điểm ảnh còn thể hiện giá trị mức xám tại mỗi vị trí đó Mức xám là một giá trị số thể hiện cường độ sáng của điểm ảnh đó

Mức xám có nhiều loại, phụ thuộc vào từng loại ảnh khác nhau Một số mức xám thông dụng như: 16, 32, 64, 128, 256…

Ảnh nhị phân là một hình ảnh trong đó các điểm ảnh chỉ có thể được biểu diễn bằng hai giá trị là 0 hoặc 1 được hiển thị dưới dạng đen hoặc trắng Ảnh nhị phân còn được gọi là ảnh đơn sắc Các điểm ảnh của ảnh nhị phân có giá trị 0 hoặc 1 do đó mỗi điểm ảnh của ảnh nhị phân được tính là một bit dữ liệu

Hình 2.4 Ví dụ về một ảnh nhị phân đơn giản

Ảnh đen trắng là ảnh chỉ có 2 màu duy nhất là đen và trắng Mỗi điểm ảnh trong ảnh đen trắng này sẽ có những mức xám khác nhau, hay mức đen trắng khác nhau Mức xám trong ảnh đen trắng được biểu diễn trong dải từ 0 đến 255 Tức mỗi điểm ảnh có giá trị 8 bit Màu trắng được thể hiện ở mức xám 255 Đối với ảnh đen trắng mức xám còn có thể được biểu diễn dưới các mức xám 4 bit hoặc 6 bit… Tuy nhiên ngày nay ảnh đen trắng thường được sử dụng là loại có mức xmas 8 bit tương được giải giá trị mức xám là 0 đến 255

Hình 2.5 Ví dụ về một ảnh đen trắng

Trang 36

Ảnh màu là ảnh được tổ hợp từ 3 màu cơ bản gồm màu đỏ(R - Red), màu xanh lá cây(G - Green), màu xanh nước biển(B – Blue) Với ảnh màu mỗi ảnh màu sẽ được tổ hợp từ mỗi màu cơ bản trên Mỗi màu ảnh sẽ được biểu diễn giống như ảnh đen trắng Mỗi ảnh sẽ bao gồm một ma trận điểm ảnh Tại mỗi điểm ảnh sẽ có mức xám khác nhau thể hiện cường độ sáng của điểm ảnh đó Mức xám sẽ được biểu diễn có giá trị từ 0 đến 255 Như vậy mỗi điểm ảnh của ảnh màu sẽ có 3 điểm ảnh màu được tổ hợp lại, mỗi điểm ảnh màu có kích thước là 8 bit vậy tổng bộ nhớ cần để lưu mỗi điểm ảnh trong ảnh màu là 3*8 = 24 bit Vậy bộ nhớ để lưu ảnh màu lớn gấp 3 lần ảnh đen trắng

Ví dụ: một ảnh đen trắng có kích thước 1360x768 = 1044480 điểm ảnh(pixel) thì ảnh màu có cùng kích thước sẽ là 1360x768x3= 3133440 điểm ảnh(pixel)

Các định dạng tệp phổ biến dùng để lưu trữ ảnh màu 24 bit như BMP, GIF, PNG… Nếu một ảnh màu 24 chuyển đổi thành ảnh màu 8 bit hoặc nhỏ hơn, chất lượng ảnh sẽ bị giảm Một số ảnh màu được sử dụng phổ biến hiện nay

Ảnh màu 8 bit: Ảnh màu loại này cũng được cấu trúc từ 3 ảnh mày cơ bản là

Red- Green- Blue cách phân bổ 8 bit dữ liệu cho các màu cơ bản như sau Màu đỏ có 3 bit lưu trữ mức xám, màu xanh lá cây (G) được phân bổ 3 bit dữ liệu để lưu trữ mức xám, và màu cuối cùng xanh nước biển(B) được phân bổ 2 bit còn lại Đối với ảnh màu 8 bit mỗi ảnh màu sẽ được lưu trữ các mức xám khác nhau, tuy nhiên mức xám của thiết bị máy tính có sự khác biệt với mức xám của ảnh màu 8 bit Do đó đối với các ảnh màu 8 bit để đảm bảo hiển thị hình ảnh không bị kém chất lượng, các ứng dụng mở hình ảnh thường được viết đi kèm với loại ảnh này

Ảnh màu 16 bit: Đây là loại ảnh màu tương tự như ảnh màu 24 bit nêu trên,

chỉ khác về sự phân bổ số bit cho mỗi màu RGB là khác nhau Đối với ảnh màu 16 gồm 3 ma trận ảnh màu tương ứng RGB được phân bổ số bit như sau Màu đỏ (R) sẽ có 5 bit biểu diễn mức xám, màu xanh lá cây (G) sẽ có 6 bit biểu diễn mức xám, màu xanh nước biển (B) sẽ có 5 bit còn lại biểu diễn mức xám Nhìn vào sự phân bổ số bit ta thấy màu xanh lá cây có số bit được phân bổ nhiều nhất, với lý do màu xanh lá cây tạo cảm giác dễ chịu cho mắt hơn những màu còn lại

Trang 37

Ảnh màu 24 bit: Là loại ảnh màu được sử dụng rộng rãi và phổ biến nhất hiện

nay, trong nhiều lĩnh vực khác nhau như Viễn thám, Y tế, khoa học tự nhiên, Quân sự… Ảnh màu này được cũng được lưu trữ trên 3 ảnh màu cơ bản và phân bổ 24 bit đều cho 3 kênh màu(RGB), mỗi kênh màu có 8 bit thể hiện mức xám, tương đương mức xám có giá trị từ 0 đến 255

Hình 2.6 Ví dụ về một ảnh màu

Trên Hình 2.6 là một hình ảnh được trích xuất từ tập dữ liệu sẽ được sử dụng để huấn luyện cho model trong luận văn Trong tập dữ liệu này sẽ sử dụng ảnh màu với 3 kênh màu RGB và mỗi kênh màu sẽ là có giá trị 8 bit mức xám

2.3 Lý thuyết máy học

Để nhận dạng được những hình ảnh trong thông tin cờ hiệu phất tay, sau khi thực hiện xử lý những hình ảnh thu nhận được dựa trên lý thuyết đã được trình bày trong Phần 2.2 Luận văn cần xây dựng một model máy học để nhận dạng được ý nghĩa của hình ảnh Phần này sẽ trình bày những cơ sở lý thuyết làm nền tảng cho việc xây dựng model máy học được sử dụng trong luận văn

Những nội dung trong phần này được tham khảo từ các nguồn tài liệu [2] [20] [21] [22]

2.3.1 Một số khái niệm

* Khái niệm toán học

- Vô hướng (Scalar) là một số bất kỳ thuộc một tập số nào đó, với mỗi số bất kỳ khi ta sử dụng thì số đó phải được xác định là thuộc một tập nhất định Ví dụ khi

Trang 38

ta sử dụng một số tự nhiên ta phải xác định nó thuộc tập N( ,x xN), đối với ngôn ngữ lập trình một số tập số như int, float

- Véc-tơ (Vector) là tập hợp các Vô hướng tạo thành một mảng, tương tự như mảng trong ngôn ngữ lập trình Với mỗi giá trị trong véc-tơ có thể được truy xuất bằng các chỉ số của đã được gắn vào khi tạo véc-tơ Trong toán học các véc-tơ có thể được biểu diễn dưới dạng hang và cột Ví dụ véc-tơ x gồm n phần tử được đánh số từ 1 đến n

   

   

(2.1)

- Ma trận (Matrix) là một mảng 2 chiều gồm các phần tử là các Vô hướng, cũng giống như ma trận 2 chiều trong ngôn ngữ lập trình Các phần tử của ma trận khi khai báo sẽ được đánh chỉ số như véc-tơ, từ các chỉ số này ta có thể truy xuất giá trị của từng phần tử trong ma trận Có thể hình dung một cách khá đơn giản là một ma trận bao gồm nhiều véc-tơ xếp chồng lên nhau Xét một ma trận A gồm m hàng và n cột như sau:

2321223132

Trang 39

+ Phép nhân 2 ma trận:

Phép nhân 2 ma trận A = XY được thực hiện thông qua công thức sau:

., 1,1

Phép nhân không có tính chất giao hoán như phép nhân scalar X YY X.

Phép nhân cho ma trận chuyển vị công thức (2.5)

- Norm là một khái niệm thường được sử dụng để tính khoảng cách 2 điểm trong không gian nhiều chiều, khi p = 2 norm được hiểu là độ dài Euclid của 2 véc-tơ, ví dụ 2 véc-tơ x, y:

(2.6)

Công thức (2.6) thể hiện cách tính norm trong không gian n chiều

- Tensors: Véc-tơ có số chiều là 1, ma trận có số chiều là 2 chiều (i,j), trong một số bài toán máy học, tập dữ liệu có số chiều lớn hơn 2, những dữ liệu này được gọi là Tensors được lưu dưới dạng Ai j k, ,

* Một số khái niệm trong Machine learning

Nhiệm vụ (Task T)

Xét một bài toán trong machine learning phân loại email rác (spam) hay không, mỗi email sẽ được gọi là một điểm dữ liệu (data point) Mỗi điểm dữ liệu này sẽ có những đặc trưng (feature) khác nhau, các giá trị feature này được biểu diễn dưới dạng là một số vô hướng (Scalar) Tập hợp những đặc trưng này của một điểm dữ liệu

Trang 40

chúng ta có thể biểu diễn nó dưới dạng một véc-tơ có n phần tử, mỗi phần tử có giá trị của đặc trưng Nhiệm vụ trong machine learning được hiểu là cách mà hệ thống machine learning xử lý một điểm dữ liệu, trong bài toán phân loại email trên, nhiệm vụ là cách hệ thống xác định xem 1 email bất kỳ có phải là email spam hay không

Véc-tơ đặc trưng (feature vector)

Véc-tơ chứa những đặc trưng của một điểm dữ liệu Trong một nhiệm vụ của machine learning thì các feature vector đầu vào thường sẽ có cùng một kích thước, điều này nhằm đảm bảo các phép tính trong mô hình có thể được thực hiện, hay trong chương trình lập trình tính toán không bị lỗi Việc thu thập dữ liệu trong thực tế để đảm bảo được các dữ liệu này có cùng kích thước là rất khó khăn trong việc thực hiện, do đó thông thường người thu thập dữ liệu sẽ không yêu cầu các điểm dữ liệu phải có cùng kích thước, loại dữ liệu này được gọi là dữ liệu thô Dữ liệu này cần phải được thực hiện xử lý sau đó mới đưa vào mô hình thực hiện tính toán

Phép đánh giá, P

Sau khi một mô hình machine learning được huấn luyện sẽ cần thực hiện đánh giá mức độ chính xác của mô hình, đây chính là phép đánh giá Khi xây dựng một mô hình thông thường sẽ chia tập dữ liệu ban đầu thành 2 tập con gồm một tập dữ liệu dùng để huấn luyện (tranning set) và một tập dữ liệu kiểm thử (test set) Giá trị của phép đánh giá sẽ được thực hiện trên tập dữ liệu kiểm thử và tập dữ liệu huấn luyện Trong quá trình huấn luyện mô hình sẽ chỉ sử dụng tập dữ liệu huấn luyện để tìm ra các tham số của mô hình, trong quá trình này việc đánh giá vẫn phải được thực hiện qua từng lần huấn luyện Một mô hình có giá trị đánh giá trên tập kiểm thử tốt thì phải có giá trị đánh giá trên tập huấn luyện tốt trước

Kinh nghiệm, E

Quá trình huấn luyện cho một mô hình, có nghĩa là chúng ta đang cho mô hình đang xây dựng được thu thập kinh nghiệm từ nhiều lần lặp lại trên một tập dữ liệu huấn luyện (Training set) Vậy nếu thay đổi tập dữ liệu sẽ dẫn đến các kinh nghiệm khác nhau sẽ được thu thập cho mô hình, do đó tập dữ liệu có chất lượng tốt sẽ quyết

Ngày đăng: 31/07/2024, 09:33

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN