DANH MỤC TỪ VIET TAT KNN K-Nearest Neighbor Một kĩ thuật học có giám sát dùng đề phân loại quan sát mới bằng cách tìm điểm tương đồng giữa quan sát mới này với dữ đó đề riêng phân tích
Trang 1
DAI HOC KINH TE TP HO CHi MINH TRUONG CONG NGHE VA THIET KE VIEN DOI MOI SANG TAO
BO MON KHOA HOC DU LIEU NANG CAO
UEH UNIVERSITY
FINAL EXAMINATION
DE TAI: NGHIEN CUU UNG DUNG MO HINH
MAY HOC TRONG PHAN LOAI TIN HIEU
SONAR
GVHD: TS.D6 Nhu Tai
Nhóm thực hiện: Nhóm 13
Họ tên sinh viên:
Phạm Huỳnh Bảo Trân (Trưởng nhóm) Hoàng Thiên Thư
Nguyễn Khánh Linh Nguyễn Thùy An Nguyễn Thị Mỹ Duyên
TP Hồ Chí Minh-2023
Trang 2
MỤC LỤC
DANH MỤC BẢNG BIẾU S5 11221211 11212122122 11 1 11g12 gay 5
DANH MỤC TỪ VIẾTT TẮTT 2 2s2E12E1521221E1121122271.111 1.1221 erreo 6
lo N99 00ÀJƯ(('IãẮẮÝ 7
CHƯƠNG I: GIỚI THIỆU TONG QUAN - 5 s22 2221211112111 2c trrreg 8
1.1 Lí Do Chọn Đề Tài 5 S111 E1 E1 221212121 tru re 8
IV): 8:-14)‹{4)4))):00“ 9
1.2.1 Mục Tiêu Nghiên Cứu G0 1 3 TH c1 10 vn g00 9
1.2.2 Đối Tượng Nghiên Cứu 10
1.2.3 Phương Pháp Thực Hiện 11
1.2.4 Ý Nghĩa, Đóng Góp 11
1.3 Cơ Sở Lí Thuyết 5 ST 11211 211211211211 11 112 eg 12
1.3.1 Phân Lớp Dữ Liệu Là Gì? 12
1.3.1.1 Khái Niệm Phân Lớp Dữ Liệu 221 2E 1111221112221 122112 x26 12
1.3.1.2 Quy Trình Phân Lớp Dữ Liệu - 52c Sc S2 E21 128111221121112 11 2 xe 12
1.3.2 Khái Niệm Và Phân Loại Sonar 14
1.3.2.1 Khái Niệm Và Phân Loại Sonar - 20012221125 1551115111111 xe 14
IEXPANEEUO.0.i605:.-adaaaiŸẲŸẶ 15
1.3.2.1 3 Ứng Dụng Của Hệ Thống SOHAF - à E111 212211121 xg l6
1.3.3 Các Phương Pháp Phân Lớp Dữ Liệu 17
1.3.3.1 Một Số Phương Pháp Phân Lớp Dữ Liệu Sử Dụng Trong Bài
2.3 Cac chién urge Pre-Processing 0.000.000 cecetecenseeeetssesesseseesensntaeeees 33
CHUONG 3: THI NGHIEM VÀ THÁO LUẬN 5 S222 rrre 37
3.1 Môi trường nghiên cứu - - 2 2 0020102201110 1111111111 1111111111111 11122112 38
KÝ) Jin nã 38
Trang 33.3 Tiến hành nghiên cứu - S221 SE1 111 112112712112111 1111 71T12 re rre 38
3.3.1 Đánh Giá Thuật Toán: Cơ Sở 38
3.3.2 Đánh Giá Thuật Toán: Chuẩn Hóa Dữ Liệu 39
3.3.3 Đánh Giá Dựa Trên Các Chỉ Số Phố Biến Trong Bài Toán Phân Loai.41
KT \) 0v) 00) )) 4 42
3.5 Kết luận mô hình 52 2E 11112111111111711 71111121111 11112111 rrre 44
CHƯƠNG 4: KÉT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5-2 22s 2E rre 45
TÀI LIỆU THAM KHẢO - 5-51 21 S212E121121122271 1111712221111 46
Trang 4DANH MỤC HÌNH ẢNH
Hình 1.1 Nguyên lý của SONAR Q.2 2.112 1211211111 11221 1 1111011111111 1211 181 grxkg 8
Hình 1.2 Xây dựng mô hình phân lớp - - 2 2222211221 12211 1155112181111 1 21x 13
Hình 1.3 Đánh giá mô hình phân lớp - - c5 2c 22222211 1112121 1211115215111 121 xe 14
Hình 1.4 Phân lớp dữ liệu mmới ii cece 2232232111151 151411111111151111 11111111 11 81111 XÐg 14
Hình 1.5 Mô hình của hệ thống SONAR chủ động 5-2 S12 SE SE5E221212112 x52 l5
Hình 1.6 Nguyên lý SONAR thụ động 2 0 2 S2 2211211211111 11H11 re 16
Hình 1.7 Minh họa mô hình cây quyết định -.- 555cc 22111 11111152E11115 1x11 xee 18
Hình 1.8 Minh họa thuật toán phân lớp Support Vector Machine (SVM)) 18
Hình 1.9 Các biến thể của SVM - 222 2222211222111 re 19
Hình 1.10 Minh họa thuật toán phân lớp hồi quy Logistic -s5scscsszszzzzze2 20
Hình 1.11 Minh họa thuật toán K-Nearest Neighbor (KNN) - 21
Hình 1.12 Ví dụ Sơ đồ của mô hình AdaBoosting s2 St t2 2111111152522 xe2 23
Hình 1.13 Minh họa thuật toán Linear DIscriminant Analysis (LDA) 24
Hình 1.14 Ví dụ thuat toan Linear Discriminant Analysis (LDA) su dung ng6n ngtr
Lap trink Python — d 25
Hình 2.1 Số xuất hiện cdc Class cccccsscesssssesseesesseseesenseesssessunssressseessensesnnssees 30
Hình 2.2 Biểu đồ Histogram của các Thuộc tính từ Tập dữ liệu 31
Hình 2.3 Biêu đồ Box and Whisker của Các Thuộc tính từ Tập đữ liệu 32
Hình 2.4 Biêu đồ Mật độ của Các Thuộc tính từ Tập đữ liệu - 2-5 scsczszcez 32
Hình 2.5 Biểu đồ Tương quan giữa Các Thuộc tính từ Tập dữ liệu 33
Hình 2.6 Kết quả lam tron đữ liệu bang Simple Moving Average 34
Hình 2.7 Kết quả làm trơn đữ liệu băng Multi-level Moving Average ở mức (3,5,7) 35
Hình 2.8 Kết quả làm trơn đữ liệu băng Multi-level Moving Average ở mức
5 2 35
Hình 2.9 Kết quả làm trơn đữ liệu băng Multi-level Moving Average ở mức (7,14,21)
c1111111111111 1111111111 1111111 111111111111 1111111 111111111111 11 1111111111111 1111111 111111111111 11 11111111110 T0 10111 10 36
Hình 2.10 Kết quả MSE - ST T1 E2 2112111121121112111111211 HH Ha 37
Trang 5DANH MỤC BẢNG BIẾU
Bảng 2.1 Các thuộc tính thống kê cơ bản của đữ liệu - T 2S 2222211111 se 29
Bảng 2.2 Kiểm tra tính toàn vẹn đữ liệu 2-2 SH T111 1111111 1512121211155 1115 sg 29
Bảng 3.1 Đánh giá hiệu suất của một số mô hình máy học khác nhau trên tập dữ liệu
0 38
Bảng 3.2 Đánh giá các chỉ số của 10 phương pháp phân lớp 5-52 sszszszsz¿ 4I
Bảng 3.3 Đánh giá 2 mô hình qua các phương pháp phô biến 52 22522 czs 42
Bảng 3.4 Đánh giá mô hình (RF và MLP) sử dụng ENSEMBLE ‹ 43
Bang 3.5 Danh giá 8 mô hình sử dụng ENSEMBLE 02c 2 S22 2ey 44
Trang 6DANH MỤC TỪ VIET TAT
KNN K-Nearest Neighbor
Một kĩ thuật học có giám sát dùng đề phân loại quan sát mới bằng cách tìm điểm tương đồng giữa quan sát mới này với dữ
đó đề riêng phân tích nhiều lớp
của đối tượng
AUC Area Under the Curve
Chỉ số được tính toán dựa trên đường cong ROC nhằm đánh giá khả năng phân loại của mô
hình tốt như thê nảo
ML Machine Learning (May hoc)
Một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống "học" tự động từ đữ liệu để giải quyết những van dé cu thé
MLP Multilayer Perceptron
Một thuật toán học máy có giam sat (Machine Learning) thuộc lớp Mạng nơ-ron nhân tạo
EDA Exploration Data Analysis
Qua trình khám phá và phân tích dữ liệu ban đầu nhằm hiểu
rõ hơn về dữ liệu EDA giúp
và hồi quy
Trang 7
LỜI CÁM ƠN Nhóm chúng em xin gửi lời cảm ơn chân thành nhất đến thầy Đỗ Như Tài đã tận
tình hướng dẫn, giúp đỡ nhóm chúng em hoàn thành dự án môn Khoa học dữ liệu
nâng cao
Trong suốt quá trình học, thầy đã dành rất nhiều thời gian chỉ bảo, gợi ý cho
chúng em và các bạn về cách tiếp cận đề tài, cách bố cục nội dung và cách trình bày
kết quả nghiên cứu một cách khoa học, thầy luôn sẵn lòng chia sẻ những kiến thức
mới nhất và những kinh nghiệm thực tế mà thầy đã tích lũy được Thầy đã mang
đến cho chúng em nhiều góc nhìn mới mẻ về các nghiên cứu sâu chuyên sâu cùng
những bài học, mô hình mới mà nhóm nghiên cứu được tiếp cận Và qua môn học,
nhóm nghiên cứu đã có trải nghiệm tuyệt vời khi tích lũy được những kiến thức mới
từ các bài tập và bài học trên lớp cũng như các buổi online thầy dành thời gian dạy
chúng em Và qua dự án nghiên cứu này chúng em cũng mong góp phần nào đó để
là bước đệm cho bài nghiên cứu khoa học ở trường Từ những kiến thức thầy truyền
đạt chúng em đã tích lũy đề thực hiện dự án “Nghiên cứu ứng dụng mô hình máy
học trong phân loại tín hiệu Sonar’’
Trong quá trình thực hiện dự án chắc chắn khó tránh khỏi những thiếu sót Do đó,
chúng em kính mong nhận được những lời góp ý của thầy để dự án của chúng em
ngày càng hoàn thiện hơn Cuối cùng, chúng em xin kính chúc thầy sức khỏe đồi
dào, hạnh phúc và luôn thành công trong công việc giảng dạy và nghiên cứu của
minh
Trang 8CHUONG 1: GIOI THIEU TONG QUAN 1.1 Li Do Chon Dé Tai
Bồi cảnh hiện nay của thế giới đang chứng kiến sự tiến bộ nhanh chóng của công nghệ, đặc biệt là trong lĩnh vực trí tuệ nhân tạo (AT) va may hoc (Machine Learning)
Đối diện với những thách thức đa dạng và phức tạp, sự kết hợp giữa nghiên cứu khoa học và ứng dụng thực tế trở nên quan trọng hơn bao giờ hết Trong tầm quan trọng đó, nhóm chúng tôi quyết định chọn đề tài "Nghiên cứu ứng dụng mô hình máy học trong phân loại tín hiệu Sonar" không chỉ xuất phát từ sự nhận thức vẻ tính ứng
dụng rộng rãi mà còn từ những con số và dẫn chứng cụ thê, làm nổi bật lý đo đây là lựa chọn hay hơn
Một trong những con số nổi bật là khối lượng dữ liệu lớn được tạo ra từ hệ thống
sonar trên toàn thể giới Tô chức Hải đương Quốc tế (IOOS) đã thống kê rằng hệ
thống này tạo ra khoảng 5 petabyte dữ liệu mỗi năm Đây vừa là con số ấn tượng về
quy mô, vừa là một thách thức lớn, đặt ra yêu cầu cao về khả năng xử lý và phân loại
dữ liệu Sự đa dạng và phức tạp của tín hiệu sonar đòi hỏi sự chính xác và linh hoạt trong việc áp dụng các mô hình máy học
Tình hình an ninh biến ngày càng trở nên nhạy cảm và phức tạp Các đối tượng như
tàu ngầm và mìn biến đe dọa sự an toàn của không gian biến, và khả năng phân loại
chính xác tín hiệu sonar trở thành một yếu tô chính trong việc đối phó với những
thách thức này Theo Thông tin An ninh Quốc gia Mỹ, vấn để này đặt ra những yêu
cầu ngày càng cao đối với công nghệ phân loại, và sự kết hợp giữa may hoc va tin
hiệu sonar trở thành một hướng nghiên cứu hứa hẹn
Hình II Nguyên lý cua SONAR
Trang 9Mô hình máy học, đặc biệt là Convolutional Neural Networks (CNN) và Recurrent Neural Networks (RNN), đã chứng minh khả năng lớn trong việc xử lý dữ liệu phức tạp và tự động hóa quá trình phân loại Sự tiến bộ này đã đem đến hiệu suất cao và mở
ra những khả năng mới trong việc hiếu biết sâu sắc về cầu trúc và biểu hiện của tín hiệu sonar Các mô hình này không chỉ giúp giải quyết những thách thức hiện nay mà còn mở ra những triển vọng hứa hẹn cho tương lai
Tổng cộng, lựa chọn “Nghiên cứu về ứng dụng mô hình máy học trong phân loại tín hiệu Sonar” là một phản ánh của xu hướng tiên tiến trong công nghệ và là sự đáp ứng linh hoạt và hiệu quả đối với những thách thức đương đại Đây sẽ là một bước tiến quan trọng trong việc tối ưu hóa sức mạnh của tín hiệu sonar, đóng góp vào sự an toàn
và bảo vệ của không gian biên toàn cầu
1.2 Dataset Background
1.2.1 Mục Tiêu Nghiên Cứu
Muc tiéu chung:
© Muc tiéu chung ctia dé tai là áp đụng và phát triển các mô hình máy học hiện đại nhằm nâng cao khả năng phân loại tín hiệu Sonar Thông qua việc này, nhóm nghiên cứu đặt ra mục tiêu xây dựng một hệ thống phân loại mạnh mẽ vả chính xác, tạo ra công cụ hỗ trợ hiệu quả trong việc giám sát không gian biến Mục tiêu này sẽ góp phần đáng kế vào nâng cao hiệu suất của các hoạt động an ninh và quốc phòng
Mục tiêu cụ thể:
© Nghiên cứu và xử lý dữ liệu Sonar:
- Tiến hành phân tích đặc điểm và câu trúc của đữ liệu Sonar, đảm bảo hiểu rõ về đặc điểm đặc trưng của tín hiệu
- Phát triển các phương pháp xử lý đữ liệu để chuẩn hóa, giảm nhiễu, và tối ưu hóa
cho quá trình huấn luyện mô hình
© - Điều chính mô hình phù hợp với đữ liệu
- Quan trọng trong quá trình phát triển mô hình máy học để đảm bảo rằng nó hoạt động hiệu quả với dữ liệu cụ thé
- Tối ưu hóa mô hình đề đạt được hiệu suất cao và đáng tin cậy trong việc phân loại tín hiệu sonar, đồng thời đảm bảo khả năng chịu đựng và áp dụng trong môi trường thực tế
® Đánh giá và hiệu chính:
Trang 10- Thực hiện các bài kiểm tra và đánh giá chi tiết về hiệu suất của mô hình trên các tập
dữ liệu kiểm thử và thực tế
- Hiệu chỉnh mô hình dựa trên kết quả đánh giá, đảm bảo sự chính xác và ôn định của
hệ thống trong các tình huống đa dạng
® - Nghiên cứu ng dụng trong lĩnh vực an nình biến:
- Đánh giá khả năng tích hợp của hệ thống vào các ứng đụng an ninh và quốc phòng, đặc biệt là trong việc phát hiện và phân loại các đối tượng ngầm và nguy cơ mìn biến
- Dé xuat các cải tiên và ứng dụng mở rộng đê tôi ưu hóa sự ứng dụng của mô hình máy học trong các ngữ cảnh thực tê
1.2.2 Đối Tượng Nghiên Cứu
Mô hình và thuật toán: đối tượng nghiên các tín hiệu sóng sonar được phản xạ từ các đối tượng khác nhau, chủ yếu là từ một hình trụ kim loại và từ một tảng đá có hình dạng gan như hình trụ Mục tiêu là đưa ra đề nhận biết sự khác biệt giữa các tín hiệu Sonar, từ đó cung cấp cơ sở khoa học cho quá trình phân loại
Yếu tô ảnh hưởng tới tín hiệu Sonar: các yếu tô ảnh hưởng tới tín hiệu Sonar, như điều kiện môi trường, sự biến động của dòng nước, và các yếu tô liên quan khác, sẽ được nghiên cứu một cách chỉ tiết Dữ liệu liên quan được lấy từ các nguồn đáng tin cậy, đặc biệt từ Kagsle.com
® Phạm vi nghiên cứu: Bộ dữ liệu bao gồm 111 mẫu từ tín hiệu sonar phản xạ từ hình trụ kim loại và 97 mẫu từ tín hiệu sonar phản xạ từ tảng đá
e© Mỗi mẫu được biểu diễn băng một tập hợp 60 số, mỗi số đại diện cho năng lượng trong một dải tần nhất định tích hợp qua một khoảng thời gian nhất định
Cu thé:
> Nghĩa là mỗi cột tương ứng với một dải tần số, và giá trị của nó cho biết năng lượng của tín hiệu trong dải tần số đó
> Các dải tần số cao hơn được tích phân muộn hơn theo thời gian
do chúng được phát ra muộn hơn trong quá trình phát tín hiệu sóng siêu âm tăng dân tần số (chirp)
> Như vậy, các cột đầu tiên (thấp tần) biểu diễn năng lượng tích phân sớm, và các cột sau (cao tần) biếu diễn năng lượng tích phân muộn hơn theo trục thời ø1an
> Tóm lại, mỗi cột thế hiện mức năng lượng của tín hiệu trong một dải tần nhất định tại một thời điểm tích phân trên trục thời gian
Số dải tần/cột là 60
Thời gian nghiên cứu: tập trung vào dữ liệu đã được thu thập và sử dụng trong nghiên cứu ban đầu của Gorman & Sejnowski năm 1988
10
Trang 11Đối tượng nghiên cứu: các tín hiệu Sonar được thu thập từ các đối tượng khác nhau, đặc biệt là từ 2 loại đối tượng kim loại (Ống kim loại) và đá (đá hình trụ)
1.2.3 Phương Pháp Thực Hiện
Phương pháp nghiên cứu Ìÿ luận:
® - Phân tích— Tổng hợp lý thuyết:
- Tiên hành tìm kiêm và thu thập các tài liệu từ các nguôn như sách, bai bao khoa học,
và các nghiên cứu trực tuyên
- Phân tích các thông tin liên quan đề hiệu sâu về ly thuyêt máy học, đặc điêm của tín hiệu Sonar, và các mô hình dự báo hiện đại
® \iô hình hóa:
- Tông hợp kiến thức từ phân tích lý thuyết đê xây dựng mô hình dự báo
- Áp dụng lý thuyết máy học vào mô hình đề đảm bảo tính chính xác và hiệu suất của quá trình dự báo
Phương pháp nghiên cứu thực tiễn:
® - Sử dụng thuật toán và công cu:
- Su dung cac thuat toan may hoc nhu Decision Tree, SVM, Logistic Regression, Neural Network, KNN, Naive Bayes, Random Forest, AdaBoost, Gradient Boosting, LDA, Multilayer Perceptron
-Sau đó đánh giá kiểm tra theo các thước đo như độ chính xác, precision, recall, F1- score, va AUC
> Sứ dụng dữ liệu từ Kaggle:
- Thu thập dữ liệu từ Kagsle, đảm bao tính da dang và representativeness của dữ liệu
- Áp dụng các thuật toán và công cụ đề thực hiện việc phân loại và dự đoán trên tập
dữ liệu này
- Đưa ra kết quả nghiên cứu và dự đoán
- Phân tích và trình bày kết quả từ quá trình huấn luyện và kiêm thử mô hình
- So sánh kết quả với các nghiên cứu trước đó và đánh giá khả năng ứng dụng thực tế của mô hình
1.2.4 Ý Nghĩa, Đóng Góp
Trên phương diện khoa học:
Đề tài này mang lại những đóng góp quan trọng cho lĩnh vực khoa học máy tính và công nghệ thông tin Việc phát triển các phương pháp phân loại tín hiệu Sonar tiên tiến hơn mở ra những triển vọng mới trong nghiên cứu và ứng dụng Các mô hình máy
11
Trang 12học được áp dụng trong đề tài có thế đạt được độ chính xác cao, giúp chúng ta hiểu biết sâu sắc hơn về cấu trúc và đặc điểm của tín hiệu Sonar
Điều này đã góp phần giúp cải thiện hiệu suất của các hệ thống phân loại và làm tăng cường sức mạnh tính toán trong việc xử lý dữ liệu phức tạp Việc sử dụng mô
hình máy học có khả năng thích ứng tốt hơn với các điều kiện môi trường khác nhau
giúp nâng cao khả năng ứng dụng thực tế của công nghệ Sonar
Trên phương diện thực tiễn:
Đề tài nghiên cứu này có ý nghĩa rất lớn trong ứng dụng thực tế, đặc biệt là trong lĩnh vực an ninh và quốc phòng Sự tiến bộ trong phân loại tín hiệu Sonar có thé giúp nâng cao hiệu suất và độ chính xác của các hệ thống theo dõi và nhận biết đưới nước Các kết quả từ đề tài có thế được tích hợp vào các thiết bị đánh bại tàu ngầm, hệ thống an ninh biến, giúp quốc gia duy trì sự an toàn và bảo vệ chủ quyền quốc gia trên biển Điều này đồng thời giúp giảm rủi ro từ các đối tượng đe dọa tới an ninh toàn cầu, đóng góp vào nhiệm vụ quan trọng của các lực lượng quốc phòng
1.3 Cơ Sở Lí Thuyết
1.3.1 Phân Lớp Dữ Liệu Là Gï?
1.3.1.1 Khái Niệm Phân Lớp Dữ Liệu
Phân lớp đữ liệu (Unica, 2022) là kĩ thuật đựa trên tập huấn luyện và những giá trị hay hay là nhãn của lớp trong một thuộc tính phân lớp và sử dụng nó trong việc phân lớp dữ liệu mới Phân lớp cũng là tiên đoán loại lớp của nhãn Kĩ thuật phân lớp được đánh giá là một kĩ thuật khai phá dữ liệu được sử dụng rộng rãi nhất với nhiều mở rộng
1.3.1.2 Quy Trình Phân Lớp Dữ Liệu
Kĩ thuật phân lớp được tiến hành bao gồm 2 bước:
Bước l: Xây dựng mô hình phân lớp (Model Construction): là mô tả một tập những lớp được định nghĩa trước trong đó: mỗi bộ hoặc mẫu được gán thuộc về một lớp được định nghĩa trước như là được xác định bởi thuộc tính nhãn lớp, tập hợp của những bộ được sử dụng trong việc sử dụng mô hình được gọi là tập huấn luyện Mô hình được biểu diễn là những luật phân lớp, cây quyết định và những công thức toán học
12
Trang 13classification algorithm features
6
lộ ¬—“—_x ẽHắê
if (age < 31 or Car Type = Sports)
' eye then Risk = High
classifier
Hình 1,2 Xay dung m6 hinh phan lép Bước 2: Sử dụng mô hình phân lớp (Model Ủsage): Việc sử dụng mô hình phục vụ cho mục đích phân lớp đữ liệu trong tương lai hoặc phân lớp cho những đối tượng chưa biết đến Trước khi sử dụng mô hình người ta thường phải đánh giá tính chính xác của mô hình trong đó: nhãn được biết của mẫu kiêm tra được so sánh với kết quả phân lớp của mô hình, độ chính xác là phần trăm của tập hợp mẫu kiêm tra mà phân loại đúng bởi mô hình, tập kiêm tra là độc lập với tập huấn luyện Sau đó tiến hành thực hiện phân lớp đữ liệu mới
Bước 2.L: Đánh giá mô hình phân lớp (kiểm tra tính đúng đắn của mô hình)
L) Dữ liệu đầu vào: là một tập dữ liệu mẫu khác đã được gán nhãn và tiền
xử ly Tuy nhiên lúc đưa vào mô hình phân lớp, ta “lờ” đi thuộc tính đã
được gãn nhãn
2) Tính đúng đắn của mô hình sẽ được xác định bằng cách so sánh thuộc
tính gãn nhãn của đữ liệu đầu vào và kết quả phân lớp của mô hình
13
Trang 14L) Dữ liệu đầu vào: là đữ liệu “khuyết” thuộc tính cần dự đoán lớp (nhãn)
2) Mô hình sẽ tự động phân lớp (gãn nhãn) cho các đối tượng đữ liệu này đựa
vào những gì được huấn luyện ở bước I
1.3.2.1 Khải Niệm Và Phân Loại Sonar
Sonar 1a mét tir viét tat cua "sound navigation and ranging", co nghia là "định vị và dinh tam bang âm thanh" Sonar là một kỹ thuật sử dụng sự lan truyền âm thanh (thường là dưới nước) đề xác định vị trí, tốc độ và kích thước của các đôi tượng dưới nước
14
Trang 15Sonar được chia thành 2 loại:
® Sonar chủ động: tự phát ra sóng âm và sau đó lắng nghe tiếng vọng lại của sóng
®_ Nếu phát và thu ở cùng một chỗ, hoạt động của nó là đơn tĩnh (monostatic)
@ Néu phat va thu tách biệt, hoạt động của nó là song tĩnh (bistatic)
® Nếu có nhiều đầu phát (hoặc nhiều đầu thu) ở vị trí tách biệt, hoạt động của nó
là đa tĩnh (multistatic)
4 reflected wave / / / / ⁄
1.3.2.1.2 Sonar Thụ Động
Sonar thụ động lắng nghe mà không phát tín hiệu Nó thường được sử dụng trong quân sự, mặc dù nó cũng được sử dụng trong các ứng dụng khoa học, ví dụ dé phat hiện cá trong nghiên cứu biến hoặc đánh cá, các vụ nỗ mìn ở đảo, để nghe các vụ rung chấn hay phun trào đáy biến Theo nghĩa rộng Sonar thụ động bao gồm các kỹ thuật phân tích liên quan đến âm thanh phát ra từ xa nhằm tới xác định vị trí và bản chất nguồn phát
15
Trang 16(a) Passive Sonar
Hình 1.6 Nguyên lý SONAR thụ động 1.3.2.1 3 Ứng Dụng Của Hệ Thống Sonar
Trong quân sự (ASIAME, 2021)
e© Tìm kiếm cứu nạn các phương tiện bị chim, dam như tàu, thuyền, máy bay
® - Dò quét min, phát hiện thủy lôi
e©_ Tác chiến chống ngầm
® Bảo vệ các căn cứ
Trong thăm dò địa chất đáy biễn
® Dùng dé quét dia hinh day biến, xác định độ sâu, các thung lũng ngầm, núi ngầm - những nơi có khả năng chứa dâu, khí đốt
¢ Nó cũng giúp thu thập thông tin về chất lượng, tính chất của đá, trầm tích dưới đáy biến
¢ Các thông tin thu thập được giúp các nhà địa chất có thê vẽ bản đồ chỉ tiết về cầu trúc địa chất đáy biên
Trong nghiên cứu hải đương học
e Sonar đóng vai trò quan trọng trong các nghiên cứu về sinh vật biển, môi trường, hải dương học nói chung
® Nó giúp đo chính xác các thông số về độ mặn, nhiệt độ, dòng chảy, độ đục của nước biển
¢ Giúp ước tính khối lượng và phân bố của sinh vật phù du, cá, động vật biên khác
Trong công nghiệp
e _ Trong công nghiệp dầu khí ngoài khơi và ven biến, Sonar giúp kiêm tra vi tri của các đường ống dẫn đầu, khí
1ó
Trang 17se Nó cũng được dùng để đo độ sâu, kiểm tra phát hiện rò rỉ trên các đường ống ngầm dưới biến
e©_ Trong xây dựng cầu, cảng biến, Sonar thu thập đữ liệu để khảo sát địa hình,
e© - Hỗ trợ tìm kiếm và cứu nạn trên biên khi có tai nạn xay fa
1.3.3 Cac Phuong Phap Phan Lop Dw Liéu
(Topdev, 2023)
1.3.3.1 Một Số Phương Pháp Phân Lớp Dữ Liệu Sử Dụng Trong Bài Nghiên Cứu (ngl91, 2016)
> Dinh nghia: Trong ly thuyét quan tri, cây quyết định là đồ thị các quyết định
cùng các kết quả khả dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định Trong lĩnh
vực khai thác đữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước
> Ưu, nhược điểm;
- Có thế làm việc với cả dữ liệu số và dữ liệu phân loại
- Có thể xác thực mô hình bằng cách sử dụng các kiểm tra thống kê
- _ Có khả năng làm việc với dữ liệu lớn
® Nhược điểm:
- Mô hình cây quyết định phụ thuộc rất lớn vào dữ liệu của bạn Thậm chí, với một sự thay đối nhỏ trong bộ đữ liệu, cấu trúc mô hình cây quyết định có thể thay đôi hoàn toàn
17
Trang 18- _ Cây quyết định hay gặp vấn đề overtting
Dependent variable: PLAY
Play 9 Don't Play 5
Play 2 Play 4 Play 3
Don't Play 3 Don't Play 0 Don't Play 2
Hình 1.7 Minh họa mô hình cây quyết định
> Định nghĩa: SVM là một thuật toán có giám sát, SVM nhận dữ liệu vào, xem chúng như những các vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phăng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu Đề tối ưu kết quả phân lớp thì phải xác định siêu phăng (hyperplane) có khoảng cách đến các điểm đữ liệu (margin) của tất
cả các lớp xa nhất cóthễ SVM có nhiều biến thê phù hợp với các bài toán phân loại khác nhau
Hình 1.8 Minh họa thuật toán phân lớp Support Vector Machine (SVM)
18
Trang 19> Các biên thê của SVM:
Loai SVM Tinh chat
Hard Margin SVM |Hai lớp cân phân lớp là có th phân chĩa tuyên tinh (linearly seperable)
Soft Margin SVM |Hai lớp cân phân lớp là "sân" phân chia tuyên tính (almost linear seperable) Mullti-class SVM _ |Phán lớp đa lớp (biên giữa các lớp là myền tính)
Kernel SVM Dữ liệu là phi tuyến
Hình 1.9 Các biến thể của SVM
> Ưu nhược điểm:
¢ Ưu điểm: SVM có thế mô hình hóa các ranh giới quyết định phi tuyến tính và
có nhiều hạt nhân để lựa chọn Chúng cũng khá mạnh mẽ dé chéng lai qua mức, đặc biệt là trong không gian nhiều chiéu
® Nhược điểm: Tuy nhiên, SVM rat tốn bộ nhớ, khó điều chỉnh hon do tam quan trọng của việc chọn đúng kernel và không mở rộng tốt cho các bộ dữ liệu lớn hơn Hiện tại trong ngành, RF thường được ưa thích hơn SVM
> Định nghĩa: Hồi quy logistic là một mô hình xác suất dự đoán giá trị đầu rarời
rac từ một tập các giá trị đầu vào (biêu diễn dưới dạng vector)
> Ưu, nhược điểm:
» Ưu điêm: Đâu ra có một diễn giải xác suật tốt và thuật toán có thê được thường xuyên hóa đề tránh bị quá mức Các mô hình logistie có thể được cập nhật đễ dàng với đữ liệu mới bằng cách sử dụng gốc dốc ngẫu nhiên
« Nhược điểm: Hồi quy logistic có xu hướng hoạt động kém khi có nhiều ranh
giới quyết định phi tuyến tính Họ không đủ linh hoạt để tự nhiên năm bắt
các mối quan hệ phức tạp hơn
Chúng ta có thế biếu điễn công thức của phương pháp hồi quy Logistic như sau:
n z=}, Ww, X;
i=0
Trong do:
* nlasé lượng thuộc tính của dữ liệu
«ồ w là trọng số, ban đầu sẽ được khởi tạo ngẫu nhiên, sau đó sẽ được điều chỉnh lại cho phủ hợp
19
Trang 20Hình 1.10 Minh họa thuật toán phân lớp hồi quy Logistic
> Định nghĩa: Thuật toán K-Nearest Neighbor là một kĩ thuật học có giảm sát (supervised learning) ding dé phan loai quan sat mới bằng cách tìm điểm tương đồng giữa quan sát mới này với đữ liệu sẵn có
> Ví dụ
Giả sử ta có D là tập các dữ liệu đã được phân loại thành 2 nhãn (+) và (-) được biểu diễn trên trục tọa độ như hình vẽ và một điểm dữ liệu mới A chưa biết nhãn Vậy làm cách nào để chúng ta có thê xác định được nhãn của A là (+) hay (-)?
Có thé thấy cách đơn giản nhất là so sánh tất cả các đặc điểm của dữ liệu A với tất cả tập dữ liệu học đã được gan nhãn và xem nó giống cái nào nhất, nếu dữ liệu (đặc điểm) của A giống với dữ liệu của điểm mang nhãn (+) thì điểm A mang nhãn (+), nếu dữ liệu A giống với đữ liệu nhãn (-) hon thi nó mang nhãn
(-), trông có vẻ rất đơn giản nhưng đó là những gì mà KNN làm
20
Trang 21(ch
Dữ liệu mang nhãn dương
OC Dữ liệu chưa biết nhãn
Hình 1.11 Minh hoa thudt todn K-Nearest Neighbor (KNN)
> Ưu, nhược điểm:
- _ Với K nhỏ đễ gặp nhiễu dẫn tới kết quả đưa ra không chính xác
- _ Cần nhiều thời gian đề thực hiện đo phải tính toán khoảng cách với tất cả các đối tượng trong tập dữ liệu
- _ Cần chuyến đối kiểu dữ liệu thành các yếu tố định tính
Naive Bayes là một thuật toán dựa trên định lý Bayes vẻ lý thuyết xác suất đề đưa
ra các phán đoán cũng như phân loại dữ liệu dựa trên các dữ liệu được quan sat va thống kê Naive Bayes là một trong những thuật toán được ứng dụng rất nhiều trong các lĩnh vực Machine Learning (ML) dùng dé đưa các dự đoán chính xác nhất dựa trên một tập dữ liệu đã được thu thập, vì nó khá dễ hiểu và độ chính xác cao
® Uuđiểm:
- Dễ sử dụng và nhanh khi cần đoán nhãn của dữ liệu test Thực hiện khá tốt trong multi class prediction (test later)
21
Trang 22-_ Khi giả định rằng các feature của dữ liệu là độc lập với nhau thì NaIve Bayes chạy tốt hơn so với các thuật toán khác như logistic regression và cũng cần it dữ liệu hơn
> Random forest có một đặc điểm như sau:
- Nó đạt chính xác cao trong các thuật toán hiện hành
- Nó chạy hiệu quả trên các cơ sở dữ liệu lớn
- Nó có thê xử lý hàng ngàn biến đầu vào mà không cần xóa biến
- Nó cung cấp ước tính của các biến quan trọng trong việc phân loại
- N6 tao ra ước lượng không chênh lệnh giữa lỗi nội bộ và lỗi tổng quan trong quá trình phát triển rừng
- Nó có một phương pháp hiệu quả để ước lượng đữ liệu bị mất và duy trì độ
- _ Đầu tiên, AdaBoost tạo ra một khu rừng gốc cây thay vì cây cối Gốc là cây chỉ được tạo thành từ một nút và hai lá (như hình trên)
22
Trang 23- _ Thứ hai, các gốc cây được tạo ra không có trọng số như nhau trong quyết định cuối cùng (dự đoán cuối cùng) Những gốc cây tạo ra nhiều lỗi hơn sẽ có ít ý nghĩa hơn trong quyết định cuối cùng
- _ Cuối cùng, thứ tự thực hiện các gốc cây là rất quan trọng, bởi vì mỗi gốc cây nhăm mục đích giảm thiếu các lỗi mà (các) gốc cây trước đó đã mắc phải
=> Có thể sử dụng AdaBoost với nhiều công cụ dự đoán, và thuật toán này thường không nhạy cảm như các thuật toán tăng cường khác Cách tiếp cận này không hiệu quả khi có sự tương quan giữa các tính năng hoặc chiều đữ liệu lớn Nhin chung, AdaBoost là loại thuật toán tăng cường phù hợp cho các vấn đề phân loại
Hình 1.12 Ví dụ Sơ đồ của mô hình AdaBoosting
Gradient Boost cũng là một thuật toán tổng hợp sử đụng các phương pháp thúc đây (boosting) dé phat triển một công cụ dự đoán nâng cao Mặc dù điểm cuối cùng có thể gây nhằm lẫn, nhưng tất cả những gì bạn cần biết là Gradient Boost bắt đầu băng cách xây dựng một cây để cố găng phủ hợp với đữ liệu và các cây tiếp theo được xây dựng nhăm mục đích giảm phần dư (lỗi) Nó thực hiện điều này băng cách tập trung vào các khu vực mà những người học hiện có hoạt động kém, tương tự như AdaBoost
> Định nghĩa: Phân tích biệt thức tuyến tính (Linear Discriminant Analysis-LDA)
là một kỹ thuật có giám sát; trong đó LDA tối đa hóa độ tin cậy tuyến tính giữa
dữ liệu của các lớp khác nhau LDA tìm kiếm một kết hợp tuyến tính của các đặc trưng đề dựng hàm phân lớp của các đối tượng LDA mô hình hóa sự khác biệt giữa các lớp và LDA thường được sử dụng với dạng đữ liệu có kiểu sé
23