Đề án này nhằm mục đích sử dụng các phương pháp khoa học đề phân loOi động vật bằng cách phân tích các đặc điểm riêng biệt của chúng.. Chúng ta sẽ tìm hiểu và áp dụng các phương pháp của
Trang 1BO GIAO DUC VA DAO TAO
TRUONG DAI HOC KINH TE TPHCM
00000
UEH UNIVERSITY
DO AN
MÔN: KHOA HỌC DỮ LIỆU
Giáng viên hướng dẫn : TS.GVC Nguyễn Quốc Hùng
Mã lớp học phần : 24D3INF50905902
Thời gian nộp : 12/05/2024
Nhóm sinh viên thụchiện : Nhóm 8
Nguyễn Thượng Hoàng Minh — 88241020341
OQ GIAO DUC VA DAO TAO KY THI KET THUC HQC P
Trang 2TRUONG DAI HOC KINH TE TPHCM HINH THUC THI TLOTT
IL.Tổng quan về Khoa học dữ liệu 5
Trang 3CHUONG 2: TONG QUAN VE CHUONG TRINH SU DUNG VA CAC PHUONG PHAP
1.1 Théng ké bang cong cu Descriptive statistics? cccccccccccssiesscesesssesessreseestitsseeetseeseseaee 8
“1.2 Bao cáo tổng hợp nhóm với Subtotal: s s22 2 E1121121112112112212121212112222 1 re 9
“1.3.Hợp nhất dữ liệu với Consolidate: Sa c n1 15111111102 111111 11111011101 H111 Ha 9
“1.4.Tổng hợp đữ liệu đa chiều với PivotTable: 22 s2 1121222122112 12112222121 e 9 2.Phân tích dự báo: 9 2.1.Phương pháp: trung bình trượt (Moving Avera8©€): c n1 1n HH1 H1 H1 HH ch 9 2.2.Phương pháp: San bằng mũ (Exponential Smoothing): - + 221122511 2215112122221 2.6 10 2.3.Phương pháp: Hồi quy (Regression): - ccn2212221211 1212212222121 n ra 10
4.Tiền xử lý dữ liệu: 11
5,Các bước khai thác sử dụng khoa học dữ liệu: 13
5.1.Phân lớp đữ liệu: 2 1201212111 121111 1011221011010 1101111111110 11111 n1 H111 ng 13 5.2.Phân loOi thud Poan khai phá đữ liêtP ị S12 212 H1H211121112112 1121111 1H na 14
5.3.C6 2 1oO1 phan cum dit HOW ố dẢ 14
CHUONG 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẼ 15
Trang 44, Model Neural Network 22
CHUONG 4: DANH GIA VA KET LUAN 24
L Dựa vào các chỉ số đánh giá lựa chọn mô hình phù hợp: 24
1.Kết quả với tập dữ liệu Testing: 24
2.Kết quả khi sử dụng mô hình Confusion Matrix: 25
Trong thoi dOi céng nghé hién dOi, sw tiễn bộ của khoa học dữ liệu và trí tuệ nhân tOo đã
mở ra những cánh cửa mới đầy hứa hẹn cho lĩnh vực sinh học và bảo tồn động vật Áp
dụng các công nghệ này vào việc phân loÓi động vật không chỉ giúp chúng ta hiéu biết sdu sac hon vé sy da dOng sinh hoc trén hanh tinh nay ma con giup cap nhat thong tin quan trọng để bảo vệ và bảo tồn các loài động vật quý hiểm Đề án này nhằm mục đích sử dụng các phương pháp khoa học đề phân loOi động vật bằng cách phân tích các đặc điểm
riêng biệt của chúng
Lĩnh vực khoa học dữ liệu đã được chứng minh là mang lỚi nhiều lợi ích trong da dOng lĩnh vực khác nhau, bao gồm cả sinh học và sinh thái Hiểu được sự phong phú của các loài động vật và phân loOi cua chung là rất quan trọng cho việc nỗ lực bảo tồn, nghiên
cứu sinh thái và kiến thức khoa học tổng thể Với những tiến bộ trong kỹ thuật khoa học
dữ liệu, phân tích các tập dữ liệu lớn và rút ra những hiệu biết có ý nghĩa đã trở nên khả
thi
Đề án "Ứng dụng khoa học nhằm phân loÒi động vật dựa trên các thuộc tính của chúng”
không chỉ là một nhiệm vụ học thuật mà còn là một bước tiền quan trọng trong việc ứng dụng tri thức và công nghệ vào việc bảo tồn môi trường và đa dOng sinh học Chúng ta sẽ tìm hiểu và áp dụng các phương pháp của khoa học dữ liệu để xây dựng một hệ thống
phân loÓi thông minh, có khả năng nhận diện và phân loO1 các loài động vật dựa trên các
thuộc tính và đặc điểm sinh học của chúng
Chân thành cảm ơn sự hướng dẫn tận tâm trong suốt qua trình học tập và thực hiện đề án này từ Thầy TS.GVC Nguyên Quốc Hùng — giảng viên môn Khoa học dữ liệu, cũng như
sự đóng góp và hỗ trợ từ tất cả các thành viên trong nhóm
Trang 5BANG PHAN CONG CAC THANH VIEN
TT Ho va tén Công việc phụ Mức độ hoàn
trách thành
1 Nguyễn Thượng Hoàng Chương 3 100% Minh (Trưởng nhóm)
2 Châu Nguyễn Loan Tháo | Mở đầu + chương | 100%
3 Lam Thu Thuy Chuong 4 100%
4 TO Vũ Quỳnh Hương Chương 2 + thê thức 100%
CHUONG 1: GIỚI THIỆU VẺ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU VẺ
DE TAI
I.Tổng quan về Khoa học dữ liệu
Khoa học dữ liệu (Data Seience) là một lĩnh vực trong ngành công nghệ thông tin va khoa học máy tính Nó liên quan đên việc thu thập, xử lý, phân tích và trích xuât trị thức từ các dữ liệu đề tận dụng những thông tin hữu ích và đưa ra quyết định Khoa học đữ liệu kết hợp các phương pháp và công cụ từ nhiều lĩnh vực như thông
kê, toán học, khai phá dữ liệu, và vị xử lý dữ liệu Mục tiêu chính là tìm hiểu và áp
dụng các phương pháp và kỹ thuật đề hiệu và phân tích dữ liệu, từ đó tOo ra những thông tin có giá trị và kiến thức đề hỗ trợ các quyết định cũng như dự đoán trong các lĩnh vực khác nhau
« _ Thu thập dữ liệu: Tập trung vào thu thập dữ liệu từ nhiều nguồn khác nhau như cơ
sở dữ liệu, tệp tin, mÔng xã hội, cảm biến và các nguồn dữ liệu khác Sau đó lựa chọn và xử lý dữ liệu đê đám bảo tính chính xác và độ tin cậy của dữ liệu
« Tiền xử lý dữ liệu: Dữ liệu thường không được hoàn hảo và có thê chứa dữ liệu nhiễu, thiếu sót hoặc chưa chính xác Tiên xử lý đữ liệu là quá trình kiêm tra rồi
xử lý làm sÓch, chuyên đổi dữ liệu để loOi bỏ các vẫn đề nay
¢ Kham phá dữ liệu: Đây là giai doOn kham pha dé liéu dé hiểu, khám phá và tìm
hiểu các mẫu, xu hướng và thông tin tiềm ân trong dữ liệu Khai phá dữ liệu để
tìm ra thông tin quan trọng và đưa ra những phát hiện mới
« _ Mô hình hóa và dự đoán: Khoa học dữ liệu cung cấp các kỹ thuật và công cụ để
xây dựng mô hình dự đoán dựa trên dữ liệu có săn Biết được cách áp dụng các
Trang 6thuật tốn học máy và khai phá dữ liệu để tOo ra các mơ hình dự đốn và phân loOi cho các vấn đề cụ thể
¢ Trinh bay két qua dữ liệu: Biều diễn dữ liệu dưới dOng đồ thị, biêu đồ hoặc hình
anh dé truyén tái thơng tin một cách trực quan và dễ hiểu Qua đĩ hiển thị các dữ
liệu và phác thảo thơng tin từ dữ liệu
« Khai phá dữ liệu
+ Phương pháp khai phá dữ liệu: phân lớp, hồi quy, phân cụm, tổng hợp, mơ hình ràng buộc, dị tìm biên đơi và độ lệch
» Phân lớp dữ liệu
+ Các phương pháp phân lớp dữ liệu: hồi quy logistic, SVM (Support vector
machine), cây quyết định
ILToéng quan về đề tài
1.Lý do chọn đề tài
Phân loỊi động vật dựa trên thuộc tính của chúng là một phần quan trọng trong việc nghiên cứu sinh học, bảo tồn động vật hoặc để giáo dục Lý do quyết định chọn đề tài này là do cần thiết về việc hiểu biết nhằm bảo tồn các lồi động vật trong mơi trường chịu sự tác động của con người gây ra thay đơi về mơi trường sống và các hiện tượng biến đơi khí hậu Thơng qua áp dụng khoa học dữ liệu, chúng ta cĩ thé tOo ra các cơng
cụ giúp ích cho việc phân loÕi cĩ độ chính xác cao và hiểu biết một cách dé dang hon
về các lồi động vật như là theo dõi số lượng động vật trong tự nhiên, từ đĩ giúp ích
cho việc nghiên cứu và bảo tơn
2.Mục tiêu nghiên cứu
Muc tiéu chung: Phat triển hệ thống phân loOi động vật theo thuộc tính cĩ độ chính xác cao, hiệu quả và dễ sử dụng dựa trên dữ liệu khoa học
AMMục tiêu cụ thể:
¢ Kiém tra và so sánh một sơ phương pháp phân loOi động vật thơng qua phân tích
« _ Lựa chọn phương pháp phù hợp cho nhiệm vụ phân loỊi động vật
« _ Thu thập và chuân bị dữ liệu để hệ thống phân loOi động vật
« - Triển khai hệ thống các phương pháp phân loÕi động vật tự động đê xử lý dữ
liệu và đưa ra dự đốn kết qua
3.Phương pháp nghiên cứu
Phương pháp nghiên cứu mà nhĩm chọn là phân lớp dữ liệu thơng qua sử dụng các mơ hình cụ thé nhu H6i quy Logistic (Logistic Regression), SVM (Support Vector Machine), Cây quyết dinh (Decision Tree) va Neural Network Nghién curu sử dụng tập dữ liệu Zoo
6
Trang 7va céng cu Orange Data Mining dé xtr ly va phan tích dữ liệu
4.Nhiệm vụ nghiên cứu
« _ Xây dựng được một hệ thống thông minh có khả năng tự động phân loOi động vật dựa trên thuộc tính
- Ap dung các phương pháp thuộc khoa học dữ liệu nhằm xử lý và phân tích các
dữ liệu về động vật
«ồ Đưara đánh giá về hiệu suất làm việc của hệ thống phan loOi va tôi ưu hóa dOt được độ hiệu quả và chính xác cao
5.Dự kiến kết quả nghiên cứu
Dựa trên quan sát và đánh giá các chỉ số kiểm định trong bảng Ma trận nhằm lẫn, dự kiến phuong phap Logistic Regression sé có chi số kiêm định tốt nhất và độ nhằm lẫn dự báo thấp nhất so với thực tế Tiếp theo sẽ là phương pháp Neural Network, SVM và cuối cùng
là phương pháp Tree
ILL Don vị cung cấp dữ liệu
1.Chức năng nhiệm vụ
Thu thập và cung cấp các dữ liệu liên quan về động vật từ nhiều nguồn uy tín như:
« Tài liệu khoa học, tOp chi sách báo
+ Trang web ve dong vat ;
¢ Co so di liéu cua cac to chic bao ton động vật
« Video, hinh anh thu thập được từ internet
Xác định lưu trữ dữ liệu bao gồm thuộc tính và đặc điểm sinh học của động vật để hỗ trợ
nghiên cứu, bảo tôn và giáng dOy Đảm báo được độ chính xác đáng tin cậy va cập nhật
đữ liệu đây đủ Phát triên hệ thông giúp người dùng dê truy cập dê sử dụng dữ liệu 2.Sứ mệnh tầm nhìn
Trở thành nguồn tài liệu chất lượng đáng tin cậy về đa dOng dữ liệu động vật có thê hỗ trợ cho việc tiếp cận nghiên cứu, bảo tôn động vật và ứng dụng các lĩnh vực khác
3.Sản phẩm tiêu biểu
« _ Bộ dữ liệu phong phú về các động vật gom: thông tin tên khoa học, hình anh, các tập tính, thuộc tính, phân bô, phân bô
« - Công cụ tìm kiếm trực tuyến: dễ dàng tìm kiếm thông tin dựa trên đặc điểm
sinh học hoặc thuộc tính của động vật
7
Trang 8—_
Các báo cáo, nghiên cứu: cung cap cu thé thông tin về tình trOng bảo tồn động vật có độ tin cậy, đảm bảo tính ứng dụng dữ liệu cung cấp và đông thời có các phân tích quan trọng của các loài động vật
CHUONG 2: TONG QUAN VE CHUONG TRINH SU DUNG VA CAC
PHUONG PHAP SU DUNG
Cong cu quan trong trong khoa hoc di liéu:
Orange: Orange là một phần mềm mã nguồn mở dùng cho phân tích dữ liệu và
học máy Được thiết kế với mục tiêu làm cho quá trình khai thác dữ liệu trở
nên dễ dàng và trực quan hơn cho người dùng, Orange hỗ trợ người dùng qua một giao diện đồ họa người dùng dựa trên widget, cho phép kéo và thả các mô-
đun đề xử lý dữ liệu, phân tích và mô hình hóa
Excel: Microsoft Excel la mét phan mém bang tinh pho bién va mOnh mé, phat triên bởi Microsoft Nó là một phần của bộ ứng dụng văn phòng Microsoft Office, được sử dụng rộng rãi trong các lĩnh vực kinh doanh, giáo dục, tài chính, và bởi những người dùng cá nhân trên toàn thế giới Excel cung cấp nhiều chức năng cho phép người dùng nhập, lưu trữ, xử lý và phân tích dữ liệu phức tỚp với giao diện dựa trên bảng tính, làm cho nó trở thành công cụ lý tưởng cho nhiều nhu cầu khác nhau liên quan đến dữ liệu
I.Các phương pháp sử dụng Excel trong Khoa học dữ liệu:
1.Thống kê mô ta:
1.1.Thống kê bằng céng cu Descriptive statistics:
Trang 9Buéc 1: Chuan bi bang số liệu cần thống kê
Bước 2: Chọn lệnh Data —> Data Analysis —> Descriptive Statistics, xuất hiện hộp thoOi Descriptive Statistics
Bước 3: Khai báo các thông số Input và lựa chọn các thông số Output Options
1.2.Báo cáo tổng hợp nhóm với Subtotal:
Bước I: Sắp xếp đữ liệu theo cột mà ta muốn gom nhóm (Trong trường hợp này là Salesperson)
Bước 2: Chọn toàn bộ cơ sở dữ liệu hay click chuột vào một ô bat kỳ trên dữ liệu Bước 3: Chọn Data > Outline — Subtotal, xuất hiện hộp thoOi Subtotal
1.3.Hợp nhất dữ liệu với Consolidate:
Bước L: Chọn vùng sẽ chứa dữ liệu được hợp nhất
Busée 2: Chon Data — Data Tools — Consolidate, xuat hién hộp thoÓi
Consolidate
1.4.Tổng hợp dữ liệu đa chiều voi PivotTable:
Bước 1: Click vào ô bất kỳ trên cơ sở dữ liệu
Bước 2: Chọn lénh Insert — PivotTable
Bước 3: Xuất hiện hộp thoOi Create PivotTable, chọn dữ liệu nguồn và nơi chứa PivotTable, click nit OK
Bước 4: Drag cac tén field tt PivotTable Fields vao 4 khu vuc: FILTERS, ROWS, COLUMNS va VALUES
2.Phan tich dw bao:
2.1.Phương pháp: trung bình trượt (Moving Average):
Buéc 1: Chuan bi bang số liệu cần dự báo
Bước 2: Chọn lệnh Data — Data Analysis —> Moving Average, xuất hiện hộp thoOi Moving Average
Bước 3: Khai báo các thông số Input và Output Options
Trong đó:
+ Input Range : tham chiếu đến vùng dữ liệu thực tế
Trang 10+ Labels in First Row: Khai bao hang dau tién cia input range có chứa tiêu đề cột hay không
+ Interval: số lượng các kỳ trước đó muốn tính (w)
+ Output Rangc: tham chiêu đến vùng xuất kết quả Những ô không đủ số lượng các giá trị trước đó đề tính toán sẽ nhận giá trị #N/A
+ Chart Output: tùy chọn dùng tOo biểu đồ nhúng cùng với vùng xuất kết quả
+ Standard Errors: tùy chọn dùng tOo thém I cột chứa các sai số chuẩn
2.2.Phương pháp: San bằng mũ (Exponential Smoothing):
« - Bước l: Chuẩn bị bảng số liệu cần dự báo
« - Bước 2: Chọn lệnh Data —› Data Analysis—> Exponential Smoothing, xuất hiện
hộp thoO1 Exponential Smoothing
« - Bước 3: Khai báo các thông số Input và Output Options
Trong đó:
+ Input Range : tham chiếu đến vùng dữ liệu thực tế
+ Damping factor: gia trị dùng làm hệ số san bằng Đó là giá trị điều chỉnh sự bất ôn
cua dtr ligu, gia tri mac dinh la Damping factor (1-a) = 0.7
+ Labels: tùy chọn cho biết hàng/cột đầu tiên của input range có chứa tiêu đề hay không
2.3.Phuong phap: H6i quy (Regression):
Cách thực hiện bằng đồ thị:
« - Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo
« - Bước 2: Chọn lần lượt vùng địa chỉ chứa biến phụ thuộc Y, và vùng dia chi chửa
biến độc lập X
« - Bước 3: Vẽ đồ thi dOng Scatter
° - Bước 4: Chck chuột phải vao data series, chon Add Trendline
« - Bước 5: Tuy chọn hiên thi trong Trendline Options
+ Linear: dOng duong thang
+ Display Equation on chart
+ Display R-squared value on chart
Cách thực hiện bằng công cụ Regression:
« - Bước l: Chuẩn bị bảng số dữ liệu cần dự báo
¢ Budc 2: Chon lénh Data— Data Analysis — Regression, xuat hién hdép thoOi
Regression
10
Trang 11¢ Buc 3: Khai bao cac théng sé Input va Output Options
+ Input Y Range: Vung dia chi chứa bién phụ thuộc Y
+ Input X Range: Vùng địa chỉ chứa các biến độc lập X (Có thể chọn nhiều biến X trong trường hợp hồi quy đa biên)
+ Labels: Tích vào mục này đề khẳng định ô (các ô) đầu tiên không chứa dữ liệu hồi
quy
+ Constant is Zero: Tich vao muc này dé khang định hệ số tự do của hàm hồi quy
tuyên tính a = 0
3.Phân tích tối ưu:
Công cụ SOLVER để giải mô hình kinh tế:
« - Bước l: Thiết lập bang tinh
« - Bước 2: Chọn lệnh Data —> Analysis —> Solver
Khai báo các tham sô của bài toán:
+ Sct ObJective: Nhập ô chứa hàm mục tiêu, trong trường hợp này là $E$5
+ To: Chọn Max vì bài toán này là tôi đa hóa lợi nhuận
+ By Changing Variable Cells: Nhập ô chứa các biến quyết định, trong trường hợp này là
$C$4 :$D$4
+ Đưa các ràng buộc vào Subject to the Contraints bằng cách nhắn nút Add
- - Bước 3: Nhắn nút Solve đề giải mô hình
Khai báo các lựa chọn trong hộp thoOi Solver Results
+ Keep Solver Solution: Giữ kết quả và in ra bảng tính
+ Restore Original Values: Huỷ kết quả vừa tìm được và trả các biến về tình trOng ban đầu
+ Save Scenario: Lưu kết qua vừa tìm được thành một tỉnh huéng dé c6 thé xem 10i sau
nay
+ Có thể xuất hiện thêm cac dOng bao cao trong két qua: Answer, Sensitivity va Limits
« - Bước 4: Nhân nút OK để xem kết quả
4.Tiền xử lý dữ liệu:
11
Trang 12Là quá trình xử lý dữ liệu thô/gốc (raw/original data) nhằm cải thiện chất lượng dữ liệu
(quality of the data) va do do, cai thién chat lượng của kết quả khai phá
Dữ liệu thô/gốc: có thể có cầu trúc hoặc không có cầu trúc; nằm 6 nhiéu dinh dOng khac
nhau (tập tin hoặc CSDL)
Chat lượng đữ liệu (data quality): tính chính xác, tính hiện hành, tính toàn ven, tinh nhất quán
Các bước xử lý tiền dữ liệu:
Bước L: Làm sÓch dữ liệu (data cleaning/cleansing): loÒi bỏ nhiễu (remove noise), hiệu chỉnh những phân dữ liệu không nhật quán (correct data inconsistencies)
Bao gồm:
+ Xử lý dữ liệu bị thiéu (missing data)
+ Xử lý dữ liệu bị nhiễu (noisy data)
+ Xử lý dữ liệu không nhất quán
+ Tóm tắt hóa dữ liệu
Bước 2: Tích hợp dữ liệu (data integration): trộn dữ liệu (merge data) từ nhiều nguồn
khác nhau vào một kho dữ liệu
Bao gồm:
+ Vấn đề nhận dOng thực thê = Tích hợp lược đồ (schema integration) * So trùng đối tuong (object matching)
+ Van dé du thtra (redundancy)
+ Phát hiện và xử lý mâu thuẫn giá trị dữ liệu (detection and resolution of data value
+Téng quat hoa dit liéu (generalization)
+ Chuân hóa dữ liệu (normalization)
+ Xây dựng thuộc tích (attribute/feature construction)
12
Trang 13Bude 4: Rut gon dir héu (data reduction): thu giảm kích thước dữ liệu (nghĩa là giảm số phần tử) bằng kết hợp dữ liệu (data aggregation), 100i bỏ các đặc điểm dư thừa (redundant features) (nghĩa là giảm số chiều/thuộc tính đữ liệu), gom cụm đữ liệu
Bao gồm:
+ Két hop khéi dir liéu (data cube aggregation)
+ Chon tập con cac thudéc tinh (attribute subset selection)
+ Thu giam chiéu (dimensionality reduction)
+ Thu giam luong (numerosity reduction)
+ TOo phan cap y niém (concept hierarchy generation)
+ Roi rOc hoa (discretization)
5.Các bước khai thác sử dụng khoa học dữ liệu:
3.1.Phân lớp dữ liệu:
Quá trình phân lớp dữ liệu gồm 2 bước chính:
Bước 1: Xây dựng mô hình (hay còn gọi là giai đoOn “học” hoặc “huấn luyện”)
Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ
+ Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)
+ Bước 2.2: Phân lớp dữ liệu mới
+ Môt số phương pháp phân lớp:
« - Hỏi quy logistic (Logistic Regression): Là một mô hình xác suất dự đoán giá trị đầu ra TỜI rÖc từ một tập các giá trị đầu vào (biểu diễn dưới dOng vector)
« Cây quyết dinh (Decision Tree): Trong ly thuyét quan tri, cay quyết định là đồ thi cac quyét dinh cting cac két qua kha di di kem nham hỗ trợ quá trình ra quyết định Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loOi va tổng quát hóa tập dữ liệu cho trước
Ưu điểm: Dễ hiêu, không đòi hỏi việc chuân hóa dữ liệu, có thể xử lý trên nhiều
kiêu dữ liệu khác nhau, xử lý tôt một lượng dữ liệu lớn trong thời gian ngăn
Khuyết điểm: Khó giải quyết trong tình huỗng dữ liệu phụ thuộc thời gian, chỉ
phí xây dựng mô hỉnh cao
*® - SVMI(Support Vector Machine): ŠVM là một thuật toán có giảm sat, SVM nhận
dữ liệu vào, xem chúng như những các vector trong không gian và phân loÒI chúng vào các lớp khác nhau băng cách xây dựng một siêu phăng trong không gian nhiêu
13
Trang 14chiều làm mặt phân cách các lớp dữ liệu Dé tối ưu kết quả phân lớp thì phải xác định siêu phẳng (hyperplane) cĩ khoảng cách đến các điểm dữ liệu (margin) của tat cả các lớp xa nhất cĩ thể SVM cĩ nhiều biến thê phù hợp với các bài tốn phân loOI khác nhau
5.2.Phân loÕi thuâ Bản khai phá dữ liêt
« - Học cĩ giám sát:
+ Bài tốn phân lớp
+ Cĩ biến target y và phân dữ liêtvào các y phù hợp
« - Học khơng giám sát:
+ Bài tốn phân cụm
+ Khơng cĩ target y chi co features x
Phân cụm dữ liệu: là quá trình gom cụm/nhĩm các đơi tượng/dữ liêtPcĩ đặc điểm
tương đơng vào các cụm/nhĩm tương ứng
Trong đĩ:
« Các đối tượng trong cùng một cụm sẽ cĩ những tính chất tương tự nhau
* Các đơi tượng thuộc cụm/nhĩm khác nhau sẽ cĩ các tính chất khác nhau Lưu ý: Dữ liệt của bài tốn phân cụm là dữ liêtPchưa được gán nhẫn Dây là dữ liêu tự nhiên thường thây trong thực tê
3.3.Cĩ 2 loÕi phân cụm dữ liệu:
¢ Phan cum phan cap (Hierarchical clustering):
+ Xay dung mét cay phan cap cho dit liéPcan gom cum dua trén:
+ Ma traiPkhoang cach gitra cac phan tt (similarity matrix hoac dissimilarity matrix) + Độ đo khoảng cách giữa các cụm (single link, complete link ) ð Phương pháp này
khơng cân xác định trước sơ cụm nhưng cân xác định điệu kiêP dừng
+ Các phương phap dién hinh: Diana, Agnes
¢ Phan cum phan hoOch (Partitioning Clustering):
+ Phan tapPdtr liéPco n phân tử cho trước thành k ta con (k<=n), méi tajP con biéu