đồ án khoa học dữ liệu ứng dụng khoa học dữ liệu nhằm phân loại động vật dự trên các thuộc tính của chúng

Đề án này nhằm mục đích sử dụng các phương pháp khoa học đề phân loOi động vật bằng cách phân tích các đặc điểm riêng biệt của chúng.. Chúng ta sẽ tìm hiểu và áp dụng các phương pháp của

Trang 1

BO GIAO DUC VA DAO TAO

TRUONG DAI HOC KINH TE TPHCM

00000

UEH UNIVERSITY

DO AN

MÔN: KHOA HỌC DỮ LIỆU

Giáng viên hướng dẫn : TS.GVC Nguyễn Quốc Hùng

Mã lớp học phần : 24D3INF50905902

Thời gian nộp : 12/05/2024

Nhóm sinh viên thụchiện : Nhóm 8

Nguyễn Thượng Hoàng Minh — 88241020341

OQ GIAO DUC VA DAO TAO KY THI KET THUC HQC P

Trang 2

TRUONG DAI HOC KINH TE TPHCM HINH THUC THI TLOTT

IL.Tổng quan về Khoa học dữ liệu 5

Trang 3

CHUONG 2: TONG QUAN VE CHUONG TRINH SU DUNG VA CAC PHUONG PHAP

1.1 Théng ké bang cong cu Descriptive statistics? cccccccccccssiesscesesssesessreseestitsseeetseeseseaee 8

“1.2 Bao cáo tổng hợp nhóm với Subtotal: s s22 2 E1121121112112112212121212112222 1 re 9

“1.3.Hợp nhất dữ liệu với Consolidate: Sa c n1 15111111102 111111 11111011101 H111 Ha 9

“1.4.Tổng hợp đữ liệu đa chiều với PivotTable: 22 s2 1121222122112 12112222121 e 9 2.Phân tích dự báo: 9 2.1.Phương pháp: trung bình trượt (Moving Avera8©€): c n1 1n HH1 H1 H1 HH ch 9 2.2.Phương pháp: San bằng mũ (Exponential Smoothing): - + 221122511 2215112122221 2.6 10 2.3.Phương pháp: Hồi quy (Regression): - ccn2212221211 1212212222121 n ra 10

4.Tiền xử lý dữ liệu: 11

5,Các bước khai thác sử dụng khoa học dữ liệu: 13

5.1.Phân lớp đữ liệu: 2 1201212111 121111 1011221011010 1101111111110 11111 n1 H111 ng 13 5.2.Phân loOi thud Poan khai phá đữ liêtP ị S12 212 H1H211121112112 1121111 1H na 14

5.3.C6 2 1oO1 phan cum dit HOW ố dẢ 14

CHUONG 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẼ 15

Trang 4

4, Model Neural Network 22

CHUONG 4: DANH GIA VA KET LUAN 24

L Dựa vào các chỉ số đánh giá lựa chọn mô hình phù hợp: 24

1.Kết quả với tập dữ liệu Testing: 24

2.Kết quả khi sử dụng mô hình Confusion Matrix: 25

Trong thoi dOi céng nghé hién dOi, sw tiễn bộ của khoa học dữ liệu và trí tuệ nhân tOo đã

mở ra những cánh cửa mới đầy hứa hẹn cho lĩnh vực sinh học và bảo tồn động vật Áp

dụng các công nghệ này vào việc phân loÓi động vật không chỉ giúp chúng ta hiéu biết sdu sac hon vé sy da dOng sinh hoc trén hanh tinh nay ma con giup cap nhat thong tin quan trọng để bảo vệ và bảo tồn các loài động vật quý hiểm Đề án này nhằm mục đích sử dụng các phương pháp khoa học đề phân loOi động vật bằng cách phân tích các đặc điểm

riêng biệt của chúng

Lĩnh vực khoa học dữ liệu đã được chứng minh là mang lỚi nhiều lợi ích trong da dOng lĩnh vực khác nhau, bao gồm cả sinh học và sinh thái Hiểu được sự phong phú của các loài động vật và phân loOi cua chung là rất quan trọng cho việc nỗ lực bảo tồn, nghiên

cứu sinh thái và kiến thức khoa học tổng thể Với những tiến bộ trong kỹ thuật khoa học

dữ liệu, phân tích các tập dữ liệu lớn và rút ra những hiệu biết có ý nghĩa đã trở nên khả

thi

Đề án "Ứng dụng khoa học nhằm phân loÒi động vật dựa trên các thuộc tính của chúng”

không chỉ là một nhiệm vụ học thuật mà còn là một bước tiền quan trọng trong việc ứng dụng tri thức và công nghệ vào việc bảo tồn môi trường và đa dOng sinh học Chúng ta sẽ tìm hiểu và áp dụng các phương pháp của khoa học dữ liệu để xây dựng một hệ thống

phân loÓi thông minh, có khả năng nhận diện và phân loO1 các loài động vật dựa trên các

thuộc tính và đặc điểm sinh học của chúng

Chân thành cảm ơn sự hướng dẫn tận tâm trong suốt qua trình học tập và thực hiện đề án này từ Thầy TS.GVC Nguyên Quốc Hùng — giảng viên môn Khoa học dữ liệu, cũng như

sự đóng góp và hỗ trợ từ tất cả các thành viên trong nhóm

Trang 5

BANG PHAN CONG CAC THANH VIEN

TT Ho va tén Công việc phụ Mức độ hoàn

trách thành

1 Nguyễn Thượng Hoàng Chương 3 100% Minh (Trưởng nhóm)

2 Châu Nguyễn Loan Tháo | Mở đầu + chương | 100%

3 Lam Thu Thuy Chuong 4 100%

4 TO Vũ Quỳnh Hương Chương 2 + thê thức 100%

CHUONG 1: GIỚI THIỆU VẺ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU VẺ

DE TAI

I.Tổng quan về Khoa học dữ liệu

Khoa học dữ liệu (Data Seience) là một lĩnh vực trong ngành công nghệ thông tin va khoa học máy tính Nó liên quan đên việc thu thập, xử lý, phân tích và trích xuât trị thức từ các dữ liệu đề tận dụng những thông tin hữu ích và đưa ra quyết định Khoa học đữ liệu kết hợp các phương pháp và công cụ từ nhiều lĩnh vực như thông

kê, toán học, khai phá dữ liệu, và vị xử lý dữ liệu Mục tiêu chính là tìm hiểu và áp

dụng các phương pháp và kỹ thuật đề hiệu và phân tích dữ liệu, từ đó tOo ra những thông tin có giá trị và kiến thức đề hỗ trợ các quyết định cũng như dự đoán trong các lĩnh vực khác nhau

« _ Thu thập dữ liệu: Tập trung vào thu thập dữ liệu từ nhiều nguồn khác nhau như cơ

sở dữ liệu, tệp tin, mÔng xã hội, cảm biến và các nguồn dữ liệu khác Sau đó lựa chọn và xử lý dữ liệu đê đám bảo tính chính xác và độ tin cậy của dữ liệu

« Tiền xử lý dữ liệu: Dữ liệu thường không được hoàn hảo và có thê chứa dữ liệu nhiễu, thiếu sót hoặc chưa chính xác Tiên xử lý đữ liệu là quá trình kiêm tra rồi

xử lý làm sÓch, chuyên đổi dữ liệu để loOi bỏ các vẫn đề nay

¢ Kham phá dữ liệu: Đây là giai doOn kham pha dé liéu dé hiểu, khám phá và tìm

hiểu các mẫu, xu hướng và thông tin tiềm ân trong dữ liệu Khai phá dữ liệu để

tìm ra thông tin quan trọng và đưa ra những phát hiện mới

« _ Mô hình hóa và dự đoán: Khoa học dữ liệu cung cấp các kỹ thuật và công cụ để

xây dựng mô hình dự đoán dựa trên dữ liệu có săn Biết được cách áp dụng các

Trang 6

thuật tốn học máy và khai phá dữ liệu để tOo ra các mơ hình dự đốn và phân loOi cho các vấn đề cụ thể

¢ Trinh bay két qua dữ liệu: Biều diễn dữ liệu dưới dOng đồ thị, biêu đồ hoặc hình

anh dé truyén tái thơng tin một cách trực quan và dễ hiểu Qua đĩ hiển thị các dữ

liệu và phác thảo thơng tin từ dữ liệu

« Khai phá dữ liệu

+ Phương pháp khai phá dữ liệu: phân lớp, hồi quy, phân cụm, tổng hợp, mơ hình ràng buộc, dị tìm biên đơi và độ lệch

» Phân lớp dữ liệu

+ Các phương pháp phân lớp dữ liệu: hồi quy logistic, SVM (Support vector

machine), cây quyết định

ILToéng quan về đề tài

1.Lý do chọn đề tài

Phân loỊi động vật dựa trên thuộc tính của chúng là một phần quan trọng trong việc nghiên cứu sinh học, bảo tồn động vật hoặc để giáo dục Lý do quyết định chọn đề tài này là do cần thiết về việc hiểu biết nhằm bảo tồn các lồi động vật trong mơi trường chịu sự tác động của con người gây ra thay đơi về mơi trường sống và các hiện tượng biến đơi khí hậu Thơng qua áp dụng khoa học dữ liệu, chúng ta cĩ thé tOo ra các cơng

cụ giúp ích cho việc phân loÕi cĩ độ chính xác cao và hiểu biết một cách dé dang hon

về các lồi động vật như là theo dõi số lượng động vật trong tự nhiên, từ đĩ giúp ích

cho việc nghiên cứu và bảo tơn

2.Mục tiêu nghiên cứu

Muc tiéu chung: Phat triển hệ thống phân loOi động vật theo thuộc tính cĩ độ chính xác cao, hiệu quả và dễ sử dụng dựa trên dữ liệu khoa học

AMMục tiêu cụ thể:

¢ Kiém tra và so sánh một sơ phương pháp phân loOi động vật thơng qua phân tích

« _ Lựa chọn phương pháp phù hợp cho nhiệm vụ phân loỊi động vật

« _ Thu thập và chuân bị dữ liệu để hệ thống phân loOi động vật

« - Triển khai hệ thống các phương pháp phân loÕi động vật tự động đê xử lý dữ

liệu và đưa ra dự đốn kết qua

3.Phương pháp nghiên cứu

Phương pháp nghiên cứu mà nhĩm chọn là phân lớp dữ liệu thơng qua sử dụng các mơ hình cụ thé nhu H6i quy Logistic (Logistic Regression), SVM (Support Vector Machine), Cây quyết dinh (Decision Tree) va Neural Network Nghién curu sử dụng tập dữ liệu Zoo

6

Trang 7

va céng cu Orange Data Mining dé xtr ly va phan tích dữ liệu

4.Nhiệm vụ nghiên cứu

« _ Xây dựng được một hệ thống thông minh có khả năng tự động phân loOi động vật dựa trên thuộc tính

- Ap dung các phương pháp thuộc khoa học dữ liệu nhằm xử lý và phân tích các

dữ liệu về động vật

«ồ Đưara đánh giá về hiệu suất làm việc của hệ thống phan loOi va tôi ưu hóa dOt được độ hiệu quả và chính xác cao

5.Dự kiến kết quả nghiên cứu

Dựa trên quan sát và đánh giá các chỉ số kiểm định trong bảng Ma trận nhằm lẫn, dự kiến phuong phap Logistic Regression sé có chi số kiêm định tốt nhất và độ nhằm lẫn dự báo thấp nhất so với thực tế Tiếp theo sẽ là phương pháp Neural Network, SVM và cuối cùng

là phương pháp Tree

ILL Don vị cung cấp dữ liệu

1.Chức năng nhiệm vụ

Thu thập và cung cấp các dữ liệu liên quan về động vật từ nhiều nguồn uy tín như:

« Tài liệu khoa học, tOp chi sách báo

+ Trang web ve dong vat ;

¢ Co so di liéu cua cac to chic bao ton động vật

« Video, hinh anh thu thập được từ internet

Xác định lưu trữ dữ liệu bao gồm thuộc tính và đặc điểm sinh học của động vật để hỗ trợ

nghiên cứu, bảo tôn và giáng dOy Đảm báo được độ chính xác đáng tin cậy va cập nhật

đữ liệu đây đủ Phát triên hệ thông giúp người dùng dê truy cập dê sử dụng dữ liệu 2.Sứ mệnh tầm nhìn

Trở thành nguồn tài liệu chất lượng đáng tin cậy về đa dOng dữ liệu động vật có thê hỗ trợ cho việc tiếp cận nghiên cứu, bảo tôn động vật và ứng dụng các lĩnh vực khác

3.Sản phẩm tiêu biểu

« _ Bộ dữ liệu phong phú về các động vật gom: thông tin tên khoa học, hình anh, các tập tính, thuộc tính, phân bô, phân bô

« - Công cụ tìm kiếm trực tuyến: dễ dàng tìm kiếm thông tin dựa trên đặc điểm

sinh học hoặc thuộc tính của động vật

7

Trang 8

—_

Các báo cáo, nghiên cứu: cung cap cu thé thông tin về tình trOng bảo tồn động vật có độ tin cậy, đảm bảo tính ứng dụng dữ liệu cung cấp và đông thời có các phân tích quan trọng của các loài động vật

CHUONG 2: TONG QUAN VE CHUONG TRINH SU DUNG VA CAC

PHUONG PHAP SU DUNG

Cong cu quan trong trong khoa hoc di liéu:

Orange: Orange là một phần mềm mã nguồn mở dùng cho phân tích dữ liệu và

học máy Được thiết kế với mục tiêu làm cho quá trình khai thác dữ liệu trở

nên dễ dàng và trực quan hơn cho người dùng, Orange hỗ trợ người dùng qua một giao diện đồ họa người dùng dựa trên widget, cho phép kéo và thả các mô-

đun đề xử lý dữ liệu, phân tích và mô hình hóa

Excel: Microsoft Excel la mét phan mém bang tinh pho bién va mOnh mé, phat triên bởi Microsoft Nó là một phần của bộ ứng dụng văn phòng Microsoft Office, được sử dụng rộng rãi trong các lĩnh vực kinh doanh, giáo dục, tài chính, và bởi những người dùng cá nhân trên toàn thế giới Excel cung cấp nhiều chức năng cho phép người dùng nhập, lưu trữ, xử lý và phân tích dữ liệu phức tỚp với giao diện dựa trên bảng tính, làm cho nó trở thành công cụ lý tưởng cho nhiều nhu cầu khác nhau liên quan đến dữ liệu

I.Các phương pháp sử dụng Excel trong Khoa học dữ liệu:

1.Thống kê mô ta:

1.1.Thống kê bằng céng cu Descriptive statistics:

Trang 9

Buéc 1: Chuan bi bang số liệu cần thống kê

Bước 2: Chọn lệnh Data —> Data Analysis —> Descriptive Statistics, xuất hiện hộp thoOi Descriptive Statistics

Bước 3: Khai báo các thông số Input và lựa chọn các thông số Output Options

1.2.Báo cáo tổng hợp nhóm với Subtotal:

Bước I: Sắp xếp đữ liệu theo cột mà ta muốn gom nhóm (Trong trường hợp này là Salesperson)

Bước 2: Chọn toàn bộ cơ sở dữ liệu hay click chuột vào một ô bat kỳ trên dữ liệu Bước 3: Chọn Data > Outline — Subtotal, xuất hiện hộp thoOi Subtotal

1.3.Hợp nhất dữ liệu với Consolidate:

Bước L: Chọn vùng sẽ chứa dữ liệu được hợp nhất

Busée 2: Chon Data — Data Tools — Consolidate, xuat hién hộp thoÓi

Consolidate

1.4.Tổng hợp dữ liệu đa chiều voi PivotTable:

Bước 1: Click vào ô bất kỳ trên cơ sở dữ liệu

Bước 2: Chọn lénh Insert — PivotTable

Bước 3: Xuất hiện hộp thoOi Create PivotTable, chọn dữ liệu nguồn và nơi chứa PivotTable, click nit OK

Bước 4: Drag cac tén field tt PivotTable Fields vao 4 khu vuc: FILTERS, ROWS, COLUMNS va VALUES

2.Phan tich dw bao:

2.1.Phương pháp: trung bình trượt (Moving Average):

Buéc 1: Chuan bi bang số liệu cần dự báo

Bước 2: Chọn lệnh Data — Data Analysis —> Moving Average, xuất hiện hộp thoOi Moving Average

Bước 3: Khai báo các thông số Input và Output Options

Trong đó:

+ Input Range : tham chiếu đến vùng dữ liệu thực tế

Trang 10

+ Labels in First Row: Khai bao hang dau tién cia input range có chứa tiêu đề cột hay không

+ Interval: số lượng các kỳ trước đó muốn tính (w)

+ Output Rangc: tham chiêu đến vùng xuất kết quả Những ô không đủ số lượng các giá trị trước đó đề tính toán sẽ nhận giá trị #N/A

+ Chart Output: tùy chọn dùng tOo biểu đồ nhúng cùng với vùng xuất kết quả

+ Standard Errors: tùy chọn dùng tOo thém I cột chứa các sai số chuẩn

2.2.Phương pháp: San bằng mũ (Exponential Smoothing):

« - Bước l: Chuẩn bị bảng số liệu cần dự báo

« - Bước 2: Chọn lệnh Data —› Data Analysis—> Exponential Smoothing, xuất hiện

hộp thoO1 Exponential Smoothing

« - Bước 3: Khai báo các thông số Input và Output Options

Trong đó:

+ Input Range : tham chiếu đến vùng dữ liệu thực tế

+ Damping factor: gia trị dùng làm hệ số san bằng Đó là giá trị điều chỉnh sự bất ôn

cua dtr ligu, gia tri mac dinh la Damping factor (1-a) = 0.7

+ Labels: tùy chọn cho biết hàng/cột đầu tiên của input range có chứa tiêu đề hay không

2.3.Phuong phap: H6i quy (Regression):

Cách thực hiện bằng đồ thị:

« - Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo

« - Bước 2: Chọn lần lượt vùng địa chỉ chứa biến phụ thuộc Y, và vùng dia chi chửa

biến độc lập X

« - Bước 3: Vẽ đồ thi dOng Scatter

° - Bước 4: Chck chuột phải vao data series, chon Add Trendline

« - Bước 5: Tuy chọn hiên thi trong Trendline Options

+ Linear: dOng duong thang

+ Display Equation on chart

+ Display R-squared value on chart

Cách thực hiện bằng công cụ Regression:

« - Bước l: Chuẩn bị bảng số dữ liệu cần dự báo

¢ Budc 2: Chon lénh Data— Data Analysis — Regression, xuat hién hdép thoOi

Regression

10

Trang 11

¢ Buc 3: Khai bao cac théng sé Input va Output Options

+ Input Y Range: Vung dia chi chứa bién phụ thuộc Y

+ Input X Range: Vùng địa chỉ chứa các biến độc lập X (Có thể chọn nhiều biến X trong trường hợp hồi quy đa biên)

+ Labels: Tích vào mục này đề khẳng định ô (các ô) đầu tiên không chứa dữ liệu hồi

quy

+ Constant is Zero: Tich vao muc này dé khang định hệ số tự do của hàm hồi quy

tuyên tính a = 0

3.Phân tích tối ưu:

Công cụ SOLVER để giải mô hình kinh tế:

« - Bước l: Thiết lập bang tinh

« - Bước 2: Chọn lệnh Data —> Analysis —> Solver

Khai báo các tham sô của bài toán:

+ Sct ObJective: Nhập ô chứa hàm mục tiêu, trong trường hợp này là $E$5

+ To: Chọn Max vì bài toán này là tôi đa hóa lợi nhuận

+ By Changing Variable Cells: Nhập ô chứa các biến quyết định, trong trường hợp này là

$C$4 :$D$4

+ Đưa các ràng buộc vào Subject to the Contraints bằng cách nhắn nút Add

- - Bước 3: Nhắn nút Solve đề giải mô hình

Khai báo các lựa chọn trong hộp thoOi Solver Results

+ Keep Solver Solution: Giữ kết quả và in ra bảng tính

+ Restore Original Values: Huỷ kết quả vừa tìm được và trả các biến về tình trOng ban đầu

+ Save Scenario: Lưu kết qua vừa tìm được thành một tỉnh huéng dé c6 thé xem 10i sau

nay

+ Có thể xuất hiện thêm cac dOng bao cao trong két qua: Answer, Sensitivity va Limits

« - Bước 4: Nhân nút OK để xem kết quả

4.Tiền xử lý dữ liệu:

11

Trang 12

Là quá trình xử lý dữ liệu thô/gốc (raw/original data) nhằm cải thiện chất lượng dữ liệu

(quality of the data) va do do, cai thién chat lượng của kết quả khai phá

Dữ liệu thô/gốc: có thể có cầu trúc hoặc không có cầu trúc; nằm 6 nhiéu dinh dOng khac

nhau (tập tin hoặc CSDL)

Chat lượng đữ liệu (data quality): tính chính xác, tính hiện hành, tính toàn ven, tinh nhất quán

Các bước xử lý tiền dữ liệu:

Bước L: Làm sÓch dữ liệu (data cleaning/cleansing): loÒi bỏ nhiễu (remove noise), hiệu chỉnh những phân dữ liệu không nhật quán (correct data inconsistencies)

Bao gồm:

+ Xử lý dữ liệu bị thiéu (missing data)

+ Xử lý dữ liệu bị nhiễu (noisy data)

+ Xử lý dữ liệu không nhất quán

+ Tóm tắt hóa dữ liệu

Bước 2: Tích hợp dữ liệu (data integration): trộn dữ liệu (merge data) từ nhiều nguồn

khác nhau vào một kho dữ liệu

Bao gồm:

+ Vấn đề nhận dOng thực thê = Tích hợp lược đồ (schema integration) * So trùng đối tuong (object matching)

+ Van dé du thtra (redundancy)

+ Phát hiện và xử lý mâu thuẫn giá trị dữ liệu (detection and resolution of data value

+Téng quat hoa dit liéu (generalization)

+ Chuân hóa dữ liệu (normalization)

+ Xây dựng thuộc tích (attribute/feature construction)

12

Trang 13

Bude 4: Rut gon dir héu (data reduction): thu giảm kích thước dữ liệu (nghĩa là giảm số phần tử) bằng kết hợp dữ liệu (data aggregation), 100i bỏ các đặc điểm dư thừa (redundant features) (nghĩa là giảm số chiều/thuộc tính đữ liệu), gom cụm đữ liệu

Bao gồm:

+ Két hop khéi dir liéu (data cube aggregation)

+ Chon tập con cac thudéc tinh (attribute subset selection)

+ Thu giam chiéu (dimensionality reduction)

+ Thu giam luong (numerosity reduction)

+ TOo phan cap y niém (concept hierarchy generation)

+ Roi rOc hoa (discretization)

5.Các bước khai thác sử dụng khoa học dữ liệu:

3.1.Phân lớp dữ liệu:

Quá trình phân lớp dữ liệu gồm 2 bước chính:

Bước 1: Xây dựng mô hình (hay còn gọi là giai đoOn “học” hoặc “huấn luyện”)

Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ

+ Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)

+ Bước 2.2: Phân lớp dữ liệu mới

+ Môt số phương pháp phân lớp:

« - Hỏi quy logistic (Logistic Regression): Là một mô hình xác suất dự đoán giá trị đầu ra TỜI rÖc từ một tập các giá trị đầu vào (biểu diễn dưới dOng vector)

« Cây quyết dinh (Decision Tree): Trong ly thuyét quan tri, cay quyết định là đồ thi cac quyét dinh cting cac két qua kha di di kem nham hỗ trợ quá trình ra quyết định Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loOi va tổng quát hóa tập dữ liệu cho trước

Ưu điểm: Dễ hiêu, không đòi hỏi việc chuân hóa dữ liệu, có thể xử lý trên nhiều

kiêu dữ liệu khác nhau, xử lý tôt một lượng dữ liệu lớn trong thời gian ngăn

Khuyết điểm: Khó giải quyết trong tình huỗng dữ liệu phụ thuộc thời gian, chỉ

phí xây dựng mô hỉnh cao

*® - SVMI(Support Vector Machine): ŠVM là một thuật toán có giảm sat, SVM nhận

dữ liệu vào, xem chúng như những các vector trong không gian và phân loÒI chúng vào các lớp khác nhau băng cách xây dựng một siêu phăng trong không gian nhiêu

13

Trang 14

chiều làm mặt phân cách các lớp dữ liệu Dé tối ưu kết quả phân lớp thì phải xác định siêu phẳng (hyperplane) cĩ khoảng cách đến các điểm dữ liệu (margin) của tat cả các lớp xa nhất cĩ thể SVM cĩ nhiều biến thê phù hợp với các bài tốn phân loOI khác nhau

5.2.Phân loÕi thuâ Bản khai phá dữ liêt

« - Học cĩ giám sát:

+ Bài tốn phân lớp

+ Cĩ biến target y và phân dữ liêtvào các y phù hợp

« - Học khơng giám sát:

+ Bài tốn phân cụm

+ Khơng cĩ target y chi co features x

Phân cụm dữ liệu: là quá trình gom cụm/nhĩm các đơi tượng/dữ liêtPcĩ đặc điểm

tương đơng vào các cụm/nhĩm tương ứng

Trong đĩ:

« Các đối tượng trong cùng một cụm sẽ cĩ những tính chất tương tự nhau

* Các đơi tượng thuộc cụm/nhĩm khác nhau sẽ cĩ các tính chất khác nhau Lưu ý: Dữ liệt của bài tốn phân cụm là dữ liêtPchưa được gán nhẫn Dây là dữ liêu tự nhiên thường thây trong thực tê

3.3.Cĩ 2 loÕi phân cụm dữ liệu:

¢ Phan cum phan cap (Hierarchical clustering):

+ Xay dung mét cay phan cap cho dit liéPcan gom cum dua trén:

+ Ma traiPkhoang cach gitra cac phan tt (similarity matrix hoac dissimilarity matrix) + Độ đo khoảng cách giữa các cụm (single link, complete link ) ð Phương pháp này

khơng cân xác định trước sơ cụm nhưng cân xác định điệu kiêP dừng

+ Các phương phap dién hinh: Diana, Agnes

¢ Phan cum phan hoOch (Partitioning Clustering):

+ Phan tapPdtr liéPco n phân tử cho trước thành k ta con (k<=n), méi tajP con biéu

Tiêu đề	Ứng dụng khoa học dữ liệu nhằm phân loại động vật dựa trên các thuộc tính của chúng
Tác giả	Nguyễn Thượng Hoàng Minh, Chõu Nguyễn Loan Thảo, Lõm Thu Thủy, Tạ Vũ Quỳnh Hương
Người hướng dẫn	TS.GVC Nguyễn Quốc Hựng
Trường học	Trường Đại Học Kinh Tế Tp.HCM
Chuyên ngành	Khoa học dữ liệu
Thể loại	Đồ án
Năm xuất bản	2024
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	28
Dung lượng	5,78 MB