1. Trang chủ
  2. » Thể loại khác

Đồ án khoa học dữ liệu

23 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 23
Dung lượng 1,65 MB

Nội dung

Đồ án KHOA HỌC DỮ LIỆU ĐH KINH TẾ PHÂN TÍCH DỮ LIỆU PHÂN LOÀI ĐỘNG VẬT TỪ ĐẶC TÍNH DỰA TRÊN BỘ DỮ LIỆU ZOO ANIMALS EXTENDED DATASET BẰNG PHẦN MỀM ORANGE ...................................................................................................................................................

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC UEH TRƯỜNG KINH DOANH ✍✍✍ ĐỒ ÁN MÔN HỌC ĐỀ TÀI: PHÂN TÍCH DỮ LIỆU PHÂN LỒI ĐỘNG VẬT TỪ ĐẶC TÍNH DỰA TRÊN BỘ DỮ LIỆU ZOO ANIMALS EXTENDED DATASET BẰNG PHẦN MỀM ORANGE Học phần: Khoa Học Dữ Liệu Nhóm Sinh Viên: Chuyên Ngành: Khóa: K46 Giảng Viên: TS Đặng Ngọc Hồng Thành TP Hồ Chí Minh, Ngày 25 tháng 05 năm 2022 MỤC LỤC MỤC LỤC CHƯƠNG TỔNG QUAN 1.1 Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu 1.1.1 Khái niệm phân lớp liệu 1.1.2 Quá trình phân lớp liệu 1.2 Giới Thiệu Về Python Và Phần Mềm Orange 1.2.1 Giới thiệu Python 1.2.2 Giới thiệu Orange 1.3 Lý Do Chọn Lựa Đề Tài 2 2 2 3 CHƯƠNG CÁC MƠ HÌNH PHÂN LỚP DỮ LIỆU 2.1 Các Mơ Hình Phân Lớp Dữ Liệu 2.1.1 Mơ Hình Logistic Regression 2.1.2 Mơ Hình Decision Tree 2.1.3 Mơ Hình Support Vector Machine 2.1.4 Mơ Hình Neural Network 2.2 Quy Trình Phân Lớp Dữ Liệu 2.2.1 Phân Lớp Dữ Liệu 2.2.2 Đánh Giá Tính Hiệu Quả 4 4 5 CHƯƠNG CÁC KẾT QUẢ THỰC NGHIỆM 3.1 Bộ Dữ Liệu 3.2 Các Kết Quả Thực Nghiệm 3.2.1 Hình Thể Hiện: Mơ Hình Phân Lớp Bộ Dữ Liệu Trên Orange 3.2.2 Kết Quả Với Tập Dữ Liệu Testing 3.2.3 Kết Quả Với Tập Dữ Liệu Predictions 3.3 Phân Tích Đánh Giá 8 9 11 17 CHƯƠNG KẾT LUẬN 4.1 Các Kết Quả Đạt Được 4.2 Những Hạn Chế Hướng Phát Triển 21 21 21 TÀI LIỆU THAM KHẢO 22 CHƯƠNG TỔNG QUAN 1.1 Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu 1.1.1 Khái niệm phân lớp liệu Là trình phân đối tượng liệu vào hay nhiều lớp (loại) cho trước nhờ mơ hình phân lớp Mơ hình xây dựng dựa tập liệu gán nhãn trước (thuộc lớp nào) Quá trình gán nhãn (thuộc lớp nào) cho đối tượng liệu q trình phân lớp liệu 1.1.2 Quá trình phân lớp liệu Dữ liệu huấn luyện Dữ liệu kiểm thử Thuật toán phân lớp Kết phân lớp dùng để đánh giá mơ hình Mơ hình phân lớp Kết phân lớp thực tế Dữ liệu 1.2 Giới Thiệu Về Python Và Phần Mềm Orange 1.2.1 Giới thiệu Python Python ngôn ngữ lập trình hướng đối tượng, cấp cao, mạnh mẽ, tạo Guido van Rossum Nó dễ dàng để tìm hiểu lên ngơn ngữ lập trình nhập mơn tốt cho người lần đầu tiếp xúc với ngơn ngữ lập trình Python hoàn toàn tạo kiểu động sử dụng chế cấp phát nhớ tự động Python có cấu trúc liệu cấp cao mạnh mẽ cách tiếp cận đơn giản hiệu lập trình hướng đối tượng Cú pháp lệnh Python điểm cộng vơ lớn rõ ràng, dễ hiểu cách gõ linh động làm cho nhanh chóng trở thành ngôn ngữ lý tưởng để viết script phát triển ứng dụng nhiều lĩnh vực, hầu hết tảng 1.2.2 Giới thiệu Orange Orange thư viện quy trình đối tượng cốt lõi C++ kết hợp nhiều thuật toán Data mining học máy tiêu chuẩn không tiêu chuẩn Nó cơng cụ trực quan hóa liệu, Data mining máy học nguồn mở Orange mơi trường viết kịch để tạo mẫu nhanh thuật toán mẫu thử nghiệm Nó nhóm mơ-đun dựa python tồn thư viện lõi Nó triển khai số chức mà thời gian thực thi không cần thiết điều thực Python Nó kết hợp nhiều tác vụ in đẹp định, đóng gói tăng cường, tập hợp thuộc tính, v.v Orange tập hợp widget đồ họa sử dụng chiến lược từ thư viện lõi mô-đun Orange mang lại giao diện người dùng tốt Tiện ích hỗ trợ giao tiếp dựa kỹ thuật số tập hợp lại với thành ứng dụng cơng cụ lập trình trực quan gọi canvas Orange 1.3 Lý Do Chọn Lựa Đề Tài Đối mặt với biến đổi khí hậu Trái Đất, nhiều loài động vật đứng trước nguy bị tuyệt chủng Việc xây dựng sở thú biện pháp giúp cung cấp hiểu biết phụ thuộc lẫn loài động vật môi trường sống chúng, đồng thời tiến hành chương trình bảo tồn động vật tự nhiên, bao gồm chương trình nhân giống để đưa lồi có nguy tuyệt chủng trở lại mơi trường tự nhiên chúng Tuy nhiên, để chăm sóc lồi động vật cách hiệu hợp lý nhất, cần phải tìm hiểu rõ đặc tính chúng Trong dự án này, chúng tơi khơng khuyến khích bạn bắt giữ ni lồi động vật khác nhau, chúng tơi làm dự án với mục đích lớn khác bảo tồn, gìn giữ lồi động vật, đặc biệt loài động vật đứng trước nguy bị tuyệt chủng, góp phần bảo vệ hệ sinh thái, mơi trường sống xung quanh Và để thực dự án, lựa chọn bậc phân loại lớp bậc phân loại sinh học (trong dự án nhóm sử dụng bậc phân loại lớp từ 3-7) Tóm lại, với dự án này, chúng tơi “Phân lồi động vật vào lớp động vật dựa thuộc tính chúng” (bằng cơng cụ hỗ trợ Orange) Mục đích đề tài phát loài động vật để bảo tồn lồi động vật q hiếm, người biết cách chăm sóc tốt cho chúng, để chúng phát triển tốt môi trường ngày CHƯƠNG CÁC MƠ HÌNH PHÂN LỚP DỮ LIỆU 2.1 Các Mơ Hình Phân Lớp Dữ Liệu 2.1.1 Mơ Hình Logistic Regression Là mơ hình xác suất dự đốn giá trị đầu rời rạc từ tập giá trị đầu vào (biểu diễn dạng vector) 2.1.2 Mơ Hình Decision Tree Trong lý thuyết quản trị, Decision Tree đồ thị định kết kèm nhằm hỗ trợ trình định Trong lĩnh vực khai phá liệu, Decision Tree phương pháp nhằm mô tả, phân loại tổng quát hóa tập liệu cho trước Ưu điểm: - Dễ hiểu - Khơng địi hỏi việc chuẩn hóa liệu - Có thể xử lý nhiều kiểu liệu khác - Xử lý tốt lượng liệu lớn thời gian ngắn Khuyết điểm: - Khó giải tình liệu phụ thuộc thời gian - Chi phí xây dựng mơ hình cao 2.1.3 Mơ Hình Support Vector Machine SVM thuật tốn có giám sát, SVM nhận liệu vào, xem chúng vector không gian phân loại chúng vào lớp khác cách xây dựng siêu phẳng không gian nhiều chiều làm mặt phân cách lớp liệu Để tối ưu kết phân lớp phải xác định siêu phẳng (hyperplane) có khoảng cách đến điểm liệu (margin) tất lớp xa SVM có nhiều biến thể phù hợp với toán phân loại khác Các biến thể SVM: Loại SVM Tính chất Hard Margin SVM Hai lớp cần phân lớp phân chia tuyến tính (linearly seperable) Soft Margin SVM Hai lớp cần phân lớp “gần” phân chia tuyến tính (almost linear seperable) Multi-class SVM Phân lớp đa lớp (biên lớp tuyến tính) Kernel SVM Dữ liệu phi tuyến Ưu khuyết điểm biến thể: Ưu điểm: - Tiết kiệm nhớ (do trình test cần so điểm liệu với mặt siêu phẳng tìm mà khơng cần tính tốn lại) - Linh hoạt: vừa phân lớp tuyến tính phi tuyến (sử dụng kernel khác nhau) - Xử lý không gian nhiều chiều Khuyết điểm: - Trong trường hợp số chiều liệu lớn số đơng liệu SVM cho kết khơng tốt - Chưa thể tính xác suất phân lớp 2.1.4 Mơ Hình Neural Network Neural network hay gọi Mạng nơ-ron nhân tạo mạng sử dụng mơ hình tốn học phức tạp để xử lý thông tin Chúng dựa mô hình hoạt động tế bào thần kinh khớp thần kinh não người Tương tự não người, mạng nơ-ron nhân tạo kết nối nút đơn giản, gọi tế bào thần kinh Và tập hợp nút tạo thành mạng lưới nút, có tên mạng nơ-ron nhân tạo Các thành phần Neural network: - Lớp đầu vào đại diện cho liệu đầu vào - Lớp ẩn đại diện cho nút trung gian phân chia không gian đầu vào thành vùng có ranh giới (mềm) Nó nhận vào tập hợp đầu vào có trọng số tạo kết đầu thông qua chức kích hoạt 2.2 Quy Trình Phân Lớp Dữ Liệu 2.2.1 Phân Lớp Dữ Liệu Quá trình phân lớp liệu gồm bước chính: Bước 1: Xây dựng mơ hình (hay cịn gọi giai đoạn “học” “huấn luyện”) - Dữ liệu đầu vào: liệu mẫu gán nhãn tiền xử lý - Các thuật toán phân lớp: định, hàm số toán học, tập luật, - Kết bước mơ hình phân lớp huấn luyện (trình phân lớp) Bước 2: Sử dụng mơ hình chia thành bước nhỏ Bước 2.1: Đánh giá mơ hình (kiểm tra tính đắn mơ hình) - Dữ liệu đầu vào: tập liệu mẫu khác gán nhãn tiền xử lý Tuy nhiên, lúc đưa vào mơ hình phân lớp, ta “lờ” thuộc tính gán nhãn - Tính đắn mơ hình xác định cách tính gán nhãn liệu đầu vào kết phân lớp mơ hình Bước 2.2: Phân lớp liệu + Dữ liệu đầu vào: liệu “khuyết” thuộc tính cần dự đốn lớp (nhãn) + Mơ hình tự động phân lớp (gán nhãn) cho đối tượng liệu dựa vào huấn luyện bước 2.2.2 Đánh Giá Tính Hiệu Quả Trước vào thang điểm đánh giá tính hiệu tốn phân lớp liệu, ta cần xây dựng ma trận nhầm lẫn (confusion matrix) Ma trận nhầm lẫn phân lớp nhị phân xác định bảng đây: Chân trị + TP FN Dự đoán + Dự đoán - Chân trị FP TN Bảng 2.1 Ma trận nhầm lẫn phân lớp nhị phân Trong đó: TP (dương tính đúng, true positive), TN (âm tính đúng, true negative), FP (dương tính giả, false positive) FN (âm tính giả, false negative) xác định dựa kết dương tính âm tính kết dự đoán so với chân trị Các thang điểm đánh giá tính hiệu tốn phân lớp tính toán dựa ma trận nhầm lẫn bao gồm thang đo đánh giá sau đây: Độ xác (accuracy): xác định mức độ xác kết phân lớp cho phân lớp âm dương tính Độ xác tính theo cơng thức 3.1: ACC= TP+TN TP+ TN + FP+ FN (3.1) Độ nhạy (sensitivity): xác định mức độ xác kết phân lớp cho phân lớp âm dương tính Độ xác tính theo cơng thức 3.2: SEN = TP :=TRP TP+ FN (3.2) Độ đặc hiệu (specificity): xác định tỷ số âm tính xác định Độ đặc hiệu tính theo cơng thức 3.3: SPE= TN TN+ FP (3.3) Độ xác phép đo (precision): xác định tỷ số dương tính xác định tổng số dương tính Độ xác phép đo tính theo cơng thức 3.4: PRE= TP TP+ FP (3.4) Điểm F1 (F1 score): trung bình điều hịa giá trị độ nhạy độ xác phép đo Điểm F1 tính theo cơng thức 3.5: F 1= TP TP+ FP+ FN (3.5) Hệ số tương quan Matthews (Matthews correlation coefficient): xác định chất lượng phân lớp Hệ số tương quan Matthews tính theo cơng thức 3.6: MCC= TP TN −FP FN √(TP+ FP)(TP+ FN )(TN + FP)(TN + FN ) (3.6) Chỉ số Fowlkes-Mallows: xác định độ tương tự hai phân lớp Chỉ số FowlkesMallows tính theo công thức 3.7: FMI = TP √(TP+ FP)(TP+ FN ) (3.7) ROC: thay đổi giá trị ngưỡng đầu vào cho mơ hình hồi quy, ta nhận cặp giá trị FPR TPR tính theo cơng thức 3.8: FPR= FP FP+TN (3.8) Khi đó, đồ thị biểu diễn đường giá trị cặp điểm FPR TPR với giá trị ngưỡng gọi đường cong ROC (Receiver Operating characteristic curve) Dựa đường cong ROC, ta thấy mơ hình phân lớp có hiệu hay khơng Một mơ hình phân lớp hiệu FPR thấp TPR cao, tức tồn điểm ROC mà gần với điểm giá trị (FPR, TPR) = (0,1) Một cách khác để đánh giá tính hiệu đường cong ROC sử dụng thang đo AUC (Area under ROC) AUC xác định phần diện tích bên đường cong ROC CHƯƠNG CÁC KẾT QUẢ THỰC NGHIỆM 3.1 Bộ Dữ Liệu Mô tả tổng quát liệu: Tên Bộ liệu: Zoo Animals Extended Dataset (https://www.kaggle.com/datasets/agajorte/zoo-animals-extended-dataset?select=zoo2.csv) Số lượng mẫu: 43 Tập training:10 Số lượng thuộc tính: 18 Missing value: MƠ TẢ THUỘC TÍNH: hair: có lơng khơng có lơng feathers: có lơng vũ khơng có lơng vũ eggs: có đẻ trứng khơng đẻ trứng milk: có sữa khơng có sữa airborne: sống khơng aquatic: lồi thủy sinh predator: động vật ăn thịt toothed: có khơng có backbone: có xương sống khơng có xương sống 10 breathes: thở mũi 11 venomous: có nọc độc khơng 12 fins: có vây khơng có vây 13 legs: có chân khơng có chân 14 tail: có khơng có 15 domestic: sống nước (nội địa) 16 catsize: kích thước 17 class-type: phân loại lớp ● 3: Lồi bị sát (Reptile) ● 4: Loài cá (fish) ● 5: Loài lưỡng cư (amphibians) ● 6: Lồi trùng (insect) ● 7: Lồi khơng xương sống (invertebrate) 18 animal name: tên động vật 3.2 Các Kết Quả Thực Nghiệm 3.2.1 Hình Thể Hiện: Mơ Hình Phân Lớp Bộ Dữ Liệu Trên Orange 3.2.2 Kết Quả Với Tập Dữ Liệu Testing ● Test and score: Sử dụng phương pháp K-fold cross validation với k = ● Đường cong ROC: 10 3.2.3 Kết Quả Với Tập Dữ Liệu Predictions ● Dùng SVM: ● Predictions: 11 ● ● Data Table: Dùng Logistic Regression: 12 ● Predictions: ● Data Table: 13 ● Dùng Neural Network: ● Predictions: 14 ● Data Table: ● Dùng Tree: 15 ● Predictions: ● Data Table: 3.3 Phân Tích Đánh Giá 16 ❖ Kết với tập liệu Test and score: Sử dụng phương pháp K-fold cross validation với k = ➢ Dựa số AUC (tính xác), Recall (độ phủ) Precision (độ xác) giá trị trung bình điều hịa (harmonic mean) hai đo Precision Recall F1 ta thấy mơ hình Logistic Regression có số liệu đo tốt mơ hình ❖ Đường cong ROC: ROC (Receiver Operating Characteristic) 17 Là đồ thị sử dụng phổ biến đánh giá mơ hình phân loại nhị phân Đường cong tạo cách biểu diễn tỷ lệ dự báo true positive rate (TPR) dựa tỷ lệ dự báo false positive rate (FPR) ngưỡng khác Một mơ hình hiệu có FPR thấp TPR cao, hay ROC tiệm cận với điểm (0;1) đồ thị mơ hình hiệu ➢ Qua quan sát đường ROC thấy mơ hình Logistic Regression đường có tỷ lệ báo true positive rate (TPR) cao tỷ lệ false positive rate (FPR) thấp ➔ Thông qua việc đánh giá số kiểm định ta thấy Mơ hình Logistic regression có số kiểm định tốt nên lựa chọn phù hợp Kết sử dụng mơ hình Confusion Matrix: ● Mơ hình SVM: ❖ - Có thể thấy tỷ lệ nhầm lẫn so với thực tế lớp thứ (lồi bị sát) với lớp thứ (loài lưỡng cư) vào khoảng 33.3% - Ở lớp thứ (lồi trùng) có mức độ nhầm lẫn với lớp thứ (lồi khơng xương sống) 16.7% ● Mơ hình Logistic Regression: 18 - Ở lớp thứ (lồi trùng) có mức độ nhầm lẫn với lớp thứ (lồi khơng xương sống) 16.7% ● Mơ hình Neural Network: 19

Ngày đăng: 11/08/2023, 10:29

w