1. Trang chủ
  2. » Tất cả

Đề tài dự đoán và phân loại các loài động vật dựa trên thuộc tính của từng loài

33 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

lOMoARcPSD|17160101 ĐẠI HỌC UEH TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ BÁO CÁO ĐỒ ÁN BỘ MÔN KHOA HỌC DỮ LIỆU Đề tài: DỰ ĐỐN VÀ PHÂN LOẠI CÁC LỒI ĐỘNG VẬT DỰA TRÊN THUỘC TÍNH CỦA TỪNG LỒI Giảng Viên: Trương Việt Phương Nhóm thực Trần Nguyễn Thiên Ân Hà Thị Ngọc Anh Đặng Trần Minh Phương Nguyễn Thúy Quỳnh Trần Phương Thùy TP Hồ Chí Minh, tháng 10 năm 2022 lOMoARcPSD|17160101 BẢNG PHÂN CÔNG CÔNG VIỆC Tên thành viên Trần Nguyễn Thiên Ân Phần việc đảm nhiệm - Tìm liệu phù hợp - Phương pháp phân cụm - Chạy orange phần phân cụm Mức độ hoàn thành 100% liệu Hà Thị Ngọc Anh - Hoàn thiện, chỉnh sửa word - Hỗ trợ thành viên chạy Orange Tìm liệu phù hợp - Mô tả liệu, mục tiêu phân 100% tích Đặng Trần Minh Phương - Tiền xử lý liệu - Tổng hợp thành word - Hỗ trợ thành viên chạy Orange Tìm liệu phù hợp - Đánh giá kết phân cụm 100% Excel Nguyễn Thúy Quỳnh - Hỗ trợ chạy Orange - Rà sốt lại nội dung đồ án Tìm liệu phù hợp - Phương pháp phân lớp liệu - Tiến hành phân lớp liệu 100% có sẵn Trần Phương Thùy - Chạy Orange phần phân lớp - Hạn chế Tìm liệu phù hợp - Chạy Orange phần phân lớp 10% liệu - Dự báo giải thích kết - Kết luận 100% lOMoARcPSD|17160101 MỤC LỤC DANH MỤC HÌNH ẢNH PHẦN 1: GIỚI THIỆU ĐỀ TÀI .2 Lý chọn đề tài: 2 Mục tiêu nghiên cứu 2.1 Mục tiêu chung .2 2.2 Mục tiêu cụ thể .3 PHẦN 2: XỬ LÝ DỮ LIỆU Mô tả liệu 1.1 Mô tả tổng quát liệu .4 1.2 Các thuộc tính đưa vào mơ hình: 1.3 Biến mục tiêu Type Tiền xử lý liệu .5 3.1 Khái niệm phân cụm liệu .6 3.2 Đặc điểm phân cụm liệu 3.3 Các thuật toán phân cụm liệu 3.4 Phân tích liệu ZOO 3.5 Kết phân cụm liệu ZOO Phân lớp liệu 15 4.1 Phương pháp phân lớp (Classification) .15 4.2 Kết với tập liệu dự báo .18 4.3 Lựa chọn mơ hình 20 Tiến hành dự báo từ 10% liệu phân lớp .22 5.1 Kết với tập liệu dự báo .22 5.2 Lựa chọn mơ hình 26 PHẦN 3: KẾT LUẬN 28 Kết luận 28 Hạn chế nghiên cứu 28 TÀI LIỆU THAM KHẢO .29 lOMoARcPSD|17160101 DANH MỤC HÌNH ẢNH Hình 1: Mơ tả tổng qt liệu Zoo Hình 2: Mức độ ảnh hưởng thuộc tính lên biến mục tiêu Hình 3: Loại bỏ thuộc tính khơng cần thiết Hình 4: Mơ hình phân cụm Hình 5: Điểm số Silhouette Plot Hình 6: Điểm số Silhouette Plot Hình 7: Phương pháp K- means Hình 8: Điểm số Silhouette Plot Hình 9: Phương pháp Hierarchical Clustering Hình 10: Phương pháp K-means Hình 11: Bảng tổng hợp sau phân cụm với liệu ban đầu Hình 12: Bảng tổng hợp dựa thuộc tính milk Hình 13: Bảng tổng hợp dựa thuộc tính feathers Hình 14: Bảng tổng hợp dựa thuộc tính toothed Hình 15: Bảng tổng hợp dựa thuộc tính backbone Hình 16: Bảng tổng hợp dựa thuộc tính milk Hình 17: Bảng tổng hợp dựa thuộc tính aquatic Hình 18: Bảng tổng hợp dựa thuộc tính breathes Hình 19: Bảng tổng hợp dựa thuộc tính feathers Hình 20: Bảng tổng hợp dựa thuộc tính airborne Hình 21: Kết dự báo (SVM) Hình 22: Kết dự báo (Logistic Regression) Hình 23: Kết dự báo (Tree) Hình 24: Mơ hình phân lớp Hình 25: Kết Test and score Hình 26: Kết đồ thị ROC Hình 27: Sử dụng Logistic Regression phương pháp tốt để phân lớp Hình 28: Trích 10% từ liệu “Zoo phân lớp” Orange Hình 29: Dự báo phương pháp SVM Hình 30: Kết dự báo phương pháp SVM Hình 31: Dữ liệu dự báo lOMoARcPSD|17160101 Hình 32: Dự báo phương pháp Logistic Regression Hình 33: Kết dự báo phương pháp Logistic Regression Hình 34: Dữ liệu dự báo Hình 35: Dự báo phương pháp Tree Hình 36: Kết dự báo phương pháp Tree Hình 37: Dữ liệu dự báo Hình 38: Chạy mơ hình Orange Hình 39: Đánh giá Test and Score Hình 40: Biểu đồ đường cong ROC Tree, SVM, Logistic Regression lOMoARcPSD|17160101 PHẦN 1: GIỚI THIỆU ĐỀ TÀI Lý chọn đề tài: Dịch bệnh Covid- 19 bùng nổ đột ngột khiến tất người khơng đề phịng, khơng kịp chuẩn bị tốt cho thân Nhiều dịch vụ ngừng hoạt động điển du lịch hay tham quan Điều khiến cho sở thú, trung tâm bảo tồn động vật quý phải lao đao tạm ngừng đóng cửa, dẫn tới việc bắt buộc phải di dời, sơ tán động vật để dễ dàng quản lý chăm sóc Đương nhiên nơi trú ẩn tạm thời không đủ điều kiện đáp ứng để chăm sóc động vật quý cách chu đáo, an toàn hiệu nhất, điều tất yếu xảy động vật thích ứng với mơi trường tạm bợ, khơng thể sống Trước tình hình nghiêm trọng đó, nhiệm vụ cấp bách sau hết dịch đặt phải xây dựng nâng cấp sở thú, trung tâm bảo tồn động vật quý cũ để bảo vệ cách tối ưu động vật cịn sót lại Tuy nhiên, với số lượng chủng loại khổng lồ lồi động vật việc phân loại chúng theo nhóm để xây dựng mơi trường sống cơng việc khó khăn, khơng thể xử lý sức người Do đó, việc số hóa liệu điều cần thiết để nhờ hỗ trợ từ công cụ hay phần mềm khoa học Chính vậy, chúng em ứng dụng mơn Khoa học liệu để nghiên cứu đề tài, xử lý số liệu đưa số liệu cụ thể loài động vật dựa thuộc tính chúng Từ đó, nhà sinh vật học dựa vào để đưa lời tư vấn mơi trường sống cho lồi Mục tiêu nghiên cứu 2.1 Mục tiêu chung Mục tiêu nghiên cứu trọng tâm tiện ích công cụ Orange môn Khoa học liệu để giúp ích cho đề tài cách tối ưu Nhóm tìm liệu Zoo, liệu liên quan đến lớp động vật thuộc tính loài cụ thể Dựa đặc tính đó, chúng em dùng cơng cụ hỗ trợ Orange với phương pháp khác để so sánh, phân tích liệu, đưa số nhận xét kết luận cuối liệu có liên quan đến phân loại môi trường sống động vật Từ nâng cao lOMoARcPSD|17160101 chất lượng sống bảo tồn tối ưu loại động vật quý hiếm, loài đối mặt với nguy bị tuyệt chủng 2.2 Mục tiêu cụ thể Dựa đặc điểm, tính tương đồng, loài để phân loại loài động vật thành cụm, phân lớp riêng biệt để cung cấp mơi trường thích hợp thuận tiện cho việc chăm sóc Cung cấp mơ hình dự đốn giúp phân loại lồi động vật tiếp nhận vào nhóm phù hợp Phương pháp nghiên cứu Nhóm sử dụng công cụ Orange để tiến hành xử lý liệu, phân cụm, phân lớp liệu, sau tiến hành dự báo cho nhóm liệu ngẫu nhiên chưa phân lớp Để tiến hành phân cụm cho liệu, chúng em sử dụng phương pháp chính: - Phương pháp Hierarchical clustering: phương pháp này, nhóm tính khoảng cách phần tử Distance, sau phân liệu thành cụm quan sát số Silhouette để chọn phương án phân cụm tốt - Phương pháp K-means: phương pháp này, nhóm quan sát số Silhouette trung bình liệu phân thành cụm, sau chọn số cụm có số Silhouette tốt để tiến hành phân cụm liệu Sau thực phân cụm liệu theo phương pháp trên, dựa vào kết số Silhouette hiển thị, nhóm chọn phương pháp tốt để phân cụm cho liệu nhóm lập bảng so sánh với liệu ban đầu Đối với việc phân lớp liệu, nhóm chọn biến “type” cho việc phân loại động vật biến mục tiêu Tiếp theo tiến hành phân lớp theo phương pháp Cây định ( Decision Tree), SVM ( Support Vector Machine) Hồi quy Logistic ( Logistic Regression) Sau đó, sử dụng Test and Score quan sát số AUC phương pháp để có nhìn tổng thể lOMoARcPSD|17160101 PHẦN 2: XỬ LÝ DỮ LIỆU Mô tả liệu 1.1 Mô tả tổng quát liệu - Zoo liệu thu thập từ Orange - Bao gồm thông tin, thuộc tính lồi động vật khác lớp động vật ( lưỡng cư, chim, cá, trùng, bị sát, động vật có vú động vật không xương sống.) - Đặc điểm Tập liệu: đa biến - Số lượng thuộc tính: 17 - Đặc điểm thuộc tính: categorical, integer - Giá trị bị thiếu: khơng Hình Mơ tả tổng qt liệu Zoo 1.2 Các thuộc tính đưa vào mơ hình: Thuộc tính Ý nghĩa Kiểu liệu Animal name Tên động vật Categorical Hair Râu Boolean Feathers Lông Boolean Eggs Đẻ trứng Boolean Milk Có sữa Boolean Airborne Sống khơng Boolean Aquatic Sống nước Boolean Predator Động vật ăn thịt Boolean lOMoARcPSD|17160101 Toothed Có Boolean Backbone Có xương sống Boolean Breathes Thở mũi Boolean Venomous Có nọc độc Boolean Fins Có vây Boolean Legs Có chân Integer Tail Có Boolean Domestic Trong nước Boolean Catsize Kích cỡ Boolean 1.3 Biến mục tiêu Type Tiền xử lý liệu - Bộ liệu có sẵn, lấy từ thư viện Orange khơng có missing value - Xử lý liệu: - Sử dụng công cụ Rank để xác định độ ảnh hưởng biến đến kết phân loại lOMoARcPSD|17160101 Hình Mức độ ảnh hưởng thuộc tính lên biến mục tiêu - Bỏ qua biến domestic liệu biến không ảnh hưởng đến kết phân loại liệu Hình Loại bỏ thuộc tính không cần thiết Phân cụm liệu 3.1 - Khái niệm phân cụm liệu Là trình gom nhóm đối tượng có đặc điểm tương đồng vào cụm tương ứng Trong đó: - Các đối tượng cụm có thuộc tính tương tự - Các đối tượng thuộc cụm khác có thuộc tính khác 3.2 - Đặc điểm phân cụm liệu Thuộc nhóm phương pháp học khơng giám sát (unsupervised learning) khơng biết trước số cụm - Một phương pháp phân cụm tốt phương pháp tạo cụm có chất lượng cao, dựa vào tiêu chí: - Độ tương đồng bên cụm cao ( phần tử cụm có nhiều thuộc tính tương đồng) 3.3 Độ tương tự cụm thấp (độ khác biệt cao) Các thuật toán phân cụm liệu a Phân cụm phân cấp (Hierarchical clustering) - Không cần xác định trước số cụm cần điều kiện dừng Downloaded by Free Games Android (vuchinhhp1@gmail.com) lOMoARcPSD|17160101 Phân lớp liệu 4.1 Phương pháp phân lớp (Classification) Đối tượng liệu cho trước phân thành hay nhiều lớp gọi phân lớp liệu Mơ hình xây dựng tập liệu gán nhãn trước Q trình gán nhãn cho đối tượng liệu q trình phân lớp Q trình phân lớp liệu gồm bước sau: Bước 1: Xây dựng mơ hình (giai đoạn “huấn luyện”) - Truyền cho liệu đầu vào gán nhãn tiền xử lý liệu - Sử dụng số thuật toán như: Tree, SVM, Neural Network, Logistic Regression, - Nó đưa mơ hình phân lớp Bước 2: Đánh giá mơ hình xem liệu sử dụng có phù hợp hay khơng - Sử dụng liệu để kiểm thử Bộ liệu có kết trước Nhưng đưa liệu vào đánh giá “lờ” thuộc tính gán nhãn trước - Từ kết chạy ra, so sánh kết từ mô hình kết thực tế q khứ có phù hợp, khác hay giống nhau, có chênh lệch nhiều hay không Bước 3: Phân lớp liệu - Từ mơ hình chọn, chuyển liệu vào mơ hình đưa kết dự báo - Phân loại: Nhiệm vụ toán phân lớp phân loại đối tượng liệu vào n lớp cho trước nếu: - n =2: Thuộc toán Phân Lớp nhị phân - n >2: Thuộc toán Phân Lớp đa lớp Các phương pháp phân lớp sử dụng bài: Support Vector Machine (SVM): thuật tốn có giám sát Nó chuyển liệu vào vẽ đồ thị Dữ liệu phân cách, tính tốn để tạo Downloaded by Free Games Android (vuchinhhp1@gmail.com) lOMoARcPSD|17160101 đường phân cách hai loại liệu cho khoảng cách đường đến loại liệu gần SVM có nhiều biến thể để phù hợp với toán phân loại khác Logistic regression: mơ hình xác suất dự đốn giá trị đầu rời rạc từ tập giá trị đầu vào, nhằm kiểm tra tính hiệu mơ hình Một mơ hình tốt khơng q đơn giản hay phức tạp không nhạy cảm với nhiễu Cây định: sơ đồ biểu đồ giúp xác định trình hành động hiển thị xác suất thống kê Biểu đồ gọi định giống với tên, thường phác thảo dạng biểu đồ thẳng đứng nằm ngang phân nhánh Bắt đầu từ định (được gọi "nút"), "nhánh" định đại diện cho định, kết phản ứng xảy Các nhánh xa đại diện cho kết cuối đường định định gọi "lá" Downloaded by Free Games Android (vuchinhhp1@gmail.com) lOMoARcPSD|17160101 4.2 Kết với tập liệu dự báo 4.2.1 Sử dụng SVM Hình 21 Kết dự báo (SVM) 4.2.2 Sử dụng Logistic Regression Downloaded by Free Games Android (vuchinhhp1@gmail.com) lOMoARcPSD|17160101 Hình 22 Kết dự báo (Logistic Regression) 4.2.3 Sử dụng Cây định (Tree) Downloaded by Free Games Android (vuchinhhp1@gmail.com) lOMoARcPSD|17160101 Hình 23 Kết dự báo (Tree) 4.3 Lựa chọn mơ hình Hình 24 Mơ hình phân lớp a Test and score Sử dụng phương pháp K-fold cross validation với k = Downloaded by Free Games Android (vuchinhhp1@gmail.com) lOMoARcPSD|17160101 Hình 25 Kết Test and score Dựa số AUC (tính xác), Recall (độ phủ) Precision (độ xác) giá trị trung bình điều hịa (harmonic mean) hai độ Precision Recall F1 ta thấy mơ hình Logistic Regression có số liệu đo tốt mơ hình Với số liệu AUC Logistic Regression, SVM Tree 0.996, 0.993 0.955 b Đường cong ROC Downloaded by Free Games Android (vuchinhhp1@gmail.com) lOMoARcPSD|17160101 Qua quan sát đường ROC thấy mơ hình Logistic Regression đường có tỷ lệ báo true positive rate (TPR) cao tỷ lệ false positive rate (FPR) thấp Hình 26 Kết đồ thị ROC  Thông qua số kiểm định từ Test and score ROC ta thấy mơ hình Logistic Regression có số kiểm định tốt nên lựa chọn phù hợp Downloaded by Free Games Android (vuchinhhp1@gmail.com) lOMoARcPSD|17160101 Hình 27 Sử dụng Logistic Regression phương pháp tốt để phân lớp Tiến hành dự báo từ 10% liệu phân lớp Hình 28 Trích 10% từ liệu “Zoo phân lớp” Orange 5.1 Kết với tập liệu dự báo Ta sử dụng file “Zoo phân lớp” (kết trình phân lớp trên) để máy học, với biến Logistic Regression Sau đó, sử dụng file “Zoo 10%” ( skip biến Logistic Regression) để tiến hành dự báo nhằm cho kết xác a Sử dụng SVM Downloaded by Free Games Android (vuchinhhp1@gmail.com) lOMoARcPSD|17160101 Hình 29 Dự báo phương pháp SVM Hình 30 Kết dự báo phương pháp SVM Hình 31 Dữ liệu dự báo b Sử dụng Logistic Regression Downloaded by Free Games Android (vuchinhhp1@gmail.com) lOMoARcPSD|17160101 Hình 32 Dự báo phương pháp Logistic Regression Hình 33 Kết dự báo phương pháp Logistic Regression Hình 34 Dữ liệu dự báo c Sử dụng Cây định (Tree) Downloaded by Free Games Android (vuchinhhp1@gmail.com) lOMoARcPSD|17160101 Hình 35 Dự báo phương pháp Tree Hình 36 Kết dự báo phương pháp Tree Hình 37 Dữ liệu dự báo Downloaded by Free Games Android (vuchinhhp1@gmail.com) lOMoARcPSD|17160101 5.2 Lựa chọn mơ hình Hình 38 Chạy mơ hình Orange Test and Score Sử dụng phương pháp K-fold cross validation với k = Dựa số AUC (tính xác), Recall (độ phủ) Precision (độ xác) giá trị trung bình điều hịa (harmonic mean) hai đo Precision Recall F1 ta thấy mơ hình Logistic Regression có số liệu đo tốt mơ hình Với số liệu AUC, Precision, Recall Logistic Regression 0.996, 0.935 0.920 Hình 39 Đánh giá Test and Score Downloaded by Free Games Android (vuchinhhp1@gmail.com) lOMoARcPSD|17160101 Đường cong ROC - Đường cong tạo cách biểu diễn tỷ lệ dự báo true positive rate (TPR) dựa tỷ lệ dự báo false positive rate (FPR) ngưỡng khác - Qua quan sát đường ROC thấy mơ hình Logistic Regression đường có tỷ lệ báo true positive rate (TPR) cao tỷ lệ false positive rate (FPR) thấp Hình 40 Biểu đồ đường cong ROC Tree, SVM, Logistic Regression  Thông qua số kiểm định ta thấy mơ hình Logistic Regression có số kiểm định tốt nên lựa chọn phù hợp Downloaded by Free Games Android (vuchinhhp1@gmail.com) lOMoARcPSD|17160101 PHẦN 3: KẾT LUẬN Kết luận Về mặt lý thuyết: - Hiểu áp dụng phương pháp phân cụm phân lớp vào xử lý liệu cụ thể (Zoo) - Hiểu q trình vận hành cơng cụ Orange, áp dụng cho trường hợp tương tự cần thiết khác, phục vụ, xúc tiến trình phân loại, phân cấp cho công khoa học Về mặt thực tiễn: - Phân loại lồi động vật có đặc tính tương đồng vào nhóm cụ thể, có độ xác cao Mơ hình phương tiện giúp cho nhà quản lý có phương án chăm sóc phù hợp, cung cấp mơi trường sống thích hợp cho nhóm động vật chung sống với - Trong trình phân loại động vật, ta phát loại động vật quý hiếm, từ biết cách chăm sóc bảo tồn chúng cách hiệu nhờ vào tập tính chung loại động vật phân từ mơ hình Bên cạnh đó, chúng cịn giúp cho nhà sinh vật học không cần nhiều thời gian việc nghiên cứu có phát động vật - Tiết kiệm khoản chi phí thay nghiên cứu xem lồi động vật thuộc chủng loại mà dựa vào thuộc tính chúng xếp vào nhóm phù hợp cách sử dụng công cụ Orange Hạn chế nghiên cứu - Mặt khác có lồi động vật phân loại động vật bị nhầm lẫn, chưa với thuộc tính sinh học( ví dụ: Tortoise (lồi rùa) phân vào loại chim Tuatara phân vào loại lưỡng cư hai thuộc loại bò sát; mức độ nhầm lẫn thấp, hai loài động vật bị nhầm lẫn) - Độ xác cịn phụ thuộc vào độ lớn liệu, cần sử dụng nhiều thuộc tính để phân chủng loại động vật để đưa dự đốn xác cho lồi động vật có trường hợp nhầm lẫn (Trường hợp trích 10% xảy nhiều lỗi so với sử dụng liệu đầy đủ) - Vẫn liệu nhiễu Downloaded by Free Games Android (vuchinhhp1@gmail.com) lOMoARcPSD|17160101 TÀI LIỆU THAM KHẢO Các khu bảo tồn động vật hoang dã châu Âu đối mặt với khó khăn đại dịch COVID-19 (n.d.) Retrieved October 6, 2022, from https://ncov.vnanet.vn/tin-tuc/cac-khu-bao-ton-dong-vat-hoang-da-cua-chau-audoi-mat-voi-kho-khan-trong-dai-dich-covid-19/c2133ed7-13bf-4a33-acb1f32c63e6504f 2.Doanh thu du lịch lữ hành giảm sâu dịch Covid-19 – General Statistics Office of Vietnam (n.d.) Retrieved October 6, 2022, from https://www.gso.gov.vn/du-lieuva-so-lieu-thong-ke/2021/06/doanh-thu-du-lich-lu-hanh-giam-sau-do-dich-covid19/ 3.Machine learning with Orange (n.d.) Retrieved October 6, 2022, from https://vankhangfet.github.io/2018-10-31-datamining-orange/ 4.Tổng quan Orange khai phá liệu - Tổng quan phần mềm Orange: KHAI THÁC DỮ LIỆU HIỆU - StuDocu (n.d.) Retrieved October 6, 2022, from https://www.studocu.com/vn/document/truong-dai-hoc-kinh-te-dai-hoc-danang/quan-tri-hoc/tong-quan-ve-orange-trong-khai-pha-du-lieu/18445899 5.UCI Machine Learning Repository: Zoo Data Set (n.d.) Retrieved October 6, 2022, from https://archive.ics.uci.edu/ml/datasets/Zoo 6.Tài liệu học tập môn Khoa học liệu, trường ĐH Kinh tế TP HCM Downloaded by Free Games Android (vuchinhhp1@gmail.com) ... thuộc tính backbone Hình 16: Bảng tổng hợp dựa thuộc tính milk Hình 17: Bảng tổng hợp dựa thuộc tính aquatic Hình 18: Bảng tổng hợp dựa thuộc tính breathes Hình 19: Bảng tổng hợp dựa thuộc tính. .. cho nhóm động vật chung sống với - Trong trình phân loại động vật, ta phát loại động vật quý hiếm, từ biết cách chăm sóc bảo tồn chúng cách hiệu nhờ vào tập tính chung loại động vật phân từ mơ... sau phân cụm với liệu ban đầu Hình 12: Bảng tổng hợp dựa thuộc tính milk Hình 13: Bảng tổng hợp dựa thuộc tính feathers Hình 14: Bảng tổng hợp dựa thuộc tính toothed Hình 15: Bảng tổng hợp dựa thuộc

Ngày đăng: 23/02/2023, 21:56

w