Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 22 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
22
Dung lượng
1,59 MB
Nội dung
lOMoARcPSD|18034504 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ TP.HCM - - MÔN: KHOA ĐỀ ÁN CUỐI KỲ HỌC DỮ LIỆU ĐỀ TÀI: PHÂN LOẠI CÁC LOÀI ĐỘNG VẬT THUỘC CÁC LỚP ĐỘNG VẬT DỰA TRÊN THUỘC TÍNH CỦA CHÚNG Giảng viên hướng dẫn : Võ Thành Đức Nhóm thực :2 Tên sinh viên : Phạm Thị Mỹ Duyên Lê Văn Giác Lê Thị Hoanh Trần Văn Hùng Nguyễn Thị Thanh Mai Đỗ Thị Nguyện Lê Công Thành lOMoARcPSD|18034504 Mục lục PHẦN I: GIỚI THIỆU 1 Mục đích chọn đề tài Bức tranh tổng quát động vật tự nhiên .2 PHẦN II: THU THẬP VÀ LÀM SẠCH DỮ LIỆU 1.Mô tả tổng quát liệu Các thuộc tính đưa vào mơ hình .4 3.Xác định biến mục tiêu: Type (Chủng loại) .4 4.Các bước làm liệu PHẦN III: KIỂM ĐỊNH MƠ HÌNH Màn hình thể hiện: (phần mềm orange) Kết với tập liệu testing: Kết với tập liệu dự báo: PHẦN IV: ĐÁNH GIÁ VÀ LỰA CHỌN MƠ HÌNH .14 Dựa vào số đánh giá lựa chọn mơ hình phù hợp 14 Sử dụng ma trận nhầm lẫn để đánh giá trường hợp xảy nhầm lẫn 15 PHẦN V: TRIỂN KHAI MƠ HÌNH 18 Mục đích, ý nghĩa việc triển khai mơ hình 18 2.Phân tích đánh giá hiệu kinh tế triển khai mơ hình 18 PHẦN VI: ĐÁNH GIÁ ĐÓNG GÓP CỦA CÁC THÀNH VIÊN THAM GIA DỰ ÁN 19 lOMoARcPSD|18034504 PHẦN I: GIỚI THIỆU Mục đích chọn đề tài Ở gia đình đại ngày gần ln chọn lồi động vật làm thú cưng chó, mèo, cá , chuột, số lồi động vật khác người dám ni chúng nhà rắn, cá sấu, heo loài thú cưng Tuy nhiên vơ tình bạn nhận ni lồi thú lạ mà bạn chưa gặp lúc bạn thấy chúng bạn lại muốn mang nhà nuôi Và có điều gặp xảy chúng lại thuộc vào loài động vật quý bạn khơng biết phải chăm sóc chúng Và dự án phần hỗ trợ bạn tìm cách chăm sóc cho chúng Trong dự án này, chúng tơi khơng khuyến khích bạn bắt giữ nuôi động vật quý hiếm, làm dự án với mục đích lớn khác bảo tồn, gìn giữ lồi động vật q hiếm, góp phần bảo vệ hệ sinh thái, mơi trường sống xung quanh Tại khu bảo tồn động vật hoang dã Barrington bang New South Wales (Úc) có 26 cá thể động vật Tasmania sinh sống từ tháng 9/2020 Đây loài động vật biên khỏi lục địa Úc từ loài cho hoang Dingo xuất bệnh u mặt quỷ hồnh hành, khoảng 90% cá thể loài chết Tuy nhiên nhờ vào u q lồi động vật nhóm bảo tồn Aussia Ark, cá thể loài động vật mang chăm sóc ni dưỡng, giúp chúng phát triển để hịa nhập lại với môi trường tự nhiên (nguồn: https://www.youtube.com/watch?v=C8itNnQiYOY) Và để thực dự án, lựa chọn bậc phân loại bậc phân loại sinh học lồi động vật lớp động vật Để dễ hiểu chúng tơi đề cập tới ví dụ chúng Với lồi động vật, gấu nâu, gấu bắc cực, trăn, rắn hổ mang,… bậc phân chia thấp động vật Còn với lớp pg lOMoARcPSD|18034504 động vật lớp bị sát, động vật có vú,… bậc cao sau phân động vật thực vật Tóm lại, với dự án này, chúng tơi “Phân loài động vật vào lớp động vật dựa thuộc tính chúng” (bằng cơng cụ hỗ trợ orange) Mục đích đề tài phát loài động vật để bảo tồn loài động vật quý hiếm, người biết cách chăm sóc tốt cho chúng, để chúng phát triển tốt môi trường ngày Bức tranh tổng quát động vật tự nhiên Trên thực tế, quan sát cách sinh hoạt lồi động vật thơng qua q trình tiếp xúc bên ngồi Ví dụ lồi động vật khỉ, chó, mèo, bị, sư tử,… lồi động vật có chi, có lơng bao phủ bên ngồi, chúng đẻ ni sữa, chúng thuộc lớp động vật có vú, nhiên lớp động vật có vú có loài động vật thuộc thú đơn huyệt, chúng lồi động vật thuộc lớp động vật có vú đẻ trứng (đơn cử thú mỏ vịt) Chuyển sang ví dụ lớp động vật khác chim, cá lồi bị sát chúng có đặc điểm thể thuộc tính khác chim lồi động vật có lơng vũ, có chân, cánh, đa phần lồi chim thường bay bầu trời chúng đẻ trứng Đối với lồi cá chúng sống nước, khơng có chi, có đi,… cịn nhiều thuộc tính khác để phân thành lớp động vật thuộc loài Mặc dù vậy, thực tế có đặc điểm đặc biệt lồi động vật khiến cho chúng phân loại với đặc điểm thông thường Chúng nêu 03 ví dụ bậc (cịn nhiều điểm đặc biệt loài động vật khác mà sâu vào chúng mang lại nhiều điều bất ngờ).: + Cá sấu: Đây lồi động vật thuộc lớp bị sát, thường gọi chúng cá sấu chúng hay sống nước, di chuyển nhanh, linh hoạt loài cá thật thụ Tuy nhiên chúng thuộc lớp bị sát chúng có 04 chi, thở phổi, đẻ trứng (số lượng thường 10 trứng), nói chúng mang đặc điểm giống với lồi động vật thuộc lớp bị sát nên chúng phân vào lớp bò sát + Cá heo: Nếu dựa vào thuộc tính chúng sống nước dễ hiểu nhầm loài động vật thuộc lớp cá Tuy nhiên, khoa học khẳng định loài động vật thuộc lớp động vật có vú Những đặc điểm bật chúng thuộc lớp động vật có vú chúng đẻ con, nuôi sữa + Cá chuồn: Đây động vật thuộc lớp cá, nhiên chúng có khả bay lượn loài chim Điểm bật thể cá chuồn phần vây Chúng có phần vây ức lớn cứng, chúng mở rộng cánh chim Đây đặc điểm giúp chúng bay khỏi mặt nước pg lOMoARcPSD|18034504 Với lớp động vật khác nhau, chúng có thuộc tính khác Sẽ có lồi động vật thuộc lớp động vật chúng có mang thuộc tính lớp động vật khác Vì phân lồi thuộc tính, nhóm lựa chọn để vài đặc tính trội lồi làm thuộc tính khơng gộp chung (như để riêng việc lồi có sống nước lồi cân, khơng khơng để gộp thuộc tính mơi trường sống) PHẦN II: THU THẬP VÀ LÀM SẠCH DỮ LIỆU 1.Mô tả tổng quát liệu - Thu thập liệu từ Orange ( file liệu zoo) - Đây tập dự liệu mô tả thuộc tinh lồi động vật Dựa vào đặc tính để phân loại loài thuộc lớp lớp động vật - Lưỡng cư - Chim - Cá - Côn trùng - Động vật không sương sống - Động vật có vú - Bị sát - Data set Characteristic(đặc điểm tập liệu): Đa biến - Số lượng mẫu:Tập liệu mẫu testing:89 Tập traning :10 Số lượng thuộc tính : 17 - Attribute Chacteristics(đặc điểm thuộc tính) :categorical, interger - Missing value( giá trị bị thiếu ) : không pg lOMoARcPSD|18034504 Các thuộc tính đưa vào mơ hình Mơ tả thuộc tính : - Hair(Lồi có râu hay khơng): - Feathers( Lơng lồi) - Eggs(đẻ trứng ) - Milk(Có sữa) - Airborne(Sống không) - Aquatic(thủy sinh) - Predator( động vật ăn thịt) - Toothed(có răng) - Backbone(Có xương sống) - Breathes(Thở mũi) - Venomous(Có nọc độc) - Fins(Có vây) - Legs(Có chân) - Tail(Có đi) - Domestic(Trong nước) - Catsize (Kích thước) Attribute Information(thơng tin thuộc tính) 1.animal name: Unique for each instance hair: Boolean feathers: Boolean eggs: Boolean milk: Boolean airborne: Boolean aquatic: Boolean predator: Boolean toothed: Boolean 10 backbone: Boolean 11 breathes: Boolean 12 venomous: Boolean 13 fins: Boolean 14 legs: Numeric (set of values: {0,2,4,5,6,8}) 15 tail: Boolean 16 domestic: Boolean 17 catsize: Boolean 3.Xác định biến mục tiêu: Type (Chủng loại) 4.Các bước làm liệu - Các bước giải pháp làm liệu: Làm liệu (data cleaning/cleansing): loại bỏ nhiễu (remove noise), hiệu chỉnh phần liệu không quán (correct data inconsistencies) pg lOMoARcPSD|18034504 Bao gồm: Tóm tắt hố liệu - Xác định thuộc tính (properties) tiêu biểu liệu xu hướng (central tendency) phân tán (dispersion) liệu Các độ đo xu hướng chính: mean, median, mode, midrange… Các độ đo phân tán: quartiles, interquartile range (IQR), variance - Nhận diện liệu bật/hiếm: nhiễu (noise) phần tử biên (outliers), cung cấp nhìn tổng quan liệu Xử lý liệu bị thiếu (missing data) - Là liệu khơng có sẵn, khơng đủ cần sử dụng - Nguyên nhân: Khách quan (không tồn lúc nhập liệu, cố, …) Chủ quan (tác nhân người) - Giải pháp cho liệu bị thiếu + Bỏ qua + Xử lý tay (không tự động, bán tự động) + Dùng giá trị thay (tự động): số toàn cục, trị phổ biến nhất, trung bình tồn cục, trung bình cục bộ, trị dự đốn, … + Ngăn chặn liệu bị thiếu: thiết kế tốt CSDL thủ tục nhập liệu (các ràng buộc liệu) Xử lý liệu bị nhiễu (noisy data) - Bao gồm: nhận diện phần tử biên (outliers) giảm thiểu nhiễu (noisy data) - Định nghĩa: + Outliers: liệu (đối tượng) không tuân theo đặc tính/hành vi chung tập liệu (đối tượng) + Noisy data: outliers bị loại bỏ (rejected/discarded outliers) trường hợp ngoại lệ (exceptions) - Nguyên nhân: + Khách quan (công cụ thu thập liệu, lỗi đường truyền, giới hạn công nghệ, …) + Chủ quan (tác nhân người) - Giải pháp nhận diện phần tử biên + Dựa phân bố thống kê (statistical distribution-based) + Dựa khoảng cách (distance-based) + Dựa mật độ (density-based) + Dựa độ lệch (deviation-based) - Giải pháp giảm thiểu nhiễu + Phân giỏ (binning) + Hồi quy (regression) + Phân tích cụm (cluster analysis) pg lOMoARcPSD|18034504 Với dự án nhóm: liệu bị thiếu khơng có nên chọn làm liệu cách xử lý liệu bị nhiễu Trong nhóm chọn giải pháp giảm thiểu nhiễu phương pháp hồi quy (regression) để làm liệu Lý chọn vì: + Sẽ đạt kết ước lượng tốt chân thực biến số + Nhằm xây dựng gắn kết mối quan hệ lồi thuộc tính + Chỉ rõ tác động thuộc tính lên thuộc tính khác PHẦN III: KIỂM ĐỊNH MƠ HÌNH Màn hình thể hiện: (phần mềm orange) (Nhóm dùng thuật tốn phân lớp để xây dựng mơ hình) Kết với tập liệu testing: Test and score: Sử dụng phương pháp K-fold cross validation với k = pg lOMoARcPSD|18034504 Đường cong ROC: Kết với tập liệu dự báo: a Sử dụng Neural Network: pg lOMoARcPSD|18034504 pg Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Bảng liệu xuất dạng file excel: b Sử dụng SVM: pg Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Bảng liệu xuất dạng file excel: pg 10 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 c Sử dụng Logistic Regression: pg 11 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Bảng liệu xuất dạng file excel: d Sử dụng mơ hình Tree: pg 12 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 pg 13 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Bảng liệu xuất dạng file excel: PHẦN IV: ĐÁNH GIÁ VÀ LỰA CHỌN MÔ HÌNH Dựa vào số đánh giá lựa chọn mơ hình phù hợp Kết với tập liệu testing: Test and score: Sử dụng phương pháp K-fold cross validation với k = pg 14 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Dựa số AUC (tính xác), Recall (độ phủ) Precision (độ xác) giá trị trung bình điều hịa (harmonic mean) hai đo Precision Recall F1 ta thấy mơ hình Logistic Regression có số liệu đo tốt mơ hình Đường cong ROC: pg 15 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Đường cong tạo cách biểu diễn tỷ lệ dự báo true positive rate (TPR) dựa tỷ lệ dự báo false positive rate (FPR) ngưỡng khác Qua quan sát đường ROC thấy mơ hình Logistic Regression đường có tỷ lệ báo true positive rate (TPR) cao tỷ lệ false positive rate (FPR) thấp Thông qua việc đánh giá số kiểm định ta thấy Mơ hình Logistic regression có số kiểm định tốt nên lựa chọn phù hợp Sử dụng ma trận nhầm lẫn để đánh giá trường hợp xảy nhầm lẫn Giả sử sử dụng mơ hình để phân loại lồi động vật vào lớp động vật ta thấy xảy nhầm lẫn phân loại, điều phần tác động tới khả sinh trưởng phát triển động vật sống không phù hợp môi trường, thức ăn chưa hợp lý Do đó, nhóm trình bày thêm ma trận nhầm lẫn với mục đích xem xét nhầm lẫn xảy lớp động vật với lớp động vật Mơ hình Logistic regression - Có thể thấy tỷ lệ nhầm lẫn so với thực tế lồi trùng (insect) với lồi invertebrate (động vật khơng xương sống) vào khoảng 12,5% - Ở loài chim (bird) mức độ nhầm lẫn với lồi invertebrate (động vật khơng xương sống) mức độ nhầm lẫn : 5,3% pg 16 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 - Ở loài Cá (fish) mức độ nhầm lẫn với lồi bị sát (reptile) vào khoảng 7,7% Mơ hình Neural Network - Có thể thấy tỷ lệ nhầm lẫn so với thực tế lồi trùng (insect) với lồi invertebrate (động vật khơng xương sống) vào khoảng 22,2% - Loài lưỡng cư (amphibiam) mức độ nhầm lẫn với lồi bị sát (reptile) : 25% - Lồi bị sát (reptile) mức độ nhầm lẫn với loài cá (fish) mức độ nhầm lẫn vào khoảng 33.3% Mơ hình SVM pg 17 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 - Có thể thấy tỷ lệ nhầm lẫn so với thực tế lồi trùng (insect) với lồi invertebrate (động vật khơng xương sống) vào khoảng 25% - Lồi invertebrate (động vật khơng xương sống) mức độ nhầm lẫn với lồi bị sát (reptile) : 20% - Lồi invertebrate (động vật khơng xương sống) mức độ nhầm lẫn với lồi trùng (insect)mức độ nhầm lẫn vào khoảng 10% - Loài động vật có vú (mamal) mức độ nhầm lẫn với lồi fish 2,6 Mơ hình định (Tree): pg 18 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 - Có thể thấy tỷ lệ nhầm lẫn so với thực tế lồi trùng (insect) với lồi invertebrate (động vật khơng xương sống) vào khoảng 33,3% - Lồi invertebrate (động vật không xương sống) mức độ nhầm lẫn với lồi trùng (insect)mức độ nhầm lẫn vào khoảng 14,3% - Loài cá (fish) mức độ nhầm lẫn với lồi trùng (reptile) 7,7% - Lồi lưỡng cư (amphibian) mức độ nhầm lẫn với lồi trùng (reptile) 40% Thông qua việc đánh giá số kiểm định, việc ý nghĩa rủi ro thực tiễn việc đánh giá thông qua ma trận nhầm lẫn: Ta thấy việc sử dụng phương pháp Mô hình Logistic regression cho thấy mơ hình có số kiểm định tốt độ nhầm lẫn dự báo so với thực tế phương pháp thấp PHẦN V: TRIỂN KHAI MƠ HÌNH Mục đích, ý nghĩa việc triển khai mơ hình Mục đích ý nghĩa việc triển khai mơ hình lĩnh vực sinh học phát loài động vật để bảo tồn lồi động vật q hiếm, người xếp chúng vào loại động vật cách nhanh chóng kịp thời, biết cách chăm sóc tốt cho chúng, để chúng phát triển tốt môi trường ngày 2.Phân tích đánh giá hiệu kinh tế triển khai mơ hình Với mơ hình này, thay bỏ chi phí để nghiên cứu xem chúng thuộc loại động vật mà ta dựa vào thuộc tính có chúng (bằng cơng cụ hỗ trợ orange) ta tiết kiệm khoản chi phí cho pg 19 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 việc nghiên cứu Trong q trình phân loại động vật, ta phát loại động vật quý hiếm, từ biết cách chăm sóc bảo tồn chúng cách hiệu nhờ vào tập tính chung loại động vật phân từ mơ hình Bên cạnh đó, giúp cho nhà sinh học không cần nhiều thời gian việc nghiên cứu có phát động vật Tuy nhiên, việc sử dụng mơ hình cịn có mặt hạn chế định Khi xem xét lại kết dự báo, xét thấy có loài động vật Vampire (ma cà rồng) dự đốn lồi động vật có vú, xét lồi động vật mơ hình dựa vào thuộc tính thường thấy lồi để xét xem thuộc loại động vật Mà lồi động vật theo nhóm dự đốn khơng có thật với thuộc tính liệu phân động vật thuộc nhóm động vật có vú Mặt khác có lồi động vật phân loại động vật bị nhầm lẫn Tortoise (loài rùa) phân vào loại chim Tuatara phân vào loại lưỡng cư hai thuộc loại bò sát mức độ nhầm lẫn 0%, hai loài động vật bị nhầm lẫn Cịn lồi động vật cịn lại phân chủng loại chúng Các mơ hình có nhầm lần dựa thuộc tính để đưa kết quả, chúng cơng cụ hữu ích cho Và kết giúp ta thấy ta cần sử dụng nhiều thuộc tính để phân chủng loại động vật để đưa dự đốn xác cho lồi động vật có trường hợp nhầm lẫn PHẦN VI: ĐÁNH GIÁ ĐĨNG GĨP CỦA CÁC THÀNH VIÊN THAM GIA DỰ ÁN TÊN THÀNH VIÊN Phạm Thị Mỹ Duyên Lê Văn Giác Lê Thị Hoanh Trần Văn Hùng Nguyễn Thị Thanh Mai Đỗ Thị Nguyện Lê Cơng Thành NỘI DUNG ĐĨNG GĨP Phần III, tổng hợp nội dung toàn Phần II Phần II Phần IV Phần IV Phần I,V Phần I,V TỶ LỆ ĐÓN G GÓP 100% 100% 100% 100% 100% 100% 100% pg 20 Downloaded by vu ga (vuchinhhp2@gmail.com) ... giúp chúng bay khỏi mặt nước pg lOMoARcPSD|18034504 Với lớp động vật khác nhau, chúng có thuộc tính khác Sẽ có loài động vật thuộc lớp động vật chúng có mang thuộc tính lớp động vật khác Vì phân. .. Nếu dựa vào thuộc tính chúng sống nước dễ hiểu nhầm lồi động vật thuộc lớp cá Tuy nhiên, khoa học khẳng định loài động vật thuộc lớp động vật có vú Những đặc điểm bật chúng thuộc lớp động vật. .. sát, động vật có vú,… bậc cao sau phân động vật thực vật Tóm lại, với dự án này, chúng tơi ? ?Phân lồi động vật vào lớp động vật dựa thuộc tính chúng? ?? (bằng cơng cụ hỗ trợ orange) Mục đích đề tài