Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 14 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
14
Dung lượng
1,97 MB
Nội dung
BỘ GIÁO DỤC & ĐÀO TẠO TRƯỜNG ĐẠI HỌC UEH TRƯỜNG KINH TẾ, LUẬT VÀ QUẢN LÝ NHÀ NƯỚC DỰ ÁN CUỐI KÌ ĐỀ TÀI: PHÂN LỚP VÀ DỰ BÁO BỘ DỮ LIỆU IRIS Môn học: Khoa học liệu GVHD: Thầy VÕ THÀNH ĐỨC LHP: 22D1INF50905909 Nhóm sinh viên thực hiện: NGUYỄN THỊ THÙY LINH NGUYỄN THỊ THẢO LY NGUYỄN CÔNG MINH NGUYỄN NỮ PHƯƠNG NHIÊN BÙI PHẠM DIỄM TRINH TP HCM, ngày 27 tháng 03 năm 2022 MỤC LỤC LỜI CẢM ƠN I GIỚI THIỆU: 1.1 Lý chọn đề tài 1.1.1 Mục tiêu nghiên cứu: 1.1.2 Đối tượng nghiên cứu: 1.1.3 Câu hỏi nghiên cứu: .2 1.2 Một số phương pháp phân lớp II THU THẬP VÀ LÀM SẠCH DỮ LIỆU .3 Mô tả tổng quát liệu .3 Sơ lược thuộc tính xác định biến mục tiêu .3 Các bước giải pháp làm liệu III KIỂM ĐỊNH MƠ HÌNH .5 Test and Score .6 Ma trận nhầm lẫn .7 + Hồi quy Logistic Regression .7 + Tree .7 + SVM IV ĐÁNH GIÁ VÀ LỰA CHỌN MƠ HÌNH Dự báo V TRIỂN KHAI MÔ HÌNH .10 5.1 Mục tiêu việc triển khai mơ hình: .10 5.1.1 Ứng dụng y khoa: .10 5.1.2: Ứng dụng kinh tế: .11 5.2 Hiệu kinh tế mơ hình: 11 VI ĐÁNH GIÁ 12 LỜI CẢM ƠN Nhóm em xin gửi lời cảm ơn chân thành sâu sắc đến thầy VÕ THÀNH ĐỨC, giảng viên môn Khoa học liệu trường Đại học Kinh Tế TP HCM Trong trình tìm hiểu học tập, nhóm em nhận giảng dạy hướng dẫn tận tình, tâm huyết thầy Thầy giúp nhóm em tích lũy thêm nhiều kiến thức hay bổ ích Tuy nhiên, kiến thức mơn nhóm em cịn hạn chế định Trong trình làm đề tài dự án khó tránh khỏi sai sót, mong thầy bỏ qua Đồng thời trình độ lý luận kinh nghiệm thực tiễn hạn chế nên báo cáo khơng thể tránh khỏi thiếu sót, nhóm em mong nhận ý kiến đóng góp thầy để dự án nhóm em hồn thiện Một lần nữa, nhóm em xin trân trọng cảm ơn quan tâm giúp đỡ thầy trình làm dự án Kính chúc thầy ln dồi sức khỏe, niềm tin để tiếp tục thực sứ mệnh cao đẹp truyền đạt kiến thức cho hệ mai sau Nhóm em xin chân thành cảm ơn! I GIỚI THIỆU: Ứng dụng công nghệ thông tin vào việc lưu trữ xử lý thông tin ngày áp dụng hầu hết lĩnh vực, điều tạo lượng lớn liệu lưu trữ với kích thước tăng lên khơng ngừng Đây điều kiện tốt cho việc khai thác kho liệu để đem lại tri thức có ích với cơng cụ truy vấn, lập bảng biểu khai phá liệu Khai phá liệu kỹ thuật dựa tảng nhiều lý thuyết xác xuất, thống kê, máy học nhằm tìm kiếm tri thức tiềm ẩn kho liệu có kích thước lớn mà người dùng khó nhận biết kỹ thuật thơng thường Bộ liệu Iris dataset chứa đựng ý nghĩa y khoa kinh tế lớn, áp dụng khai phá liệu hai lĩnh vực mang lại nhiều ý nghĩa Nó cung cấp thông tin quý giá nhằm hỗ trợ việc dự báo để chế tạo thuốc hay ứng dụng kinh tế Để minh chứng cho lợi ích mà việc dự báo mang lại, nhóm em định thực dự án “Phân lớp dự báo liệu Iris” để thử nghiệm đánh giá Ứng dụng kỹ thuật phân lớp liệu khai phá liệu nhằm xây dựng hệ thống đánh giá hướng nghiên cứu dự án Hình 1: Quá trình khai phá liệu 1.1 Lý chọn đề tài 1.1.1 Mục tiêu nghiên cứu: Dùng dự báo phân lớp để phân loại loài hoa nhằm mục đích ứng dụng sản suất y khoa tối đa hóa suất, lợi nhuận kinh tế 1.1.2 Đối tượng nghiên cứu: Sử dụng liệu Iris dataset phần mềm Orange tiến hành dự án 1.1.3 Câu hỏi nghiên cứu: Với hoa diên vĩ (iris), liệu phân loại thành setosa, versicolor hay virginica dựa phép đo không? Nếu việc phân loại lồi mang tính chất tương đối tỉ lệ dự báo nhầm lẫn lồi có cao khơng có ảnh hưởng nhiều không? Ứng dụng vào thực tiễn sau phân loại hoa Iris gì? 1.2 Một số phương pháp phân lớp Logistic Regression Hồi quy logistic phương pháp phân tích thống kê để dự đốn kết nhị phân, chẳng hạn có khơng, dựa quan sát trước tập liệu Mơ hình hồi quy logistic dự đốn biến liệu phụ thuộc cách phân tích mối quan hệ nhiều biến độc lập có Decision Tree Trong lý thuyết quản trị, định đồ thị định kết kèm nhằm hỗ trợ trình định Trong lĩnh vực khai thác liệu, định phương pháp nhằm mô tả, phân loại tổng quát hóa tập liệu cho trước SVM thuật tốn có giám sát, SVM nhận liệu vào, xem chúng vector không gian phân loại chúng vào lớp khác cách xây dựng siêu phẳng không gian nhiều chiều làm mặt phân cách lớp liệu SVM (Support Vector Machine) Để tối ưu kết phân lớp phải xác định siêu phẳng (hyperplane) có khoảng cách đến điểm liệu (margin) tất lớp xa SVM có nhiều biến thể phù hợp với tốn phân loại khác II THU THẬP VÀ LÀM SẠCH DỮ LIỆU Mô tả tổng quát liệu Tập liệu hoa Iris tập liệu Iris Fisher tập liệu đa biến giới thiệu nhà thống kê nhà sinh vật học người Anh Ronald Fisher báo năm 1936 Việc sử dụng nhiều phép đo vấn đề phân loại ví dụ phân tích phân biệt tuyến tính Đơi gọi tập liệu Iris Anderson Edgar Anderson thu thập liệu để định lượng biến đổi hình thái hoa Iris ba loài liên quan Hai số ba loài thu thập Bán đảo Gaspé "tất từ đồng cỏ, chọn vào ngày đo lúc người với máy" Bộ liệu bao gồm loài Iris (Iris setosa, Iris virginica Iris Verscolor), lồi có 50 mẫu Sơ lược thuộc tính xác định biến mục tiêu Bộ liệu bao gồm 150 quan sát thuộc tính với thuộc tính kiểu số: Độ dài đài hoa (sepal length) Độ rộng đài hoa (sepal width) Độ dài cánh hoa (petal length) Độ rộng cánh hoa (petal width) Và thuộc tính cịn lại tên lồi hoa Iris (có lồi tất cả: Iris Setosa, Iris Versicolor, Iris Virginica) dùng làm biến mục tiêu để xác định thuộc lồi loại Các bước giải pháp làm liệu Role” thuộc tính: Từ liệu “Iris” ban đầu, ta có “Type” “Role” thuộc tính sau: Đến đây, ta thực trình xử lý cách điều chỉnh thuộc tính sang“Type” “Role” cho hợp lý Cụ thể: Vì ta thực xử lý liệu nhằm mục đích dự báo cho biến đầu ra, ta chuyển “Role” thuộc tính iris từ Feature => Target Các thuộc tính liệu đưa vào mơ hình nên “Role” chúng giữ nguyên “ feature” “Missing Value” liệu: Để xử lý mẫu có “Missing Value”, ta tiến hành thực Preprocess, chọn Impute Missing Values, sau chọn Average/Most frequent nhằm mục đích điền mẫu giá trị trung bình giá trị có tần số xuất thường xuyên Sau thực hiện, ta có kết sau: Kết thu ta tiến hành lưu giữ định dạng Excel, để từ ta tiếp tục lấy liệu kết tiến hành phân lớp III KIỂM ĐỊNH MƠ HÌNH - Đầu tiên, ta tiến hành nghiên cứu liệu để tìm hiểu tất lồi thuộc tính khác cách sử dụng widget Data table - Ngồi ra, cịn sử dụng widget Distributions – liệu thuộc tính phân phối theo biến mục tiêu cách rõ ràng dễ nhìn qua biểu đồ cột Ví dụ: Đối với thuộc tính độ dài đài hoa, loài sentosa phân bổ từ 4-6 ( phần lớn 5cm), loài versicolor phân bổ từ 5-7 loài virginica phân bổ từ 5-8 Test and Score Nhận xét kết quả: Mơ hình Tree có số AUC 0.957 Precision 0.940 Mô hình SVM có số AUC 0.998 Precision 0.966 Mơ hình Logistic Regression có số AUC 0.997 Precision 0.965 → Vậy mơ hình tốt SVM có số AUC Precision cao mơ hình Tuy nhiên, để có thêm kiểm định mơ hình phù hợp ta dùng ma trận nhầm lẫn (Confusion Matrix) Ma trận nhầm lẫn + Hồi quy Logistic Regression → Ta thấy tỉ lệ dự đốn hai lồi versicolor virginica 96% 93.5% Mặt khác, ta thấy tỉ lệ nhầm lẫn dự đốn lồi versicolor thành virginica 6.5% ngược lại 4.0% + Tree → Ta thấy tỉ lệ dự đoán hai loài versicolor virginica 90.5% 91.4% Mặt khác, ta thấy tỉ lệ nhầm lẫn dự đốn lồi versicolor thành virginica 8.6% ngược lại 8.7% + SVM → Ta thấy tỉ lệ dự đốn hai lồi versicolor virginica 94.7% 95.1% Mặt khác, ta thấy tỉ lệ nhầm lẫn dự đoán loài versicolor thành virginica 4.9% ngược lại 5.3% ֍ Vì lồi virsicolor lồi có độc nên nhầm lẫn thực tế loài virsicolor dự đoán virginica đưa kết luận sai có hại Từ bảng ma trận nhầm lẫn ta thấy mơ hình SVM có tỉ lệ nhầm lẫn dự đốn lồi versicolor thành virginica thấp (4.9%) → Mơ hình SVM tốt IV ĐÁNH GIÁ VÀ LỰA CHỌN MƠ HÌNH * Qua ma trận nhầm lẫn phương pháp phân lớp ta thấy phương SVM tốt liệu có tỉ lệ dự đốn sai lệch thấp ta dùng phương pháp SVM để phân lớp liệu * Bên cạnh đó, quan tâm đến AUC Precision Test and Score Từ bảng kết => mơ hình SVM tốt mơ hình có số AUC lớn (0.998) có độ xác Precision cao (0.966) Dự báo 10 Với mơ hình SVM ta có: AUC = chứng tỏ mơ hình tốt Ta lưu lại bảng dự báo tên “Iris(pre)_end” V TRIỂN KHAI MƠ HÌNH 5.1 Mục tiêu việc triển khai mơ hình: 5.1.1 Ứng dụng y khoa: Để dựa thuộc tính lồi hoa phân lớp từ ứng dụng vào sản xuất y khoa Xét ma trận nhầm lẫn mơ hình SVM: Trên thực tế, cơng dụng lồi hoa Iris dùng để làm thuốc chữa bệnh da, đau lưng, cảm mạo, khó thở,…(trừ lồi Versicolor có độc) Dựa vào ma trận nhầm lẫn ta thấy dự báo nhầm lẫn lồi verginica => dự báo có hại Ngược lại dự báo khơng có hại 11 5.1.2: Ứng dụng kinh tế: Để dựa thuộc tính lồi hoa phân lớp từ ứng dụng vào sản xuất kinh tế Do có mùi thơm hoa violet nên thêm vào làm nước hoa rượu thơm Đồng thời, hoa diên vĩ mang lại giá trị kinh tế cao Để loài hoa đem lại hiệu kinh tế cao trước tiên cần phải đáp ứng điều kiện sống chúng với nhiều nhu cầu, chức loài thực vật Nhu cầu lồi thực vật đóng vai trị quan trọng sống cịn (ví dụ, nhu cầu cần oxy, nước, chất dinh dưỡng, ánh sáng, nhiệt độ, ) Ví dụ: Lồi Setosa Điều kiện sống Setosa thích nơi ẩm ướt, có bóng râm, ánh nắng mặt trời Độ pH đất dự báo có hại Ngược lại dự báo khơng có hại 11 5.1.2: Ứng dụng kinh tế: Để dựa thuộc tính lồi hoa phân lớp từ ứng dụng vào... xa SVM có nhiều biến thể phù hợp với toán phân loại khác II THU THẬP VÀ LÀM SẠCH DỮ LIỆU Mô tả tổng quát liệu Tập liệu hoa Iris tập liệu Iris Fisher tập liệu đa biến giới thiệu nhà thống kê nhà