1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Đề tài phân loại dữ liệu mô hình phân loại ảnh cats dogs squirrels

18 20 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Loại Dữ Liệu Mô Hình Phân Loại Ảnh Cats-Dogs-Squirrels
Tác giả Trịnh Minh Nhật, Trần Văn Long, Nguyễn Duy Anh
Trường học Đại Học Quốc Gia Hà Nội
Chuyên ngành Khoa Học Tự Nhiên
Thể loại Báo Cáo Giữa Kỳ
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 18
Dung lượng 641,47 KB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA TOÁN - CƠ - TIN HỌC BÁO CÁO GIỮA KỲ HỌC MÁY Đề tài: Phân loại liệu Mơ hình phân loại ảnh Cats-Dogs-Squirrels Nhóm sinh viên: Trịnh Minh Nhật – 20000575 – K65A2 Trần Văn Long – 19000307 – K64A2 Nguyễn Duy Anh – 20000527 – K65A2 HÀ NỘI - 2023 Mục lục Đề tài Thông tin liệu Thơng tin chương trình 3.1 Thư viện cần cài đặt 3.2 Cách chạy 3.2.1 Đường dẫn thư mục .4 3.2.2 Kiểm tra liệu 3.2.3 Nhập liệu Nội dung 4.1 Giảm số chiều liệu PCA 4.1.1 Khái niệm .8 4.1.2 Triển khai PCA 4.2 Mơ hình Multinomial Logistic Regression 12 4.2.1 Giới thiệu 12 4.2.2 Triển khai 13 4.2.3 Đánh giá mơ hì nh 15 Đề tài Đề tài Dựa vào tập liệu ảnh chó mèo (đã giáo viên cung cấp phần thực hành), tìm nguồn ảnh bổ sung thêm số lượng ảnh tương đương (~ 1000 ảnh training 500 ảnh validation) lồi động vật khác, đặt thư mục theo cấu trúc tương tự thực hành CNN có 1) Thực việc rút gọn số chiều liệu, sau tham khảo để hiển thị trực quan phân lớp liệu dạng 3D 2D 2) Thực phân cụm (clustering) liệu gốc 01 thuật toán phân cụm Hiển thị trực quan đánh dấu cụm 3) Xây dựng chương trình sử dụng mơ hình Multinomial Logistic Regression (Softmax) để phân loại hình ảnh, huấn luyện mơ hình tập liệu training sau chạy kiểm tra với liệu tập validation 4) Xây dựng chương trình sử dụng mơ hình Multi-Classes Support Vector Machine để phân loại hình ảnh, huấn luyện mơ hình tập liệu training sau chạy kiểm tra với liệu tập validation 5) So sánh độ xác (sử dụng accuracy, confusion matrix, recall precision) mơ hình ý 4) ý 3) Thông tin liệu Nguồn liệu: https://www.kaggle.com/datasets/alessiocorrado99/animals10 Định dạng file liệu: cats_dogs_squirrels.zip Dữ liệu gồm: tập liệu train tập liệu validation Trong đó: • Tập train có lớp liệu cho lồi động vật mèo(cats), chó(dogs), sóc(squirrels) Mỗi lớp có 1000 ảnh(định dạng jpg) • Tập validation có lớp liệu cho loài động vật mèo(cats), chó(dogs), sóc(squirrels) Mỗi lớp có 500 ảnh(định dạng jpg) Thơng tin chương trình 3.1 Thư viện cần cài đặt Một số thư viện cần thiết sử dụng:  numpy: Thư viện hỗ trợ tính tốn khoa học với Python Nó cung cấp loạt chức công cụ cho việc thao tác liệu số ma trận  pandas: Thư viện cung cấp cấu trúc liệu linh hoạt để xử lý phân tích liệu Nó hỗ trợ đọc ghi định dạng liệu khác CSV, Excel, SQL database, vv  sklearn: Scikit-learn thư viện Python mã nguồn mở sử dụng rộng rãi cho việc xây dựng mơ hình học máy khai thác liệu Nó cung cấp loạt cơng cụ để tiền xử lý liệu, giám sát không giám sát, kiểm tra hiệu suất mơ hình  PCA: Phân tích thành phần (PCA) kỹ thuật giảm số chiều liệu cách chuyển đổi tập liệu thành tập hợp thành phần  tensorflow: TensorFlow thư viện mã nguồn mở sử dụng rộng rãi cho việc xây dựng mơ hình học máy deep learning Nó cung cấp loạt công cụ để xây dựng đào tạo mơ hình, bao gồm lớp, hàm mát, tối ưu hóa, khung thực thi  os: Thư viện cung cấp phương thức để tương tác với hệ thống tệp thư mục  matplotlib: Thư viện vẽ đồ thị biểu đồ Python  Rescaling: Lớp thực rescaling giá trị đầu vào thành khoảng giá trị cụ thể, ví dụ rescaling giá trị pixel từ đến  accuracy_score: Độ đo đánh giá hiệu suất mơ hình cách tính tốn tỷ lệ phân loại toàn tập liệu  confusion_matrix: Một ma trận sử dụng để đánh giá hiệu suất mơ hình phân loại cách hiển thị số lượng trường hợp dự đoán sai 3.2 Cách chạy chương trình 3.2.1 Đường dẫn thư mục Download file liệu cats_dogs_squirrels.zip sau giải nén Đặt lại base_dir đường dẫn thư mục vừa giải nén Đặt đường dẫn cho thư mục train validation Đặt đường dẫn cho thư mục chứa liệu(ảnh) train Đặt đường dẫn cho thư mục chứa liệu(ảnh) validation 3.2.2 Kiểm tra liệu Xem thư mục train validation Demo số ảnh folder 3.2.3 Nhập liệu Import thư viện numpy.asarray để chuyển liệu sang kiểu mảng, PIL.Image để đọc ảnh đặt lại kích thước ảnh: Đọc liệu ảnh tệp liệu train: Kích thước liệu train_images train_labels Đọc liệu ảnh tệp liệu validation, tương tự trên, ta cần thay đường dẫn thư mục thành validation_dir: Kích thước validation_images validation_labels: Chuyển liệu train_images validation_images từ mảng chiều(4D) xuống mảng chiều(2-D): Kích thước mảng sau chuyển: Bảng liệu train_images: Bảng liệu validation_images: Đến ta thành công chuyển liệu ảnh sang kiểu liệu kiểu mảng Nội dung 4.1 Giảm số chiều liệu PCA Dimensionality reduction (giảm số chiều) trình giảm số lượng biến đầu vào (features) liệu không gian đa chiều (high-dimensional space) thành không gian có số chiều thấp hơn, giữ lại thông tin quan trọng ý nghĩa liệu Vì vậy, giảm số chiều liệu bước quan trọng nhiều toán Đây coi phương pháp nén liệu 4.1.1 Khái niệm PCA (Principal Component Analysis) - Phân tích thành phần chính, tức ta phân tích liệu sau tìm thành phần liệu để giữ lại thành phần Ví dụ liệu ta có N features sau áp dụng PCA K features (K

Ngày đăng: 12/12/2023, 15:12

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w