Chuẩn bị, khám phá, làm sạch và nhất quán dữ liệu

Một phần của tài liệu Phân loại phong cách thiết kế nội thất dùng học sâu và ứng dụng thực tế đồ án tốt nghiệp khoa đào tạo chất lượng cao ngành công nghệ thông tin (Trang 94 - 97)

CHƯƠNG 4 THỰC NGHIỆM VÀ KẾT QUẢ

4.3. Quy trình thực nghiệm lần 1

4.3.2. Chuẩn bị, khám phá, làm sạch và nhất quán dữ liệu

4.3.2.1. Định dạng HDF5 là gì?

Bởi nhóm khơng có nhiều tài ngun nên nhóm sẽ quyết định sử dụng các nền tảng cho phép sử dụng tài nguyên miễn phí như: Google Colab, và cụ thể là dự án này sẽ áp dụng trên Kaggle, vấn đề nhóm gặp phải là việc di chuyển 1 lượng lớn ảnh lên internet là khá vất vả, để giảm thời gian cho vấn đề này, nhóm đã nén dữ liệu dưới định dạng HDF5 (*.h5). Vậy HDF5 là gì?

Trang | 78 HDF5 là một định dạng được thiết kế để lưu trữ các mảng số lớn thuộc loại đồng nhất. Nó đặc biệt tiện dụng khi bạn cần sắp xếp các mơ hình dữ liệu của mình theo kiểu phân cấp và bạn cũng cần một cách nhanh chóng để truy xuất dữ liệu.

Các đặc điểm của file HDF5:

• Truy vấn tốc độ cao và tiết kiệm dung lượng lưu trữ.

• Đa nền tảng, thư viện thao tác HDF5 có nhiều ngơn ngữ như C/C++, Java, Python, Golang....

• Khơng giới hạn kích thước (Lưu ý rằng vẫn phụ thuộc vào dung lượng RAM hiện có).

• Dễ dàng chia sẻ, vì nó giống như dạng nén và thành duy nhất 1 file.

4.3.2.2. Các bước thực hiện.

Các bước thực hiện theo trình tự:

• Khám phá dữ liệu, thơng kê số lượng cũng như xem xét chất lượng của dữ liệu.

• Chia tập dữ liệu thành 2 phần là: tập huấn luyện và tập kiểm thử/thẩm định. Tập sẽ được chia ở tỉ lệ 8 : 2. Bởi lẻ chia như vậy vì khi tập huấn luyện có q ít thì mơ hình sẽ khơng tốt. Ví dụ, thi ngồi đời thực ta có 10 đề thi thì với một người chưa có năng lực làm bài thi trước đó làm 8 đề thi thử (huấn luyện với điều kiện có học tập), thì năng lực người ấy sẽ tăng lên, tăng khả năng làm bài trong 2 đề thi kiểm tra còn lại (tăng khả năng dự đốn). Cịn nếu thay bằng tỉ lệ khác mà tỉ lệ tập thử nghiệm nhiều hơn thì khả năng học tập của mơ hình sẽ giảm xuống.

• Đọc dữ liệu ảnh và đồng nhất dữ liệu.

- Thực hiện đọc dữ liệu hình ở chế độ màu RGB bằng thư viện OpenCV- Python sang dữ liệu mảng.

- Thay đổi kích thước ảnh về một kích thước chung 224x224. - Đồng thời chuyển đổi label thành vị trí thứ tự của chúng.

• Chuẩn hóa dữ liệu và nén thành file HDF5.

- Chia mảng dữ liệu cho 255 (Giá trị max trong hệ màu RGB để đưa mảng giá trị nằm trong khoảng [0, 1]).

Trang | 79 - Khi chuẩn hóa sẽ có 2 vấn đề là dữ liệu của chúng ta sẽ từ định dạng

unit8 trở thành float64, và ta có thể chọn 1 trong những lựa chọn sau là float32 và float16 thì độ chính xác sẽ bị giảm 1 một nửa.

- Xuất ra file định dạng *.h5.

Việc đọc tập dữ liệu huấn luyện và tập dữ liệu thử nghiệm lặp lại tương tự các bước trên, kết quả sau cùng chúng ta sẽ thu được 2 file HDF5: 1 file chứa dữ liệu cho tập huấn luyện và 1 file chứa dữ liệu cho thử nghiệm/thẩm định.

Trang | 80

Một phần của tài liệu Phân loại phong cách thiết kế nội thất dùng học sâu và ứng dụng thực tế đồ án tốt nghiệp khoa đào tạo chất lượng cao ngành công nghệ thông tin (Trang 94 - 97)