1. Trang chủ
  2. » Tất cả

Dự án image classification on mnist

17 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC PHENIKAA TÊN BÀI TẬP/ DỰ ÁN: Image Classification on MNIST Giảng viên: GS/PGS/TS/ThS : Nguyễn Văn Tới Nhóm sinh viên: Thành viên Hoàng Thị Hà MSV: 20010893 Trần Công Danh MSV: 20010760 Dương Văn Quang MSV: 20010793 Nguyễn Thị Ngọc Lớp: N03 Học phần: Thị giác máy tính HÀ NỘI, 11/2022 Tóm tắt: Chúng tơi báo cáo đạt độ xác cao thử nghiệm MNIST cách sử dụng mơ hình mạng thần kinh chuyển đổi đơn giản (CNN) Chúng tơi sử dụng ba mơ hình khác với kích thước hạt nhân 3×3, 5×5 7×7 lớp tích chập Mỗi mơ hình bao gồm tập hợp lớp tích chập, theo sau lớp kết nối đầy đủ Mỗi lớp tích chập sử dụng chuẩn hóa hàng loạt kích hoạt ReLU , không sử dụng tổng hợp Xoay dịch sử dụng để tăng cường liệu đào tạo, kỹ thuật thường sử dụng hầu hết nhiệm vụ phân loại hình ảnh Biểu theo đa số cách sử dụng ba mơ hình đào tạo độc lập tập huấn luyện đạt độ xác lên tới 99,87% tập kiểm tra, kết đại Một tập hợp hai lớp, tập hợp không đồng ba mạng tập hợp đồng nhất, đạt độ xác kiểm tra lên tới 99,91% 1.Tổng quan Bộ liệu nhận dạng chữ số viết tay MNIST (Hình 1, [1]) liệu sử dụng để kiểm tra hiệu suất mơ hình mạng thần kinh kỹ thuật học tập Sử dụng 60.000 hình ảnh làm tập huấn luyện, dễ dàng đạt độ xác 97% -98% tập kiểm tra gồm 10.000 hình ảnh, với phương pháp học tập k-láng giềng gần (KNN), rừng ngẫu nhiên, máy vectơ hỗ trợ (SVM) mơ hình mạng nơ-ron đơn giản Mạng thần kinh tích chập (CNN) cải thiện độ xác lên 99% với 100 hình ảnh bị phân loại sai thử nghiệm 100 hình ảnh cuối khó phân loại xác Để cải thiện độ xác sau 99%, chúng tơi cần mơ hình phức tạp hơn, điều chỉnh cẩn thận siêu tham số tốc độ học kích thước lơ, kỹ thuật chuẩn hóa chuẩn hóa loại bỏ hàng loạt tăng cường liệu huấn luyện Độ xác cao đạt thử nghiệm MNIST khoảng 99,7% đến 99,84% Trong báo này, chúng tơi báo cáo mơ hình đạt độ xác cao kiểm tra MNIST mà khơng cần khía cạnh cấu trúc phức tạp kỹ thuật học tập Mô hình sử dụng tập hợp lớp tích chập, theo sau lớp kết nối đầy đủ cuối, kiến trúc mơ hình thường sử dụng Chúng sử dụng sơ đồ tăng cường liệu bản, dịch xoay Chúng tơi đào tạo ba mơ hình có kiến trúc tương tự sử dụng biểu đa số mơ hình để có dự đốn cuối Ba mơ hình có kiến trúc tương tự nhau, có kích thước hạt nhân khác lớp tích chập  Các thí nghiệm cho thấy việc kết hợp mơ hình có kích thước nhân khác đạt độ xác tốt so với việc kết hợp mơ hình có kích thước nhân 2.Thiết kế đào tạo mạng Các mô hình mạng chúng tơi bao gồm nhiều lớp tích chập lớp kết nối đầy đủ cuối Trong lớp tích chập, tích chập 2D thực hiện, chuẩn hóa hàng loạt 2D kích hoạt ReLU Tổng hợp tối đa tổng hợp trung bình khơng sử dụng sau tích chập Thay vào đó, kích thước đồ tính bị giảm sau lần tích chập phần đệm khơng sử dụng Ví dụ: sử dụng nhân 3×3 , chiều rộng chiều cao hình ảnh giảm hai sau lớp tích chập Cách tiếp cận tương tự thực mạng khác [6, 2] Số lượng kênh tăng lên sau lớp để giảm kích thước đồ tính Khi kích thước đồ tính trở nên đủ nhỏ, lớp kết nối đầy đủ kết nối đồ tính với đầu cuối Chuẩn hóa hàng loạt 1D sử dụng lớp kết nối đầy đủ, lớp bỏ học không sử dụng Chúng sử dụng ba mạng khác kết hợp kết từ mạng Các mạng khác kích thước hạt nhân lớp tích chập: 3×3, 5×5 7×7 Vì kích thước hạt nhân khác dẫn đến giảm kích thước khác đồ đặc trưng, nên số lượng lớp khác mạng Mạng đầu tiên, M3, sử dụng 10 lớp tích chập với 16(i + 1) kênh lớp tích chập thứ i Bản đồ tính trở thành 8×8 với 176 kênh sau lớp thứ 10 Mạng thứ hai, M5, sử dụng lớp tích chập với 32i kênh lớp tích chập thứ i Bản đồ tính trở thành 8×8 với 160 kênh sau lớp thứ Mạng thứ ba, M7, sử dụng lớp tích chập với 48i kênh lớp tích chập thứ i Bản đồ tính trở thành 4×4 với 192 kênh sau lớp thứ Cấu trúc ba mạng thể Hình Khi đào tạo, áp dụng chuyển đổi liệu bao gồm dịch ngẫu nhiên xoay ngẫu nhiên Đối với dịch ngẫu nhiên, hình ảnh dịch chuyển ngẫu nhiên theo chiều ngang chiều dọc, tối đa 20% kích thước hình ảnh theo hướng Để xoay ngẫu nhiên, hình ảnh xoay tối đa 20 độ theo chiều kim đồng hồ ngược chiều kim đồng hồ Số lượng biến đổi khác hình ảnh kỷ ngun, mạng xem phiên khác hình ảnh tập huấn luyện (Hình 3) Để đào tạo đánh giá, vectơ đầu vào thường số nguyên [0, 255] chuyển đổi thành giá trị dấu phẩy động [-1.0, 1.0] Các tham số mạng khởi tạo phương thức khởi tạo mặc định PyTorch [7] Để tối ưu hóa tham số, chúng tơi sử dụng trình tối ưu hóa Adam với chức entropy chéo Tốc độ học 0,001 giảm dần theo cấp số nhânvới hệ số phân rã γ=0,98 Kích thước lơ 120 đó, 500 cập nhật tham số xảy kỷ nguyên Chúng tơi sử dụng hàm mũ trung bình động trọng số để đánh giá, điều dẫn đến khả khái quát hóa tốt [8] Sự phân rã theo cấp số nhân sử dụng cho kỷ ngun đầu, mơ hình tất mạng trở nên giống sau 50 kỷ nguyên Bảng cho thấy mức tối thiểu, trung bình, trung bình 99,79 99,5930 ± 0,0136 99,6949 ± 0,0058 99,7667 ± 0,0084 tối đa tính tốn trung bình động 0,999 thí nghiệm 3.1 Kết cho Mạng Nhóm riêng lẻ Với loại mạng ta huấn luyện 30 mạng với thông số ban đầu khác Mỗi mạng huấn luyện để 150 kỷ nguyên, độ xác kiểm tra khơng cải thiện sau thời điểm Hình cho thấy thay đổi độ xác đào tạo độ xác kiểm tra đào tạo Về độ xác thử nghiệm, mạng có nhân lớn cho thấy số bất ổn độ xác tối đa 30 mạng khoảng từ 50 đến 150 kỷ nguyên, phạm vi tin cậy 95% Độ xác M3 cao chút, tiếp đến M5 M7 mức chênh lệch không lớn (dưới 0,02%) Từ 50 đến 150 giai đoạn 30 mạng, độ xác thử nghiệm cao quan sát từ M3, M5, M7 99,82, 99,80 99,79 Được biết, việc sử dụng tập hợp mạng cải thiện khả khái quát hóa đạt độ xác kiểm tra cao [9, 10, 11, 12] Để kiểm tra hiệu suất mạng đồng tập liệu MNIST, đào tạo 30 mạng cho mạng M3, M5 M7 thử nghiệm bốn chiến lược tập hợp khác Trong ba chiến lược đầu tiên, chọn ngẫu nhiên ba mạng từ loại mạng (M3, M5 M7) Trong chiến lược thứ tư, chọn mạng từ loại Kết cuối thu cách sử dụng biểu đa số Nghĩa là, hai mạng đồng ý hình ảnh thuộc lớp cụ thể, lớp chọn Nếu ba mạng bỏ phiếu cho lớp khác nhau, lớp chọn ngẫu nhiên số ba mạng Đối với chiến lược, thử nghiệm 1000 mạng kết hợp vẽ biểu đồ để biết độ xác thử nghiệm Hình cho thấy lợi ích việc sử dụng tập hợp mạng đồng Đối với M3, M5 M7, đạt độ xác kiểm tra cao cách kết hợp kết từ ba mạng (Đường thẳng di chuyển sang bên phải.) Hình cho thấy độ xác phép thử bốn phương pháp kết hợp thảo luận Bảng cho thấy phạm vi tin cậy 95% độ xác phép thử bốn phương pháp Có thể nhận thấy độ xác kiểm tra trung bình phương pháp tập hợp đồng tương tự nhau, phương pháp tập hợp mạng chọn từ loại mạng đạt độ xác cao Từ Hình 5, thấy việc sử dụng nhóm gồm ba mạng đồng cải thiện độ xác phép thử Ngồi ra, Hình cho thấy việc kết hợp kết từ mạng khơng đồng giúp tăng độ xác Chúng tơi thử nghiệm phương pháp tập hợp hai cấp độ, trước tiên chúng tơi kết hợp kết từ ba mạng đồng nhất, sau kết hợp kết từ ba mạng tập hợp đồng Đối với nghiên cứu này, đào tạo nhóm gồm 10 mạng cho loại mạng M3, M5 M7 Đối với mạng, đào tạo 150 kỷ nguyên lưu mô hình tốt độ xác thử nghiệm Sau đó, chúng tơi chọn ngẫu nhiên mạng từ M3 kết hợp kết chúng biểu đa số Tương tự, kết hợp kết ba mạng cho M5 M7 Sau đó, sử dụng biểu đa số cho ba mạng kết hợp Hình thể phân bổ độ xác phép thử 1000 nhóm mạng riêng lẻ (M3+M5+M7) 1000 nhóm mạng kết hợp ((M3+M3+M3)+(M5+M5+M5)+(M7+M7+M7 )) Biểu đồ cho thấy việc sử dụng tập hợp mạng tập hợp cải thiện độ xác thử nghiệm mức trung bình Bảng cho thấy phạm vi tin cậy 95% độ xác tốt quan sát tập hợp mạng riêng lẻ tập hợp mạng tập hợp Ngồi lựa chọn ngẫu nhiên, chúng tơi đưa trường hợp tốt để xem độ xác tốt mà chúng tơi đạt Vì trường hợp tốt nhất, chọn 10 mạng tập hợp đồng từ M3, M5 M7 cho thấy độ xác kiểm tra tốt Sau đó, chúng tơi chọn mạng từ loại kết hợp kết chúng Độ xác tốt đạt 99,91% 3.2 Tác động kiến trúc mạng Khi xây dựng CNN, thực tế phổ biến sử dụng tổng hợp, chẳng hạn tổng hợp tối đa tổng hợp trung bình [13] tổng hợp sử dụng để có bất biến dịch thuật làm giảm kích thước đồ đặc trưng Một mơ hình CNN thường sử dụng bao gồm tập hợp lớp tích chập lớp tích chập theo sau lớp tổng hợp nhiều lớp kết nối đầy đủ cuối Một số mạng có hai lớp tích chập trước lớp tổng hợp Hình cho thấy số cấu trúc CNN thường sử dụng đặt tên cho ba mạng C1, C2 C3 Hình cho thấy thay đổi đào tạo kiểm tra độ xác trình đào tạo Có thể thấy mạng sử dụng tối đa gộp lại, độ xác kiểm tra trải qua dao động giai đoạn đầu đào tạo Mặt khác, độ xác phép thử M5 tăng cách ổn định Bảng cho thấy độ xác kiểm tra 30 mạng khoảng thời gian từ 50 đến 150 thời đại đào tạo Độ xác kiểm tra trung bình C3 M5 tốt so với C1 C2, có nghĩa sử dụng nhiều lớp tích chập dẫn đến việc học tính tốt Có nhiều lớp kết nối đầy đủ cuối khơng giúp gì, nhìn thấy từ độ xác C1 C2 Giữa C3 M5, nhìn chung M5 đạt độ xác cao đạt độ xác cao trường hợp tốt Hình 10 cho thấy biểu đồ phân phối 30 mạng cho C1, C2, C3 M5 Đối với biểu đồ này, mạng đào tạo 150 giai đoạn mạng có độ xác kiểm tra cao lưu Có thể thấy M5 đạt kiểm tra tốt xác so với mạng khác nói chung Bảng cho thấy phạm vi tin cậy 95% độ xác kiểm tra cho mạng mẫu 3.3 Tác động việc tăng cường liệu Tăng cường liệu kỹ thuật để tăng tính đa dạng liệu đào tạo mà không thực thu thập liệu ghi nhãn họ Đây kỹ thuật cần thiết cho việc học có giám sát, cần có tập liệu lớn để mơ hình mạng đạt hiệu cao [14, 15, 16, 17, 18] Khi đào tạo mạng đề xuất, sử dụng hai sơ đồ cho liệu hệ: xoay ngẫu nhiên dịch ngẫu nhiên Có nhiều lược đồ khác cắt xén, lật thay đổi kích thước sơ đồ tăng cường tốt phụ thuộc vào liệu Trong phần này, nghiên cứu xem liệu tăng cường liệu thực giúp cải thiện hiệu suất mạng Chúng so sánh hiệu suất bốn mạng M5 với kết hợp chương trình tăng cường áp dụng Hình 11 cho thấy biểu đồ phân phối 30 mạng cho bốn loại khác chiến lược gia tăng Có thể thấy việc tăng cường liệu nói chung hữu ích Đối với tập liệu MNIST, áp dụng xoay ngẫu nhiên có đóng góp cao chút so với dịch ngẫu nhiên, hai sơ đồ cần thiết để đạt độ xác tốt Bảng cho thấy phạm vi tin cậy 95% độ xác kiểm tra bốn chiến lược tăng cường 3.4 Tác động chuẩn hóa hàng loạt Batch normalization kỹ thuật tiếng để cải thiện hiệu suất mạng ổn định tốc độ đào tạo [19] Đã có báo cáo hầu hết mơ hình mạng thần kinh hưởng lợi từ việc sử dụng chuẩn hóa hàng loạt [20, 21] Trong phần này, chúng tơi nghiên cứu tác động chuẩn hóa hàng loạt hiệu suất mơ hình mạng M5 Chúng tơi so sánh ba cấu hình: mơ hình hồn tồn khơng sử dụng chuẩn hóa hàng loạt, mơ hình thứ hai sử dụng chuẩn hóa hàng loạt lớp kết nối đầy đủ mơ hình thứ ba sử dụng chuẩn hóa hàng loạt tất lớp Hình 12 cho thấy biểu đồ phân phối 30 mạng cho cấu hình Bảng cho thấy phạm vi tin cậy 95% độ xác kiểm tra cho cấu hình Rõ ràng việc sử dụng chuẩn hóa hàng loạt giúp cải thiện hiệu suất mơ hình mạng thần kinh Hiệu suất tốt đạt chuẩn hóa hàng loạt sử dụng lớp tích chập kết nối đầy đủ 4 Kết luận Bộ liệu chữ số viết tay MNIST thường sử dụng làm liệu cấp đầu vào để đào tạo kiểm tra mạng thần kinh Mặc dù đạt độ xác 99% thử nghiệm dễ dàng, việc phân loại xác 1% hình ảnh cuối lại thách thức Mọi người thử nhiều mơ hình kỹ thuật mạng khác để tăng độ xác thử nghiệm độ xác tốt báo cáo đạt khoảng 99,8% Trong báo này, mơ hình CNN đơn giản với chuẩn hóa hàng loạt tăng cường liệu đạt độ xác cao Sử dụng tập hợp mơ hình mạng đồng khơng đồng tăng hiệu suất, độ xác kiểm tra lên tới 99,91%, hiệu suất tiên tiến Các nghiên cứu với nhiều cấu hình khác cho thấy hiệu suất cao không đạt kỹ thuật kiến trúc mơ hình đơn lẻ mà đóng góp nhiều kỹ thuật chuẩn hóa hàng loạt, tăng cường liệu phương pháp tập hợp ... tăng cường liệu huấn luyện Độ xác cao đạt thử nghiệm MNIST khoảng 99,7% đến 99,84% Trong báo này, báo cáo mơ hình đạt độ xác cao kiểm tra MNIST mà khơng cần khía cạnh cấu trúc phức tạp kỹ thuật... đồng tập liệu MNIST, đào tạo 30 mạng cho mạng M3, M5 M7 thử nghiệm bốn chiến lược tập hợp khác Trong ba chiến lược đầu tiên, chọn ngẫu nhiên ba mạng từ loại mạng (M3, M5 M7) Trong chiến lược... kiểm tra gồm 10.000 hình ảnh, với phương pháp học tập k-láng giềng gần (KNN), rừng ngẫu nhiên, máy vectơ hỗ trợ (SVM) mơ hình mạng nơ-ron đơn giản Mạng thần kinh tích chập (CNN) cải thiện độ xác

Ngày đăng: 25/03/2023, 18:25

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w