BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN CƠ SỞ NGHIÊN CỨU PHÂN LOẠI HÌNH ẢNH (IMAGES CLASSIFICATION) Giảng viên hướng dẫn Th S VƯƠNG XUÂN CHÍ Sinh viên thự. Phân loại hình ảnh (Image classification) hay Nhận dạng hình ảnh (Image recognition) là một trong những tác vụ của mạng neural, ở đó thuật toán xem xét và dán nhãn cho hình ảnh từ một tập danh mục được xác định và đào tạo trước. Là quá trình lấy một hình ảnh làm dữ liệu đầu vào và gán cho nó một lớp với một xác suất. Quá trình này sử dụng các mô hình học sâu là các mạng thần kinh sâu, hoặc chi tiết hơn là Mạng thần kinh chuyển đổi. LỜI CẢM ƠN Em bày tỏ lòng biết ơn sâu sắc tới Thầy ThS. Vương Xuân Chí đã tận tình hỗ trợ em hết mình trong quá trình thực hiện đồ án cơ sở. Thầy đã tạo điều kiện rất tốt từ khâu chuẩn bị đến việc hoàn thành đồ án. Bên cạnh những buổi học lý thuyết với rất nhiều kiến thức mới trên lớp, những buổi thực hành với rất nhiều bài tập đa dạng để củng cố kiến thức, Thầy còn tạo thêm nhóm trên các nền tảng mạng xã hội để các sinh viên có thể trao đổi sau giờ học, nhận tài liệu từ Thầy, học tập cùng nhau, cùng nhau giải quyết những bài tập khó. Có thể do thời gian có hạn chế, cùng với khả năng của bản thân có hạn nên việc vướng một vài sai sót trong quá trình làm đồ án cơ sở là việc khó tránh khỏi, em rất mong nhận được sự thông cảm, nhận xét góp ý từ Thầy và các thầy cô khác trong khoa Công nghệ thông tin để có thể làm tốt hơn trong những tiểu luận, đồ án sau. Một lần nữa em xin cảm ơn Thầy và chúc Thầy nhiều sức khỏe. Nhân đây em cũng gửi lời cảm ơn đến bạn Phạm Nguyễn Hoài Phong, người đã cùng em tìm tòi, học hỏi, cùng nhau lên kế hoạch thực hiên và hoàn thiện đồ án cơ sở từ những ngày đầu nhận đề tài.
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN CƠ SỞ NGHIÊN CỨU PHÂN LOẠI HÌNH ẢNH (IMAGES CLASSIFICATION) Giảng viên hướng dẫn: Th.S VƯƠNG XUÂN CHÍ Sinh viên thực hiện: NGUYỄN THANH TOÀN Mã số sinh viên: 2000001541 Chuyên ngành: Khoa học liệu Môn học: Đồ án sở Khoa học liệu Khóa: 2020 - TP.HCM – 06/2022 - BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN CƠ SỞ NGHIÊN CỨU PHÂN LOẠI HÌNH ẢNH (IMAGES CLASSIFICATION) Giảng viên hướng dẫn: Th.S VƯƠNG XUÂN CHÍ Sinh viên thực hiện: NGUYỄN THANH TOÀN Mã số sinh viên: 2000001541 Chuyên ngành: Khoa học liệu Môn học: Đồ án sở Khoa học liệu Khóa: 2020 - TP.HCM – 06/2022 - Trường Đại học Nguyễn Tất Thành Khoa Cơng Nghệ Thơng Tin CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc NHIỆM VỤ ĐỒ ÁN CƠ SỞ (Sinh viên phải đóng tờ vào báo cáo) Họ tên: Nguyễn Thanh Toàn MSSV: 2000001541 Chuyên ngành: Khoa học liệu Lớp: 20DTH2A Email: contact.thanhtoan@gmail.com SĐT: 0334745910 Tên đề tài: Nghiên cứu phân loại hình ảnh (Images classification) Giáo viên hướng dẫn: Vương Xuân Chí Thời gian thực hiện: 20 /6 /2022 đến 20 /9 /2022 MÔ TẢ ĐỀ TÀI: Phân loại hình ảnh (Image classification) hay Nhận dạng hình ảnh (Image recognition) tác vụ mạng neural, thuật tốn xem xét dán nhãn cho hình ảnh từ tập danh mục xác định đào tạo trước Là trình lấy hình ảnh làm liệu đầu vào gán cho lớp với xác suất Quá trình sử dụng mơ hình học sâu mạng thần kinh sâu, chi tiết Mạng thần kinh chuyển đổi NỘI DUNG VÀ PHƯƠNG PHÁP: - Tìm hiểu mạng neural - Mơ hình mạng neural học sâu (Deep learning) - Kỹ thuật phân loại classification CNNs - Convolutional Neural Networks - Kết luận YÊU CẦU: - Có kiến thức, đam mê, hiểu biết công nghệ Mạng neural, Machine Learning, Deep Learning… Đọc hiểu tài liệu tiếng Anh, kỹ trình bày văn máy tính tốt - Có tác phong làm việc chăm chỉ, tinh thần trách nhiệm cao, có khả làm việc độc lập làm việc nhóm tốt Nội dung u cầu thơng qua Bộ môn TP.HCM, ngày 26 tháng 06 năm 2022 TRƯỞNG BỘ MÔN GIÁO VIÊN HƯỚNG DẪN (Ký ghi rõ họ tên) (Ký ghi rõ họ tên) ThS Vương Xuân Chí ThS Vương Xuân Chí LỜI CẢM ƠN Em bày tỏ lòng biết ơn sâu sắc tới Thầy ThS Vương Xn Chí tận tình hỗ trợ em trình thực đồ án sở Thầy tạo điều kiện tốt từ khâu chuẩn bị đến việc hoàn thành đồ án Bên cạnh buổi học lý thuyết với nhiều kiến thức lớp, buổi thực hành với nhiều tập đa dạng để củng cố kiến thức, Thầy cịn tạo thêm nhóm tảng mạng xã hội để sinh viên trao đổi sau học, nhận tài liệu từ Thầy, học tập nhau, giải tập khó Có thể thời gian có hạn chế, với khả thân có hạn nên việc vướng vài sai sót q trình làm đồ án sở việc khó tránh khỏi, em mong nhận thơng cảm, nhận xét góp ý từ Thầy thầy cô khác khoa Công nghệ thông tin để làm tốt tiểu luận, đồ án sau Một lần em xin cảm ơn Thầy chúc Thầy nhiều sức khỏe Nhân em gửi lời cảm ơn đến bạn Phạm Nguyễn Hồi Phong, người em tìm tịi, học hỏi, lên kế hoạch thực hiên hoàn thiện đồ án sở từ ngày đầu nhận đề tài Sinh viên thực Nguyễn Thanh Toàn NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN PHIẾU CHẤM THI TIỂU LUẬN/ĐỒ ÁN Môn thi: Đồ Án Cơ Sở Khoa Học Dữ Liệu Lớp học phần: 20DTH2A Nhóm sinh viên thực : Tham gia đóng góp: Nguyễn Thanh Tồn Tham gia đóng góp: Phạm Nguyễn Hồi Phong Ngày thi: Phòng thi: Đề tài tiểu luận/báo cáo sinh viên: Nghiên cứu phân loại hình ảnh (Images classification) Phần đánh giá giảng viên (căn thang rubrics môn học): Cấu trúc báo cáo Nội dung • Các nội dung thành phần • Lập luận • Kết luận Trình bày Giảng viên chấm thi (Ký, ghi rõ họ tên) LỜI MỞ ĐẦU Phân loại hình ảnh, nhận diện hình ảnh thị giác máy tính, kỹ thuật tìm kiếm cách tự động hóa tất cơng việc mà hệ thống thị giác người làm Hiện nay, nhận diện hình ảnh thể tốt tầm quan trọng hầu hết lĩnh vực đời sống Có thể kể đến vài lợi ích tuyệt vời việc ứng dụng nhận diện hình ảnh vào đời sống thực tế: việc chấm cơng phương pháp nhận diện khuôn mặt thay cho việc chấm công theo kiểu vân tay truyền thống, hạn chế việc lây lan virus tình hình dịch bệnh nay; nhận diện đối tượng hệ thống CCTV (Closed Circuit Televison - hệ thống giám sát) việc quản lý chung cư, khách sạn, doanh nghiệp, cửa hàng hay hộ gia đình, giúp theo dõi, phát sớm bất thường khu vực camera an ninh theo dõi; nhận diện hình ảnh ứng dụng Google Lens giúp tìm kiếm thứ thơng qua hình ảnh vừa chụp, dịch nhanh thông tin với ngôn ngữ khác với vài giây; hay kể đến Apple, họ áp dụng công nghệ nhận diện khuôn mặt vào thiết bị họ với tên gọi (Face ID), với khả nhận diện phân biệt đâu mơus chủ sở hữu thật thiết bị giúp nâng cao khả bảo mật cho thiết bị thông tin, liệu khách hàng Từ ví dụ trên, thấy, cơng nghệ phân loại hình ảnh ngày sử dụng rộng rãi, ngày phát huy vai trị vị q trình phát triển xã hội nói chung phát triển công nghê, đặc biệt công nghệ thơng tin nói riêng MỤC LỤC DANH MỤC CÁC HÌNH Ảnh Mơ hình neural nhân tạo Ảnh Đồ thị hàm ngưỡng Ảnh Đồ thị hàm ReLU Ảnh Đồ thị hàm Logistic sigmoid Ảnh Mơ hình mạng thần kinh nhân tạo Ảnh Mơ hình minh họa cấu trúc mạng lưới thần kinh cách đào tạo hoạt động Ảnh Định nghĩa Convolutional Ảnh Các lớp Convolution layer 10 Tất mạng thần kinh có lớp đầu vào, liệu ban đầu đưa vào lớp đầu ra, tạo dự đoán cuối Nhưng mạng lưới thần kinh sâu, có nhiều "lớp tế bào" ẩn lớp đầu vào đầu ra, lớp cho liệu vào Do đó, thuật ngữ "Deep" "Deep Learning" "mạng lưới thần kinh sâu", liên quan đến số lượng lớn lớp ẩn – thường lớn ba – trung tâm mạng thần kinh Sơ đồ đơn giản hóa hy vọng giúp cung cấp ý tưởng cách cấu trúc mạng lưới thần kinh đơn giản Trong ví dụ này, mạng đào tạo để nhận số liệu viết tay, chẳng hạn số hiển thị đây, với lớp đầu vào cung cấp giá trị đại diện cho pixel tạo thành hình ảnh chữ số viết tay lớp đầu dự đoán số viết tay hiển thị hình ảnh Trong sơ đồ trên, vòng tròn đại diện cho neural mạng, với neural tổ chức thành lớp thẳng đứng Mỗi neural liên kết với neural lớp sau, thể thực tế neural tạo giá trị vào neural lớp Màu sắc liên kết sơ đồ khác Các màu khác nhau, đen đỏ, thể tầm quan trọng liên kết neural Các liên kết màu đỏ liên kết có ý nghĩa lớn hơn, có nghĩa chúng khuếch đại giá trị qua lớp Đổi lại, khuếch đại giá trị giúp kích hoạt tế bào thần kinh mà giá trị đưa vào Một neural cho kích hoạt tổng giá trị đưa vào neural vượt qua ngưỡng đặt Trong sơ đồ, tế bào thần kinh kích hoạt có màu đỏ Kích hoạt có nghĩa khác theo lớp Trong "Lớp ẩn 1" hiển thị sơ đồ, neural kích hoạt có nghĩa hình ảnh hình viết tay chứa tổ hợp pixel định giống với đường nằm ngang đầu số viết tay Theo cách này, "Lớp ẩn 1" phát nhiều đường đường cong câu chuyện cuối kết hợp với thành hình viết tay đầy đủ 17 Một mạng lưới thần kinh thực tế có hai lớp ẩn nhiều neural lớp Ví dụ: "Lớp ẩn 2" cung cấp đường đường cong nhỏ xác định "Lớp ẩn 1" phát cách chúng kết hợp để tạo thành hình dạng nhận biết, tạo thành chữ số, toàn vòng lặp sáu Bằng cách cung cấp liệu chuyển tiếp lớp theo cách này, lớp ẩn xử lý tính ngày cao Như đề cập, tế bào thần kinh kích hoạt lớp đầu sơ đồ có ý nghĩa khác Trong trường hợp này, tế bào thần kinh kích hoạt tương ứng với số lượng mạng thần kinh ước tính hiển thị hình ảnh chữ số viết tay mà cung cấp làm đầu vào Đầu lớp đầu vào lớp mạng, với liệu chảy qua mạng từ đầu vào đến đầu Nhưng làm để nhiều lớp ẩn cho phép máy tính xác định chất chữ số viết tay? Nhiều lớp tế bào thần kinh cung cấp cách để mạng lưới thần kinh xây dựng hệ thống phân cấp thơ gồm tính khác tạo nên chữ số viết tay câu hỏi Chẳng hạn, đầu vào mảng giá trị đại diện cho pixel riêng lẻ hình ảnh hình viết tay, lớp kết hợp pixel thành đường hình dạng, lớp kết hợp hình dạng thành đặc điểm riêng biệt vịng lặp tam giác 4, Bằng cách xây dựng tranh tính này, mạng thần kinh đại xác định – với độ xác cao – số tương ứng với chữ số viết tay Tương tự, loại mạng thần kinh sâu khác đào tạo để nhận diện khn mặt hình ảnh để phiên âm lời nói văn Q trình xây dựng hệ thống phân cấp ngày phức tạp tính số viết tay khơng có ngồi pixel mạng học Quá trình học tập thực cách mạng thay đổi tầm quan trọng liên kết 18 neural lớp Mỗi liên kết có giá trị đính kèm gọi trọng số, sửa đổi giá trị tạo neural truyền từ lớp sang lớp Bằng cách thay đổi giá trị trọng số giá trị liên quan gọi sai lệch, nhấn mạnh làm giảm tầm quan trọng liên kết neural mạng Ảnh Mơ hình minh họa cấu trúc mạng lưới thần kinh cách đào tạo hoạt động 2.2 Cách thức hoạt động Deep learning Deep Learning xem phương pháp học máy theo phương pháp: lập trình AI huấn luyện để dự đoán đầu dựa vào tập đầu vào Ví dụ cụ thể: Dự đốn hành động mèo gặp chuột tiến hành huấn luyện phương pháp học có giám sát Khi muốn dự đốn hành động vào đầu vào thực sau: - Lựa chọn mồi phù hợp Lúc này: phận thể mèo mắt, móng vuốt, tai, mèo trở nên nhanh nhạy - Con chuột xuất đâu 19 Về Deep Learning khơng khác với học máy thơng thường Tuy nhiên, với ví dụ thời gian cần dành nhiều thiết kế tính đại diện cho mèo Những cần làm cung cấp cho hệ thống số lượng hình ảnh mèo, video mèo bắt chuột hệ thống tự học tính đại diện dành cho mèo Với tác vụ thị giác máy tính, nhận dạng giọng nói, robot dịch máy hiệu suất Deep Learning vượt xa hệ thống máy khác Tuy nhiên, việc xây dựng hệ thống Deep Learning lại không dễ dàng so với hệ thống máy móc thơng thường Deep Learning có độ xác cao, học sâu rộng đạt độ xác mức công nhận vô cao Điều đảm bảo cho thiết bị điện tử tiêu dùng đáp ứng nhu cầu mong đợi từ phía người dùng Deep Learning trọng độ an tồn mơ hình xe không người lái Các liệu Deep Learning dán nhãn việc phát triển xe không người lái địi hỏi hàng triệu hình ảnh hàng ngàn để xem video GPU có hiệu suất cao có kiến thức song song nên hiệu cho Deep Learning Nếu kết hợp với điện tốn đám mây cụm cho phép nhóm phát triển giảm xuống tối đa thời gian đào tạo mạng lưới học tập sau vài tuần vài 2.3 Nên dùng Deep learning trường hợp nào? Deep learning nên dùng liệu phần lớn khơng có cấu trúc có nhiều liệu Các thuật tốn Deep Learning lấy liệu lộn xộn khơng có nhãn rộng rãi – chẳng hạn video, hình ảnh, ghi âm văn – áp đặt đủ thứ tự cho liệu để đưa dự đốn hữu ích, xây dựng hệ thống phân cấp tính tạo nên chó mèo hình ảnh âm tạo thành từ lời nói 20 2.4 Ứng dụng Deep learning - Ứng dụng ngành công nghệ cao Ứng dụng vượt bậc Deep Learning không kể đến chế tạo robot Hiện nay, phiên robot giống người với khả cảm nhận, phản ứng với môi trường dần đời Hiện nay, robot cịn hợp tác với hoạt động người chúng thực nhiệm vụ riêng biệt phù hợp với mạnh chúng Robot góp phần thay người việc thực công việc khó khăn Đây phát minh tuyệt vời nhờ ứng dụng Deep Learning - Ứng dụng nơng nghiệp Hiện nay, nhờ có Deep Learning mà người nơng dân triển khai thiết bị có khả phân biệt cỏ dại với trồng Từ đó, loại máy móc phun thuốc diệt cỏ chọn lọc phun lên cỏ dại để đảm bảo cho trồng khơng bị ảnh hưởng Ngồi vai trị loại bỏ cỏ dại thuốc diệt cỏ nhờ Deep Learning mà sản lượng nông nghiệp ngày cải thiện Bên cạnh đó, Deep Learning mở rộng sang hoạt động như: thu hoạch, tưới tiêu, bón phân, gieo trồng, - Ứng dụng điện tử Deep Learning ứng dụng cho công việc nhận diện khuôn mặt thiết bị điện tử điện thoại, phần mềm Facebook, Messenger, Thêm vào đó, Deep Learning cịn dùng nghe dịch nói tự động mà trang web google translate sử dụng Ngoài ra, số thiết bị trợ giúp nhà ứng dụng Deep Learning để đáp ứng giọng nói hiểu sở thích (đây ứng dụng học sâu) - Ứng dụng cho lĩnh vực không gian vũ trụ quốc phòng 21 Deep Learning dùng với mục đích như: xác định vật thể vệ tinh, xác định khu vực trung tâm, xác định khu vực an tồn khơng an tồn qn đội, - Ứng dụng y tế chăm sóc sức khỏe Deep Learning phát huy hiệu siêu bật cách hiển thị liệu chất lượng cao đo lường khả mạng thần kinh thực phân loại hình ảnh Deep Learning có khả phân loại ung thư da chuẩn xác hiệu bác sĩ da liễu chuyên nghiệp Đồng thời, nhà nghiên cứu bệnh ung thư ứng dụng Deep Learning để tự động phát tế bào phát bệnh, thực sau: chế tạo kính hiển vi tiên tiến để tạo liệu có chiều cao phù hợp, dùng để đào tạo ứng dụng học sâu để xác định tế bào ung thư.Ngồi ra, Deep Learning cịn có bước tiến quan trọng việc cải thiện chất lượng sức khỏe bệnh nhân dự đoán với kiện y tế từ liệu hồ sơ sức khỏe điện tử - Ứng dụng cơng nghiệp Deep Learning có khả cải thiện an tồn cho cơng nhân xung máy móc hạng nặng cách: tự động phát người vật nằm khoảng cách khơng an tồn máy 2.5 Deep learning có nhược điểm nào? Nhược điểm Deep learning : Một nhược điểm lớn lượng liệu họ cần đào tạo, gần Facebook tuyên bố họ sử dụng tỷ hình ảnh để đạt hiệu suất phá kỷ lục hệ thống nhận dạng hình ảnh Khi liệu lớn vậy, hệ thống đào tạo yêu cầu quyền truy cập vào lượng lớn sức mạnh tính tốn phân tán Đây vấn đề khác học tập sâu, chi phí đào tạo Do kích thước liệu số chu kỳ đào tạo phải chạy, đào tạo thường yêu cầu quyền truy cập vào phần cứng máy tính mạnh mẽ đắt tiền, điển hình GPU 22 cao cấp mảng GPU Dù xây dựng hệ thống riêng thuê phần cứng từ tảng đám mây, khơng có tùy chọn rẻ Mạng lưới thần kinh sâu khó đào tạo, gọi vấn đề độ dốc biến mất, làm xấu nhiều lớp mạng lưới thần kinh Khi nhiều lớp thêm vào, vấn đề độ dốc biến dẫn đến việc thời gian dài để đào tạo mạng lưới thần kinh đến mức độ xác tốt, cải thiện chu kỳ đào tạo Vấn đề không ảnh hưởng đến tất mạng thần kinh nhiều lớp, thay vào mạng sử dụng phương pháp học tập dựa độ dốc Điều nói vấn đề giải theo nhiều cách khác nhau, cách chọn chức kích hoạt phù hợp cách đào tạo hệ thống sử dụng GPU hạng nặng 2.6 Những kỹ thuật Deep learning? Những kỹ thuật Deep Learning: Có nhiều loại mạng lưới thần kinh sâu, với cấu trúc phù hợp với loại nhiệm vụ khác Ví dụ: Mạng thần kinh chuyển đổi (CNN) thường sử dụng cho tác vụ thị giác máy tính, Mạng thần kinh tái phát (RNN) thường sử dụng để xử lý ngôn ngữ Mỗi lớp có chun mơn riêng, CNN, lớp ban đầu chuyên biệt để trích xuất tính riêng biệt từ hình ảnh, sau đưa vào mạng thần kinh thơng thường phép hình ảnh phân loại Trong đó, RNN khác với mạng neural chuyển tiếp thức ăn truyền thống chỗ chúng không cung cấp liệu từ lớp thần kinh sang lớp thần kinh mà có vịng phản hồi tích hợp, đầu liệu từ lớp đưa trở lại lớp trước – cho mạng dạng nhớ Có dạng RNN chuyên biệt bao gồm gọi ô nhớ điều chỉnh để xử lý liệu có độ trễ đầu vào Loại mạng thần kinh mạng perceptron nhiều lớp, loại thảo luận ví dụ số liệu viết tay, liệu đưa phía trước lớp tế bào thần kinh Mỗi neural thường biến đổi giá trị mà chúng cung cấp cách sử dụng chức kích hoạt, thay đổi giá trị thành 23 dạng, cuối chu kỳ đào tạo, cho phép mạng tính tốn bao xa để đưa dự đốn xác Có số lượng lớn loại mạng thần kinh sâu khác Khơng có mạng tốt mạng kia, chúng phù hợp để học loại nhiệm vụ cụ thể Gần đây, mạng đối nghịch chung (Gans) mở rộng để sử dụng mạng thần kinh Trong kiến trúc này, hai mạng thần kinh chiến đấu, mạng máy phát điện cố gắng tạo liệu "giả" thuyết phục người phân biệt đối xử cố gắng phân biệt khác biệt liệu giả liệu thực Với chu kỳ đào tạo, máy phát điện trở nên tốt việc tạo liệu giả người phân biệt đối xử có mắt sắc nét để phát giả mạo Bằng cách kết hợp hai mạng với trình đào tạo, hai đạt hiệu suất tốt GAN sử dụng để thực số nhiệm vụ quan trọng CHƯƠNG KỸ THUẬT PHÂN LOẠI CLASSIFICATION CNNs - CONVOLUTIONAL NEURAL NETWORKS 3.1 Convolutional neural network? 3.1.1 Convolutional neural network gì? CNNs (Convolutional neural networks) - mạng thần kinh tích chập đặc biệt xây dựng với khả trích xuất nét độc đáo từ liệu hình ảnh Nó giúp xây dựng hệ thống thơng minh với độ xác cao, có khả áp dụng vào thực tiễn Ví dụ, chúng sử dụng nhận dạng phát khn mặt chúng phát điểm phức tạp liệu hình ảnh Giống loại mạng neural khác, mạng thần kinh tích chập (CNNs) sử dụng liệu số Vì thế, hình ảnh đầu vào cung cấp cho CNNs phải chuyển đổi thành dạng số, hình ảnh tạo thành từ pixel, chúng chuyển thành dạng số, sau chuyển đến CNN để xử lý 24 3.1.2 Convulutional Feature Feature: hiểu đặc điểm, CNN so sánh hình ảnh theo mảnh, mảnh gọi Feature So với việc khớp ảnh lại với CNN tìm tương đồng việc tìm kiếm thơ Feature khớp với hình ảnh tốt Mỗi Feature xem ảnh nhỏ, tức chúng mảng chiều nhỏ Các Feature khớp với thông khía cạnh, điểm chung ảnh, tức Feature tương ứng với khía cảnh ảnh chúng khớp lại với Convulutional: hiểu với ý nghĩa tích chập Đơn giản hơn, xem hình ảnh mới, CNN khơng biết vị trí nào, feature khớp với vị trí nào, thử tất vị trí khác Trong q trình tạo thành lọc (Filter) Và để thực điều phải sử dụng phần tốn gọi neural tích chập Ảnh Định nghĩa Convolutional Nếu muốn tính toán khớp Feature với mảnh hình ảnh lấy kết phép tính điểm ảnh feature nhân với giá trị điểm ảnh tương ứng hình ảnh Sau có kết phép tính 25 feature với ảnh đem cộng lại với chia cho số lượng tất điểm ảnh có feature Nếu điểm ảnh khớp cho kết 1, cịn khơng kết -1 Để hoàn tất trình tích chập, phải lặp lặp lại hành động nhiều lần, q trình gọi việc xếp feature vào tất mảnh hình ảnh thực Kết trình hình ảnh lọc, có filter riêng tương ứng Tóm lại, q trình tích chập diễn theo lớp gọi layer 3.1.3 Các lớp CNN Convolutional layer Convolutional layer lớp quan trong CNN, lớp thực phép tính tốn Một số khái niệm cần nhắc đến convolutional layer filter map, stride, padding feature map Nếu ANN kết nối pixel hình ảnh đầu vào CNN sử dụng filter để áp vào vùng hình ảnh, gọi filter map Các filter map ma trận chiều, bao gồm số số parameter Stride: dịch chuyển filter map theo pixel dựa vào giá trị từ trái sang phải Stride dịch chuyển Padding: giá trị thêm vào lớp input Feature map: thể kết lần filter map quét qua input lần qt xảy q trình tính toán 26 Ảnh Các lớp Convolution layer 3.1.4 Pooling layer Nếu đầu vào lớn, lớp pooling layer xếp vào lớp convolutional layer để làm giảm parameter Có loại pooling layer phổ biến max pooling average pooling 3.1.5 ReLU layer ReLU layer hàm kích hoạt neural network, tác dụng hàm việc mơ neural có tỉ lệ truyền xung qua axon Trong hàm kích hoạt có hàm sau: Sigmoid, tanh, ReLU, Leaky ReLU, Maxout Hàm ReLU sử dụng phổ biến tính thơng dụng, đặc biệt việc huấn luyện mạng neural ReLU có ưu điểm bật, chẳng hạn việc tính tốn nhanh Khi sử dụng ReLU có thứ cần phải ý đến việc tùy chỉnh Learning rate Dead unit Lớp ReLU layer sử dụng sau filter map tính tốn áp dụng hàm ReLU lên tất giá trị filter map 3.1.6 Fully connected layer Fully connected layer dùng để đưa kết Sau lớp convolutional layer pooling layer nhận ảnh truyền qua nó, lúc 27 thu kết model đọc nhiều thông tin ảnh Vì vậy, để liên kết đặc điểm lại cho output phải dùng fully connected layer Thêm nữa, lớp fully connected layer, có liệu hình ảnh, chúng chuyển thành mục có phân chia chất lượng Gióng kiểu chia thành phiếu bầu sau đánh giá để bầu cho hình ảnh đạt chất lượng tốt 3.2 Kỹ thuật phân loại Classification CNNs 3.2.1 Kỹ thuật phân loại Classification CNNs gì? Phân loại hình ảnh (Image classification) hay Nhận dạng hình ảnh (Image recognition) tác vụ thị giác máy tính, thuật tốn xem xét dán nhãn cho hình ảnh từ tập danh mục xác định đào tạo trước Với tập hình ảnh khác nhau, hình ảnh mơ tả mèo chó, thuật tốn "quan sát" tồn liệu dựa hình dạng, màu sắc để hình thành giả thuyết liên quan đến nội dung ảnh Kết thu từ tập liệu ban đầu, hình ảnh chó/mèo phân loại cách tự động Thực tế, thị giác góp phần tạo nên 80-85% nhận thức người giới Hàng ngày, người phải thực phân loại liệu hình ảnh mà bắt gặp Do đó, mơ nhiệm vụ phân loại với trợ giúp mạng neural ứng dụng thị giác máy tính mà nhà nghiên cứu nghĩ đến 3.2.2 Các kỹ thuật phân loại hình ảnh Có nhiều thuật tốn khác dùng việc phân loại hình ảnh, thuật tốn chia thành loại chính: Học có giám sát (Supervised Learning) Học khơng giám sát (Unsupervised Learning) Phân loại có giám sát: kỹ thuật này, thuật toán huấn luyện tập hình ảnh dán nhãn Từ liệu mẫu này, thuật tốn có 28 thể trích xuất thơng tin, phục vụ phân loại hình ảnh chưa nhìn thấy trước Xun suốt q trình đào tạo, đặc điểm ma trận hình ảnh trích xuất dạng liệu quan trọng để đưa vào xử lý Các đặc điểm đại diện cho hình ảnh khơng gian chiều thấp sở để thuật toán tiến hành phân loại Trong trình đánh giá, đặc điểm ảnh thử nghiệm thu thập tái phân loại với hỗ trợ mạng thần kinh nhân tạo Hệ thống lúc nhận biết đặc điểm điển hình lớp hình ảnh mà đào tạo Các phương pháp phân loại phổ biến dựa học có giám sát bao gồm: Support Vector Machines, Decision Trees, K Nearest Neighbors Các mạng neural thường sử dụng để phân loại hình ảnh có giám sát bao gồm AlexNet, ResNet, DenseNet Inception Đối với phân loại có giám sát, việc dán nhãn liệu đóng vai trị quan trọng Độ xác liệu dán nhãn định phần lớn hiệu suất mô hình học máy Các thuật tốn phân loại có giám sát chia thành hai mục nhỏ dựa nhãn liệu Phân loại nhãn đơn Phân loại đa nhãn Với phân loại nhãn đơn (Single-label classification): tác vụ phổ biến kỹ thuật phân loại có giám sát Trong đó, hình ảnh đại diện nhãn hay thích Mơ hình xuất giá trị dự đốn cho hình ảnh mà xử lý Còn với phân loại đa nhãn (multi-label classification): hình ảnh chứa nhiều nhãn thích, số hình ảnh chứa đồng thời tất nhãn Phân loại không giám sát: phân loại không giám sát, thuật tốn sử dụng liệu thơ để huấn luyện Các nhãn phân loại thường không dùng kiểu học này, mơ hình học cách nhận dạng mẫu tập liệu huấn luyện Tương tự phân loại có giám sát, phương pháp dựa không giám sát liên quan đến bước trích xuất đặc điểm với thơng tin chi tiết 29 hình ảnh Các đặc điểm sau xử lý phương pháp phân cụm tham số phi tham số thuật tốn học khơng giám sát khác CHƯƠNG KẾT LUẬN Trong trình nghiên cứu kỹ thuật phân loại hình ảnh, chúng em nhận thấy kỹ thuật có nhiều ưu điểm đồng thời tồn vài hạn chế, song kể như: muốn huấn luyện mơ hình với độ xác cao phải có lượng liệu thơ lớn, đồng thời phải xử lí, dán nhãn riêng cho liệu hình ảnh Nhưng ưu điểm kỹ thuật mang lại vơ lớn, kể đến như: áp dụng sân bay, dùng máy quét an ninh kết hợp với mắt thường khó phát thứ cấm mang lên máy bay, phát tốn nhiều thời gian, áp dụng kỹ thuật phân loại/nhận diện hình ảnh vào chung với máy quét an ninh thời gian độ xác việc phát hiên thứ cấm mang lên máy bay nhanh cao nhiều Hướng phát triển: áp dụng kỹ thuật phân loại hình ảnh, nhận diện hình ảnh vào việc quản lí an ninh cho chung cư, khách sạn, doanh nghiệp, cửa hàng hộ gia đình Áp dụng vào lĩnh vực y tế để đưa chẩn đốn bệnh thơng qua ảnh chụp 30 TÀI LIỆU THAM KHẢO [1] - https://cuonglv1109.blogspot.com/ [2] - https://haophuong.net/ [3] - https://topdev.vn [4] - https://viblo.asia/ [5] - https://vinbigdata.com [6] - https://wikipedia.com [7] - https://www.kdnuggets.com/ [8] - Slide giảng môn học [9] - Tài liệu giảng viên cung cấp 31 ... đề tài: Nghiên cứu phân loại hình ảnh (Images classification) Giáo viên hướng dẫn: Vương Xuân Chí Thời gian thực hiện: 20 /6 /2022 đến 20 /9 /2022 MÔ TẢ ĐỀ TÀI: Phân loại hình ảnh (Image classification). .. MỤC LỤC DANH MỤC CÁC HÌNH Ảnh Mơ hình neural nhân tạo Ảnh Đồ thị hàm ngưỡng Ảnh Đồ thị hàm ReLU Ảnh Đồ thị hàm Logistic sigmoid Ảnh Mơ hình mạng thần kinh nhân tạo Ảnh Mơ hình minh họa cấu trúc... kỹ thuật phân loại có giám sát Trong đó, hình ảnh đại diện nhãn hay thích Mơ hình xuất giá trị dự đoán cho hình ảnh mà xử lý Cịn với phân loại đa nhãn (multi-label classification): hình ảnh chứa