(Tiểu luận) một số vấn đề về chọn lọc thị giác máy tính nghiên cứu về mạng neural convolutional,

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN MỘT SỐ VẤN ĐỀ VỀ CHỌN LỌC THỊ GIÁC MÁY TÍNH NGHIÊN CỨU VỀ MẠNG NEURAL CONVOLUTIONAL, Sinh viên thực : Phạm Xuân Thường 19000492 Hoàng Nghĩa Phong - 19000460 Đinh Trọng Phúc Hà Nội - 2022 LỜI MỞ ĐẦU Deep Learning thuật toán dựa số ý tưởng từ não tới việc tiếp thu nhiều tầng biểu đạt, cụ thể lẫn trừu tượng, qua làm rõ nghĩa loại liệu Deep Learning ứng dụng nhận diện hình ảnh, nhận diện giọng nói, xử lý ngơn ngữ tự nhiên Hiện nhiều toán nhận dạng sử dụng deep learning để giải deep learning giải tốn với số lƣợng lớn, kích thước đầu vào lớn với hiệu độ xác vượt trội so với phương pháp phân lớp truyền thống Những năm gần đây, ta chứng kiến nhiều thành tựu vượt bậc ngành Thị giác máy tính (Computer Vision) Các hệ thống xử lý ảnh lớn Facebook, Google hay Amazon đưa vào sản phẩm chức thông minh nhận diện khuôn mặt người dùng, phát triển xe tự lái hay drone giao hàng tự động Convolutional Neural Network (CNNs – Mạng nơ-ron tích chập) mơ hình Deep Learning tiên tiến giúp cho xây dựng hệ thống thơng minh với độ xác cao nay.Bài báo cáo , chúng em vào nghiên cứu mạng neural mạng Convolution (tích chập) ý tưởng mơ hình Nội dung báo cáo bao gồm chương Chương 1: Mạng neural mạng neural tích chập Chương 2: Tổng quan nhận dạng biển số xe Chương 3: Áp dụng mạng neural tích chập nhận dạng ký CHƯƠNG TỔNG QUAN VỀ MẠNG NƠ RON VÀ GIỚI THIỆU VỀ MẠNG NƠ RON TÍCH CHẬP 1.1 Nơ ron nhân tạo 1.1.1 Lịch sử nơ ron nhân tạo Vào năm 1943, nhà thần kinh học Warren McCulloch nhà toán học Walter Pitts viết sách cách mạng thần kinh hoạt động Và họ thực mô mạng thần kinh đơn giản mạch điện [9] Vào năm 1949, Donald Hebb viết sách Organization of Behavior Điểm nhấn mạng thần kinh sử dụng nhiều tăng cường Vào năm 1959, David Hubel Torsten Wiesel xuất sách Receptive fields of single neurons in the cat’s striate cortex, miêu tả phản ứng tế bào thần kinh thị giác loài mèo, cách loài mèo ghi nhớ nhận diện hình dạng kiến trúc vỏ não Hình 1.1 Hình ảnh thí nghiệm David Hubel Torsten Wiesel mèo [10] Vào năm 1989, Yann LeCun áp dụng thuật toán học cho mạng nơ ron theo kiểu lan truyền ngược vào kiến trúc mạng nơ ron tích chập Fukushima Sau vài năm, LeCun cơng bố LeNet-5 [13] Có thể nói, LeNet-5 mạng nơ ron tích chập sơ khai nhất, nhiên dấu ấn tồn tới ngày nay, thấy thơng qua số thành phần thiết yếu mà mạng nơ ron tích chập ngày sử dụng 1.1.2 Cấu tạo trình xử lý nơ ron sinh học Hình 1.2: Hình ảnh nơ ron sinh học [14] Một nơ ron gồm có: thân nơ ron, tua gai thần kinh, sợi trục thần kinh, đó: Thân nơ ron: nơi xử lý tín hiệu đưa vào; Tua gai thần kinh: nơi nhận xung điện vào nơ ron; Sợi trục thần kinh: nơi đưa tín hiệu ngồi sau xử lý nơ ron; Khớp thần kinh: vị trí nằm tua gai thần kinh sợi trục thần kinh, điểm liên kết đầu nơ ron với đầu vào nơ ron khác 1.1.3 Cấu tạo trình xử lý nơ ron nhân tạo Dựa vào cấu tạo nơ ron sinh học, nhà khoa học nghiên cứu lập trình đưa kiến trúc nơ ron nhân tạo: Hình 1.3: Cơng thức nơ ron nhân tạo [41] Mạng nơ ron nhân tạo mơ tả đơn giản lại sau: Hình 1.4: Hình ảnh nơ ron nhân tạo Trong đó: Danh sách đầu vào: Là thuộc tính đầu vào nơ ron Số lượng thuộc tính đầu vào thường nhiều một, liệu thô đầu vào thường vector nhiều chiều, nhiều nơ ron tầng trước kết nối tới nơ ron tầng sau Trọng số liên kết: Các liên kết thể độ mạnh yếu qua giá trị gọi trọng số liên kết Kết hơp với đầu truyền, tín hiệu đến nơ ron nhân tạo khác tính ; Hình 1.5: Hình ảnh vị trí thiên lệch thêm vào thực tế Hàm tổng: Tổng tích đầu vào với trọng số liên kết mô khớp kết nối Sau qua hàm tính tổng để tính giá trị trước đưa vào hàm truyền; Thiên lệch (b): Độ lệch đưa vào sau khi tính tốn xong hàm tổng, tạo giá trị cuối trước đưa vào hàm truyền Mục đích việc thêm vào thiên lệch nhằm dịch chuyển chức hàm kích hoạt sang trái phải, giúp ích mạng huấn luyện Hình ảnh vị trí thiên lệch thêm vào mạng nơ ron thực tế Hình ảnh huấn luyện có khơng có thiên lệch: Hình 1.6: Kết hàm sigmoid với trọng số đầu vào khác khơng có thiên lệch Hình 1.7: Kết hàm sigmoid với trọng số thiên lệch khác Hàm kích hoạt (Activation functions): Hàm sử dụng để tính tốn giá trị đầu dựa vào giá trị hàm Tổng 1.1.4 Các mơ hình hàm kích hoạt mạng nơ ron nhân tạo 1.1.4.1 Hàm Sigmod Biểu diễn hàm: Đạo hàm hàm: Hàm Sigmoid sử dụng ngưỡng nằm khoảng (0, 1) Do đó, hàm sử dụng nhiều cho mơ hình dự đốn xác suất đầu ra, tức kết tồn khoảng từ đến 1: đầu vào số dương lớn, đầu hàm sigmoid gần Khi nhỏ 0, đầu gần Tuy nhiên, việc tối ưu hàm khó khăn, ngun nhân giá trị đầu vào hàm số lớn, đầu hàm đầu xấp xỉ 0, nên tốc độ hội tụ chậm Hình 1.8: Đồ thị hàm Sigmoid 1.1.4.2 Hàm TanH Biểu diễn hàm: Đạo hàm hàm: Hàm TanH sử dụng đầu hàm nằm khoảng , thích hợp với mơ hình đầu có ba giá trị: âm, trung tính (0) dương Chúng ta thấy rõ điều hình minh họa Hình 1.9: Đồ thị hàm TanH 1.1.4.3 Hàm tuyến tính Biểu diễn hàm: Đạo hàm hàm: Hàm tuyến tính áp dụng thao tác nhận dạng liệu với liệu đầu tỷ lệ thuận với liệu đầu vào Hình 1.10: Đồ thị hàm tuyến tính 1.1.4.4 Hàm RELU Biểu diễn hàm: Đạo hàm hàm: Hàm RELU áp dụng với trường hợp cần đầu nằm khoảng (0, +∞) Hàm RELU có tốc độ tính tốn nhanh, gán giá trị âm trở thành lập tức, phù hợp cho việc huấn luyện từ liệu chuẩn Tuy nhiên, điều khiến hàm RELU không ánh xạ giá trị âm cách thích hợp Hình 1.11: Đồ thị hàm RELU 1.1.4.5 Hàm ELU Biểu diễn hàm: Đạo hàm hàm: Hàm ELU biến thể hàm RELU Hàm thường sử dụng ngưỡng đầu nằm khoảng (-1, +∞) Hàm ELU khắc phục hạn chế ánh xạ giá trị âm hàm RELU Hình 1.12: Đồ thị hàm ELU Áp dụng quy trình tương tự Ví dụ, Tính đạo hàm riêng cho độ lệch nút k lớp cuối thu được: Bởi nên Phương trình cập nhật thành: Công thức áp dụng với đầu Vì vậy, độ dốc hàm chi phí so với độ lệch là: Rút từ công thức trên, giải thuật loan truyền ngược mơ tả sau: Bước 1: Chạy mạng tính tốn với liệu đầu vào để có đầu mạng Bước 2: Đối với nút đầu ra, ta thực phép tính: Bước 3: Đối với nút tầng ẩn, ta thực phép tính: Bước 4: Cập nhật trọng số thiên lệch sau: Giả thiết: Áp dụng: Tham số thuật toán gọi tốc độ học tập Thuật toán lặp lại đạt sai số tối thiểu ngưỡng chấp nhận để hoàn thành trình huấn luyện 1.3 Mạng nơ ron tích chập 1.3.1 Khái niệm mạng nơ ron tích chập Mạng nơ ron tích chập mạng truyền thẳng đặc biệt Mạng nơ ron tích chập mơ hình học sâu phổ biến tiên tiến Hầu hết hệ thống nhận diện xử lý ảnh sử dụng mạng nơ ron tích chập tốc độ xử lý nhanh độ xác cao Trong mạng nơ ron truyền thống, tầng coi chiều, mạng nơ ron tích chập, tầng coi chiều, gồm: chiều cao, chiều rộng chiều sâu (Hình 1.11) Mạng nơ ron tích chập có hai khái niệm quan trọng: kết nối cục chia sẻ tham số Những khái niệm góp phần giảm số lượng trọng số cần huấn luyện, tăng nhanh tốc độ tính tốn Hình 1.16: Các tầng (layer) CNN chiều Hình 1.17: Hình minh họa ví dụ sử dụng CNN để phân lớp đồ vật [20] 1.3.2 Mơ hình mạng nơ ron tích chập Có ba tầng để xây dựng kiến trúc cho mạng nơ ron tích chập: Tầng tích chập; Tầng gộp (pooling layer); Tầng kết nối đầy đủ (fully-connected) Tầng kết nối đầy đủ giống mạng nơ ron thông thường, tầng chập thực tích chập nhiều lần tầng trước Tầng gộp làm giảm kích thước mẫu khối 2x2 tầng trước Ở mạng nơ ron tích chập, kiến trúc mạng thường chồng ba tầng để xây dựng kiến trúc đầy đủ Ví dụ minh họa kiến trúc mạng nơ ron tích chập đầy đủ: Hình 1.18: Ví dụ minh họa cấu trúc CNNs – LeNet – 5[19] 1.3.2 Xây dựng mạng nơ ron tích chập 1.3.2.1 Mạng kết nối cục Trong xử lý hình ảnh, thơng tin hình ảnh điểm ảnh (pixel) Nếu sử dụng mạng kết nối đầy đủ, có nhiều tham số Ví dụ, hình ảnh RGB có kích thước 512x512 pixel có 786432 (= 512 x 512 x 3) tham số đầu vào Vì vậy, sử dụng kiến trúc mạng nơ ron hình sau: Hình 1.19: Hình ảnh mạng nơ ron kết nối đầy đủ Hình cho thấy áp dụng mạng nơ ron kết nối đầy đủ, toàn kiến trúc mạng cần tính tốn triệu nơ ron Số lượng lớn nơ ron làm cho tồn q trình học chậm dẫn đến q tải so với khả tính tốn máy tính Qua vài nghiên cứu xử lý ảnh, nhà nghiên cứu nhận thấy tính hình ảnh thường cục bộ, nhà nghiên cứu ý đến tính cấp thấp xử lý ảnh Vì vậy, kiến trúc mạng chuyển mạng kết nối đầy đủ sang mạng kết nối cục bộ, nhằm làm giảm độ phức tạp tính tốn Đây ý tưởng CNN Chúng ta thấy rõ qua hình sau: Hình 1.20: Tích chập ma trận nhỏ để tạo liệu đầu vào cho nơ ron tầng ẩn Giống xử lý hình ảnh thơng thường, kết nối cục khối vng ma trận với nơ ron Kích thước khối thơng thường 3x3, 5x5, 7x7 Ý nghĩa vật lý khối giống cửa sổ trượt (cửa sổ trượt phương pháp

Định dạng
Số trang	31
Dung lượng	606,79 KB