1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo chuyên Đề học phần nhập môn nhập môn học máy ứng dụng thuật toán cnn Để nhận diện chữ viết tay

30 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Báo Cáo Chuyên Đề Học Phần Nhập Môn Nhập Môn Học Máy Ứng Dụng Thuật Toán CNN Để Nhận Diện Chữ Viết Tay
Tác giả Tạ Trần Trung Hiếu, Lê Huy Đồng, Nguyễn Viết Tiến
Người hướng dẫn Vũ Văn Định
Trường học Trường Đại Học Điện Lực
Chuyên ngành Công Nghệ Thông Tin
Thể loại báo cáo
Năm xuất bản 2024
Thành phố Hà Nội
Định dạng
Số trang 30
Dung lượng 7,13 MB

Nội dung

MỞ ĐẦUTrong thZi đại của cuộc cách mạng công nghệ, sY tiến bộ đáng kinh ngạctrong lSnh vYc trT tuệ nhân tạo, đặc biệt là các mô hình học sâu như ConvolutionalNeural Networks CNNs, đã mở

Trang 1

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC

KHOA CÔNG NGHỆ THÔNG TIN

BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN

NHẬP MÔN NHẬP MÔN HỌC MÁY

ỨNG DỤNG THUẬT TOÁN CNN ĐỂ NHẬN DIỆN CHỮ VIẾT TAY

Sinh viên thực hiện : TẠ TRẦN TRUNG HIẾU

LÊ HUY ĐỒNG

NGUYỄN VIẾT TIẾN

Giảng viên hướng dẫn : VŨ VĂN ĐỊNH

Chuyên ngành CÔNG NGHỆ PHẦN MỀM :

Hà Nội, tháng 4 năm 2024

Trang 2

PHIẾU CHẤM ĐIỂM ST

T Họ và tên sinh viên Nội dung thực hiện Điểm Chữ ký

-Tìm hiểu code bài toán lớn

Họ và tên giảng viên Chữ ký Ghi chú

Giảng viên chấm 1:

Giảng viên chấm 2:

Trang 3

MỤC LỤ

C

MỞ ĐẦU 5

CHƯƠNG 1 GIỚI THIỆU ĐỀ TÀI 6

1.1 Giới thiệu về bài toán phân loại ảnh 6

1.1.1 Mục tiêu 6

1.1.2 Các giai đoạn phát triển 6

1.2 Các bước xử lý cho bài toán nhận dạng 7

CHƯƠNG 2 TSNG QUAN VỀ CNN 8

2.1 ĐRnh nghSa mạng neural tTch châ Up 8

2.2 TTch châp là gì 8

2.3 Mô hình mạng neural tTch châ Up 9

2.4 Xây dYng mạng neural tTch châ Up 11

2.4.1 TrưZng tiếp nhâ Un cục bô U 11

2.4.2 Trọng s[ và đô U lê Uch 14

2.4.3 Lớp ch\a hay lớp tổng h]p 17

CHƯƠNG 3: CÀI ĐẶT CHƯƠNG TRÌNH THỬ NGHIỆM 19

3.1 Dữ liệu thYc nghiệm 19

3.2.1 Mô hình huấn luyện 19

3.2.2 Các bước thYc nghiệm 21

3.2.3 Kết quả thYc nghiệm 26

KẾT LUẬN CHUNG 29

TÀI LIỆU THAM KHẢO 30

Trang 4

MỞ ĐẦU

Trong thZi đại của cuộc cách mạng công nghệ, sY tiến bộ đáng kinh ngạctrong lSnh vYc trT tuệ nhân tạo, đặc biệt là các mô hình học sâu như ConvolutionalNeural Networks (CNNs), đã mở ra những khả năng mới không ngZ trong việc xử

lý và nhận diện hình ảnh Trên nền tảng của CNNs, một trong những \ng dụng đặcbiệt thu hút sY quan tâm là việc nhận diện chữ viết tay từ hình ảnh

Nhận diện chữ viết tay không chỉ là một thách th\c khoa học mà còn mang lại nhiều \ng dụng thYc tiễn quan trọng Trong xã hội ngày càng phát triển hiện nay, việc nhận diện chữ viết tay đã trở thành một phần không thể thiếu của cuộc s[ng hàng ngày Tuy nhiên, việc xác đRnh chữ viết tay dYa trên hình ảnh không phảilúc nào cũng dễ dàng đ[i với con ngưZi Đặc biệt, với sY đa dạng về phong cách viết, độ nghiêng, và kTch thước của các nét chữ, việc nhận diện chTnh xác từ hình ảnh đòi hỏi sY hiểu biết sâu sắc về đặc điểm đặc trưng của từng phong cách chữ viết

Trong ngữ cảnh này, việc áp dụng các mô hình học sâu như CNNs để nhậndiện chữ viết tay mang lại tiềm năng lớn trong việc cải thiện hiệu suất và độ chTnhxác của các hệ th[ng nhận diện hình ảnh Cùng với sY tiến bộ trong công nghệ xử

lý ảnh và thuật toán học máy, các nghiên c\u và \ng dụng trong lSnh vYc này đangdần trở thành một lSnh vYc nghiên c\u sôi động và h\a hẹn Đề tài này tập trungvào việc khám phá và đánh giá sâu hơn về \ng dụng của CNNs trong việc nhậndiện gi[ng chó, đồng thZi đề xuất các phương pháp và kỹ thuật tiên tiến nhằm tăngcưZng hiệu suất và độ chTnh xác của các hệ th[ng nhận diện hình ảnh, từ đó đónggóp vào việc phát triển một hệ th[ng nhận diện gi[ng chó hiệu quả và đáng tin cậy

Do thZi gian thYc hiện có hạn kiến th\c còn nhiều hạn chế nên bài làm của chúng

em chắc chắn không tránh khỏi những thiếu sót nhất đRnh Em rất mong nhận đư]c ýkiến đóng góp của thầy cô giáo và các bạn để em có thêm kinh nghiệm và tiếp tục hoànthiện đồ án của mình

Chúng em xin chân thành cảm ơn!

Trang 5

CHƯƠNG 1 GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu về bài toán phân loại ảnh

1.1.1 Mục tiêu

Mục tiêu chTnh của bài toán phân loại ảnh là xây dYng một mô hình học máy

có thể tY động phân loại các hình ảnh mới với độ chTnh xác cao Mô hình này cầnđư]c huấn luyện trên một tập dữ liệu gồm các hình ảnh đã đư]c dán nhãn (labeled)với các lớp tương \ng Sau khi đư]c huấn luyện, mô hình có thể dY đoán lớp củacác hình ảnh mới mà nó chưa từng gặp trước đây

1.1.2 Các giai đoạn phát triển

Giai đoạn tiền nền (1950s - 1970s):

Trong thZi kỳ này, sY quan tâm ban đầu của các nhà nghiên c\u tập trungvào việc phát triển các kỹ thuật cơ bản trong xử lý ảnh và trT tuệ nhân tạo Cácphương pháp đầu tiên thưZng dYa trên các kỹ thuật xử lý ảnh đơn giản như lọc,biến đổi hình học và phân loại dYa trên các đặc trưng thủ công đư]c thiết kế bởicon ngưZi

Giai đoạn truyền thống (1980s - 2000s):

Trong giai đoạn này, các kỹ thuật truyền th[ng như phân loại dYa trên đặctrưng (feature-based classification) trở nên phổ biến Các kỹ thuật phổ biến baogồm việc sử dụng bộ lọc Gabor, histogram của các đặc trưng hình ảnh, và kỹ thuậtphân loại như SVM (Support Vector Machines) và k-nearest neighbors (k-NN).Tuy nhiên, việc rút trTch đặc trưng thủ công có thể gặp phải các hạn chế trong việc

áp dụng cho các bài toán ph\c tạp

Giai đoạn Deep Learning (Từ năm 2012 trở đi):

Giai đoạn này đánh dấu sY bùng nổ của Deep Learning trong lSnh vYc nhậndạng ảnh Mạng nơ-ron tTch chập (Convolutional Neural Networks - CNNs) trởthành tiêu biểu cho việc học sâu trong thR giác máy tTnh Các mạng nơ-ron sâu,đư]c đào tạo trên dữ liệu lớn, đã đạt đư]c hiệu suất vư]t trội trong các cuộc thi nhưImageNet, giúp ch\ng minh s\c mạnh của Deep Learning trong việc nhận dạng và

Trang 6

phân loại ảnh.

Giai đoạn Hiện đại (Từ năm 2015 trở đi):

Trong giai đoạn này, các phương pháp như Transfer Learning trở nên phổbiến Transfer Learning cho phép tái sử dụng kiến th\c đã học đư]c từ các mô hìnhđào tạo trước trên các tập dữ liệu lớn, giúp tăng cưZng hiệu suất và giảm đáng kểthZi gian và nguồn lYc cần thiết cho việc đào tạo mới Các mô hình như VGG,ResNet và Inception đư]c sử dụng rộng rãi, đặc biệt là khi kết h]p với TransferLearning

Giai đoạn Tiên tiến (Từ năm 2020 trở đi):

Trong giai đoạn này, các nghiên c\u tiếp tục tập trung vào việc cải thiện hiệusuất và tTnh nhất quán của các mô hình nhận dạng ảnh Các phương pháp như kếth]p học tăng cưZng (reinforcement learning) và học biểu diễn (representationlearning) đư]c nghiên c\u để tăng khả năng giải thTch và ổn đRnh của các mô hình.Các nghiên c\u cũng tập trung vào việc giảm chi phT tTnh toán và tăng tTnh linhhoạt của các mô hình, đặc biệt là trong các \ng dụng nhận dạng ảnh thZi gian thYc

và trên các thiết bR có tài nguyên hạn chế

1.2 Các bước xử lý cho bài toán nhận dạng

1) Thu thập dữ liệu: Thu thập một tập dữ liệu gồm các hình ảnh thuộc các lớpkhác nhau

2) Chuẩn bR dữ liệu: Tiền xử lý dữ liệu bằng cách thay đổi kTch thước, xoay, cắt,v.v để chuẩn hóa dữ liệu và tăng cưZng dữ liệu

3) Huấn luyện mô hình: Huấn luyện một mô hình học máy, vT dụ như mạng ron nhân tạo (ANN) hoặc mạng nơ-ron tTch chập (CNN), trên tập dữ liệu đãđư]c chuẩn bR

nơ-4) Đánh giá mô hình: Đánh giá hiệu suất của mô hình trên một tập dữ liệu kiểmtra (test set) để đảm bảo độ chTnh xác của mô hình

5) Triển khai mô hình: Triển khai mô hình đã đư]c huấn luyện để sử dụng chocác \ng dụng thYc tế

Trang 7

CHƯƠNG 2 TSNG QUAN VỀ CNN 2.1 Đtnh nghua mạng neural tvch châ w p

Những năm gần đây, ta đã ch\ng kiến đư]c nhiều thành tYu vư]t bậc trong

ngành ThR giác máy tTnh (Computer Vision) Các hệ th[ng xử lý ảnh lớn như của

Facebook ,Google hay Amazon đã đưa vào sản phẩm của mình những ch\c năng

thông minh như nhận diện khuôn mặt ngưZi dùng, phát triển xe hơi tY lái hay drone

giao hàng tY động

Convolutional Neural Networks (CNNs – Mạng nơ-ron tTch chập) là mộttrong những mô hình Deep Learning tiên tiến giúp cho chúng ta xây dYng đư]cnhững hệ th[ng thông minh với độ chTnh xác cao như hiện nay Trong báo cáo này,chúng ta sẽ trình bày về Convolution (tTch chập) cũng như ý tưởng của mô hìnhCNNs trong phân lớp ảnh áp dụng cho bài toán nhâ Un dạng chữ viết tay(ImageClassification)

2.2 Tvch châp là gx

TTch chập đư]c sử dụng đầu tiên trong xử lý tTn hiệu s[ (Signal processing) NhZvào nguyên lý biến đổi thông tin, các nhà khoa học đã áp dụng kS thuật này vào xử lýảnh và video s[

Để dễ hình dung, ta có thể xem tTch chập như một cửa sổ trư]t (slidingwindow) áp lên một ma trận Ta có thể theo dõi cơ chế của tTch chập qua hình minhhọa bên dưới

Hình 2 1 Minh ha tch châ p

Trang 8

Ma trận bên trái là một b\c ảnh đen trắng Mỗi giá trR của ma trận tươngđương với một điểm ảnh (pixel), 0 là màu đen, 1 là màu trắng (nếu là ảnh grayscalethì giá trR biến thiên từ 0 đến 255) Sliding window còn có tên gọi là kernel, filterhay feature detector Ở đây, ta dùng một ma trận filter 3×3 nhân từng thành phầntương \ng (element-wise) với ma trận ảnh bên trái GTa trR đầu ra do tTch của cácthành phần này cộng lại Kết quả của tTch chập là một ma trận (convoled feature)sinh ra từ việc trư]t ma trận filter và thYc hiện tTch chập cùng lúc lên toàn bộ matrận ảnh bên trái Dưới đây là một vài vT dụ của phép toán tTch chập

 Ta có thể làm mZ b\c ảnh ban đầu bằng cách lấy giá trR trung bình của cácđiểm ảnh xung quanh cho vR trT điểm ảnh trung tâm

Hình 2 2 nh m sau khi châ p

 Ngoài ra, ta có thể phát hiện biên cạnh bằng cách tTnh vi phân (độ dR biệt)giữa các điểm ảnh lân cận

Trang 9

Hình 2 3 nh m sau khi châ p

2.3 Mô hxnh mạng neural tvch châ w p

Bây giZ, Chúng ta đã biết thế nào là convolution Vậy CNNs là gì? CNNs chỉđơn giản gồm một vài layer của convolution kết h]p với các hàm kTch hoạt phituyến (nonlinear activation function) như ReLU hay tanh để tạo ra thông tin trừutư]ng hơn (abstract/higher-level) cho các layer tiếp theo

Trong mô hình Feedforward Neural Network (mạng nơ-ron truyền thẳng),các layer kết n[i trYc tiếp với nhau thông qua một trọng s[ w (weighted vector).Các layer này còn đư]c gọi là có kết n[i đầy đủ (fully connected layer) hay affinelayer

Trong mô hình CNNs thì ngư]c lại Các layer liên kết đư]c với nhau thôngqua cơ chế convolution Layer tiếp theo là kết quả convolution từ layer trước đó,nhZ vậy mà ta có đư]c các kết n[i cục bộ NghSa là mỗi nơ-ron ở layer tiếp theosinh ra từ filter áp đặt lên một vùng ảnh cục bộ của nơ-ron layer trước đó

Mỗi layer như vậy đư]c áp đặt các filter khác nhau, thông thưZng có vài trămđến vài nghìn filter như vậy Một s[ layer khác như pooling/subsampling layerdùng để chắt lọc lại các thông tin hữu Tch hơn (loại bỏ các thông tin nhiễu) Tuynhiên, ta sẽ không đi sâu vào khái niệm của các layer này

Trong su[t quá trình huấn luyện, CNNs sẽ tY động học đư]c các thông s[

Trang 10

cho các filter VT dụ trong tác vụ phân lớp ảnh, CNNs sẽ c[ gắng tìm ra thông s[ t[i

ưu cho các filter tương \ng theo th\ tY raw pixel > edges > shapes > facial > level features Layer cu[i cùng đư]c dùng để phân lớp ảnh

high-Hình 2 4 Mô hình mng neural tch châ p

CNNs có tTnh bất biến và tTnh kết h]p cục bộ (Location Invariance andCompositionality) Với cùng một đ[i tư]ng, nếu đ[i tư]ng này đư]c chiếu theo cácg[c độ khác nhau (translation, rotation, scaling) thì độ chTnh xác của thuật toán sẽ

bR ảnh hưởng đáng kể Pooling layer sẽ cho bạn tTnh bất biến đ[i với phép dRchchuyển (translation), phép quay (rotation) và phép co giãn (scaling)

TTnh kết h]p cục bộ cho ta các cấp độ biểu diễn thông tin từ m\c độ thấp đếnm\c độ cao và trừu tư]ng hơn thông qua convolution từ các filter Đó là lý do tạisao CNNs cho ra mô hình với độ chTnh xác rất cao Cũng gi[ng như cách con ngưZinhận biết các vật thể trong tY nhiên Ta phân biệt đư]c một con chó với một conmèo nhZ vào các đặc trưng từ m\c độ thấp (có 4 chân, có đuôi) đến m\c độ cao(dáng đi, hình thể, màu lông)

2.4 Xây dựng mạng neural tvch châ wp

Phần này sẽ giới thiệu một trong những mạng sâu đư]c sử dụng rộng rãi đó

là mạng tTch chập sâu (deep convolutional networks) Chúng ta sẽ làm việc cụ thểvới mạng tTch chập để giải quyết bài toán phân loại chữ s[ viết tay từ tập dữ liệuMNIST

Mặc dù nhiều phép toán lặp nhưng chúng ta sẽ xây dYng mạng hiệu quả hơn

Trang 11

Chúng ta sẽ khám phá ra rất nhiều kS thuật hiệu quả: TTch chập (convolution), giảms[ chiều (pooling), sử dụng GPUs để huấn luyện đư]c nhiều dữ liệu hơn chúng ta

đã thYc hiện trên mạng cũ, mở rộng giải thuật huấn luyện dữ liệu (để giảm quákhớp – overfitting), sử dụng kS thuật dropout để giảm overfitting, việc sử dụng tổngh]p các mạng và các kS thuật khác Kết quả là hệ th[ng làm việc gần như conngưZi Trong s[ 10.000 b\c ảnh huấn luyện, hệ th[ng của chúng ta sẽ phân loạiđúng 9.967 b\c ảnh

Phần còn lại của chương sẽ thảo luận về học sâu dưới góc độ tổng quan vàchi tiết Chúng ta sẽ tìm hiểu làm thế nào để các mô hình mạng nơron tTch chập cóthể \ng dụng để giải quyết các bài toán nhận dạng tiếng nói, xử lT ngôn ngữ tYnhiên và các lSnh vYc khác Và chúng ta sẽ nghiên c\u về mạng nơron trong tươnglai và học sâu (deep learning), từ các ý tưởng như giao diện ngưZi sử dụng hướngđTch đến vai trò của học sâu trong trT tuệ nhân tạo

Phần này xây dYng dYa trên các ý tưởng như: lan truyền ngư]c(backpropagation), regularization, hàm softmax…

Mạng tTch chập sử dụng 3 ý tưởng cơ bản: các trưZng tiếp nhận cục bộ (localreceptive field), trọng s[ chia sẻ (shared weights) và tổng h]p (pooling) Chúng tahãy xem xét lần lư]t từng ý tưởng

2.4.1 Trư ng ti!p nhâ # n c$c bô #

TrưZng tiếp nhận cục bộ (Local receptive fields): Trong các tầng kết n[i đầy

đủ, đầu vào đã đư]c mô tả là một đưZng thẳng đ\ng ch\a các nơron Trong mạngtTch chập, ta sẽ thay thế các đầu vào là 28 × 28 nơron, giá trR tương \ng với 28 x28cưZng độ điểm ảnh mà chúng ta sử dụng:

Trang 12

Như thưZng lệ chúng ta sẽ kết n[i các điểm ảnh đầu vào cho các nơron ởtầng ẩn Nhưng chúng ta sẽ không kết n[i mỗi điểm ảnh đầu vào cho mỗi neuron

ẩn Thay vào đó, chúng ta chỉ kết n[i trong phạm vi nhỏ, các vùng cục bộ của b\cảnh

Để đư]c chTnh xác hơn, mỗi nơron trong lớp ẩn đầu tiên sẽ đư]c kết n[i vớimột vùng nhỏ của các nơron đầu vào, vT dụ, một vùng 5 × 5, tương \ng với 25 điểmảnh đầu vào Vì vậy, đ[i với một nơron ẩn cụ thể, chúng ta có thể có các kết n[inhư sau:

Hình 2 5 K#t n$i gi%a input nơron v) nơron *n

Vùng đó trong b\c ảnh đầu vào đư]c gọi là vùng tiếp nhận cục bộ cho nơron

ẩn Đó là một cửa sổ nhỏ trên các điểm ảnh đầu vào Mỗi kết n[i sẽ học một trọngs[ Và nơron ẩn cũng sẽ học một độ lệch (overall bias) Có thể hiểu rằng nơron lớp

ẩn cụ thể là học để phân tTch trưZng tiếp nhận cục bộ cụ thể của nó Sau đó chúng

ta trư]t trưZng tiếp nhận cục bộ trên toàn bộ b\c ảnh Đ[i với mỗi trưZng tiếp nhận

Trang 13

cục bộ, có một nơron ẩn khác trong tầng ẩn đầu tiên Để minh họa điều này mộtcách cụ thể, chúng ta hãy bắt đầu với một trưZng tiếp nhận cục bộ ở góc trên bêntrái:

Hình 2 6 Trưng ti#p nhâ n c.c bô  v) nơron *n

Sau đó, chúng ta trư]t trưZng tiếp nhận cục bộ trên bởi một điểm ảnh bênphải (t\c là bằng một nơron), để kết n[i với một nơron ẩn th\ hai:

Hình 2 7 Trư1t trưng ti#p nhâ n c.c bô  cho nơron *n ti#p theo

Và như vậy, việc xây dYng các lớp ẩn đầu tiên Lưu ý rằng nếu chúng ta cómột ảnh đầu vào 28 × 28 và 5 × 5 trưZng tiếp nhận cục bộ thì ta sẽ có 24 × 24 nơrontrong lớp ẩn Có đư]c điều này là do chúng ta chỉ có thể di chuyển các trưZng tiếpnhận cục bộ ngang qua 23 nơron (hoặc xu[ng dưới 23 nơron), trước khi chạm vớiphTa bên phải (hoặc dưới) của ảnh đầu vào

Và như vậy, việc xây dYng các lớp ẩn đầu tiên Lưu ý rằng nếu chúng ta có

Trang 14

một ảnh đầu vào 28 × 28 và 5 × 5 trưZng tiếp nhận cục bộ, sau đó sẽ có 24 × 24nơron trong lớp ẩn Điều này là bởi vì chúng ta chỉ có thể di chuyển các trưZng tiếpnhận cục bộ 23 nơron ngang qua(hoặc 23 nơron xu[ng), trước khi chạm với phTabên phải (hoặc dưới) của ảnh đầu vào

2.4.2 Tr'ng s) và đô # lê #ch

Trọng s[ và độ lệch (Shared weights and biases) : Mỗi một neuron ẩn có một

độ lệch (bias) và 5 × 5 trọng s[ liên kết với trưZng tiếp nhận cục bộ Những gìchúng ta vẫn chưa đề cập đến là chúng ta sẽ sử dụng các trọng s[ và độ lệch tương

tY cho mỗi nơron ẩn 24 × 24 Nói cách khác, đ[i với những neuron ẩn th\ j, k, đầu

ra là:

Ở đây, σ là hàm kTch hoạt neuron M , m là một mảng 5 × 5 của trọng s[ chiawl

sẻ Và, cu[i cùng, chúng ta sử dụng a biểu thR giá trR kTch hoạt đầu vào tại vR trT x,xy

y

Chúng ta chưa xác đRnh chTnh xác khái niệm về đặc trưng Ta có thể nghSrằng của đặc trưng là loại mẫu đầu vào mà làm cho nơron hoạt động: vT dụ, nó cóthể là biên của ảnh hoặc có thể là một dạng hình kh[i khác, ngay tại các vR trT khácnhau của ảnh đầu vào Tại sao điều này lại có lT, giả sử rằng các trọng s[ và độ lệch

mà các nơron ẩn chọn ra, một biên thẳng đ\ng (vertical edge) trong trưZng tiếpnhận cục bộ Khả năng đó rất hữu Tch ở các vR trT khác nhau trong b\c ảnh Và do

đó, nó là hữu Tch để áp dụng phát hiện các đặc trưng gi[ng nhau trong ảnh Để đặt

nó trong thuật ngữ trừu tư]ng hơn một chút, mạng chập đư]c thTch nghi với bấtbiến dRch (translation invariance) của các ảnh: di chuyển ảnh của một con mèo một

Tt, và nó vẫn là một hình ảnh của một con mèo

Trong thYc tế, đ[i với bài toán phân lớp ảnh mà chúng ta đang nghiên c\u,b\c ảnh đư]c đặt ở trung tâm và chuẩn hóa kTch thước ChTnh vì vậy nó có Tt bấtbiến chuyển dRch hơn so với các b\c ảnh tìm thấy trong tY nhiên Tuy nhiên, các

Trang 15

đặc trưng có vẻ phù h]p hơn trong các ảnh đầu vào

Vì lý do này, chúng ta đôi khi gọi các bản đồ từ các lớp đầu vào cho lớp ẩn làbản đồ đặc trưng (feature map) Chúng ta gọi các trọng s[ xác đRnh các bản đồ đặctrưng là trọng s[ chia sẻ (shared weights) Và chúng ta gọi độ lệch xác đRnh bản đồđặc trưng là độ lệch chia sẻ (shared bias) Các trọng s[ đư]c chia sẻ và độ lệchthưZng đư]c gọi là hạt nhân (kernel) hay bộ lọc (filter)

Cấu trúc mạng chúng ta đã vừa mô tả có thể phát hiện một bản đồ đặc trưng

Để nhận dạng ảnh chúng ta cần nhiều hơn một bản đồ đặc trưng Và do đó, một lớptTch chập hoàn chỉnh bao gồm vài bản đồ đặc trưng:

Trong vT dụ, có 3 bản đồ đặc trưng Mỗi bản đồ đặc trưng đư]c xác đRnh bởimột tập 5 × 5 trọng s[ chia sẻ, và một độ lệch chia sẻ duy nhất Kết quả là các mạng

có thể phát hiện 3 loại đặc trưng khác nhau, với mỗi đặc trưng đư]c phát hiện trêntoàn bộ ảnh

Chúng ta đã chỉ ra 3 bản đồ đặc trưng, để làm cho cho sơ đồ ở trên đơn giản.Tuy nhiên, trong thYc tế mạng chập có thể sử dụng nhiều bản đồ đặc trưng hơn.Một trong những mạng chập đầu tiên là LeNet-5, sử dụng 6 bản đồ đặc trưng, mỗibản đồ đư]c liên kết đến một trưZng tiếp nhận cục bộ 5 × 5, để phát hiện các kT tYMNIST Vì vậy, các vT dụ minh họa ở trên là thYc sY khá gần LeNet-5 Trong vT dụchúng ta phát triển sau này trong chương này chúng ta sẽ sử dụng lớp tTch chập với

Ngày đăng: 22/01/2025, 14:58

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN