Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 37 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
37
Dung lượng
1,6 MB
Nội dung
CHƯƠNG 2.1 CƠ SỞ LÝ THUYẾT Mạng nơ ron tích chập 2.1.1 Cấu tạo q trình xử lý nơ ron sinh học [9] Một nơ ron gồm có: thân nơ ron, tua gai thần kinh, sợi trục thần kinh, đó: • Thân nơ ron: nơi xử lý tín hiệu đưa vào • Tua gai thần kinh: nơi nhận xung điện vào nơ ron • Sợi trục thần kinh: nơi đưa tín hiệu ngồi sau xử lý nơ ron • Khớp thần kinh: vị trí nằm tua gai thần kinh sợi trục thần kinh, điểm liên kết đầu nơ ron với đầu vào nơ ron khác Hình 2.1 Nơ ron sinh học 11 2.1.2 Mạng nơ ron [10] Neural network (NN) mợt hệ thống tính tốn lấy cảm hứng từ hoạt động nơ-ron hệ thần kinh ❖ Logistic regression Logistic regression mơ hình neural network đơn giản nhất với input layer output layer Mơ hình logistic regression: 𝑦̂ = 𝜎(𝑤0 + 𝑤1 ∗ 𝑥1 + 𝑤2 ∗ 𝑥2 ) Trong đó: • Tính tổng linear: 𝑧 = 𝑤0 + 𝑤1 ∗ 𝑥1 + 𝑤2 ∗ 𝑥2 • Hàm sigmoid: 𝜎 (𝑥) = 1+𝑒 −𝑥 Vậy nên: 𝑦̂ = 𝜎(𝑧) (a) 12 (1) (b) Hình 2.2 Mơ hình logistic regresion Tại hình 2.1b mơ hình logistic regresion rút gọn từ hình 2.1a Hệ số w0 gọi bias hàm sigmoid gọi hàm kích hoạt (activation function) ❖ Mơ hình tổng qt 13 Hình 2.3 Mơ hình nơ ron kết nối đầy đủ - Input layer: lớp chứa liệu đầu vào - Hidden layer: lớp ẩn, nhiệm vụ xử lý liệu đầu vào xuất liệu mới, từ làm liệu đầu cuối (hoặc làm liệu đầu vào cho lớp ẩn khác) Trong NN chứa nhiều không chứa lớp ẩn - Output layer: lớp chứa liệu đầu - Mỗi hình trịn hình 2.1 mợt node, node hidden layer output layer thực nhiệm vụ sau: • Liên kết với tất node layer trước với hệ số w riêng • Mỗi node có hệ số bias b riêng • Diễn bước: tính tổng linear áp dụng hàm kích hoạt 14 2.1.3 Một số hàm kích hoạt thơng dụng ❖ Hàm Sigmoid Biểu diễn hàm: 𝑓(𝑥) = 1+𝑒 −𝑥 (2) Đạo hàm riêng: 𝑓′(𝑥) = 𝑓(𝑥)(1 − 𝑓 (𝑥)) (3) Hàm Sigmoid sử dụng ngưỡng nằm khoảng (0, 1) Do đó, hàm sử dụng nhiều cho mơ hình dự đốn xác śt đầu ra, tức kết tồn khoảng từ đến 1: đầu vào số dương lớn, đầu hàm sigmoid gần Khi nhỏ 0, đầu gần Tuy nhiên, việc tối ưu hàm khó khăn, ngun nhân giá trị đầu vào hàm số rất lớn, đầu hàm đầu xấp xỉ 0, nên tốc độ hội tụ rất chậm Hình 2.4 Đồ thị hàm Sigmoid ❖ Hàm RELU Biểu diễn hàm: 15 𝑘ℎ𝑖 𝑥 < 𝑓 (𝑥 ) = { 𝑥 𝑘ℎ𝑖 𝑥 ≥ (4) 𝑘ℎ𝑖 𝑥 < 𝑘ℎ𝑖 𝑥 ≥ (5) Đạo hàm riêng: 𝑓′(𝑥) = { Hàm RELU áp dụng với trường hợp cần đầu nằm khoảng (0, +∞) Hàm RELU có tốc đợ tính tốn rất nhanh, gán giá trị âm trở thành lập tức, phù hợp cho việc huấn luyện từ liệu chuẩn Tuy nhiên, điều khiến hàm RELU khơng ánh xạ giá trị âm mợt cách thích hợp Hình 2.5 Đồ thị hàm RELU 2.1.4 Mạng nơ ron tích chập [11] Mạng nơ ron tích chập mợt mơ hình học sâu phổ biến tiên tiến nhất Hầu hết hệ thống nhận diện xử lý ảnh sử dụng mạng nơ ron tích chập tốc đợ xử lý nhanh đợ xác cao Trong mạng nơ ron truyền thống, tầng coi mợt chiều, mạng nơ ron tích chập, tầng coi chiều, gồm: chiều cao, chiều rộng chiều sâu Mạng nơ ron tích chập có hai khái niệm quan trọng: kết nối cục bộ chia sẻ tham số Những khái niệm góp phần giảm số lượng trọng số cần huấn luyện, tăng nhanh tốc đợ tính tốn 16 Hình 2.6 Các tầng (layer) CNN chiều Có ba tầng để xây dựng kiến trúc cho mợt mạng nơ ron tích chập: Tầng tích chập Tầng gợp (pooling layer) Tầng kết nối đầy đủ (fully - connected) Tầng fully - connected giống mạng nơ ron thơng thường, tầng chập thực tích chập nhiều lần tầng trước Pooling layer làm giảm kích thước mẫu khối 2x2 tầng trước Ở mạng nơ ron tích chập, kiến trúc mạng thường chồng ba tầng để xây dựng kiến trúc đầy đủ 2.1.5 Xây dựng mạng nơ ron tích chập [12] ❖ Mạng kết nối cục bộ Trong xử lý hình ảnh, thơng tin hình ảnh điểm ảnh (pixel) Nếu sử dụng mạng fully - connected, có rất nhiều tham số Ví dụ, mợt hình ảnh RGB có kích thước 512x512 pixel có 786432 (= 512 x 512 x 3) tham số đầu vào Trong hình 2.3, cho thấy áp dụng mạng nơ ron fully - connected, toàn bợ kiến trúc mạng cần tính tốn triệu nơ ron Số lượng lớn nơ ron làm cho tồn bợ q trình học rất chậm dẫn đến q tải so với khả tính tốn máy tính Qua mợt vài nghiên cứu xử lý ảnh, nhà nghiên cứu nhận thấy tính mợt hình ảnh thường cục bộ, nhà nghiên cứu ý đến tính cấp thấp xử lý ảnh Vì vậy, kiến trúc mạng chuyển mạng 17 fully - connected sang mạng kết nối cục bợ, nhằm làm giảm đợ phức tạp tính tốn Đây mợt ý tưởng CNN Chúng ta thấy rõ qua hình sau: Hình 2.7 Tích chập mợt ma trận nhỏ để tạo liệu đầu vào cho một nơ ron tầng ẩn Giống xử lý hình ảnh thơng thường, kết nối cục bợ mợt khối vng ma trận với nơ ron Kích thước khối thơng thường 3x3, 5x5, 7x7 Ý nghĩa vật lý khối giống một cửa sổ trượt (cửa sổ trượt một phương pháp xử lý ảnh) Bằng cách đó, số lượng tham số giảm xuống rất nhỏ không gây giảm mất thông tin, hình ảnh thơng thường thường có tính lặp khơng gian Để trích x́t nhiều thơng tin hơn, mạng nơ ron kết nối khối với một nơ ron khác Độ sâu tầng số lần kết nối một khu vực với nơ ron khác Ví dụ, mạng kết nối mợt khu vực với nơ ron khác Vì vậy, độ sâu năm tầng Chúng ta thấy rõ qua hình sau: 18 Hình 2.8 Ví dụ lớp tích chập Trong thực tế, kết nối tất thơng tin đợ sâu (ví dụ: kênh RGB) với nơ ron kết nối cục bợ khơng gian có chiều sâu đầy đủ Tuy nhiên ví dụ kết nối thông tin cục bộ chiều cao chiều rợng Vì vậy, có x x tham số hình cho nơ ron sau lớp màu xanh sử dụng cửa sổ x Biến thứ nhất thứ hai chiều cao chiều rộng kích thước cửa sổ biến thứ ba đợ sâu lớp Ví dụ di chuyển cửa sổ bên hình ảnh làm cho tầng có chiều cao chiều rợng, mợt hai chiều Ví dụ: di chuyển cửa sổ 01 pixel lần, gọi bước nhảy 01, mợt hình ảnh 32 x 32 x kích thước cửa sổ x có 28 x 28 x chiều sâu nơ ron tầng Có thể thấy rằng, kích thước giảm từ 32 xuống 28 Vì vậy, để bảo tồn kích thước, thêm phần trống vào đường viền Quay lại ví dụ trên, đệm với pixel, có 32 x 32 x chiều sâu nơ ron lớp để giữ kích thước chiều cao chiều rợng Như ví dụ trên, sử dụng kích thước cửa sổ w, có vùng tích chập với kích cỡ cửa sổ (w – 1)/2 pixel Thông tin đường viền không ảnh hưởng nhiều giá trị sử dụng mợt lần 19 ❖ Vấn đề tham số Trong ví dụ trên, ta có số lượng 32 x 32 x nơ ron tầng có bước nhảy 01, kích thước cửa sổ x khơng có đệm, với đợ sâu Mỗi nơ ron có x x = 75 tham số Vì vậy, tầng có 75 x 32 x 32 x = 384000 tham số Ở đây, chia sẻ tham số theo đợ sâu, 32 x 32 nơ ron tầng ẩn sử dụng tham số giống x x 3, tổng tham số sử dụng cho tầng 75 x = 375 Điều làm số lượng tham số giảm một cách đáng kể Tương tự, nơ ron độ sâu tầng áp dụng tích chập cho tầng trước Và trình học tập giống học lõi (core) tích chập Đây lý mà mạng nơ ron gọi mạng nơ ron tích chập ❖ Vấn đề hàm kích hoạt Trong mơ hình nơ ron truyền thống, mạng thường sử dụng hàm sigmoid cho hàm kích hoạt Tuy nhiên Krizhevsky [13] thử với hàm kích hoạt RELU Sau so sánh hiệu hàm kích hoạt RELU hàm kích hoạt sigmoid CNN Họ thấy mơ hình với RELU cần thời gian lặp đạt tỷ lệ lỗi huấn luyện tương đương Chúng ta thấy kết hình sau: 20 • F1 • Confusion Matrix Q trình kiểm thử thực thao bước sau: Bước 1: Biến đổi ảnh đầu vào dự kỹ thuật Contrast kết hợp Enhance Bước 2: Dựa đốn ảnh có phải giả mạo dạng Splicing hay không dựa tỷ lệ phần trăm 3.4 Kết đạt Trong phần này, tác giả thực mơ để phát giả mạo hình ảnh trường hợp sử dụng Inception V3 ảnh đầu vào tập ảnh tiền xử lý Việc triển khai nhằm mục đích xác định đợ xác nâng cao trình tiền xử lý hình ảnh đầu vào thực Đây một gợi ý cho nhà nghiên cứu việc phát triển phương pháp nhận dạng giả mạo hình ảnh, vai trị tiền xử lý hình ảnh đóng mợt vai trị quan trọng 33 Sau thực huấn luyện, kết mang lại với đợ xác 93.7% Hình 3.2 Kết sau huấn luyện Với kết Confusion matrix cho thấy, với 172 ảnh thuộc lớp NoForgery nhận dạng 140 ảnh tḥc lớp NoForgery 32 ảnh thuộc lớp Splicing Tương tự, với 556 ảnh tḥc lớp Splicing nhận dạng 09 ảnh thược lớp NoForgery 447 ảnh thuộc lớp Splicing 34 Biểu đồ đợ xác việc h́n luyện Hình 3.3 Biểu đồ sau huấn luyện 35 Hình 3.4 Mợt ví dụ kết dự đốn Splicing 36 Hình 3.5 Mợt ví dụ kết dự đốn khơng giả mạo Trong Hình 3.4, tỷ lệ dự đốn hình ảnh tḥc lớp NoForgery 4,63-05% lớp Splicing 99% Kết dự đoán xác nhận hình ảnh đầu vào tḥc lớp Splicing có nghĩa dự đốn xác Trong Hình 3.5, tỷ lệ dự đốn hình ảnh tḥc lớp NoForgery 96,5% lớp Splicing 3,5% Kết dự đoán xác nhận hình ảnh đầu vào tḥc lớp NoForgery có nghĩa dự đốn xác Mợt số kết mô khác thể Hình 3.4 Từ Hình 3.4, thấy đợ xác phương pháp đề x́t tương đối cao Khi áp dụng tập liệu 2629 hình ảnh, đợ xác trung bình 93,7% Kết chứng minh mơ hình mợt ứng cử viên sáng giá để phát hình ảnh Splicing Hầu hết nghiên cứu trước chủ yếu tập trung vào việc tìm kiếm khu vực giả mạo hình ảnh bị can thiệp Điều có nghĩa hình ảnh đầu vào xác nhận Splicing phương pháp đề xuất tập trung vào việc phân loại hình ảnh bợ liệu khổng lồ, đó, 37 hình ảnh đầu vào ngun Splicing Mặc dù cách tiếp cận khác nhau, vật kính áp dụng lĩnh vực Image Forensics, đặc biệt để phát hình ảnh Splicing Kết nghiên cứu áp dụng để phân loại hình ảnh giả mạo mợt cách hiệu với đợ xác đáng tin cậy 38 Hình 3.6 Kết dự đốn mợt số ảnh khác 39 KẾT LUẬN VÀ KIẾN NGHỊ Luận văn nhằm mục đích mang lại mợt khía cạnh khác việc phát giả mạo hình ảnh dựa thuật tốn tìm Deep Learning Trên thực tế, với đợ xác trung bình 93,7% việc phát ảnh giả mạo dạng Splicing, phương pháp tác giả chứng minh xử lý hình ảnh đầu vào kết hợp với Inception V3 hiệu đóng góp mợt cách tiếp cận cho lĩnh vực Image Forensics Ngoài ra, nghiên cứu trước thường đánh giá tập liệu xuất hình ảnh Splicing Columbia CASIA Luận văn kết hợp tập liệu tiêu chuẩn Columbia tập liệu tích hợp mà tác giả tạo thực lại hoạt đợng giả mạo hình ảnh dạng Splicing, loại giả mạo phương pháp làm giả hình ảnh phổ biến Internet, trang web mạng xã hội Định hướng phát triển tới luận văn ứng dụng Mantranet q trình h́n luyện nhằm nâng cao đợ xác 40 DANH MỤC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA HỌC VIÊN Trung-Tri Nguyen, Kha-Tu Huynh “Spliced Image Forgery Detection Based on the Combination of Image Pre-processing and Inception V3,” present at The 8th International Conference on Future Data and Security Engineering (FDSE 2021), Ho Chi Minh City, Vietnam (Virtual Mode), pp 308–422, 2021 [Online] Available: https://doi.org/10.1007/978-3-030-91387-8_20 41 TÀI LIỆU THAM KHẢO [1] Szegedy, C et al “Rethinking the inception architecture for computer vision,” present at The Proceedings of the IEEE conference on computer vision and pattern recognition, pp 2818-2826, 2016 [2] Hsu, Y F and Chang, S F “Detecting image splicing using geometry invariants and camera characteristics consistency,” present at The 2006 IEEE International Conference on Multimedia and Expo, pp 549-552, July 2006 [3] Ahonen, T et al “Face Description with Local Binary Patterns: Application to Face Recognition,” IEEE Trans Pattern Analysis and Machine Intelligence Vol 28, pp 2037-2041, 2006 [4] Vinoth, S and Gopi, E S “Neural network modeling of color array filter for digital forgery detection using kernel LDA,” Procedia Technology Vol 10, pp 498504, 2013 [5] Liu, Y and Zhao, X “Constrained Image Splicing Detection and Localization With Attention-Aware Encoder-Decoder and Atrous Convolution,” IEEE Access, Vol 8, pp 6729-6741, 2020 [6] Liu, Y et al “Adversarial learning for constrained image splicing detection and localization based on atrous convolution,” IEEE Transactions on Information Forensics and Security Vol 14, pp 2551-2566, 2019 [7] Almawas, L et al “Comparative performance study of classification models for image-splicing detection,” Procedia Computer Science Vol 175, pp 278-285, 2020 [8] Hany Farid Photo Forensics The MIT Press, 2016 [9] Reinhard Klette “Concise Computer Vision.” Springer 2014 [10] Nguyễn Thanh Tuấn “Deep Learning bản.” Internet: www nttuan8.com/sach-deep-learning-co-ban, Jul 20, 2021 [11] Noron “Chia sẻ mạng nơ ron tích chập.” Internet: www.noron.vn/post/chiase-ve-mang-no-ron-tich-chap-convolutional-neural-networks-or-convnetsefskm9q3opa, Jul 23, 2021 42 [12] Aivivn “Mạng Nơ-ron Tích chập.” d2l.aivivn.com/chapter_convolutional-neural-networks/index_vn.html, Internet: Jul 23, 2021 [13] Krizhevsky, A et al “Imagenet classification with deep convolutional neural networks,” present at The Advances in neural information processing systems, 2012 [14] Yann LeCun et al “Gradient-Based Learning Applied to Document Recognition,” present at The Proceedings of the IEEE 1998 [15] Alex Krizhevsky et al “ImageNet Classification with Deep Convolutional Neural Networks,” present at The NeurIPS 2012 [16] Karen Simonyan and Andrew Zisserman “Very Deep Convolutional Networks for Large-Scale Image Recognition,” present at The arXiv preprint 2014 [17] Christian Szegedy et al “Going Deeper with Convolutions,” present at The IEEE Conference on Computer Vision and Pattern Recognition 2015 [18] OpenCV “Python Tutorial.” Internet: www.docs.opencv.org/3.4/da/df6/tutorial_py_table_of_contents_setup.html, Jul 20, 2021 43 PHỤ LỤC Mã nguồn biến đổi ảnh đầu vào Để biến đổi ảnh đầu vào, tác giả xây dựng mợt thuật tốn gồm bước sau: Bước 1: Đọc vào liệu ảnh gốc Bước 2: Biến đổi kích thước ảnh đầu vào 224 x 224 Nhằm giảm tốc đợ tính tốn Bước 3: Thay đổi tên ảnh để tránh việc ghi đè liệu Bước 4: Thực việc Contrast ảnh đầu vào Bước 5: Thực Enhance ảnh Contrast Bước Mã nguồn img = Image.open(path) IMG_SIZE = 224 name = "/content/drive/MyDrive/LuanVan/Spl2/contrastSpl" + str(i) + ".jpg" contrast = ImageEnhance.Contrast(img) contrast.enhance(8).save(name) 44 Bước Các bước huấn luyện sử dụng Inception V3 tập ảnh đầu vào tiền xử lý Mã nguồn 45 10 Thực thi chương trình 46 LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN I LÝ LỊCH SƠ LƯỢC: Họ tên: Nguyễn Trung Trí Giới tính: Nam Ngày, tháng, năm sinh: 17/11/1987 Nơi sinh: Đồng Tháp Email: nguyentrungtri17111987@gmail.com Điện thoại: 0946 086 066 II QUÁ TRÌNH ĐÀO TẠO: Từ năm 2005 đến 2010: Học Đại học Khoa học Máy tính trường Đại học Đồng Tháp Từ năm 2019 đến 2021: Thạc sĩ trường Đại học Công nghiệp TP HCM III Q TRÌNH CƠNG TÁC CHUN MƠN: Thời gian Nơi cơng tác Công việc đảm nhiệm 2010 Trung tâm Tin học Cơng báo, Văn phịng UBND tỉnh Đồng Tháp Chun viên 2012 Trung tâm Tin học tỉnh Đồng Tháp Chuyên viên 2014 Trung tâm Tin học tỉnh Đồng Tháp Phó trưởng phịng 2016 Trung tâm CNTT & Truyền thơng Phó trưởng phịng 2021 Giáo viên trường THCS – THPT Bình Thạnh Trung Giáo viên Đồng Tháp, ngày tháng Năm 20 Người khai Nguyễn Trung Trí 47 ... với 1 72 ảnh tḥc lớp NoForgery nhận dạng 140 ảnh thuộc lớp NoForgery 32 ảnh thuộc lớp Splicing Tương tự, với 556 ảnh tḥc lớp Splicing nhận dạng 09 ảnh thược lớp NoForgery 447 ảnh thuộc lớp. .. Biến đổi ảnh đầu vào dự kỹ thuật Contrast kết hợp Enhance Bước 2: Dựa đốn ảnh có phải giả mạo dạng Splicing hay không dựa tỷ lệ phần trăm 3.4 Kết đạt Trong phần này, tác giả thực mô để phát giả. .. Inception V3, tác giả thực theo 08 bước sau: Bước 1: Dữ liệu đầu vào huấn luyện 02 tập ảnh: Original Splicing Bước 2: Biến đổi kích thước ảnh đầu vào 22 4 x 22 4 Bước 3: Chia liệu đầu vào thành phần,