Nhận dạng ảnh giả mạo dựa trên phương pháp phân lớp kết hợp biến đổi ảnh đầu vào 2

CHƯƠNG 2.1 CƠ SỞ LÝ THUYẾT Mạng nơ ron tích chập 2.1.1 Cấu tạo q trình xử lý nơ ron sinh học [9] Một nơ ron gồm có: thân nơ ron, tua gai thần kinh, sợi trục thần kinh, đó: • Thân nơ ron: nơi xử lý tín hiệu đưa vào • Tua gai thần kinh: nơi nhận xung điện vào nơ ron • Sợi trục thần kinh: nơi đưa tín hiệu ngồi sau xử lý nơ ron • Khớp thần kinh: vị trí nằm tua gai thần kinh sợi trục thần kinh, điểm liên kết đầu nơ ron với đầu vào nơ ron khác Hình 2.1 Nơ ron sinh học 11 2.1.2 Mạng nơ ron [10] Neural network (NN) mợt hệ thống tính tốn lấy cảm hứng từ hoạt động nơ-ron hệ thần kinh ❖ Logistic regression Logistic regression mơ hình neural network đơn giản nhất với input layer output layer Mơ hình logistic regression: 𝑦̂ = 𝜎(𝑤0 + 𝑤1 ∗ 𝑥1 + 𝑤2 ∗ 𝑥2 ) Trong đó: • Tính tổng linear: 𝑧 = 𝑤0 + 𝑤1 ∗ 𝑥1 + 𝑤2 ∗ 𝑥2 • Hàm sigmoid: 𝜎 (𝑥) = 1+𝑒 −𝑥 Vậy nên: 𝑦̂ = 𝜎(𝑧) (a) 12 (1) (b) Hình 2.2 Mơ hình logistic regresion Tại hình 2.1b mơ hình logistic regresion rút gọn từ hình 2.1a Hệ số w0 gọi bias hàm sigmoid gọi hàm kích hoạt (activation function) ❖ Mơ hình tổng qt 13 Hình 2.3 Mơ hình nơ ron kết nối đầy đủ - Input layer: lớp chứa liệu đầu vào - Hidden layer: lớp ẩn, nhiệm vụ xử lý liệu đầu vào xuất liệu mới, từ làm liệu đầu cuối (hoặc làm liệu đầu vào cho lớp ẩn khác) Trong NN chứa nhiều không chứa lớp ẩn - Output layer: lớp chứa liệu đầu - Mỗi hình trịn hình 2.1 mợt node, node hidden layer output layer thực nhiệm vụ sau: • Liên kết với tất node layer trước với hệ số w riêng • Mỗi node có hệ số bias b riêng • Diễn bước: tính tổng linear áp dụng hàm kích hoạt 14 2.1.3 Một số hàm kích hoạt thơng dụng ❖ Hàm Sigmoid Biểu diễn hàm: 𝑓(𝑥) = 1+𝑒 −𝑥 (2) Đạo hàm riêng: 𝑓′(𝑥) = 𝑓(𝑥)(1 − 𝑓 (𝑥)) (3) Hàm Sigmoid sử dụng ngưỡng nằm khoảng (0, 1) Do đó, hàm sử dụng nhiều cho mơ hình dự đốn xác śt đầu ra, tức kết tồn khoảng từ đến 1: đầu vào số dương lớn, đầu hàm sigmoid gần Khi nhỏ 0, đầu gần Tuy nhiên, việc tối ưu hàm khó khăn, ngun nhân giá trị đầu vào hàm số rất lớn, đầu hàm đầu xấp xỉ 0, nên tốc độ hội tụ rất chậm Hình 2.4 Đồ thị hàm Sigmoid ❖ Hàm RELU Biểu diễn hàm: 15 𝑘ℎ𝑖 𝑥 < 𝑓 (𝑥 ) = { 𝑥 𝑘ℎ𝑖 𝑥 ≥ (4) 𝑘ℎ𝑖 𝑥 < 𝑘ℎ𝑖 𝑥 ≥ (5) Đạo hàm riêng: 𝑓′(𝑥) = { Hàm RELU áp dụng với trường hợp cần đầu nằm khoảng (0, +∞) Hàm RELU có tốc đợ tính tốn rất nhanh, gán giá trị âm trở thành lập tức, phù hợp cho việc huấn luyện từ liệu chuẩn Tuy nhiên, điều khiến hàm RELU khơng ánh xạ giá trị âm mợt cách thích hợp Hình 2.5 Đồ thị hàm RELU 2.1.4 Mạng nơ ron tích chập [11] Mạng nơ ron tích chập mợt mơ hình học sâu phổ biến tiên tiến nhất Hầu hết hệ thống nhận diện xử lý ảnh sử dụng mạng nơ ron tích chập tốc đợ xử lý nhanh đợ xác cao Trong mạng nơ ron truyền thống, tầng coi mợt chiều, mạng nơ ron tích chập, tầng coi chiều, gồm: chiều cao, chiều rộng chiều sâu Mạng nơ ron tích chập có hai khái niệm quan trọng: kết nối cục bộ chia sẻ tham số Những khái niệm góp phần giảm số lượng trọng số cần huấn luyện, tăng nhanh tốc đợ tính tốn 16 Hình 2.6 Các tầng (layer) CNN chiều Có ba tầng để xây dựng kiến trúc cho mợt mạng nơ ron tích chập: Tầng tích chập Tầng gợp (pooling layer) Tầng kết nối đầy đủ (fully - connected) Tầng fully - connected giống mạng nơ ron thơng thường, tầng chập thực tích chập nhiều lần tầng trước Pooling layer làm giảm kích thước mẫu khối 2x2 tầng trước Ở mạng nơ ron tích chập, kiến trúc mạng thường chồng ba tầng để xây dựng kiến trúc đầy đủ 2.1.5 Xây dựng mạng nơ ron tích chập [12] ❖ Mạng kết nối cục bộ Trong xử lý hình ảnh, thơng tin hình ảnh điểm ảnh (pixel) Nếu sử dụng mạng fully - connected, có rất nhiều tham số Ví dụ, mợt hình ảnh RGB có kích thước 512x512 pixel có 786432 (= 512 x 512 x 3) tham số đầu vào Trong hình 2.3, cho thấy áp dụng mạng nơ ron fully - connected, toàn bợ kiến trúc mạng cần tính tốn triệu nơ ron Số lượng lớn nơ ron làm cho tồn bợ q trình học rất chậm dẫn đến q tải so với khả tính tốn máy tính Qua mợt vài nghiên cứu xử lý ảnh, nhà nghiên cứu nhận thấy tính mợt hình ảnh thường cục bộ, nhà nghiên cứu ý đến tính cấp thấp xử lý ảnh Vì vậy, kiến trúc mạng chuyển mạng 17 fully - connected sang mạng kết nối cục bợ, nhằm làm giảm đợ phức tạp tính tốn Đây mợt ý tưởng CNN Chúng ta thấy rõ qua hình sau: Hình 2.7 Tích chập mợt ma trận nhỏ để tạo liệu đầu vào cho một nơ ron tầng ẩn Giống xử lý hình ảnh thơng thường, kết nối cục bợ mợt khối vng ma trận với nơ ron Kích thước khối thơng thường 3x3, 5x5, 7x7 Ý nghĩa vật lý khối giống một cửa sổ trượt (cửa sổ trượt một phương pháp xử lý ảnh) Bằng cách đó, số lượng tham số giảm xuống rất nhỏ không gây giảm mất thông tin, hình ảnh thơng thường thường có tính lặp khơng gian Để trích x́t nhiều thơng tin hơn, mạng nơ ron kết nối khối với một nơ ron khác Độ sâu tầng số lần kết nối một khu vực với nơ ron khác Ví dụ, mạng kết nối mợt khu vực với nơ ron khác Vì vậy, độ sâu năm tầng Chúng ta thấy rõ qua hình sau: 18 Hình 2.8 Ví dụ lớp tích chập Trong thực tế, kết nối tất thơng tin đợ sâu (ví dụ: kênh RGB) với nơ ron kết nối cục bợ khơng gian có chiều sâu đầy đủ Tuy nhiên ví dụ kết nối thông tin cục bộ chiều cao chiều rợng Vì vậy, có x x tham số hình cho nơ ron sau lớp màu xanh sử dụng cửa sổ x Biến thứ nhất thứ hai chiều cao chiều rộng kích thước cửa sổ biến thứ ba đợ sâu lớp Ví dụ di chuyển cửa sổ bên hình ảnh làm cho tầng có chiều cao chiều rợng, mợt hai chiều Ví dụ: di chuyển cửa sổ 01 pixel lần, gọi bước nhảy 01, mợt hình ảnh 32 x 32 x kích thước cửa sổ x có 28 x 28 x chiều sâu nơ ron tầng Có thể thấy rằng, kích thước giảm từ 32 xuống 28 Vì vậy, để bảo tồn kích thước, thêm phần trống vào đường viền Quay lại ví dụ trên, đệm với pixel, có 32 x 32 x chiều sâu nơ ron lớp để giữ kích thước chiều cao chiều rợng Như ví dụ trên, sử dụng kích thước cửa sổ w, có vùng tích chập với kích cỡ cửa sổ (w – 1)/2 pixel Thông tin đường viền không ảnh hưởng nhiều giá trị sử dụng mợt lần 19 ❖ Vấn đề tham số Trong ví dụ trên, ta có số lượng 32 x 32 x nơ ron tầng có bước nhảy 01, kích thước cửa sổ x khơng có đệm, với đợ sâu Mỗi nơ ron có x x = 75 tham số Vì vậy, tầng có 75 x 32 x 32 x = 384000 tham số Ở đây, chia sẻ tham số theo đợ sâu, 32 x 32 nơ ron tầng ẩn sử dụng tham số giống x x 3, tổng tham số sử dụng cho tầng 75 x = 375 Điều làm số lượng tham số giảm một cách đáng kể Tương tự, nơ ron độ sâu tầng áp dụng tích chập cho tầng trước Và trình học tập giống học lõi (core) tích chập Đây lý mà mạng nơ ron gọi mạng nơ ron tích chập ❖ Vấn đề hàm kích hoạt Trong mơ hình nơ ron truyền thống, mạng thường sử dụng hàm sigmoid cho hàm kích hoạt Tuy nhiên Krizhevsky [13] thử với hàm kích hoạt RELU Sau so sánh hiệu hàm kích hoạt RELU hàm kích hoạt sigmoid CNN Họ thấy mơ hình với RELU cần thời gian lặp đạt tỷ lệ lỗi huấn luyện tương đương Chúng ta thấy kết hình sau: 20 • F1 • Confusion Matrix Q trình kiểm thử thực thao bước sau: Bước 1: Biến đổi ảnh đầu vào dự kỹ thuật Contrast kết hợp Enhance Bước 2: Dựa đốn ảnh có phải giả mạo dạng Splicing hay không dựa tỷ lệ phần trăm 3.4 Kết đạt Trong phần này, tác giả thực mơ để phát giả mạo hình ảnh trường hợp sử dụng Inception V3 ảnh đầu vào tập ảnh tiền xử lý Việc triển khai nhằm mục đích xác định đợ xác nâng cao trình tiền xử lý hình ảnh đầu vào thực Đây một gợi ý cho nhà nghiên cứu việc phát triển phương pháp nhận dạng giả mạo hình ảnh, vai trị tiền xử lý hình ảnh đóng mợt vai trị quan trọng 33 Sau thực huấn luyện, kết mang lại với đợ xác 93.7% Hình 3.2 Kết sau huấn luyện Với kết Confusion matrix cho thấy, với 172 ảnh thuộc lớp NoForgery nhận dạng 140 ảnh tḥc lớp NoForgery 32 ảnh thuộc lớp Splicing Tương tự, với 556 ảnh tḥc lớp Splicing nhận dạng 09 ảnh thược lớp NoForgery 447 ảnh thuộc lớp Splicing 34 Biểu đồ đợ xác việc h́n luyện Hình 3.3 Biểu đồ sau huấn luyện 35 Hình 3.4 Mợt ví dụ kết dự đốn Splicing 36 Hình 3.5 Mợt ví dụ kết dự đốn khơng giả mạo Trong Hình 3.4, tỷ lệ dự đốn hình ảnh tḥc lớp NoForgery 4,63-05% lớp Splicing 99% Kết dự đoán xác nhận hình ảnh đầu vào tḥc lớp Splicing có nghĩa dự đốn xác Trong Hình 3.5, tỷ lệ dự đốn hình ảnh tḥc lớp NoForgery 96,5% lớp Splicing 3,5% Kết dự đoán xác nhận hình ảnh đầu vào tḥc lớp NoForgery có nghĩa dự đốn xác Mợt số kết mô khác thể Hình 3.4 Từ Hình 3.4, thấy đợ xác phương pháp đề x́t tương đối cao Khi áp dụng tập liệu 2629 hình ảnh, đợ xác trung bình 93,7% Kết chứng minh mơ hình mợt ứng cử viên sáng giá để phát hình ảnh Splicing Hầu hết nghiên cứu trước chủ yếu tập trung vào việc tìm kiếm khu vực giả mạo hình ảnh bị can thiệp Điều có nghĩa hình ảnh đầu vào xác nhận Splicing phương pháp đề xuất tập trung vào việc phân loại hình ảnh bợ liệu khổng lồ, đó, 37 hình ảnh đầu vào ngun Splicing Mặc dù cách tiếp cận khác nhau, vật kính áp dụng lĩnh vực Image Forensics, đặc biệt để phát hình ảnh Splicing Kết nghiên cứu áp dụng để phân loại hình ảnh giả mạo mợt cách hiệu với đợ xác đáng tin cậy 38 Hình 3.6 Kết dự đốn mợt số ảnh khác 39 KẾT LUẬN VÀ KIẾN NGHỊ Luận văn nhằm mục đích mang lại mợt khía cạnh khác việc phát giả mạo hình ảnh dựa thuật tốn tìm Deep Learning Trên thực tế, với đợ xác trung bình 93,7% việc phát ảnh giả mạo dạng Splicing, phương pháp tác giả chứng minh xử lý hình ảnh đầu vào kết hợp với Inception V3 hiệu đóng góp mợt cách tiếp cận cho lĩnh vực Image Forensics Ngoài ra, nghiên cứu trước thường đánh giá tập liệu xuất hình ảnh Splicing Columbia CASIA Luận văn kết hợp tập liệu tiêu chuẩn Columbia tập liệu tích hợp mà tác giả tạo thực lại hoạt đợng giả mạo hình ảnh dạng Splicing, loại giả mạo phương pháp làm giả hình ảnh phổ biến Internet, trang web mạng xã hội Định hướng phát triển tới luận văn ứng dụng Mantranet q trình h́n luyện nhằm nâng cao đợ xác 40 DANH MỤC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA HỌC VIÊN Trung-Tri Nguyen, Kha-Tu Huynh “Spliced Image Forgery Detection Based on the Combination of Image Pre-processing and Inception V3,” present at The 8th International Conference on Future Data and Security Engineering (FDSE 2021), Ho Chi Minh City, Vietnam (Virtual Mode), pp 308–422, 2021 [Online] Available: https://doi.org/10.1007/978-3-030-91387-8_20 41 TÀI LIỆU THAM KHẢO [1] Szegedy, C et al “Rethinking the inception architecture for computer vision,” present at The Proceedings of the IEEE conference on computer vision and pattern recognition, pp 2818-2826, 2016 [2] Hsu, Y F and Chang, S F “Detecting image splicing using geometry invariants and camera characteristics consistency,” present at The 2006 IEEE International Conference on Multimedia and Expo, pp 549-552, July 2006 [3] Ahonen, T et al “Face Description with Local Binary Patterns: Application to Face Recognition,” IEEE Trans Pattern Analysis and Machine Intelligence Vol 28, pp 2037-2041, 2006 [4] Vinoth, S and Gopi, E S “Neural network modeling of color array filter for digital forgery detection using kernel LDA,” Procedia Technology Vol 10, pp 498504, 2013 [5] Liu, Y and Zhao, X “Constrained Image Splicing Detection and Localization With Attention-Aware Encoder-Decoder and Atrous Convolution,” IEEE Access, Vol 8, pp 6729-6741, 2020 [6] Liu, Y et al “Adversarial learning for constrained image splicing detection and localization based on atrous convolution,” IEEE Transactions on Information Forensics and Security Vol 14, pp 2551-2566, 2019 [7] Almawas, L et al “Comparative performance study of classification models for image-splicing detection,” Procedia Computer Science Vol 175, pp 278-285, 2020 [8] Hany Farid Photo Forensics The MIT Press, 2016 [9] Reinhard Klette “Concise Computer Vision.” Springer 2014 [10] Nguyễn Thanh Tuấn “Deep Learning bản.” Internet: www nttuan8.com/sach-deep-learning-co-ban, Jul 20, 2021 [11] Noron “Chia sẻ mạng nơ ron tích chập.” Internet: www.noron.vn/post/chiase-ve-mang-no-ron-tich-chap-convolutional-neural-networks-or-convnetsefskm9q3opa, Jul 23, 2021 42 [12] Aivivn “Mạng Nơ-ron Tích chập.” d2l.aivivn.com/chapter_convolutional-neural-networks/index_vn.html, Internet: Jul 23, 2021 [13] Krizhevsky, A et al “Imagenet classification with deep convolutional neural networks,” present at The Advances in neural information processing systems, 2012 [14] Yann LeCun et al “Gradient-Based Learning Applied to Document Recognition,” present at The Proceedings of the IEEE 1998 [15] Alex Krizhevsky et al “ImageNet Classification with Deep Convolutional Neural Networks,” present at The NeurIPS 2012 [16] Karen Simonyan and Andrew Zisserman “Very Deep Convolutional Networks for Large-Scale Image Recognition,” present at The arXiv preprint 2014 [17] Christian Szegedy et al “Going Deeper with Convolutions,” present at The IEEE Conference on Computer Vision and Pattern Recognition 2015 [18] OpenCV “Python Tutorial.” Internet: www.docs.opencv.org/3.4/da/df6/tutorial_py_table_of_contents_setup.html, Jul 20, 2021 43 PHỤ LỤC Mã nguồn biến đổi ảnh đầu vào Để biến đổi ảnh đầu vào, tác giả xây dựng mợt thuật tốn gồm bước sau: Bước 1: Đọc vào liệu ảnh gốc Bước 2: Biến đổi kích thước ảnh đầu vào 224 x 224 Nhằm giảm tốc đợ tính tốn Bước 3: Thay đổi tên ảnh để tránh việc ghi đè liệu Bước 4: Thực việc Contrast ảnh đầu vào Bước 5: Thực Enhance ảnh Contrast Bước Mã nguồn img = Image.open(path) IMG_SIZE = 224 name = "/content/drive/MyDrive/LuanVan/Spl2/contrastSpl" + str(i) + ".jpg" contrast = ImageEnhance.Contrast(img) contrast.enhance(8).save(name) 44 Bước Các bước huấn luyện sử dụng Inception V3 tập ảnh đầu vào tiền xử lý Mã nguồn 45 10 Thực thi chương trình 46 LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN I LÝ LỊCH SƠ LƯỢC: Họ tên: Nguyễn Trung Trí Giới tính: Nam Ngày, tháng, năm sinh: 17/11/1987 Nơi sinh: Đồng Tháp Email: nguyentrungtri17111987@gmail.com Điện thoại: 0946 086 066 II QUÁ TRÌNH ĐÀO TẠO: Từ năm 2005 đến 2010: Học Đại học Khoa học Máy tính trường Đại học Đồng Tháp Từ năm 2019 đến 2021: Thạc sĩ trường Đại học Công nghiệp TP HCM III Q TRÌNH CƠNG TÁC CHUN MƠN: Thời gian Nơi cơng tác Công việc đảm nhiệm 2010 Trung tâm Tin học Cơng báo, Văn phịng UBND tỉnh Đồng Tháp Chun viên 2012 Trung tâm Tin học tỉnh Đồng Tháp Chuyên viên 2014 Trung tâm Tin học tỉnh Đồng Tháp Phó trưởng phịng 2016 Trung tâm CNTT & Truyền thơng Phó trưởng phịng 2021 Giáo viên trường THCS – THPT Bình Thạnh Trung Giáo viên Đồng Tháp, ngày tháng Năm 20 Người khai Nguyễn Trung Trí 47 ... với 1 72 ảnh tḥc lớp NoForgery nhận dạng 140 ảnh thuộc lớp NoForgery 32 ảnh thuộc lớp Splicing Tương tự, với 556 ảnh tḥc lớp Splicing nhận dạng 09 ảnh thược lớp NoForgery 447 ảnh thuộc lớp. .. Biến đổi ảnh đầu vào dự kỹ thuật Contrast kết hợp Enhance Bước 2: Dựa đốn ảnh có phải giả mạo dạng Splicing hay không dựa tỷ lệ phần trăm 3.4 Kết đạt Trong phần này, tác giả thực mô để phát giả. .. Inception V3, tác giả thực theo 08 bước sau: Bước 1: Dữ liệu đầu vào huấn luyện 02 tập ảnh: Original Splicing Bước 2: Biến đổi kích thước ảnh đầu vào 22 4 x 22 4 Bước 3: Chia liệu đầu vào thành phần,

Định dạng
Số trang	37
Dung lượng	1,6 MB