Thuật toán phát hiện ảnh giả mạo dạng cắt dán dựa trên các phép biến đổi ma trận

Số hóa bởi Trung tâm Học 2 Nhận thức được ý nghĩa khoa học và tính thực tiễn của vấn đề này nên em đã chọn đề tài “Thuật toán phát hiện ảnh giả mạo dạng cắt - dán dựa trên các phép biến

Trang 1

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN

Trang 2

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

HƯỚNG DẪN KHOA HỌC: PGS.TS PHẠM VĂN ẤT

THÁI NGUYÊN - 2014

Số hóa bởi Trung tâm Học liệu ht t p : / / www lr c - tnu.edu v n/

Trang 3

Số hóa bởi Trung tâm Học

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn thạc sĩ khoa học máy tính: “Thuật toán

phát hiện ảnh giả mạo dạng cắt - dán dựa trên các phép biến đổi ma trận” là

kết quả của quá trình học tập, nghiên cứu khoa học độc lập, nghiêm túc

Các số liệu trong luận văn là trung thực, có nguồn gốc rõ ràng, đợctrích dẫn và có tính kế thừa, phát triển từ các tài liệu, tạp chí, các công trìnhnghiên cứu đã được công bố, các website, …

Các phương pháp nêu trong luận văn được rút ra từ những cơ sở lý luận

và quá trình nghiên cứu tìm hiểu của tác giả

Thái Nguyên, tháng năm 2014

Tác giả

Nguyễn Hồng Hạnh

Trang 4

Nếu không có sự giúp đỡ tận tình của thầy, tôi khó có thể hoàn thành luận văn này.

Bên cạnh đó tôi cũng xin chân thành cảm ơn các thầy cô T r ư ờ

ng Đ ạ i h ọ c Công nghệ Thông tin & T r u y ề n t h ô n g đã tận tình giảng dạy, chỉ bảo và cung cấp cho tôi những kiến thức cần thiết trong suốt thời gian học và cũng xin gởi lời cám ơn chân thành đến những người thân, bạn bè và đồng nghiệp đã giúp đỡ và động viên tôi trong suốt thời gian học tập cũng như trong thời gian thực hiện luận văn.

Chân thành cảm ơn !

Thái Nguyên, tháng năm 2014

Tác giả

Nguyễn Hồng Hạnh

Trang 7

liệu ht t p : / / www tnu.edu v n/ lr c -

2.2.1 Ý tưởng 382.2.2 Thuật toán 392.2.3 Phân tích thuật toán

match) 573.4 SƠ ĐỒ CHUNG CỦA THUẬT TOÁN ĐỐI SÁNH BỀN VỮNG -

(robust

match) 583.5 LỰA CHỌN CÔNG CỤ

59

3.6 MÔI TRƯỜNG CÀI ĐẶT VÀ XÂY DỰNG CÁC

HÀM 60

3.7 KẾT QUẢ THỰC NGHIỆM 603.7.1 Phần mềm đối sánh bền vững dựa trên phép biến đổi DCT

61

3.7.2 Phần mềm đối sánh bền vững dựa trên phép biến đổi DWT

64

Trang 8

liệu tnu.edu. v n/

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 67

1 KẾT LUẬN 67

2 KIẾN NGHỊ 68

TÀI LIỆU THAM KHẢO 69

Trang 9

8Hình 1.3 Quá trình nén JPEG cơ 16Hình 1.4 Minh họa về việc giả mạo ảnh 17Hình 1.5 Minh họa cho loại ảnh giả mạo tăng cường ảnh

18Hình 1.6 Ảnh che phủ và bỏ đi đối tượng 20Hình 1.7 thể hiện một dạng khác thường thấy của giả mạo ảnh, đó là việc bổ

sungthêm đối tượng 21

Hình 1.8 Sơ đồ phát hiện ảnh giả mạo dựa vào cơ sở dữ liệu

22Hình 1.9 Sự khác biệt của các hướng nguồn sáng khác nhau

23Hình 2.1 Đánh số thứ tự các phần tử của ma trận hệ số DCT theo đường zigzag

41Hình 2.2 Vectơ dịch chuyển của vùng cắt - dán 44Hình 2.3 Áp dụng phép biến đổi DWT theo hàng và cột

48Hình 2.4 Áp dụng phép biến đổi DWT theo hai mức

48Hình 2.5 Vectơ dịch chuyển của vùng cắt - dán 54Hình 3.1 Kết quả thực nghiệm 1 phát hiện ảnh giả mạo dạng cắt -

dán 61Hình 3.2 Kết quả thực nghiệm 2 phát hiện ảnh giả mạo dạng cắt -

dán 62Hình 3.3 Kết quả thực nghiệm 3 phát hiện ảnh giả mạo dạng cắt -

dán 63

Trang 10

nénJPEG với hệ số Q=60 65

Hình 3.6 Kết quả thực nghiệm 6 phát hiện ảnh giả mạo dạng cắt - dán nhiễu 1%

66Hình 3.7 Kết quả thực nghiệm 7 phát hiện ảnh giả mạo dạng cắt – dán nhiễu 1%

làm mờ 1px nén JPEG Q=60 66

Trang 11

án, bảo hiểm, gian lận khoa học,… Hơn nữa, với sự phổ biến của máy ảnh kĩthuật số và các phần mềm chỉnh sửa (Photoshop, GIMP,…) dẫn đến ảnh số cóthể dễ dàng được chỉnh sửa mà không cần đến các kiến thức chuyên gia và việcchỉnh sửa hầu như không để lại dấu vết mà mắt thường có thể nhận biết được.Kết quả là khi những hình ảnh được chỉnh sửa sử dụng cho mục đích xấu nó cóthể dẫn đến những hậu quả nghiêm trọng Do vậy, việc phát hiện ảnh giả mạo làvấn đề đặt ra ngày càng cấp bách và càng trở lên khó khăn.

Mặc dù nhu cầu về việc phát hiện các giả mạo ảnh số đã được công nhậnbởi cộng đồng các nhà nghiên cứu, nhưng hiện nay số tài liệu về lĩnh vực nàyvẫn chưa nhiều Trong việc chống giả mạo ảnh, người ta đã nghiên cứu các kỹthuật về tạo bản quyền ảnh trên cơ sở giấu các thông tin cần thiết vào các bứcảnh trước khi phát hành để tránh tình trạng sao chép bất hợp pháp hoặc để tiệncho việc phát hiện các sửa đổi hoặc cắt ghép sau này Theo cách tiếp cận này,các thiết bị máy ảnh số và camera ngày nay thường bổ sung các tính năng bảnquyền ngay trong quá trình thu nhận ảnh Dựa vào đó sau này ta có thể biết đượcnguồn gốc của bức ảnh, biết được đó có phải là ảnh gốc hay không? Cách tiếpcận này dựa vào giả thiết rằng việc giả mạo ảnh sẽ làm thay đổi thông tin bảnquyền Tuy nhiên, hạn chế của cách tiếp cận này là thông tin bản quyền phảiđược chèn vào tại thời gian thu nhận ảnh nên chỉ giới hạn với các camera số đượctrang bị đặc biệt Ngoài ra, một giải pháp khác không cần dùng đến các thông tinnhúng vào từ trước là các phương pháp thụ động phát hiện ảnh giả mạo

Trong các loại giả mạo thì ảnh giả mạo dạng cắt - dán tương đối phổ biến

và dễ dàng thực hiện, nên chúng đã và đang được nhiều nhà nghiên cứu quan tâm

Trang 12

2

Nhận thức được ý nghĩa khoa học và tính thực tiễn của vấn đề này nên em

đã chọn đề tài “Thuật toán phát hiện ảnh giả mạo dạng cắt - dán dựa trên các

phép biến đổi ma trận” cho luận văn tốt nghiệp của mình.

* Nội dung chính của luận văn gồm:

- Phần mở đầu.

Chương 1: Tổng quan về xử lý ảnh và bài toán phát hiện ảnh giả mạo.

Chương này trình bày tổng quan về một hệ thống xử lý ảnh, các vấn đề cơbản trong xử lý ảnh, một số định dạng ảnh phổ biến như định dạng Bitmap, địnhdạng JPEG, đồng thời trình bày bài toán phát hiện ảnh giả mạo

Chương 2: Thuật toán phát hiện ảnh giả mạo dạng cắt - dán

Chương này trình bày một số phép biến đổi ma trận, giới thiệu tổng quan

về ảnh giả mạo dạng cắt - dán và phát hiện ảnh giả mạo Bên cạnh đó trình bàymột số thuật toán phát hiện ảnh giả mạo như: Thuật toán đối sánh chính xác,thuật toán đối sánh bền vững và thuật toán phát hiện ảnh giả mạo dạng cắt - dándựa trên các phép biến đổi DWT

Trang 13

3

CHƯƠNG 1 TỔNG QUAN VỀ XỬ LÝ ẢNH VÀ BÀI TOÀN PHÁT HIỆN ẢNH

GIẢ MẠO

Chương này trình bày tổng quan về một hệ thống xử lý ảnh, các vấn đề cơ bản trong xử lý ảnh, một số định dạng ảnh phổ biến như định dạng Bitmap, định dạng JPEG đồng thời trình bày bài toán phát hiện ảnh giả mạo.

1.1 TỔNG QUAN VỀ XỬ LÝ ẢNH

1.1.1 Xử lý ảnh là gì?

Xử lý ảnh là một khoa học tương đối mới mẻ so với nhiều ngành khoa họckhác, nhất là trong quy mô công nghiệp, song trong xử lý ảnh đã bắt đầu xuấthiện những máy tính chuyên dụng Để có thể hình dung cấu hình một hệ thống

xử lý ảnh chuyên dụng hay một hệ thống xử lý ảnh dùng trong nghiên cứu, đàotạo, trước hết chúng ta sẽ xem xét các bước cần thiết trong xử lý ảnh

Trước hết là quá trình thu nhận ảnh Ảnh có thể thu nhận qua camera.Thường ảnh thu nhận qua camera là tín hiệu tương tự (loại camera ống kiểuCCIR), nhưng cũng có thể là tín hiệu số hóa (loại-Change Coupled Device)

Ảnh cũng có thể thu nhận từ vệ tinh qua các bộ cảm ứng (sensor), hayảnh, tranh được quét trên scanner Tiếp theo là quá trình số hóa để biến đổi tínhiệu liên tục sang tín hiệu rời rạc (lấy mẫu) và số hóa bằng lượng hóa, trước khichuyển sang giai đoạn xử lý, phân tích hay lưu trữ lại

Quá trình phân tích ảnh bao gồm nhiều công đoạn nhỏ Trước hết là côngviệc tăng cường ảnh để nâng cao chất lượng ảnh Do những nguyên nhân khácnhau: Có thể do chất lượng thiết bị thu nhận ảnh, do nguồn sáng hay do nhiễuảnh có thể bị suy biến Do vậy cần phải tăng cường và khôi phục lại ảnh để làm

Trang 14

4

nổi bật một số đặc tính chính của ảnh, hay làm cho ảnh gần giống nhất với trạngthái gốc - trạng thái trước khi ảnh bị biến dạng Giai đoạn tiếp theo là phát hiệncác đặc tính như biên, phân vùng ảnh, trích chọn các đặc tính,v.v…

Cuối cùng, tùy theo mục đích của người xử dụng, sẽ là giai đoạn nhậndạng, phân lớp hay các quyết định khác Các giai đoạn chính trong quá trình xử

lý ảnh được mô tả qua hình 1.1

Trang 15

Trích chọn đặctrưng

Đây là bước đầu tiên trong quá trình xử lý ảnh Để thực hiện điều này,

ta cần có bộ thu ảnh và khả năng số hoá những tín hiệu liên tục được sinh rabởi bộ thu ảnh đó Bộ thu ảnh ở đây có thể là máy chụp ảnh đơn sắc hay màu,máy quét ảnh, Trong trường hợp bộ thu ảnh cung cấp chưa phải là dạng

số hoá ta còn phải chuyển đổi hay số hoá ảnh

Quá trình chuyển đổi ADC (Analog to Digital Converter) để thu nhậndạng số hoá của ảnh Các thông số quan trọng ở bước này là độ phân giải,chất lượng màu, dung lượng bộ nhớ và tốc độ thu nhận ảnh của các thiết bị

Mặc dù đây chỉ là công đoạn đầu tiên song kết quả của nó có ảnhhưởng rất nhiều đến công đoạn kế tiếp

Trang 16

1.1.1.2 Tiền xử lý

Ở bước này, ảnh sẽ được cải thiện về độ tương phản, khử nhiễu, khửbóng, khử độ lệch, v.v với mục đích làm cho chất lượng ảnh trở nên tốt hơnnữa, chuẩn bị cho các bước xử lý phức tạp hơn về sau trong quá trình xử lýảnh Quá trình này thường được thực hiện bởi các bộ lọc

+ Khử nhiễu: Nhiễu được chia thành hai loại: nhiễu hệ thống và nhiễu

ngẫu nhiên Đặc trưng của nhiễu hệ thống là tính tuần hoàn Do vậy, có thểkhử nhiễu này bằng việc sử dụng phép biến đổi Fourier và loại bỏ các đỉnhđiểm Đối với nhiễu ngẫu nhiên, trường hợp đơn giản là các vết bẩn tươngứng với các điểm sáng hay tối, có thể khử bằng phương pháp nội suy, lọctrung vị và trung bình

+ Chỉnh mức xám: Đây là kỹ thuật nhằm chỉnh sửa tính không đồngđều của thiết bị thu nhận hoặc độ tương phản giữa các vùng ảnh

+ Chỉnh tán xạ: Ảnh thu nhận được từ các thiết bị quang học hay điện

tử có thể bị mờ, nhoè Phương pháp biến đổi Fourier dựa trên tích chập củaảnh với hàm tán xạ cho phép giải quyết việc hiệu chỉnh này

1.1.1.3 Phân đoạn ảnh

Phân đoạn ảnh có nghĩa là chia một ảnh đầu vào thành nhiều phần khácnhau hay còn gọi là các đối tượng để biểu diễn phân tích, nhận dạng ảnh Vídụ: để nhận dạng chữ (hoặc mã vạch) trên phong bì thư cho mục đích phânloại bưu phẩm, cần chia các câu, chữ về địa chỉ hoặc tên người thành các từ,các chữ, các số (hoặc các vạch) riêng biệt để nhận dạng

Đây là phần phức tạp khó khăn nhất trong xử lý ảnh và cũng dễ gây lỗi,làm mất độ chính xác của ảnh Kết quả nhận dạng ảnh phụ thuộc rất nhiềuvào công đoạn này

Mục đích của phân đoạn ảnh là để có một miêu tả tổng hợp về nhiều

Trang 17

phần tử khác nhau cấu tạo lên ảnh thô Vì lượng thông tin chứa trong ảnh rấtlớn, trong khi đa số các ứng dụng chúng ta chỉ cần trích một vài đặc trưng nào

đó, do vậy cần có một quá trình để giảm lượng thông tin khổng lồ đó Quátrình này bao gồm phân vùng ảnh và trích chọn đặc tính chủ yếu

1.1.1.5 Trích chọn đặc điểm

Việc giải quyết bài toán nhận dạng trong những ứng dụng mới nảy sinhtrong cuộc sống không chỉ tạo ra những thách thức về giải thuật, mà còn đặt

ra những yêu cầu về tốc độ tính toán

Đặc điểm chung của tất cả ứng dụng đó là những đặc điểm đặc trưngcần thiết thường là nhiều, không thể do chuyên gia đề xuất, mà phải đượctrích chọn dựa trên các thủ tục phân tích dữ liệu

Việc trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các đốitượng ảnh chính xác, với tốc độ tính toán cao và dung lượng nhớ lưu trữgiảm xuống

Các đặc điểm của đối tượng được trích chọn tuỳ theo mục đích nhậndạng trong quá trình xử lý ảnh Có thể nêu ra một số đặc điểm của ảnhsau đây:

- Đặc điểm không gian: phân bố mức xám, phân bố xác suất, biên độ,điểm uốn v.v

Trang 18

- Đặc điểm biến đổi: các đặc điểm loại này được trích chọn bằng việcthực hiện lọc vùng (zonal filtering) Các bộ vùng được gọi là “mặt nạ đặcđiểm” (feature mask) thường là các khe hẹp với hình dạng khác nhau (chữnhật, tam giác, cung tròn v.v ).

- Đặc điểm biên và đường biên: Đặc trưng cho đường biên của đốitượng và do vậy rất hữu ích trong việc trích chọn các thuộc tính bất biến đượcdùng khi nhận dạng đối tượng Các đặc điểm này có thể được trích chọn nhờtoán tử Gradient, toán tử la bàn, toán tử Laplace, toán tử “chéo không”(zero crossing)

1.1.1.6 Nhận dạng

Đây là bước cuối cùng trong quá trình xử lý ảnh

Nhận dạng ảnh là quá trình xác định nội dung ảnh Quá trình nàythường thu được bằng cách so sánh với mẫu chuẩn đã được lọc (hoặc lưu)

từ trước

Nhận dạng ảnh có thể được nhìn nhận một cách đơn giản là việc gánnhãn cho các đối tượng trong ảnh Ví dụ như khi nhận dạng chữ viết, các đốitượng trong ảnh cần nhận dạng là các mẫu chữ, ta cần tách riêng các mẫu chữ

đó ra và tìm cách gán đúng các ký tự của bảng chữ cái tương ứng cho các mẫuchữ thu được trong ảnh Giải thích là công đoạn gán nghĩa cho một tập cácđối tượng đã được nhận biết

Chúng ta cũng có thể thấy rằng, không phải bất kỳ một ứng dụng xử lýảnh nào cũng bắt buộc phải tuân theo tất cả các bước xử lý đã nêu ở trên, ví

dụ như các ứng dụng chỉnh sửa ảnh nghệ thuật chỉ dừng lại ở bước tiền xử lý

Một cách tổng quát thì những chức năng xử lý bao gồm cả nhận dạng

và giải thích thường chỉ có mặt trong hệ thống phân tích ảnh tự động hoặc bán

tự động, được dùng để rút trích ra những thông tin quan trọng từ ảnh, ví dụ

Trang 19

như các ứng dụng nhận dạng ký tự quang học, nhận dạng chữ viết tay v.v…

Với các giai đoạn trên, một hệ thống xử lý ảnh gồm các thành phần tốithiểu như hình sau:

Màn hình

Đồ họa

Camera Bộ xử lý tương tự Bộ nhớ ảnh

Trang 20

Bộ xử lý tương tự thực hiện các chức năng sau:

- Chọn camera thích hợp nếu hệ thống có nhiều camera

- Chọn màn hình hiển thị tín hiệu

- Thu nhận tín hiệu video bởi bộ số hóa Thực hiện lấy mẫu và mã hóa

- Tiền xử lý ảnh khi thu nhận: dùng kỹ thuật bảng tra (Look Up Table)

Bộ xử lý ảnh số gồm nhiều bộ xử lý chuyên dụng: xử lý lọc, trích chọnđường bao, nhị phân hóa ảnh

Trang 21

Máy chủ đóng vai trò điều khiển các thành phần ở trên.

Bộ nhớ ngoài: Dữ liệu ảnh cũng như các dữ liệu khác, để có thểchuyển giao cho các quá trình khác, nó cần được lưu trữ

1.1.2 Các khái niệm cơ bản trong xử lý ảnh

Điểm ảnh (pixel): Biểu diễn cường độ sáng hay một dấu hiệu nào đó tại

một tọa độ nào đó của đối tượng trong không gian Điểm ảnh là một hàm nhiềubiến P(x1, x2, , xn) trong đó n là số chiều của ảnh

Ảnh: là một tập hợp các điểm ảnh, thông thường được biểu diễn dưới

dạng ma trận các điểm ảnh

Mức xám: là kết quả sự mã hóa tương ứng của mỗi cường độ sáng của

một điểm ảnh với một giá trị số - kết quả của quá trình lượng hóa Cách mã hóakinh điển thường dùng 16, 32 hay 64 mức

Biểu đồ tần suất: biểu đồ tần xuất của một mức xám g của ảnh I là số

và giảm thời gian xử lý

Ảnh được lưu trữ trong bộ nhớ có ảnh hưởng rất lớn đến việc hiển thị, in

ấn và xử lý Ảnh là tập hợp các điểm ảnh có cùng kích thước do đó nếu sử dụngcàng nhiều điểm ảnh thì càng mịn càng đẹp và càng thể hiện rõ hơn chi tiết củaảnh, người ta gọi đặc điểm này là độ phân giải Việc lựa chọn độ phân giải phụthuộc vào nhu cầu sử dụng và đặc trưng của từng loại ảnh cụ thể Chẳng hạn, ảnh

Trang 22

dùng trong văn bản thường thể hiện dưới dạng đen trắng có độ phân giải 300DPI, ảnh bản vẽ, bản đồ có độ phân giải 200DPI.

Trên cơ sở đó, các ảnh được biểu diễn theo 2 mô hình cơ bản là RASTER

và VECTOR

Mô hình RASTER:

Theo mô hình này, ảnh được biểu diễn dưới dạng ma trận các điểm ảnh.Tùy theo yêu cầu thực tế mà mỗi điểm ảnh được biểu diễn bằng một hoặc nhiềubit

Ngày nay thiết bị phần cứng phát triển nhưng chủ yếu là theo định hướngRaster cho cả thiết bị đầu vào cũng như đầu ra Ví dụ: máy in, máy quét, v.v…

Một trong những nghiên cứu chủ yếu trong mô hình raster là kỹ thuật nén

ảnh, chia ra hai khuynh hướng đó là nén bảo toàn và nén không bảo toàn thông tin

Nén bảo toàn thông tin là có khả năng phục hồi hoàn toàn dữ liệu ban đầu.Nén không bảo toàn thông tin là có khả năng phục hồi dữ liệu ban đầu nhưng vớisai số chấp nhận được Trên cơ sở đó người ta xây dựng được nhiều khuôn dạngảnh khác nhau: *.pcx, *.tif, *.gif, *.jpg, *.jpeg, v.v…

Mô hình VECTOR:

Ảnh lưu trữ trên máy tính ngoài yêu cầu về giảm không gian lưu trữ, thờigian xử lý, dễ dàng cho hiển thị và in ấn còn phải đảm bảo dễ dàng trong sự lựachọn, sao chép, di chuyển và tìm kiếm Theo những yêu cầu này, kỹ thuật biểudiễn Vector tỏ ra ưu việt hơn

Trong mô hình Vector, ảnh được biểu diễn bởi các điểm ảnh và các đườngthể hiện hướng của một điểm Ảnh dạng vector được thu nhận từ các thiết bị nhưsensor, digitalier, v.v…

Trang 23

Ngày nay, các thiết bị phần cứng phát triển mạnh theo hướng Raster cho

cả đầu vào và đầu ra nên một trong những nghiên cứu chủ yếu của mô hìnhVector là tập trung cho chuyển đổi từ ảnh Raster sang ảnh Vector

1.1.3.2 Nắn chỉnh biến dạng

Ảnh thu được sau quá trình thu nhận thường bị biến dạng do những thiết

bị quang học và điện tử Do đó cần phải có khâu nắn chỉnh biến dạng

Trang 24

- Nhiễu ngẫu nhiên: là các vết bẩn không rõ nguyên nhân Loại nhiễunày thường khó khử, tùy vào từng ảnh cụ thể mà có cách khắc phục Thôngthường sử dụng các phép lọc.

1.1.3.4 Nhận dạng ảnh

Nhận dạng ảnh là quá trình liên quan đến các mô tả đối tượng mà người tamuốn đặc tả nó Quá trình nhận dạng thường đi sau quá trình trích chọn các đặctính chủ yêu của đối tượng Có 2 kiểu đối tượng:

- Mô tả tham số (nhận dạng theo tham số)

- Mô tả theo cấu trúc (nhận dạng theo cấu trúc)

Trang 25

Trên thực tế, người ta đã áp dụng kỹ thuật nhận dạng khá thành công vớinhiều đối tượng khác nhau như: nhận dạng ảnh vân tay, nhận dạng chữ (chữ cái,chữ số, chữ có dấu).

Nhận dạng chữ in hoặc đánh máy phục vụ cho việc tự động hóa quá trìnhđọc tài liệu, tăng nhanh tốc độ và chất lượng thu nhận thông tin từ máy tính

Nhận dạng chữ viết tay (với mức độ ràng buộc khác nhau về cách viết,kiểu chữ, v.v ) phục vụ cho nhiều lĩnh vực

Ngoài hai kỹ thuật nhận dạng trên, hiện nay một kỹ thuật nhận dạng mớidựa vào kỹ thuật mạng nơron đang được áp dụng và cho kết quả khả quan

1.1.4 Một số định dạng ảnh phổ biến

1.1.4.1 Định dạng ảnh Bitmap

Ảnh Bitmap là định dạng ảnh do Microsoft đề xuất, có phần mở rộng làBMP Trong đồ họa m áy v i tín h , BMP còn được biết đến với tên ti ếng An h

khác là Windows bitmap, là một định dạng t ập t i n h ình ảnh khá phổ biến

Các tập tin đ ồ h ọ a lưu dưới dạng BMP thường có đuôi

là BMP hoặc DIB (Device Independent Bitmap).

Số bit trên mỗi đ i ểm ả n h (bit per pixel), thường được ký hiệu bởi n Một

ảnh BMP n-bit có 2n màu Giá trị n càng lớn thì ảnh càng có nhiều màu, và càng

rõ nét hơn Giá trị tiêu biểu của n là 1 (ảnh đen trắng), 4 (ảnh 16 màu), 8 (ảnh

256 màu), 16 (ảnh 65536 màu) và 24 (ảnh 16 triệu màu) Ảnh BMP 24-bit cóchất lượng hình ảnh trung thực nhất

Các thuộc tính tiêu biểu của một tập tin ảnh BMP (cũng như file ảnh nóichung) là:

Chiều cao của ảnh (height), cho bởi điểm ảnh (pixel).

Chiều rộng của ảnh (width), cho bởi điểm ảnh.

Trang 26

Loại ảnh này được truyền tải, sử dụng rộng rãi trên máy tính và các thiết

bị điện tử khác Ảnh Bitmap được chia thành ba dạng: Ảnh đen trắng, ảnh đamức xám và ảnh màu

Ảnh đen trắng: là ảnh mà mỗi điểm ảnh chỉ thể hiện một trong hai trạng

thái 0 và 1 để biểu diễn trạng thái điểm ảnh đen hay trắng

Ảnh đa mức xám: là ảnh mà mỗi điểm ảnh được biểu diễn bởi một giá trị

và đó là cường độ sáng của điểm ảnh

Ảnh màu: Mỗi điểm ảnh được đại diện bởi ba giá trị màu RGB, ứng

với mỗi đại lượng R,G, B ta sẽ được một giá trị màu tương ứng Số lượngmàu thực của ảnh có thể lên tới 2563 màu khác nhau Nhưng số màu thực củamột ảnh nào đó có thể là khá nhỏ Để tiết kiệm bộ nhớ, với các ảnh có sốlượng màu nhỏ hơn 256 thì màu của các điểm ảnh được lưu trữ dưới dạngbảng màu (PALLETE) Với các ảnh có số màu lớn thì màu của điểm ảnhkhông tổ chức dưới dạng bảng màu, khi đó giá trị của các điểm ảnh chính làgiá trị của các thành phần màu R, G, B

Với ảnh có số lượng màu lớn, tuỳ theo chất lượng ảnh mà quyết định sốbit để biểu diễn cho mỗi màu thường là 24 bit, hoặc 32 bit Với ảnh 24 bit, mỗithành phần màu được biểu diễn bởi một byte (8 bit)

Trang 28

Cấ u trúc cụ thể của ảnh BMP như sau:

** Cấu trúc và nội dung của bitmap File Header (bắt đầu từ byte 0 của tệp)

Trang 29

** Cấu trúc và nội dung của Color Pallete (bắt đầu từ byte 54 của tệp)

(Chỉ có ảnh nhỏ hơn hoặc bằng 8 bít màu mới có bảng màu)

+) Với ảnh 24 bít màu:

Mỗi nhóm 3 byte biểu diễn màu của một điểm ảnh (byte 1 – Red, byte 2 –Green, byte 3 - Blue) Thứ tự lưu trữ các điểm ảnh trong file cũng được mô tả như trong bảng Bitmap Header

1.1.4.2 Định dạng ảnh JPEG (Joint Photographic Experts Group)

Chuẩn JPEG là kết quả của sự hợp tác giữa Liên hiệp viễn thông quốc tế(International Telecommunication Union (ITU)), Tổ chức tiêu chuẩn quốc tế(International Organization for Standardization (ISO)), Ủy ban điện quốc tế

Trang 30

(International Electrotechnical Commission (IEC)) Tên chính thức của nó là

“ISO/IEC 10918-1 Digital compression and coding of continuous-tone stillimage" hoặc "ITU-T Recommendation T.81"

Với lược đồ nén JPEG cơ sở (JPEG baseline), một ảnh RGB đầu tiênđược chuyển đổi sang không gian luminance/chrominace (YCbCr) Mỗi kênhsau đó được chia thành các khối pixel 8*8 Các giá trị này tiếp tục được chuyểnđổi từ số nguyên không dấu [0,255] thành số nguyên có dấu [-128,127] Tiếptheo mỗi khối được chuyển đổi sang không gian tần số sử dụng phép biến đổicosin rời rạc 2 chiều (2-D Discrete Cosine Transform - DCT) Gọi mỗi hệ sốDCT là C, C tiếp tục được lượng tử hóa bởi giá trị q:

Cˆ ound(C / q)

Ở đây giá trị lượng tử hóa q phụ thuộc vào tần số và kênh Giá trị q cànglớn thì tỷ lệ nén càng cao và chất lượng ảnh sau khi bị nén càng thấp Sau khilượng tử hóa nhiều hệ số DCT sẽ trở thành 0 (đặc biệt đối với vùng tần số cao).Cuối cùng các hệ số này được nén bằng phương pháp Runlengh và Huffman.Quá trình nén ảnh JPEG được mô tả như trong sơ đồ sau:

Trang 31

Ảnh B.

(R,G,B)

Color components

Zig-zag reordering

Difference Encoding

Huffman Table

Huffman coding

Huffman Table

JPEG bit-stream

Hình 1.3 Quá trình nén JPEG cơTương tự, để giải nén ảnh JPEG thực hiện các bước ngược lại với quá trình nèn ảnh JPEG như trên

Trang 32

1.2 BÀI TOÁN PHÁT HIỆN ẢNH GIẢ MẠO

và ánh sáng cũng được tạo ra làm cho bức ảnh nhìn có vẻ hoàn toàn như thật

Hình 1.4 Minh họa về việc giả mạo ảnh

1.2.2 Các loại ảnh giả mạo cơ bản

Ảnh giả mạo thường chia làm hai loại chính Ảnh giả nhưng thật, tức làhiện trường được dựng thật và việc thu nhận ảnh là thật Loại thứ hai là ảnh giảđược tạo lập trên cơ sở các phần của ảnh gốc thật như hình 1.4 hoặc được cắt dán

Trang 33

để thêm vào hay che đi các chi tiết trên ảnh.

Trong luận văn này tôi quan tâm đến một số dạng giả mạo thuộc loại thứhai Trong dạng ảnh giả mạo thứ hai có thể chia làm 3 loại chính: Ghép ảnh, tăngcường ảnh, cắt - dán vùng trên ảnh và tôi tập trung chủ yếu tìm hiểu về ảnh giảmạo dạng cắt - dán và các kỹ thuật phát hiện ảnh giả mạo dạng cắt - dán

Trang 34

cường ảnh (1) Xe mô tô màu xanh được chuyển thành màu lục lam và xe tảimàu đỏ trong nền được chuyển thành màu vàng (hình 1.5(b)), (2) Tăng độ tươngphản của toàn cảnh làm cho ảnh này giống như được chụp vào một ngày trờinắng (hình 1.5(c)); (3) Các xe ô tô đỗ trong ảnh này bị làm mờ khiến cho chiềusâu của khung cảnh trở nên hẹp hơn (hình 1.5(d)) v.v

Loại này có thể coi là ít nguy hiểm nhất trong các cách giả mạo ảnh số.Mặc dù loại giả mạo này không thể thay đổi cơ bản hình dạng hay ý nghĩa củaảnh gốc như loại ghép ảnh, nhưng nó vẫn có tác động khéo léo lên cách hiểu ảnh

Ví dụ, có thể sửa đổi thời tiết và thời gian trong ngày hay có thể làm mờ đi vàichi tiết để thổi phồng các chi tiết khác trong ảnh, v.v

1.2.2.2 Ghép ảnh

Ghép ảnh là dạng giả mạo ảnh số phổ biến nhất, trong đó hai hay nhiềuảnh số được ghép lại với nhau để tạo ra một ảnh số hoàn chỉnh Kỹ thuật nàynguy hiểm hơn kỹ thuật tăng cường ảnh Ví dụ hình 1.4 ở trên Hình này đượctạo lập từ 3 bức ảnh: Nhà trắng, Bill Clinton và Saddam Hussein Bill Clinton vàSaddam Hussein được cắt và dán vào bức ảnh Nhà trắng

Độ tin cậy của sự giả mạo loại này phụ thuộc vào mức độ phù hợp giữacác thành phần trong ảnh về kích thước, tư thế, màu sắc, chất lượng và ánh sáng.Nếu có một cặp ảnh tương thích tốt, được thực hiện bởi một chuyên gia giàukinh nghiệm thì việc giả mạo hoàn toàn như thật

1.2.2.3 Ảnh giả mạo dạng cắt - dán (cắt - dán vùng trên ảnh)

Một dạng khác thường thấy nữa của ảnh giả mạo loại hai là việc cắt - dánvùng trên ảnh Về mức độ nguy hại tương tự như kỹ thuật ghép ảnh, cả hai kỹthuật này đều làm thay đổi một vùng của ảnh gốc Tuy nhiên, thay vì cần mộthình ảnh bên ngoài như kỹ thuật ghép ảnh, kỹ thuật cắt - dán vùng ảnh dùngchính vùng trên ảnh gốc để tạo ra bức ảnh giả

Trang 35

Đối với ảnh giả mạo được tạo lập trên cơ sở cắt - dán trên cùng một ảnhgốc, các vùng trên ảnh được thu nhận bởi cùng một camera, cùng một góc độnên tương đồng về ánh sáng và bóng là như nhau Do đó mắt thường hầu nhưkhông thể phân biệt được Các dạng thường thấy của ảnh giả mạo loại này làviệc bớt đi hoặc thêm vào các đối tượng trong ảnh, việc bớt đi các đối tượngtrong ảnh có thể xem như là che phủ đối tượng hoặc xóa đi đối tượng Việc thêmvào các đối tượng trong ảnh có thể xem như là nhân bản đối tượng trên hình ảnh.

Hình 1.6(a) là ảnh gốc với 2 chiếc ô tô, một xe con và 1 xe tải Hình1.6(b) là hình giả tạo hình 1.6(a) với việc che phủ chiếc xe tải bằng một cành câycũng lấy từ trong chính ảnh đó

Trong khi hình 1.6(c) là ảnh gốc với chiếc trực thăng nhỏ còn hình 1.6(d)chính là ảnh gốc hình 1.6(c) đã được bỏ đi đối tượng là trực thăng Trong cả haitrường hợp giả mạo này đều được thực hiện từ một ảnh nên độ tương đồng vềánh sáng và bóng là như nhau Do đó, bằng mắt thường rất khó xác định

a) Ảnh gốc b) Ảnh đã che phủ đối tượng

c) Ảnh gốc d) Ảnh bỏ đi đối tượngHình 1.6 Ảnh che phủ và bỏ đi đối tượng

Trang 36

a) Ảnh gốc b) Ảnh bổ sung đối tượng

Hình 1.7 Ảnh bổ sung đối tượngHình 1.7 thể hiện một dạng khác thường thấy của giả mạo ảnh, đó là việc

bổ sung thêm đối tượng Hình 1.7(a) là ảnh gốc chỉ có một chiếc máy bay trựcthăng, nhưng trong hình 1.7(b) đã được bổ sung thêm thành 3 chiếc trực thăng ởcác vị trí khác nhau Các trực thăng này chính là được cắt-dán từ trực thăng gốcnên góc độ và hướng là giống nhau, do đó khó cho việc xác định giả mạo

1.2.3 Các cách tiếp cận trong phát hiện ảnh giả mạo

1.2.3.1 Dựa vào hình dạng

Việc phân tích để xác định tính giả mạo có thể dựa vào hình dạng vì việccắt-dán và ghép ảnh thường được thực hiện dựa theo các đường biên, nơi có sựthay đổi không liên tục của cường độ sáng của các điểm ảnh

1.2.3.2 Dựa vào phân tích nguồn sáng

Việc ghép các ảnh khác nhau hoặc bổ sung thêm đối tượng không phảithực hiện thao tác coppy có thể được thực hiện bằng việc phân tích nguồn sángđối với từng đối tượng, các đối tượng được ghép thường có hướng của nguồnsáng không cùng với các đối tượng trong ảnh gốc

1.2.3.3 Dựa vào biến đổi màu sắc

Ảnh gốc thu nhận thường được thu nhận bởi một thiết bị Do tính chất biến

Trang 37

đổi của ống kính bao gồm góc độ chụp, độ mở, v.v nên ảnh thu được thường bịbiến dạng theo các tính chất đặc trưng của nhà sản xuất Phần ảnh được ghép vàohay bổ sung thường không có sự biến đổi tương đồng về độ sáng.

1.2.3.4 Dựa vào cơ sở dữ liệu

Suspect Data

Trang 38

Semantic

Segment

DSI Mark Generation

DSI Mark Verification

Data Reconstruction

đã được lưu trữ nên khi xuất hiện một ảnh nghi là ảnh giả mạo người ta có thểtìm ảnh này với các phần trong nguồn ảnh nằm trong cơ sở dữ liệu ảnh Trongtrường hợp tốt nhất là các ảnh trong cơ sở dữ liệu đều đã được ẩn giấu một thôngtin về bản quyền nào đó Hình 1.8 là sơ đồ tổng quát cho một hệ thống phát hiệngiả mạo thuộc loại này

Cách tiếp cận này cũng thường được áp dụng với trường hợp xóa bớt hoặc

bổ sung thêm đối tượng từ chính ảnh gốc Trường hợp mà việc phân tích nguồnsáng hay sự biến đổi về màu sắc không có tác dụng Cơ sở dữ liệu trong trườnghợp này có thể xem là các phần có thể của ảnh gốc

Trang 39

1.2.4.5 Dựa vào dấu vết của quá trình điều chỉnh tỷ lệ

Khi cắt - dán các đối tượng từ hai hay nhiều bức ảnh để được một bứcảnh giả người ta phải quan tâm tới việc điều chỉnh kích thước, màu sắc củacác đối tượng trên các bức ảnh gốc được cắt ra để cho phù hợp với nhau khiđược ghép trên cùng một bức ảnh

1.2.4.6 Dựa vào phân tích ánh sáng

Qua phân tích sự đồng đều của ánh sáng phân bố trên các phầnkhác nhau của bức ảnh có thể thực hiện bằng hai cách Cách thứ nhất làphân tích bóng đổ để tìm ra hướng của nguồn sáng

Hình 1.9 Sự khác biệt của các hướng nguồn sáng khác nhau

Cách thứ hai là nghiên cứu các chấm sáng trong con ngươi mắt người Mắt là một phần tấm gượng soi vào thế giới ẩn chứa chủ thể được chụp

Ngoài ra, màu của ánh sáng có thể xác định bóng trắng chính xác củacác chấm sáng Một ảnh tổng hợp từ nhiều ảnh khác nhau sẽ có bóng sắc thayđổi từ người này sang người khác

Trang 40

CHƯƠNG 2 THUẬT TOÁN PHÁT HIỆN ẢNH GIẢ MẠO DẠNG CẮT - DÁN

Đối với loại giả mạo này, ảnh giả mạo được tạo ra từ các phần được dán từ vùng khác trên chính ảnh đó, nên các thành phần bị nhiễu, màu sắc, hướng nguồn sáng, và các đặc tính quan trọng khác sẽ tương thích với phần còn lại của ảnh và do vậy ta không thể sử dụng các phương pháp tìm kiếm không tương thích hay phương pháp phát hiện mâu thuẫn trong hướng chiếu sáng để phát hiện ra sự giả mạo Tuy nhiên, bất kỳ sự giả mạo do thao tác Cắt - dán nào cũng có một sự tương quan giữa phần ảnh gốc và phần ảnh dán vào Sự tương quan đó có thể được sử dụng như một cơ sở cho việc phát hiện thành công ảnh giả mạo loại này Chương này sẽ trình bày một số thuật toán phát hiện ảnh giả mạo dạng cắt - dán vùng trên ảnh thông qua các phép biến đổi ma trận.

cắt-2.1 THUẬT TOÁN ĐỐI SÁNH CHÍNH XÁC (EXACT MATCH) PHÁT HIỆN ẢNH GIẢ MẠO DẠNG CẮT - DÁN

Định dạng
Số trang	105
Dung lượng	2,87 MB