Các kỹ thuật xử lý và trích rút đặc trưng ảnh hiện hành 1.1 Các phương pháp trích rút đặc trưng màu sắc 1.1.1 Không gian màu 1.1.2 Biêu đồ màu color histogram 1.2 Các phương pháp trích r
Trang 1Pham Thi Thuy Duong - B18DCCN123
Pham Nang Hung - B18DCCN287
Trang 2LỜI CẢM ƠN
I GIỚI THIỆU CHUNG
1.Phát biểu bài toán
2 Các đặc điểm về hoa quả tròn và ảnh hoa quả tròn
3 Bộ sưu tập ảnh hoa quả
II CAC KY THUAT XU LY VA PHAN LOAI ANH HOA QUA HIEN HANH
1 Các kỹ thuật xử lý và trích rút đặc trưng ảnh hiện hành
1.1 Các phương pháp trích rút đặc trưng màu sắc
1.1.1 Không gian màu 1.1.2 Biêu đồ màu (color histogram) 1.2 Các phương pháp trích rút đặc trưng kết cầu
1.2.1 Kết cầu Haralick
1.2.2 Các mẫu nhị phân cục bộ - Loeal Binary Patterns (LBP)
1.3 Các phương pháp trích rút đặc trưng hình dạng
1.3.1 Phương pháp phát hiện biên Sobel
1.3.2 Thuật toán nhóm lựa chọn - Histogram of Oriented Gradients (HOG)
1.4 Các phương pháp trích rút đặc trưng điêm nỗi bật
1.4.1 Trích rút đặc trưng cục bộ bat bién SIFT - Scale-Invariant Feature
Transform (SIFT) 1.4.2 Trích rút đặc trưng SURF - Speeded-Up Robust Features (SURF)
2 Các phương pháp đánh giá độ tương đồng
2.1 Độ tương đồng tuyệt đối
2.2 Khoảng cách O-clit
2.3 Khoảng cách Cosine
3 Các kỹ thuật phân loại ảnh
3.1 K-nearest neighbors (KNN)
3.2 Support vector machine (SVM) — Thuat toan nhom lựa chọn
Ill XAY DUNG HE THONG NHAN DANG HOA QUA
1 Sơ đồ khối của hệ thống và quy trình thực hiện yêu cầu của đề bài
2 Trình bảy các thuộc tính được sử dụng đề nhận dạng nhãn của ảnh hoa quả trong hệ thống, cùng các kỹ thuật đê trích rút các thuộc tính đó
IV DEMO HE THONG VA DANH GIA KET QUA
1 Két qua demo phan loai hoa qua
2 Danh gia két quả dao tao va du doan
TAI LIEU THAM KHAO
Trang 3LOI CAM ON
Trước tiên với tình cảm sâu sắc và chân thành nhất, cho phép chúng em xin gửi lòng biết ơn đến quý thầy cô tại Học viện Công nghệ Bưu chính Viễn thông đã tạo điều kiện hỗ trợ, giúp đỡ chúng em suốt quá trình học tập và nghiên cứu vừa qua
Đặc biét, trong hoc ky nay, hoc vién đã tô chức cho chúng em được tiếp cận với các môn học rất hữu ích đối với sinh viên Chúng em xin chân thành cảm ơn thầy Nguyễn Đình Hóa đã tận tâm hướng dẫn chúng em trong môn học Hệ cơ sở dữ liệu Đa phương tiện Thầy
đã luôn bên cạnh, tạo điều kiện trong suốt quá trình nghiên cứu, động viên và giúp do dé chúng em hoản thành tốt báo cáo này
Do kiến thức còn nhiều hạn chế và khả năng tiếp thu thực tế còn nhiều bỡ ngỡ chưa hoàn hảo nên bài báo cáo sẽ còn nhiều thiếu sót, kính mong sự gop ý và giúp đỡ từ thầy Cuối cùng chúng em xin kính chúc quý thay cô dồi dào sức khỏe, niềm tin để tiếp tục thực hiện sứ mệnh cao đẹp của mình là truyền đạt kiến thức cho thế hệ mai sau Chúng em xin chân thành cảm ơn
Trang 4I GIỚI THIỆU CHUNG
1.Phát biểu bài toán
Bài toán đặt ra là từ một bộ dữ liệu gôm 10 loại hoa quả tròn khác nhau Mỗi loại hoa quả sẽ có những đặc điểm về màu sắc và kết cấu khác nhau Tìm cách trích rút các đặc trưng
có ý nghĩa bằng các kỹ thuật trích rút đặc trưng phô biến Sau đó từ những đặc trưng thu được, phân loại nhãn cho các hình ảnh bằng phương pháp phù hợp Xây dựng hệ thống để
có thê phân loại hoa quả cho một bức ảnh đâu vào không có trong cơ sở dữ liệu
2 Các đặc điểm về hoa quả tròn và ảnh hoa quả tròn
Các loại hoa quả tròn nhìn chung sẽ giống nhau về hình dạng bên ngoài của nó Quả
SẼ CÓ vỏ, cuồng, lá Tuy nhiên chúng sẽ khác nhau về màu sắc, kết cấu bề mặt của nó Có qua san sui, có quả có lông, có quả mịn, có quả có sọc, Có quả màu đỏ, có quả màu vàng,
có quả màu tím Đôi lúc có những loại quả khác nhau nhưng màu sắc có thê sẽ gần giống nhau Sự tương đồng này làm cho quá trình nhận dạng quả với kết quả chính xác cao là một thách thức rât khó khăn
3 Bộ sưu cập anh hoa qua
Nhóm đã sưu tầm bộ dữ liệu ảnh quả gồm 300 bức ảnh tương ứng với 10 loại quả khác nhau, mỗi loại quả sẽ có 30 bức ảnh Mỗi loại quả sẽ có những đặc điểm về màu sắc và kết cấu, hình dáng khác nhau Các bức ảnh chỉ gồm một loại quả Cụ thể 10 loại quả là: Cam, chanh, dưa hấu, dưa lưới, vải, kiwi, lựu, mận, lê, táo Mỗi bức ảnh được đưa về củng kích thước 100x100 pixeL Định dạng tên tệp là [tên trái cây |[id|.Jpg
Hình ảnh quả trong bộ sưu tập của nhói
Trang 5II CAC KY THUAT XU LY VA PHAN LOAI ANH HOA QUA HIEN HANH
1 Các kỹ thuật xử lý và trích rút đặc trưng ảnh hiện hành
- _ Khái niệm đặc trưng ảnh:
Trong phạm vi xử lý ảnh, đặc trưng ảnh là một phần thông tin của ảnh thích hợp cho các nhiệm vụ tính toán liên quan đến một ứng dụng nhất định Những đặc trưng đó có thể là các kết cấu đặc biệt trong ảnh như các điểm, các cạnh của một đối tượng hoặc một đối tượng nào đó có trong ảnh Mặt khác, các đặc trưng của ảnh cũng có thể là kết quả của một phép biến đối toàn điện hoặc là các phương pháp phát hiện điểm đặc trưng được áp dụng trên toàn bộ ảnh đó
Trích rút đặc trưng ảnh là quá trình xử lý làm cho ảnh ban đầu được biến đổi thành các dạng mà máy tính có thê dễ dàng nhận dạng hơn
- Tại sao phải trích rút đặc trưng ảnh 2
Không giống như thị giác con người, thị giác máy có khả năng nhìn nhận rất hạn chế
bởi đối với máy tính, mỗi hình ảnh chỉ là một ma trận các điểm ảnh Vì vậy, đối với các lĩnh
vực có liên quan đến xử lý các lượng lớn hình ảnh, bài toán trích rút đặc trưng ảnh là rất quan trọng đối với công tác nhận dạng, phân loại đữ liệu hình ảnh hoặc gần gũi hơn là tìm
kiếm dữ liệu trong một lượng lớn dữ liệu hình ảnh có sẵn
Mặt khác, việc trích rút đặc trưng ảnh cũng là một công cụ rất có ích trone việc xác định các phần tương đồng hoặc giống nhau của các ảnh, từ đó có thể phát triển các ứng
dụng ghép nối hình ảnh, dựng ảnh 3D hay so sánh một cách đễ đàng và chính xác hơn
Tóm lại, trích rút đặc trưng ảnh là bước xử lý rất căn bản trong xử lý ảnh Nó không chỉ là giúp máy tính và các thiết bị tiếp xúc với đữ liệu của ảnh một cách dễ đàng hơn mà còn là nền tảng cho những ứng dụng cao cấp trong lĩnh vực nảy
Có rất nhiều kỹ thuật đề có thê trích rút đặc trưng của ảnh Nhóm bài tập đã tìm hiểu
một vải kỹ thuật phô biên dưới đây
1.1 Các phương pháp trích rút đặc trưng màu sắc
1.1.1 Khong gian màu
Không gian màu là một mô hình toán học được biểu điễn dưới dạng số học Trên thực tế có rất nhiều không øian màu khác nhau được mô hình để sử dụng vào những mục đích khác nhau Trong đó có hai hệ màu cơ ban la: RGB va HSV
a) Kh6ng gian mau RGB
Khéng gian mau RGB mé ta mau sac bang 3 thanh phan chinh 1a Do (R), Xanh luc
(G) và Xanh lam (B) Không gian màu này có thê được biểu diễn như một khối lập phương
3 chiều với màu đỏ là trục x, màu xanh lục là trục y, và màu xanh lam là trục z
Trang 6H = Hue: Mau sac
S = Saturation: Dé dam dac, su bao hoa
V = Value: Gia tri cwong d6 sang
Khong gian mau nay thuong duoc biểu diễn dưới dạng hình trụ hoặc nón Theo đó,
đi theo hình vòng tròn từ 0 - 360 độ là trường biểu diễn màu sắc (Hue) Trường này bắt đầu
từ màu đỏ đầu tiên (red primary) tới màu xanh lục đầu tiên (green primary) nằm trong khoảng 0 - 120 độ, từ 120 - 240 độ là màu xanh lục tới màu xanh lo (green primary — blue primary), ttr 240 - 360 độ là từ màu đen tới lại mau do
Mô hình không gian màu HSV
Trang 7a) Chuyến đổi RGB sang HSV
Công thức chuyên đôi RGB sang HSV Các giá trị R, G, B được chia cho 255 dé thay đôi phạm vị từ 0 255 thanh 0 1:
R’ =R/ 255, G =G/ 255, B’ = B/ 255
Cmax = max(R’,G’,B’), Cmin = min(R’,G’,B’)
A = Cmax - Cmin
số lượng bin màu không nhất thiết phải giống nhau Ví dụ: Tính Color histogram cua anh HSV thanh: 14 bin cho H, 4 bin cho 5S, 4 bm cho V Thông thường người ta chia ảnh ra thành các vùng con để tăng số chiều đặc trưng
Đặc điểm:
- Biểu đồ màu tính toán nhanh, đơn giản, thích hợp trong các ứng dụng thời gian thực
- Có thể nói color histogram là quay bắt biến, vì khi một ảnh bị xoay đi thì phân phối
màu hầu như là không đôi
- Tuy nhiên, color histoeram không nói lên được sự tương đồng về hình dáng, cầu trúc của ảnh Các ảnh dù cho rât khác nhau nhưng vân có phân phôi màu giông nhau — trường hợp bản cờ vua và anh nửa trăng, nửa đen Ngoài ra, color histogram dé bi nhiêu với thay đôi về cường độ sáng
1.2 Các phương pháp trích rút đặc trưng kết cấu
1.2.1 Kết cầu Haralick
Haralick Texture Features được dùng để mô tả “texture” (kết cấu) và “pattern” (hoa văn) của một bức ảnh/đối tượng, bao gồm vẻ bề ngoài (appearance), sự nhất quán (consistency) và cảm giác về bề mặt (“feeling of surface”) có trong bức ảnh Khái niệm cơ
Trang 8bản liên quan đến tính toán các tính năng của Haralick Texture là ma trận đồng xuất hiện mức xám
Ma trận đồng xuất hiện mức xám sử dụng khái niệm kề trong ảnh Ý tưởng cơ bản là
nó tìm kiếm các cặp 214 tri pixel liền kề xuất hiện trong một hình ảnh và tiếp tục phi lại nó
trên toàn bộ hình ảnh Hình dưới đây giải thích cách cầu tạo một ma trận đồng xuất hiện mức xám
Ma tran dong xuất hiện mức xám
Như bạn có thể thấy từ hình ảnh trên, giá trị pixel mức xám I và 2 xuất hiện hai lần trong hình ảnh và do đó ma trận đồng xuất hiện mức xám ghi lại nó thành hai Nhưng giá trị
pixel 1 va 3 chi xuất hiện một lần trong ảnh và do đó ma trận đồng xuất hiện mức xám ghi lại nó như một Tất nhiên, tôi đã gia định chỉ tính số kề từ trái sang phải Trên thực tế, có bốn loại kề và do đó bốn ma trận đồng xuất hiện mức xám được xây dựng cho một hình ảnh duy nhất Bốn loại kề như sau: Trái sang phải, trên xuống dưới, đường chéo trái, đường chéo phải
Ưu điểm của Haralick Texture:
- - Tính toán nhanh
- Kích thước nhỏ
Nhược điểm:
- _ Không đủ sức mạnh đê xử lý khi có sự thay đối về góc quay
- Nhay cam voi nhiễu
1.2.2 Các mau nhi phan cuc bé - Local Binary Patterns (LBP)
LBP miéu ta theo timg khu vuc, bang cách so sánh giá trị của một pixel véi cdc pixel khác bao quanh nó Tuy nhiên kèm theo đó là yêu cầu về tính toán và kích thước Feature Vector sẽ lớn hơn Bước đầu tiên để xây dựng một LBP descriptor là chuyên đổi input image vé grayscale Voi méi pixel trong grayscale image, chung ta chon ra vung lan can (neighborhood) bao quanh pixel trung tam do, thuong sé là 3x3 Một giá trị LBP sẽ được
Trang 9tính toán cho pixel trung tâm nảy và lưu vào một ma trận 2D có kích thước giống với input image
Khi so sanh pixel trung tam va cac pixel khac trong vung lan can, néu cac pixel này
có giá trị lớn hơn hoặc bằng pixel trung tâm thì sẽ được đánh dấu là “1”, ngược lại sẽ được đánh dấu là “0”
Vùng lân cận 8 pixel bao quanh một pixel trung tâm và ngưỡng nó đề tạo
Trang 101.3 Các phương pháp trích rút đặc trưng hình dang
1.3.1 Phương pháp phát hiện biên Sobel
Biên ảnh: Biên ảnh là những điểm mà tại đó cường độ sáng của ảnh liên tục có bước nhảy hoặc biến thiên nhanh Một điểm ảnh có thể coi là điểm biên nếu ở đó có sự thay đôi đột ngột về mức xám Tập hợp các điểm biên tạo thành đường biên (edge) hay đường bao (boundary) của ảnh Phương pháp này nhằm làm nổi biên dựa vào sự biến thiên về giá trị độ sáng của điểm ảnh
Ÿ tưởng:
Về mặt kỹ thuật, nó là một toán tử phân biệt rời rạc, tính toán độ gan dung cua gradient cua ham cwong dé hinh anh Tai méi diém trong hinh anh, két qua cua toan tt Sobel la vector gradient trong ung hoac chuẩn của vectơ này Toán tử Sobel dựa trên việc kết hợp hình ảnh với một bộ lọc nhỏ, có thể phân tách và có giá trị số nguyên theo hướng ngang và dọc và do đó tương đối rẻ tiền về tính toán Mặt khác, xấp xỉ gradient ma no tạo ra
là tương đối thô, đặc biệt đối với các biến thẻ tần số cao trong hình ảnh
Đặc điểm:
- Dễ tính toán
- _ Phát hiện được biên theo chiều ngang và dọc của một hình ảnh
- _ Ít chịu ảnh hưởng của nhiễu
1.3.2 Thuật toán nhóm lựa chọn - Histogram of Oriented Gradients (HOG)
Sử dụng HOG sẽ giúp tạo ra một bộ mô tả đặc trưng của đối tượng và bó đi những thông tin không hữu ích HOG có thể được sử dụng để mô tả hình dạng của đối tượng dựa vào sự thay đổi màu sắc trên hình ảnh
Ÿ tưởng:
Điểm mấu chốt trong nguyên lý hoạt động của HOG đó là hình dạng của một vật thé cục bộ có thể được mô tả thông qua mức độ thay đổi màu sắc (ma trận độ lớn đạo hàm) và hướng thay đổi màu sắc (ma trận hướng đạo hàm) Các bước tính toán hai ma trận đó bao gồm: Đầu tiên hình ảnh được chia thành 1 lưới ô vuông và trên đó chúng ta xác định rất nhiều các vùng cục bộ liền kề hoặc chồng lắn lên nhau Một vùng cục bộ bao gồm nhiều ô cục bộ (trong thuật toán HOG là 4) có kích thước là 8 x 8 Sau do, mét biéu dé histogram thống kê độ lớn gradient được tính toán trên mỗi ô cục bộ Bộ mô tả HOG (HOG descriptor) được tạo thành bằng cách nối liền 4 vector histopram ứng với mỗi ô thành một vector tổng hop Dé cải thiện độ chính xác, mỗi gia tri cua vector histogram trén vung cục bộ sẽ được chuẩn hóa theo norm chuẩn bậc 2 hoặc bậc l Phép chuẩn hóa này nhằm tạo ra sự bất biến tốt hơn đối với những thay đổi trong chiếu sáng và đô bóng Bộ mô tả HOG có một số lợi thế so với các bộ mô tả khác do nó hoạt động trên các ô cục bộ nên nó bất biến đối với các
phép biến đổi hình học
Đặc điểm:
- Bộ mô tả HOG có một vài lợi thế chính so với các bộ mô tả khác Vì nó hoạt động trên các ô cục bộ, nó bất biến đối với các phép biến đổi hình học, thay đổi độ sang
Trang 11- Bộ mô tả tính năng cố gắng nắm bắt thông tin quan trọng trong hình ảnh và giữ tất
cả thông tin không quá quan trọng ở hậu trường Sau đó, có thể sử dụng thông tin hữu ích từ
bộ mô tả tính năng để nhận dạng hình ảnh và phát hiện đối tượng
1.4 Các phương pháp trích rút đặc trưng điểm nỗi bật
1.4.1 Trích rút đặc trưng cục bộ bất biến SIFT - Scale-Invariant Feature Transform (SIFT)
Trong quá trình nghiên việc cứu so sánh đối chiếu các điểm đặc trưng của ảnh số, người ta thường sặp những vấn để có liên quan đến việc các điểm đặc trưng tương đồng sIữa các ảnh không có được sự so sánh đối chiếu chính xác nếu như các điểm đó không có cùng tỉ lệ Điều này có nghĩa là nếu ta cố gắng tìm ra các điểm đặc trưng tương đồng từ hai hình ảnh được chụp lại từ hai góc độ khác nhau của một khung hình, ta sẽ không có được
kết quả tốt nhất
Mô tả sự không hoàn thiện của thuật toán Harris
Ví dụ: Trong hình trên, ta dễ đàng nhận ra ở bên trái là một góc đã được thuật toán tìm kiếm góc Harris phát hiện Thế nhưng nếu như ta xem xét góc nảy với một tỉ lệ lớn hơn nhiều thì đó không còn là một góc theo thuật toán Harris nữa, nhưng trên thực tế, đó hoàn toàn là một góc
Để giải quyết vấn đề này, khái niệm “Điểm đặc trưng cục bộ bat bién SIFT” (Scale Invariant Feature Transform)[5]; di dugc David G Lowe dua ra hồi năm 2004 trong
“Distinctive Image Features from Scale-Invariant Keypoints” voi cac tinh chat sau:
- La bat bién khi:
+ Thay đổi ty lệ ảnh
+ Quay anh + Thay đổi góc nhìn + Thêm nhiễu ảnh + Thay đổi cường độ chiếu sáng ảnh
- Các đặc trưng cục bộ bất biến được trích rút từ các điểm nồi bật trên ảnh
Ÿ tưởng:
- _ Từ ảnh tìm ra các điểm ảnh đặc biệt (gọi là feature point hay keypoint) Đầu vào và đầu ra của phép biến đối SIFT: ảnh -> SIFT -> các keypoint
11
Trang 12- _ Để ta phân biệt được các keypoint này với nhau sẽ thông qua một vector 128 chiều hay còn gọi là descriptor
- Sau khi áp dụng biến đổi SIFT, ứng với mỗi keypoint, thu được (1) toạ độ keypoInt (2) scale va orientation cua keypoint (3) descrIptor Các mũi tên trong hình dưới vẽ nho vao scale va orientation
Image gradients Keypoint descriptor
Hoat déng cua SIFT Đặc điểm:
- _ Keypoint phụ thuộc rất ít vào cường độ sáng, nhiễu, che khuất (một phần ảnh
bị che), góc xoay (ảnh bị xoay trong mặt phẳng 2D), thay đôi của tư thế (pose thay đổi trong không gian 3D)
Dù vậy, tốc độ xử lý của SIFT vẫn còn rất chậm và không phù hợp với các ứng dụng thời gian thực
Đề giải quyết bài toán này, người ta đã giới thiệu thuật toán trích rút dic trang SURF (Speed Úp Robust Features) có được sự cân bằng gitra yéu cầu tốc độ và sự chính xác Đặc trưng tối ưu cả hai giai đoạn phát hiện đặc trưng (detector) và mô tả đặc trưng (descriptor)
về mặt thời gian tính toán nhưng vẫn giữ được tính bền vững của đặc trưng
Bộ phát hiện đặc trưng của SURF sử dụng phép xấp xỉ trên ma trận Hessian và ảnh tích hợp (Intepral Image)[13][14] để làm giảm thời gian tính toán một cách đáng kê Bộ mô
tả đặc trưng tương tự như đặc trưng SIFT, sử dụng vector 64 chiều chứa thông tin biến thiên trên ảnh dựa trên sự phân phối bậc nhất Haar wavelet tác động trên trục x và y, kết hợp với ảnh tích lũy làm tăng tốc độ tính toán