1. Trang chủ
  2. » Công Nghệ Thông Tin

Giáo trình nhận dạng và xử lý ảnh

173 7 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Giáo Trình Nhận Dạng Và Xử Lý Ảnh
Tác giả TS. Hoàng Văn Dũng
Trường học Trường Đại học Quảng Bình
Chuyên ngành Khoa học máy tính
Thể loại Giáo Trình
Năm xuất bản 2018
Thành phố Quảng Bình
Định dạng
Số trang 173
Dung lượng 4,77 MB

Cấu trúc

  • CHƯƠNG 1. NHẬP MÔN XỬ LÝ ẢNH (8)
    • 1.1. Tổng quan về xử lý ảnh (8)
      • 1.1.1. Các khái niệm về ảnh số, điểm ảnh (8)
      • 1.1.2. Các thành phần trong hệ thống xử lý ảnh (10)
      • 1.1.3. Các ứng dụng (11)
    • 1.2. Hệ màu và loại ảnh (11)
      • 1.2.1. Các hệ màu thông dụng (11)
      • 1.2.2. Một số loại ảnh thông dụng (14)
    • 1.3. Cấu trúc dữ liệu ảnh (16)
      • 1.3.1. Cấu trúc ảnh vector (16)
      • 1.3.2. Cấu trúc ảnh raster (17)
    • 1.4. Một số định dạng ảnh phổ biến (17)
      • 1.4.1. Định dạng ảnh TIFF (18)
      • 1.4.2. Định dạng ảnh GIF (18)
      • 1.4.3. Định dạng hình ảnh JPG (19)
      • 1.4.4. Định dạng ảnh BMP (19)
      • 1.4.5. Định dạng ảnh PNG (20)
      • 1.4.6. So sánh các chuẩn định dạng (20)
  • CHƯƠNG 2. BIẾN ĐỔI XỬ LÝ ẢNH (22)
    • 2.1. Khái niệm (22)
    • 2.2. Các phép biến đổi trên điểm ảnh (23)
      • 2.2.1. Lược đồ ảnh (23)
      • 2.2.2. Điều chỉnh mức sáng (23)
      • 2.2.3. Điều chỉnh độ tương phản (24)
      • 2.2.4. Cân bằng lược đồ ảnh (25)
      • 2.2.5. Biến đổi ảnh màu và đa mức xám (27)
    • 2.3. Các phương pháp xử lý ảnh thông dụng (29)
      • 2.3.1. Phương pháp tích chập (29)
      • 2.3.2. Các kỹ thuật lọc thông dụng (30)
    • 2.4. Các phép biển đổi toàn cục (35)
      • 2.4.1. Biến đổi cosin rời rạc (35)
      • 2.4.2. Biến đổi Fourier rời rạc (38)
    • 2.5. Biến đổi hình thái học (41)
      • 2.5.1. Phần tử cấu trúc (41)
      • 2.5.2. Phép co ảnh – Erosion (42)
      • 2.5.3. Phép giãn ảnh – Dilation (43)
      • 2.5.4. Phép mở ảnh – Openning (43)
      • 2.5.5. Phép đóng ảnh- Closing (44)
      • 2.5.6. Phép biến đổi "Hit or miss" (44)
      • 2.5.7. Ứng dụng của kỹ thuật hình thái học (46)
  • CHƯƠNG 3. PHƯƠNG PHÁP PHÂN ĐOẠN ẢNH (53)
    • 3.1. Tổng quan về phân đoạn ảnh (53)
    • 3.2. Phân đoạn bằng ngưỡng (54)
      • 3.2.1. Phân ngưỡng thủ công (55)
      • 3.2.2. Phân đoạn ngưỡng tự động (55)
      • 3.2.3. Phân đoạn bằng kỹ thuật Otsu (60)
    • 3.3. Phân đoạn bằng k-means (62)
    • 3.4. Kỹ thuật phân đoạn MeanShift (65)
    • 3.5. Phân đoạn bằng kỹ thuật Watershed (66)
    • 3.6. Phân đoạn phân cấp (69)
  • CHƯƠNG 4. TRÍCH CHỌN ĐẶC TRƯNG CƠ BẢN (72)
    • 4.1. Các khái niệm (72)
      • 4.1.1. Đặc trưng và trích chọn đặc trưng ảnh (72)
      • 4.1.2. Đặc trưng mức thấp (73)
      • 4.1.3. Đặc trưng mức cao (74)
    • 4.2. Kỹ thuật trích chọn đặc trưng cạnh (74)
      • 4.2.1. Trích chọn biên bằng toán tử Sobel (75)
      • 4.2.2. Trích chọn biên bằng toán tử Prewitt (76)
      • 4.2.3. Trích chọn biên bằng toán tử Robert (77)
      • 4.2.4. Trích chọn biên bằng phương pháp Canny (77)
    • 4.3. Kỹ thuật trích chọn đặc trưng điểm chính (79)
      • 4.3.1. Trích xuất điểm góc (79)
      • 4.3.2. Trích xuất đặc trưng đốm (84)
  • CHƯƠNG 5. ĐẶC TRƯNG NÂNG CAO VÀ SO KHỚP ẢNH (90)
    • 5.1. Giới thiệu chung (90)
    • 5.2. Mô tả đặc trưng SIFT (90)
      • 5.2.1. Đặc trưng SIFT (90)
      • 5.2.2. Quá trình xử lý SIFT (91)
    • 5.3. Mô tả đặc trưng SURF (96)
      • 5.3.1. Giới thiệu về đặc trưng SURF (96)
      • 5.3.2. Phát hiện keypoint (97)
      • 5.3.3. Mô tả đặc trưng SURF (99)
    • 5.4. Mô tả đặc trưng Haar (101)
      • 5.4.1. Đặc trưng Haar (101)
      • 5.4.2. Trích xuất đặc trưng Haar (101)
      • 5.4.3. Mở rộng đặc trưng Haar (102)
    • 5.5. Mô tả đặc trưng HOG (104)
      • 5.5.1. Đặc trưng HOG (104)
      • 5.5.2. Quá trình trích rút đặc trưng HOG (105)
      • 5.5.3. Các biến thể của biểu diễn đặc trưng HOG (108)
    • 5.6. So khớp ảnh (109)
      • 5.6.1. Giới thiệu về so khớp ảnh (109)
      • 5.6.2. Thuật toán Brute- Force (110)
      • 5.6.3. So khớp ảnh dùng bộ mô tả SIFT (110)
      • 5.6.4. So khớp ảnh dùng bộ mô tả SURF (111)
      • 5.6.5. So khớp dựa vào điểm góc Harris (112)
    • 5.7. Kỹ thuật lọc nhiễu trong so khớp ảnh (113)
      • 5.7.1. Lọc theo bình phương tối thiểu (113)
      • 5.7.2. Phương pháp đồng thuận ngẫu nhiên (114)
    • 5.8. Ví dụ áp dụng trong nhận dạng (117)
  • CHƯƠNG 6. KỸ THUẬT NHẬN DẠNG (121)
    • 6.1. Giới thiệu chung (121)
    • 6.2. Cây quyết định (122)
      • 6.2.1. Khái niệm (122)
      • 6.2.2. Thuật toán ID3 xây dựng cây quyết định (122)
      • 6.2.3. Thuật toán C4.5 xây dựng cây quyết định (125)
      • 6.2.4. Rừng ngẫu nhiên (126)
    • 6.3. Kỹ thuật Boosting (127)
    • 6.4. Máy phân loại vector hỗ trợ (129)
      • 6.4.1. Giới thiệu (129)
      • 6.4.2. Phân loại tuyến tính (130)
      • 6.4.3. Phân loại tuyến tính lề mềm (132)
      • 6.4.4. Hàm nhân (133)
      • 6.4.5. Tuyến tính hóa phân loại phi tuyến (134)
    • 6.5. Mạng neural nhân tạo (135)
    • 6.6. Kỹ thuật trượt window trong nhận dạng (138)
      • 6.6.1. Vấn đề trượt window (138)
      • 6.6.2. Gom các mẫu nhận dạng chồng lấp (139)
      • 6.6.3. Huấn luyện mô hình (140)
      • 6.6.4. Nhận dạng đối tượng trong ảnh (141)
  • CHƯƠNG 7. KỸ THUẬT HỌC SÂU (144)
    • 7.1. Tổng quan về học sâu (144)
    • 7.2. Mạng neural sâu (146)
    • 7.3. Mạng neural tích chập (147)
      • 7.3.1. Lớp tích chập (148)
      • 7.3.2. Lớp pooling (149)
      • 7.3.3. Lớp hiệu chỉnh (151)
      • 7.3.4. Lớp chuẩn hóa (152)
      • 7.3.5. Lớp kết nối đầy đủ (152)
      • 7.3.6. Lớp Dropout (153)
      • 7.3.7. Lớp đầu ra (153)
      • 7.3.8. Tạo mạng học sâu với Matlab (154)
    • 7.4. Một số kiến trúc mạng tích chập học sâu (157)
      • 7.4.1. Mạng LeNet (157)
      • 7.4.2. Mạng AlexNet (158)
      • 7.4.3. Mạng ZFNet (160)
      • 7.4.4. Mạng GoogLeNet (161)
      • 7.4.5. Mạng VGGNet (163)
      • 7.4.6. Mạng R-CNN (164)
    • 7.5. Mô tả ngữ nghĩa ảnh với học sâu (166)
      • 7.5.1. Bộ mô tả ảnh (166)
      • 7.5.2. Mô hình suy diễn mối liên kết (167)
      • 7.5.3. Mô hình sinh diễn tả ảnh (168)
  • Tài liệu tham khảo (170)

Nội dung

NHẬP MÔN XỬ LÝ ẢNH

Tổng quan về xử lý ảnh

1.1.1 Các khái niệm về ảnh số, điểm ảnh

1.1.1.1 Ảnh số Ảnh số (digital image) có thể được xem là một biểu diễn dữ liệu rời rạc thể hiện thông tin về không gian và cường độ màu) Ảnh số gồm một tập hợp hữu hạn các phần tử được biểu diễn bởi giá trị số Ảnh số có thể được biểu diễn dưới dạng ma trận hai chiều, mỗi phần tử của ảnh số gọi là điểm ảnh (pixel)[1] Tùy thuộc vào độ phân giải là cố định hay biến đổi mà điểm ảnh có thể được biểu diễn dưới dạng vector hoặc dạng bitmap Ảnh số được xác định theo mảng hai chiều biểu diễn cường độ sáng của điểm ảnh với giá trị cố định, cũng có thể được xác định theo hàm hai chiềuf(x,y), trong đóx và y là các tọa độ trong không gian và độ lớn (amplitude) của hàm f được gọi là độ sáng (intensity) hay độ xám (gray level) của ảnh tại điểm đó. Ảnh rời rạc hai chiều, I(m,n) biểu diễn thông tin thu được từ cảm biến của một chuỗi các vị trí cố định (m = 1, 2, , M; n= 1, 2, , N) trong tọa độ Cartesian hai chiều được biến đổi từ tín hiệu liên tục không gian 2 chiều thông qua quá trình xử lý tần số liên tục sang miền rời rạc.

Điểm ảnh, hay pixel (viết tắt của picture element), là phần tử cơ bản của ảnh, được xác định bằng tọa độ (x, y) tương ứng với cột và hàng trong ảnh Giá trị của mỗi điểm ảnh phản ánh cường độ mức xám hoặc màu sắc cụ thể Kích thước và khoảng cách giữa các điểm ảnh được điều chỉnh để mắt người cảm nhận được sự liên tục về không gian và màu sắc, giúp ảnh số gần gũi hơn với hình ảnh thực tế Độ phân giải của ảnh số được xác định bởi số lượng điểm ảnh trên mỗi đơn vị diện tích; ảnh có độ phân giải cao sẽ thể hiện rõ nét các đặc điểm, làm cho hình ảnh trở nên sống động và chân thực hơn.

Nội dung thông tin của các điểm ảnh có thể được phân tích từ nhiều góc độ khác nhau, tùy thuộc vào loại ảnh Chẳng hạn, ảnh màu, ảnh đa mức xám, ảnh nhị phân và ảnh hồng ngoại đều mang những đặc điểm và cách thức biểu diễn riêng biệt.

Ảnh màu chứa thông tin về đối tượng thông qua các màu sắc mà mắt thường có thể nhìn thấy Mỗi điểm ảnh trong ảnh màu được cấu thành từ nhiều kênh màu khác nhau, thường là ba lớp màu cơ bản RGB: đỏ (red), xanh lá cây (green) và xanh lam (blue).

Ảnh đa mức xám thể hiện thông tin về cường độ ánh sáng của đối tượng trong không gian mà không sử dụng màu sắc thực Thông qua việc sử dụng các mức xám khác nhau, loại ảnh này giúp người xem nhận diện và phân tích chi tiết hơn về hình ảnh mà không bị ảnh hưởng bởi màu sắc.

Ảnh nhị phân là loại ảnh thể hiện đối tượng thông qua hai mức giá trị 0 và 1 Loại ảnh này thường được sử dụng để phân biệt sự xuất hiện của đối tượng so với nền trong mỗi bức ảnh.

Ảnh hồng ngoại là một phương pháp biểu diễn trực quan quang phổ, liên quan đến phổ điện từ, cung cấp thông tin hình ảnh dựa trên phản xạ hoặc bức xạ ánh sáng hồng ngoại từ các đối tượng trong khung nhìn Các loại camera hồng ngoại có khả năng thu nhận phản xạ hoặc bức xạ này, cho phép ghi lại hình ảnh trong điều kiện không có ánh sáng nhìn thấy hoặc trong môi trường ánh sáng kém.

Giá trị mức xám là kết quả của việc ánh xạ độ sáng của điểm ảnh màu trong không gian thực thành một số nguyên dương, thể hiện mức độ sáng tối của điểm ảnh Các thang giá trị mức xám phổ biến bao gồm 2, 16, 32, 64, 128 và 256 Trong đó, ảnh đa mức xám thường sử dụng thang 256, với mức xám được xác định trong khoảng [0, 255], tùy thuộc vào giá trị biểu diễn của từng điểm ảnh.

1.1.1.5 Độ phân giải của ảnh

Kích thước lưới pixel hai chiều và dung lượng dữ liệu lưu trữ cho mỗi pixel quyết định độ phân giải không gian và chất lượng màu của ảnh Số cột và số hàng trong ảnh xác định tổng số pixel được sử dụng để tái hiện hình ảnh từ thế giới thực Do đó, độ phân giải không gian (spatial resolution) của ảnh được đo bằng mật độ pixel trên một ảnh số Các độ phân giải phổ biến thường gặp trong thiết bị hiển thị và xử lý ảnh bao gồm 640×480, 800×600, 1024×768 (HD), 1920×1080 (full HD) và 3840×2160.

Độ phân giải bit của hình ảnh ảnh hưởng trực tiếp đến chất lượng ảnh, được định nghĩa là số lượng giá trị khác nhau biểu diễn cường độ sáng hoặc màu sắc Ví dụ, ảnh nhị phân chỉ có hai giá trị (đen và trắng) với mỗi pixel sử dụng 1 bit, trong khi ảnh đa mức xám sử dụng 8 bit cho mỗi pixel, cho phép biểu diễn 256 giá trị từ đen (0) đến trắng (255) Ảnh màu RGB sử dụng 24 bit, có khả năng hiển thị hơn 16 triệu màu (2^24 = 16.777.216) Tuy nhiên, độ phân giải bit không nhất thiết phải tương ứng với độ phân giải của hệ thống ảnh, vì các máy ảnh hiện đại thường tự động điều chỉnh để tối ưu hóa phạm vi thu nhận, dẫn đến độ phân giải bit của ảnh thường thấp hơn độ chính xác của thiết bị.

1.1.2 Các thành phần trong hệ thống xử lý ảnh

Hệ thống xử lý ảnh bao gồm các thành phần chính như thiết bị phần cứng (máy ảnh) để chụp và lưu trữ dữ liệu, cùng với các công cụ phần mềm phục vụ cho việc xử lý và đáp ứng yêu cầu chức năng của hệ thống Trong lĩnh vực khoa học máy tính, hệ thống này liên quan đến kỹ thuật thị giác máy (computer vision), là quá trình chuyển đổi ảnh ban đầu từ thiết bị sang một không gian mới, nhằm làm nổi bật đặc tính dữ liệu, tạo điều kiện thuận lợi cho việc xử lý thông tin và nâng cao độ chính xác.

Hình 1.1 Sơ đồ tổng quát hệ thống xử lý ảnh

Thu nhận ảnh là quá trình chuyển đổi hình ảnh từ thế giới thực thành tín hiệu ảnh rời rạc thông qua máy ảnh kỹ thuật số hoặc thiết bị thu hình ảnh khác Tiền xử lý là bước quan trọng nhằm khử nhiễu và làm nổi bật các đặc tính của ảnh, từ đó nâng cao chất lượng cho các bước xử lý tiếp theo.

Trích chọn đặc trưng là quá trình chuyển đổi dữ liệu ảnh đầu vào thành các đặc trưng có khả năng phân biệt cao, giúp cải thiện chất lượng phân loại mẫu so với việc xử lý dữ liệu thô từ giá trị pixel Quá trình này không chỉ nâng cao khả năng phân biệt mẫu dữ liệu ảnh mà còn giảm kích thước thông tin, giữ lại những đặc trưng quan trọng và có tính phân biệt cao.

Phân loại và nhận dạng mẫu là quá trình xử lý dữ liệu sử dụng các kỹ thuật phân tích đặc trưng để nhóm các mẫu dựa trên những tính chất chung Các phương pháp này thường áp dụng kỹ thuật học máy, bao gồm cả học có giám sát và học không có giám sát.

Biểu diễn tri thức là một hình thức cao cấp của biểu diễn dữ liệu, trong đó các mẫu dữ liệu được phân loại và nhận diện để chuyển hóa thành tri thức Điều này giúp hệ thống có khả năng "hiểu biết" ngữ nghĩa của dữ liệu, tùy thuộc vào từng ứng dụng cụ thể trong hệ thống.

Phân loại, nhận dạng mẫu

Biểu diễn tri thức Ra quyết định

Hệ màu và loại ảnh

1.2.1 Các hệ màu thông dụng

1.2.1.1 Hệ màu RGB Ảnh số trong hệ màu RGB (Red- Green- Blue) được biểu diễn bởi 3 kênh màu, gồm đỏ (red), xanh lá cây (green), xanh lam (xanh da trời - blue) Hệ màu RGB là hệ màu được sử dụng trong kỹ thuật hiển thị hình ảnh trên thiết bị điện tử như máy tính, TV. Trong biểu diễn và xử lý hệ màu RGB, mỗi kênh màu được mã hóa bằng 1 byte (8 bit) thể hiện 256 giá trị cường độ sáng khác nhau với dải giá trị trong khoảng từ 0 đến

Ảnh màu 24 bit, với mỗi kênh màu được mã hóa bằng 1 byte (tương đương 8 bit cho 3 kênh), cho phép tạo ra 16.777.216 giá trị màu khác nhau, tính từ 256 x 256 x 256.

Hình 1.2 Phối trộn màu trong hệ màu R-G-B

Một số màu đặc biệt được thể hiện trong bảng sau:

Bảng 1.1 Một số màu đặc biệt

Hệ màu HSV (Hue Saturation Value) có tên gọi khác là là HSI (Hue Saturation Intensity) hoặc HSL (Hue Saturation Lightness) Hệ màu HSV gồm bộ ba giá trị H, S,

V Mô hình hệ màu này do tác giả Alvy Ray Smith đề xuất năm 1978[3] Hệ màu này dựa trên các đặc tính màu trực quan được như sắc (tint), bóng (shade) và tông màu (tone) hoặc họ màu, độ thuần khiết và độ sáng của hình ảnh trong thực tế để biểu diễn.

Trong mô hình tọa độ hình trụ, không gian màu được biểu diễn với Hue là giá trị thể hiện sắc màu của hình ảnh Hue thường được dùng để chỉ tên gọi của các màu như đỏ, lục, lam, chàm, tím, và các sắc màu khác nhau được thể hiện trên một vòng tròn chỉ màu với giá trị từ 0 đến 360°.

Saturation là chỉ số thể hiện mức độ bão hòa màu, phản ánh độ thuần khiết của màu sắc Một bức ảnh có độ bão hòa cao sẽ có màu sắc trong trẻo và rực rỡ hơn so với ảnh có độ bão hòa thấp Giá trị của saturation (S) nằm trong khoảng từ 0 đến 1, trong đó giá trị 1 đại diện cho màu tinh khiết nhất, không bị pha trộn với màu trắng Do đó, giá trị S càng cao, màu sắc càng trở nên thuần khiết và nguyên chất hơn.

Giá trị V trong mô hình màu đo độ sáng của màu sắc, với khoảng giá trị từ 0 đến 1 Khi V = 0, màu sắc trở nên hoàn toàn tối (đen), trong khi V = 1 biểu thị độ sáng tối đa Sự gia tăng giá trị V đồng nghĩa với việc màu sắc trở nên sáng hơn.

Không gian màu Lab là mô hình toán học thể hiện tất cả các màu mà con người cảm nhận trong không gian ba chiều Trong đó, giá trị L đại diện cho độ sáng, còn a và b là các thành phần màu xanh đỏ và xanh vàng Hệ màu Lab được coi là độc lập với thiết bị, thường được sử dụng làm cơ sở tham chiếu trong việc chuyển đổi giữa các không gian màu khác nhau.

Hệ màu CIELab, được phát triển từ các phiên bản trước đó như Hunter và CIEL*a*b* vào năm 1976, mô tả cách mà tất cả các màu có cùng độ sáng nằm trên một mặt phẳng hình tròn theo hai trục a và b Trong hệ thống này, màu có giá trị a dương sẽ có sắc đỏ, trong khi giá trị a âm biểu thị sắc lục Tương tự, giá trị b dương thể hiện sắc vàng, còn giá trị b âm thể hiện sắc lam Độ sáng của màu sắc được điều chỉnh theo trục dọc.

Hình 1.4 Thể hiện màu trong không gian màu Lab 2

Hệ màu YCbCr, còn được gọi là Y'CbCr, là một không gian màu phổ biến trong video, ảnh kỹ thuật số và thiết bị phát hình điện tử Trong YCbCr, thành phần Y biểu thị độ sáng, trong khi Cb và Cr đại diện cho màu xanh lam và màu đỏ Hệ màu này tương đương với YUV trong tín hiệu analog và được định nghĩa dựa trên không gian màu RGB Giá trị của các kênh màu R, G và B tại mỗi pixel được tổng hợp để tạo ra giá trị Y, trong khi các thành phần Cb và Cr được tính từ các giá trị này.

Y và các kênh màu B và R tương ứng trong hệ màu RGB.

2 https://en.wikipedia.org/wiki/Lab_color_space

Hình 1.5 Mặt phẳng thể hiện màu theo Cb và Cr với hệ số Y'=0.5 (3)

1.2.2 Một số loại ảnh thông dụng

1.2.2.1 Ảnh màu Ảnh màu được hiểu chung là ảnh thể hiện các đối tượng theo màu sắc của nó mà mắt thường cảm nhận được Nói cách khác, ảnh màu được hiểu là một ảnh chứa một hoặc nhiều kênh màu xác định màu sắc tại các vị trí cụ thể của ảnh I(x,y)[1] Theo Thomas Young thì ảnh màu được tổ hợp từ 3 màu cơ bản là đỏ (R-red), xanh lục (G- green), xanh lam (B-blue) và thường thu nhận trên các dải băng tần khác nhau Không gian màu RGB thường được dùng nhiều trong các thiết bị hiển thị điện tử so với các không gian màu khác như HSV, YCbCr Một ảnh màu thường được lưu trữ trong bộ nhớ như là một bản đồ rapter hay bản đồ pixel (bitmap) bởi một mảng hai chiều với mỗi phần tử là bộ ba giá trị màu tương ứng với mỗi kênh màu Trong ảnh RGB, thông thường mỗi kênh màu dùng 8 bit để để biểu diễn cho một điểm ảnh, vậy một điểm ảnh màu cần 24 bit tương ứng với 3 kênh màu thành phần Giá trị mỗi kênh màu được chia thành nmức màu khác nhau tương ứng từ 0 đếnn-1, nếu 8 bit thì có 256 từ 0 đến 255. Mỗi giá trị thể hiện cường độ sáng của kênh màu tương ứng Trong hệ màu RGB, việc lưu trữ ảnh màu theo từng kênh màu riêng biệt rất dễ dàng.

Hình 1.6 Tạo màu theo nguyên lý R-G-B 4

Trong kỹ thuật xử lý ảnh, ảnh đa mức xám, hay còn gọi là ảnh đơn sắc, sử dụng một kênh để biểu thị cường độ sáng của từng điểm ảnh Mỗi điểm ảnh trong ảnh đa mức xám có giá trị mức xám, với màu đen đại diện cho giá trị nhỏ nhất.

0) đến màu trắng (giá trị lớn nhất) Như vậy, khác với ảnh màu RGB, ảnh đa mức xám chỉ dùng một thành phần giá trị nên nếu dùng cùng độ bit để mã hóa cho mỗi thành phần thì ảnh đa mức xám có kích thước bằng 1/3 so với ảnh màu RGB.

Một số loại ảnh đa mức xám phổ biến phân theo kích thước bit dùng cho mỗi pixel:

Ảnh 256 mức xám sử dụng 8 bit cho mỗi điểm ảnh, với giá trị từ 0 đến 255, thể hiện sự chuyển đổi cường độ sáng từ đen đến trắng.

Ảnh 8 mức xám sử dụng 3 bit cho mỗi điểm ảnh, với giá trị nằm trong khoảng từ 0 đến 7, cho thấy độ phân giải màu thấp hơn so với ảnh 8 bit Giá trị điểm ảnh bằng 0 biểu thị màu đen, trong khi giá trị lớn nhất tương ứng với màu trắng Điểm ảnh có giá trị càng cao thì độ sáng càng lớn.

- Ảnh 2 mức xám: Mỗi pixel chỉ biểu diễn 2 mức cường độ sáng tương ứng với đen

Ảnh đen trắng, hay còn gọi là ảnh nhị phân, sử dụng 1 bit để biểu diễn mỗi pixel, giúp phân biệt rõ ràng giữa đối tượng và nền trong hình ảnh Để tránh nhầm lẫn với ảnh đa mức xám, thuật ngữ "ảnh nhị phân" thường được sử dụng.

Cấu trúc dữ liệu ảnh

Trong tổ chức lưu trữ và xử lý hình ảnh, có hai dạng cấu trúc dữ liệu cơ bản là ảnh bitmap (hay raster) và ảnh vector.

Ảnh vector được cấu trúc từ các yếu tố hình học như điểm, đường thẳng, đường cong, đa giác và vùng tương ứng Chúng được hình thành dựa trên các biểu thức toán học, với mỗi vector đi qua các điểm chính có tọa độ x, y trên hệ trục tọa độ Nhờ vào đó, khi phóng to, các điểm ảnh chi tiết trên đối tượng sẽ được nội suy từ các điểm chính và các biểu thức toán học, giúp tính toán giá trị điểm ảnh giữa các điểm này.

Ảnh vector có ưu điểm nổi bật là khả năng phóng to hoặc thu nhỏ mà không làm mất chất lượng, giúp đường biên giữa các vùng không bị răng cưa Kích thước của ảnh vector thường nhỏ và phù hợp với các đối tượng đơn giản Loại ảnh này thường được sử dụng rộng rãi trong thiết kế logo, icon avatar và ảnh nghệ thuật vector.

Hạn chế của ảnh vector là chúng thường không hiển thị một cách "tự nhiên", với sự chuyển màu không mượt mà và độ sắc nét kém so với ảnh ngoại cảnh, đồng thời gặp khó khăn trong việc phân phối màu phức tạp.

1.3.2 Cấu trúc ảnh raster Ảnh raster hay ảnh bitmap tổ chức biểu diễn theo cấu trúc lưới các điểm màu thể hiện các pixel, nó được tạo ra bởi các điểm ảnh rời rạc, chứa giá trị mỗi màu nhất định. Như vậy, ở độ phân giải chuẩn, ảnh raster nguyên gốc thể hiện hình ảnh đối tượng giống với tự nhiên hơn ảnh vector do không phải tính dựa vào các biểu thức toán học để tính ra các điểm ảnh giữa trên cơ sở các điểm chính Hầu hết các ảnh được lưu trữ theo các định dạng thông thường đều theo dạng cấu trúc raster và các biến thể nén như GIF, JPEG và PNG Ảnh dạng raster thường có kích thước lớn hơn ảnh vector.

Hình 1.11 Ảnh raster khi phóng to bị vỡ hình và răng cưa

Khác với ảnh vector, ảnh raster khi phóng to thường xuất hiện hiện tượng răng cưa và không sắc nét Khi ảnh gốc có kích thước nhỏ, việc phóng to quá mức sẽ làm cho đối tượng trở nên mờ và mất đi diện mạo ban đầu.

Một số định dạng ảnh phổ biến

Ngày nay, có nhiều kiểu định dạng ảnh phổ biến như JPG, PNG, GIF, TIFF và BMP Mỗi định dạng này có các thuộc tính, phương pháp mã hóa và lưu trữ khác nhau, được thiết kế cho những mục đích sử dụng riêng biệt.

1.4.1 Định dạng ảnh TIFF Định dạng TIFF (tagged image format file) được nghiên cứu và giới thiệu vào năm

Định dạng TIFF, được phát triển bởi công ty Aldus Corp vào năm 1986, là một định dạng file ảnh chất lượng cao, phổ biến trong các ứng dụng quét ảnh Đây là một trong những tiêu chuẩn quan trọng trong ngành in ấn và xuất bản File ảnh TIFF thường có kích thước lớn hơn nhiều so với file ảnh nén theo chuẩn JPEG, vì nó có khả năng lưu trữ dữ liệu hình ảnh dưới dạng nén hoặc không nén, sử dụng các kỹ thuật nén không mất dữ liệu hoặc mất thông tin Ngoài ra, định dạng TIFF hỗ trợ độ sâu màu từ 8 bits/channel trở lên.

Định dạng TIFF hỗ trợ 16 bits/channel và cho phép lưu trữ nhiều lớp ảnh trong cùng một file Các kiểu nén phổ biến của TIFF bao gồm LZW, ZIP và JPEG Một trong những ưu điểm nổi bật của định dạng này là khả năng giữ nguyên dữ liệu hình ảnh, giúp ảnh không bị mất chất lượng khi lưu trữ và xử lý TIFF thường được sử dụng để biểu diễn hình ảnh có màu sắc phức tạp và là lựa chọn hàng đầu cho các ứng dụng yêu cầu chất lượng cao, như in ấn và phân tích mẫu.

1.4.2 Định dạng ảnh GIF Định dạng GIF (graphics interchange format) được phát triển từ năm 1987, thường được dùng trong biểu diễn và truyền hình ảnh trong môi trường Web Ảnh định dạng GIF thường biểu diễn hình ảnh thành các frame để tạo ảnh chuyển động Với mục đích tạo ra định dạng trao đổi hình ảnh nên các file ảnh theo định dạng GIF thường có kích thước nhỏ, chất lượng hình ảnh vừa phải, đáp ứng được trong môi trường mạng Khác với JPGE, GIF sử dụng thuật toán nén ít mất thông tin (lossless) mà không làm giảm chất lượng hình ảnh sau khi nén Trong kỹ thuật nén ảnh theo chuẩn GIF, dữ liệu lưu bằng cách sử dụng màu chỉ mục (index), mỗi hình ảnh có thể bao gồm 256 màu.

GIF là định dạng ảnh nén theo chuẩn Lossless, giúp giữ nguyên dữ liệu và được nhận diện trên hầu hết các trình duyệt web Với việc lưu trữ dữ liệu theo bảng chỉ mục, GIF thường được sử dụng để tạo hiệu ứng chuyển động nhờ vào sự tương đồng cao giữa các frame, tiết kiệm không gian lưu trữ so với video Định dạng này phù hợp cho hình ảnh đơn giản như bản vẽ nét, bảng màu và minh họa cơ bản, cũng như ảnh động và avatar kích thước nhỏ Ví dụ, hình ảnh mô phỏng chuyển động của hai con lắc trong thí nghiệm Newton được tạo từ các ảnh đơn lẻ, trong đó phần lớn đối tượng không thay đổi, chỉ có hai quả cầu chuyển động luân phiên, cho phép nén ảnh GIF với chất lượng cao trong khi chỉ một vài chi tiết nhỏ thay đổi.

Hình 1.12 Ảnh động GIF được tạo thành từ tập các ảnh liên tục

1.4.3 Định dạng hình ảnh JPG Định dạng JPG được đề xuất năm 1992 trong công bố của tác giả Haines [5] Định dạng JPG được gắn liền với chuẩn nén ảnh JPGE (joint photographic experts group) và lưu trữ trong máy tính theo file JPG Định dạng JPG là một trong những phương pháp được sử dụng phổ biến nhất hiện nay cho các file ảnh kỹ thuật số và xử lý tính toán trong máy tính Định dạng JPG gắn liền với thuật toán nén mất thông tin (lossy), tức là khi nén dữ liệu để lưu trữ, thông tin sẽ bị mất trong quá trình nén và giải nén Do đó, chất lượng hình ảnh sẽ bị giảm so với ảnh ban đầu Tuy nhiên, với phương pháp nén mất thông tin thì kích thước file lưu trữ của ảnh cũng giảm đáng kể Phương pháp nén JPEG thường được dùng để nén ảnh số có mất mát thông tin Các file ảnh dùng nén theo chuẩn JPEG thường có tên file mở rộng là *.jpg, *.jpeg,*.jfif hay *.jpe.

Định dạng JPG sử dụng 24 bit để biểu diễn màu sắc, với mỗi kênh màu chiếm 8 bit, cho phép hiển thị hơn 16 triệu màu khác nhau File ảnh JPG có dung lượng lưu trữ nhỏ hơn nhiều so với ảnh không nén (Bitmap) và tương thích với hầu hết các trình duyệt web hiện nay Ảnh JPG là lựa chọn tốt và hiệu quả cho các loại ảnh tĩnh, ảnh có màu sắc phức tạp, ảnh đa mức xám, cũng như ảnh ngoại cảnh và chân dung.

Định dạng BMP, phát triển vào năm 1994, là một loại file ảnh bitmap lưu trữ ảnh đồ họa dạng lưới (raster) với kích thước lớn và dữ liệu không nén, giúp bảo toàn thông tin trong quá trình lưu trữ và đọc ảnh Dữ liệu hình ảnh BMP độc lập với thiết bị hiển thị, đặc biệt phù hợp cho các ứng dụng trên hệ điều hành Microsoft Windows và OS/2 Ưu điểm của định dạng BMP là không mất thông tin, làm cho nó lý tưởng cho in ấn và chỉnh sửa hình ảnh Tuy nhiên, nhược điểm lớn của nó là dung lượng file thường lớn hơn so với các định dạng khác do không hỗ trợ nén, gây khó khăn trong việc lưu trữ.

PNG (Portable Network Graphics) là định dạng file đồ họa raster được giới thiệu vào năm 1996, hỗ trợ nén dữ liệu không mất thông tin, giúp giữ nguyên chất lượng hình ảnh sau khi giải nén Được xem là sự cải tiến và thay thế cho GIF, PNG thường được sử dụng trên internet với hai dạng phổ biến là PNG-8 và PNG-24 Định dạng này phù hợp cho hình ảnh có màu sắc đơn giản, văn bản, và các hình vẽ, đồng thời cho phép lưu trữ hình ảnh có nền trong suốt hoặc bán trong suốt mà không làm giảm chất lượng Ưu điểm nổi bật của PNG là khả năng phóng to hình ảnh mà không bị răng cưa, rất lý tưởng cho việc thiết kế logo, hình ảnh web/blog và các mảng màu phẳng.

1.4.6 So sánh các chuẩn định dạng Địnhdạng Nén không mất thông tin Cấu trúc lưu trữ Chỉ mục màu Hỗ trợ ảnh trong suốt Nhiều trang Ảnh động Quản lý màu

Câu hỏi và bài tập

1 Ảnh kỹ thuật số khác với ảnh phim như thế nào?

2 Hãy cho biết mối liên hệ giữa kích thước ảnh và số điểm ảnh.

3 Hãy cho biết mối liên hệ kích thước ảnh và độ phân giải ảnh.

4 Hãy phân biệt ảnh màu, ảnh đa mức xám và ảnh nhị phân.

5 Đọc vào một ảnh định dạng RGB, chuyển qua ảnh HSV, Lab và YcbCr và hiển thị từng ảnh trên các cửa sổ khác nhau.

6 Đọc vào một ảnh định dạng RGB, chuyển qua ảnh HSV, sau đó tăng giá trị thành phần màu V lên 150%, chuyển qua ảnh RGB và hiển thị ảnh gốc và ảnh sau khi điều

7 Đọc vào một ảnh có định dạng JPG, thay đổi ảnh về kích thước 256×256 pixels, sau đó lưu ra các file ảnh theo các định dạng GIF, PNG, BMP và TIFF Dùng phần mềm Paint thay đổi kích thước ảnh đã lưu thành 1.000×1.000 pixels Đọc ảnh và hiển thị các ảnh theo các định dạng đã tạo và cho nhận xét về chất lượng ảnh.

8 Dùng phần mềm Paint để tạo ảnh kích thước 480×480 pixels có chứa một số hình đơn giản có sẵn trong Paint, tô đầy một màu cho mỗi đối tượng Lưu ảnh thành các định dạng JPG, PNG, GIF, BMP và TIFF Hãy nhận xét về dung lượng lưu trữ theo mỗi định dạng Đọc các ảnh và hiển thị, đánh giá chất lượng hình ảnh tương ứng.

9 Dùng phần mềm Paint để thay đổi kích thước các ảnh ở câu 1.8 thành 1.024×1.024 pixels Cho biết dung lượng lưu trữ và chất lượng các ảnh theo các định dạng tương ứng.

BIẾN ĐỔI XỬ LÝ ẢNH

Khái niệm

Biến đổi ảnh là việc áp dụng phương pháp nào đó để biến đổi ảnh đầu vào Ivà thu được kết quả đầu raI' theo mong muốn.

(b) Hình 2.1 Biến đổi ảnh (a) sơ đồ tổng quát (b) biến đổi ảnh bằng Hough 6

Trong lĩnh vực xử lý ảnh, dữ liệu ảnh thường có số lượng điểm ảnh lớn, yêu cầu tính toán phức tạp và dung lượng bộ nhớ lớn cho lưu trữ Việc áp dụng các phương pháp xử lý truyền thống gặp khó khăn trong việc đạt độ chính xác cao và thời gian tính toán ngắn Do đó, các phép toán tương đương hoặc biến đổi giữa các miền dữ liệu thường được sử dụng để đơn giản hóa quá trình xử lý Sau khi hoàn tất các bước tính toán và biến đổi, dữ liệu đầu ra sẽ được chuyển đổi ngược về miền xác định ban đầu Các biến đổi phổ biến trong xử lý ảnh bao gồm nhiều kỹ thuật khác nhau nhằm tối ưu hóa hiệu suất và độ chính xác.

- Biến đổi Hough: thường dùng để phát hiện các cạnh có trong ảnh.

- Biến đổi Radon: thường được dùng để tái tạo lại hình ảnh từ các dữ liệu tia chiếu chùm (fan beam) và tia chiếu song song.

I' ảnh đầu ra f(I) biến đổi ảnh

- Biến đổi Fourier rời rạc (discrete Fourier): Dùng để lọc và phân tích tần số.

- Biến đổi Cosin rời rạc (discrete Cosin): Dùng trong các kỹ thuật nén ảnh và video.

- Biến đổi tích chập (convolution) để lọc ảnh, làm mịn ảnh như lọc cảnh Sobel, làm mờ bằng tích chập mặt nạ Gaussian.

+ Biến đổi Wavelet: Thường được dùng để thực hiện việc phân tích wavelet rời rạc,khử nhiễu, trộn ảnh.

Các phép biến đổi trên điểm ảnh

Lược đồ ảnh (histogram) là một đồ thị thể hiện tần số xuất hiện của cường độ sáng của các điểm ảnh theo các mức khác nhau Nó mô tả sự phân bố các mức cường độ xám trong một bức ảnh, giúp người dùng hiểu rõ hơn về các giá trị sáng tối trong hình ảnh.

Ảnh đa mức xám kích thước 640×480 pixels có tổng số điểm ảnh là 307.200 Mỗi điểm ảnh trong ảnh 8bit có giá trị từ 0 đến 255 Lược đồ ảnh thể hiện số lượng điểm ảnh tương ứng với từng giá trị sáng, bắt đầu từ 0 cho đến 255 Quá trình này bao gồm việc thống kê số lượng điểm ảnh có giá trị 0, 1, 2, và tiếp tục cho đến 255, với tổng số điểm ảnh phân phối theo các cường độ sáng này luôn bằng 307.200 Lược đồ có thể được tính cho từng giá trị hoặc theo các khoảng giá trị nhất định.

Hình 2.2 Lược đồ ảnh đa mức xám

Mức sáng của ảnh là một thuộc tính quan trọng, thể hiện giá trị độ sáng của từng điểm ảnh, liên quan chặt chẽ đến độ sáng tối của ảnh Điểm ảnh tối có mức sáng thấp, với giá trị tối thiểu là 0, trong khi điểm ảnh sáng có giá trị cao hơn Kỹ thuật điều chỉnh mức sáng (brightness adjustment) là một phương pháp cơ bản và đơn giản trong xử lý ảnh.

Thay đổi mức sáng của ảnh tại mỗi pixel có thể được thực hiện theo công thức I'(x,y) = I(x,y) + b, trong đó b là hệ số điều chỉnh mức sáng Nếu b > 0, độ sáng của điểm ảnh sẽ tăng lên, làm cho ảnh sáng hơn; ngược lại, nếu b < 0, độ sáng sẽ giảm, khiến ảnh trở nên tối hơn Đối với ảnh màu trong không gian màu RGB, việc điều chỉnh mức sáng có thể thực hiện trên từng kênh màu R, G và B Trong không gian màu HSV, thành phần V đại diện cho mức sáng, và việc thay đổi mức sáng tương ứng với việc điều chỉnh thành phần V.

Im=imread('Lena.bmp'); imshow(Im) Im1=Im-100;

Hình 2.3 Điều chỉnh độ sáng của ảnh màu RGB: (a) ảnh gốc, (b) giảm 100 đơn vị, (c) tăng 100 đơn vị.

Im=imread('Lena.bmp'); imshow(Im);

ImRGB= hsv2rgb(ImHSV); imshow(ImRGB)

ImRGB= hsv2rgb(ImHSV); imshow(ImRGB)

Hình 2.4 Điều chỉnh độ sáng của ảnh màu HSV: (a) ảnh gốc, (b) giảm thành phần độ sáng V1=V - 0.3, (c) Tăng thành phần độ sáng V2=V + 0.3

2.2.3 Điều chỉnh độ tương phản

Độ tương phản của ảnh ảnh hưởng đến mức độ "dễ nhìn" của hình ảnh, thể hiện qua sự chênh lệch về độ sáng giữa các đối tượng gần nhau và với nền Khi mức độ chênh lệch này thấp, ảnh sẽ có độ tương phản thấp, dẫn đến sự không sắc nét giữa các thành phần sáng và tối Ngược lại, khi chênh lệch cao, độ tương phản sẽ cao hơn, giúp hình ảnh trở nên rõ ràng và sắc nét hơn.

Hình minh họa cho thấy các ảnh có độ tương phản thấp, với giá trị cường độ sáng tập trung chủ yếu ở giữa dải [0, 255] Khi điều chỉnh độ tương phản cao hơn, giá trị cường độ sáng phân bố đều hơn trong khoảng [0, 255], tạo ra hình ảnh sáng rõ nét hơn và làm nổi bật các vùng sáng tối.

Hình 2.5 Độ tương phản ảnh: (a) độ tương phản thấp, (b) độ tương phản cao

Có nhiều kỹ thuật khác nhau để điều chỉnh độ tương phản ảnh.

Ví dụ lập trình Matlab điều chỉnh độ tương phản:

RGB2= imadjust(RGB,[.2,.3,0;0.6,0.7,1],[]); subplot(1,2,1); imshow(RGB); title('Original image'); subplot(1,2,2); imshow(RGB2); title('Contrast adjustment image');

RGB = gpuArray(imread('football.jpg'));

RGB2 = imadjust(RGB,[.2 3 0; 6 7 1],[]); subplot(1,2,1); imshow(RGB); title('Original image'); subplot(1,2,2); imshow(RGB2); title('Contrast adjustment image');

Hình 2.6 Điều chỉnh độ tương phản ảnh với các mức khác nhau

2.2.4 Cân bằng lược đồ ảnh

Kỹ thuật cân bằng lược đồ ảnh (Histogram equalization) là phương pháp hiệu quả để tăng cường độ tương phản của hình ảnh Khi ảnh có lược đồ đa mức xám với giá trị điểm ảnh không phân bố đều trong khoảng [0-255], điều này thường dẫn đến độ tương phản thấp Mục tiêu chính của cân bằng lược đồ ảnh là biến đổi ảnh có độ tương phản thấp thành ảnh có độ tương phản cao hơn, thông qua việc giãn đều giá trị cường độ sáng của các điểm ảnh trên một vùng giá trị rộng hơn, đồng thời giữ nguyên nội dung chính của bức ảnh.

Phương pháp cân bằng lược đồ ảnh nổi bật với tính đơn giản và dễ dàng trong tính toán, đồng thời cho phép khôi phục trạng thái ảnh ban đầu khi cần Tuy nhiên, một trong những nhược điểm chính của phương pháp này là khả năng gia tăng nhiễu trong ảnh, dẫn đến việc làm giảm đi các chi tiết quan trọng của hình ảnh.

Sử dụng hàm Matlab điều chỉnh độ tương phản bằng phương pháp cân bằng lược đồ ảnh:

I =imread('Mona_Lisa.jpg'); figure subplot(2,1,1) imshow(I) subplot(2,1,2) imhist(I,64)

J = histeq(I); figure subplot(2,1,1) imshow(J) subplot(2,1,2) imhist(J,64)

Hình 2.7 Cân bằng Histogram: (a) ảnh gốc và lược đồ ảnh, (b) ảnh sau khi cân bằng lược đồ và lược đồ ảnh

Phương pháp cân bằng toàn cục là kỹ thuật điều chỉnh sự phân bố giá trị độ sáng của các điểm ảnh, nhằm tạo ra hình ảnh đồng nhất hơn Kỹ thuật này thường được áp dụng trong xử lý ảnh vệ tinh, chụp X-quang và ảnh đo nhiệt bức xạ, giúp cải thiện chất lượng hình ảnh và tăng cường khả năng phân tích dữ liệu.

1) Duyệt toàn bộ ảnh, tính xem ứng với mỗi bước sángkcó bao nhiêu điểm ảnh và lưu vào mảng hist[k] (k= 0,… , 255)

2) Duyệt mảng hist[k] và tạo mảng mới SumHist[k] lưu trữ tổng số điểm ảnh có giá trị mức sáng từ 0 đếnk.

3) Duyệt toàn bộ ảnh, thay thế mức sáng k của các điểm ảnh tương ứng bằng mức sáng mới m vớim= (255/w*h) * SumHist [k].

Vớiwvàhlà chiều dài và chiều rộng của ảnh đầu vào.

Phương pháp cân bằng cục bộ tập trung vào việc điều chỉnh từng phần của ảnh thay vì toàn bộ bức ảnh, giúp cải thiện tình trạng các vùng quá tối hoặc quá sáng Tuy nhiên, nhược điểm lớn của phương pháp này là yêu cầu tính toán lặp đi lặp lại trên các phân vùng nhỏ, dẫn đến thời gian xử lý kéo dài, không phù hợp cho các ứng dụng thời gian thực Để khắc phục điều này, người ta thường sử dụng thiết bị chuyên dụng như FPGA (mạch tích hợp dùng cấu trúc mảng phần tử logic lập trình được) để tăng tốc độ xử lý.

2.2.5 Biến đổi ảnh màu và đa mức xám

2.2.5.1 Chuyển đổi ảnh RGB thành ảnh đa mức xám Ảnh RGB được chuyển qua ảnh đa mức xám được thực hiện theo công thức:

Trong đó R là thành phần màu đỏ Red, G là thành phần màu xanh Green và B là thành phần màu xanh lam Blue.

I = imread('Mona_Lisa.jpg'); figure imshow(I);

Grey= 0.2989*I(:,:,1)+0.5870*I(:,:,2)+0.1140*I(:,:,3) figure imshow(Grey); a) Ảnh màu RGB b) Ảnh grayscaleHình 2.9 Chuyển đổi hệ màu từ RGB thành grayscale

2.2.5.2 Chuyển đổi ảnh giữa các hệ màu RGB và HSV a) Chuyển đổi RGB sang HSV

Chuyển đổi ảnh từ hệ màu RGB sang hệ màu HSV liên quan đến việc kết hợp các giá trị màu R, G, B để tính toán các thành phần Hue (H), Saturation (S) và Value (V) Đầu tiên, quá trình này bắt đầu bằng việc chuyển đổi cường độ sáng từ miền giá trị [0 …

255] thành [0 1] bằng cách chia các giá trị thành phần màuR,G, Bcho 255:

Để tính toán các giá trị cực đại, cực tiểu và độ chênh lệch của giá trị màu thực tế trong ảnh, chúng ta sử dụng công thức max(R', G', B') và min(R', G', B').

Tiếp theo, giá trị thành phần Hue được tính theo công thức: undefined, if 0

Tính giá trị thành phần độ sáng Value được xác định theo giá trị cực đại V = M. Cuối cùng, giá trị thành phần Saturation được tính bằng công thức:

   2.5 b) Chuyển đổi ảnh HSV sang ảnh RGB

Trong không gian màu HSV, các thành phần màu được xác định bởi các miền giá trị như sau: Hue (H) nằm trong khoảng [0°, 360°], Saturation (S) trong khoảng [0, 1], và Value (V) cũng trong khoảng [0, 1] Để tính giá trị màu Chroma (C) trong không gian màu HSV, cần áp dụng một công thức cụ thể.

Để tính toán các giá trị màu (R1, G1, B1) trong không gian màu RGB tương ứng với giá trị Hue và Chroma, cần sử dụng giá trị trung gian X cho thành phần màu lớn nhất Các công thức liên quan sẽ giúp chuyển đổi từ không gian màu HSV sang RGB một cách chính xác.

(0, 0,0) if is undefined ( , ,0) if 0 1 ( , ,0) if 1 2

Trong này có sự chồng chéo nhau xảy ra (khi H' là một số nguyên) bởi có hai cách tính tương đương nhau cho các trường hợp X=0 hoặc X=C.

Cuối cùng, các thành phần màu đỏ (R), xanh lá (G) và xanh dương (B) được xác định bằng cách cộng thêm một giá trị m vào mỗi thành phần màu, trong đó m = V - C Giá trị m này thể hiện mức độ chênh lệch giữa độ sáng (V) và chroma, đồng thời phản ánh sự khác biệt giữa các giá trị màu thực tế trong hai không gian màu khác nhau.

2.2.5.3 Chuyển đổi ảnh hệ màu RGB và YCbCr Để chuyển đổi từ hệ màu RGB thành YCbCr, trước hết tính giá trị của thành phần

Y Thành phần Y phụ thuộc vào cả ba thành phần màu đỏ, xanh lục và xanh lam Công thức chuyển đổi được xác định như sau:

Hình 2.10 Chuyển đổi hệ màu từ RGB thành YCbCr 7

Các phương pháp xử lý ảnh thông dụng

Tích chập (Convolution) là một kỹ thuật quan trọng trong xử lý ảnh, với nhiều ứng dụng như đạo hàm ảnh, làm mịn ảnh và trích xuất cạnh Gần đây, tích chập cũng đã trở thành một phần thiết yếu trong các mạng neural học sâu.

Tích chập là một phép toán tuyến tính quan trọng trong toán học, thường được ký hiệu bằng phép nhân tròn () Phép toán này thực hiện việc tính toán dựa trên hai hàm f và k, trong đó f(x,y) được gọi là hàm ảnh và k(x,y) được gọi là nhân lọc (kernel) hay mặt nạ.

7 https://en.wikipedia.org/wiki/YCbCr

(mask) có kích thước m×n (kích thước này thường nhỏ hơn nhiều kích thước ảnh). Phép toán tích chập được thực hiện theo công thức:

Ma trận mặt nạ k trong tích chập ảnh được dịch chuyển theo từng điểm ảnh và áp dụng lên ảnh để thực hiện tính tích chập cho mỗi vị trí Điểm gốc của mặt nạ, gọi là điểm neo (anchor point), được sử dụng làm chuẩn trong quá trình tích chập, xác định vị trí khớp giữa mặt nạ và ảnh đầu vào Thông thường, điểm neo được chọn là tâm của mặt nạ lọc Giá trị của từng phần tử trên mặt nạ được coi là hệ số tổ hợp với giá trị độ xám của các điểm ảnh trong vùng tương ứng với mặt nạ.

Phép tích chập là quá trình dịch chuyển mặt nạ qua tất cả các vị trí trên ảnh, bắt đầu từ góc trên-trái và kết thúc tại góc dưới-phải Trong mỗi lần dịch chuyển, điểm neo được đặt tại điểm ảnh đang xét, và kết quả tích chập mới được tính toán theo công thức tích chập đã định.

Ví dụ viết chương trình bằng Matlab sử dụng tích chập để thực hiện lọc nhiều theo phương pháp lọc trung bình, với kích thước mặt nạ 5×5.

Im=imread('Mona_Lisa.jpg');

C = conv2(IG,B,'same'); imshow(IG); figure;imshow(uint8(C)); a) Ảnh grayscale b) Ảnh được làm mờ bằng tích chập

Hình 2.11 Lọc ảnh bằng kỹ thuật tích chập

2.3.2 Các kỹ thuật lọc thông dụng

Lọc trung bình là một kỹ thuật lọc tuyến tính hoạt động như bộ lọc thông thấp Thuật toán này sử dụng một ảnh đầu vào để tạo ra ảnh lọc Tại mỗi vị trí điểm ảnh, giá trị của các điểm ảnh trong vùng lân cận n×n được lấy và thực hiện tích chập với giá trị của bộ lọc Kết quả là giá trị của các điểm ảnh trong ảnh mới sau khi lọc sẽ là giá trị trung bình của tất cả các điểm ảnh trong vùng lân cận n×n trong cửa sổ lọc.

Sử dụng cửa ma trận lọc kích thước 3×3 để thực hiện lọc trung bình trên ảnh, bắt đầu bằng việc đọc ảnh được lưu trữ trong máy tính Sau đó, hiển thị ảnh trước và sau khi thực hiện quá trình lọc để so sánh sự khác biệt.

I = imread('coins.png'); subplot(1,2,1); imshow(I); title('Original image'); k = ones(3,3) / 9;

I2 = conv2(I,k,'same'); subplot(1,2,2); imshow(uint8(I2)); title('Average filtered image');

Phương pháp lọc Sobel là một kỹ thuật phổ biến trong việc phát hiện cạnh của các đối tượng trong ảnh Khác với lọc trung bình, lọc Sobel sử dụng mặt nạ với các giá trị phần tử được phân phối theo quy tắc mà Irwin Sobel đã đề xuất.

1968 [6] Hai mặt nạ lọc Sobelkxvàkytheo hai hướngxvàytương ứng được xác định như sau:

Kỹ thuật lọc Sobel không chỉ được áp dụng trong việc phát hiện biên mà còn có thể được sử dụng để tính xấp xỉ đạo hàm rời rạc trong các phương pháp xử lý gradient ảnh.

B = imread('circuit.tif'); kx = [-1 0 1;-2 0 2;-1 0 1]; ky=kx';

G=sqrt(Gx.^2+Gy.^2); subplot(2,2,1); imshow(B); title('Original image'); subplot(2,2,2); imshow(uint8(G)); title('Sobel gradient'); subplot(2,2,3); imshow(Gx,[]); title('Sobel x-gradient '); subplot(2,2,4); imshow(Gy,[]); title('Sobel y-gradient');

Hình 2.13 Kết quả lọc Sobel

Lọc trung vị (median filter) là một kỹ thuật lọc phi tuyến hiệu quả trong việc khử nhiễu, đặc biệt là đối với nhiễu đốm và nhiễu muối tiêu Thuật toán này hoạt động bằng cách sử dụng một cửa sổ lọc n×n để quét qua từng điểm ảnh của ảnh đầu vào Giá trị của mỗi điểm ảnh mới được xác định bằng cách lấy giá trị phần tử trung vị từ tập hợp các điểm ảnh lân cận trong vùng n×n của ảnh gốc Để tìm giá trị trung vị, các giá trị trong vùng n×n được sắp xếp theo thứ tự, và điểm ảnh nằm ở giữa (phần tử trung vị) sẽ được gán cho giá trị điểm ảnh tương ứng trong ảnh đầu ra sau khi lọc.

Ime= zeros(size(I),'uint8'); for j=2:w-1

Ime(i,j) = median(Med(:)); end end subplot(1,2,1); imshow(I); title('Original image'); subplot(1,2,2); imshow(Ime); title('Median filtered image');

Hình 2.14 Kết quả lọc trung vị

Phương pháp lọc Gaussian là một kỹ thuật phổ biến trong tiền xử lý ảnh, giúp làm trơn ảnh hiệu quả Kỹ thuật này thực hiện tích chập ảnh gốc với một cửa sổ lọc có kích thước n×n, trong đó giá trị các phần tử được xác định dựa trên phân bố Gaussian, hay còn gọi là phân bố chuẩn Gaussian.

[X, Y] = meshgrid(ind,ind); sigma=1.5; h = exp(-(X.^2 + Y.^2) / (2*sigma^2)); h1 = h / sum(h(:)); sigma=3; h = exp(-(X.^2 + Y.^2) / (2*sigma^2)); h2 = h / sum(h(:));

IG2=conv2(I,h2,'same'); subplot(1,3,1); imshow(I); title('Original image'); subplot(1,3,2); imshow(uint8(IG1)); title('Gaussian filtered image,\sigma=1.5') subplot(1,3,3); imshow(uint8(IG2)); title('Gaussian filtered image,\sigma=3')

Phương pháp lọc min/max là một kỹ thuật xử lý hình ảnh tương tự như các phương pháp lọc thông thường khác, trong đó giá trị đầu ra được xác định dựa trên giá trị cực đại và cực tiểu của các phần tử trong một vùng xác định trước Cụ thể, giá trị mới của điểm ảnh được tính toán từ ngưỡng của các điểm lân cận, tham chiếu với giá trị cực đại, cực tiểu hoặc sự chênh lệch giữa chúng.

Im = rgb2gray(imread('hip.jpg'));

The code snippet calculates the difference between the maximum and minimum filtered images, defined as Max_Min = (ImMax - ImMin) It displays the original image alongside the maximum and minimum filtered images in a 2x2 subplot format, providing a visual comparison of the image processing results The original image is shown in the first subplot, followed by the max filtered image, the min filtered image, and finally the calculated Max_Min image.

Phương pháp lọc midpoint là kỹ thuật xử lý ảnh, cho phép tạo ra giá trị mới từ vùng điểm ảnh xung quanh điểm cần xét Kỹ thuật này hoạt động bằng cách tính giá trị trung bình giữa giá trị cực đại và cực tiểu trong vùng mặt nạ lọc có kích thước n×n Lọc midpoint thường được áp dụng để loại bỏ các loại nhiễu ngắn như nhiễu Gaus hoặc nhiễu thuần nhất.

Im = rgb2gray(imread('hip.jpg'));

MidPoint = (ImMax+ImMin)/2; subplot(1,2,1); imshow(uint8(Im)); title('Original image'); subplot(1,2,2); imshow(uint8(MidPoint)); title('Midpoint filtered image');

Hình 2.17 Lọc ảnh bằng phương pháp midpoint với kích thước bộ lọc 3×3.

Các phép biển đổi toàn cục

2.4.1 Biến đổi cosin rời rạc

Biến đổi cosin rời rạc (DCT) là một phép biến đổi tuyến tính và khả nghịch, được định nghĩa từ miền số thực R sang R^N, với R là miền số thực hoặc ma trận vuông khả nghịch N×N Trong lĩnh vực xử lý ảnh, DCT thường được hiểu là biến đổi cosin rời rạc Có nhiều dạng biến thể của DCT, trong đó một tập số thực x0,…, xN-1 được chuyển đổi thành một tập số thực X0,…, Xn-1 theo các quy tắc nhất định.

+ Biến đổi cosin dạng 1 (DCT1):

+ Biến đổi cosin dạng 2 (DCT2):

Biến đổi cosin dạng 2 được sử dụng khá phổ biến và nó thường mặc định được gọi là biến đổi cosin rời rạc.

+ Biến đổi cosin dạng 3 (DCT3):

      với k=0,… N-1 2.15 Đây là dạng biến đổi ngược của DCT2 và để đơn giản thỉnh thoảng người ta gọi là biến đổi cosin ngược (inverse discrete cosine transform -IDCT).

+ Biến đổi cosin dạng (DCT4):

Ma trận của phép biến đổi trở thành trực giao khi nhân với hệ số tỷ lệ 2 / N Biến đổi cosin dạng 4 yêu cầu điều kiện biên xnl là chẵn với quan hệ nh=-1/2 và lẽ quan hệ nh=N-1/2, tương tự áp dụng cho Xk.

+ Biến đổi đa chiều của DCT2:

Biến đổi cosin rời rạc (DCT2) của một ảnh hoặc ma trận là quá trình chuyển đổi một chiều, thực hiện theo hàng trước rồi đến cột hoặc ngược lại Biến đổi DCT2 trong không gian 2 chiều được định nghĩa như sau:

Nghịch đảo của DCT đa chiều có thể được xem là kết quả phân tách từ nghịch đảo DCT một chiều tương ứng Cụ thể, nghịch đảo một chiều được thực hiện tại từng thời điểm trong quá trình áp dụng thuật toán theo hàng và cột.

Biến đổi cosin (DCT) được ứng dụng rộng rãi trong nén ảnh, giúp phân tách hình ảnh thành các phần với mức độ quan trọng khác nhau, như đã chỉ ra bởi Gupta và Garg Tương tự như biến đổi Fourier, DCT chuyển đổi ảnh hoặc tín hiệu từ miền không gian sang miền tần số, đóng vai trò quan trọng trong việc tối ưu hóa dữ liệu hình ảnh Công thức tổng quát của DCT trong miền 1D được định nghĩa cụ thể để phục vụ cho quá trình này.

Biến đổi ngược tương ứng ký hiệu là F u  1 ( ).

Công thức tổng quát với biến đổi DCT trong không gian 2D (N×M) được định nghĩa như sau [9]:

Biến đổi ngược tương ứng ký hiệu là F u v  1 ( , ).

Toán tử cơ bản của DCT thể hiện như sau:

+ Ảnh đầu vào kích thướcN×M;

+f(i,j) là cường độ sáng của pixel tại vị trí hàngivà cộtj;

+F(u,v) là hệ số DCT tại hàngk 1 và cộtk 2 trong ma trận DCT;

+ Đầu vào DCT là mảng số nguyên, có thể xác định bằng 8×8, chứa giá trị mức xám của mỗi pixel.

+ Giá trị pixel (8 bit) xác định trong khoảng từ 0 đến 255.

Hệ số F[0,0] được gọi là hệ số một chiều (DC), trong khi các hệ số khác trên ma trận F được gọi là hệ số xoay chiều (AC) Hệ số DC đại diện cho giá trị trung bình của tất cả các điểm ảnh từ ảnh đầu vào, trong khi hệ số AC thể hiện độ lệch giữa các điểm ảnh theo các tần số và biên độ khác nhau Thông thường, phần lớn năng lượng tín hiệu nằm ở tần số thấp, xuất hiện ở góc trên-trái trong bảng DCT Kết quả nén cho thấy giá trị ở góc dưới-phải biểu thị tần số cao hơn, thường đủ nhỏ để có thể bỏ qua mà không gây ra biến dạng đáng kể Mảng đầu ra của DCT chứa các hệ số nguyên trong miền xác định [-1024:1023], cho phép tính toán dễ dàng và hiệu quả hơn khi xem DCT như một tập hợp các hàm cơ bản với kích thước đầu vào cố định (8×8) có thể được tính trước và lưu trữ Việc tính toán diễn ra đơn giản thông qua tích chập với mặt nạ chập (cửa sổ 8×8), với các giá trị được tính từ công thức DCT Do đó, giá trị hệ số DCT tương ứng với hàm cơ sở là tổng các điểm ảnh trên toàn bộ ảnh đầu vào và được đánh trọng số.

Hình 2.18 Các tần số DCT 2 chiều từ biến đổi ảnh JPEG [9]

Hình thể hiện sự kết hợp giữa các tần số ngang và dọc thông qua biến đổi DCT 2 chiều Mỗi bước di chuyển từ trái sang phải và từ trên xuống dưới tương ứng với một bước tăng trưởng theo tần số Cụ thể, khi dịch phải 1 ô vuông từ trên-trái, ta nhận được nửa chu kỳ trong tần số ngang, và khi tiếp tục dịch chuyển sang bên phải, sẽ tạo ra nửa chu kỳ khác Dữ liệu nguồn kích thước 8x8 được biến đổi thành sự kết hợp tuyến tính của 64 hình vuông tần số.

2.4.2 Biến đổi Fourier rời rạc

Biến đổi Fourier rời rạc (DFT) hay còn gọi là biến đổi Fourier hữu hạn, được sử dụng để rời rạc hóa một chuỗi giá trị phức DFT có nhiều ứng dụng thực tiễn như lọc ảnh, nén ảnh và phóng to ảnh Đặc biệt, biến đổi Fourier có thể được tính toán nhanh chóng nhờ vào thuật toán biến đổi Fourier nhanh (FFT).

Hình 2.19 Biến đổi giữa các miền dữ liệu

Phép biến đổi Fourier thường áp dụng cho một dãy hữu hạn các số Đối với một dãy N số phức x₀, , xₙ₋₁, phép biến đổi này sẽ tạo ra dãy N số phức tương ứng X₀, , Xₙ₋₁ Kết quả của phép biến đổi Fourier, được ký hiệu là X(k), bao gồm N mẫu và được xác định bởi một công thức cụ thể.

Hàm cơ sở của hệ số

Các hàm cơ sở hệ số tương quan hàng Hàm cơ sở tương ứng tần số cao Các hàm cơ sở hệ số tương quan cột

Miền không gian ban đầuX

Phép biến đổi ngược Fourier xác định như sau:

Biến đổi Fourier là một hàm Gaussian Khi thực hiện biến đổi Fourier của hàm Gaussian sang hàm số thực, kết quả thu được chính là độ lớn của hàm đó Công thức tính biến đổi Fourier của hàm Gaussian được xác định như sau.

Hàm Gaussian là hàm đối xứng, trong khi hàm Sin là hàm phi đối xứng, dẫn đến việc phép tích phân trong công thức tích phân thứ hai cũng phi đối xứng Do đó, kết quả của phép tích phân này sẽ bằng 0, từ đó phép biến đổi Fourier được đơn giản hóa.

Tham số tần số không gian ký hiệu là  và diện tích của hàm Gaussian trong miền tần số được điều chỉnh bởi tham số σ trong miền không gian Điều này có nghĩa là hàm Gaussian hẹp hơn trong miền không gian sẽ có phổ rộng hơn, trong khi hàm Gaussian rộng hơn sẽ có phổ hẹp hơn trong miền tần số Tính chất này liên quan đến khả năng khử nhiễu của bộ lọc Gaussian; một phân phối Gaussian hẹp sẽ tạo ra kết quả ít mịn hơn do phạm vi ảnh hưởng nhỏ, dẫn đến băng thông rộng trong miền tần số và khả năng loại bỏ nhiễu ở tần số cao Ngược lại, khi độ rộng của hàm Gaussian trong miền không gian tăng, độ mịn của nó cũng tăng do phạm vi ảnh hưởng rộng hơn, và trong miền tần số, hàm Gaussian hẹp hơn sẽ làm mất nhiễu tần số cao ít hơn Mối quan hệ giữa độ rộng trong miền không gian và độ rộng phổ trong miền tần số cho thấy sự tiện lợi của bộ lọc Gaussian trong việc giải quyết các bài toán thực tế Biến đổi Fourier của hàm Gaussian cũng giải thích tính chất single-lobe trong miền không gian chuyển vào miền tần số.

Biến đổi Fourier đóng vai trò quan trọng trong xử lý tín hiệu số, đặc biệt trong lĩnh vực lọc ảnh kỹ thuật số Các bộ lọc cơ bản dựa trên biến đổi Fourier bao gồm bộ lọc thông thấp, bộ lọc thông cao, bộ lọc theo dải và bộ lọc chắn dải.

Bộ lọc thông thấp được định nghĩa bằng hàm như sau:

- ωc≤ ω ≤ ωc: là dải thông qua được của các tín hiệu trên miền tần số.

- π ≤ ω ≤ ωcvà ωc≤ ω ≤ π: dải bị chắn, không thông qua được trên miền tần số.

Như vậy, có thể sử dụng bộ lọc này để lọc nhiễu ảnh trong miền không gian ví dụ như nhiễu muối hạt tiêu, làm mờ cạnh,

Bộ lọc thông cao được định nghĩa bằng hàm như sau:

- ωc≤ ω ≤ ωc: Dải bị chắn, không thông qua được trên miền tần số.

- π ≤ ω ≤ ωcvà ωc≤ ω ≤ π: Dải thông qua được trên miền tần số.

Bộ lọc thông cao được sử dụng phổ biến trong xử lý ảnh, đặc biệt trong các tình huống có sự thay đổi cường độ sáng mạnh Chức năng chính của nó là lọc đường biên giữa đối tượng và nền trong hình ảnh, giúp tăng cường độ sắc nét và chi tiết cho bức ảnh.

Biến đổi hình thái học

Ảnh nhị phân thường chứa thông tin không đầy đủ do các vùng ảnh được tạo ra từ bộ lọc theo ngưỡng đơn giản, dẫn đến hiện tượng méo hoặc nhiễu Xử lý hình thái học nhằm khử nhiễu và khôi phục các khuyết thiếu trong quá trình lọc phân đoạn ảnh, từ đó nâng cao chất lượng kết quả thông qua các phép biến đổi về hình thức và cấu trúc hình ảnh Biến đổi hình thái học là tập hợp các phương pháp phi tuyến tính liên quan đến hình dáng và sắc thái của đối tượng Mặc dù các biến đổi này chỉ áp dụng cho giá trị điểm ảnh nhị phân, chúng cũng có thể mở rộng cho ảnh đa mức xám Kỹ thuật hình thái học sử dụng các mẫu hình dáng nhỏ gọi là phần tử cấu trúc, và các phép toán hình thái thường được xây dựng từ hai phép toán cơ bản: co (Erosion) và giãn (Dilation) Việc lựa chọn phần tử cấu trúc có hình dạng phù hợp là rất quan trọng để đạt được mục tiêu và tối ưu hóa quá trình tính toán.

2.5.1 Phần tử cấu trúc Đối với ảnh nhị phân, phần tử cấu trúc là một mẫu có kích thước nhỏ, giá trị phần tử gồm 0 và 1 Hay nói cách khác, phần tử cấu trúc là một ảnh nhị phân nhỏ, có thể là một ma trận gồm các pixel mà mỗi phần tử của nó có giá trị bằng 0 hoặc 1. Trong đó, các giá trị phần tử bằng 0 được bỏ qua trong tính toán và chỉ thực hiện trên các phần tử có giá trị 1 Phần tử cấu trúc ảnh nhị phân được thể hiện như sau:

Trong xử lý hình thái học, phần tử cấu trúc được trượt qua tất cả các vị trí trên ảnh và so sánh với vùng lân cận của điểm ảnh Các toán tử sẽ kiểm tra xem phần tử có "vừa" trong vùng lân cận hay không, hoặc xác định xem nó có "đạt tới" hoặc giao nhau với vùng lân cận Ví dụ, phần tử cấu trúc A "vừa" nằm trong vùng lân cận, phần tử B giao nhau với vùng lân cận, trong khi phần tử C chưa "đạt tới" vùng lân cận của điểm ảnh.

Hình 2.23 Minh họa các trường hợp của phần tử cấu trúc[11]

Toán tử hình thái trên ảnh nhị phân tạo ra ảnh mới với pixel có giá trị khác 0 khi kiểm tra thành công tại vị trí cụ thể Các hình dạng phần tử cấu trúc thường dùng bao gồm hình đường, hình vuông, và hình ellipse Kích thước của ma trận xác định kích thước phần tử cấu trúc và vùng lân cận trong xử lý hình thái học Mẫu bố trí số 1 và 0 xác định hình dạng phần tử cấu trúc, với điểm gốc thường nằm tại một phần tử trong ma trận, mặc dù có thể nằm ngoài phần tử cấu trúc theo lý thuyết.

Hình 2.24 Ví dụ các phần tử cấu trúc đơn giản [11]

Hình 2.25 Các trường hợp fitting, hitting giữa ảnh nhị phân và phần tử cấu trúc

Đối với ảnh đa mức xám, phần tử cấu trúc không phẳng được xác định bằng các giá trị 0 và 1, giúp xác định phạm vi cấu trúc trong mặt phẳng x và y, đồng thời thêm giá trị độ cao để xác định chiều thứ ba Cấu trúc phần tử không phẳng bao gồm hai phần chính.

Một mảng hai chiều chứa các phần tử có giá trị 0 và 1, trong đó giá trị 1 xác định sự hiện diện của các lân cận có hiệu lực của phần tử cấu trúc.

Phần thứ hai của bài viết trình bày một mảng hai chiều có kích thước tương đương với mảng hai chiều ở phần thứ nhất, nhưng khác biệt ở chỗ nó chứa các giá trị số thực, thể hiện độ cao của từng phần tử cấu trúc.

Trong trường hợp tổng quát, với E là không gian Euclid và A là ảnh nhị phân thuộc E, toán tử Erosion trên ảnh nhị phân A và phần tử cấu trúc B, ký hiệu là , được định nghĩa thông qua biểu thức tổ hợp.

Toán tử Erosion trên ảnh nhị phân của tập hợp A sử dụng phần tử cấu trúc B, tạo ra tập hợp các điểm z, trong đó z là điểm trung tâm của phần tử cấu trúc B Điều kiện để z được chọn là Bz phải là tập con của A.

Phép Erosion sử dụng phần tử cấu trúc hình vuông để co hình dạng đối tượng trong ảnh bằng cách loại bỏ các pixel từ cả hai bên biên trong và ngoài vùng đối tượng Kết quả là các vùng phía trong (holes) và khoảng trống (gaps) giữa các vùng khác nhau sẽ mở rộng, trong khi các chi tiết nhỏ sẽ bị loại bỏ Hình ảnh minh họa dưới đây cho thấy quá trình co Erosion với phần tử cấu trúc vuông 3×3, dẫn đến việc làm mảnh các vùng đối tượng theo cả hai phía.

Hình 2.26 Làm mỏng vùng bằng phép toán co ảnh [11]

Phép giãn ảnh (Dilation) nhị phân của ảnh gốc A với phần tử cấu trúc B được ký hiệu là AB Toán tử giãn ảnh được thể hiện dưới dạng phép toán tổ hợp, trong đó a và b là các phần tử trong ảnh A và B.

Phép giãn ảnh nhị phân của tập A bởi phần tử cấu trúc B tạo thành tập hợp các điểm z, với z là điểm trung tâm của phần tử cấu trúc B trên tập A Điều này đảm bảo rằng phản xạ của Bz sẽ giao với tập A.

Atại ít nhất một điểm.

Hình 2.27 Làm đậm vùng bằng phép toán giãn ảnh[11].

Cho ảnh nhị phân A và B là phần tử cấu trúc, phép mở ảnh (openning) (ký hiệu là

) giữa tập A và tập B được xác định bởi công thức sau:

Phép mở có một số tính chất sau:

+ Tính tăng trưởng: Nếu AC thì A B C B  

+ Tính bất biến dịch chuyển.

+ Tính hai mặt A B   ( A B c  c c ) , vớilà phép đóng

Hình 2.28 Phép toán mở rộng ảnh để khử các đối tượng nhỏ

Tập hợp A đại diện cho ảnh gốc, trong khi B là phần tử cấu trúc Phép đóng ảnh của tập hợp A bởi phần tử cấu trúc B, ký hiệu là (AB), được xác định rõ ràng.

Trong xử lý ảnh, phép đóng và phép mở là hai kỹ thuật cơ bản trong khử nhiễu hình thái học Phép mở có khả năng loại bỏ các đối tượng nhỏ không mong muốn, trong khi phép đóng giúp loại bỏ những lỗ nhỏ trong các đối tượng, cải thiện chất lượng hình ảnh.

Thực hiện phép đóng trên ảnh nhị phân sử dụng phần tử cấu trúc hình tròn có bán kính 5 giúp khử nhiễu và loại bỏ các lỗ nhỏ trong đối tượng ký tự.

Hình 2.29 Phép đóng khử những lỗ nhỏ trong đối tượng

Phép mở có một số tính chất sau:

+ Tính tăng trưởng: Nếu AC thì A B C B  

+ Tính bất biến dịch chuyển.

2.5.6 Phép biến đổi "Hit or miss"

PHƯƠNG PHÁP PHÂN ĐOẠN ẢNH

Tổng quan về phân đoạn ảnh

Trong lĩnh vực xử lý ảnh, phân đoạn ảnh (segmentation) là quá trình nhóm các điểm ảnh thành các vùng có chung đặc điểm như màu sắc, cường độ hoặc kết cấu Quá trình này chia một ảnh số thành nhiều vùng khác nhau, mỗi vùng bao gồm các điểm ảnh tương tự, được gọi là superpixels hoặc region Mục tiêu của phân đoạn là đơn giản hóa và thay đổi cách biểu diễn ảnh, giúp nó trở nên ý nghĩa hơn và dễ dàng phân tích, trích xuất đặc trưng Kết quả của phân đoạn ảnh là tập hợp các vùng (region) hay phân đoạn (segments), có thể bao gồm toàn bộ ảnh hoặc các vùng đối tượng được trích xuất từ ảnh.

Phân đoạn ảnh đóng vai trò quan trọng trong việc phát hiện đặc tính và cấu trúc của đối tượng, với mỗi vùng mô tả cấu trúc tương ứng của đối tượng trong khu vực đó Số lượng vùng trong ảnh cho thấy sự hiện diện của nhiều đối tượng khác nhau, trong khi mỗi đối tượng lại chứa các vùng tương ứng với các phần khác nhau của chính nó Phân đoạn ảnh có nhiều ứng dụng quan trọng trong các lĩnh vực như phân tích hình ảnh y học, nhận diện đối tượng, phát hiện hành động trong hệ thống camera giám sát thông minh, cũng như trong các hệ thống điều khiển giao thông, xe không người lái và xử lý hình ảnh vệ tinh.

Phân đoạn ảnh là một bước tiền xử lý quan trọng trong hệ thống xử lý ảnh, giúp nâng cao hiệu quả cho các bước xử lý tiếp theo Việc phân đoạn chính xác không chỉ cải thiện độ chính xác mà còn tiết kiệm chi phí tính toán.

Hình 3.1 Phân đoạn bằng phương pháp đồ thị và phương pháp Mean shift [13]

Các vùng phân tách được sử dụng rộng rãi trong nhiều ngữ cảnh và có thể đại diện cho đối tượng dưới nhiều hình thức khác nhau Việc lựa chọn cách mô tả vùng dữ liệu phụ thuộc vào tính chất, mục tiêu và ứng dụng cụ thể Nhiều ứng dụng không chỉ yêu cầu mô tả các vùng riêng lẻ mà còn cần thể hiện mối quan hệ giữa các vùng trong ảnh.

Hình 3.2 Phân đoạn ảnh dựa vào ngưỡng đơn và ngưỡng kép [10] để trích xuất các vùng đối tượng khác nhau

Hình minh họa cho thấy quá trình phân đoạn ảnh bằng cách áp dụng ngưỡng đơn và ngưỡng đôi với các giá trị khác nhau Hình (a) là ảnh gốc, trong khi (b) là lược đồ màu tương ứng Kết quả phân đoạn với ngưỡng đơn T1 p được thể hiện trong hình (c), và hình (d) cho thấy vùng lõi được phát hiện với ngưỡng thứ hai T25 Hình (e) minh họa phân đoạn thông thường với ngưỡng T2, còn hình (f) trình bày việc sử dụng ngưỡng kép T1 và T2 để trích chọn vùng năm trong khoảng T1

Ngày đăng: 17/12/2023, 10:27

TỪ KHÓA LIÊN QUAN

w