Ứng dụng xử lý ảnh trong điều khiển cánh tay robot công nghiệp

Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌ ĐỖ VĂN CHUYÊN ỨNG DỤNG XỬ LÝ ẢNH TRONG ĐIỀU KHIỂN CÁNH TAY ROBOT CÔNG NGHIỆP Chuyên ngành: Khoa

Trang 1

Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌ

ĐỖ VĂN CHUYÊN

ỨNG DỤNG XỬ LÝ ẢNH TRONG ĐIỀU KHIỂN CÁNH TAY ROBOT CÔNG NGHIỆP

Chuyên ngành: Khoa học máy tính

Mã số: 60.48.01

LUẬN VĂN THẠ

Thái Nguyên – 2013

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan toàn bộ nội dung được trình bày trong bản luận văn này là kết quả tìm hiểu và nghiên cứu của riêng tôi, trong quá trình nghiên cứu luận văn

“Ứng dụng xử lý ảnh trong điều khiển cánh tay robot công nghiệp” các kết quả

và dữ liệu được nêu ra là hoàn toàn trung thực dưới sự hướng dẫn của TS Phạm Đức Long Mọi thông tin trích dẫn dẫn đều được tuân theo luật sở hữu trí tuệ, có liệt

kê rõ ràng các tài liệu tham khảo Tôi xin chịu hoàn toàn trách nhiệm với những nội dung được viết trong luận văn này

Thái Nguyên, ngày 19 tháng 11 năm 2013

HỌC VIÊN

Đỗ Văn Chuyên

Trang 3

Em xin gửi lời cảm ơn chân thành đến các thầy cô giáo Trường Đại học Công nghệ Thông tin và Truyền Thông - Đại học Thái Nguyên, cùng các thầy cô giáo đã nhiệt tình giảng dạy, truyền đạt kiến thức cho em trong suốt quá trình học tập tại trường cũng như quá trình làm luận văn này

Cuối cùng em xin gửi lời cảm ơn đến gia đình, bạn bè, các đồng nghiệp những người đã động viên, giúp đỡ và tạo điều kiện cho em trong quá trình học tập

và hoàn thành luận văn

Thái Nguyên, ngày 19 tháng 11 năm 2013

HỌC VIÊN

Đỗ Văn Chuyên

Trang 4

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT v

DANH MỤC CÁC HÌNH v

Chương 1: CƠ SỞ LÝ THUYẾT XỬ LÝ ẢNH 2

1.1 Lý thuyết về xử lý ảnh [1] 2

1.1.1 Hệ thống xử lý ảnh 2

1.1.2 Các vấn đề cơ bản trong xử lý ảnh 2

1.1.3 Thu nhận ảnh và số hóa 5

1.1.4 Phân tích ảnh 5

1.1.5 Hệ quyết định 5

1.2 Thu nhận ảnh và lưu trữ ảnh 5

1.2.1 Thu nhận ảnh[7] 5

1.2.2 Lưu trữ ảnh 7

1.3 Phân tích ảnh 11

1.3.1 Khái niệm pixel và pixel lân cận 11

1.3.2 Một số không gian màu 11

1.3.3 Một số kỹ thuật trợ giúp xử lý ảnh 14

1.3.4 Biên và các phương pháp phát hiện biên[1][4][7] 14

1.4 Biến đổi Hough 15

1.4.1 Biến đổi Hough tổng quát [9] 15

1.4.2 Biến đổi Hough tìm hình chữ nhật [11] 20

1.4.2 Biến đổi Hough tìm đường tròn 23

Chương 2: GIỚI THIỆU CHUNG VỀ ROBOT CÔNG NGHIỆP 26

2.1 Sơ lược quá trình phát triển của robot công nghiệp 26

2.2 Ứng dụng robot công nghiệp trong quá trình sản xuất 27

Trang 5

2.3 Các khái niệm và định nghĩa về robot công nghiệp 28

2.3.1 Định nghĩa robot công nghiệp 28

2.3.2 Bậc tự do của robot (DOF: Degrees Of Freedom) 29

2.3.3 Hệ tọa độ (Coordinate frames) 29

2.3.4 Trường công tác của robot 31

2.4 Cấu trúc cơ bản của robot công nghiệp 31

2.4.1 Các thành phần chính của robot công nghiệp 31

2.4.2 Kết cấu của tay máy 33

2.5 Phân loại robot công nghiệp 36

2.5.1 Phân loại theo kết cấu 36

2.5.2 Phân loại theo hệ thống truyền động 36

2.5.3 Phân loại theo ứng dụng 36

2.5.4 Phân loại theo cách thức và đặc trưng của phương pháp điều khiển 36

Chương 3: ĐĐIỀU KHIỂN CÁNH TAY ROBOT BẰNG XỬ LÝ ẢNH 38

3.1 Ứng dụng xử lý ảnh trong công nghiệp 38

3.2 Cánh tay robot điều khiển bằng thông tin chiết xuất từ ảnh 39

3.3 Giới thiệu camera Eye-RIC 41

3.4 Xác định vị trí đối tượng bằng xử lý ảnh 45

3.4.1 Xác định vị trí đối tượng hình tròn 45

3.4.2 Xác định vị trí đối tượng hình vuông 47

3.4.3 Xác định vị trí đối tượng hình tròn lẫn với các đối tượng hình vuông trong mặt phẳng chi chi tiết máy 48

3.4.4 Kết quả thực nghiệm 50

KẾT LUẬN 54

TÀI LIỆU THAM KHẢO 55

Trang 6

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

KÝ HIỆU/TỪ

CCD Charge Coupled Device

CMOS Conplementary Metal – Oxide – Semiconductor

PCX Personal Computer Exchange

RLE Run – Length – Encoded

TIFF Targed Image File Format

RGB Red- green- blue

CMY Cyan-Magenta- Yellow

HSV Hue-Saturation-Value

AMF American machijne and Foundry Company

NC Numerically Controlled machine tool

CNC Computer(ized) Numerical(ly) Control(led)

AFNOR Association Française de Normalisation

RIA Robot institule of America

SCARA Selective Compliant Articulated Robot Arm

AI Artificial intelligence

CNN Cellular neural network

Trang 7

DANH MỤC CÁC HÌNH

Hình 1.1 Hệ thống xử lý ảnh 2

Hình 1.2: Tọa độ P và tọa độ các điểm lân cận 11

Hình 1.3: Mô hình màu RGB 12

Hình 1.4: và biểu diễn một đường thẳng 16

Hình 1.5: Đường thẳng Hough trong trục tọa độ 18

Hình 1.6: a) Original image b) Image after gradiant filtering 20

Hình 1.7: c) Hough array visualization d) Image with detected lines 20

Hình 1.8: Hình chữ nhật có gốc tọa độ nằm ở giữa 21

Hình 1.9: Hình chữ nhật trong không gian Hough 22

Hình 1.10: Ảnh nhị phân 24

Hình 1.11: Hiển thị ma trận của phép biến đổi Hough 25

Hình 1.12: Tâm của vòng tròn với bán kính R 26

Hình 2.1 Các tọa độ suy rộng của robot 30

Hình 2.2: Qui tắc bàn tay phải 30

Hình 2.4 Các thành phần chính của hệ thống robot 32

Hình 2.5 Robot kiển tạo độ Đề các 33

Hình 2.6 Robot kiểu tọa độ trụ 34

Hình 2.7 Robot kiểu tọa độ cầu 34

Hình 2.8 Robot hoạt động theo kiểu hệ tọa độ góc 35

Hình 2.9 Robot kiểu SCARA 36

Hình 3.1 a) Vòng bi b) Vòng đệm máy 47

Hình 3.2 a) Ốc máy b) Phụ tùng máy 40

Hình 3.3 Quá trình xử lý 40

Hình 3.4 Cánh tay robot điều khiển bằng thông tin chiết xuất từ hình ảnh 41

Hình 3.5 Sơ đồ hệ thống điều khiển cánh tay robot 50

Hình 3.6 Cameta EyE Rics 42

Trang 8

Hình 3.7 Cài đặt phần mềm ứng dụng 44

Hình 3.8 Bước chọn thư mục cài đặt 44

Hình 3.9 Kết thúc quá trình cài đặt 45

Hình 3.10 Giao diện chính của phần mềm Eye-RIS ADK 10.2 45

Hình 3.11 Tìm tâm hình học của một hình bất kỳ 46

Hình 3.12 Tìm đỉnh và góc lệch của hình vuông 48

Hình 3.13 Không gian thực 56

Hình 3.14 Không gian thực chỉ còn hình tròn 57

Hình 3.15 Thuật toán chung 57

Hình 3.16 Các đuối tượng hình tròn nằm đối xứng nhau 58

Hình 3.17 Thu ảnh hình chòn từ camera Eye-Ric 50

Hình 3.18 Kết quả sau khi xử lý 51

Hình 3.19 Kết quả tính toán 51

Hình 3.20 Thu ảnh từ camera 51

Hình 3.21 Kết quả sau khi xử lý 52

Hình 3.22 Kết quả tính toán 52

Hình 3.23 Thu ảnh từ camera 52

Hình 3.24 Kết quả thu được sau quá trình xử lý 53

Hình 3.25 Kết quả tìm tọa độ các đỉnh và góc lệch 53

Trang 9

MỞ ĐẦU

Trong ngành khoa học máy tính, xử lý ảnh đã được nghiêm cứu và ứng dụng mạnh mẽ trong đời sống như trong y học xử lý ảnh xử dụng trong nhận dạng khối u, cải thiện ảnh X-quang Trong cuộc sống gia đình xử lý ảnh dùng để cải thiện chất lượng ảnh truyền hình Trong Điều khiển và Tự động hóa xử lý ảnh đã có những đóng góp quan trọng đặc biệt là trong lĩnh vực Robot Robot thông minh ngày nay không thể thiếu xử lý ảnh để thực hiện Nhận dạng đối tượng ngoài môi trường nói chung hay trong nhà máy

xí nghiệp Từ việc nhận dạng có thể giải quyết rất nhiều bài toán như gắp vật, tránh vật cản, dò đường,…Các chương trình ứng dụng như: nhận dạng mặt người, nhận dạng vân tay trong điều tra hình sự, xử lý ảnh vệ tinh, kiểm soát giao thông, xử lý ảnh chụp cắt lớp, MRI, chuẩn đoán tế bào trong y học, các chương trình nhận dạng chữ viết đã đem lại nhiều ứng dụng tiện ích cho con người

Nhận dạng đối tượng trong ảnh là vấn đề được nhiều nhà khoa học quan tâm Mục đích chính nhằm tìm ra những đối tượng trong ảnh với thời gian nhỏ nhất Thuật toán tìm kiếm đối tượng dựa trên biến đổi Hough là một trong nhiều phương pháp tìm kiếm đối tượng trong ảnh

Biến đổi Hough là một kỹ thuật có thể dùng để tách ra các đặc điểm của một hình dáng cụ thể trong một ảnh nhị phân Đối tượng có thể có hình dạng bất kỳ miễn là có thể biểu diễn được bằng phương trình toán Các bài toán tìm kiếm từ những mức đơn giản như tìm đường thẳng tới các bài toán phức tạp hơn như tìm hình tròn, hình elipse, hình vuông hoặc các hình phức tạp đều có thể thực hiện bằng biến đổi Hough

Luận văn bao gồm các nội dung chính như sau:

Chương 1: Cở sở lý thuyết xử lý ảnh

Chương 2: Giới thiệu chung về robot công nghiệp

Chương 3: Điều khiển cánh tay robot bằng xử lý ảnh

Do thời gian và trình độ còn hạn chế nên luận văn khó tránh khỏi những thiếu sót, kính mong nhận được sự đóng góp, chỉ bảo của các thầy giáo, cô giáo và các bạn đồng nghiệp

Trang 10

Trang 11

+ Nhiễu hệ thống: là nhiễu có quy luật có thể khử bằng các phép biến đổi + Nhiễu ngẫu nhiên: là vết bẩn không rõ nguyên nhân → khắc phục bằng các phép lọc

+ Tăng số mức xám: thực hiện nội suy ra các mức xám trung gian bằng

kỹ thuật nội suy Kỹ thuật này tăng cường độ mịn cho ảnh

Nhận dạng[1][4]

- Nhận dạng tự động (automatic recognition), mô tả đối tượng, phân loại và phân nhóm các mẫu là những vấn đề quan trọng trong thị giác máy, được

Trang 12

ứng dụng trong nhiều ngành khoa học khác nhau Trong công việc này một câu hỏi quan trọng được đặt ra là: mẫu (pattern) là gì? Watanabe, một trong những người đi đầu trong lĩnh vực này đã định nghĩa: “Ngược lại với hỗn loạn (chaos), mẫu là một thực thể (entity), được xác định một cách ang áng (vaguely defined) và có thể gán cho nó một tên gọi nào đó”

Ví dụ mẫu có thể là ảnh của vân tay, ảnh của một vật nào đó được chụp, một chữ viết, khuôn mặt người hoặc một ký đồ tín hiệu tiếng nói Khi biết một mẫu nào đó, để nhận dạng hoặc phân loại mẫu đó có thể:

o Hoặc phân loại có mẫu (supervised classification), chẳng hạn phân tích phân biệt (discriminant analyis), trong đó mẫu đầu vào được định danh như một thành phần của một lớp đã xác định

o Hoặc phân loại không có mẫu (unsupervised classification hay clustering) trong đó các mẫu được gán vào các lớp khác nhau dựa trên một tiêu chuẩn đồng dạng nào đó Các lớp này cho đến thời điểm phân loại vẫn chưa biết hay chưa được định danh Hệ thống nhận dạng tự động bao gồm ba khâu tương ứng với ba giai đoạn chủ yếu sau đây:

 Thu nhận dữ liệu và tiền xử lý

 Biểu diễn dữ liệu

 Nhận dạng, ra quyết định

Bốn bước tiếp cận khác nhau trong lý thuyết nhận dạng là:

 Đối sánh mẫu dựa trên các đặc trưng được trích chọn

 Phân loại thống kê

 Đối sánh cấu trúc

 Phân loại dựa trên mạng nơ-ron nhân tạo

Trong các ứng dụng rõ ràng là không thể chỉ dùng có một cách tiếp cận đơn

lẻ để phân loại “tối ưu” do vậy cần sử dụng cùng một lúc nhiều phương pháp và cách tiếp cận khác nhau Do vậy, các phương thức phân loại tổ hợp hay được sử

Trang 13

dụng khi nhận dạng và nay đã có những kết quả có triển vọng dựa trên thiết kế các

hệ thống lai (hybrid system) bao gồm nhiều mô hình kết hợp

Việc giải quyết bài toán nhận dạng trong những ứng dụng mới, nảy sinh trong cuộc sống không chỉ tạo ra những thách thức về thuật giải, mà còn đặt ra những yêu cầu về tốc độ tính toán Đặc điểm chung của tất cả những ứng dụng đó là những đặc điểm đặc trưng cần thiết thường là nhiều, không thể do chuyên gia đề xuất, mà phải được trích chọn dựa trên các thủ tục phân tích dữ liệu

1.1.3 Thu nhận ảnh và số hóa

Thu nhận ảnh có thể thông qua camera Các camera có thể là tương tự hoặc

là camera số (loại camera kiểu CCD - Charge Coupled Device) Ảnh cũng có thể được thu qua các thiết bị khác như máy quét… Nếu nhận ảnh được là tương tự nó phải được số hóa nhờ quá trình lấy mẫu và lượng tử hóa trước khi phân tích, xử lý hay lưu trữ ảnh

1.1.4 Phân tích ảnh

Ở giai đoạn này ảnh được xử lý theo nhiều công đoạn nhỏ như: cải thiện ảnh, khôi phục ảnh để làm nổi bật một số đặc tính chính của ảnh hay làm ảnh gần với trạng thái gốc

Cấu tạo của camera (webcam)

Webcam là một loại thiết bị thu nhận ảnh dưới dạng tín hiệu số cấu tạo chung như sau

Trang 14

- Ống kính (Lens): Bao gồm một hệ thống nhiều thấu kính có thể điều chỉnh tiêu cự của camera bằng cách xoay ống kính

- Cảm biến hình ảnh (Image sensors): có thể là CCD hay CMOS (Conplementary Metal – Oxide – Semiconductor)

- Một số thiết bị khác

Cảm biến hình ảnh là thiết bị có khả năng chụp và số hóa ảnh dựa trên nguyên lý tích điện dưới tác dụng của ánh sáng thu nhận được sau đó được số hóa thông qua tính hiệu điện đã được chuyển đổi, trên nguyên tắc làm việc chung đó, cảm biến hình ảnh được chia làm hai lại: CCD và CMOS Tuy nhiên hai cảm biến này được chế tạo theo hai kỹ thuật hoàn toàn khác nhau

+ Cảm biến CCD:

Thành phần cơ bản của sensor CCD quét dòng là một hàng phần tử ảnh silic gọi là photosites Các photo hình ảnh cho qua một cấu trúc cổng đa tinh thể trong suốt và được hấp thụ trong tinh thể silic, do đó tạo nên một cặp lỗ electron Các quang điện tử tạo ra được tập hợp vào các photosite, lượng điện thích được tập hợp trong mỗi photosite tỷ lệ với cường độ chiếu sáng tại điểm đó Một sensor quét dòng điển hình gồm một hàng các phân tử ảnh photosite, hai cổng truyền được sử dụng để chốt nội dung của các thanh ghi vận chuyển và một cổng lối ra được sử dụng để chốt nội dung của các thanh ghi vận chuyển vào bộ khuếch đại, lối ra của

bộ khuếch đại này là một tín hiệu điện áp tỷ lệ với các nội dung của hàng photosite

Để máy tính có thể xử lý, điểm ảnh (x, y) phải được số hóa và về không gian lẫn biên độ (cường độ) Việc số hóa các tọa độ không gian (x, y) được coi như là việc lấy mẫu hình ảnh, trong khi đó việc số hóa biên độ được coi là lượng tử hóa cường độ cho những hình ảnh đơn sắc và phản ảnh bản chất của các ảnh này là biến thiên từ đen tới trắng theo các mức xám khác nhau Hai thuật ngữ cường độ sáng và mức xám có thể dùng hoán chuyển cho nhau

Trang 15

+ Cảm biến CMOS:

Cũng giống như cảm viến CCD, CMOS cũng hấp thụ ánh sáng thông qua mảng diode quang Tuy nhiên, bên trong mỗi pixel diode này được tích hợp một mạch khuếch đại, lọc nhiễu và mạch số hóa để có thể tự động dò tìm photon ảnh sáng hấp thụ được chuyển đổi thành điện áp và trực tiếp truyền tính hiệu đến ngõ ra

Vì thế tín hiệu điện ở ngõ ra là tín hiệu ở dạng số

1.2.2 Lưu trữ ảnh

Ảnh trên máy tính là kết quả thu nhận theo các phương pháp số hóa được nhúng trong các thiết bị kỹ thuật khác nhau Quá trình lưu ảnh nhằm 2 mục đích:

+ Tiết kiệm bộ nhớ

+ Giảm thời gian xử lý

Việc lưu trữ trông tin trong bộ nhớ có ảnh hưởng rất lớn đến việc hiển thị, in

ấn và xử lý ảnh được xem như là một tập hợp các điểm với cùng kích thước nếu sử dụng càng nhiều điểm ảnh thì bức ảnh càng đẹp, càng mịn và càng thể hiện rõ hơn chi tiết của ảnh người ta gọi đặc điểm ngày là độ phân giải

Để lưu trữ ảnh trên máy tính, một số định dạng ảnh như BMP, IMG, PCX, TIFF… + Định dạng ảnh BMP:

Trong đồ họa máy vi tính tập tin ảnh Windows bitmap, là một định dạng tập

tin hình ảnh khá phổ biến Các tập tin đồ họa lưu dưới dạng BMP thường có đuôi

là BMP hoặc DIB (Device Independent Bitmap)

Các thuộc tính tiêu biểu của một tập tin ảnh BMP (cũng như file ảnh nói

chung) là số bit trên mỗi điểm ảnh (bit per pixel), thường được ký hiệu bởi n Một

ảnh BMP n-bit có 2n

màu Giá trị n càng lớn thì ảnh càng có nhiều màu, và càng rõ nét hơn Giá trị tiêu biểu của n là 1 (ảnh đen trắng), 4 (ảnh 16 màu), 8 (ảnh 256 màu), 16 (ảnh 65536 màu) và 24 (ảnh 16 triệu màu) Ảnh BMP 24-bit có chất lượng hình ảnh trung thực nhất

+ Chiều cao của ảnh (height), cho bởi điểm ảnh (pixel)

+ Chiều rộng của ảnh (width), cho bởi điểm ảnh

Trang 16

Cấu trúc tập tin ảnh BMP bao gồm 4 phần

Bitmap Header (14 bytes): giúp nhận dạng tập tin bitmap

Bitmap Information (40 bytes): lưu một số thông tin chi tiết giúp hiển thị ảnh Color Palette (4*x bytes), x là số màu của ảnh: định nghĩa các màu sẽ được

sử dụng trong ảnh

Bitmap Data: lưu dữ liệu ảnh

Đặc điểm nổi bật nhất của định dạng BMP là tập tin hình ảnh thường không được nén bằng bất kỳ thuật toán nào Khi lưu ảnh, các điểm ảnh được ghi trực tiếp vào tập tin - một điểm ảnh sẽ được mô tả bởi một hay nhiều byte tùy thuộc vào giá

trị n của ảnh Do đó, một hình ảnh lưu dưới dạng BMP thường có kích cỡ rất lớn,

gấp nhiều lần so với các ảnh được nén (chẳng hạn GIF, JPEG hay PNG)

Định dạng BMP được hỗ trợ bởi hầu hết các phần mềm đồ họa chạy

trên Windows, và cả một số ứng dụng chạy trên MS-DOS Ngay từ Windows 3.1, Microsoft đã cho ra đời phần mềm PaintBrush, một phần mềm hỗ trợ vẽ hình ảnh

đơn giản và lưu hình ảnh được vẽ dưới dạng BMP 16 hay 256 màu Tuy nhiên, do kích thước tập tin ảnh BMP quá lớn, định dạng BMP không phù hợp để trao đổi hình ảnh qua mạng Internet (do hạn chế về tốc độ truyền dữ liệu) Do đó, các trang web thường sử dụng ảnh dạng GIF, JPEG hay PNG Các định dạng này hỗ trợ các thuật toán nén hình ảnh, vì vậy có thể giảm bớt kích cỡ của ảnh

+ Định dạng ảnh IMG:

Ảnh IMG là ảnh đen trắng, phần đầu của ảnh IMG có 16 byte chứa các thông tin:

- 6 byte đầu: dùng để đánh dấu định dạng ảnh Giá trị của 6 byte này viết dưới dạng Hexa: 0x00010x0008 0x0001

- 2 byte tiếp theo: chứa độ dài mẫu tin Đó là độ dài của dãy các byte kề liền nhau mà dãy này sẽ được lặp lại một số lần nào đó Số lần lặp này sẽ được lưu trong byte đếm Nhiều dãy giống nhau được lưu trong một byte

- 4 byte tiếp: mô tả kích cỡ pixel

- 2 byte tiếp: số pixel trên một dòng ảnh

Trang 17

- 2 byte cuối: số dòng ảnh trong ảnh

Ảnh IMG được nén theo từng dòng, mỗi dòng bao gồm các gói (pack) Các dòng giống nhau cũng được nén thành một gói Có 4 loại gói sau:

Loại 1: Gói các dòng giống nhau Quy cách gói tin này như sau: 0x00 0x00 0xFF Count Ba byte đầu tiên cho biết số các dãy giống nhau, byte cuối cho biết số các dòng giống nhau

Loại 2: Gói các dãy giống nhau Quy cách gói tin này như sau: 0x00 Count Byte thứ hai cho biết số các dãy giống nhau được nén trong gói Độ dài của dãy ghi

ở đầu tệp

Loại 3: Dãy các Pixel không giống nhau, không lặp lại và không nén được Quy cách gói tin này như sau: 0x80 Count Byte thứ hai cho biết độ dài dãy các pixel không giống nhau không nén được

Loại 4: Dãy các Pixel giống nhau Tuỳ theo các bít cao của byte đầu tiên được bật hay tắt Nếu bít cao được bật (giá trị 1) thì đây là gói nén các byte chỉ gồm bít 0, số các byte được nén được tính bởi 7 bít thấp còn lại Nếu bớt cao tắt (giá trị 0) thì đây là gói nén các byte gồm toán bít 1 Số các byte được nén được tính bởi 7 bít còn lại

Các gói tin của file IMG rất đa dạng do ảnh IMG là ảnh đen trắng, do vậy chỉ cần 1 bít cho 1 pixel thay vì 4 hoặc 8 như đã nói ở trên Toàn bộ ảnh chỉ có những điểm sáng và tối tương ứng với giá trị 1 hoặc 0 Tỷ lệ nén của kiểu định dạng này là khá cao

+ Định dạng ảnh PCX:

Định dạng ảnh PCX là một trong những định dạng ảnh cổ điển Nó sử dụng phương pháp mã hóa loạt dài RLE (Run – Length – Encoded) để nén dữ liệu ảnh Quá trình nén và giải nén được thực hiện trên từng dạng ảnh Thực tế, phương pháp giải nén PCX kém hiệu quả hơn so với kiểu IMG Tệp PCX gồm 3 phần: đầu tệp (header), dữ liệu ảnh (Image data) và bảng màu mở rộng Header của tệp PCX có kích thước cố định gồm 128 byte và được phân bố như sau:

Trang 18

- 1 byte: chỉ ra kiểu định dạng Nếu là PCX/PCC thì nó luôn có giá trị là 0Ah

- 1 byte: chỉ ra version sử dụng để nén ảnh, có thể có các giá trị sau:

+ 0: version 2.5

+ 2: version 2.8 với bảng màu

+ 3: version 2.8 hay 3.0 không có bảng màu

+ 5: version 3.0 có bảng màu

+ 1 byte: chỉ ra phương pháp mã hoá Nếu là 0 thì mã hoá theo phương pháp BYTE PACKED, ngược lại là phương pháp RLE

- 1 byte: Số bít cho một điểm ảnh plane

- 1 word: toạ độ góc trái của ảnh Với kiểu PCX nó có giá trị là (0, 0), còn PCC thì khác (0, 0)

- 1 word: toạ độ góc phải dưới

- 1 word: kích thước chiều rộng và chiều cao của ảnh

- 1 byte: không dùng đến và luôn đặt là 0

- 1 byte: số bit plane mà ảnh sử dụng Với ảnh 16 màu, giá trị này là 4, với ảnh 256 màu (1pixel/8bits) thì số bít plane lại là 1

- 1 byte: số bytes cho một dòng quét ảnh

- 1 word: kiểu bảng màu

- 58 byte: không dùng

Định dạng ảnh PCX thường được dùng để lưu trữ ảnh và thao tác đơn giản, cho phép nén và giải nén nhanh Tuy nhiên, vì cấu trúc của nó cố định, nên trong một số

Trang 19

trường hợp làm tăng kích thước lưu trữ Cũng vì nhược điểm này mà một số ứng dụng sử dụng một kiểu định dạng khác mềm dẻo hơn: định dạng TIFF (Targed Image File Format)

1.3 Phân tích ảnh

1.3.1 Khái niệm pixel và pixel lân cận

Pixel là phân tử nhỏ nhất cấu tạo nên hình ảnh Mỗi pixel có một tọa độ (x, y) và màu xác định

P1 (x-1,y-1) P2 (x-1,y) P3 (x-1,y+1)

P4 (x,y-1) P (x,y) P5 (x,y+1)

P6 (x+1, y-1) P7 (x+1, y) P8 (x+1,y+1)

Hình 1.2 Tọa độ P và tọa độ các điểm lân cận

Mỗi pixel P tại các tọa độ (x, y) có ô pixel lân cận theo chiều dọc và chiều ngang và tọa độ tương ứng của các pixel này, như hình trên là:

P2 (x-1,y) P7 (x+1,y)

P4 (x,y-1) P5 (x,y+1) Tập các pixel này gọi là lân cận của P và ký hiệu là N4(p) Mỗi pixel lân cận cách (x, y) một đơn vị và nếu (x, y) ở mép của màn hình thì sẽ có một số pixel lân cận của p nằm ở ngoài hình ảnh Ngoài 4 pixel chéo góc có các tọa độ tương ứng là:

P1 (x-1,y-1) P3 (x-1,y+1)

P6 (x+1,y-1) P8 (x+1,y+1) Tập các pixel này được ký hiệu là ND(p) Bốn pixel này cùng với 4 pixel ở trên tạo thành 8 pixel lân cận của P và được ký hiệu là N8(p) Tập hợp này cũng sẽ

có một số pixel ở bên ngoài hình ảnh nếu (x, y) nằm ở mép ngoài của hình ảnh

1.3.2 Một số không gian màu

Không gian màu RGB:

Trang 20

+ Mô hình màu RGB sử dụng mô hình bổ sung trong đó ánh sáng đỏ, xanh

lá cây và xanh lam được tổ hợp với nhau theo nhiều phương thức khác nhau để tạo thành các màu khác Từ viết tắt RGB trong tiếng Anh có nghĩa là đỏ (red), xanh lá cây (green) và xanh lam (blue), là ba màu gốc trong các mô hình ánh sáng bổ sung

Hình 1.3: Mô hình màu RGB

+ Cũng lưu ý rằng mô hình màu RGB tự bản thân nó không định nghĩa thế nào là “đỏ”, “xanh lá cây” và “xanh lam” một cách chính xác, vì thế với cùng các giá trị như nhau của RGB có thể mô tả các màu tương đối khác nhau trên các thiết

bị khác nhau có cùng một mô hình màu Trong khi chúng cùng chia sẻ một mô hình màu chung, không gian màu thực sự của chúng là dao động một cách đáng kể

Mô hình màu CMY

+ Từ CMYK (hay đôi khi là YMCK) là từ viết tắt trong tiếng Anh để

chỉ mô hình màu loại trừ sử dụng trong in ấn màu Mô hình màu này dựa trên

cơ sở trộn các chất màu của các màu sau:

C=Cyan trong tiếng Anh có nghĩa là màu xanh lơ M=Magenta trong tiếng Anh có nghĩa là màu hồng sẫm Y=Yellow trong tiếng Anh có nghĩa là màu vàng

Trang 21

K=Key (trong tiếng Anh nên hiểu theo nghĩa là cái gì đó then

chốt hay chủ yếu để ám chỉ màu đen mặc dù màu này có tên tiếng

Anh là black do chữ B đã được sử dụng để chỉ màu xanh lam (blue)

trong mô hình màu RGB để tạo các màu khác

+ Hỗn hợp của các màu CMY lý tưởng là loại trừ (các màu này khi in cùng một chỗ trên nền trắng sẽ tạo ra màu đen) Nguyên lý làm việc của CMYK là trên cơ sở hấp thụ ánh sáng Màu mà người ta nhìn thấy là từ phần của ánh sáng không bị hấp thụ Trong CMYK hồng sẫm cộng với vàng sẽ cho màu đỏ, hồng sẫm cộng với xanh lơ cho màu xanh lam, xanh lơ cộng với vàng sinh ra màu xanh lá câyvà tổ hợp của các màu xanh lơ, hồng sẫm và vàng tạo ra màu đen

+ Vì màu “đen” sinh ra bởi việc trộn các màu gốc loại trừ là không thực sự giống như mực đen thật sự hay màu đen của vật đen tuyệt đối (là vật hấp thụ toàn bộ ánh sáng), việc in ấn trên cơ sở bốn màu (đôi khi gọi là in các màu mặc dù điều này không chính xác) phải sử dụng mực đen để bổ sung thêm vào với các màu gốc loại trừ là các màu vàng, hồng sẫm và xanh lơ + Việc sử dụng công nghệ in ấn bốn màu sinh ra kết quả in ấn cuối cùng rất cao cấp với độ tương phản cao hơn Tuy nhiên màu của vật thể mà người ta nhìn thấy trên màn hình máy tính thông thường có sự sai khác chút ít với màu của nó khi in ra vì các mô hình màu CMYK và RGB (sử dụng trong màn hình máy tính) có các gam màu khác nhau Mô hình màu RGB là mô hình dựa trên cơ sở phát xạ ánh sáng (màu bổ sung) trong khi mô hình CMYK làm việc theo cơ chế hấp thụ ánh sáng (màu loại trừ)

Mô hình màu HSV

+ Là một không gian màu dựa trên ba số liệu:

H: (Hue) Vùng màu S: (Saturation) Độ bão hòa màu V: (Value) Độ sáng

Trang 22

1.3.3 Một số kỹ thuật trợ giúp xử lý ảnh

Kỹ thuật lọc số

o Chất lượng hình ảnh kém do rất nhiều nguyên nhân như do nhiễm điện từ của máy thu hay chất lượng bộ số hóa kém Nhiễu ảnh số được xem như là sự dịch chuyển nhanh của tín hiệu thu nhận trên một khoảng cách ngắn Về mặt tần số, nhiễu ứng với các thành phần tần số cao trong ảnh Nhưng vậy để xử lý nhiễu ta có thể lọc các thành phần tần số cao Việc lọc dựa vào tính dư thừa thông tin không gian: các pixel lân cận có thể có ảnh gốc Tùy theo cách tổ hợp điểm đang xét với các điểm lân cận mà ta có kỹ thuật lọc tuyến tính hay kỹ thuật lọc phi tuyến Điểm ảnh chịu tác động của biến đổi là điểm ở tâm của mặt nạ Các kỹ thuật lọc này được trình bày kỹ trong phần làm trơn ảnh

1.3.4 Biên và các phương pháp phát hiện biên[1][4][7]

Biên là vấn đề quan trọng trong trích chọn đặc điểm nhằm tiến tới hiểu ảnh Cho đến nay chưa có định nghĩa chính xác về biên, trong mỗi ứng dụng người ta đưa ra các độ đo khác nhau về biên, một trong các độ đo đó là một độ đo về sự thay đổi đột ngột về cấp xám

Ví dụ: Đối với khung ảnh đen trắng, một điểm được gọi là điểm biên nếu nó

là điểm đen có ít nhất một điển trắng bên cạnh Tập hợp các điểm biên tạo nên biên hay đường bao của đối tượng Xuất phát từ cơ sở này người ta thường sử dụng hai phương pháp phát hiện biên cơ bản:

Phương pháp phát hiện biên trực tiếp: Phương pháp này làm nổi biên dựa vào sự biến thiên mức xám của ảnh Kỹ thuật chủ yếu dùng để phát hiện biên ở đây

là kỹ thuật lấy đạo hàm Nếu lấy đạo hàm bậc nhất của ảnh ta có các kỹ thuật Gradient, nếu lấy đạo hàm bậc hai của ảnh ta có kỹ thuật Laplace Ngoài ra còn có một số các tiếp cận khác

Trang 23

Phát hiện biên gián tiếp: Nếu bằng cách nào đó ta phân được ảnh thành các vùng thì ranh giới giữa các vùng đó gọi là biên Kỹ thuật tìm biên và phân vùng ảnh

là hai bài toàn đối ngẫu nhau vì tìm biên để thực hiện phân lớp đối tượng mà khi đã phân lớp xong nghĩa là đã phân vùng được ảnh và ngược lại, khi đã phân vùng ảnh

đã được phân lớp thành các đối tượng, do đó có thể phát hiện được biên

Phương pháp phát hiện biên trực tiếp tỏ ra khá hiệu quả và ít chịu ảnh hưởng của nhiễu, song nếu sự biến thiên độ sáng không đột ngột, phương pháp tỏ ra kém hiệu quả, phương pháp phát hiện biên gián tiếp tuy khó cài đặt, song lại khá tốt trong trường hợp này Sự khác biệt cơ bản giữa hai phương pháp này là: Phương pháp phát hiện biên trực tiếp cho ta kết quả là ảnh biên, còn phương pháp phát hiện biên trực tiếp cho ta kết quả là đường biên

1.4 Biến đổi Hough

1.4.1 Biến đổi Hough tổng quát [9]

Biến đổi Hough là một kỹ thuật có thể dùng để tách ra các đặc điểm của một hình dáng cụ thể trong một ảnh nhị phân Khi dùng các chương trình máy tính để nhận diện một đối tượng nào đó có hình dạng bất kỳ, phương pháp hữu hiệu hiện nay là sử dụng biến đổi Hough Các bài toán tìm kiếm từ những mức đơn giản như tìm đường thẳng tới các bài toán phức tạp hơn như tìm hình tròn, hình elipse hoặc các hình phức tạp đều có thể thực hiện bằng biến đổi Hough (với điều kiện các hình dạng này biểu diễn toán học được)

- Biến đổi Hough tìm đường thẳng

Không gian ảnh và không gian tham số trong biến đổi Hough

Trang 24

Hình 1.4: và biểu diễn một đường thẳng

Mỗi một đường thẳng có một bộ thông số ( , )

Trên hệ toạ độ Đề các một đường thẳng có hình dạng như trên hình 1.4

Mỗi một điểm sẽ có một toạ độ (xi, yi) trong trục toạ độ này Nếu chúng ta dùng tham số (độ dài đường vuông góc từ gốc toạ độ đến đường thẳng) và (góc giữa đường vuông góc với trục x) để biểu diễn đường thẳng thì chúng ta đã biểu diễn đường thẳng qua thông gian tham số

Chúng ta có quan hệ

)sin(

*)sin(

)cos(

x

y hay = x*cos( )+y*sin( ) (1.1)

Các giá trị và có giới hạn trong giới hạn [0, 3600] hoặc [0, 2 ] radian trong giới hạn [−D, D] trong đó D là đường chéo của ảnh Như vậy một đường có thể biến đổi thành một điểm trong không gian tham số với các thông số và , không gian này cũng được gọi là không gian Hough Kết quả của biến đổi Hough được lưu giữ trong một ma trận gọi là accumulator Một chiều của ma trận này là các giá trị (giá trị góc) và chiều kia là các giá trị (khoảng cách) and each element has a value telling how many points/pixels are on the line with the parameters (rho, theta) So the element with the highest value tells what line is most represented in the input image

Các bước biến đổi Hough đơn giản cho đường thẳng:

1 Nạp ảnh

Trang 25

2 Tìm các biên trong ảnh (dùng một trong các phương pháp tìm biên)

3 Với mọi pixels trong ảnh

Nếu pixel (x, y) là một điểm biên (edge) với mọi giá trị góc tính và góc ( ) với mọi pixel (x, y) tăng vị trí ( , ) trong accumulator

4 Vẽ không gian Hough

5 Tìm giá trị lớn nhất trong accumulator

6 Vẽ đường với giá trị lớn nhất trong ảnh đầu vào

Để tìm các đường tròn sử dụng biểu thức

(x -a)2 + (y-b)2 = r2 (1.2) Chúng ta có 3 tham số Nếu viết lại phương trình trên chúng ta nhận được

a = x – r*cos( ) (1.3)

b = y - r*sin( ) (1.4) Như vậy chúng ta cần một mảng cấu trúc dữ liệu accumulator 3 chiều (3D) lấy trong giới hạn 3600 Sau khi ảnh toàn thể đã được xử lý, accumulator sẽ trông

giống như hình bên phải Mảng accumulator thì được vẽ với r trên trục y và theta

cắt chéo qua trục x (across the x-axis) Các đường trong đường cong accumulator - đường vật lý mạnh nhất trong ảnh đầu vào tương ứng với các vùng đen nhất trên accumulator

Ví dụ biến đổi Hough tìm đường thẳng [10]

Ý tưởng: Tìm các đường thẳng trong một ảnh được thông số hoá ở

dạng: r = xcos + ysin , trong đó r là khoảng cách vuông góc từ gốc toạ độ

đến đường thẳng và là góc của r với trục x Với mọi điểm (x, y) trên đường này r và là hằng số Với N điểm thẳng hàng trong toạ độ Đề các có phương

trình r = xcos + ysin Biến đổi Hough sẽ chuyển N điểm này thành N đường

hình sin trong mặt phẳng (r, ), chúng giao nhau ở điểm (r, )

Trang 26

Hình 1.5: Đường thẳng Hough trong trục tọa độ

Thuật toán:

Input: Ảnh nguyên bản ở dạng mảng 2 chiều: Image1[xMax][yMax]

Output: Ảnh mới: Image2 [xMax][yMax] chứa các đường thẳng tìm được Intermediate data structure: Hough [tMax][rMax] to calculate the

corresponding lines

xMax, yMax: Kích thước ảnh

tMax: Giới hạn lớn nhất của góc tìm kiếm; Chẳng hạn 3600

x, y toạ độ trong không gian ảnh

Algorithm:

/* Tạo mảng Hough*/

for (x=0; x< xMax; x++){ // Tìm khắp

for (y=0 ; y< yMax ; y++){ // các pixel trong ảnh

if ( Image1[x][y] > IThresh){ // Nếu độ sáng điểm ảnh > ngưỡng độ sáng for (t=0 ; t< tMax ; t++){ // Xem trong khoảng góc tìm kiếm

Trang 27

for (t = 0; t < tMax / 2; t++) // Tìm trong nửa giới hạn góc

for (r = 0; r < rMax; r++) // Tìm trong giới hạn r

if (Hough[t][r] > Hthresh) // Nếu số điểm Hough > ngưỡng đặt trước {

/* Kiểm tra các láng giềng với max */

max = TRUE;

for (dt = (t - 2); dt <= (t + 2); dt++) // Tìm trong cửa số

for (dr = (r - 2); dr <= (r + 2); dr++) // 5 x 5

if ((dr >= 0) && (dr < rMax) && (dt >= 0) && (dt < tMax) &&

(Hough[dt][dr] > Hough[t][r])) // Nếu cả 5 điều kiện này đều

// đúng thì max = FALSE {

Trang 28

}

Hình 1.6: a) Original image b) Image after gradiant filtering

Hình 1.7: c) Hough array visualization d) Image with detected lines

1.4.2 Biến đổi Hough tìm hình chữ nhật [11]

Xét một hình chữ nhật với các đỉnh P1 = (x1, y1), P2 = (x2, y2), P3 = (x3, y3) và

P4=(x4, y4), với P1P2 và P3P4 hai mặt song song với chiều dài a, cũng nhƣ P2P3 và

P4P1 với chiều dài b Ngoài ra, chúng ta hãy giả định rằng gốc của hệ tọa độ nằm ở trung tâm của hình chữ nhật

Trang 29

Hình 1.8: Hình chữ nhật có gốc tọa độ nằm ở giữa

Hough Transform (HT), có thể được sử dụng để phát hiện các hình dạng tùy

ý (kể cả hình chữ nhật) Tuy nhiên, một hình chữ nhật chung có 5 thành phần: hai tọa độ của các trung tâm, chiều rộng, chiều cao và hướng Điều này sẽ đòi hỏi bộ nhớ và tính toán mạnh

Một số công việc đã được thực hiện về mô tả hình dạng trong không gian Hough Rosenfeld và Weiss đã chứng minh rằng một lồi đa giác là duy nhất được xác định bởi các đỉnh của nó (trên thực tế, những đỉnh tạo thành cạnh lồi của đa giác) Tuy nhiên, chúng ta phải đối mặt với một vấn đề khác nhau: phát hiện hình chữ nhật trong hình ảnh có chứa một số đối tượng Một hình chữ nhật có liên hệ hình học cụ thể, có thể được trực tiếp phát hiện trong không gian Hough hình ảnh của hình chữ nhật trong không gian Hough

Trang 30

Hình 1.9: Hình chữ nhật trong không gian Hough

3 Hai cặp được phân cách bằng Δθ = 900 ở trên trục θ, nghĩa là | α1 – α0 | = 900

4 Chiều cao của hai đỉnh trong cùng một cặp là giống hệt nhau, và đại diện cho chiều dài của đoạn đường tương ứng, ví dụ, C (ρ1, θ1) = C (ρ2, θ2) = b và C (ρ3,

Trang 31

mạnh hơn trong sự hiện diện của các cấu trúc khác, và khám phá mạnh mẽ trong công việc này để phát hiện hình chữ nhật trong hình ảnh

+ Thuật toán tìm hình chữ nhật:

Ý tưởng cơ bản của thuật toán là để tìm kiếm mỗi điểm ảnh (x, y) của hình ảnh, tính toán HT của cạnh hình ảnh trong một khu vực nhất định tâm tại (x, y), tìm đỉnh có liên quan của HT, và sử dụng các điều kiện được mô tả trong mục trước để xác định có một hình chữ nhật tâm tại (x, y)

Chúng ta hãy xem xét một điểm ảnh (x0, y0), và một khu vực lân cận trung tâm tại (x0, y0) Khu vực này phải đủ lớn để chứa tất cả các cạnh của bất kỳ hình chữ nhật có thể tập trung tại (x0, y0) Mặt khác, nó phải là càng nhỏ càng tốt, để tránh cạnh thuộc các cấu trúc khác (và / hoặc cạnh liên quan đến nhiễu)

Một khu vực tìm kiếm phù hợp là một vòng tròn có đường kính Dmin và đường kính ngoài Dmax Lựa chọn các thông số này được thực hiện dựa trên các kích thước của hình chữ nhật được phát hiện: Dmin nên được xấp xỉ bằng nhỏ nhất kích thước của bất kỳ hình chữ nhật có thể, và Dmax gần bằng với đường chéo lớn nhất của bất kỳ mặt hình chữ nhật trong hình ảnh Lựa chọn như các thông số đảm bảo rằng bất kỳ hình chữ nhật trong hình ảnh sẽ có tất cả các cạnh của nó trong khu vực tìm kiếm (khi trung tâm của khu vực tìm kiếm phù hợp các trung tâm của hình chữ nhật)

4

3 ,

1.4.2 Biến đổi Hough tìm đường tròn

Sử dụng phương trình đường tròn tổng quát:

2 2

2

) (

) ( x a y b

Định dạng
Số trang	63
Dung lượng	1,16 MB