1. Trang chủ
  2. » Công Nghệ Thông Tin

Giải thuật rừng ngẫu nhiên giải bài toán phân đoạn ảnh theo đối tượng

66 588 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 66
Dung lượng 1,7 MB

Nội dung

Chương 3 trình bày về định nghĩa bài toán phân đoạn ảnh theo đối tượng và ứng dụng, mô hình giải thuật rừng ngẫu nhiên để giải quyết bài toán.. Các nghiên cứu được nhanh chóng phát triển

Trang 1

Hà Nội – 2015

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

Trang 3

TÓM TẮT NỘI DUNG LUẬN VĂN TỐT NGHIỆP

Vấn đề phát hiện, nhận dạng, phân tách và hiểu ngữ nghĩa của đối tượng trong ảnh đã được nghiên cứu rộng rãi trong trong lĩnh vực thị giác máy tính hàng thập kỷ qua Đây là bài toán có ý nghĩa thực tiễn rất lớn trong nhiều lĩnh vực của đời sống

Mục đích đề tài nhằm nghiên cứu tổng quan về bài toán phân đoạn ảnh theo đối tượng (Object Segmentation), cài đặt và chạy thử nghiệm chương trình phân đoạn ảnh Trên cơ sở đó, đề xuất giải thuật rừng ngẫu nhiên nhằm nâng cao chất lượng của ảnh đầu ra, so sánh và đưa ra đánh giá về hiệu năng của các giải thuật

Cấu trúc của luận văn gồm năm chương với nội dung chính sau:

Chương 1 trình bày các kiến thức cơ sở về ảnh số và xử lý ảnh làm nền tảng

lý thuyết cho các chương tiếp theo

Chương 2 trình bày tổng quan về giải thuật rừng ngẫu nhiên và ứng dụng Chương 3 trình bày về định nghĩa bài toán phân đoạn ảnh theo đối tượng và ứng dụng, mô hình giải thuật rừng ngẫu nhiên để giải quyết bài toán

Chương 4 trình bày kết quả thực nghiệm của luận văn, so sánh và đánh giá hiệu năng của các thuật toán

Chương 5 trình bày về kết luận và hướng phát triển của luận văn

Trang 4

ABSTRACT OF THESIS

The problem of discovering, realizing, segmenting objects in image, which has contributed to life improvement in many fields like: Searching images, Robitics…,has been researched and developed widely in computer vision field for centuries up till now all around the world

The purpose of this thesis is reserched object segmentation problem Moreover, researching the improvement image parameters using genetic algorithm

is also strongly taken into consideration with the main purpose of finding out its meaning in real life by comparing and assessing efficiency of algorithms With 5 chapters of thesis with reference from reliable information from books and internet,

I do hope this problem will be solved thoroughly through this thesis Every step of developing the problem solving is defined clearly in each chapter below:

Chapter 1: Basic knowledge of digital image, image processing

Chapter 2: Basic knowledge of random forest and its applications

Chapter 3: Defining object segmentation and its applications, apply random forest model to solve object segmentation problem

Chapter 4: The experimental results, comparision and efficiency assessment

of algorithms

Chapter 5: Conclusions and further work

Trang 5

LỜI CẢM ƠN

Trước hết, em xin được chân thành gửi lời cảm ơn sâu sắc tới các thầy cô giáo trong Viện Công nghệ Thông tin và Truyền thông đã tận tình giảng dạy, truyền đạt cho em những kiến thức và những kinh nghiệm quý báu trong suốt 1,5 năm học tập

và rèn luyện tại trường Đại học Bách Khoa Hà Nội

Em xin được gửi lời cảm ơn đến TS Huỳnh Thị Thanh Bình - Giảng viên bộ môn Khoa học máy tính, Viện Công nghệ Thông tin và Truyền thông, trường Đại học Bách Khoa Hà Nội đã hết lòng giúp đỡ, hướng dẫn và chỉ dạy tận tình trong quá trình em làm luận văn cao học Đồng thời, em xin gửi lời cảm ơn tới thầy Đinh Viết Sang, các bạn trong tập thể CNTT2 khóa 2013B, các em sinh viên K55, đặc biệt là

em Nguyễn Tiến Quảng K55 đã cùng giúp đỡ, hỗ trợ em trong suốt quá trình nghiên cứu và thực hiện luận văn này

Cuối cùng, em xin được gửi lời cảm ơn chân thành tới gia đình, bạn bè đã quan tâm, động viên, đóng góp ý kiến và giúp đỡ trong quá trình học tập, nghiên cứu và hoàn thành luận văn tốt nghiệp

Hà Nội, ngày 12 tháng 3 năm 2015

Mai Đình Lợi

Lớp CNTT2 – Khóa 2013B Viện CNTT & TT

Đại học Bách Khoa Hà Nội

Trang 6

LỜI MỞ ĐẦU

Trong thập niên đầu của thế kỷ 21, học máy được nghiên cứu và phát triển mạnh mẽ, đánh dấu bước ngoặt quan trọng thay đổi nền tảng nghiên cứu của Trí tuệ nhân tạo Học máy liên quan đến việc xây dựng các chương trình máy tính có thể tự động thu thập tri thức, cải thiện khả năng của mình thông qua các kinh nghiệm, và việc nghiên cứu các nguyên lý của quá trình học Các kết quả và công nghệ của học máy được thể hiện qua các ứng dụng đa dạng trong thực tế trong các lĩnh vực như:

xử lý ngôn ngữ tự nhiên, thị giác máy tính, tìm kiếm và nhận dạng, robotics, khai phá dữ liệu, v.v

Thị giác máy tính, một lĩnh vực nghiên cứu liên ngành, liên quan đến việc nghiên cứu các lĩnh vực khoa học và công nghệ về các hệ thống máy móc có khả năng nhìn và hiểu như hệ thống thị giác con người Đây là một lĩnh vực được quan tâm nghiên cứu rộng rãi trong một vài thập niên gần đây bởi những ứng dụng thực

tế đa dạng của nó Một số ứng dụng có thể kể đến là: tự động hóa trong dây chuyền sản xuất công nghiệp, viễn thám, giám sát giao thông, bảo mật bằng sinh trắc học, y học, an ninh, web 3D, giải trí…

Vấn đề phát hiện, nhận dạng, phân tách và hiểu ngữ nghĩa của đối tượng trong ảnh/video đã được nghiên cứu rộng rãi trong trong lĩnh vực thị giác máy tính hàng thập kỷ qua Các nghiên cứu được nhanh chóng phát triển nhờ những tiến bộ trong một số lĩnh vực liên quan như: việc phát triển các mô hình toán học phức tạp, các nghiên cứu chuyên sâu về nhận thức tri giác (cognitive vision), năng lực của các

hệ thống tính toán, các giải thuật thông minh, cũng như đòi hỏi của kiểm thử trên các bộ dữ liệu lớn

Mặc dù đã có rất nhiều kết quả nghiên cứu khả quan về phát hiện và nhận dạng đối tượng thì đây vẫn còn là một thách thức trong lĩnh vực thị giác máy bởi các đối tượng có những tính chất và thể hiện rất khác nhau Ngoài ra các đối tượng trong cùng một lớp cũng rất đa dạng Điều này yêu cầu các đặc trưng được trích

Trang 7

chọn phải có tính phân biệt cao cho các đối tượng trong các lớp khác nhau, và các thuật toán học phải có khả năng phân tách hiệu quả các lớp trên không gian đặc trưng của đối tượng Hơn thế nữa mỗi đối tượng có một loạt các đặc trưng và mỗi đặc trưng có một vai trò khác nhau trong việc nhận dạng đối tượng Các giải thuật học tiên tiến phải có khả năng vừa kết hợp được nhiều đặc trưng vừa trích rút, đưa

ra các mức ưu tiên khác nhau cho các đặc trưng, cao hơn nữa là kết hợp chúng với yếu tố ngữ cảnh và mức đáp ứng của các bộ phân lọai một cách hiệu quả Bên cạnh

đó, nhiều ứng dụng thị giác máy tính yêu cầu thời gian thực Ví dụ: hệ thống camera cảnh báo vật cản giúp lái xe an toàn, robot phải hiểu các cử chỉ điều khiển

và đáp ứng lại ngay cử chỉ điều khiển đó Do đó, các thuật toán học ứng dụng cho thị giác máy tính phải có thời gian tính toán ít Cuối cùng, các thuật toán học truyền thống thường yêu cầu xây dựng cơ sở dữ liệu hoàn chỉnh ngay từ ban đầu Việc xây dựng cơ sở dữ liệu là một công việc khó khăn, tốn kém về thời gian, sức người và trong nhiều trường hợp không thể thực hiện được Các giải thuật học mới có thể cho phép xây dựng dần dần cơ sở dữ liệu trong quá trình hoạt động của hệ thống, thích ứng với sự biến động của môi trường cũng như sự biến đổi của đối tượng theo thời gian

Bài toán phân đoạn ảnh theo đối tượng (object segmentation) là bài toán cơ bản trong lĩnh vực thị giác máy tính Hiện tại, các nhà nghiên cứu trên thế giới đã đưa ra rất nhiều mô hình cho bài toán này, cũng như các cải tiến để nâng cao hiệu năng phân đoạn ảnh, nhưng các kết quả đưa ra vẫn còn một vài hạn chế như : tỷ lệ ảnh gán nhãn đúng chưa cao (xấp xỉ 75%), tập nhãn giới hạn và một số nhãn có kết quả tương đối thấp

Luận văn này tập trung nghiên cứu mô hình giải thuật rừng ngẫu nhiên giải quyết bài toán, đồng thời đề xuất giải thuật để cải thiện hiệu năng của bài toán Qua đó đưa ra các đánh giá và hướng phát triển tiếp theo của bài toán phân đoạn ảnh theo đối tượng

Trang 8

MỤC LỤC

TÓM TẮT NỘI DUNG LUẬN VĂN TỐT NGHIỆP iii

ABSTRACT OF THESIS iv

LỜI CẢM ƠN v

LỜI MỞ ĐẦU vi

MỤC LỤC viii

DANH MỤC HÌNH VẼ x

DANH MỤC CÁC BẢNG xi

DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ xii

CHƯƠNG I: CƠ SỞ LÝ THUYẾT 2

I TỔNG QUAN VỀ XỬ LÝ ẢNH 2

1 Một số khái niệm 2

1.1 Điểm ảnh - Pixel (Picture Element) 2

1.2 Ảnh số 3

1.3 Độ phân giải của ảnh 4

1.4 Mức xám của ảnh 5

2 Các phép biến đổi ảnh 5

2.1 Tăng cường ảnh, khôi phục ảnh 5

2.2 Biến đổi ảnh 6

2.3 Phân tích ảnh 6

2.4 Nhận dạng ảnh 7

2.5 Nén ảnh 8

II TỔNG QUAN VỀ CÂY QUYẾT ĐỊNH 9

1 Cây quyết định 9

2 Xây dựng cây quyết định 10

3 Thuật toán xây dựng cây quyết định dựa trên Entropy 11

3.1 Tiêu chí chọn thuộc tính phân lớp 11

3.2 Thuật toán ID3 12

CHƯƠNG II: GIẢI THUẬT RỪNG NGẪU NHIÊN VÀ 14

ỨNG DỤNG 14

1 Tổng quan giải thuật rừng ngẫu nhiên 14

1.1 Lịch sử nghiên cứu 14

1.2 Bootstrap và Bagging 16

1.3 Sơ đồ giải thuật 17

2 Một số đặc điểm của RF 18

2.1 OOB (Out-of-bag) 18

2.2 Thuộc tính quan trọng 18

3 Ứng dụng 18

Trang 9

3.1 Giải thuật rừng ngẫu nhiên xiên phân RF-ODT trong bài toán nhận

dạng dấu vân tay 18

3.2 Giải thuật rừng ngẫu nhiên trong bài toán phân loại dữ liệu gen 21

CHƯƠNG III: GIẢI THUẬT RỪNG NGẪU NHIÊN TRONG BÀI TOÁN ĐOẠN ẢNH THEO ĐỐI TƯỢNG 22

I BÀI TOÁN PHÂN ĐOẠN ẢNH THEO ĐỐI TƯỢNG 22

1 Giới thiệu bài toán 22

2 Các ứng dụng của bài toán phân đoạn ảnh theo đối tượng 25

2.1 Tự động phân loại ảnh 25

2.2 Tổng hợp ảnh ngữ nghĩa 26

2.3 Biên tập hình ảnh 27

3 Các nghiên cứu liên quan 28

II GIẢI THUẬT RỪNG NGẪU NHIÊN TRONG BÀI TOÁN PHÂN ĐOẠN ẢNH THEO ĐỐI TƯỢNG 31

1 Tổng quan giải thuật 31

2 Mô hình trường ngẫu nhiên Markov (Markov random fields) 35

3 Cải tiến thuật toán STF sử dụng mô hình trường ngẫu nhiên Markov 38

CHƯƠNG IV: KẾT QUẢ THỰC NGHIỆM 41

1 Bộ dữ liệu thử nghiệm 41

1 1 Bộ dữ liệu MSRC 21-lớp 41

1.2 Bộ dữ liệu Pascal VOC 2007 42

2 Độ đo 43

3 Môi trường thử nghiệm 44

4 Kết quả thử nghiệm và so sánh 44

4.1 Kết quả thử nghiệm bộ MSRC 21-class 45

4.2 Kết quả thử nghiệm bộ dữ liệu Pascal VOC 2007 48

5 Tham số thử nghiệm 50

6 Nhận xét 50

CHƯƠNG V: KẾT LUẬN 52

I ĐÁNH GIÁ 52

1 Các kết quả đạt được 52

2 Hạn chế 52

II HƯỚNG PHÁT TRIỂN 52

TÀI LIỆU THAM KHẢO 53

Trang 10

DANH MỤC HÌNH VẼ

Hình 1: Biểu diễn ảnh số 4

Hình 2: Ví dụ về cây quyết định 9

Hình 3: Phân hoạch đơn thuộc tính (trái), phân hoạch đa thuộc tính (phải) 15

Hình 4: Đặc trưng của ảnh vân tay dùng cho nhận dạng 19

Hình 5: Ví dụ về phân đoạn ảnh không giám sát (sử dụng thuật toán mean-shift [5]) 23

Hình 6: Ví dụ về bài toán nhận dạng đối tượng 23

Hình 7: Ví dụ về bài toán phân đoạn ảnh theo đối tượng 24

Hình 8: Phân loại ảnh tự động theo chủ đề dựa vào các nhãn trong ảnh 26

Hình 9: Chương trình tổng hợp thông tin ngữ nghĩa 27

Hình 10: Chương trình biên tập ảnh 28

Hình 11: Cây nhị phân với hàm phân chia nút  và ngưỡng  31

Hình 12: Mô tả rừng ngẫu nhiên 32

Hình 13: Ví dụ một số thành phần ngữ nghĩa về vân ảnh (Semantic Textons) 34

Hình 14: Vec tơ xác suất 21 chiều ứng với xác suất thuộc về mỗi nhãn lớp 34

Hình 15: Mô phỏng biểu diễn đồ thị lưới các pixel (y) được gán nhãn( x) 36

Hình 16: Mô phỏng thuật toán TRWS 38

Hình 17: Mô hình cải tiến STF sử dụng MRF 39

Hình 18: Bộ dữ liệu MSRC 21-class Cột a-d là một số ảnh trong bộ dữ liệu Cột e là ảnh đã gán nhãn sẵn của các ảnh trong cột d 42

Hình 19: Bộ dữ liệu VOC 2007 Cột 1 là một ảnh trong bộ dữ liệu Cột 2,3 là ảnh đã gán nhãn sẵn của ảnh trong cột 1 43

Hình 20: Hình ảnh kết quả trên bộ dữ liệu MSRC, 47

Hình 21: Kết quả ảnh đầu ra trên bộ dữ liệu VOC 2007 48

Trang 11

DANH MỤC CÁC BẢNG

Bảng 1: Cấu hình hệ thống thử nghiệm 44

Bảng 2 Kết quả tốt nhất tìm được của giải thuật RF sau khi chạy 20 lần trên bộ dữ liệu MSRC 46

Bảng 3: Kết quả trung bình trên bộ dữ liệu MSRC các thuật toán: Joint boost, STFs và 2 thử nghiệm trong luận văn 47

Bảng 4: Bảng kết quả (tỉ lệ phần trăm) trên bộ dữ liệu VOC 2007 49

Bảng 5 Số lượt chạy thử nghiệm các giải thuật 50

Bảng 6 Thông số cài đặt giải thuật 50

Trang 12

DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ

STFs Semantic Texton Forests Giải thuật rừng ngẫu nhiên dựa

trên ngữ nghĩa đặc trưng vân của

ảnh MRF Markov random fields Mô hình trường ngẫu nhiên

Markov CART Classification and Regression

Trees

Giải thuật phân loại hồi quy trên

cây MSRC 21-

class

Microsoft Research Cambridge 21-class

Bộ dữ liệu của Microsoft Research Cambridge, gồm 21 nhãn PASCAL

Trang 13

CHƯƠNG I: CƠ SỞ LÝ THUYẾT

I TỔNG QUAN VỀ XỬ LÝ ẢNH

Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng vai trò quan trọng nhất Những năm trở lại đây với sự phát triển của phần cứng máy tính, xử lý ảnh và đồ hoạ đó phát triển một cách mạnh mẽ và có nhiều ứng dụng trong cuộc sống

Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác người máy.Xử lý ảnh cũng là một trong những mảng quan trọng nhất trong lĩnh vực thị giác máy tính, là tiền

đề cho nhiều nghiên cứu thuộc lĩnh vực này Hai nhiệm vụ cơ bản của quá trình xử lý ảnh là nâng cao chất lượng thông tin hình ảnh và xử lý số liệu cung cấp cho các quá trình khác trong đó có việc ứng dụng thị giác vào điều khiển

Trong các dạng truyền thông cơ bản: lời nói, văn bản, hình ảnh, âm thanh thì hình ảnh là dạng truyền thông truyền tải thông tin mạnh mẽ nhất Quá trình bắt đầu từ việc thu nhận ảnh nguồn (từ các thiết bị thu nhận ảnh dạng số hoặc tương tự) gửi đến máy tính Những hình ảnh được thu nhận lại bởi các bộ cảm biến hình ảnh thường có những sai lệch và mất mát thông tin nhất định Để máy tính có thể hiểu và phân tích ảnh thì ảnh cần được mã hóa và biểu diễn dưới dạng số gọi là ảnh số Việc xử lý ảnh số trên máy tính nhằm mục đích phân tích ảnh và phục hồi các thông tin bị sai lệch trong quá trình thu nhận ảnh

1 Một số khái niệm

1.1 Điểm ảnh - Pixel (Picture Element)

Hình ảnh trong thực tế là tín hiệu liên tục về không gian và độ sáng Để có thể

xử lý ảnh bằng máy tính cần thiết phải tiến hành số hoá ảnh Trong quá trình số hoá,

Trang 14

người ta biến đổi tín hiệu liên tục sang tín hiệu rời rạc thông qua quá trình lấy mẫu (rời rạc hóa về không gian) và lượng hoá thành phần giá trị mà thể về nguyên tắc bằng mắt thường không phân biệt được hai điểm kề nhau Trong quá trình này, người ta sử dụng

khái niệm Picture element mà ta quen gọi hay viết là Pixel - phần tử ảnh Khái niệm

pixel có thể xem xét như sau: khi ta quan sát màn hình (trong chế độ đồ hoạ), màn hình không liên tục mà gồm nhiều điểm rất nhỏ, gọi là pixel Mỗi pixel gồm một cặp toạ độ

Với ảnh màu, cách biểu diễn cũng tương tự như với ảnh xám, chỉ khác là các giá trị tại mỗi phần tử của ma trận biểu diễn ba màu riêng biệt gồm: đỏ (Red-R), lục (Green-G)

và lam (Blue-B) Để biểu diễn cho ba màu riêng rẽ cần 24-bit, 24-bit này được chia thành ba khoảng 8-bit Mỗi khoảng này biểu diễn cho cường độ sáng của một trong các màu chính

Trang 15

Hình 1: Biểu diễn ảnh số

Trong hình 1:

a) Hệ trục tọa độ trong Image Processing Toolbox

b) Ma trận biểu diễn ảnh số

1.3 Độ phân giải của ảnh

Độ phân giải (Resolution) của ảnh là mật độ điểm ảnh được ấn định trên một ảnh số được hiển thị Theo định nghĩa, khoảng cách giữa các điểm ảnh phải được chọn sao cho mắt người vẫn thấy được sự liên tục của ảnh Việc lựa chọn khoảng cách thích hợp tạo nên một mật độ phân bổ, đó chính là độ phân giải và được phân bố theo trục x

và y trong không gian hai chiều

Ví dụ: Độ phân giải của ảnh trên màn hình CGA là một lưới điểm theo chiều ngang màn hình: 320 điểm chiều dọc * 200 điểm ảnh (320*200) Rõ ràng, cùng màn hình CGA 12” ta nhận thấy mịn hơn màn hình CGA 17” độ phân giải 320*200 Lý do: cùng một mật độ (độ phân giải) nhưng diện tích màn hình rộng hơn thì độ mịn (liên tục của các điểm) kém hơn

Trang 16

1.4 Mức xám của ảnh

Một điểm ảnh (pixel) có hai đặc trưng cơ bản là vị trí (x, y) của điểm ảnh và độ xám của nó Mức xám của điểm ảnh là cường độ sáng của nó được gán bằng giá trị số tại điểm đó

Các thang giá trị mức xám thông thường: 16, 32, 64, 128, 256 (Mức 256 là mức phổ dụng Lý do: từ kỹ thuật máy tính dùng 1 byte (8 bit) để biểu diễn mức xám: Mức xám dùng 1 byte biểu diễn: 28=256 mức, tức là từ 0 đến 255)

2 Các phép biến đổi ảnh

2.1 Tăng cường ảnh, khôi phục ảnh

Tăng cường ảnh là bước quan trọng, tạo tiền đề cho xử lý ảnh Nó gồm một loạt các kỹ thuật như: lọc độ tương phản, khử nhiễu, nổi màu,

Khôi phục ảnh là nhằm loại bỏ các suy giảm (degradation) trong ảnh Với một

hệ thống tuyến tính, ảnh của một đối tượng có thể biểu diễn bởi:

 (x,y) là hàm biểu diễn nhiễu cộng

 f(a,ß) là hàm biểu diễn đối tượng

 g(x,y) là ảnh thu nhận

 h((x,y; a,ß) là hàm tán xạ điểm (Point Spread Function - PSF)

Một vấn đề khôi phục ảnh tiêu biểu là tìm một xấp xỉ của f(a,ß) khi PSF của nó

có thể đo lường hay quan sát được, ảnh mờ và các tính chất sác xuất của quá trình nhiễu

Trang 17

2.2 Biến đổi ảnh

Thuật ngữ biến đổi ảnh (Image Transform) thường dùng để nói tới một lớp các

ma trận đơn vị và các kỹ thuật dùng để biến đổi ảnh Cũng như các tín hiệu một chiều được biểu diễn bởi một chuỗi các hàm cơ sở, ảnh cũng có thể được biểu diễn bởi một

chuỗi rời rạc các ma trận cơ sở gọi là ảnh cơ sở

Phương trình ảnh cơ sở có dạng:

A*k,l = ak al*T, với ak là cột thứ k của ma trận A A là ma trận đơn vị Có nghĩa là A A*T

= I Các A*k,l định nghĩa ở trên với k,l = 0,1, , N-1 là ảnh cơ sở Có nhiều loại biến đổi được dùng như :

 Biến đổi Fourier, Sin, Cosin, Hadamard,…

 Tích Kronecker

 Biến đổi KL (Karhumen Loeve): biến đổi này có nguồn gốc từ khai triển của các quá trình ngẫu nhiên gọi là phương pháp trích chọn các thành phần chính

Do phải xử lý nhiều thông tin, các phép toán nhân và cộng trong khai triển là khá lớn

Do vậy, các biến đổi trên nhằm làm giảm thứ nguyên của ảnh để việc xử lý ảnh được hiệu quả hơn

2.3 Phân tích ảnh

Phân tích ảnh liên quan đến việc xác định các độ đo định lượng của một ảnh để đưa ra một mô tả đầy đủ về ảnh Các kỹ thuật được sử dụng ở đây nhằm mục đích xác định biên của ảnh Có nhiều kỹ thuật khác nhau như lọc vi phân hay dò theo quy hoạch động

Người ta cũng dùng các kỹ thuật để phân vùng ảnh Từ ảnh thu được, người ta tiến hành kỹ thuật tách (split) hay hợp (fusion) dựa theo các tiêu chuẩn đánh giá như: màu sắc, cường độ, v v Các phương pháp được biết đến như Quad-Tree, mảnh hoá

Trang 18

biên, nhị phân hoá đường biên Cuối cùng, phải kể đến các kỹ thuật phân lớp dựa theo cấu trúc

2.4 Nhận dạng ảnh

Nhận dạng ảnh là quá trình liên quan đến các mô tả đối tượng mà người ta muốn đặc tả nó Quá trình nhận dạng thường đi sau quá trình trích chọn các đặc tính chủ yếu của đối tượng Có hai kiểu mô tả đối tượng:

 Mô tả tham số (nhận dạng theo tham số)

 Mô tả theo cấu trúc ( nhận dạng theo cấu trúc)

Hệ thống nhận dạng tự động bao gồm ba khâu tương ứng với ba giai đoạn chủ yếu sau đây:

 Thu nhận dữ liệu và tiền xử lý

 Biểu diễn dữ liệu

 Nhận dạng, ra quyết định

Bốn cách tiếp cận khác nhau trong lý thuyết nhận dạng là:

 Đối sánh mẫu dựa trên các đặc trưng được trích chọn

 Phân loại thống kê

 Đối sánh cấu trúc

 Phân loại dựa trên mạng nơ-ron nhân tạo

Trên thực tế, người ta đã áp dụng kỹ thuật nhận dạng khá thành công với nhiều đối tượng khác nhau như: nhận dạng ảnh vân tay, nhận dạng chữ (chữ cái, chữ số, chữ có dấu) Nhận dạng chữ in hoặc đánh máy phục vụ cho việc tự động hoá quá trình đọc tài liệu, tăng nhanh tốc độ và chất lượng thu nhận thông tin từ máy tính Nhận dạng chữ viết tay (với mức độ ràng buộc khác nhau về cách viết, kiểu chữ, v ,v ) phục vụ cho nhiều lĩnh vực

Trang 19

Việc giải quyết bài toán nhận dạng trong những ứng dụng mới, nảy sinh trong cuộc sống không chỉ tạo ra những thách thức về thuật giải, mà còn đặt ra những yêu cầu về tốc độ tính toán Đặc điểm chung của tất cả những ứng dụng đó là những đặc điểm đặc trưng cần thiết thường là nhiều, không thể do chuyên gia đề xuất, mà phải được trích chọn dựa trên các thủ tục phân tích dữ liệu

2.5 Nén ảnh

Dữ liệu ảnh cũng như các dữ liệu khác cần phải lưu trữ hay truyền đi trên mạng Như đã nói ở trên, lượng thông tin để biểu diễn cho một ảnh là rất lớn Một ảnh đen trắng cỡ 512 x 512 với 256 mức xám chiếm 256K bytes Do đó làm giảm lượng thông tin hay nén dữ liệu là một nhu cầu cần thiết Nén ảnh thường được tiến hành theo cả hai cách khuynh hướng là nén có bảo toàn và không bảo toàn thông tin Nén không bảo toàn thường có khả năng nén cao hơn nhưng khả năng phục hồi thì kém hơn Trên cơ

sở hai khuynh hướng, có 4 cách tiếp cận cơ bản trong nén ảnh:

 Nén ảnh thống kê: Kỹ thuật nén này dựa vào việc thống kê tần xuất xuất hiện của giá trị các điểm ảnh, trên cơ sở đó mà có chiến lược mã hóa thích hợp Một

ví dụ điển hình cho kỹ thuật mã hóa này là *.TIF

 Nén ảnh không gian: Kỹ thuật này dựa vào vị trí không gian của các điểm ảnh

để tiến hành mã hóa Kỹ thuật lợi dụng sự giống nhau của các điểm ảnh trong các vùng gần nhau Ví dụ cho kỹ thuật này là mã nén *.PCX

 Nén ảnh sử dụng phép biến đổi: Đây là kỹ thuật tiếp cận theo hướng nén không bảo toàn và do vậy, kỹ thuật thướng nến hiệu quả hơn *.JPG chính là tiếp cận theo kỹ thuật nén này

 Nén ảnh Fractal: Sử dụng tính chất Fractal của các đối tượng ảnh, thể hiện sự lặp lại của các chi tiết Kỹ thuật nén sẽ tính toán để chỉ cần lưu trữ phần gốc ảnh và quy luật sinh ra ảnh theo nguyên lý Fractal

Trang 20

II TỔNG QUAN VỀ CÂY QUYẾT ĐỊNH

1 Cây quyết định

Trong những năm qua, nhiều mô hình phân lớp dữ liệu đã được các nhà khoa học trong nhiều lĩnh vực khác nhau đề xuất như mạng notron, mô hình thông kê tuyến tính bậc 2, cây quyết định, mô hình di truyền Trong số những mô hình đó, cây quyết định với những ưu điểm của mình được đánh giá là một công cụ mạnh, phổ biến và đặc biệt thích hợp cho khai phá dữ liệu nói chung và phân lớp dữ liệu nói riêng Có thể kể

ra những ưu điểm của cây quyết định như: xây dựng tương đối nhanh; đơn giản, dễ hiểu Hơn nữa các cây có thể dễ dàng được chuyển đổi sang các câu lệnh SQL để có thể được sử dụng để truy nhập cơ sở dữ liệu một cách hiệu quả Cuối cùng, việc phân lớp dựa trên cây quyết định đạt được sự tương tự và đôi khi là chính xác hơn so với các phương pháp phân lớp khác Cây quyết định là biểu đồ phát triển có cấu trúc dạng cây, như mô tả trong hình vẽ sau:

Hình 2: Ví dụ về cây quyết định

Trang 21

Trong cây quyết định:

 Gốc: là node trên cùng của cây

 Node trong: biểu diễn một kiểm tra trên một thuộc tính đơn (hình chữ nhật)

 Nhánh: biểu diễn các kết quả của kiểm tra trên node trong (mũi tên)

 Node lá: biểu diễn lớp hay sự phân phối lớp (hình tròn)

Để phân lớp mẫu dữ liệu chưa biết, giá trị các thuộc tính của mẫu được đưa vào kiểm tra trên cây quyết định Mỗi mẫu tương ứng có một đường đi từ gốc đến lá và lá biểu diễn dự đoán giá trị phân lớp mẫu đó

2 Xây dựng cây quyết định

Quá trình xây dựng cây quyết định gồm hai giai đoạn:

 Giai đoạn thứ nhất phát triển cây quyết định: Giai đoạn này phát triển bắt đầu từ gốc, đến từng nhánh và phát triển quy nạp theo cách thức chia để trị cho tới khi đạt được cây quyết định với tất cả các lá được gán nhãn lớp

 Giai đoạn thứ hai cắt, tỉa bớt các cành nhánh trên cây quyết định Giai đoạn này nhằm mục đích đơn giản hóa và khái quát hóa từ đó làm tăng độ chính xác của cây quyết định bằng cách loại bỏ sự phụ thuộc vào mức độ lỗi (noise) của dữ liệu đào tạo mang tính chất thống kê, hay những sự biến đổi mà có thể là đặc tính riêng biệt của dữ liệu đào tạo Giai đoạn này chỉ truy cập dữ liệu trên cây quyết định đã được phát triển trong giai đoạn trước và quá trình thực nghiệm cho thấy giai đoạn này không tốn nhiều tài nguyên tính toán, như với phần lớn các thuật toán, giai đoạn này chiếm khoảng dưới 1% tổng thời gian xây dựng

mô hình phân lớp

Quá trình xây dựng một cây quyết định cụ thể bắt đầu bằng một nút rỗng bao gồm toàn

bộ các đối tượng huấn luyện và thực hiện theo giải thuật như sau :

Trang 22

1 Nếu tại nút hiện thời, tất cả các đối tượng huấn luyện đều thuộc vào một lớp nào đó thì nút này chính là nút lá có tên là nhãn lớp chung của các đối tượng

2 Trường hợp ngược lại, sử dụng một độ đo, chọn thuộc tính điều kiện phân chia tốt nhất tập mẫu huấn luyện có tại nút

3 Tạo một lượng nút con của nút hiện thời bằng số các giá trị khác nhau của thuộc tính được chọn Gán cho mỗi nhánh từ nút cha đến nút con một giá trị của thuộc tính rồi phân chia các các đối tượng huấn luyện vào các nút con tương ứng

4 Nút con K được gọi là thuần nhất, trở thành lá, nếu tất cả các đối tượng mẫu tại đó đều thuộc vào cùng một lớp

5 Lặp lại các bước 1 - 3 đối với mỗi nút chưa thuần nhất

3 Thuật toán xây dựng cây quyết định dựa trên Entropy

3.1 Tiêu chí chọn thuộc tính phân lớp

Tiêu chí để đánh giá tìm điểm chia là rất quan trọng, chúng được xem là một tiêu chuẩn “heuristic” để phân chia dữ liệu Ý tưởng chính trong việc đưa ra các tiêu chí trên là làm sao cho các tập con được phân chia càng trở nên “trong suốt” (tất cả các bộ thuộc về cùng một nhãn) càng tốt Thuật toán dùng độ đo lượng thông tin thu thêm (Information Gain - IG) để xác định điểm chia Độ đo này dựa trên cơ sở lý thuyết thông tin của nhà toán học Claude Shannon, độ đo này được xác như sau: Xét bảng quyết định DT = (U, C ∪ {d} ), số giá trị (nhãn lớp) có thể của d là k Khi đó Entropy của tập các đối tượng trong DT được định nghĩa bởi:

trong đó pi là tỉ lệ các đối tượng trong DT mang nhãn lớp i Ý nghĩa của đại lượng Entropy trong lĩnh vực lý thuyết công nghệ thông tin: Entropy của tập U chỉ ra sô

Trang 23

lượng bít cần thiết để mã hóa lớp của một phần tử được lấy ra ngẫu nhiên từ tập U Lượng thông tin thu thêm (Information Gain - IG) là lượng Entropy còn lại khi tập các đối tượng trong DT được phân hoạch theo một thuộc tính điều kiện c nào đó IG xác định theo công thức sau:

trong đó Vc là tập các giá trị của thuộc tính c, Uv là tập các đối tượng trong DT có giá trị thuộc tính c bằng v Giá trị IG(U, c) được sử dụng làm độ đo lựa chọn thuộc tính phân chia dữ liệu tại mỗi nút trong thuật toán xây dựng cây quyết định ID3 Thuộc tính được chọn là thuộc tính cho lượng thông tin thu thêm lớn nhất Ý nghĩa của đại lượng

IG trong lĩnh vực lý thuyết công nghệ thông tin: IG của tập S chỉ ra số lượng bít giảm đối với việc mã hóa lớp của một phần tử c được lấy ra ngẫu nhiên từ tập U

3.2 Thuật toán ID3

Ý tưởng của thuật toán ID3:

 Thực hiện giải thuật tìm kiếm tham lam (greedy search) đối với không gian các cây quyết định có thể

 Xây dựng nút (node) theo chiến lược Top-Down, bắt đầu từ nút gốc

 Ở mỗi nút, thuộc tính kiểm tra (test attribute) là thuộc tính có khả năng phân loại tốt nhất

 Tạo mới một cây con (sub-tree) của nút hiện tại cho mỗi giá trị có thể của thuộc tính kiểm tra, và tập dữ liệu đầu vào sẽ được tách ra thành các tập con tương ứng với các cây con vừa tạo

Trang 24

 Mỗi thuộc tính chỉ được phép xuất hiện tối đa 1 lần đối với bất kỳ đường đi nào trong cây

 Quá trình phát triển cây sẽ tiếp tục cho tới khi:

o Cây quyết định phân loại hoàn toàn (perfectly classifies) các dữ liệu đầu vào

o Tất cả các thuộc tính được sử dụng

Trang 25

CHƯƠNG II: GIẢI THUẬT RỪNG NGẪU NHIÊN VÀ

Giải thuật rừng ngẫu nhiên truyền thống RF-CART được phát triển trên ý tưởng của Bagging [2], phương pháp tiếp cận không gian con ngẫu nhiên của [31] Tiếp cận Bagging của Breiman, tập hợp các cây quyết định [32] được xây dựng từ việc lấy mẫu dùng bootstrap – lấy mẫu có hoàn lại từ tập dữ liệu ban đầu Sau đó kết hợp kết quả dự đoán của các cây, bầu chọn số đông cho vấn đề phân loại Giải thuật RF-CART của Breiman xây dựng một tập hợp các cây quyết định hiệu quả cao nhưng có sự tương quan thấp giữa các cây thành viên Breiman đã đề nghị dùng hai chiến lược để giữ bias thấp (sai lệch thấp) và sự phụ thuộc giữa các cây trong rừng thấp Để đạt được sai lệch thấp, ông đề nghị xây dựng các cây đến độ sâu tối đa không cần cắt nhánh Để giữ tính tương quan giữa các cây ở mức thấp, ông đề nghị sử dụng việc lấy mẫu có hoàn lại (bootstrap) từ tập dữ liệu ban đầu để xây dựng cây thành viên và chọn ngẫu nhiên một tập con các thuộc tính để tính phân hoạch tốt nhất ở các nút trong của cây Xét một tác

vụ phân loại với m phần tử dữ liệu xi (i = 1,m) và n chiều (thuộc tính), một cây quyết định (ký hiệu là DT) trong rừng ngẫu nhiên gồm k cây (ký hiệu RF = {DTi}i=1,k) được xây dựng như sau :

Trang 26

Tập dữ liệu học là m phần tử dữ liệu được lấy mẫu có hoàn lại (kiểu bootstrap) từ tập

dữ liệu ban đầu

- Tại mỗi nút của cây, chọn ngẫu nhiên n’ chiều (n’< <n) và tính toán phân hoạch (chỉ

số Gini) tốt nhất dựa trên n’ chiều này

- Cây được xây dựng đến độ sâu tối đa không cắt nhánh

Rừng ngẫu nhiên RF-CART cho độ chính xác cao so với các giải thuật phân lớp tốt nhất hiện nay bao gồm Boosting và SVM Hơn nữa, thời gian huấn luyện của RF-CART nhanh, mô hình chịu đựng nhiễu tốt và không bị “học vẹt”

Tuy nhiên, việc xây dựng cây thành viên trong RF-CART chỉ chọn một chiều để phân hoạch dữ liệu tại các nút như đề nghị trước đây Do đó, tính mạnh mẽ của cây bị giảm khi làm việc với các tập dữ liệu có số chiều lớn và phụ thuộc lẫn nhau Ví dụ như trong hình 3, bất kỳ việc phân hoạch đơn thuộc tính nào (song song với trục tọa độ) đều không thể tách dữ liệu một lần duy nhất thành hai lớp một cách hoàn toàn mà phải thực hiện nhiều lần phân hoạch, nhưng việc phân hoạch đa chiều (xiên phân, kết hợp hai thuộc tính) có thể thực hiện một cách hoàn hảo với duy nhất một lần Vì thế, việc phân hoạch đơn thuộc tính được dùng để xây dựng cây thông thường thì không hiệu quả trong trường hợp này

Hình 3: Phân hoạch đơn thuộc tính (trái), phân hoạch đa thuộc tính (phải)

Trang 27

Để khắc phục nhược điểm trên, nhiều giải thuật xây dựng cây quyết định sử dụng phân hoạch đa thuộc tính (xiên phân) tại các nút được đề nghị Vấn đề xây dựng cây quyết định xiên tối ưu đã được biết như là một vấn đề có độ phức tạp NP-hard Nghiên cứu tiên phong của Murthy và các cộng sự đã đưa ra giải thuật OC1, một hệ thống dùng để xây dựng các cây quyết định xiên trong đó dùng thuật toán leo đồi (Hill-climbing) để tìm một phân hoạch xiên tốt dưới dạng một siêu phẳng

1.2 Bootstrap và Bagging

1.2.1 Bootstrap

Là một phương pháp rất nổi tiếng trong thống kê được giới thiệu bởi Bradley Efron vào năm 1979 Phương pháp này chủ yếu dùng để ước lượng lỗi chuẩn (standard errors), độ lệch (bias) và tính toán khoảng tin cậy (confidence interval) cho các tham

số Phương pháp này được thực hiện như sau: Từ một quần thể ban đầu lấy ra một mẫu

L = (x1, x2, xn) gồm n thành phần, tính toán các tham số mong muốn Trong các bước tiếp theo lặp lại b lần việc tạo ra mẫu Lb cũng gồm n phần từ từ L bằng cách lấy lại mẫu với sự thay thế các thành phần trong mẫu ban đầu sau đó tính toán các tham số mong muốn

1.2.2 Bagging

Phương pháp này được xem như là một phương pháp tổng hợp kết quả có được

từ các bootstrap Tư tưởng chính của phương pháp này như sau: Cho một tập huấn luyện D={(xi, yi): i=1,2,…,n} và giả sử chúng ta muốn có một một dự đoán nào đó đối với biến x Một mẫu gồm B tập dữ liệu, mỗi tập dữ liệu gồm n phần tử được chọn lựa ngẫu nhiên từ D với sự thay thế (giống như bootstrap) Do đó B=(D1, D2, ….,DB) trông giống như là một tập các tập huấn luyện được nhân bản; Tập huấn một máy hoặc một

mô hình đối với mỗi tập Db (b=1, 2, …,B) và lần lượt thu thập các kết quả dự báo có được trên mỗi tập Db; Kết quả tổng hợp cuối cùng được tính toán bằng cách trung bình hóa (regression) hoặc thông qua số phiếu bầu nhiều nhất (classification)

Trang 28

1.3 Sơ đồ giải thuật

Tóm tắt cuả giải thuật RF cho phân lớp được diễn giải như sau:

• Lấy ra K mẫu bootstrap từ tập huấn luyện

• Đối với mỗi mẫu bootstrap xây dựng một cây phân lớp không được tỉa (unpruned tree) theo hướng dẫn sau: Tại mỗi nút thay vì chọn một phân chia tốt nhất trong tất cả các biến dự đoán, ta chọn ngẫu nhiên một mẫu m của các biến dự đoán sau

đó chọn một phân chia tốt nhất trong các biến này

• Đưa ra các dự đoán bằng cách tổng hợp các dự đoán của K cây

Quá trình học của Random Forest bao gồm việc sử dụng ngẫu nhiên giá trị đầu vào, hoặc kết hợp các giá trị đó tại mỗi node trong quá trình dựng từng cây quyết định Kết quả của Random Forest, qua thực nghiệm cho thấy, là tốt hơn khi so sánh với thuật toán Adaboost Trong đó Random Forest có một số thuộc tính mạnh như:

(1) Độ chính xác của nó tương tự Adaboost, trong một số trường hợp còn tốt hơn

(2) Thuật toán giải quyết tốt các bài toán có nhiều dữ liệu nhiễu

(3) Thuật toán chạy nhanh hơn so với bagging hoặc boosting

(4) Có những sự ước lượng nội tại như độ chính xác của mô hình phỏng đoán hoặc độ mạnh và liên quan giữa các thuộc tính

(5) Dễ dàng thực hiện song song

(6) Tuy nhiên để đạt được các tính chất mạnh trên, thời gian thực thi của thuật toán khá lâu và phải sử dụng nhiều tài nguyên của hệ thống

Qua những tìm hiểu trên về giải thuật RF ta có nhận xét rằng RF là một phương pháp phân lớp tốt do: (1) Trong RF các sai số (variance) được giảm thiểu do kết quả của RF được tổng hợp thông qua nhiều người học (learner), (2) Việc chọn ngẫu nhiên tại mỗi bước trong RF sẽ làm giảm mối tương quan (correlation) giữa các người học trong việc tổng hợp các kết quả

Trang 29

Ngoài ra, chúng ta cũng thấy rằng lỗi chung của một rừng các cây phân lớp phụ thuộc vào lỗi riêng của từng cây trong rừng cũng như mỗi tương quan giữa các cây

2 Một số đặc điểm của RF

2.1 OOB (Out-of-bag)

Khi tập mẫu được rút ra từ một tập huấn luyện của một cây với sự thay thế (bagging), thì theo ước tính có khoảng 1/3 các phần từ không có nằm trong mẫu này Điều này có nghĩa là chỉ có khoảng 2/3 các phần tử trong tập huấn luyện tham gia vào trong các tính toán của chúng ta, và 1/3 các phần tử này được gọi là dữ liệu out-of-bag Dữ liệu out-of-bag được sử dụng để ước lượng lỗi tạo ra từ việc kết hợp các kết quả từ các cây tổng hợp trong random forest cũng như dùng để ước tính độ quan trọng thuộc tính (variable important)

2.2 Thuộc tính quan trọng

Việc thực hiện các tính toán để xác định thuộc tính quan trọng trong RF cũng gần như tương tự việc sử dụng OOB để tính toán lỗi trong RF Cách thực hiện như sau: Giả sử chúng ta cần xác định “thuộc tính quan trọng” của thuộc tính thứ thứ m Đầu tiên tính ROOB, sau đó hoán vị ngẫu nhiên các giá trị của thuộc tính m trong dữ liệu OOB, lần lượt “gửi” các giá trị này xuống cây và “đếm” số các dự đoán đúng ta gọi việc tính toán này đối với thuộc tính là Rperm Độ quan trọng thuộc tính được tính như sau: Trong trường hợp giá trị của thuộc tính quan trọng trên mỗi cây là độc lập thì chúng ta có thể tính được lỗi chuẫn (standard error) của ROOB – Rperm

3 Ứng dụng

3.1 Giải thuật rừng ngẫu nhiên xiên phân RF-ODT trong bài toán nhận dạng dấu vân tay

Trang 30

Nhận dạng vân tay là ứng dụng phổ biến trong ngành nhân trắc học Đã từ lâu, dấu vân tay đã được sử dụng để nhận dạng một cá nhân nào đó do tính duy nhất và nhất quán của nó Thói quen sử dụng dấu vân tay để nhận dạng cá nhân được sử dụng

từ thế kỷ XIX khi Francis Galton xác định được một số đặc điểm của dấu vân tay Đến thập niên 1960, khi các công nghệ máy tính phát triển rầm rộ thì cũng là lúc vân tay được xác định một cách tự động Năm 1969, Cục điều tra liên bang (Federal Bureau of Investigation - FBI) phát triển hệ thống tự động hóa qui trình nhận dạng vân tay Vì vậy, FBI ký hợp đồng với Viện tiêu chuẩn và công nghệ (National Institute of Standards and Technology - NIST) để nghiên cứu quá trình phân loại, tìm kiếm và so sánh vân tay tự động Năm 1975, FBI tài trợ việc phát triển các máy quét vân tay để phân loại tự động và công nghệ rút trích các chi tiết quan trọng để chế tạo một thiết bị đọc thử nghiệm NIST tập trung vào phát triển các phương pháp số hóa tự động dấu vân tay in trên giấy, ảnh hưởng của chất lượng hình ảnh, phân loại, rút trích các chi tiết quan trọng và phương pháp so sánh

Hình 4: Đặc trưng của ảnh vân tay dùng cho nhận dạng

Trang 31

Hầu hết các hệ thống nhận dạng dấu vân tay hiện nay như Libfprint và Fingerprint SDK đều dựa trên hai loại đặc trưng chính của ảnh vân tay: (i) điểm kỳ dị (singularity) gồm vùng xoáy (core), vùng tam giác (delta), đảo (island), điểm giao nhau (crossover),

lỗ hổng (pore) và (ii) điểm chi tiết (minutiae) gồm điểm kết thúc (ridge ending), điểm

rẽ nhánh (ridge bifurcation) (xem Hình 4) Tuy nhiên, việc sử dụng các chi tiết đặc trưng như hiện nay vẫn còn khó khăn vì ảnh thu được thường kém chất lượng, kết quả nhận dạng không tốt khi ảnh bị biến đổi hình học hay bị lệch

Hệ thống phân loại vân tay được tiếp cận từ sự kết hợp giữa phương pháp biểu diễn ảnh bằng các nét đặc trưng không đổi SIFT và sự mở rộng của giải thuật học rừng ngẫu nhiên xiên phân RF-ODT Ý tưởng xuất phát từ mô hình phân tích dữ liệu văn bản với túi từ (Bag of words - BOW) Trước tiên, ảnh vân tay được chuyển qua dạng mức xám Sau đó, các điểm đặc trưng (không bị thay đổi với những biến đổi tỉ lệ, tịnh tiến, phép quay và mạnh với những thay đổi về độ sáng, sự che khuất hay nhiễu) được tính trên các ảnh này và được biểu diễn bởi các véctơ mô tả SIFT 128 chiều Các véctơ này được phân nhóm vào các cụm (cluster) tương ứng với các từ trực quan (visual words) bởi giải thuật k-means Tập các cụm này tạo thành một từ điển từ vựng và mỗi véctơ

mô tả trong ảnh sẽ được phân nhóm vào cụm gần nhất Sau cùng, mỗi ảnh được biểu diễn bởi véctơ tần số các từ vựng (mô hình Bag of visterms – BOV) Bước tiền xử lý sẽ cho ra các tập dữ liệu có số chiều lớn (thường lớn hơn 1000) Do vậy phương pháp đề xuất là sử dụng giải thuật phân lớp rừng ngẫu nhiên xiên phân RF-ODT, giải thuật này thường phù hợp với các bộ dữ liệu có số chiều rất lớn Ngoài ra luật quyết định bình chọn số đông ở nút lá của cây xiên phân được thay thế bởi luật quyết định cục bộ cho phép làm việc hiệu quả cho phân lớp ảnh vân tay Giải thuật mở rộng của rừng ngẫu nhiên xiên phân cho phân lớp ảnh vân tay chính xác hơn các giải thuật học khác, bao gồm cây quyết định C4.5, rừng ngẫu nhiên của cây quyết định CART (RF-CART), AdaBoost của C4.5, máy học véctơ hỗ trợ (SVM) và k-láng giềng (kNN)

Trang 32

3.2 Giải thuật rừng ngẫu nhiên trong bài toán phân loại dữ liệu gen

Phân lớp dữ liệu có số chiều lớn có nhiễu như dữ liệu gien (mỗi chiều cung cấp rất ít thông tin cho tách lớp) được biết là một trong 10 vấn đề khó của cộng đồng khai phá dữ liệu (Yang and Wu, 2006) Mô hình học phân lớp thường cho kết quả tốt trong khi huấn luyện lại cho kết quả rất thấp khi dự báo Vấn đề khó khăn thường gặp chính

là số chiều quá lớn lên đến hàng nghìn chiều thậm chí đến cả triệu và dữ liệu thường tách rời nhau trong không gian có số chiều lớn việc tìm mô hình phân lớp tốt có khả năng làm việc với dữ liệu có số chiều lớn là khó khăn do có quá nhiều khả năng lựa chọn mô hình Việc tìm một mô hình phân lớp hiệu quả (phân lớp dữ liệu tốt trong tập thử) trong không gian giả thiết lớn là vấn đề khó Đã có hai lớp giải thuật tiêu biểu là máy học véc tơ hỗ trợ của Vapnik (SVM (Vapnik, 1995)) và rừng ngẫu nhiên của (Breiman, 2001) được biết đến như là những giải thuật phân lớp hiệu quả các tập dữ liệu có số chiều lớn như dữ liệu gen

Tiếp cận rừng ngẫu nhiên cho độ chính xác cao khi so sánh với các thuật toán học có giám sát hiện nay, bao gồm cả AdaBoost (Freund and Schapire, 1995), ArcX4 (Breiman, 1998) và SVM (Vapnik, 1995) Khi xử lý dữ liệu có số chiều lớn và số phần

tử ít như dữ liệu gien thì rừng ngẫu nhiên và SVM là hai giải thuật học nhanh, chịu đựng nhiễu tốt và không bị tình trạng học vẹt, điều này ngược lại với AdaBoost, ArcX4 rất dễ bị học vẹt và ảnh hưởng lớn với nhiễu (Grove and Schuurmans, 1998) Tuy nhiên, luật quyết định ở nút lá của các cây trong rừng ngẫu nhiên dựa vào luật bình chọn số đông, điều này dẫn đến độ chính xác của giải

thuật rừng ngẫu nhiên bị giảm khi phân lớp dữ liệu

Trang 33

CHƯƠNG III: GIẢI THUẬT RỪNG NGẪU NHIÊN TRONG BÀI TOÁN ĐOẠN ẢNH THEO ĐỐI TƯỢNG

I BÀI TOÁN PHÂN ĐOẠN ẢNH THEO ĐỐI TƯỢNG

1 Giới thiệu bài toán

Bài toán phân đoạn ảnh (image segmentation) và nhận dạng đối tượng (object

recognition) đều là những vấn đề kinh điển trong thị giác máy tính và nhận được sự quan tâm của cộng đồng nghiên cứu ngay từ những ngày đầu Tuy nhiên, nhiều tác giả xem xét hai vấn đề này như hai vấn đề riêng biệt nhau Gần đây, các nhà nghiên cứu tập trung vào việc kết hợp hai bài toán này như là một cách tiếp cận mới để giải quyết bài toán phân đoạn ảnh theo đối tượng

Các nghiên cứu thuần về phân đoạn ảnh tập trung vào việc phân chia một bức ảnh thành các vùng không giao nhau Các pixel thuộc cùng một vùng sẽ có một số tính chất tương tự nhau về diện mạo như: màu sắc, độ sáng, và vân Việc phân đoạn ảnh này chỉ thể hiện các vùng khác nhau có diện mạo khác nhau, không chứa thông tin ngữ

nghĩa gì về các vùng này Dạng phân đoạn ảnh này còn được gọi là phân đoạn ảnh

không giám sát (unsupervised image segmentation)

Ngày đăng: 26/07/2017, 20:59

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] P. Felzenszwalb and D. Huttenlocher. Efficient Belief Propagation for Early Vision. Int’l J. Computer Vision, 70(1):41-54, 2006 Sách, tạp chí
Tiêu đề: Int’l J. Computer Vision
[2] B. Fulkerson, A. Vedaldi, S. Soatto. Class segmentation and object localization with superpixel neighborhoods. In IEEE 12th International Conference on Computer Vision, pp. 670-677, 2009 Sách, tạp chí
Tiêu đề: In IEEE 12th International Conference on Computer Vision
[5] Comaniciu and P. Meer, “Mean shift: A robust approach toward feature space analysis.” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 24, no. 5, pp. 603–619, 2002 Sách, tạp chí
Tiêu đề: Mean shift: A robust approach toward feature space analysis.”
[9] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, A. Zisserman. The pascal visual object classes (voc) challenge. International journal of computer vision, 88(2), 303-338, 2010 Sách, tạp chí
Tiêu đề: International journal of computer vision
[16] J. H. Kappes, B. Andres, F. A. Hamprecht, C. Schnửrr, S. Nowozin, D. Batra, S. Kim, B. X. Kausler, J. Lellmann, and N. Komodakis. A comparative study of modern inference techniques for discrete energy minimization problems. In Proc. IEEE CVPR, 2013 Sách, tạp chí
Tiêu đề: IEEE CVPR
[18] V. Kolmogorov. Convergent tree-reweighted message passing for energy minimization. IEEE PAMI, 28(10):1568–1583, 2006 Sách, tạp chí
Tiêu đề: IEEE PAMI
[19] M. Johnson, G. Brostow, J. Shotton, O. Arandjelovic, V. Kwatra, and R. Cipolla. Semantic photo synthesis. Computer Graphics Forum, 25(3): 407–413, September 2006 Sách, tạp chí
Tiêu đề: Computer Graphics Forum, 25(3): 407–
[21] R. Fergus, P. Perona, and A. Zisserman. Objectclass recognition by unsupervised scale-invariant learning. IEEE Conference Computer Vision and Pattern Recognition, volume 2, pages 264–271, June 2003 Sách, tạp chí
Tiêu đề: IEEE Conference Computer Vision and Pattern Recognition, volume 2, pages 264–271
[27] S. Geman and D. Geman. Stochastic relaxation, Gibbs distributions, and the Bayesian restoration of images. IEEE PAMI , 6:721-741, 1984 Sách, tạp chí
Tiêu đề: IEEE PAMI
[28] Y. Boykov, O. Veksler, and R. Zabih. Fast approximate energy minimization via graph cuts. IEEE PAMI, 3(11):1222–1239, 2001 Sách, tạp chí
Tiêu đề: IEEE PAMI
[29] R. Szeliski, R. Zabih, D. Scharstein, O. Veksler, V. Kolmogorov, A. Agarwala, M. Tappen, and C. Rother. A comparative study of energy minimization methods for Markov random fields with smoothness-based priors. IEEE PAMI, 30(6):1068–1080, 2008 Sách, tạp chí
Tiêu đề: IEEE PAMI
[30] M. J. Wainwright, T.S. Jaakkola, and A.S. Willsky. MAP estimation via agreement on (hyper)trees: Message-passing and linear-programming approaches. IEEE Transactions on Information Theory, 51(11):3697-3717, November 2005 Sách, tạp chí
Tiêu đề: IEEE Transactions on Information Theory
[32] L. Breiman, J. Friedman, R. Olshen and C. Stone. Classification and Regression Trees.Wadsworth International, 1984 Sách, tạp chí
Tiêu đề: Classification and Regression Trees.Wadsworth International
[33] Dinh Viet Sang, Mai Dinh Loi, Nguyen Tien Quang, Huynh Thi Thanh Binh, Nguyen Thi Thuy. A Combining Method for Semantic Image Segmentation. SoICT 2014, December 04-05, 2014 Sách, tạp chí
Tiêu đề: SoICT 2014
[35] J. Shotton, M. Johnson and R. Cipolla. Semantic texton forests for image categorization and segmentation. In Proc. IEEE CVPR, 2008 Sách, tạp chí
Tiêu đề: IEEE CVPR
[6] M. Everingham, L. Van Gool, C. K. I.Williams, J.Winn, and A. Zisserman. The PASCAL VOC Challenge 2007.http://www.pascalnetwork.org/challenges/VOC/voc2007/workshop/index.html Link
[3] Leibe and B. Schiele. Interleaved object categorization and segmentation. British Machine Vision Conference, volume II, pages 264–271, 2003 Khác
[4] A.C. Berg, T.L. Berg, and J. Malik. Shape matching and object recognition using low distortion correspondences. IEEE Conference Computer Vision and Pattern Recognition, volume 1, pages 26–33, June 2005 Khác
[7] Lowe. Object recognition from local scale-invariant features. International Conference on Computer Vision, 1999 Khác
[8] Borenstein, E. Sharon, and S. Ullman. Combining top-down and bottom-up segmentations. IEEE Workshop on Perceptual Organization in Computer Vision, volume 4, page 46-49, 2004 Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w