Chương 3 trình bày về định nghĩa bài toán phân đoạn ảnh theo đối tượng và ứng dụng, mô hình giải thuật rừng ngẫu nhiên để giải quyết bài toán.. Các nghiên cứu được nhanh chóng phát triển
Trang 1Hà Nội – 2015
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
Trang 3TÓM TẮT NỘI DUNG LUẬN VĂN TỐT NGHIỆP
Vấn đề phát hiện, nhận dạng, phân tách và hiểu ngữ nghĩa của đối tượng trong ảnh đã được nghiên cứu rộng rãi trong trong lĩnh vực thị giác máy tính hàng thập kỷ qua Đây là bài toán có ý nghĩa thực tiễn rất lớn trong nhiều lĩnh vực của đời sống
Mục đích đề tài nhằm nghiên cứu tổng quan về bài toán phân đoạn ảnh theo đối tượng (Object Segmentation), cài đặt và chạy thử nghiệm chương trình phân đoạn ảnh Trên cơ sở đó, đề xuất giải thuật rừng ngẫu nhiên nhằm nâng cao chất lượng của ảnh đầu ra, so sánh và đưa ra đánh giá về hiệu năng của các giải thuật
Cấu trúc của luận văn gồm năm chương với nội dung chính sau:
Chương 1 trình bày các kiến thức cơ sở về ảnh số và xử lý ảnh làm nền tảng
lý thuyết cho các chương tiếp theo
Chương 2 trình bày tổng quan về giải thuật rừng ngẫu nhiên và ứng dụng Chương 3 trình bày về định nghĩa bài toán phân đoạn ảnh theo đối tượng và ứng dụng, mô hình giải thuật rừng ngẫu nhiên để giải quyết bài toán
Chương 4 trình bày kết quả thực nghiệm của luận văn, so sánh và đánh giá hiệu năng của các thuật toán
Chương 5 trình bày về kết luận và hướng phát triển của luận văn
Trang 4ABSTRACT OF THESIS
The problem of discovering, realizing, segmenting objects in image, which has contributed to life improvement in many fields like: Searching images, Robitics…,has been researched and developed widely in computer vision field for centuries up till now all around the world
The purpose of this thesis is reserched object segmentation problem Moreover, researching the improvement image parameters using genetic algorithm
is also strongly taken into consideration with the main purpose of finding out its meaning in real life by comparing and assessing efficiency of algorithms With 5 chapters of thesis with reference from reliable information from books and internet,
I do hope this problem will be solved thoroughly through this thesis Every step of developing the problem solving is defined clearly in each chapter below:
Chapter 1: Basic knowledge of digital image, image processing
Chapter 2: Basic knowledge of random forest and its applications
Chapter 3: Defining object segmentation and its applications, apply random forest model to solve object segmentation problem
Chapter 4: The experimental results, comparision and efficiency assessment
of algorithms
Chapter 5: Conclusions and further work
Trang 5LỜI CẢM ƠN
Trước hết, em xin được chân thành gửi lời cảm ơn sâu sắc tới các thầy cô giáo trong Viện Công nghệ Thông tin và Truyền thông đã tận tình giảng dạy, truyền đạt cho em những kiến thức và những kinh nghiệm quý báu trong suốt 1,5 năm học tập
và rèn luyện tại trường Đại học Bách Khoa Hà Nội
Em xin được gửi lời cảm ơn đến TS Huỳnh Thị Thanh Bình - Giảng viên bộ môn Khoa học máy tính, Viện Công nghệ Thông tin và Truyền thông, trường Đại học Bách Khoa Hà Nội đã hết lòng giúp đỡ, hướng dẫn và chỉ dạy tận tình trong quá trình em làm luận văn cao học Đồng thời, em xin gửi lời cảm ơn tới thầy Đinh Viết Sang, các bạn trong tập thể CNTT2 khóa 2013B, các em sinh viên K55, đặc biệt là
em Nguyễn Tiến Quảng K55 đã cùng giúp đỡ, hỗ trợ em trong suốt quá trình nghiên cứu và thực hiện luận văn này
Cuối cùng, em xin được gửi lời cảm ơn chân thành tới gia đình, bạn bè đã quan tâm, động viên, đóng góp ý kiến và giúp đỡ trong quá trình học tập, nghiên cứu và hoàn thành luận văn tốt nghiệp
Hà Nội, ngày 12 tháng 3 năm 2015
Mai Đình Lợi
Lớp CNTT2 – Khóa 2013B Viện CNTT & TT
Đại học Bách Khoa Hà Nội
Trang 6LỜI MỞ ĐẦU
Trong thập niên đầu của thế kỷ 21, học máy được nghiên cứu và phát triển mạnh mẽ, đánh dấu bước ngoặt quan trọng thay đổi nền tảng nghiên cứu của Trí tuệ nhân tạo Học máy liên quan đến việc xây dựng các chương trình máy tính có thể tự động thu thập tri thức, cải thiện khả năng của mình thông qua các kinh nghiệm, và việc nghiên cứu các nguyên lý của quá trình học Các kết quả và công nghệ của học máy được thể hiện qua các ứng dụng đa dạng trong thực tế trong các lĩnh vực như:
xử lý ngôn ngữ tự nhiên, thị giác máy tính, tìm kiếm và nhận dạng, robotics, khai phá dữ liệu, v.v
Thị giác máy tính, một lĩnh vực nghiên cứu liên ngành, liên quan đến việc nghiên cứu các lĩnh vực khoa học và công nghệ về các hệ thống máy móc có khả năng nhìn và hiểu như hệ thống thị giác con người Đây là một lĩnh vực được quan tâm nghiên cứu rộng rãi trong một vài thập niên gần đây bởi những ứng dụng thực
tế đa dạng của nó Một số ứng dụng có thể kể đến là: tự động hóa trong dây chuyền sản xuất công nghiệp, viễn thám, giám sát giao thông, bảo mật bằng sinh trắc học, y học, an ninh, web 3D, giải trí…
Vấn đề phát hiện, nhận dạng, phân tách và hiểu ngữ nghĩa của đối tượng trong ảnh/video đã được nghiên cứu rộng rãi trong trong lĩnh vực thị giác máy tính hàng thập kỷ qua Các nghiên cứu được nhanh chóng phát triển nhờ những tiến bộ trong một số lĩnh vực liên quan như: việc phát triển các mô hình toán học phức tạp, các nghiên cứu chuyên sâu về nhận thức tri giác (cognitive vision), năng lực của các
hệ thống tính toán, các giải thuật thông minh, cũng như đòi hỏi của kiểm thử trên các bộ dữ liệu lớn
Mặc dù đã có rất nhiều kết quả nghiên cứu khả quan về phát hiện và nhận dạng đối tượng thì đây vẫn còn là một thách thức trong lĩnh vực thị giác máy bởi các đối tượng có những tính chất và thể hiện rất khác nhau Ngoài ra các đối tượng trong cùng một lớp cũng rất đa dạng Điều này yêu cầu các đặc trưng được trích
Trang 7chọn phải có tính phân biệt cao cho các đối tượng trong các lớp khác nhau, và các thuật toán học phải có khả năng phân tách hiệu quả các lớp trên không gian đặc trưng của đối tượng Hơn thế nữa mỗi đối tượng có một loạt các đặc trưng và mỗi đặc trưng có một vai trò khác nhau trong việc nhận dạng đối tượng Các giải thuật học tiên tiến phải có khả năng vừa kết hợp được nhiều đặc trưng vừa trích rút, đưa
ra các mức ưu tiên khác nhau cho các đặc trưng, cao hơn nữa là kết hợp chúng với yếu tố ngữ cảnh và mức đáp ứng của các bộ phân lọai một cách hiệu quả Bên cạnh
đó, nhiều ứng dụng thị giác máy tính yêu cầu thời gian thực Ví dụ: hệ thống camera cảnh báo vật cản giúp lái xe an toàn, robot phải hiểu các cử chỉ điều khiển
và đáp ứng lại ngay cử chỉ điều khiển đó Do đó, các thuật toán học ứng dụng cho thị giác máy tính phải có thời gian tính toán ít Cuối cùng, các thuật toán học truyền thống thường yêu cầu xây dựng cơ sở dữ liệu hoàn chỉnh ngay từ ban đầu Việc xây dựng cơ sở dữ liệu là một công việc khó khăn, tốn kém về thời gian, sức người và trong nhiều trường hợp không thể thực hiện được Các giải thuật học mới có thể cho phép xây dựng dần dần cơ sở dữ liệu trong quá trình hoạt động của hệ thống, thích ứng với sự biến động của môi trường cũng như sự biến đổi của đối tượng theo thời gian
Bài toán phân đoạn ảnh theo đối tượng (object segmentation) là bài toán cơ bản trong lĩnh vực thị giác máy tính Hiện tại, các nhà nghiên cứu trên thế giới đã đưa ra rất nhiều mô hình cho bài toán này, cũng như các cải tiến để nâng cao hiệu năng phân đoạn ảnh, nhưng các kết quả đưa ra vẫn còn một vài hạn chế như : tỷ lệ ảnh gán nhãn đúng chưa cao (xấp xỉ 75%), tập nhãn giới hạn và một số nhãn có kết quả tương đối thấp
Luận văn này tập trung nghiên cứu mô hình giải thuật rừng ngẫu nhiên giải quyết bài toán, đồng thời đề xuất giải thuật để cải thiện hiệu năng của bài toán Qua đó đưa ra các đánh giá và hướng phát triển tiếp theo của bài toán phân đoạn ảnh theo đối tượng
Trang 8MỤC LỤC
TÓM TẮT NỘI DUNG LUẬN VĂN TỐT NGHIỆP iii
ABSTRACT OF THESIS iv
LỜI CẢM ƠN v
LỜI MỞ ĐẦU vi
MỤC LỤC viii
DANH MỤC HÌNH VẼ x
DANH MỤC CÁC BẢNG xi
DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ xii
CHƯƠNG I: CƠ SỞ LÝ THUYẾT 2
I TỔNG QUAN VỀ XỬ LÝ ẢNH 2
1 Một số khái niệm 2
1.1 Điểm ảnh - Pixel (Picture Element) 2
1.2 Ảnh số 3
1.3 Độ phân giải của ảnh 4
1.4 Mức xám của ảnh 5
2 Các phép biến đổi ảnh 5
2.1 Tăng cường ảnh, khôi phục ảnh 5
2.2 Biến đổi ảnh 6
2.3 Phân tích ảnh 6
2.4 Nhận dạng ảnh 7
2.5 Nén ảnh 8
II TỔNG QUAN VỀ CÂY QUYẾT ĐỊNH 9
1 Cây quyết định 9
2 Xây dựng cây quyết định 10
3 Thuật toán xây dựng cây quyết định dựa trên Entropy 11
3.1 Tiêu chí chọn thuộc tính phân lớp 11
3.2 Thuật toán ID3 12
CHƯƠNG II: GIẢI THUẬT RỪNG NGẪU NHIÊN VÀ 14
ỨNG DỤNG 14
1 Tổng quan giải thuật rừng ngẫu nhiên 14
1.1 Lịch sử nghiên cứu 14
1.2 Bootstrap và Bagging 16
1.3 Sơ đồ giải thuật 17
2 Một số đặc điểm của RF 18
2.1 OOB (Out-of-bag) 18
2.2 Thuộc tính quan trọng 18
3 Ứng dụng 18
Trang 93.1 Giải thuật rừng ngẫu nhiên xiên phân RF-ODT trong bài toán nhận
dạng dấu vân tay 18
3.2 Giải thuật rừng ngẫu nhiên trong bài toán phân loại dữ liệu gen 21
CHƯƠNG III: GIẢI THUẬT RỪNG NGẪU NHIÊN TRONG BÀI TOÁN ĐOẠN ẢNH THEO ĐỐI TƯỢNG 22
I BÀI TOÁN PHÂN ĐOẠN ẢNH THEO ĐỐI TƯỢNG 22
1 Giới thiệu bài toán 22
2 Các ứng dụng của bài toán phân đoạn ảnh theo đối tượng 25
2.1 Tự động phân loại ảnh 25
2.2 Tổng hợp ảnh ngữ nghĩa 26
2.3 Biên tập hình ảnh 27
3 Các nghiên cứu liên quan 28
II GIẢI THUẬT RỪNG NGẪU NHIÊN TRONG BÀI TOÁN PHÂN ĐOẠN ẢNH THEO ĐỐI TƯỢNG 31
1 Tổng quan giải thuật 31
2 Mô hình trường ngẫu nhiên Markov (Markov random fields) 35
3 Cải tiến thuật toán STF sử dụng mô hình trường ngẫu nhiên Markov 38
CHƯƠNG IV: KẾT QUẢ THỰC NGHIỆM 41
1 Bộ dữ liệu thử nghiệm 41
1 1 Bộ dữ liệu MSRC 21-lớp 41
1.2 Bộ dữ liệu Pascal VOC 2007 42
2 Độ đo 43
3 Môi trường thử nghiệm 44
4 Kết quả thử nghiệm và so sánh 44
4.1 Kết quả thử nghiệm bộ MSRC 21-class 45
4.2 Kết quả thử nghiệm bộ dữ liệu Pascal VOC 2007 48
5 Tham số thử nghiệm 50
6 Nhận xét 50
CHƯƠNG V: KẾT LUẬN 52
I ĐÁNH GIÁ 52
1 Các kết quả đạt được 52
2 Hạn chế 52
II HƯỚNG PHÁT TRIỂN 52
TÀI LIỆU THAM KHẢO 53
Trang 10DANH MỤC HÌNH VẼ
Hình 1: Biểu diễn ảnh số 4
Hình 2: Ví dụ về cây quyết định 9
Hình 3: Phân hoạch đơn thuộc tính (trái), phân hoạch đa thuộc tính (phải) 15
Hình 4: Đặc trưng của ảnh vân tay dùng cho nhận dạng 19
Hình 5: Ví dụ về phân đoạn ảnh không giám sát (sử dụng thuật toán mean-shift [5]) 23
Hình 6: Ví dụ về bài toán nhận dạng đối tượng 23
Hình 7: Ví dụ về bài toán phân đoạn ảnh theo đối tượng 24
Hình 8: Phân loại ảnh tự động theo chủ đề dựa vào các nhãn trong ảnh 26
Hình 9: Chương trình tổng hợp thông tin ngữ nghĩa 27
Hình 10: Chương trình biên tập ảnh 28
Hình 11: Cây nhị phân với hàm phân chia nút và ngưỡng 31
Hình 12: Mô tả rừng ngẫu nhiên 32
Hình 13: Ví dụ một số thành phần ngữ nghĩa về vân ảnh (Semantic Textons) 34
Hình 14: Vec tơ xác suất 21 chiều ứng với xác suất thuộc về mỗi nhãn lớp 34
Hình 15: Mô phỏng biểu diễn đồ thị lưới các pixel (y) được gán nhãn( x) 36
Hình 16: Mô phỏng thuật toán TRWS 38
Hình 17: Mô hình cải tiến STF sử dụng MRF 39
Hình 18: Bộ dữ liệu MSRC 21-class Cột a-d là một số ảnh trong bộ dữ liệu Cột e là ảnh đã gán nhãn sẵn của các ảnh trong cột d 42
Hình 19: Bộ dữ liệu VOC 2007 Cột 1 là một ảnh trong bộ dữ liệu Cột 2,3 là ảnh đã gán nhãn sẵn của ảnh trong cột 1 43
Hình 20: Hình ảnh kết quả trên bộ dữ liệu MSRC, 47
Hình 21: Kết quả ảnh đầu ra trên bộ dữ liệu VOC 2007 48
Trang 11DANH MỤC CÁC BẢNG
Bảng 1: Cấu hình hệ thống thử nghiệm 44
Bảng 2 Kết quả tốt nhất tìm được của giải thuật RF sau khi chạy 20 lần trên bộ dữ liệu MSRC 46
Bảng 3: Kết quả trung bình trên bộ dữ liệu MSRC các thuật toán: Joint boost, STFs và 2 thử nghiệm trong luận văn 47
Bảng 4: Bảng kết quả (tỉ lệ phần trăm) trên bộ dữ liệu VOC 2007 49
Bảng 5 Số lượt chạy thử nghiệm các giải thuật 50
Bảng 6 Thông số cài đặt giải thuật 50
Trang 12DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ
STFs Semantic Texton Forests Giải thuật rừng ngẫu nhiên dựa
trên ngữ nghĩa đặc trưng vân của
ảnh MRF Markov random fields Mô hình trường ngẫu nhiên
Markov CART Classification and Regression
Trees
Giải thuật phân loại hồi quy trên
cây MSRC 21-
class
Microsoft Research Cambridge 21-class
Bộ dữ liệu của Microsoft Research Cambridge, gồm 21 nhãn PASCAL
Trang 13CHƯƠNG I: CƠ SỞ LÝ THUYẾT
I TỔNG QUAN VỀ XỬ LÝ ẢNH
Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng vai trò quan trọng nhất Những năm trở lại đây với sự phát triển của phần cứng máy tính, xử lý ảnh và đồ hoạ đó phát triển một cách mạnh mẽ và có nhiều ứng dụng trong cuộc sống
Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác người máy.Xử lý ảnh cũng là một trong những mảng quan trọng nhất trong lĩnh vực thị giác máy tính, là tiền
đề cho nhiều nghiên cứu thuộc lĩnh vực này Hai nhiệm vụ cơ bản của quá trình xử lý ảnh là nâng cao chất lượng thông tin hình ảnh và xử lý số liệu cung cấp cho các quá trình khác trong đó có việc ứng dụng thị giác vào điều khiển
Trong các dạng truyền thông cơ bản: lời nói, văn bản, hình ảnh, âm thanh thì hình ảnh là dạng truyền thông truyền tải thông tin mạnh mẽ nhất Quá trình bắt đầu từ việc thu nhận ảnh nguồn (từ các thiết bị thu nhận ảnh dạng số hoặc tương tự) gửi đến máy tính Những hình ảnh được thu nhận lại bởi các bộ cảm biến hình ảnh thường có những sai lệch và mất mát thông tin nhất định Để máy tính có thể hiểu và phân tích ảnh thì ảnh cần được mã hóa và biểu diễn dưới dạng số gọi là ảnh số Việc xử lý ảnh số trên máy tính nhằm mục đích phân tích ảnh và phục hồi các thông tin bị sai lệch trong quá trình thu nhận ảnh
1 Một số khái niệm
1.1 Điểm ảnh - Pixel (Picture Element)
Hình ảnh trong thực tế là tín hiệu liên tục về không gian và độ sáng Để có thể
xử lý ảnh bằng máy tính cần thiết phải tiến hành số hoá ảnh Trong quá trình số hoá,
Trang 14người ta biến đổi tín hiệu liên tục sang tín hiệu rời rạc thông qua quá trình lấy mẫu (rời rạc hóa về không gian) và lượng hoá thành phần giá trị mà thể về nguyên tắc bằng mắt thường không phân biệt được hai điểm kề nhau Trong quá trình này, người ta sử dụng
khái niệm Picture element mà ta quen gọi hay viết là Pixel - phần tử ảnh Khái niệm
pixel có thể xem xét như sau: khi ta quan sát màn hình (trong chế độ đồ hoạ), màn hình không liên tục mà gồm nhiều điểm rất nhỏ, gọi là pixel Mỗi pixel gồm một cặp toạ độ
Với ảnh màu, cách biểu diễn cũng tương tự như với ảnh xám, chỉ khác là các giá trị tại mỗi phần tử của ma trận biểu diễn ba màu riêng biệt gồm: đỏ (Red-R), lục (Green-G)
và lam (Blue-B) Để biểu diễn cho ba màu riêng rẽ cần 24-bit, 24-bit này được chia thành ba khoảng 8-bit Mỗi khoảng này biểu diễn cho cường độ sáng của một trong các màu chính
Trang 15Hình 1: Biểu diễn ảnh số
Trong hình 1:
a) Hệ trục tọa độ trong Image Processing Toolbox
b) Ma trận biểu diễn ảnh số
1.3 Độ phân giải của ảnh
Độ phân giải (Resolution) của ảnh là mật độ điểm ảnh được ấn định trên một ảnh số được hiển thị Theo định nghĩa, khoảng cách giữa các điểm ảnh phải được chọn sao cho mắt người vẫn thấy được sự liên tục của ảnh Việc lựa chọn khoảng cách thích hợp tạo nên một mật độ phân bổ, đó chính là độ phân giải và được phân bố theo trục x
và y trong không gian hai chiều
Ví dụ: Độ phân giải của ảnh trên màn hình CGA là một lưới điểm theo chiều ngang màn hình: 320 điểm chiều dọc * 200 điểm ảnh (320*200) Rõ ràng, cùng màn hình CGA 12” ta nhận thấy mịn hơn màn hình CGA 17” độ phân giải 320*200 Lý do: cùng một mật độ (độ phân giải) nhưng diện tích màn hình rộng hơn thì độ mịn (liên tục của các điểm) kém hơn
Trang 161.4 Mức xám của ảnh
Một điểm ảnh (pixel) có hai đặc trưng cơ bản là vị trí (x, y) của điểm ảnh và độ xám của nó Mức xám của điểm ảnh là cường độ sáng của nó được gán bằng giá trị số tại điểm đó
Các thang giá trị mức xám thông thường: 16, 32, 64, 128, 256 (Mức 256 là mức phổ dụng Lý do: từ kỹ thuật máy tính dùng 1 byte (8 bit) để biểu diễn mức xám: Mức xám dùng 1 byte biểu diễn: 28=256 mức, tức là từ 0 đến 255)
2 Các phép biến đổi ảnh
2.1 Tăng cường ảnh, khôi phục ảnh
Tăng cường ảnh là bước quan trọng, tạo tiền đề cho xử lý ảnh Nó gồm một loạt các kỹ thuật như: lọc độ tương phản, khử nhiễu, nổi màu,
Khôi phục ảnh là nhằm loại bỏ các suy giảm (degradation) trong ảnh Với một
hệ thống tuyến tính, ảnh của một đối tượng có thể biểu diễn bởi:
(x,y) là hàm biểu diễn nhiễu cộng
f(a,ß) là hàm biểu diễn đối tượng
g(x,y) là ảnh thu nhận
h((x,y; a,ß) là hàm tán xạ điểm (Point Spread Function - PSF)
Một vấn đề khôi phục ảnh tiêu biểu là tìm một xấp xỉ của f(a,ß) khi PSF của nó
có thể đo lường hay quan sát được, ảnh mờ và các tính chất sác xuất của quá trình nhiễu
Trang 172.2 Biến đổi ảnh
Thuật ngữ biến đổi ảnh (Image Transform) thường dùng để nói tới một lớp các
ma trận đơn vị và các kỹ thuật dùng để biến đổi ảnh Cũng như các tín hiệu một chiều được biểu diễn bởi một chuỗi các hàm cơ sở, ảnh cũng có thể được biểu diễn bởi một
chuỗi rời rạc các ma trận cơ sở gọi là ảnh cơ sở
Phương trình ảnh cơ sở có dạng:
A*k,l = ak al*T, với ak là cột thứ k của ma trận A A là ma trận đơn vị Có nghĩa là A A*T
= I Các A*k,l định nghĩa ở trên với k,l = 0,1, , N-1 là ảnh cơ sở Có nhiều loại biến đổi được dùng như :
Biến đổi Fourier, Sin, Cosin, Hadamard,…
Tích Kronecker
Biến đổi KL (Karhumen Loeve): biến đổi này có nguồn gốc từ khai triển của các quá trình ngẫu nhiên gọi là phương pháp trích chọn các thành phần chính
Do phải xử lý nhiều thông tin, các phép toán nhân và cộng trong khai triển là khá lớn
Do vậy, các biến đổi trên nhằm làm giảm thứ nguyên của ảnh để việc xử lý ảnh được hiệu quả hơn
2.3 Phân tích ảnh
Phân tích ảnh liên quan đến việc xác định các độ đo định lượng của một ảnh để đưa ra một mô tả đầy đủ về ảnh Các kỹ thuật được sử dụng ở đây nhằm mục đích xác định biên của ảnh Có nhiều kỹ thuật khác nhau như lọc vi phân hay dò theo quy hoạch động
Người ta cũng dùng các kỹ thuật để phân vùng ảnh Từ ảnh thu được, người ta tiến hành kỹ thuật tách (split) hay hợp (fusion) dựa theo các tiêu chuẩn đánh giá như: màu sắc, cường độ, v v Các phương pháp được biết đến như Quad-Tree, mảnh hoá
Trang 18biên, nhị phân hoá đường biên Cuối cùng, phải kể đến các kỹ thuật phân lớp dựa theo cấu trúc
2.4 Nhận dạng ảnh
Nhận dạng ảnh là quá trình liên quan đến các mô tả đối tượng mà người ta muốn đặc tả nó Quá trình nhận dạng thường đi sau quá trình trích chọn các đặc tính chủ yếu của đối tượng Có hai kiểu mô tả đối tượng:
Mô tả tham số (nhận dạng theo tham số)
Mô tả theo cấu trúc ( nhận dạng theo cấu trúc)
Hệ thống nhận dạng tự động bao gồm ba khâu tương ứng với ba giai đoạn chủ yếu sau đây:
Thu nhận dữ liệu và tiền xử lý
Biểu diễn dữ liệu
Nhận dạng, ra quyết định
Bốn cách tiếp cận khác nhau trong lý thuyết nhận dạng là:
Đối sánh mẫu dựa trên các đặc trưng được trích chọn
Phân loại thống kê
Đối sánh cấu trúc
Phân loại dựa trên mạng nơ-ron nhân tạo
Trên thực tế, người ta đã áp dụng kỹ thuật nhận dạng khá thành công với nhiều đối tượng khác nhau như: nhận dạng ảnh vân tay, nhận dạng chữ (chữ cái, chữ số, chữ có dấu) Nhận dạng chữ in hoặc đánh máy phục vụ cho việc tự động hoá quá trình đọc tài liệu, tăng nhanh tốc độ và chất lượng thu nhận thông tin từ máy tính Nhận dạng chữ viết tay (với mức độ ràng buộc khác nhau về cách viết, kiểu chữ, v ,v ) phục vụ cho nhiều lĩnh vực
Trang 19Việc giải quyết bài toán nhận dạng trong những ứng dụng mới, nảy sinh trong cuộc sống không chỉ tạo ra những thách thức về thuật giải, mà còn đặt ra những yêu cầu về tốc độ tính toán Đặc điểm chung của tất cả những ứng dụng đó là những đặc điểm đặc trưng cần thiết thường là nhiều, không thể do chuyên gia đề xuất, mà phải được trích chọn dựa trên các thủ tục phân tích dữ liệu
2.5 Nén ảnh
Dữ liệu ảnh cũng như các dữ liệu khác cần phải lưu trữ hay truyền đi trên mạng Như đã nói ở trên, lượng thông tin để biểu diễn cho một ảnh là rất lớn Một ảnh đen trắng cỡ 512 x 512 với 256 mức xám chiếm 256K bytes Do đó làm giảm lượng thông tin hay nén dữ liệu là một nhu cầu cần thiết Nén ảnh thường được tiến hành theo cả hai cách khuynh hướng là nén có bảo toàn và không bảo toàn thông tin Nén không bảo toàn thường có khả năng nén cao hơn nhưng khả năng phục hồi thì kém hơn Trên cơ
sở hai khuynh hướng, có 4 cách tiếp cận cơ bản trong nén ảnh:
Nén ảnh thống kê: Kỹ thuật nén này dựa vào việc thống kê tần xuất xuất hiện của giá trị các điểm ảnh, trên cơ sở đó mà có chiến lược mã hóa thích hợp Một
ví dụ điển hình cho kỹ thuật mã hóa này là *.TIF
Nén ảnh không gian: Kỹ thuật này dựa vào vị trí không gian của các điểm ảnh
để tiến hành mã hóa Kỹ thuật lợi dụng sự giống nhau của các điểm ảnh trong các vùng gần nhau Ví dụ cho kỹ thuật này là mã nén *.PCX
Nén ảnh sử dụng phép biến đổi: Đây là kỹ thuật tiếp cận theo hướng nén không bảo toàn và do vậy, kỹ thuật thướng nến hiệu quả hơn *.JPG chính là tiếp cận theo kỹ thuật nén này
Nén ảnh Fractal: Sử dụng tính chất Fractal của các đối tượng ảnh, thể hiện sự lặp lại của các chi tiết Kỹ thuật nén sẽ tính toán để chỉ cần lưu trữ phần gốc ảnh và quy luật sinh ra ảnh theo nguyên lý Fractal
Trang 20II TỔNG QUAN VỀ CÂY QUYẾT ĐỊNH
1 Cây quyết định
Trong những năm qua, nhiều mô hình phân lớp dữ liệu đã được các nhà khoa học trong nhiều lĩnh vực khác nhau đề xuất như mạng notron, mô hình thông kê tuyến tính bậc 2, cây quyết định, mô hình di truyền Trong số những mô hình đó, cây quyết định với những ưu điểm của mình được đánh giá là một công cụ mạnh, phổ biến và đặc biệt thích hợp cho khai phá dữ liệu nói chung và phân lớp dữ liệu nói riêng Có thể kể
ra những ưu điểm của cây quyết định như: xây dựng tương đối nhanh; đơn giản, dễ hiểu Hơn nữa các cây có thể dễ dàng được chuyển đổi sang các câu lệnh SQL để có thể được sử dụng để truy nhập cơ sở dữ liệu một cách hiệu quả Cuối cùng, việc phân lớp dựa trên cây quyết định đạt được sự tương tự và đôi khi là chính xác hơn so với các phương pháp phân lớp khác Cây quyết định là biểu đồ phát triển có cấu trúc dạng cây, như mô tả trong hình vẽ sau:
Hình 2: Ví dụ về cây quyết định
Trang 21Trong cây quyết định:
Gốc: là node trên cùng của cây
Node trong: biểu diễn một kiểm tra trên một thuộc tính đơn (hình chữ nhật)
Nhánh: biểu diễn các kết quả của kiểm tra trên node trong (mũi tên)
Node lá: biểu diễn lớp hay sự phân phối lớp (hình tròn)
Để phân lớp mẫu dữ liệu chưa biết, giá trị các thuộc tính của mẫu được đưa vào kiểm tra trên cây quyết định Mỗi mẫu tương ứng có một đường đi từ gốc đến lá và lá biểu diễn dự đoán giá trị phân lớp mẫu đó
2 Xây dựng cây quyết định
Quá trình xây dựng cây quyết định gồm hai giai đoạn:
Giai đoạn thứ nhất phát triển cây quyết định: Giai đoạn này phát triển bắt đầu từ gốc, đến từng nhánh và phát triển quy nạp theo cách thức chia để trị cho tới khi đạt được cây quyết định với tất cả các lá được gán nhãn lớp
Giai đoạn thứ hai cắt, tỉa bớt các cành nhánh trên cây quyết định Giai đoạn này nhằm mục đích đơn giản hóa và khái quát hóa từ đó làm tăng độ chính xác của cây quyết định bằng cách loại bỏ sự phụ thuộc vào mức độ lỗi (noise) của dữ liệu đào tạo mang tính chất thống kê, hay những sự biến đổi mà có thể là đặc tính riêng biệt của dữ liệu đào tạo Giai đoạn này chỉ truy cập dữ liệu trên cây quyết định đã được phát triển trong giai đoạn trước và quá trình thực nghiệm cho thấy giai đoạn này không tốn nhiều tài nguyên tính toán, như với phần lớn các thuật toán, giai đoạn này chiếm khoảng dưới 1% tổng thời gian xây dựng
mô hình phân lớp
Quá trình xây dựng một cây quyết định cụ thể bắt đầu bằng một nút rỗng bao gồm toàn
bộ các đối tượng huấn luyện và thực hiện theo giải thuật như sau :
Trang 221 Nếu tại nút hiện thời, tất cả các đối tượng huấn luyện đều thuộc vào một lớp nào đó thì nút này chính là nút lá có tên là nhãn lớp chung của các đối tượng
2 Trường hợp ngược lại, sử dụng một độ đo, chọn thuộc tính điều kiện phân chia tốt nhất tập mẫu huấn luyện có tại nút
3 Tạo một lượng nút con của nút hiện thời bằng số các giá trị khác nhau của thuộc tính được chọn Gán cho mỗi nhánh từ nút cha đến nút con một giá trị của thuộc tính rồi phân chia các các đối tượng huấn luyện vào các nút con tương ứng
4 Nút con K được gọi là thuần nhất, trở thành lá, nếu tất cả các đối tượng mẫu tại đó đều thuộc vào cùng một lớp
5 Lặp lại các bước 1 - 3 đối với mỗi nút chưa thuần nhất
3 Thuật toán xây dựng cây quyết định dựa trên Entropy
3.1 Tiêu chí chọn thuộc tính phân lớp
Tiêu chí để đánh giá tìm điểm chia là rất quan trọng, chúng được xem là một tiêu chuẩn “heuristic” để phân chia dữ liệu Ý tưởng chính trong việc đưa ra các tiêu chí trên là làm sao cho các tập con được phân chia càng trở nên “trong suốt” (tất cả các bộ thuộc về cùng một nhãn) càng tốt Thuật toán dùng độ đo lượng thông tin thu thêm (Information Gain - IG) để xác định điểm chia Độ đo này dựa trên cơ sở lý thuyết thông tin của nhà toán học Claude Shannon, độ đo này được xác như sau: Xét bảng quyết định DT = (U, C ∪ {d} ), số giá trị (nhãn lớp) có thể của d là k Khi đó Entropy của tập các đối tượng trong DT được định nghĩa bởi:
trong đó pi là tỉ lệ các đối tượng trong DT mang nhãn lớp i Ý nghĩa của đại lượng Entropy trong lĩnh vực lý thuyết công nghệ thông tin: Entropy của tập U chỉ ra sô
Trang 23lượng bít cần thiết để mã hóa lớp của một phần tử được lấy ra ngẫu nhiên từ tập U Lượng thông tin thu thêm (Information Gain - IG) là lượng Entropy còn lại khi tập các đối tượng trong DT được phân hoạch theo một thuộc tính điều kiện c nào đó IG xác định theo công thức sau:
trong đó Vc là tập các giá trị của thuộc tính c, Uv là tập các đối tượng trong DT có giá trị thuộc tính c bằng v Giá trị IG(U, c) được sử dụng làm độ đo lựa chọn thuộc tính phân chia dữ liệu tại mỗi nút trong thuật toán xây dựng cây quyết định ID3 Thuộc tính được chọn là thuộc tính cho lượng thông tin thu thêm lớn nhất Ý nghĩa của đại lượng
IG trong lĩnh vực lý thuyết công nghệ thông tin: IG của tập S chỉ ra số lượng bít giảm đối với việc mã hóa lớp của một phần tử c được lấy ra ngẫu nhiên từ tập U
3.2 Thuật toán ID3
Ý tưởng của thuật toán ID3:
Thực hiện giải thuật tìm kiếm tham lam (greedy search) đối với không gian các cây quyết định có thể
Xây dựng nút (node) theo chiến lược Top-Down, bắt đầu từ nút gốc
Ở mỗi nút, thuộc tính kiểm tra (test attribute) là thuộc tính có khả năng phân loại tốt nhất
Tạo mới một cây con (sub-tree) của nút hiện tại cho mỗi giá trị có thể của thuộc tính kiểm tra, và tập dữ liệu đầu vào sẽ được tách ra thành các tập con tương ứng với các cây con vừa tạo
Trang 24 Mỗi thuộc tính chỉ được phép xuất hiện tối đa 1 lần đối với bất kỳ đường đi nào trong cây
Quá trình phát triển cây sẽ tiếp tục cho tới khi:
o Cây quyết định phân loại hoàn toàn (perfectly classifies) các dữ liệu đầu vào
o Tất cả các thuộc tính được sử dụng
Trang 25CHƯƠNG II: GIẢI THUẬT RỪNG NGẪU NHIÊN VÀ
Giải thuật rừng ngẫu nhiên truyền thống RF-CART được phát triển trên ý tưởng của Bagging [2], phương pháp tiếp cận không gian con ngẫu nhiên của [31] Tiếp cận Bagging của Breiman, tập hợp các cây quyết định [32] được xây dựng từ việc lấy mẫu dùng bootstrap – lấy mẫu có hoàn lại từ tập dữ liệu ban đầu Sau đó kết hợp kết quả dự đoán của các cây, bầu chọn số đông cho vấn đề phân loại Giải thuật RF-CART của Breiman xây dựng một tập hợp các cây quyết định hiệu quả cao nhưng có sự tương quan thấp giữa các cây thành viên Breiman đã đề nghị dùng hai chiến lược để giữ bias thấp (sai lệch thấp) và sự phụ thuộc giữa các cây trong rừng thấp Để đạt được sai lệch thấp, ông đề nghị xây dựng các cây đến độ sâu tối đa không cần cắt nhánh Để giữ tính tương quan giữa các cây ở mức thấp, ông đề nghị sử dụng việc lấy mẫu có hoàn lại (bootstrap) từ tập dữ liệu ban đầu để xây dựng cây thành viên và chọn ngẫu nhiên một tập con các thuộc tính để tính phân hoạch tốt nhất ở các nút trong của cây Xét một tác
vụ phân loại với m phần tử dữ liệu xi (i = 1,m) và n chiều (thuộc tính), một cây quyết định (ký hiệu là DT) trong rừng ngẫu nhiên gồm k cây (ký hiệu RF = {DTi}i=1,k) được xây dựng như sau :
Trang 26Tập dữ liệu học là m phần tử dữ liệu được lấy mẫu có hoàn lại (kiểu bootstrap) từ tập
dữ liệu ban đầu
- Tại mỗi nút của cây, chọn ngẫu nhiên n’ chiều (n’< <n) và tính toán phân hoạch (chỉ
số Gini) tốt nhất dựa trên n’ chiều này
- Cây được xây dựng đến độ sâu tối đa không cắt nhánh
Rừng ngẫu nhiên RF-CART cho độ chính xác cao so với các giải thuật phân lớp tốt nhất hiện nay bao gồm Boosting và SVM Hơn nữa, thời gian huấn luyện của RF-CART nhanh, mô hình chịu đựng nhiễu tốt và không bị “học vẹt”
Tuy nhiên, việc xây dựng cây thành viên trong RF-CART chỉ chọn một chiều để phân hoạch dữ liệu tại các nút như đề nghị trước đây Do đó, tính mạnh mẽ của cây bị giảm khi làm việc với các tập dữ liệu có số chiều lớn và phụ thuộc lẫn nhau Ví dụ như trong hình 3, bất kỳ việc phân hoạch đơn thuộc tính nào (song song với trục tọa độ) đều không thể tách dữ liệu một lần duy nhất thành hai lớp một cách hoàn toàn mà phải thực hiện nhiều lần phân hoạch, nhưng việc phân hoạch đa chiều (xiên phân, kết hợp hai thuộc tính) có thể thực hiện một cách hoàn hảo với duy nhất một lần Vì thế, việc phân hoạch đơn thuộc tính được dùng để xây dựng cây thông thường thì không hiệu quả trong trường hợp này
Hình 3: Phân hoạch đơn thuộc tính (trái), phân hoạch đa thuộc tính (phải)
Trang 27Để khắc phục nhược điểm trên, nhiều giải thuật xây dựng cây quyết định sử dụng phân hoạch đa thuộc tính (xiên phân) tại các nút được đề nghị Vấn đề xây dựng cây quyết định xiên tối ưu đã được biết như là một vấn đề có độ phức tạp NP-hard Nghiên cứu tiên phong của Murthy và các cộng sự đã đưa ra giải thuật OC1, một hệ thống dùng để xây dựng các cây quyết định xiên trong đó dùng thuật toán leo đồi (Hill-climbing) để tìm một phân hoạch xiên tốt dưới dạng một siêu phẳng
1.2 Bootstrap và Bagging
1.2.1 Bootstrap
Là một phương pháp rất nổi tiếng trong thống kê được giới thiệu bởi Bradley Efron vào năm 1979 Phương pháp này chủ yếu dùng để ước lượng lỗi chuẩn (standard errors), độ lệch (bias) và tính toán khoảng tin cậy (confidence interval) cho các tham
số Phương pháp này được thực hiện như sau: Từ một quần thể ban đầu lấy ra một mẫu
L = (x1, x2, xn) gồm n thành phần, tính toán các tham số mong muốn Trong các bước tiếp theo lặp lại b lần việc tạo ra mẫu Lb cũng gồm n phần từ từ L bằng cách lấy lại mẫu với sự thay thế các thành phần trong mẫu ban đầu sau đó tính toán các tham số mong muốn
1.2.2 Bagging
Phương pháp này được xem như là một phương pháp tổng hợp kết quả có được
từ các bootstrap Tư tưởng chính của phương pháp này như sau: Cho một tập huấn luyện D={(xi, yi): i=1,2,…,n} và giả sử chúng ta muốn có một một dự đoán nào đó đối với biến x Một mẫu gồm B tập dữ liệu, mỗi tập dữ liệu gồm n phần tử được chọn lựa ngẫu nhiên từ D với sự thay thế (giống như bootstrap) Do đó B=(D1, D2, ….,DB) trông giống như là một tập các tập huấn luyện được nhân bản; Tập huấn một máy hoặc một
mô hình đối với mỗi tập Db (b=1, 2, …,B) và lần lượt thu thập các kết quả dự báo có được trên mỗi tập Db; Kết quả tổng hợp cuối cùng được tính toán bằng cách trung bình hóa (regression) hoặc thông qua số phiếu bầu nhiều nhất (classification)
Trang 281.3 Sơ đồ giải thuật
Tóm tắt cuả giải thuật RF cho phân lớp được diễn giải như sau:
• Lấy ra K mẫu bootstrap từ tập huấn luyện
• Đối với mỗi mẫu bootstrap xây dựng một cây phân lớp không được tỉa (unpruned tree) theo hướng dẫn sau: Tại mỗi nút thay vì chọn một phân chia tốt nhất trong tất cả các biến dự đoán, ta chọn ngẫu nhiên một mẫu m của các biến dự đoán sau
đó chọn một phân chia tốt nhất trong các biến này
• Đưa ra các dự đoán bằng cách tổng hợp các dự đoán của K cây
Quá trình học của Random Forest bao gồm việc sử dụng ngẫu nhiên giá trị đầu vào, hoặc kết hợp các giá trị đó tại mỗi node trong quá trình dựng từng cây quyết định Kết quả của Random Forest, qua thực nghiệm cho thấy, là tốt hơn khi so sánh với thuật toán Adaboost Trong đó Random Forest có một số thuộc tính mạnh như:
(1) Độ chính xác của nó tương tự Adaboost, trong một số trường hợp còn tốt hơn
(2) Thuật toán giải quyết tốt các bài toán có nhiều dữ liệu nhiễu
(3) Thuật toán chạy nhanh hơn so với bagging hoặc boosting
(4) Có những sự ước lượng nội tại như độ chính xác của mô hình phỏng đoán hoặc độ mạnh và liên quan giữa các thuộc tính
(5) Dễ dàng thực hiện song song
(6) Tuy nhiên để đạt được các tính chất mạnh trên, thời gian thực thi của thuật toán khá lâu và phải sử dụng nhiều tài nguyên của hệ thống
Qua những tìm hiểu trên về giải thuật RF ta có nhận xét rằng RF là một phương pháp phân lớp tốt do: (1) Trong RF các sai số (variance) được giảm thiểu do kết quả của RF được tổng hợp thông qua nhiều người học (learner), (2) Việc chọn ngẫu nhiên tại mỗi bước trong RF sẽ làm giảm mối tương quan (correlation) giữa các người học trong việc tổng hợp các kết quả
Trang 29Ngoài ra, chúng ta cũng thấy rằng lỗi chung của một rừng các cây phân lớp phụ thuộc vào lỗi riêng của từng cây trong rừng cũng như mỗi tương quan giữa các cây
2 Một số đặc điểm của RF
2.1 OOB (Out-of-bag)
Khi tập mẫu được rút ra từ một tập huấn luyện của một cây với sự thay thế (bagging), thì theo ước tính có khoảng 1/3 các phần từ không có nằm trong mẫu này Điều này có nghĩa là chỉ có khoảng 2/3 các phần tử trong tập huấn luyện tham gia vào trong các tính toán của chúng ta, và 1/3 các phần tử này được gọi là dữ liệu out-of-bag Dữ liệu out-of-bag được sử dụng để ước lượng lỗi tạo ra từ việc kết hợp các kết quả từ các cây tổng hợp trong random forest cũng như dùng để ước tính độ quan trọng thuộc tính (variable important)
2.2 Thuộc tính quan trọng
Việc thực hiện các tính toán để xác định thuộc tính quan trọng trong RF cũng gần như tương tự việc sử dụng OOB để tính toán lỗi trong RF Cách thực hiện như sau: Giả sử chúng ta cần xác định “thuộc tính quan trọng” của thuộc tính thứ thứ m Đầu tiên tính ROOB, sau đó hoán vị ngẫu nhiên các giá trị của thuộc tính m trong dữ liệu OOB, lần lượt “gửi” các giá trị này xuống cây và “đếm” số các dự đoán đúng ta gọi việc tính toán này đối với thuộc tính là Rperm Độ quan trọng thuộc tính được tính như sau: Trong trường hợp giá trị của thuộc tính quan trọng trên mỗi cây là độc lập thì chúng ta có thể tính được lỗi chuẫn (standard error) của ROOB – Rperm
3 Ứng dụng
3.1 Giải thuật rừng ngẫu nhiên xiên phân RF-ODT trong bài toán nhận dạng dấu vân tay
Trang 30Nhận dạng vân tay là ứng dụng phổ biến trong ngành nhân trắc học Đã từ lâu, dấu vân tay đã được sử dụng để nhận dạng một cá nhân nào đó do tính duy nhất và nhất quán của nó Thói quen sử dụng dấu vân tay để nhận dạng cá nhân được sử dụng
từ thế kỷ XIX khi Francis Galton xác định được một số đặc điểm của dấu vân tay Đến thập niên 1960, khi các công nghệ máy tính phát triển rầm rộ thì cũng là lúc vân tay được xác định một cách tự động Năm 1969, Cục điều tra liên bang (Federal Bureau of Investigation - FBI) phát triển hệ thống tự động hóa qui trình nhận dạng vân tay Vì vậy, FBI ký hợp đồng với Viện tiêu chuẩn và công nghệ (National Institute of Standards and Technology - NIST) để nghiên cứu quá trình phân loại, tìm kiếm và so sánh vân tay tự động Năm 1975, FBI tài trợ việc phát triển các máy quét vân tay để phân loại tự động và công nghệ rút trích các chi tiết quan trọng để chế tạo một thiết bị đọc thử nghiệm NIST tập trung vào phát triển các phương pháp số hóa tự động dấu vân tay in trên giấy, ảnh hưởng của chất lượng hình ảnh, phân loại, rút trích các chi tiết quan trọng và phương pháp so sánh
Hình 4: Đặc trưng của ảnh vân tay dùng cho nhận dạng
Trang 31Hầu hết các hệ thống nhận dạng dấu vân tay hiện nay như Libfprint và Fingerprint SDK đều dựa trên hai loại đặc trưng chính của ảnh vân tay: (i) điểm kỳ dị (singularity) gồm vùng xoáy (core), vùng tam giác (delta), đảo (island), điểm giao nhau (crossover),
lỗ hổng (pore) và (ii) điểm chi tiết (minutiae) gồm điểm kết thúc (ridge ending), điểm
rẽ nhánh (ridge bifurcation) (xem Hình 4) Tuy nhiên, việc sử dụng các chi tiết đặc trưng như hiện nay vẫn còn khó khăn vì ảnh thu được thường kém chất lượng, kết quả nhận dạng không tốt khi ảnh bị biến đổi hình học hay bị lệch
Hệ thống phân loại vân tay được tiếp cận từ sự kết hợp giữa phương pháp biểu diễn ảnh bằng các nét đặc trưng không đổi SIFT và sự mở rộng của giải thuật học rừng ngẫu nhiên xiên phân RF-ODT Ý tưởng xuất phát từ mô hình phân tích dữ liệu văn bản với túi từ (Bag of words - BOW) Trước tiên, ảnh vân tay được chuyển qua dạng mức xám Sau đó, các điểm đặc trưng (không bị thay đổi với những biến đổi tỉ lệ, tịnh tiến, phép quay và mạnh với những thay đổi về độ sáng, sự che khuất hay nhiễu) được tính trên các ảnh này và được biểu diễn bởi các véctơ mô tả SIFT 128 chiều Các véctơ này được phân nhóm vào các cụm (cluster) tương ứng với các từ trực quan (visual words) bởi giải thuật k-means Tập các cụm này tạo thành một từ điển từ vựng và mỗi véctơ
mô tả trong ảnh sẽ được phân nhóm vào cụm gần nhất Sau cùng, mỗi ảnh được biểu diễn bởi véctơ tần số các từ vựng (mô hình Bag of visterms – BOV) Bước tiền xử lý sẽ cho ra các tập dữ liệu có số chiều lớn (thường lớn hơn 1000) Do vậy phương pháp đề xuất là sử dụng giải thuật phân lớp rừng ngẫu nhiên xiên phân RF-ODT, giải thuật này thường phù hợp với các bộ dữ liệu có số chiều rất lớn Ngoài ra luật quyết định bình chọn số đông ở nút lá của cây xiên phân được thay thế bởi luật quyết định cục bộ cho phép làm việc hiệu quả cho phân lớp ảnh vân tay Giải thuật mở rộng của rừng ngẫu nhiên xiên phân cho phân lớp ảnh vân tay chính xác hơn các giải thuật học khác, bao gồm cây quyết định C4.5, rừng ngẫu nhiên của cây quyết định CART (RF-CART), AdaBoost của C4.5, máy học véctơ hỗ trợ (SVM) và k-láng giềng (kNN)
Trang 323.2 Giải thuật rừng ngẫu nhiên trong bài toán phân loại dữ liệu gen
Phân lớp dữ liệu có số chiều lớn có nhiễu như dữ liệu gien (mỗi chiều cung cấp rất ít thông tin cho tách lớp) được biết là một trong 10 vấn đề khó của cộng đồng khai phá dữ liệu (Yang and Wu, 2006) Mô hình học phân lớp thường cho kết quả tốt trong khi huấn luyện lại cho kết quả rất thấp khi dự báo Vấn đề khó khăn thường gặp chính
là số chiều quá lớn lên đến hàng nghìn chiều thậm chí đến cả triệu và dữ liệu thường tách rời nhau trong không gian có số chiều lớn việc tìm mô hình phân lớp tốt có khả năng làm việc với dữ liệu có số chiều lớn là khó khăn do có quá nhiều khả năng lựa chọn mô hình Việc tìm một mô hình phân lớp hiệu quả (phân lớp dữ liệu tốt trong tập thử) trong không gian giả thiết lớn là vấn đề khó Đã có hai lớp giải thuật tiêu biểu là máy học véc tơ hỗ trợ của Vapnik (SVM (Vapnik, 1995)) và rừng ngẫu nhiên của (Breiman, 2001) được biết đến như là những giải thuật phân lớp hiệu quả các tập dữ liệu có số chiều lớn như dữ liệu gen
Tiếp cận rừng ngẫu nhiên cho độ chính xác cao khi so sánh với các thuật toán học có giám sát hiện nay, bao gồm cả AdaBoost (Freund and Schapire, 1995), ArcX4 (Breiman, 1998) và SVM (Vapnik, 1995) Khi xử lý dữ liệu có số chiều lớn và số phần
tử ít như dữ liệu gien thì rừng ngẫu nhiên và SVM là hai giải thuật học nhanh, chịu đựng nhiễu tốt và không bị tình trạng học vẹt, điều này ngược lại với AdaBoost, ArcX4 rất dễ bị học vẹt và ảnh hưởng lớn với nhiễu (Grove and Schuurmans, 1998) Tuy nhiên, luật quyết định ở nút lá của các cây trong rừng ngẫu nhiên dựa vào luật bình chọn số đông, điều này dẫn đến độ chính xác của giải
thuật rừng ngẫu nhiên bị giảm khi phân lớp dữ liệu
Trang 33CHƯƠNG III: GIẢI THUẬT RỪNG NGẪU NHIÊN TRONG BÀI TOÁN ĐOẠN ẢNH THEO ĐỐI TƯỢNG
I BÀI TOÁN PHÂN ĐOẠN ẢNH THEO ĐỐI TƯỢNG
1 Giới thiệu bài toán
Bài toán phân đoạn ảnh (image segmentation) và nhận dạng đối tượng (object
recognition) đều là những vấn đề kinh điển trong thị giác máy tính và nhận được sự quan tâm của cộng đồng nghiên cứu ngay từ những ngày đầu Tuy nhiên, nhiều tác giả xem xét hai vấn đề này như hai vấn đề riêng biệt nhau Gần đây, các nhà nghiên cứu tập trung vào việc kết hợp hai bài toán này như là một cách tiếp cận mới để giải quyết bài toán phân đoạn ảnh theo đối tượng
Các nghiên cứu thuần về phân đoạn ảnh tập trung vào việc phân chia một bức ảnh thành các vùng không giao nhau Các pixel thuộc cùng một vùng sẽ có một số tính chất tương tự nhau về diện mạo như: màu sắc, độ sáng, và vân Việc phân đoạn ảnh này chỉ thể hiện các vùng khác nhau có diện mạo khác nhau, không chứa thông tin ngữ
nghĩa gì về các vùng này Dạng phân đoạn ảnh này còn được gọi là phân đoạn ảnh
không giám sát (unsupervised image segmentation)