Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 76 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
76
Dung lượng
29,01 MB
Nội dung
x: ỉ d i h ọ c ọ u ó c g ia h n ộ i TRNG AI ô HOC CễNG NGHấ * ã NGUYN HOÀI NAM MỘT SỐ KỸ THUẬT VECTOR TỤA (SVM) TRONG KHAI PHÁ D ữ LIÊU VÀ ỨNG DƯNG VÀO NHẢN DANG • • ề Ngành : Cơng nghệ thơng tin Chuyên ngành : Hệ thống Thông tin Mằ sổ : 60 48 05 LUẬN VĂN THẠC s ĩ NGƯỜI HƯỚNG DẢN KHOA HỌC : PGS.TSKH Bùi Công Cường ■JAi HỌC QUỐC GIA HÀ NÔI ; rung tâm thO ng tin thư viện Vr LOẬ A S A L Hà Nội - 2008 _ MỤC LỤC LỜI CAM Đ O A N LỜI CẢM Ơ N C Á C TỪ V I Ế T T Ắ T , T H U Ậ T N G Ữ C Á C HÌN H V Ẽ CHƯƠNG : MỘT 1.1 SỐ KIẾN THÚC CHUẨN B Ị 10 Bài toán tối ưu 10 1.1.1 Bài toán qui hoạch tuyến tín h 10 / ỉ ỉ ỉ Dạng tắc 1Ị Ị ỉ ỉ.2 Dạng chaân tắc / / 1.1.2 Qui hoạch tuyến tính đổi ngẫu 12 1.2 Biểu diễn liệu 14 1.2.1 Dữ liệu huấn luyện 14 1.2.2 Không gian hữu hạn chiều 14 1.2.3 Một thuật toán nhận dạng mẫu đơn g iả n 15 1.2.4 Một số khái niệm lý thuyết học thổng k ê 18 1.2.4 ỉ Không gian v c 19 1.2.4.2 Mối liên hệ lý thuvểt học thống kê SVM 20 1.3 Phưoìig pháp phân tích thành phần (PCA) 20 1.3.1 Đ ộ lệch c h u ẩ n 20 1.3.2 Phương sai 21 1.3.3 Vector riêng, giá trị riêng 22 1.3.4 Phương pháp phân tích thành phần 23 CHƯƠNG : KHAI PHÁ DỮ LIỆU VÀ HỌC MÁY 28 2.1 Khái niêm hoc .28 • • 2.1.1 Qúa trình học 28 2.2 Máy h ọ c 29 2.2.1 Quy trình máy học 30 2.2.1.1 Học có thày .30 2.2.1.2 Học khơng có th y 31 2.2 ỉ Học có thày phần S ỉ 2.3 Khai phá liệu .32 2.3.1 Cấu trúc hệ thống khai phádừ liệu 32 2.3 ỉ ì X lý liệu 32 2.3.2 Các tốn khai phá liệu 33 2.3.2.1 Phân lớp phán cụm .33 23 2 Tim luật 34 2.3.3 Một số phương pháp tính dùng khaiphá dừ liệu 35 2.4 Sự giống khác khai phádữ liệu máy học 35 C H U ONG 36 HÀM HẠT N H Â N 36 3.1 Tích vơ hướng đặc trưng 36 3.1.1 Đặc trưng đơn 36 3.1.2 H àm h t n h â n 37 3.1.3 Hàm hạt nhân đa th ứ c 37 3.2 Biểu diễn đồng dạng khơng gian tuyếntính 39 3.2.1 Các hạt nhân xác định dương 39 3.2.2 Tái lập ánh xạ hạt nhân 40 3.2.3 Tái lập không gian hạt nhân H ilbert 42 3.2.4 Ánh xạ hạt nhân Mercer 43 3.3 Các hạt nhân thưòng đưọc sử dụng 45 C H Ư Ơ N G 46 P H Ư Ơ N G PHÁP V E C T O R TỰA (SVM) 46 4.1 Phân chia siêu phắng 46 4.2 Vai trò cùa lề siêu phẳng 47 4.3 Siêu phẳng tối ưu - Phân lóp tuyến tín h 49 4.3.1 Đánh giá lỗi 50 4.3.2 Bài tốn qui hoặch tồn phươne tìm lề phân lớp tối ưu 51 4.4 Phân lóp phi tuyến vector t ự a 51 4.5 Siêu phẳng vói lề m ề m 54 4.6 Phấn lóp trìig họp có nhiều l p 60 4.6.1 Chiến lược Một-đỐi-Phần lại (One Versus the Rest) 60 4.6.2 Chiến lược so sánh theo cặp (hay gọi làmột đối m ộ t) 61 CHƯONG : MỘT SÓ ỦNG DỤNG CỦA KỲ THUẬT VECTOR TựA 62 5.1 Phấn loai văn b ả n 62 ■ 5.2 Nhận dạng ả n h 64 5.2.1 Phân lớp độc lập .64 5.2.2 Phân lớp với ảnh màu 65 5.3 Nhận dạng chữ số viết tay 66 5.4 Tin-sinh học (Bio-lnformatỉcs) 67 5.4.1 Phát protein tương đồng , 67 CHƯƠNG : CÀI Đ ẬT THỬ NGHIỆ # * M 69 6.1 Nhận dạng ảnh khuôn m ặt ngư i 69 6.1.1 Xây dựng không gian đặc trưng 70 6.1.2 Huấn luyện nhận dạng 72 6.2 Xây dựng hệ thống nhận dạng 74 KÉT LUẬN 76 TÀI LIỆU TH AM K H Ả O 77 CÁ C TỪ VIẾT TẮT, THUẬT NGŨ (ORL Cambridge Olivetti Research Lab PCA Principal Components Analysis 1RBF Radial Basic Function SVM Support Vector Machines vc Vapnik Chervonenkis CÁC HÌNH VẼ Hình 1.1 Phân lớp đơn giản 17 Hình 1.2 : Hai hàm huấn luyện cho kết khác liệu kiểm tra 18 Hình : 1.3 v c đường thẳng có hướng 20 không gian chiều (R2) 20 Hình 1.4 Ý nghĩa hình học PC A 27 Hình 2.1 : Sơ đồ Bloom 29 Hình 2.2 : Thuật tốn học có thày : Cây định, Mạng nơron, Vector tựa 31 Hình 2.3 : Thuật tốn học khơng có thày : Phân cụm 31 Hình 3.1 Ví dụ phân lớp nhị phân ánh xạ sang khơng gian đặc trưng 38 Hình 3.2 Minh hoạ mối liên hệ ánh xạ đặc trưng với hạt nhân 40 Hình 4.1 Một siêu phẳng phân lớp đối tượng thành hai lớp 46 Hình 4.2 Siêu phẳng dạng tắc 47 Hình 4.3 Vỉ dụ phân lớp khơng gian chiều 48 Hình 4.4 : Ví dụ : Bằng cách ánh xạ khơng gian liệu phi tuyến đầu v o .52 Hình 4.5 : Ví dụ SVMs khơng gian phi tu y ế n 53 Hình 4.6 : P-SVC với V = 0.1 (trên-trái)đến V = 0.8 (dưới-phải) 57 Hình 6.1 : Ảnh người liệu ảnh O R L 71 Hình 6.2 Phân lớp sử dụng phân lớp nhị p h â n 73 Hình 6.3 Phân nhiều lớp với sổ lớp 73 Hình 6.4 Các liệu huấn luyện 74 Hình 6.5 : Dừ liệu kiếm tra kết nhận dạng 75 MỞ ĐẦU Trong thời gian gần đây, cơng nghệ thơng tin góp phần quan trọng vào phát triển kinh tế, giáo dục làm thav đổi xã hội, tạo khái niệm, quan niệm nhiều lĩnh vực, tác động đến tất cá nhân, tổ chức xã hội Cơng nghệ thơng tin đà làm xố mờ khoảng cách địa lý, giúp người khắp nơi giới, tất văn hoá dễ dàng trao đổi, chia sẻ thơng tin Chính nhừng tiện ích vơ thân thiện cùa nên cộng đồng tham gia vào việc sử dụng, phát triển công nghệ thông tin rộng lớn, không kể tuổi tác, nahề nghiệp, tôn giáo, vùng miền, Chúng ta chứng kiến phát triên nhir vũ bão công nghệ thông tin nhừng năm vừa qua, từ vi xử lý tới hệ thổna lưu trữ phải phát triển nhanh chóng đế đáp ứng khối lượng thông tin khổng lồ; thơng tin khơng nằm chỗ mà luân chuyển, bổ sung, cập nhật người sử dụng Với khối lượng thông tin lớn đến vậy, liệu người có cảm thấy tái, ngập chìm biên thơng tin, khơng chọn lựa thông tin quan trọng, gần với nhu cầu sử dụng minh Điều có nghĩa có q nhiều thơng tin, điều thực cần tri thức,là kiến thức có qua tổng hợp, phân tích, thống kê từ kho thơng tin Đe tìm tri thức kho thông tin khổng lồ cần phải có phương pháp khái phá lượng thơng tin Cùng lý mà thời gian gần đây, nghành khai phá dừ liệu nhiều người quan tâm nghiên cứu Trong luận vãn tốt nghiệp cao học trường Đại học công nghệ - Đại học quốc gia Hà Nội, thực đề tài “Một sổ kỹ th u ậ t vector tựa (SVM) khai phá liệu ứng dụng vào nhận dạng” • Lý chọn đề tài Trong khai phá dừ liệu học máy, yếu tố định đến độ xác dự đoán khả phân lớp tốt Kỹ thuật vector tựa đánh giá có khả phân lớp tốt, đặc biệt tốn phân lớp phi tuyến Hiện có nhiều ứng dụng xây dựng dựa kỹ thuật vector tựa cho kết khả quan • Mục đích, đổi tư ợ n g , phạm vi nghiên cứu Nghiên cứu phần sở, lý thuvết chung kv thuật vector tựa, nghiên cứu sổ kỹ thuật vector tựa cụ thể Nghiên cửu phương pháp sử dụng kv thuật vector tựa nhận dạng mẫu, đặc biệt nhận dạng khuôn mặt Đưa giải pháp nhàm tăng cường tốc độ tính tốn, độ xác cho phương pháp vector tựa • Ý nghĩa khoa học thực tiễn Đây phương pháp phân lớp đại, áp dụng cho nhiều toán phàn lớp Với giới hạn đổi tượng, vấn đề tìm hiểu nghiên cứu trên, i uận văn bao gồm c h n g : C hư ng : Một số kiến thức chuẩn bị Giới thiệu khái niệm quy hoạch tuyến tính, lý thuyết học thống kê, khái niệm ban đầu kỹ thuật vector tựa, mối liên hệ lý thuyết thống kê kỹ thuật vector tựa C hu’O'ng : Khai phá d ữ liệu học máy Trình bày khái niệm khai phá liệu học máy Chương : Hàm hạt nhân Trình bày khái niệm hàm hạt nhân, trình bày khơng gian đặc trưng, trình bày sử dụng hạt nhân kỹ thuật vector tựa Chương : Phương pháp vector tựa (SVM) Trình bày nội dung phương pháp vector tựa Tập sâu vào kỹ thuật vector tựa hay sử dụng C hương : M ột số ứng dụng SVM Phân tích, xây dựng tốn nhận dạng khuôn mặt bàng kỹ thuật vector tựa Lựa chọn phương pháp phân tích thành phần (PCA) để trích rút đặc trưng khn mặt, xây dựng cờ sở liệu ảnh mặt để kiểm tra khả hoạt động kỹ thuật vector tựa Chương : Cài đ ặ t th nghiệm Cài đặt thử nghiệm hệ thống nhận dạng khuôn mặt người để kiểm tra khả phân lớp kỹ thuật vector tựa Kết luân Đánh giá hiệu phương pháp vector tựa đưa hướng cài tiến, ứng dụng áp dụng kỹ thuật vector tựa 10 CHƯƠNG : MỘT SÓ KIẾN TH ÚC CHUẨN BỊ 1.1 Bài toán tối ưu Bài tốn tối ưu tốn tìm nghiệm tối ưu (cho hàm mục tiêu đó) trono, số phương án (nghiệm) chấp nhận thuộc miền V cho trước 1.1.1 Bài tốn qui hoạch tuyến tính Qui hoạch tuyến tính lớp tốn tối ưu quan trọng vả ứng dụng rồng rãi thực tiền Qui hoạch tuyến tính tốn tìm cực tiểu (hay cực đại) hàm tuyến tính f(x) khúc lồi D c Rn xác định bơi hệ phương trình hay bất phương trình tuyến tính cho trước Bài tốn có dạng : Tìm vector x= (x/, x 2, Z n CịXị —>m in cho 7=1 thoá mân ràng buộc Z / *—‘j7 = = 11 X'7=1 uClij i j X) x > < bị , i = 1, , 171, > b ị , i = m l + , , 771! + m 2, (1.1) ( 2) X—1« y d ụ Xj — bị , i = i — m í + m - , £—Jj = Xị > ,7 = l, ,n,Xj < 0,j - 71! + 1, ,ní + n2 < n (1 ) (1 ) a;j,bj,Cj h ằ n g số cho trước Trong toán trên, f gọi hàm mục tiêu, hệ thức (1.1) - (1.4) gọi ràng buộc Mồi ràng buộc (1.1) - (1.3) gọi ràng buộc (dạng đẳng thức hay bất đẳng thức), mồi ràng buộc X j> hay Xj < gọi ràng buộc dấu Điểm X=(X],X2 xn) c Rn thoá mân ràng buộc toán gọi điểm chấp nhận hay phương án Tập hợp tất phương án, ký hiệu D, gọi miền ràng buộc hay miền chấp nhận Một phương án đạt cực tiểu hàm mục tiêu gọi phương án tối ưu hay lời giải tốn cho Bài tốn có phương án tối ưu gọi tốn có lời giải Bài tốn khơng có phươna, án (miền ràng buộc rồng D =0) có phương án khơng có phương án tối ưu, hàm mục tiêu giám vơ hạn (bài tốn tìm min) tăng vơ hạn (bài tốn tìm max) gọi tốn khơng có lời giải 11 Các ràng buộc toán xếp theo thứ tự; trước hết ràn g bu ộc < đ ến ràn g buộc > v sau c ù n g ỉà ràng buộc = m J số ràng buộc , m tổng số ràng b u ộ c chính, n biến số củ a toán, nỊ số ràn g bu ộc Xj > 0, n số ràng buộc X j< (có thể ri|=0, n2=0) Nếu khơng có ràng buộc < mj=0, khơng có ràng buộc > m2, khơng có ràng buộc = m=mi+m2 Với tốn bất kỳ, ta viết ràng buộc dạng cho bị > 0, i= l, ,m (nếu có bj < ta nhân hai vế ràng buộc i với - , đổi chiều bất đẳng thức xếp lại thứ tự ràng buộc cần) Người ta thường xét tốn qui hoạch tuyến tính hai dạng sau : 1.1.1.1 Dạng tắc Z n C ịX ị -» m i n , /=1 l^ r a ijxị = bi> i = , , m, V Xj > , j = 1,2, Ràng buộc dạng đẳng thức biến không âm 1.1.1.2 Dạng chuẩn tắc Z n C jX j -> m i n , i =1 I^ l i = 1,2, , m , CLijXj > bị, Xj > , j = 1,2, Ràng buộc dạng bất đẳng thức > (đổi với toán < toán max), biến khơng âm Đe viết tốn gọn hơn, ta dùng ký hiệu vector ma trận sau: A = an a 21 a12 0-22• ••• a ĩn a 2n aml ^m2 Q-mn • ' j ' , A j= Ũ 2j a m j 63 chủ đề, nhiên khơng phải tốn phân lớp vơi liệu thuộc nhiều lóp mà chuồi toán phân lớp nhị phân theo chủ đề Đế phân loại văn ta phải thu lượm nội dung văn (IR - Information Retrieval), điều dẫn đến ý tưởng sử dụng hạt nhân Mcrcer đẻ ánh xạ đặc trưng Không gian vector văn thường xây dựng từ từ hay cụm từ theo xuất văn Nếu văn -Y biếu diền vector ^ ( x ) , OC*) đánh chi số đế có mặt hay khơng có mặt từ, cụm từ văn hay số có giá trị trọng số từ, cụm từ theo số lần xuất văn Sau vector chuẩn hố, thôna tin thứ tự từ độ dài văn khơng cịn Và khoảng cách giừa hai văn tính tính vơ hướng hai vector biểu diễn hai văn Các nghiên cứu IR rằng, từ gốc đơn vị biểu diễn văn tốt Từ gốc từ dẫn xuất nhiều từ khác nhau, ngược lại từ từ ta bỏ tiền tố, hậu tố, để thu từ gổc, ví dụ từ có chung từ gốc “comput” “computer”, “computation”,’’computing” Chúng ta tạo thành danh mục theo dạng từ điển văn sau loại bỏ từ có nghĩa bổ xung, trạng từ xếp cụm từ theo số lần xuất Công thức tính trọng sổ từ gốc thường chọn : ^ _ ưi^og (i df i ) -» (UX) r ánh xạ đặc trưng có kêt hợp với Gaussian 69 C H Ư Ơ N G : CÀI Đ Ặ T T H Ử NGHIỆM Chúng tiến hành cài đặt chương trình để nhận dạng ảnh khn mặt người dựa kỹ thuật vector tựa Chương trình phát triền môi trư ng V isu al S tudio N E T 05 , n g ô n n g ữ c sh aip 6.1 Nhận dạng ảnh khuôn mặt người Như biết, nghiên cứu ứng dụng công nghệ nhận dạng phát triển nhanh chóng nhừng năm vừa qua Cơng nghệ nhận dạng mặt người đưa vào nhiều ứng dụng thực tiễn, kể ứng d ụ n g điển h ìn h n h : • K iể m so át v o -ra : X c thự c đổi tư ợ n g x u ấ t cản h n h ậ p cảnh hay đối tượng truy nã qua ảnh chân dung • K iể m s o t an nin h c ô n g cộn g q u a hệ th ố n g c a m e • T ìm k iế m d ữ liệu c ó ả n h k h uô n m ặ t trê n c s d ữ liệu đa p h n g tiện, ví dụ tìm kiểm đoạn phim có hình ảnh nhân vật, • X c địn h trạ n g thái cảm x ú c trê n k h u ô n m ặ t tro n g hệ th ố n g tư n g tác n g i - m y • C ả n h b o ch o lái xe người lái c ó b iểu n gủ gật • C c ứ n g d ụ n g tro n g n g hiên u, th iết kế v đ iều k hiển ro b o t • ứ n g d ụ n g củ a h ã n g sản x u ấ t m y c h ụ p h ìn h k ỹ th u ậ t số Để áp dụng thành công nghệ công vào ứng dụng hệ thống nhận dạng phải có khả nhận dạng tốt có thay đổi ảnh khuôn mặt T h e o tự n h iên , k h u ô n m ặ t củ a người có th ay đổi theo thời gian phát triển lão hoá Tuy nhiên, nhà nghiên cứu chứng minh thời kỳ trưởng thành (thời niên trung niên) khn mặt có hình dáng ổn định Trong thực tiễn, thay đổi, khác biệt tự nhiên ảnh khuôn mặt nhỏ nhiều so với thay đổi điều kiện khách quan lấy ảnh khn mặt (điều kiện ánh sáng, góc chụp, khoảng cách, ) Khi tốn nhận dạng khuôn mặt đặt hai vấn đề, thứ cách biễu diễn khuôn mặt với nào, thứ hai cách để phân lớp ảnh khuôn mặt theo cách biểu diễn chọn Trong cách biểu diễn khn mặt theo đặc trưng hình học mắt, mũi, miệng, má, trán, Khi xác định vị trí phận khn mặt ta 70 có thơng tin kích thước, khoảng cách, tỉ lệ góc giừa đặc trưng, thơng số dùng làm đặc trưng để biểu diễn khuôn mặt Lợi thể cách biểu diễn kích thước đặc trưng nhỏ, khơng bị ảnh hưởng độ sáng tối Nhưng đế xác định xác vị trí điểm khn mặt khó khăn, kết phân lớp khuôn mặt theo phương pháp có kết khơng cao Ngược lại với phương pháp biếu diễn khn mặt theo khoảng cách hình học phương pháp biểu diễn khuôn mặt theo giá trị cùa điểm ảnh ảnh khuôn mặt Theo cách biếu diễn có phương pháp phân lớp khuôn mặt đối sánh mẫu mạng nơron Chính khơng phải xác định vị trí, khoảng cách đặc trime khuôn mặt nên phương pháp có tính ứng dụng cao Một nhừng phương pháp nhận dạng khuôn mặt thành công phương pháp đổi sánh mẫu dựa giá trị riêng khuôn mặt (eigenface) cách lấy đặc trưng nhận dạng dựa biến đổi Karhunen Loeve (KLT) phân tích dựa thành phần (PCA) Khi ảnh khuôn mặt biểu diễn vector trọng số không gian eigenface, việc phân lớp khuôn mặt dựa khoảng cách vector đặc trưng Kỹ thuật vector tựa Vapnik cộng đưa cho phép giải hiệu tốn nhận dạng mẫu nói chung nhận dạng khn mặt nói riêng Ý tướníỉ cúa phương pháp chia tập dừ liệu dựa vào siêu phẳng tối ưu Phương pháp giảm thiểu lồi huấn luyện dừ liệu mẫu mà giảm thiểu lồi phân lớp với liệu kiểm 6.1.1 Xây dựng không gian đặc trưng Trong cài đặt thử nghiệm, sử dụng liệu ảnh khuôn mặt ORL Dữ liệu bao gồm 400 ảnh 40 người khác nhau, người có 10 ảnh với góc độ, trạng thái tình cảm khác Các ảnh khn mặt ảnh đen trắng có kích thước cao X rộng 112x92 Tập liệu chia thành hai phần dừ liệu huấn luyện liệu kiểm tra, phần gồm 200 ảnh 10 người khác 71 Hình ỉ : Anh người liệu ảnh ORL Đe giảm số chiều xây dựng không gian đặc trưng, tiến hành giảm kích thước ảnh cách thu nhỏ ảnh xuống kích thước 33x27 Ta coi ảnh ma trận, giá trị phần tử ma trận giá trị mức xám của điểm ảnh nằm khoảng [0,255] Khi đó, ảnh chuyển thành vector có số chiều 33x27=891 bàng cách chuyển hàng ma trận vào vector -47 79 79 132 • • -43 • 76 76 • 127 • ♦ - = [47 79 79] 79- Để giảm số chiều không gian liệu, ta tiến hành trích rút đặc trưng theo phương pháp PCA ánh xạ liệu ban đầu vào không gian đặc trưng Ta tiến hành bước sau : 1) Từ không gian vector liệu ban đầu ta tìm vector trung bình mẫu 2) Xây dựng ma trận hiệp phương sai kích thước N X N, N=891 3) Tìm vector riêng giá trị riêng từ ma trận hiệp phương sai ta có 891 giá trị riêng tương ứng 891 vector riêng 4) Chọn K (K