4.1.1. Mục đích thực nghiệm:
Đo đạc độ chính xác của thuật toán xác định vị trí khuôn mặt sử dụng bộ phân lớp dựa trên các đặc trƣng MB-LBP trên dữ liệu là các khuôn mặt chính diện hoặc nghiêng nhẹ của mèo.
4.1.2. Bố trí thí nghiệm:
Chuẩn bị bộ dữ liệu đã gán nhãn tọa độ gồm 9996 ảnh chứa khuôn mặt chụp chính diện hoặc nghiêng nhẹ của mèo thành 2 tập ảnh A, T lần lƣợt có số lƣợng là 8996, 1000: Trong đó:
o A sẽ đóng vai trò tập huấn luyện cho bộ phân lớp;
o T là tập dữ liệu kiểm thử để đánh giá độ chính xác cuối cùng. Bổ sung
500 ảnh không chứa khuôn mặt của mèo vào tập T.
Sử dụng bộ dữ liệu G gồm 5070 ảnh không chứa khuôn mặt của mèo để làm các ảnh nền trong khi huấn luyện.
Tập ảnh A và T đƣợc lấy nguyên vẹn từ bộ ảnh khuôn mặt trực diện của mèo của Microsoft (Microsoft Cat Dataset 2008). Tập ảnh G đƣợc lấy từ các nguồn 450 ảnh dữ liệu khuôn mặt trực diện của Caltech và bộ ảnh PASCAL VOC 2007
35 Bắt đầu Gán nhãn vị trí cho tập A Tiến hành huấn luyện bộ phân lớp bằng tập ảnh A Tiến hành phân lớp tập ảnh T và ghi lại độ chính xác của bộ phân lớp Kết thúc Hình 4.1: các bƣớc thực hiện thí nghiệm 1
36 4.1.3. Kết quả thí nghiệm: Dữ liệu Dƣơng tính - Đúng Dƣơng tính - Sai Âm tính - Đúng Âm tính - Sai Đủ các góc 170 26 490 314 Đã đƣợc xoay thẳng 270 26 490 214 Bảng 4.1: Kết quả thí nghiệm 1
Nhƣ vậy, kết quả kiểm thử với tập ảnh tự nhiên, các khuôn mặt xoay một góc tùy ý không đƣợc tốt lắm. Khi kiểm tra với cùng tập ảnh nhƣ vậy nhƣng các khuôn mặt đƣợc xử lý trƣớc, xoay về một góc sao cho đƣờng nối hai mắt song song với chiều rộng của bức ảnh thì kết quả đƣợc cài thiện rõ rệt. Nhƣ vậy có thể kết luận đƣợc là bộ phân lớp xác định khuôn mặt rất nhạy cảm với các góc xoay khác nhau của khuôn mặt.
.
4.2. Thí nghiệm 2:
4.2.1. Mục đích thực nghiệm:
Đo đạc độ chính xác của thuật toán xác định vị trí khuôn mặt sử dụng bộ phân lớp chồng tầng dựa trên các đặc trƣng MB-LBP trên dữ liệu là các khuôn mặt chính diện hoặc nghiêng nhẹ của loài mèo. So sánh kết quả khi huấn luyện bộ phân lớp hoàn toàn bằng dữ liệu huấn luyện đã xác định vị trí khuôn mặt theo cách thủ công với khi áp dụng kết hợp với thuật toán huấn luyện bán giám sát bootstrapping.
4.2.2. Bố trí thí nghiệm:
Chia bộ dữ liệu gồm 9996 ảnh chứa khuôn mặt chụp chính diện hoặc nghiêng nhẹ
của mèo thành 3 tập ảnh A1, A2, B, T lần lƣợt có số lƣợng là 2000, 500, 6996, 500: Trong
đó:
o A1, A2 sẽ đóng vai trò tập huấn luyện mồi và tập huấn luyện kiểm thử trong mỗi vòng lặp của thuật toán bootstapping;
o B là tập dữ liệu không xác định vị trí khuôn mặt sử dụng để mở rộng dữ
37
o T là tập dữ liệu kiểm thử để đánh giá độ chính xác cuối cùng. Bổ sung
500 ảnh không chứa khuôn mặt của mèo vào tập T.
Sử dụng bộ dữ liệu G gồm 5070 ảnh không chứa khuôn mặt mèo để làm các ảnh nền trong khi huấn luyện.
Tập ảnh A1, A2, B và T đƣợc lấy nguyên vẹn từ bộ ảnh khuôn mặt trực diện của mèo của Microsoft (Microsoft Cat Dataset 2008). Tập ảnh G đƣợc lấy từ các nguồn 450 ảnh dữ liệu khuôn mặt trực diện của Caltech và bộ ảnh PASCAL VOC 2007
Để so sánh kết quả của việc sử dụng thuần bộ phân lớp chồng tầng dựa trên các đặc trƣng MB-LBP với khi kết hợp với thuật toán bootstapping, ta tiến hành thí nghiệm nhƣ sau.
38 Bắt đầu Gán nhãn vị trí cho tập A1, A2, và T Tiến hành huấn luyện bộ phân lớp bằng tập ảnh A1 và G Tiến hành phân lớp tập ảnh T và ghi lại độ chính xác của bộ phân lớp
Tiếp tục huấn luyện bộ phân lớp bằng thuật toán bootstrapping, tập ảnh A2 và B Tiến hành phân lớp tập ảnh T và ghi lại độ chính xác của bộ phân lớp sau khi đã
bootstrapping
Kết thúc
39 4.2.3. Kết quả thí nghiệm Vòng lặp Số mẫu gán nhãn tự động đƣợc tăng thêm Tổng số mẫu gán nhãn Dƣơng tính - Đúng Dƣơng tính - Sai Âm tính - Đúng Âm tính - Sai 0 0 2000 28 0 500 0 25 2643 4643 111 11 498 0
Bảng 4.2: Các vòng lặp huấn luyện trong thí nghiệm 2
Trong thí nghiệm 2 này nhờ vào bootstrapping, độ chính xác đã tăng lên đáng kể chứng tỏ đƣợc hiệu quả của việc sử dụng thuật toán bootstrapping. Mặc dù độ chính xác của các mẫu gán nhãn không đƣợc chính xác hoàn toàn nhƣ khi gán nhãn thủ công dẫn đến kết quả của bộ phân lớp chồng tầng áp dụng huấn luyện bootstrapping đạt đƣợc không bằng kết quả của bộ phân lớp có giám sát tuy vậy công sức bỏ ra ít hơn hẳn so với khi gán nhãn thủ công.
Tốc độ hội tụ của phƣơng pháp huấn luyện này cũng khá nhanh mặc dù chƣa áp dụng các phƣơng pháp tính toán song song trong các vòng lặp (mặc dù chƣơng trình huấn luyện bootstrapping trong luân văn chƣa áp dụng nhƣng bản chất khi đã huấn luyện đƣợc bộ phân lớp chồng tầng ở mỗi vòng lăp, ta có thể xác định vị trí khuôn mặt đồng thời trên nhiều ảnh của bộ mẫu chƣa gán nhãn để tận dụng sức mạnh tính toán song song của các máy tính hiện nay)
40
4.3. Thí nghiệm 3:
4.3.1. Mục đích thí nghiệm:
Đo đạc độ chính xác của thuật toán nhận diện danh tính khuôn mặt sử dụng bộ phân lớp LBPH trên dữ liệu là các khuôn mặt chính diện của loài ngƣời.
4.3.2. Bố trí thí nghiệm:
Chuẩn bị sẵn một tập 450 khuôn mặt của nhiều ngƣời, trong đó mỗi ngƣời sẽ xuất hiện trong nhiều ảnh. Tập ảnh đƣợc lấy từ các nguồn 450 ảnh dữ liệu khuôn mặt trực diện của Caltech
Các bƣớc thí nghiệm nhƣ sau: Bắt đầu Trong thư mục còn ảnh chưa chọn Trong thư mục còn ảnh chưa nhận dạng Chọn ảnh Nhận dạng ảnh So sánh với dữ liệu gán nhãn sẵn và ghi lại kết quả Kết thúc
41 Hình 4.3: Các bƣớc thí nghiệm 3
42 4.3.3. Kết quả thực nghiệm Ngƣời Tổng số ảnh xuất hiện Dƣơng tính - Đúng Dƣơng tính - Sai Âm tính - Đúng Âm tính - Sai 1 21 14 6 432 7 2 20 14 26 404 6 3 5 2 0 445 3 4 22 14 24 404 8 5 21 19 0 429 2 6 23 7 0 427 16 7 20 10 1 429 10 8 5 2 0 445 3 9 21 21 24 405 0 10 7 2 0 443 5 11 5 3 1 444 2 12 5 1 0 445 4 13 20 12 0 430 8 14 21 6 0 429 15 15 25 20 23 402 5 16 22 12 7 421 10 17 19 14 32 399 5 18 20 3 0 430 17 19 20 18 16 414 2 20 20 8 8 422 12 21 22 17 1 427 5 22 21 9 1 429 11 23 22 9 0 428 13 Bảng 4.3: Kết quả thí nghiệm 3
Độ chính xác của bộ phân lớp chƣa tốt, số lƣợng kết quả sai còn nhiều, điều này có thể giải thích do mỗi khi phân loại, ta chỉ lấy một ảnh làm dữ liệu huấn luyện nên mô hình phân lớp đƣợc huẩn luyện vẫn chƣa thật sự đáng tin cậy. Tuy vậy đây thƣờng là tình huống hay xảy ra trong thực tế. Ngƣời dùng hệ thống tìm kiếm ảnh sẽ thƣờng đƣa ra chỉ một bức ảnh của ngƣời họ đang muốn tìm, hệ thống sẽ chỉ dựa vào bức ảnh đó để tìm kiếm trong bộ dữ liệu của nó. Để cải thiện ta có thể yêu cầu ngƣời dùng cung cấp thêm ảnh nếu muốn kết quả tìm kiếm chính xác hơn hoặc chọn ngƣỡng thấp hơn để loại bỏ lƣợng Dƣơng tính – Sai (nhƣng có thể làm tăng số Âm tính – Sai).
43
CHƢƠNG 5: KẾT LUẬN
5.1. Các kết quả đạt đƣợc và hạn chế
Qua quá trình nghiên cứu và xây dựng hệ thống tìm kiếm ảnh theo nội dung, luận văn đã đạt đƣợc những kết quả sau đây
Thứ nhất, luận văn nghiên cứu kỹ lƣỡng về các thuật toán cho phép trích chọn các yếu tố của bức ảnh và thuật toán của các hàm phân lớp chồng tầng dựa vào đặc trƣng MB-LBP để có thể xác định đƣợc khá chính xác vị trí của các khuôn mặt của ngƣời và động vật có vú. Thứ hai, luận văn cũng đã đề xuất đƣợc phƣơng pháp áp dụng học máy bán giám sát bootstrapping vào trong quá trình huấn luyện các hàm phân lớp. Phƣơng pháp này đã cho phép rút bớt công sức chuẩn bị thủ công dữ liệu huấn luyện mà vẫn cho kết quả cuối cùng gần tƣơng đƣơng với các bộ phân lớp đƣợc huấn luyện bằng tập lớp dữ liệu đã chuẩn bị thủ công. Kế tiếp, luận văn đã nghiên cứu, áp dụng đƣợc thuật toán phân lớp LBPH vào việc nhận dạng các khuôn mặt trong các bức ảnh.
Từ những kết quả nghiên cứu các thuật toán liên quan đến khuôn mặt, luận văn đã xây dựng đƣợc một hệ thống tìm kiếm ảnh theo nội dung xoay quanh các nội dung liên quan đến khuôn mặt ngƣời và động vật có vú. Cụ thể, hệ thống tìm kiếm đã có thể tìm kiếm theo một số tiêu chí nhƣ sau: tìm kiếm các ảnh có xuất hiện khuôn mặt ngƣời/động vật có vú, tìm kiếm các ảnh giống nhau nhƣng khác về màu sắc và kích thƣớc, tìm kiếm các ảnh có cùng số lƣợng khuôn mặt, tìm kiếm các ảnh có khuôn mặt giống một khuôn mặt cho trƣớc.
44
Tuy vậy, không thể phủ định rằng nghiên cứu về đề tài xâydựng hệ thống tìm kiếm ảnh theo nội dung vẫn có những hạn chế. Hạn chế đầu tiên là về việc mới chỉ ứng dụng đƣợc bộ phân lớp chồng tầng sử dụng đặc trƣng MB-LBP vào việc xác định vị trí khuôn mặt ngƣời và động vật có vú. Tiềm năng của bộ phân lớp này còn rất lớn, có thể áp dụng để xác định vị trí của nhiều đối tƣợng khác trong bức ảnh nhƣ các logo của các nhãn hàng, công ty, các loại hoa quả, các vật dụng trong gia đình và rất nhiều những đối tƣợng khác nữa. Nếu có thể huấn luyện đƣợc nhiều mô hình phân lớp cho các đối tƣợng khác nữa thì hệ thống tìm kiếm ảnh theo nội dung sẽ có thể tìm kiếm theo nhiều tiêu chí hơn nữa, tận dụng đƣợc hết khả năng của bộ phân lớp đã nghiên cứu.
Điểm hạn chế khác của hệ thống tìm kiếm ảnh theo nội dung đó là độ chính xác của bộ phân lớp LBPH vẫn chƣa cao lắm. Đặc biệt với các khuôn mặt phổ biến thì việc nhận dạng sai, lẫn nhiều ảnh không chính xác vào danh sách. Điều này có thể cải thiện bằng cách áp dụng một số lần lặp hạn chế thuật toán học bán giám sát boot strapping để bổ trợ thêm cho bộ phân lớp LBPH. Tuy vậy điều này có thể ảnh hƣởng đến tốc độ thực thi thực tế.
Ngoài ra, do LBPH chủ yếu dựa vào các cấp độ xám để phân biệt các khuôn mặt vì vậy với các con vật ví dụ nhƣ mèo có khuôn mặt khá giống nhau nhƣ khác hoàn toàn về màu sắc lông thì thuật toán cũng không phân biệt đƣợc sự khác biệt đó. Thuật toán đề ra trong luận văn cũng sẽ không phân biệt đƣợc trong trƣờng hợp hình ảnh khuôn mặt bị phản chiếu ngƣớc lại. Trong một số trƣờng hợp nếu hai nửa của một khuôn mặt khác nhau tƣơng đối, khuôn mặt đó đƣợc chụp chính diện và chụp ảnh qua gƣơng thì thuật toán đề ra có thể sẽ nhận nhầm đó là hai khuôn mặt khác nhau.
45
Một hạn chế nữa của hệ thống là chƣa sử dụng cơ sở dữ liệu để lƣu trữ các nội dung của ảnh đã trích xuất ra đƣợc. Hệ thống vẫn hoàn toàn làm việc trên thƣ mục ảnh. Nhƣ vậy với các thƣ mục ảnh lớn trên 500 ảnh thì tốc độ tìm kiếm khá chậm. Các ảnh thay vì chỉ cần phân tích một lần đầu tiên khi đƣa vào hệ thống và các kết quả phân tích đƣợc sẽ dùng để thực thi các lệnh tìm kiếm thì ở đây lại phải phân tích lại mỗi lần ngƣời dùng thao tác.
Hạn chế cuối cùng của luận văn đó là mới áp dụng đƣợc cho các khuôn mặt chụp chính diện hoặc có nghiêng nhẹ. Tuy nhiên trong thực tế thì các khuôn mặt chụp nghiêng hẳn hoặc chỉ còn một nửa khuôn mặt xuất hiện khá nhiều. Với các ảnh chỉ có một nửa khuôn mặt thì các thuật toán và chƣơng trình đề cập đến trong luận văn vẫn cho kết quả rất hạn chế, đặc biệt là khi nhận diện danh tính.
Kết quả của đề tài khóa luận tuy còn những hạn chế nhất định nhƣ đã trình bày ở trên nhƣng nó cũng có ý nghĩa nhƣ một bƣớc đầu tiên trên con đƣờng xây dựng một hệ thống tìm kiếm ảnh theo nội dung hoàn chỉnh. Hơn thế nữa, qua quá trình nghiên cứu đề tài khóa luận này, tôi đã đƣợc va chạm, nghiên cứu một vấn đề cụ thể trong thực tế và đã đúc rút đƣợc nhiều kinh nghiệm quý báu, làm nền tảng cho tôi trong công tác và nghiên cứu sau này.