Thí nghiệm 1:

Một phần của tài liệu xây dựng hệ thống tìm kiếm ảnh theo nội dung (Trang 49)

4.1.1. Mục đích thực nghiệm:

Đo đạc độ chính xác của thuật toán xác định vị trí khuôn mặt sử dụng bộ phân lớp dựa trên các đặc trưng MB-LBP trên dữ liệu là các khuôn mặt chính diện hoặc nghiêng nhẹ của mèo.

4.1.2. Bố trí thí nghiệm:

Chuẩn bị bộ dữ liệu đã gán nhãn tọa độ gồm 9996 ảnh chứa khuôn mặt chụp chính diện hoặc nghiêng nhẹ của mèo thành 2 tập ảnh A, T lần lượt có số lượng là 8996, 1000: Trong đó:

o A sẽ đóng vai trò tập huấn luyện cho bộ phân lớp;

o T là tập dữ liệu kiểm thử để đánh giá độ chính xác cuối cùng. Bổ sung 500 ảnh không chứa khuôn mặt của mèo vào tập T.

Sử dụng bộ dữ liệu G gồm 5070 ảnh không chứa khuôn mặt của mèo để làm các ảnh nền trong khi huấn luyện.

Tập ảnh A và T được lấy nguyên vẹn từ bộ ảnh khuôn mặt trực diện của mèo của Microsoft (Microsoft Cat Dataset 2008). Tập ảnh G được lấy từ các nguồn 450 ảnh dữ liệu khuôn mặt trực diện của Caltech và bộ ảnh PASCAL VOC 2007

Ta tiến hành thí nghiệm như sau:

Hình 4.1: các bước thực hiện thí nghiệm 1

4.1.3. Kết quả thí nghiệm:Dữ liệu Dương tính - Dữ liệu Dương tính - Đúng Dương tính - Sai Âm tính - Đúng Âm tính - Sai Đủ các góc 170 26 490 314 Đã được xoay thẳng 270 26 490 214 Bảng 4.1: Kết quả thí nghiệm 1

Như vậy, kết quả kiểm thử với tập ảnh tự nhiên, các khuôn mặt xoay một góc tùy ý không được tốt lắm. Khi kiểm tra với cùng tập ảnh như vậy nhưng các khuôn mặt được xử lý trước, xoay về một góc sao cho đường nối hai mắt song song với chiều rộng của bức ảnh thì kết quả được cài thiện rõ rệt. Như vậy có thể kết luận được là bộ phân lớp xác định khuôn mặt rất nhạy cảm với các góc xoay khác nhau của khuôn mặt.

.

4.2. Thí nghiệm 2:

4.2.1. Mục đích thực nghiệm:

Đo đạc độ chính xác của thuật toán xác định vị trí khuôn mặt sử dụng bộ phân lớp chồng tầng dựa trên các đặc trưng MB-LBP trên dữ liệu là các khuôn mặt chính diện hoặc nghiêng nhẹ của loài mèo. So sánh kết quả khi huấn luyện bộ phân lớp hoàn toàn bằng dữ liệu huấn luyện đã xác định vị trí khuôn mặt theo cách thủ công với khi áp dụng kết hợp với thuật toán huấn luyện bán giám sát bootstrapping.

4.2.2. Bố trí thí nghiệm:

Chia bộ dữ liệu gồm 9996 ảnh chứa khuôn mặt chụp chính diện hoặc nghiêng nhẹ của mèo thành 3 tập ảnh A1, A2, B, T lần lượt có số lượng là 2000, 500, 6996, 500: Trong đó:

o A1, A2 sẽ đóng vai trò tập huấn luyện mồi và tập huấn luyện kiểm thử trong mỗi vòng lặp của thuật toán bootstapping;

o B là tập dữ liệu không xác định vị trí khuôn mặt sử dụng để mở rộng dữ liệu huấn luyện tự động trong mỗi vòng lặp của thuật toán bootstrapping

o T là tập dữ liệu kiểm thử để đánh giá độ chính xác cuối cùng. Bổ sung 500 ảnh không chứa khuôn mặt của mèo vào tập T.

Sử dụng bộ dữ liệu G gồm 5070 ảnh không chứa khuôn mặt mèo để làm các ảnh nền trong khi huấn luyện.

Tập ảnh A1, A2, B và T được lấy nguyên vẹn từ bộ ảnh khuôn mặt trực diện của mèo của Microsoft (Microsoft Cat Dataset 2008). Tập ảnh G được lấy từ các nguồn 450 ảnh dữ liệu khuôn mặt trực diện của Caltech và bộ ảnh PASCAL VOC 2007

Để so sánh kết quả của việc sử dụng thuần bộ phân lớp chồng tầng dựa trên các đặc trưng MB-LBP với khi kết hợp với thuật toán bootstapping, ta tiến hành thí nghiệm như sau.

Hình 4.2: các bước thực hiện thí nghiệm 2

4.2.3. Kết quả thí nghiệmVòng Vòng lặp Số mẫu gán nhãn tự động được tăng thêm Tổng số mẫu gán nhãn Dương tính - Đúng Dương tính - Sai Âm tính - Đúng Âm tính - Sai 0 0 2000 28 0 500 0 25 2643 4643 111 11 498 0

Bảng 4.2: Các vòng lặp huấn luyện trong thí nghiệm 2

Trong thí nghiệm 2 này nhờ vào bootstrapping, độ chính xác đã tăng lên đáng kể chứng tỏ được hiệu quả của việc sử dụng thuật toán bootstrapping. Mặc dù độ chính xác của các mẫu gán nhãn không được chính xác hoàn toàn như khi gán nhãn thủ công dẫn đến kết quả của bộ phân lớp chồng tầng áp dụng huấn luyện bootstrapping đạt được không bằng kết quả của bộ phân lớp có giám sát tuy vậy công sức bỏ ra ít hơn hẳn so với khi gán nhãn thủ công.

Tốc độ hội tụ của phương pháp huấn luyện này cũng khá nhanh mặc dù chưa áp dụng các phương pháp tính toán song song trong các vòng lặp (mặc dù chương trình huấn luyện bootstrapping trong luân văn chưa áp dụng nhưng bản chất khi đã huấn luyện được bộ phân lớp chồng tầng ở mỗi vòng lăp, ta có thể xác định vị trí khuôn mặt đồng thời trên nhiều ảnh của bộ mẫu chưa gán nhãn để tận dụng sức mạnh tính toán song song của các máy tính hiện nay)

4.3. Thí nghiệm 3:

4.3.1. Mục đích thí nghiệm: (adsbygoogle = window.adsbygoogle || []).push({});

Đo đạc độ chính xác của thuật toán nhận diện danh tính khuôn mặt sử dụng bộ phân lớp LBPH trên dữ liệu là các khuôn mặt chính diện của loài người.

4.3.2. Bố trí thí nghiệm:

Chuẩn bị sẵn một tập 450 khuôn mặt của nhiều người, trong đó mỗi người sẽ xuất hiện trong nhiều ảnh. Tập ảnh được lấy từ các nguồn 450 ảnh dữ liệu khuôn mặt trực diện của Caltech

Các bước thí nghiệm như sau:

Hình 4.3: Các bước thí

nghiệm 3

4.3.3. Kết quả thực nghiệm Người Tổng số ảnh xuất hiện Dương tính - Đúng Dương tính - Sai Âm tính - Đúng Âm tính - Sai 1 21 14 6 432 7 2 20 14 26 404 6 3 5 2 0 445 3 4 22 14 24 404 8 5 21 19 0 429 2 6 23 7 0 427 16 7 20 10 1 429 10 8 5 2 0 445 3 9 21 21 24 405 0 10 7 2 0 443 5 11 5 3 1 444 2 12 5 1 0 445 4 13 20 12 0 430 8 14 21 6 0 429 15 15 25 20 23 402 5 16 22 12 7 421 10 17 19 14 32 399 5 18 20 3 0 430 17 19 20 18 16 414 2 20 20 8 8 422 12 21 22 17 1 427 5 22 21 9 1 429 11 23 22 9 0 428 13 Bảng 4.3: Kết quả thí nghiệm 3

Độ chính xác của bộ phân lớp chưa tốt, số lượng kết quả sai còn nhiều, điều này có thể giải thích do mỗi khi phân loại, ta chỉ lấy một ảnh làm dữ liệu huấn luyện nên mô hình phân lớp được huẩn luyện vẫn chưa thật sự đáng tin cậy. Tuy vậy đây thường là tình huống hay xảy ra trong thực tế. Người dùng hệ thống tìm kiếm ảnh sẽ thường đưa ra chỉ một bức ảnh của người họ đang muốn tìm, hệ thống sẽ chỉ dựa vào bức ảnh đó để tìm kiếm trong bộ dữ liệu của nó. Để cải thiện ta có thể yêu cầu người dùng cung cấp thêm ảnh nếu muốn kết quả tìm kiếm chính xác hơn hoặc chọn ngưỡng thấp hơn để loại bỏ lượng Dương tính – Sai (nhưng có thể làm tăng số Âm tính – Sai).

CHƯƠNG 5: KẾT LUẬN

5.1. Các kết quả đạt được và hạn chế

Qua quá trình nghiên cứu và xây dựng hệ thống tìm kiếm ảnh theo nội dung, luận văn đã đạt được những kết quả sau đây

Thứ nhất, luận văn nghiên cứu kỹ lưỡng về các thuật toán cho phép trích chọn các yếu tố của bức ảnh và thuật toán của các hàm phân lớp chồng tầng dựa vào đặc trưng MB-LBP để có thể xác định được khá chính xác vị trí của các khuôn mặt của người và động vật có vú. Thứ hai, luận văn cũng đã đề xuất được phương pháp áp dụng học máy bán giám sát bootstrapping vào trong quá trình huấn luyện các hàm phân lớp. Phương pháp này đã cho phép rút bớt công sức chuẩn bị thủ công dữ liệu huấn luyện mà vẫn cho kết quả cuối cùng gần tương đương với các bộ phân lớp được huấn luyện bằng tập lớp dữ liệu đã chuẩn bị thủ công. Kế tiếp, luận văn đã nghiên cứu, áp dụng được thuật toán phân lớp LBPH vào việc nhận dạng các khuôn mặt trong các bức ảnh.

Từ những kết quả nghiên cứu các thuật toán liên quan đến khuôn mặt, luận văn đã xây dựng được một hệ thống tìm kiếm ảnh theo nội dung xoay quanh các nội dung liên quan đến khuôn mặt người và động vật có vú. Cụ thể, hệ thống tìm kiếm đã có thể tìm kiếm theo một số tiêu chí như sau: tìm kiếm các ảnh có xuất hiện khuôn mặt người/động vật có vú, tìm kiếm các ảnh giống nhau nhưng khác về màu sắc và kích thước, tìm kiếm các ảnh có cùng số lượng khuôn mặt, tìm kiếm các ảnh có khuôn mặt giống một khuôn mặt cho trước.

Tuy vậy, không thể phủ định rằng nghiên cứu về đề tài xâydựng hệ thống tìm kiếm ảnh theo nội dung vẫn có những hạn chế. Hạn chế đầu tiên là về việc mới chỉ ứng dụng được bộ phân lớp chồng tầng sử dụng đặc trưng MB-LBP vào việc xác định vị trí khuôn mặt người và động vật có vú. Tiềm năng của bộ phân lớp này còn rất lớn, có thể áp dụng để xác định vị trí của nhiều đối tượng khác trong bức ảnh như các logo của các nhãn hàng, công ty, các loại hoa quả, các vật dụng trong gia đình và rất nhiều những đối tượng khác nữa. Nếu có thể huấn luyện được nhiều mô hình phân lớp cho các đối tượng khác nữa thì hệ thống tìm kiếm ảnh theo nội dung sẽ có thể tìm kiếm theo nhiều tiêu chí hơn nữa, tận dụng được hết khả năng của bộ phân lớp đã nghiên cứu.

Điểm hạn chế khác của hệ thống tìm kiếm ảnh theo nội dung đó là độ chính xác của bộ phân lớp LBPH vẫn chưa cao lắm. Đặc biệt với các khuôn mặt phổ biến thì việc nhận dạng sai, lẫn nhiều ảnh không chính xác vào danh sách. Điều này có thể cải thiện bằng cách áp dụng một số lần lặp hạn chế thuật toán học bán giám sát boot strapping để bổ trợ thêm cho bộ phân lớp LBPH. Tuy vậy điều này có thể ảnh hưởng đến tốc độ thực thi thực tế.

Ngoài ra, do LBPH chủ yếu dựa vào các cấp độ xám để phân biệt các khuôn mặt vì vậy với các con vật ví dụ như mèo có khuôn mặt khá giống nhau như khác hoàn toàn về màu sắc lông thì thuật toán cũng không phân biệt được sự khác biệt đó. Thuật toán đề ra trong luận văn cũng sẽ không phân biệt được trong trường hợp hình ảnh khuôn mặt bị phản chiếu ngước lại. Trong một số trường hợp nếu hai nửa của một khuôn mặt khác nhau tương đối, khuôn mặt đó được chụp chính diện và chụp ảnh qua gương thì thuật toán đề ra có thể sẽ nhận nhầm đó là hai khuôn mặt khác nhau.

Một hạn chế nữa của hệ thống là chưa sử dụng cơ sở dữ liệu để lưu trữ các nội dung của ảnh đã trích xuất ra được. Hệ thống vẫn hoàn toàn làm việc trên thư mục ảnh. Như vậy với các thư mục ảnh lớn trên 500 ảnh thì tốc độ tìm kiếm khá chậm. Các ảnh thay vì chỉ cần phân tích một lần đầu tiên khi đưa vào hệ thống và các kết quả phân tích được sẽ dùng để thực thi các lệnh tìm kiếm thì ở đây lại phải phân tích lại mỗi lần người dùng thao tác.

Hạn chế cuối cùng của luận văn đó là mới áp dụng được cho các khuôn mặt chụp chính diện hoặc có nghiêng nhẹ. Tuy nhiên trong thực tế thì các khuôn mặt chụp nghiêng hẳn hoặc chỉ còn một nửa khuôn mặt xuất hiện khá nhiều. Với các ảnh chỉ có một nửa khuôn mặt thì các thuật toán và chương trình đề cập đến trong luận văn vẫn cho kết quả rất hạn chế, đặc biệt là khi nhận diện danh tính.

Kết quả của đề tài khóa luận tuy còn những hạn chế nhất định như đã trình bày ở trên nhưng nó cũng có ý nghĩa như một bước đầu tiên trên con đường xây dựng một hệ thống tìm kiếm ảnh theo nội dung hoàn chỉnh. Hơn thế nữa, qua quá trình nghiên cứu đề tài khóa luận này, tôi đã được va chạm, nghiên cứu một vấn đề cụ thể trong thực tế và đã đúc rút được nhiều kinh nghiệm quý báu, làm nền tảng cho tôi trong công tác và nghiên cứu sau này.

Một phần của tài liệu xây dựng hệ thống tìm kiếm ảnh theo nội dung (Trang 49)