TÌM HIỂU VÀ VIẾT CHƯƠNG TRÌNHNHẬN DIỆN ẢNH KHIÊU DÂMLỜI MỞ ĐẦUVới sự phát triển nhanh chóng của Internet hiện nay, đó là dấu hiệu đáng mừng trước sự phát triển của công nghệ thông tin trong một xã hội hiện đại. Nhưng đằng sau nó là những hệ lụy từ Internet mang lại cho con người, trong đó đặc biệt là giới trẻ.Theo điều tra mới đây, từ Bộ thông tin Truyền thông cho thấy, thời gian truy cập Internet được nhiều em học sinh dành để chơi game trực tuyến và lướt web những trang có nội dung không lành mạnh chiếm gần 70% trong tổng số các máy truy cập net ở Việt Nam. Có thể nói, việc truy cập các trang web đồi trụy là hiện tượng khá phổ biến trong giới học sinh trung học hiện nay. Cũng theo thống kê của Google, Việt Nam đứng đầu trong số những quốc gia có nhiều người đặt lệnh tìm kiếm về tình dục nhất thế giới. Thống kê này cho thấy, một bộ phận người Việt đang sử dụng Internet một cách thiếu lành mạnh.Nói đi phải nói lại, có cầu ắt sẽ có cung. Các trang mạng xã hội như Facebook, Twister… lẽ ra là nơi giao lưu, kết bạn nhưng vô tình lại trở thành nơi để thanh thiếu niên tung các nội dung đồi trụy và cứ như thế ngày càng có nhiều clip sex được tung lên mạng; những nội dung khiêu dâm ảnh sex “tự sướng” liên tục được tung lên mạng và truyền bá đến các “cư dân” mạng đang ở tuổi “teen” bởi các thanh thiếu niên mới lớn. Điều đáng chú ý là chúng ta không thể nào có một lực lượng nhân viên đủ lớn để có thể kiểm duyệt các nội dung mà người dùng đưa lên mạng được, chính vì vậy, một giải pháp phần mềm có khả năng nhận diện được một bức ảnh có nội dung không lành mạnh hay không là điều rất cần thiết.Những gì đã dẫn chứng và phân tích ở trên chính là lí do mà chúng em quyết định chọn đề tài “Tìm hiểu và viết chương trình Nhận Diện Ảnh Khiêu Dâm”.
TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN TÊN ĐỀ TÀI TÌM HIỂU VÀ VIẾT CHƯƠNG TRÌNH NHẬN DIỆN ẢNH KHIÊU DÂM Giảng viên hướng dẫn : TS ABC Sinh viên thực hiện: xxx xxx xxx Lớp: 10050301 -yyy -zzz -vvv Khóa: 14 TP Hồ Chí Minh, tháng 12 năm 2013 MỤC LỤC MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC BẢNG BIỂU DANH MỤC CÁC HÌNH ẢNH LỜI MỞ ĐẦU 10 CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 11 1.1 Phát biểu toán 11 1.2 Mục tiêu đề tài 11 1.3 Các khó khăn vấn dề nhận diện ảnh khiêu dâm 11 1.4 Cấu trúc báo cáo đề tài 11 CHƯƠNG 2: CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN ĐẾN BÀI TOÁN NHẬN DIỆN ẢNH KHIÊU DÂM 13 2.1 Ngưỡng 13 2.2 Không gian màu (space color) 14 2.2.1 Không gian màu RGB 14 2.2.2 Không gian màu HSV 15 2.2.3 Không gian màu CYMK 16 2.3 Nhận diện ảnh khiêu dâm dựa không gian màu HSV 17 2.3.1 Cơ sở 17 2.3.2 Kết 18 CHƯƠNG 3: CƠ SỞ LÝ THUYẾT 21 3.1 Khái niệm ảnh số 21 3.1.1 Nhị phân hóa 21 3.1.2 Lược đồ Histogram 22 3.2.1 Đặc trưng ảnh Image features 24 3.2.2 Trích chọn đặc trưng Feature Extraction 24 3.2.3 Vai trò trích chọn đặc trưng 24 3.3 Thuật toán Adaboost đặc trưng Haarlike 25 3.3.1 Tổng quan đặc trưng Haarlike 25 3.3.2 Thuật toán AdaBoost 27 3.3.3 Giai đoạn huấn luyện phân loại (stage) 30 3.3.4 Tầng phân loại (cascade) 31 CHƯƠNG 4: MÔ HÌNH ĐỀ XUẤT 33 4.1 Mô hình hệ thống đề xuất: 33 4.2 Nhận diện khuôn mặt 34 4.3 Xây dựng ảnh chứa điểm màu da 35 CHƯƠNG 5: MÔI TRƯỜNG LẬP TRÌNH VÀ GIAO DIỆN 37 5.1 Giới thiệu OpenCV 37 5.2 Giao diện chương trình minh họa 38 5.2.1 Giao diện 38 5.2.2 5.3 Giao diện hiển thị kết quả: 38 Thực nghiệm kết 39 CHƯƠNG 6: TỔNG KẾT VÀ ĐÁNH GIÁ 40 6.1 Kết đạt 40 6.2 Hạn chế 40 6.3 Hướng phát triên 40 Tài liệu tham khảo: 41 DANH MỤC CÁC TỪ VIẾT TẮT Thuật ngữ Classifier (bộ phân loại) Giải thích Một phân loại xây dựng theo thuật toán học máy đấy, dùng để phân loại đối tượng (khuôn mặt hay khuôn mặt) Feature (đặc trưng) Strong classifier Các thông tin giúp nhận biết đối tượng Bộ phân loại xây dựng từ nhiều phân loại yếu, có độ (bộ phân loại mạnh) xác cao Ngưỡng giá trị ranh giới lớp, giá trị ngưỡng Threshold (ngưỡng) điều chỉnh thường chọn từ thực nghiệm (Người ta thử nhận dạng với giá trị ngưỡng khác để chọn ngưỡng cho tỉ lệ nhận dạng tốt nhất) Weak classifier (bộ phân loại yếu) RGB, HSV Support vector machine False alarm Hit rate Bộ phân loại đơn giản có độ xác khoảng 50% Không gian màu Học máy vector hỗ trợ Là tỉ lệ nhận dạng sai phân loại Là tỉ lệ nhận dạng phân loại DANH MỤC CÁC BẢNG BIỂU Bảng Nhận dạng màu da hiệu suất đánh giá 18 Bảng Kết thực nghiệm chương trình 39 DANH MỤC CÁC HÌNH ẢNH Hình Ảnh đa mức xám ban đầu 14 Hình 2 Ảnh đa mức xám sau 14 Hình Không gian màu RGB 15 Hình Không gian màu HSV 15 Hình Hình tròn biểu diễn màu sắc 16 Hình Không gian màu CYMK 17 Hình Ví dụ điểm ảnh 21 Hình Ví dụ chuyển ảnh đa mức xám sang ảnh nhị phân 22 Hình 3 Ví dụ chuyển ảnh nhị phân 22 Hình Lược đồ Histogram 23 Hình Histogram ảnh tối 23 Hình Histogram ảnh sáng 23 Hình Lược đồ AdaBoost 27 Hình Thuật toán học AdaBoost 28 Hình Mô hình minh họa tác vụ phát vật thể dùng cascade 29 Hình 10 Chuỗi cascade huấn luyện để phát cửa sổ phù hợp 30 Hình 11 Cấu trúc chuỗi cascade song song 30 Hình 12 Cấu trúc chuỗi cascade nối tiếp, với N giai đoạn học huấn luyện 31 Hình Mô hình hệ thống nhận diện ảnh khiêu dâm 34 Hình Sơ đồ mô tả trình phân loại hình ảnh 35 Hình Cấu trúc OpenCV 37 Hình Giao diện chương trình 38 Hình Giao diện kết chi tiết 39 LỜI MỞ ĐẦU Với phát triển nhanh chóng Internet nay, dấu hiệu đáng mừng trước phát triển công nghệ thông tin xã hội đại Nhưng đằng sau hệ lụy từ Internet mang lại cho người, đặc biệt giới trẻ Theo điều tra đây, từ Bộ thông tin & Truyền thông cho thấy, thời gian truy cập Internet nhiều em học sinh dành để chơi game trực tuyến lướt web trang có nội dung không lành mạnh chiếm gần 70% tổng số máy truy cập net Việt Nam Có thể nói, việc truy cập trang web đồi trụy tượng phổ biến giới học sinh trung học Cũng theo thống kê Google, Việt Nam đứng đầu số quốc gia có nhiều người đặt lệnh tìm kiếm tình dục giới Thống kê cho thấy, phận người Việt sử dụng Internet cách thiếu lành mạnh Nói phải nói lại, có cầu có cung Các trang mạng xã hội Facebook, Twister… lẽ nơi giao lưu, kết bạn vô tình lại trở thành nơi để thiếu niên tung nội dung đồi trụy ngày có nhiều clip sex tung lên mạng; nội dung khiêu dâm ảnh sex “tự sướng” liên tục tung lên mạng truyền bá đến “cư dân” mạng tuổi “teen” thiếu niên lớn Điều đáng ý có lực lượng nhân viên đủ lớn để kiểm duyệt nội dung mà người dùng đưa lên mạng được, vậy, giải pháp phần mềm có khả nhận diện ảnh có nội dung không lành mạnh hay không điều cần thiết Những dẫn chứng phân tích lí mà chúng em định chọn đề tài “Tìm hiểu viết chương trình Nhận Diện Ảnh Khiêu Dâm” 10 CHƯƠNG 1: 1.1 TỔNG QUAN VỀ ĐỀ TÀI Phát biểu toán Bài toán nhận diện ảnh khiêu dâm phát biểu sau: Đầu vào ảnh màu, sau cách phát khuôn mặt nhận diện tính toán phần trăm điểm ảnh màu da ảnh đầu vào kết hợp với số công thức sử dụng công trình nghiên cứu liên quan công bố trước để kết luận ảnh đầu vào có phải ảnh khiêu dâm (porn) hay không khiêu dâm (non-porn) 1.2 Mục tiêu đề tài Hình ảnh mang tính chất khiêu dâm xuất ngày nhiều mạng internet, đặc biệt trang mạng xã hội Facebook, blogspot… Dù xét góc độ hình ảnh có tác hại xấu đến suy nghĩ hành động người xem, mà phần lớn thanh, thiếu niên Mục tiêu đề tài nghiên cứu số phương pháp nhận diện ảnh khiêu dâm dựa ảnh màu: Nghiên cứu phương pháp giải toán từ công trình liên quan công bố trước Xây dựng chương trình minh họa cho đề tài 1.3 Các khó khăn vấn dề nhận diện ảnh khiêu dâm Bài toán nhận diện khuôn mặt nói chung dận diện ảnh khiêu dâm nói riêng thách thức khó lĩnh vực thị giác máy tính (Vision Computer), kể tới nguyên nhân sau: Sự xuất chi tiết đặc trưng người cỏ, nhà cửa… Chất lượng ảnh đầu vào: độ sáng-tối, độ mờ, độ nhiễu… … 1.4 Cấu trúc báo cáo đề tài 11 Phần mở đầu trình bàu nội dung tổng quát đề tài, phần lại bao gồm sau: Chương 2: trình bày kiến thức liên quan đến đề tài, mà người đọc nắm bắt nội dung phần cách dễ dàng Chương 3: sở lý thuyết phương pháp hõ trợ khác sử dụng đề tài Chương 4: mô hình đề xuất để giải toán Chương 5: môi trường lập trình giao diện minh họa đượctrình bày chương Chương trình bày vấn đề giải chưa giải đề tài 12 CHƯƠNG 2: CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN ĐẾN BÀI TOÁN NHẬN DIỆN ẢNH KHIÊU DÂM 2.1 Ngưỡng Nguỡng (Threshold) khái niệm quen thuộc xử lý ảnh nhiều giải thuật khác Nó dùng để giá trị mà người ta dựa vào để phân hoạch tập hợp thành miền phân biệt Ví dụ thang điểm đánh giá học sinh từ đến 10 Trong tập hợp gồm 40 học sinh lớp, người ta muốn phân lọai hai miền, miền thứ bao gồm học sinh đạt yêu cầu miền thứ hai gồm học sinh không đạt Trong tình người ta dùng giá trị (điểm) ngưỡng (threshold) để phân loại học sinh Các học sinh có điểm xem không đạt, học sinh có điểm từ trở lên đạt yêu cầu Giá trị ngưỡng thường xác định dựa vào điểm đặc biệt (ví dụ trung bình), dựa vào kinh nghiệm khảo sát Nếu dựa vào số lượng Ngưỡng áp dụng cho tập liệu người ta phân phương pháp ứng dụng ngưỡng đơn, ngưỡng kép, hay đa ngưỡng Nếu dựa vào biến thiên giá trị Ngưỡng, phạm vi ứng dụng người ta phân phương pháp dùng ngưỡng cố định (Constant/Fixed Threshold) không cố định (Adaptive Threshold) Ngưỡng không cố định nghĩa giá trị thay đổi tùy theo biến thiên tập dử liệu theo không gian thời gian Thông thường giá trị xác định thông qua khảo sát tập dử liệu phương pháp thống kê Để dễ hình dung ứng dụng khái niệm Threshold, sau sẻ xét ví dụ lọc ngưỡng (Threshold Filter) đơn giản xử lý ảnh 13 mong muốn Thuật toán học AdaBoost sau lần lặp minh họa hình 3.13 ví dụ thuật toán AdaBoost sau ba lần lặp Hình Thuật toán học AdaBoost Phương pháp AdaBoost có nhiều dạng khác nhau: Tăng tốc thích nghi rời rạc (Discrete AdaBoost DAB) Tăng tốc thích nghi thực (Real AdaBoost RAB) Tăng tốc thích nghi linh hoạt (Gentle AdaBoost GAB) Các phương pháp dùng cho việc tính toán độ phức tạp từ mẫu phân loại, khác thuật toán học huấn luyện Trong ba phương pháp AdaBoost trên, học viên chọn phương pháp GAB làm phương pháp cho trình huấn luyện máy Bộ phân loại mạnh cuối kết hợp có trọng số phân loại yếu: H(x) = α1h1(x) + α 2h2(x) + α 3h3(x) + … + αNhn(x) (3.5) 28 Quá trình học huấn luyện nhận dạng theo chuỗi cascade giai đoạn stage thể hình đây, đối tượng cần phát đường cong đặc kín, màu xanh da trời (được đặt tên là: Target Concept) Hình Mô hình minh họa tác vụ phát vật thể dùng cascade Trong thực tế, chuỗi cascade phân loại triển khai nhằm tăng tốc độ thực thi thuật toán phát Trong giai đoạn đầu trình huấn luyện, ngưỡng phân loại yếu điều chỉnh đủ thấp cho xấp xỉ 100% đối tượng đích dò giữ tỉ lệ nhận dạng sai mẫu không tích cực gần zero Sự cân ngưỡng thấp gắn liền với tỉ lệ phát sai mẫu tích cực cao Một mẫu tích cực ngõ từ phân lớp thông số đặt ngõ vào cho phân lớp thứ hai điều chỉnh cho đạt tỉ lệ phát cao Tương tự thế, mẫu tích cực xuất từ phân lớp thứ hai lại tiếp tục thông số đặt ngõ vào cho phân lớp thứ ba… Các cửa sổ tích cực (phù hợp, dò đối tượng) cho qua phân lớp chuỗi cascade huấn luyện Nếu không, ngõ chuỗi loại cửa sổ không phù hợp (Hình 3.15) 29 Hình 10 Chuỗi cascade huấn luyện để phát cửa sổ phù hợp Bằng cách sử dụng cấu trúc gồm chuỗi cascade song song, tốc độ phát đối tượng cải thiện đáng kể (Hình 3.16) Hình 11 Cấu trúc chuỗi cascade song song 3.3.3 Giai đoạn huấn luyện phân loại (stage) Thuật toán tăng tốc thích nghi sử dụng làm phương pháp để phát phát đối tượng Thuật toán tăng tốc mô hình học máy hiệu sử dụng nhiều đề tài nhận dạng trước Mô hình sử dụng phân loại yếu 30 Tác vụ học dựa N mẫu huấn luyện với x1 , y1 … xN , yN với x ∈ R x yi ∈ {-1, 1} xi làvectơ có thành tố k Mỗi thành tố k có chức mã hóa đặc trưng có liên quan cho tác vụ học Ngõ mong muốn sau mã hóa có hai giá trị -1 Trong trường hợp phát đối tượng vật thể, thành tố ngõ vào đặc trưng Haar-like Các giá trị ngõ -1 cho biết ảnh xử lý có chứa không chứa đối tượng mong muốn 3.3.4 Tầng phân loại (cascade) Tầng (đợt) phân loại bao gồm (tree) giá trị giảm dần sau giai đoạn (stage) mà phân loại huấn luyện để nhận dạng hầu hết đối tượng vật thể mong muốn, đồng thời loại bỏ đối tượng không huấn luyện.Ví dụ, báo cáo này, phân loại huấn luyện qua 20 giai đoạn (stage) Đến giai đoạn cuối cùng, giá trị false alarm = 0.5 ≈ 9.6 − độ trùng khít (hit rate) khoảng 0.995 (Hình 3.17) Hình 12 Cấu trúc chuỗi cascade nối tiếp, với N giai đoạn học huấn luyện Giả sử, thiết lập ban đầu với giá trị: false alarm = 0.5 hit rate = 0.995 Stage 1: Stage 2: f1 = 0.5 h1 = 0.9 f2 = 0.52 h2 = 0.9 92 f3 = 0.53 Stage 3: h3 =0.9 93 31 … Stage N: fN =0.5N hN =0.9 9N Tại giai đoạn huấn luyện stage, phân loại tạo thông số hit-rate h false-alarm rate f làm ngõ vào thông số đặt cho giai đoạn huấn luyện sau Ứng với giai đoạn huấn luyện sử dụng phương pháp tăng tốc Bộ tăng tốc học huấn luyện một phân loại mạnh dựa tập hợp phân loại yếu cách dò lại trọng số mẫu huấn luyện Bộ phân loại yếu dùng cho giai đoạn đầu trình huấn luyện, dùng để tập hợp đúc kết đặc trưng sơ tập huấn luyện Tại tầng huấn luyện, phân loại dựa theo đại lượng đặc trưng vừa cập nhật tầng kế trước (false-alarm, hit-rate) thêm vào nhằm tăng thêm tính xác trình tính toán trọng số đặc trưng Với việc tăng dần số giai đoạn huấn luyện số lượng phân loại yếu, cần thiết để tính thông số false-alarm rate ứng với hit-rate tính làm tăng tính xác cho tác vụ phát đối tượng 32 CHƯƠNG 4: MÔ HÌNH ĐỀ XUẤT Ảnh khỏa thân có hai loại: Ảnh khỏa thân nghệ thuật ảnh đòi hỏi nhiếp ảnh gia phải tư duy, dùng ánh sáng, hình khối để thể nét đẹp thể Đồng thời ảnh có chất nhục cảm triệt tiêu không nghệ thuật phải có xúc cảm thẩm mỹ, không phản cảm chụp có tác dụng định hướng dư luận, hướng người ta đến chân thiện mỹ Ảnh khỏa thân phơi bày hay gợi dục hay ảnh sex loại ảnh chụp đâu, cốt yếu khoe thể nhiều ảnh khoe thân phản cảm xuất tràn lan nhiều trang mạng Trong nhiếp ảnh, ảnh nude nghệ thuật ảnh nude khiêu dâm, phân định mong manh việc phân biệt hai loại hình tùy thuộc mỹ cảm người, phần mềm khó mà đủ thông minh để phân biệt ảnh có phải khiêu dâm hay không Trong phạm vi đồ án giới hạn trình độ thời gian chúng em đánh đồng ảnh khỏa thân nghệ thuật ảnh khỏa thân mang tính chất gợi dục (ảnh khiêu dâm) 4.1 Mô hình hệ thống đề xuất: Mô hình kết hợp nhận diện khuôn mặt vùng màu da Đầu tiên, nhận diện khuôn mặt cách sử dụng Phương pháp Adaboost với đặc trưng Haar-like, sau mô hình màu da học trực tuyến cách kết hợp thông tin phân phối màu vùng mặt Dựa kết nhận diện khuôn mặt da, tập hợp tính ngữ nghĩa cao cấp trích xuất Những tính có ý nghĩa quan trọng việc phận loại ảnh porn hay nonporn 33 Hình Mô hình hệ thống nhận diện ảnh khiêu dâm 4.2 Nhận diện khuôn mặt Năm tính sau phân loại hình ảnh porn non-porn Các tính liên quan đến khuôn mặt: Face Number: Số lượng khuôn mặt ảnh Ảnh khiêu dâm thường không chứa nhiều khuôn mặt Chúng xác định F1 sau: F1 = số lượng khuôn mặt ảnh Face Area: Diện tích vùng mặt Nếu diện tích vùng mặt nhiều chân dung toàn mặt Chúng xác định F2 sau: 34 F2 = Số lượng điểm ảnh diện tích vùng mặt Số lượng điểm ảnh toàn hình ảnh Face Position: Hình ảnh có tâm nằm gần trung tâm ảnh thường ảnh thường Chúng xác định F3 khoảng cách trung tâm vùng mặt với trung tâm ảnh chia cho chiều dài tối thiểu trục ảnh: F3 = Khoảng cách(trung tâmvùng mặt , trung tâm ảnh ) Giá trị nhỏ nhất(chiều ngang ảnh, chiều dài ảnh) Skin Ratio I: Tỷ lệ vùng da toàn ảnh so với vùng da khuôn mặt Skin Ratio II: Tỷ lệ tương ứng với phần da lớn cho vùng mặt Nếu tỷ lệ cao Skin Ratio I Skin Ration II nhiều khả ảnh khiêu dâm Chúng xác định F4 F5 sau: F4 = F5 = Số lượng điểm ảnh da toàn hình ảnh Số lượng điểm ảnh vùng mặt Số lượng điểm ảnh da phân loại da lớn Số lượng điểm ảnh vùng mặt Hình Sơ đồ mô tả trình phân loại hình ảnh Với T1, T2, T3, T4, T5 ngưỡng xác định trước 4.3 Xây dựng ảnh chứa điểm màu da Xây dựng skin map áp dụng cho việc xác định ảnh porn hay không porn Đối với nhận da, điểm da tương ứng dơn vị, điểm da hoàn toàn 35 tương đương việc tính phần trăm da ảnh Để công bằng, ta áp dụng trọng số cho điểm da: Với vùng quan trọng vùng chắn không porn cho trọng số thấp Trong đồ án chọn trọng số Những vùng da chắn porn cho trọng số cao nhiều để nhấn mạnh ảnh porn 36 CHƯƠNG 5: MÔI TRƯỜNG LẬP TRÌNH VÀ GIAO DIỆN 5.1 Giới thiệu OpenCV Open VC thư viện mã nguồn mở intel thị giác máy tính Nó cung cấp mã nguồn bao gồm hàng trăm hàm, lớp dựa thuật toán xử lý ảnh Computer vision dùng ngôn ngữ C/C++ Open CV thể đa dạng trí tuệ nhân tạo Được ứng dụng nhiều toán nhận dạng mặt, dò tìm mặt, phát mặt, lọc Kalman, … Cấu trúc tổng quan OpenCV bao gồm phần phần hình vẽ CV Các hàm xử lý ảnh giải thuật thị giác máy tính MLL Các thuật toán học máy, bao gồm phân cụm, phân loại thống kê HighGUI Các hàm thủ tục làm việc với file ảnh file video CXCORE Các cấu trúc liệu bản, cấu trúc XML, hàm đồ họa … Hình Cấu trúc OpenCV Phần CV bao gồm thư viện xử lý ảnh giải thuật thị giác máy tính ML thư viện thuật toán học máy, bao gồm nhiều phân cụm phân loại thống kê HighGUI chứa đựng thủ tục vào ra, chức lưu trữ đọc file ảnh video Phần thứ 4, Cxcore chứa đựng cấu trúc liệu ( ví dụ cấu trúc XML, liệu …) Phần cuối CvAux, phần bao gồm thư viện cho việc phát hiện, theo dõi nhận dạng đối tượng (khuôn mặt, mắt …) 37 5.2 Giao diện chương trình minh họa 5.2.1 Giao diện Người dùng chọn nút Choose input picture để chọn đến ảnh cần nhận diện (Hình 5.2), sau trình xử lý xảy với khuôn mặt khoanh đỏ, hiển thị lên vùng ouput Đồng thời kết đánh giá ảnh porn hay non-porn thị nhãn Porn Picture Detection Để xem kết chi tiết chọn nút Information Hình Giao diện chương trình 5.2.2 Giao diện hiển thị kết quả: 38 Hình Giao diện kết chi tiết 5.3 Thực nghiệm kết Chương trình kiểm tra với 200 ảnh từ nguồn internet bao gồm 100 ảnh porn 100 ảnh non-porn, kết sau: Bảng Kết thực nghiệm chương trình Ảnh porn Tỉ lệ nhận diện X% Tỉ lệ nhận diện sai Y% Ảnh non-porn Tỉ lệ nhận diện X% Tỉ lệ nhận diện sai Y% 39 CHƯƠNG 6: TỔNG KẾT VÀ ĐÁNH GIÁ 6.1 Kết đạt Tiếp cận hiểu phần lĩnh vực thị giác máy tính, mối quan tâm lớn lĩnh vực công nghệ thông tin Tiếp cận hiểu số phương pháp liên quan đến đề tài công bố trước 6.2 Hạn chế Kết nhận diện nhiều sai sót, với ảnh đầu vào có màu trùng tương tự với màu da, chất lượng ảnh kém… 6.3 Hướng phát triên Tiếp tục phát triển để khắc phục vấn đề nêu mục 1.3 cải thiện tốc độ thực thi chương trình, độ xác nhận diện… 40 Tài liệu tham khảo: [1] A Albiol, L Torres, and E J Delp 2001 “Optimum color spaces for skin detection.” In proceedings of the 2001 international conference on i mage processing 2001 pp 122-124 Vol [2] A Conci, E Nunes, J J Pantrigo, A Sanchez 2008 “Comparing color and texture-based algorithms for human skin detection” 2008 pp 168-173 Vol [3] Lok, Y S Wong and B 2004 Smart Home Security System, Report Capstone Project, Faculty of Engineering, University of Technology Sydney : s.n., 2004 [4] M J Jones, J M Rehg “Statistical Color Models with Application to Skin Detection”, Cambridge Research Laboratory, Compaq Computer Corporation One Cambridge Center, Cambridge, MA 02142 [5] McCulloch, W and Pitts, W 1943 A logical calculus of the ideas immanent in nervous activity Bulletin of Mathematical Biophysics 1943 pp 115-133 [6]Mitchell, Tom M Machine Learning pp 52-63 [7] P Kakumanu, S Makrogiannis, N Bourbakis 2006 “A survey of skin-color modeling and detection methods”, ITRI/Department of Computer Science and Engineering, Wright State University, Dayton OH 45435, USA 2006 [8] S L Phung, A Bouzerdoum, D Chai 2005 “Skin Segmentation Using Color Pixel Classification: Analysis and Comparison”, IEEE transactions on pattern analysis and machine intelligence 2005 pp 148-154 Vol 27 [9] S Matsuhashi O Nakamura, T Minami 1995 Human-face extraction using modified HSV color system and personal identification through facial image based on isodensity maps,” Canadian Conference on Electrical and Computer Engineering 1995 pp 909-912 Vol 41 [10] Viola, P., Jones, M J 2001 Rapid Object Detection Using A Boosted Cascade of Simple Features IEEE Conference on Computer Vision and Pattern Recognition Jauai, Hawaii : s.n., 2001 42 [...]... giống 57475 22.69 ảnh khiêu dâm Gần giống 58729 25.94 ảnh khiêu dâm 19 46200 51.20 47208 32.88 Ảnh khiêu dâm Ảnh khiêu dâm Các màu sắc của tóc tác động khi nhận dạng da Những người có tóc màu vàng, nâu và ngăm đen có xu hướng làm tăng số lượng điểm ảnh giống như da Các trường hợp như vậy có thể khiến cho việc áp dụng các thuật toán khác lên ảnh da này sẽ bị giảm độ chính xác 20 CHƯƠNG 3: CƠ SỞ LÝ THUYẾT... ra Vì vậy, một chương trình đơn giản và chính xác để lọc da từ hình ảnh nguyên vẹn là cần thiết trong việc xây dựng hệ thống nhận diện ảnh khiêu dâm Phát hiện điểm ảnh da có thể dựa trên không gian màu RGB (Red, Green, Blue) khi màu da nằm trong khoảng R>G hoặc là cả 2 RGB và HSV (Hue, Saturation, Value) là 2 không gian màu phổ biến cho nhận diện vùng da 2.3.2 Kết quả Một chương trình viết bằng Java... phân định của nó rất mong manh và việc phân biệt giữa hai loại hình trên tùy thuộc mỹ cảm của mỗi con người, do đó một phần mềm khó mà đủ thông minh để có thể phân biệt được một ảnh có phải khiêu dâm hay không Trong phạm vi đồ án này do giới hạn về trình độ cũng như thời gian do đó chúng em đánh đồng ảnh khỏa thân nghệ thuật và ảnh khỏa thân mang tính chất gợi dục (ảnh khiêu dâm) là một 4.1 Mô hình hệ... sau đó một quá trình xử lý xảy ra với khuôn mặt được khoanh đỏ, và hiển thị lên ở vùng ouput Đồng thời kết quả đánh giá ảnh porn hay non-porn cũng được hiện thị tại nhãn Porn Picture Detection Để xem kết quả chi tiết chọn nút Information Hình 5 2 Giao diện chính của chương trình 5.2.2 Giao diện hiển thị kết quả: 38 Hình 5 3 Giao diện kết quả chi tiết 5.3 Thực nghiệm và kết quả Chương trình được kiểm... nếu tỉ lệ phần trăm màu da từ 5% đến 20% thì hệ thống sẽ xác định đó là một bộ phận của cơ thể con người và sẽ đánh giá đó là ảnh thường Nếu tỉ lệ phần trăm màu da hơn 20% thì nhiều khả năng đó là ảnh khiêu dâm và hệ thống sẽ giữ lại để giám sát Bảng 2 1 Nhận dạng màu da và hiệu suất đánh giá Ảnh đầu vào Ảnh đã phân loại Điểm % (điểm ảnh ảnh da) 6225 6.76 Nhận định Ảnh bình thường 18 6000 13.30 6300 13.24... nhiều bộ phân cụm và phân loại thống kê HighGUI chứa đựng những thủ tục vào ra, các chức năng về lưu trữ cũng như đọc các file ảnh và video Phần thứ 4, Cxcore chứa đựng các cấu trúc dữ liệu cơ bản ( ví dụ như cấu trúc XML, các cây dữ liệu …) Phần cuối cùng là CvAux, phần này bao gồm các thư viện cho việc phát hiện, theo dõi và nhận dạng đối tượng (khuôn mặt, mắt …) 37 5.2 Giao diện chương trình minh họa... còn là nghệ thuật và phải có xúc cảm thẩm mỹ, chứ không phản cảm khi chụp và có tác dụng định hướng dư luận, hướng người ta đến chân thiện mỹ Ảnh khỏa thân phơi bày hay gợi dục hay ảnh sex là loại ảnh có thể chụp ở bất cứ đâu, cốt yếu khoe cơ thể và nhiều ảnh khoe thân phản cảm xuất hiện tràn lan trên nhiều trang mạng Trong nhiếp ảnh, giữa ảnh nude nghệ thuật và ảnh nude khiêu dâm, sự phân định của... viết bằng Java chophương pháp này chấp nhận các định dạng hình ảnh JPEG và GIF – định dạng phổ biến trên mạng Internet Nó thực hiện phân khúc HSV bằng cách sử dụng các thuật toán phân đoạn và gom cụm màu da Nó tính tỉ lệ phần trăm màu da của con người trong ảnh và tạo ra một đánh giá cho biết nếu nó chủ yếu là da thì là ảnh khiêu dâm hoặc có một mức độ chấp nhận được thì là ảnh thường Xem xét các bức... quan trọng trong việc phận loại một bức ảnh là porn hay nonporn 33 Hình 4 1 Mô hình hệ thống nhận diện ảnh khiêu dâm 4.2 Nhận diện khuôn mặt Năm tính năng sau đây phân loại hình ảnh porn và non-porn Các tính năng này đều liên quan đến khuôn mặt: 1 Face Number: Số lượng khuôn mặt trong ảnh Ảnh khiêu dâm thường không chứa quá nhiều khuôn mặt Chúng tôi xác định F1 như sau: F1 = số lượng khuôn mặt trong ảnh... dài tối thiểu của trục ảnh: F3 = Khoảng cách(trung tâmvùng mặt , trung tâm bức ảnh ) Giá trị nhỏ nhất(chiều ngang bức ảnh, chiều dài bức ảnh) 4 Skin Ratio I: Tỷ lệ vùng da của toàn bộ bức ảnh so với vùng da khuôn mặt 5 Skin Ratio II: Tỷ lệ tương ứng với phần da lớn nhất cho vùng mặt Nếu tỷ lệ cao hơn Skin Ratio I và Skin Ration II thì nhiều khả năng là ảnh khiêu dâm Chúng tôi xác định F4 và F5 như