Nghiên cứu này tiếp cận theo phương pháp máy học để từ đó có thể phát hiện tự động những website chứa hình ảnh khiêu dâm và văn bản có nội dung đồi trụy. Cụ thể, sử dụng giải thuật SVM để phân lớp hình ảnh dựa vào phân loại màu da cải tiến và Naïve Bayes để phân lớp văn bản.
NGHIÊN CỨU KHOA HỌC Phân loại web đồi trụy dựa vào văn hình ảnh Pornographic web classification based on text and images Phạm Thị Hường , Nguyễn Văn Thanh Email: phamthihuongdtth@gmail.com Trường Đại học Sao Đỏ Trường THPT Châu Thành Ngày nhận bài: 15/6/2018 Ngày nhận sửa sau phản biện: 23/11/2018 Ngày chấp nhận đăng: 27/12/2018 Tóm tắt Nghiên cứu tiếp cận theo phương pháp máy học để từ phát tự động website chứa hình ảnh khiêu dâm văn có nội dung đồi trụy Cụ thể, sử dụng giải thuật SVM để phân lớp hình ảnh dựa vào phân loại màu da cải tiến Naïve Bayes để phân lớp văn Kết cho thấy mơ hình đề xuất có độ xác phân lớp cao số phương pháp công bố Từ khóa: Máy vector hỗ trợ; phân lớp văn bản; phân lớp hình ảnh; Nạve Bayes; phân loại web Abstract This study approaches a machine learning method to automatically detect websites containing pornographic images and texts Specifically, SVM is used to image classify based on the improved skin color classification, and Naïve Bayes is used to text classify The results show that the proposed model has higher classification accuracy than some published methods Keywords: Support vector machine; text classification; image classification; Naïve Bayes; web classification GIỚI THIỆU Thực tế nay, số lượng thiếu niên suy đồi đạo đức phạm tội ngày tăng cao Một nguyên nhân ảnh hưởng từ thông tin không lành mạnh tràn lan internet, lượng lớn thơng tin chưa phân loại hay kiểm soát để giúp người sử dụng tránh truy cập thông tin xấu Nghiên cứu phân loại web đồi trụy nước giới có kết cụ thể ứng dụng thực tế: công cụ chặn website khiêu dâm nước STOP P-O-R-N PB Software LLC, Media Detective; CyberSitter Solid Oak Software; iShield ScreenShield Enterprise Guardware, Trong nước có cơng cụ chặn web đen Killporn tác giả Nguyễn Hữu Bình, VwebFilter (VWF), Depraved Web Killer (DWK) tác giả Vũ Lương Bằng, MiniFireWall 4.0 (MFW) tác giả Huỳnh Ngọc Ẩn [11] Theo hướng tiếp cận máy học phân loại web đồi trụy có số nghiên cứu giới Theo [12], tác giả sử dụng SVM để phân tích ngữ nghĩa nhằm tìm mối quan hệ ngữ nghĩa từ khóa Người phản biện: GS.TSKH Thân Ngọc Hoàn TS Đặng Hồng Hải tài liệu web, sau mơ hình hóa chúng dạng vector nhằm phân lớp văn bản, sử dụng phân tích ngữ nghĩa tiềm ẩn (LSA) đặc trưng trang web (WPFS) để trích chọn đặc trưng ngữ nghĩa văn Kết phân lớp có giá trị TP trung bình cho hai phương pháp 96,5%, chưa phân lớp hình ảnh trang web Theo [13], tác giả đưa phương pháp phát nội dung web khiêu dâm sử dụng TF-IDF tính trọng số từ nhóm từ để thống kê mức độ quan trọng chúng văn tiếng Anh tiếng Nga Kết phân loại tiếng Anh sử dụng Naïve Bayes có độ xác phân lớp trung bình 92,9%, thời gian trích chọn đặc trưng cho tài liệu tiếng Anh lớn (2,7 giây) Theo [14], tác giả sử dụng SVM với đặc trưng dựa thống kê kết cấu màu sắc hình ảnh, tính score để xác định hình ảnh có phải khiêu dâm trẻ em không, sử dụng visual words tăng cường màu sắc DCT để biểu diễn hình ảnh, kết có tỷ lệ lỗi phạm vi 11-24% Theo [15], tác giả sử dụng trí tuệ nhóm nhật ký click qua cơng cụ tìm kiếm dựa ý tưởng “Hành vi nhấp chuột trang khiêu dâm phản ánh ý định tìm kiếm khiêu dâm người dùng” người dùng khác thường sử dụng truy vấn 26 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HĨA để tìm nội dung khiêu dâm web Từ đó, tập hợp số lượng nhấp chuột người dùng mối tương quan truy vấn hay URL để đề xuất phương pháp truyền bá nhãn đồ thị lưỡng phân có trọng số, điều làm sở xác định trang web có nội dung khiêu dâm hay không Tác giả sử dụng phân loại văn SVM Naïve Bayes bổ sung đặc trưng điểm khiêu dâm (pornography score – PS) để làm tăng hiệu tìm kiếm Kết cài đặt ngôn ngữ tiếng Anh tiếng Trung có giá trị TP tương ứng 91% 94% Theo [16], tác giả sử dụng SVM để phân loại văn hình ảnh web Cụ thể, sử dụng đặc trưng màu da để phát hình ảnh khiêu dâm tần suất thuật ngữ khiêu dâm so với tổng số văn bản, khoảng thời gian mức độ thuật ngữ khiêu dâm Kết thử nghiệm cho độ xác phân loại văn 95,8% độ xác phân loại hình ảnh 84% Ngồi ra, độ xác phân loại trang web sau hợp thành lọc gồm văn hình ảnh 91,8% Theo [17], tác giả đưa phương pháp lọc web thông thường, dựa phân lớp văn sử dụng URL Phương pháp yêu cầu tập huấn luyện cho lớp tốt khơng phải xây dựng trì tập huấn luyện lớp xấu Tuy nhiên, chưa phân lớp hình ảnh, phân lớp văn dựa URL mà không dựa vào nội dung, việc không quan tâm đến huấn luyện lớp xấu hạn chế cho phân lớp web đồi trụy vốn cần quan tâm lớp xấu để chặn Theo [18], tác giả trích chọn đặc trưng vùng da từ ảnh tìm mối tương quan vùng da hay da, sử dụng SVM để xác định xem hình ảnh có ảnh khiêu dâm hay khơng Kết thực nghiệm cho độ xác 75% Theo [19], tác giả đề xuất mơ hình phân loại dựa kỹ thuật học sâu Việc trích chọn đặc trưng phân loại mạng nơron tích chập nhiều lớp làm cho việc tạo đặc trưng phân loại thực thủ công Cụ thể, nghiên cứu tập trung vào tín hiệu thị giác hình thức khiêu dâm bật hệ thống học sâu tự động phân tích hình ảnh (và khung hình video) trước phân loại nội dung bình thường hay khiêu dâm Kết thực nghiệm đạt tỷ lệ phân loại 94% giả biểu diễn ảnh đặc trưng SIFT dùng mơ hình bag of words (BoW) để thực kết tập đặc trưng cục SIFT Với phân loại văn bản, tác giả chọn đặc trưng để phân loại ngưỡng tần suất văn (Document Frequency thresholding –DF) Theo cách tiếp cận này, việc đếm số lượng văn có chứa từ cấm đơn giản độ xác chưa cao (93,65%) phân lớp hình ảnh dựa vào đặc trưng SIFL có độ xác 76,3255% Tại Việt Nam, theo [3], tác giả sử dụng SVM để phân lớp nội dung văn trang web Thực nghiệm tiến hành liệu mẫu 20-newsgroups (là liệu dành cho thí nghiệm ứng dụng phân lớp văn bản) với độ xác trung bình 94%, chưa phân lớp hình ảnh Về phân lớp web chứa hình ảnh nội dung văn bản, theo [4], sử dụng thuật toán SVM để phân lớp văn hình ảnh Cụ thể, tác 2.2 Phân lớp hình ảnh web Đa phần cơng cụ cung cấp nhà phát triển nước phải trả phí, số nghiên cứu phân loại web dựa từ khóa, URL, chưa phân loại văn hình ảnh, số hạn chế thời gian phân lớp hay độ xác,… Một số công cụ nước chưa sử dụng rộng rãi số hạn chế như: DWK, VFW chặn website dựa vào từ khóa thơng dụng có nội dung trang web chặn URL cụ thể, điều dẫn đến phần mềm chặn nhầm website thực tế địa số website có nội dung khiêu dâm thường thay đổi Mặt khác, người dùng liệt kê hết từ khóa địa website cần cấm truy cập Nghiên cứu tiếp cận theo phương pháp máy học để phát tự động website chứa hình ảnh khiêu dâm kỹ thuật SVM website chứa văn có nội dung đồi trụy giải thuật Naïve Bayes Kết nghiên cứu cho thấy hiệu đề xuất NỘI DUNG NGHIÊN CỨU 2.1 Bài toán phân lớp liệu web Phân lớp liệu xếp đối tượng liệu vào lớp xác định trước Phân lớp liệu gồm hai bước xây dựng mơ hình vận hành mơ hình Cho sẵn tập liệu trang web gán nhãn web đồi trụy hay bình thường gọi tắt lớp xấu lớp tốt, cần phương pháp huấn luyện để xây dựng mô hình phân lớp từ tập liệu mẫu đó, sau dùng mơ hình dự đốn lớp trang web chưa biết nhãn 2.2.1 Giải thuật SVM Cho trước tập huấn luyện biểu diễn khơng gian vector, phương pháp tìm siêu phẳng định tốt để chia điểm không gian thành hai lớp riêng biệt Phương pháp yêu cầu liệu diễn tả vector số thực [5] Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 27 NGHIÊN CỨU KHOA HỌC (R>95) (G>40) (B>20) (max{R,G,B}) 2.2.2 Huấn luyện SVM Huấn luyện SVM thực chất việc giải toán quy hoạch tồn phương, u cầu phải lưu ma trận có kích thước bình phương số lượng mẫu huấn luyện Trong thực tế, điều khơng khả thi thơng thường số lượng mẫu huấn luyện lớn Có nhiều thuật toán phát triển để giải toán Những thuật toán dựa việc phân rã tập huấn luyện thành nhóm liệu nhỏ hơn, nghĩa thay giải tốn tồn phương có kích thước lớn giải tốn tồn phương có kích nhỏ Sau đó, thuật tốn kiểm tra điều kiện để xác định phương án tối ưu Một thuật toán dùng để giải tốn tồn phương Sequential Minimal Optimization – SMO Platt đưa năm 1999 2.2.3 Phân đoạn màu da Phát da bước quan trọng việc phát ảnh, sử dụng làm sở cho việc phát hình ảnh có nội dung đồi trụy Mục tiêu phát màu da xây dựng quy tắc định phân biệt màu điểm ảnh (pixel) màu da (skin color) da (non-skin color) dựa thành phần màu sắc 2.2.3.1 Mơ hình phát màu da không gian màu YcrCb Không gian màu YcbCr biểu diễn ba giá trị Thành phần Y đại diện cho cường độ ánh sáng Hai thành phần Cb Cr cho biết cường độ thành phần màu xanh đỏ so với thành phần màu xanh Mơ hình cho công thức xác định điều kiện để điểm ảnh có màu màu da thỏa mãn điều kiện: 85 ≤ Cb ≤ 135, 135 ≤ Cr ≤ 180, Y ≥ 80 (1) 2.2.3.2 Mô hình phát màu da khơng gian màu HSV Không gian màu HSV A.R Smith đề xuất năm 1978, cịn gọi khơng gian màu HSB, không gian màu dựa ba số liệu: H (Hue): Sắc thái (0=H=360) S (Saturation): Ðộ bão hòa màu (0=S=1) B (Brightness) hay V (Value): Ðộ sáng (0=V=1) Mơ hình cho công thức xác định điều kiện để điểm ảnh có màu màu da thỏa mãn điều kiện: 0B) Trong điều kiện chiếu sáng ánh sáng đèn cho cơng thức: (R>220)và(G>210)và (B>170)và (max{R,G,B}min{R,G,B}>15) (|R-G|B) (G>B) (4) Ðể kết hợp chung hai điều kiện chiếu sáng khác ta sử dụng phép tốn OR 2.2.3.4 Mơ hình phát màu da dựa vào phân phối histogram Là mơ hình xác định màu da dựa vào phân phối histogram thành phần màu không gian màu RGB quy tắc phân lớp Trong mơ hình sử dụng 14,985,845 skin pixels (điểm ảnh màu da) 304,844,751 non-skin pixels (điểm ảnh màu da) để tạo RGB histogram với kích thước 32*32*32 cho điểm ảnh da không da (mỗi thành phần r, g, b phân phối vào biểu đồ màu có 32 bins) Với bin cụ thể, ta tính log likelihood để phân lớp: Trong H(rgb), h(rgb) tương ứng số skin pixels non-skin pixels có bin rgb tương ứng biểu đồ màu Với điểm ảnh rgb rơi vào bin 32*32*32 bin mơ hình, điểm ảnh rgb phân lớp màu da thỏa mãn công thức (4) Trong nghiên cứu tác giả sử dụng file mô hình màu da “skinmodel.bin”(https:// github.com/zhouxc/Adult-WebSite-Classifier) Tuy nhiên, khơng có mơ hình phát da xác 100%, vùng ảnh chứa da “trơn” (không chứa biên ảnh) hình ảnh thuộc lớp “xấu” thường hình chứa vùng da có kích thước lớn, từ tác giả đề xuất thuật tốn cải tiến để phát màu da ảnh Thuật toán cải tiến: Input: ảnh input_Image (ảnh đen trắng) Output: ảnh output_Image (ảnh đen trắng) chứa màu da xác định 2.2.3.3 Mơ hình phát màu da tác giả Kovac Bước 1: Phát da ảnh input_Image sử dụng mơ hình phát da, thu ảnh Skin_Image Trong điều kiện chiếu sáng ánh sáng ban ngày cho công thức: Bước 2: Phát biên ảnh (sử dụng thuật toán Canny) thu ảnh Edges_Image 28 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA Bước 3: Loại bỏ điểm ảnh “da” Skin_Image mà thuộc ảnh Edges_Image thu ảnh Skin_Image1 hình phân lớp “sớm” (phân lớp mà không cần thông qua mơ hình SVM để dự đốn) xảy thuộc bốn trường hợp sau: Bước 4: Sử dụng phép tốn hình thái OPEN với mẫu B ảnh Skin_Image1 để loại bỏ liên kết yếu vùng có màu “da” ảnh Skin_Image1 (i) Phát có xuất hình vịng ảnh kết luận ảnh nude (ảnh “xấu”) Bước 5: Gán nhãn cho vùng da ảnh Skin_Image1 đồng thời loại bỏ vùng da nhỏ (≤100 pixels) thu Skin_Image2 Bước 6: Sử dụng phép tốn hình thái CLOSE với mẫu B ảnh Skin_Image1 để thu ảnh đầu output_Image (ii) Số khuôn mặt phát ảnh ≥3 (iii) Không thỏa (i) (ii) có diện tích khn mặt lớn ≥30% diện tích ảnh ảnh not nude (ảnh “tốt”) (iv) Khơng thỏa (i) (ii) (iii) có SPI (tỉ lệ % màu da) ≥40 có tồn khn mặt ảnh nude 2.2.5 Phát vịng Để giải trường hợp (i) tác giả sử dụng mơ hình cascadebreast1981.xml sử dụng OpenCV phát vòng với nguồn:http:// e n p ud n c o m/ d o w n l o a d s / s o u r e c o d e / windows/detail836282_en.html Kết vị trí vịng ảnh đầu vào B= 2.2.6 Phát khn mặt 2.2.4 Phân lớp hình ảnh nude Hình ảnh đồi trụy (nude) thường hình ảnh có tỉ lệ phát “màu da” lớn so với hình ảnh bình thường (hình ảnh thuộc lớp “tốt”), nhân vật hình thường nằm vị trí trung tâm hình ảnh Nhân vật hình nude thường phụ nữ để hở phận “nhạy cảm” Mơ hình phân lớp ảnh đề xuất hình Trong hình 1, giá trị 0, để hình ảnh phân tương ứng vào lớp hình ảnh “tốt” “xấu” Một Mặc dù hình ảnh thuộc lớp “xấu” thường hình ảnh chứa khn mặt tư khó phát thuật tốn phát khuôn mặt Để phát khuôn mặt nghiên cứu sử dụng mơ hình phát khn mặt Viola Jones tích hợp sẵn OpenCV Trong mơ hình phát khn mặt thường phát tốt khn mặt diện, việc phát khuôn mặt giải trường hợp (ii), (iii) (iv) Hình Mơ hình phân lớp hình ảnh Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 29 NGHIÊN CỨU KHOA HỌC 2.2.7 Trích chọn đặc trưng Độ entropy biểu đồ màu histogram Tỉ lệ phần trăm màu da (kí hiệu SPI): Sự khác biệt lớn hình nude hình not nude ta nhận thấy hình nude có số lượng điểm ảnh có màu da chiếm tỉ lệ lớn so với kích thước ảnh, hình ảnh bình thường (not nude) đa phần hình ảnh có tỉ lệ màu da nhỏ (trừ số trường hợp ảnh bình thường có tỉ lệ điểm ảnh có màu da lớn như: ảnh khuôn mặt chụp cận cảnh, ảnh phụ nữ mặc bikini, ảnh vật chất khác (khơng phải da người) có màu sắc giống da người) Mỗi thành phần R, G, B hình ảnh phân phối vào biểu đồ histogram với 32 bin Giả sử p1,p2,…p32 giá trị nguyên tương ứng với bin biểu đồ màu histogram thành phần x (xϵ{R,G,B}) hình ảnh Khi giá trị entropy H(x) thành phần tính cơng thức sau: Tỉ lệ phần trăm vùng da lớn (kí hiệu SPR0): Tỉ phần phần trăm vùng da lớn đóng vai trị quan trọng trường hợp phân biệt khác ảnh có tỉ lệ phần trăm màu da xấp xỉ Số lượng vùng da (kí hiệu NSR): Sau áp dụng thuật toán phân khúc màu da, thực loại bỏ vùng da có kích thước nhỏ (≤100 pixels), vùng da nhỏ thường gây nhiễu khơng có ý nghĩa phân lớp, đếm vùng da có kích thước lớn Tỉ lệ phần trăm da 16 vùng da: Các hình ảnh nude đa phần nhân vật nằm trung tâm ảnh, vùng da phát thường phân bố liền có xu hướng vùng có màu da phân bố theo hướng kéo dài, hình ảnh bình thường có nhiều vùng da vùng da thường phân bố rời rạc khơng liên tục Vì vậy, hình ảnh sau phát màu da xong có kích thước 256*256 phân chia thành 16 vùng (4*4 vùng) để tính tỉ lệ màu da 16 vùng da tương ứng ảnh (kí hiệu SPRi (i = 1, 2,…, 16)) Trung bình độ lệch thành phần màu R, G, B Từ mơ hình nhận dạng màu da, nhận thấy điểm ảnh có màu sắc giống màu da thành phần màu không gian màu tương ứng nằm phạm vi định Do đó, hình ảnh có chứa số lượng điểm ảnh có màu sắc giống màu da nhiều giá trị trung bình điểm ảnh theo kênh màu rơi vào ngưỡng định Độ lệch chuẩn có giá trị việc phân lớp hình nude thường có thay đổi màu sắc đột ngột, giá trị độ lệch chuẩn thấp ngược lại (5) 2.2.8 Huấn luyện phân lớp hình ảnh mơ hình SVM 2.2.8.1 Huấn luyện Cơ sở liệu hình ảnh thu thập http:// sourceforge.net/projects/imagecrawler sau tiến hành gán nhãn lớp cho hình ảnh, hình ảnh phân vào hai lớp lớp hình nude (hình ảnh có nội dung đồi trụy) lớp hình not nude (hình ảnh khơng chứa nội dung đồi trụy) Tập hình ảnh gọi tập huấn luyện Trong nghiên cứu này, tác giả sử dụng 6556 hình ảnh not nude 3905 hình ảnh nude làm sở liệu huấn luyện mơ hình SVM Tiến hành trích chọn đặc trưng hình ảnh (trừ hình ảnh phát sớm thuộc lớp lớp định), hình ảnh trích chọn gồm 27 đặc trưng biểu diễn thành vector có 28 chiều (27 chiều ứng với 27 đặc trưng chiều thứ 28 nhãn lớp tương ứng) Kết thúc q trình trích chọn đặc trưng thu sở liệu lưu trữ vector đặc trưng tập liệu hình ảnh huấn luyện Sau tiến hành huấn luyện mơ hình SVM (sử dụng thư viện libsvm link: http://www.csie.ntu edu.tw/~cjlin/libsvm/ để cài đặt) 2.2.8.2 Phân lớp Kết trình huấn luyện ta thu mơ hình SVM Để phân lớp hình ảnh (chưa có tập huấn luyện), tiến hành trích chọn vector đặc trưng hình ảnh áp vào mơ hình SVM huấn luyện để phân lớp hình ảnh 2.3 Phân lớp văn 2.3.1 Phương pháp Naïve Bayes Phân loại Naïve Bayes đơn giản phương pháp phân loại sử dụng tri thức xác suất qua huấn luyện Phương pháp thích hợp với lớp tốn địi hỏi phải dự đốn xác lớp mẫu cần kiểm tra dựa thông tin từ tập huấn luyện ban đầu [5] 30 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HĨA 2.3.2 Mơ tả tốn phân lớp văn Cho tập huấn luyện: X = {di,ci}, i = 1,2,…, n; di Є D={d1,d2,…,dm},ci Є C = {1,-1}, D tập hợp chứa N văn với văn biểu diễn dạng vector m chiều, chiều văn token (từ đơn từ ghép) di=(w1,w2,…,wm); tập C tập nhãn với quy định nhãn lớp văn có nội dung đồi trụy, -1 lớp văn có nội dung khơng đồi trụy Bài toán đặt ra: cho văn d (d ∉ D), cho biết văn d phân vào lớp hai lớp -1 Nói cách khác tìm ánh xạ f để f(d)Є{1,-1} Văn phân lớp gồm ngôn ngữ tiếng Anh: loại hình biến cách biến đổi nguyên âm phụ âm hình vị Ý nghĩa từ vựng ý nghĩa ngữ pháp dung hợp từ tách bạch phần biểu thị ý nghĩa từ vựng, phần biểu thị ý nghĩa ngữ pháp nên gọi ngơn ngữ “hịa kết” biến hình Ngơn ngữ biến hình có phụ tố, phụ tố đồng thời mang nhiều ý nghĩa ngược lại, ý nghĩa diễn đạt nhiều phụ tố khác Ngôn ngữ tiếng Việt: Một từ ln có hình thức khơng biến đổi trường hợp Quan hệ ngữ pháp ý nghĩa ngữ pháp biểu thị chủ yếu hư từ trật tự từ 2.3.2.1 Tiền xử lý văn Tiền xử lý văn trình chuyển đổi văn ban đầu sang văn túy (text), tức loại bỏ thành phần hình ảnh, tag trang web, thông tin định dạng Để thống tất văn chuyển sang định dạng unicode-utf8 Ðể thực điều sử dụng tiện ích Unikey, nghiên cứu sử dụng công cụ UTF8 Unicode tại: http://www.softpedia com/get/ScienceCAD/ UTF-8converter.shtml Ngoài ra, ta cần loại bỏ kí tự tab, enter, số, kí tự đặc biệt khác như: “,./?;:’~!@#$%^&*()*+-\=” Quá trình thực cách tự động 2.3.2.2 Tách từ Tách từ nhằm mục đích xác định ranh giới từ câu, tức trình xác định từ đơn, từ ghép Ðối với tiếng Anh, việc xác định ranh giới từ việc xác định khoảng trắng phân cách từ với từ kết thúc dấu chấm câu Trong tiếng Việt, xử lý tách từ gặp khó khăn nghĩa từ có liên quan đến trật tự từ Có thể kể đến số phương pháp tách từ như: so khớp từ dài nhất, so khớp cực đại, mơ hình Markov, học dựa cải biến, chuyển đổi trạng thái trọng số hữu hạn Ðể giải toán này, tác giả sử dụng công cụ tách từ vnTokenizer tác giả Lê Hồng Phương [6] 2.3.2.3 Loại bỏ hư từ (stop word) Thực từ từ có khả tạo thành câu, làm phần nêu phần báo phần câu, có chức gọi tên vật, thuộc tính vật [1] Hư từ khơng có chức định danh, khơng có khả độc lập làm thành phần câu, dùng để biểu thị quan hệ ngữ nghĩa - cú pháp khác thực từ [2] Hư từ phổ biến ngôn ngữ tiếng Anh lẫn tiếng Việt 2.3.2.4 Tạo danh sách từ vựng Từ sở liệu văn thu thập trực tuyến gán nhãn lớp cho văn bản, văn thuộc lớp “xấu” chứa văn đồi trụy lớp “tốt” chứa văn không chứa nội dung đồi trụy Tiến hành trích chọn thực từ xuất lớp sở liệu văn huấn luyện với ngưỡng cho trước 2.3.2.5 Huấn luyện phân lớp văn Naïve Bayes Huấn luyện Naïve Bayes: Huấn luyện Naïve Bayes thực chất trình tính xác suất xuất từ danh sách từ vựng tạo Phân lớp Naïve Bayes: Với văn cần phân lớp, ta trích chọn thực từ có xuất danh sách từ vựng, sau áp dụng kỹ thuật phân lớp Naïve Bayes KẾT QUẢ NGHIÊN CỨU VÀ THẢO LUẬN 3.1 Thu thập liệu 3.1.1 Dữ liệu hình ảnh Thu thập liệu hình ảnh http://sourceforge net/projects/imagecrawler Tiếp theo, tiến hành phân loại hình ảnh vào hai lớp gồm lớp hình nude (hình ảnh đồi trụy từ nhiều châu lục khác nhau) lớp hình ảnh khơng nude (hình ảnh khơng chứa nội dung đồi trụy bao gồm hình ảnh chủ đề khác nhau: người, động vật, thực vật,…) Kết tập hợp hình ảnh thu phân thành tập sau: Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 31 NGHIÊN CỨU KHOA HỌC Bảng Bộ liệu ảnh Tập huấn luyện Số file lớp “xấu” 4395 Tập kiểm tra Số file lớp “tốt” Tổng số file 7826 12221 Dung lượng (MB) Số file lớp “xấu” Số file lớp “tốt” Tổng số file Dung lượng (MB) 688 200 491 691 21.18 3.1.2 Dữ liệu văn Anh tải trực tiếp từ website http:// www.textfiles.com Thu thập liệu văn từ website tiếng Việt văn tiếng Việt, văn tiếng Bảng Bộ liệu văn với nhiều chủ đề phân loại sẵn như: food, fun, message, erotica,… Tập kiểm tra Ngôn ngữ Tập huấn luyện lớp “xấu” lớp “tốt” Tổng số file Tiếng Việt 329 331 660 Tiếng Anh 390 341 731 Dung Số file Số file Số file Số file lớp “xấu” 2.48 14.6 lượng (MB) Dung lượng lớp “tốt” Tổng số file 163 166 329 1.28 302 362 644 12.7 (MB) 3.2 Kết nghiên cứu Abhinav Dhall, UCI Machine Learning Repository để chọn mơ hình phát màu da tốt nhằm Cài đặt máy tính hệ điều hành Window8, 32 nâng cao độ xác dự đốn mơ hình phân bits, CPU Core I5, 2.5Ghz, ngơn ngữ lập trình Python 2.7 sử dụng số thư viện hỗ trợ: lớp ảnh: (https://archive ics uci.edu/ml/datasets/ OpenCV, libsvm, Numpy, PIL, scipy, codecs, SkinSegmentation#) Skin Segmentation Dataset matplotlib công cụ tách từ tiếng Việt vnTokenizer sở liệu có kích thước 245057x4, số mẫu 245057, mẫu có bốn tác giả Lê Hồng Phương thành phần B,G,R (ba thành phần điểm 3.2.1 Phát màu da ảnh không gian màu RGB) thành phần Trước tiên, cần đánh giá độ xác thứ tư nhãn (1 2) điểm ảnh (1: màu mô hình phát màu da Để đánh giá, sử dụng da, 2: khơng phải màu da) Trong 245057 mẫu sở liệu dùng để phân đoạn màu da “Skin có 50859 mẫu da 194198 mẫu không Segmentation Dataset” cung cấp Rajen Bhatt, phải da Bảng Độ xác mơ hình phát màu da Mơ hình True Skin False Skin True nonskin False nonskin HSV 45781/50859 (90%) 5087/50859 (10%) 187928/194198 (96.8%) 6272/194198 (3.2%) YCbCr 50393/50859 (99.1%) 446/50859 (0.9%) 187378/194198 (96.5%) 6820/194198 (3.5%) RGB-Kovac 50634/50859 (99.6%) 225/50859 (0.4%) 185776/194198 (95.7%) 8422/194198 (4.3%) 34343/50859 (67.5%) 6516/50859 (32.5%) 189764/194198 (97.7%) 4434/194198 (2.3%) màu da RGBHistogram (Skinmod el.bin) [7] Bảng cho thấy, mô hình YcbCr RGB-Kovac có tỷ lệ phát màu da với độ xác cao hai mơ hình lại Cụ thể phát da (True Skin) đạt 99% da (True nonskin) 95% 3.2.2 Huấn luyện phân lớp hình ảnh Từ tập liệu hình ảnh dùng để huấn luyện ứng với mơ hình màu da, tiến hành trích chọn đặc trưng huấn luyện có kết sau: 32 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA Bảng Kết huấn luyện bốn mơ hình phát màu da Tên mơ hình SVM tạo Thời gian trích chọn đặc trưng Mơ hình màu da HSV_SVM (Mơ hình 1) HSV phút YcbCr 27 phút RGB_Kovac 30 phút RGB_Histogram phút YcbCr_SVM (Mơ hình 2) RGB_Kovac_SVM (Mơ hình 3) RGB_Histogram_SVM (Mơ hình 4) huấn luyện Kết phân lớp hình ảnh với gồm 200 hình nude 491 hình khơng nude có tổng dung lượng 21.2 MB bốn mơ hình phát màu da sau [20]: Bảng Kết phân lớp hình ảnh SVM Mơ hình Mơ hình Mơ hình Mơ hình TP (%) 130/200 (65%) 141/200 (70.5%) 146/200 (73%) 120/200 (60%) FP (%) 70/200 (35%) 59/200 (29.5%) 54/200 (27%) 80/200 (40%) TN (%) 444/491 (90.4%) 443/491 (90.2%) 442/491 (90%) 440/491 (89.6%) FN (%) 47/491 (9.6%) 48/491 (9.8%) 49/491 (10%) 51/491 (10.4%) Acc (%) 574/691 (83%) 584/691 84.5% 588/691 (85.1%) 560/691 (81%) Thời gian (s) 896 757 865 850 Bảng cho thấy mơ hình phân loại SVM 2, ứng với mơ hình phân loại màu da YcbCr RGBKovac có độ xác cao (đạt 84%) so với hai mơ hình cịn lại So sánh kết mơ hình đề xuất so với số cơng cụ mã nguồn mở phát ảnh có nội dung đồi trụy với tập kiểm tra gồm 200 hình nude 491 hình khơng nude có tổng dung lượng 21.2 MB cho kết xác cao Bảng So sánh kết phân loại hình ảnh Tên Mơ hình Mơ hình [8] [9] [10] TP (%) 141/200 (70.5%) 146/200 (73%) 128/200 (64%) 58/200 (29%) 115/200 (57.5%) FP (%) 59/200 (29.5%) 54/200 (27%) 72/200 (36%) 142/200 (71%) 85/200 (42.5%) TN (%) 443/491 (90.2%) 442/491 (90%) 319/491 (65%) FN (%) 48/491 (9.8%) 49/491 (10%) 172/491 (35%) Acc (%) 584/691 84.5% Thời gian (ms) 757 588/691 (85.1%) 447/691 (64.5%) 865 409/491 (83.3%) 371/491(75.6%) 82/491 (16.7%) 120/491(24.4%) 467/691 (67.6%) 486/691(70.3%) 925 11 567 3.2.3 Phân lớp văn Danh sách từ vựng trích chọn từ tập huấn luyện với giá trị ngưỡng chọn 25 văn tiếng Việt 80 văn tiếng Anh (bảng 7) Kết phân lớp văn (bảng 8) có độ xác cao (đạt 96%) hai ngôn ngữ tiếng Anh tiếng Việt [20] Bảng Bộ liệu giá trị ngưỡng phân lớp văn Số file lớp Số file lớp “xấu” “tốt” Tiếng Việt 329 331 660 Tiếng Anh 390 341 731 Ngôn ngữ Tổng số File Dung lượng Ngưỡng Số lượng từ 2.48 25 1445 14.6 80 1796 (MB) Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 33 NGHIÊN CỨU KHOA HỌC Bảng Kết phân lớp văn Thời Ngôn TP ngữ Tiếng Việt Tiếng Anh FP TN FN Acc (%) gian (s) 163/163 (100%) 0/163 (0%) 161/166 (98.98%) 5/166 (3.012%) 327/329 (99.39%) 53 300/302 (99.34%) 2/302 (0.66%) 343/362 (94.75%) 19/362 (5.25%) 643/664 (96.83%) 515 KẾT LUẬN Kết nghiên cứu cho thấy: phân lớp văn có độ xác cao (văn tiếng Việt 99,39%, văn tiếng Anh 96,83%) thời gian thực nhanh Còn kết phân lớp hình ảnh, độ xác phân lớp vào lớp hình ảnh từ 84% đến 85% xét độ xác chung chấp nhận Từ kết ta nhận thấy phương pháp phân lớp đề xuất nghiên cứu có độ xác cao TÀI LIỆU THAM KHẢO [1] Hồng Dân (1970) Bước đầu tìm hiểu vấn đề từ hư tiếng Việt Tạp chí Ngơn ngữ, số 1, tr.68 [2] Nguyễn Như Ý (1996) Từ điển giải thích thuật ngữ ngôn ngữ học NXB Giáo dục, Hà Nội, tr.123 [3] Lê Hồng Dương, Ngơ Quốc Vinh (2016) Nghiên cứu thuật tốn phân lớp sử dụng q trình học máy bán giám sát, ứng dụng việc phân lớp trang web Đề tài cấp trường Trường Đại học Hàng hải Việt Nam [4] Huỳnh Bé Thơ Trương Quốc Định Xây dựng công cụ ngăn chặn việc truy cập web đen (hình ảnh, nội dung) Tạp chí Khoa học Trường Đại học Cần Thơ, số chuyên đề: Công nghệ Thông tin (2013): 162-169 [5] Phạm Nguyên Khang (2014) Giáo trình Nguyên lý máy học [6] http://xltiengviet.wikia.com/wiki [7] http://www.rw-designer.com/color-space [8] https://pypi.python.org/pypi/nudepy [9] https://github.com/hhatto/nude.py.git [10] http://premium.wpmudev.org/forums/topic/ detecting-nude-pictures-in-wpmu -blogs [11] http://www.vn-zoom.com/f99/tong-hop-cac-phanmem-chanweb-den-25784.html [12] Rung-Ching Chen, Chung-Hsun Hsieh (2006) Web page classification based on a support vector machine using a weighted vote schema Expert Systems with Applications 31 (2006), 427–435 [13] Roman Suvorov, Ilya Sochenkov, and Ilya Tikhomirov Method for Pornography Filtering in the WEB Based on Automatic Classification and Natural Language Processing Institute for Systems Analysis of Russian Academy of Sciences 117312, Moscow, pr 60-letiya Oktyabrya, [14] Adrian Ulges, Armin Stahl (2011) Automatic detection of child pornography using color visual words German Research Center for Artificial Intelligence (DFKI), D-67663 Kaiserslautern, Germany [15] Cheng Luo, Yiqun Liu, Shaoping Ma, Min Zhang, Liyun Ru, and Kuo Zhang Pornography Detection with the Wisdom of Crowds [16] Rung-Ching Chen* and Chun-Te Ho (2006) A pornographic web page detecting method based on SVM model using text and image features Int J Internet Protocol Technology, Vol 1, No [17] R Du, R, Safavi-Naini, R and Susilon W (2003) Web filtering using text classification The 11th IEEE International Conference on Networks, 325-330 [18] Yu-Chun Lin, Hung-Wei Tseng, Chiou-Shann Fuh (2003) Pornography Detection Using Support Vector Machine 16th IPPR Conference on Computer Vision, Graphics and Image Processing (CVGIP 2003) [19] Mohamed N Moustafa Applying deep learning to classify pornographic images and videos [20] https://machinelearningcoban.com 34 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 ... phân lớp văn bản) với độ xác trung bình 94%, chưa phân lớp hình ảnh Về phân lớp web chứa hình ảnh nội dung văn bản, theo [4], sử dụng thuật toán SVM để phân lớp văn hình ảnh Cụ thể, tác 2.2 Phân. .. hành phân loại hình ảnh vào hai lớp gồm lớp hình nude (hình ảnh đồi trụy từ nhiều châu lục khác nhau) lớp hình ảnh khơng nude (hình ảnh khơng chứa nội dung đồi trụy bao gồm hình ảnh chủ đề khác... vị trí vịng ảnh đầu vào B= 2.2.6 Phát khuôn mặt 2.2.4 Phân lớp hình ảnh nude Hình ảnh đồi trụy (nude) thường hình ảnh có tỉ lệ phát “màu da” lớn so với hình ảnh bình thường (hình ảnh thuộc lớp