Bài viết đề xuất phương pháp phân lớp ảnh kết hợp các bộ phân lớp dựa trên đặc trưng ảnh và đặc trưng văn bản ở bộ phân lớp thứ ba sử dụng giải thuật hồi quy logistic. Đặc trưng văn bản sẽ được xây dựng dựa trên các văn bản đi kèm với ảnh, các bức ảnh này là ảnh láng giềng gần nhất với ảnh đầu vào trong tập ảnh chuẩn.
Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI Nghiên cứu ứng dụng Công nghệ thơng tin (FAIR); Hà Nội, ngày 09-10/8/2018 DOI: 10.15625/vap.2018.00022 ĐĨNG GĨP CỦA ĐẶC TRƯNG VĂN BẢN TRONG BÀI TỐN PHÂN LỚP ẢNH Hà Thị Phương Anh1, Phạm Thế Phi2, Đỗ Thanh Nghị2 Khoa Công nghệ thông tin, Trường Đại học Bạc Liêu Khoa Công nghệ thông tin & Truyền thông, Trường Đại học Cần Thơ htpanh52@gmail.com, ptphi@cit.ctu.edu.vn, dtnghi@cit.ctu.edu.vn TĨM TẮT: Trong viết này, chúng tơi đề xuất phương pháp phân lớp ảnh kết hợp phân lớp dựa đặc trưng ảnh đặc trưng văn phân lớp thứ ba sử dụng giải thuật hồi quy logistic Đặc trưng văn xây dựng dựa văn kèm với ảnh, ảnh ảnh láng giềng gần với ảnh đầu vào tập ảnh chuẩn Các đặc trưng ảnh trích chọn với phương pháp khác để xác định phương pháp phù hợp Kết thực nghiệm tập liệu hình ảnh di sản văn hóa phi vật thể cho thấy phương pháp đề xuất cải thiện hiệu phân lớp ảnh, đặc biệt đặc trưng ảnh tốt lớp có số lượng ảnh tương đối khơng bị nhiễu Từ khóa: Phân lớp ảnh, đặc trưng ảnh, đặc trưng văn bản, hồi quy logistic I GIỚI THIỆU Một nhiệm vụ quan trọng lĩnh vực thị giác máy tính phân lớp đối tượng Phân lớp đối tượng nhiệm vụ dễ dàng cho người lại vấn đề phức tạp máy học, đặc biệt phân lớp đối tượng ảnh Hiện nay, có nhiều nghiên cứu lĩnh vực nhận dạng phân lớp ảnh nghiên cứu Torralba [2] nhận dạng đối tượng ảnh có kích thước nhỏ 32x32 pixels dùng phương pháp trích đặc trưng SIFT; nghiên cứu Đỗ Thanh Nghị [4] phân lớp ảnh với giải thuật giảm gradient ngẫu nhiên đa lớp dựa vào phương pháp biểu diễn ảnh đặc trưng SIFT mơ hình túi từ Ngồi ra, cịn có nghiên cứu khác lĩnh vực [6, 7, 14, 16] sử dụng cách tiếp cận rút trích đặc trưng dựa phát điểm, màu sắc, kết cấu, tổ chức đồ Các nghiên cứu phần lớn tập trung vào trình phân lớp dựa vào đặc trưng cấp thấp màu sắc, kết cấu, SIFT, Nếu có hàng triệu ảnh tập huấn luyện đặc trưng có ý nghĩa, thực tế việc thu thập hàng triệu ảnh vấn đề vơ khó khăn tốn mặt chi phí, tập liệu khơng đủ lớn gây khó khăn vấn đề phân khúc đối tượng ảnh Trong tình khác, có sẵn số lượng tương đối ảnh gán nhãn, đồng thời có văn kèm với chúng, văn cung cấp cho thêm thơng tin để phân tích hình ảnh Khi đó, đặc trưng cấp thấp rút trích từ ảnh kết hợp với thơng tin văn kèm đủ làm đại diện biểu diễn cho ảnh Như vậy, văn kèm hỗ trợ cho việc phân lớp đối tượng ảnh xác dễ dàng [1, 15] Ý tưởng viết chúng tơi tiến hành xây dựng phân lớp ảnh dựa đặc trưng ảnh khác phân lớp văn dựa đặc trưng văn đại diện cho ảnh Trọng tâm xây dựng phân lớp thứ ba kết hợp giá trị tin cậy hai phân lớp sử dụng giải thuật hồi quy logistic (Hình 1) Kết thực nghiệm tập liệu di sản văn hóa phi vật thể cho thấy đặc trưng văn đưa vào mơ hình phân lớp kết hợp với phân lớp ảnh giúp cải thiện hiệu phân lớp Phần viết tổ chức sau: phần II trình bày tập liệu hình ảnh văn hóa phi vật thể, phần III trình bày phương pháp rút trích đặc trưng ảnh, phần IV trình bày phương pháp xây dựng đặc trưng văn bản, phần V giới thiệu giải thuật phân lớp, phần VI trình bày kết thực nghiệm, phần VII trình bày kết luận hướng phát triển Ảnh truy vấn Tập ảnh chuẩn Trích đặc trưng ảnh Trích lọc k ảnh láng giềng gần Các phân lớp ảnh Đặc trưng văn Các phân lớp văn Kết hợp phân lớp Nhãn Hình Quy trình phân lớp ảnh truy vấn sử dụng phân lớp kết hợp phân lớp ảnh phân lớp văn sử dụng giải thuật hồi quy logistic Hà Thị Phương Anh, Phạm Thế Phi, Đỗ Thanh Nghị 169 II CHUẨN BỊ TẬP DỮ LIỆU Tập liệu thực nghiệm sử dụng tập hình ảnh di sản văn hóa phi vật thể khu vực Đồng sông Cửu Long thu thập từ Internet, gồm 17 di sản (17 lớp) là: 1- Đờn ca tài tử Nam Bộ; 2- Nghệ thuật Chầm Riêng Chà pây người Khmer; 3- Nghề dệt chiếu; 4- Lễ hội Cúng biển Mỹ Long; 5- Nghệ thuật sân khấu Dù Kê người Khmer; 6- Lễ hội Ok Om Bok người Khmer; 7- Lễ hội miếu Bà Chúa Xứ Núi Sam; 8- Đại lễ Kỳ yên đình Tân Phước; 9- Lễ hội vía Bà Ngũ Hành; 10- Lễ làm chay; 11- Nghề đóng xuồng ghe Long Hậu; 12- Nghề dệt chiếu lác; 13Tục cúng việc lề; 14- Hội đua bò Bảy Núi; 15- Lễ hội Nghinh Ông; 16- Lễ hội Trương Định; 17- Văn hóa Chợ Cái Răng (xem Hình 2) Hình Hình ảnh minh họa 17 di sản văn hóa phi vật thể (17 lớp) Tập liệu ảnh thu thập từ trang Internet cách sử dụng công cụ thu thập liệu tự động Web Crawler, xử lý liệu thu thập cách đưa đầu vào để thu thập ảnh tên di sản Tập ảnh thu thập có ảnh văn mơ tả kèm, văn thích ảnh đó, văn có trung bình khoảng 10 từ Số lượng ảnh di sản không cố định tùy vào công cụ thu thập Vấn đề đặt tập ảnh thu thập phức tạp bị nhiễu Chúng tiến hành tính tốn độ tương đồng ảnh lớp chọn lọc lại tập ảnh chất lượng hơn, số lượng ảnh lớp khơng giống Ngồi ra, chúng tơi lọc từ tập ảnh thu thập lớp 50 ảnh có hình ảnh văn mơ tả kèm xác nhất, tập ảnh gọi tập ảnh chuẩn để xây dựng đặc trưng văn cho ảnh huấn luyện ảnh truy vấn, gồm có 820 ảnh Tập văn ảnh góp phần xây dựng đặc trưng văn hạn chế nhiễu, giúp cho đặc trưng văn có ý nghĩa III RÚT TRÍCH ĐẶC TRƯNG ẢNH Chúng sử dụng đặc trưng ảnh khác để tìm ảnh láng giềng huấn luyện mơ hình phân lớp 3.1 Đặc trưng màu sắc Color Lược đồ màu ảnh đại diện cho phân bố thành phần màu sắc hình ảnh [8] Để trích đặc trưng màu sắc, ảnh tiền xử lý rời rạc hóa điểm ảnh Mỗi điểm ảnh nhận giá trị từ đến 512 phân vào bin tương ứng Mỗi ảnh đầu vào, sau trích đặc trưng màu sắc, thu véctơ đặc trưng kết hợp ba kênh màu Red, Green, Blue (RGB) Vậy ảnh biểu diễn dạng véctơ có 8*8*8=512 chiều 3.2 Đặc trưng mơ tả tồn cục GIST Để trích đặc trưng mơ tả tồn cục GIST [10], ảnh tiền xử lý đưa dạng lưới 4x4 tổ chức đồ với hướng, biểu đồ theo hướng rút trích tương ứng Nguyên lý trích đặc trưng dựa vào phép biến đổi Gabor theo hướng tần số khác Đặc trưng mô tả biểu diễn dạng véctơ tính toán từ kết việc áp dụng lọc Gabor lên ảnh Mỗi ảnh sau trích đặc trưng GIST, thu mô tả 960 chiều 3.3 Đặc trưng HOG Lược đồ gradient tính tốn dựa thông tin hướng cường độ biến thiên màu/mức xám vùng ảnh [9] Ảnh đầu vào tiền xử lý sau chuẩn hóa Gamma Colour Chia ảnh đầu vào thành 4x4 bin với kích thước tổ chức đồ 8x8 Sau chia không gian hướng biến thiên Gradient thành 4x4 bin Giá trị bin định lượng tổng cường độ biến thiên pixel thuộc bin Cuối tính véctơ đặc trưng cho ảnh, cửa sổ thiết lập khối Như ảnh sau trích đặc trưng HOG, thu véctơ 256 chiều ĐÓNG GÓP CỦA ĐẶC TRƯNG VĂN BẢN TRONG BÀI TOÁN PHÂN LỚP ẢNH 170 3.4 Đặc trưng cục bất biến SIFT Đặc trưng SIFT ảnh giới thiệu David G Lowe [3] đặc trưng bất biến với việc thay đổi tỉ lệ ảnh, quay ảnh, đơi thay đổi điểm nhìn thêm nhiễu ảnh hay thay đổi cường độ chiếu sáng ảnh Để trích đặc trưng SIFT, với ảnh, tìm điểm đặc trưng biểu diễn dạng véctơ 128 chiều Sau dùng giải thuật k-Means để tiến hành gom cụm điểm đặc trưng thành 2048 cụm Như ảnh biểu diễn véctơ đặc trưng SIFT 2048 chiều IV TRÍCH ĐẶC TRƯNG VĂN BẢN Để rút trích đặc trưng văn cho ảnh, xây dựng tập liệu chuẩn để chọn ảnh văn chuẩn Mỗi ảnh tập liệu chuẩn có kèm theo đoạn mơ tả ảnh Chúng tơi tiến hành phân tích từ vựng tách từ nội dung tập văn sử dụng phương pháp tách từ Bigram, sau sử dụng mơ hình túi từ để biểu diễn cho đặc trưng văn [12] Đặc trưng văn ảnh huấn luyện ảnh truy vấn véctơ tần suất xuất từ văn đó, xây dựng dựa văn ảnh láng giềng gần với ảnh đầu vào tập ảnh chuẩn Quy trình tóm tắt sau: - Mỗi ảnh đầu vào rút trích đặc trưng ảnh tính độ tương đồng với ảnh tập ảnh chuẩn - Từ tìm 50 ảnh láng giềng có độ tương đồng cao với ảnh đầu vào (xem Hình 3) - Dựa véc tơ đặc trưng văn ảnh láng giềng vừa tìm để xây dựng đặc trưng văn cho ảnh đầu vào, đặc trưng chuẩn hóa Như véc tơ đặc trưng văn ảnh huấn luyện dùng để xây dựng mơ hình véctơ đặc trưng văn ảnh truy vấn để tiến hành phân lớp Ảnh 1: Chợ Cái Răng Ảnh 2: Hội đua bị Bảy Núi Hình Ảnh đầu vào ảnh láng giềng gần tập ảnh chuẩn V PHÂN LỚP ẢNH 5.1 Giải thuật máy học véctơ hỗ trợ Trong viết này, sử dụng giải thuật máy học véctơ hỗ trợ SVM đa lớp với phương pháp - tất [13] để xây dựng mơ hình phân lớp Đồng thời, để giải thuật phân lớp SVM đạt kết tốt, sử dụng hàm nhân Radial Basis Function (RBF): K(u, v)=exp(-γ‖u-v‖2) với γ tham số hàm nhân Hà Thị Phương Anh, Phạm Thế Phi, Đỗ Thanh Nghị 171 5.2 Bộ phân lớp kết hợp với giải thuật hồi quy logistic Trước tiên xây dựng đặc trưng cho tập ảnh huấn luyện: đặc trưng ảnh đặc trưng văn Mỗi ảnh đầu vào rút trích đặc trưng ảnh đặc trưng văn phương pháp trình bày phần IV Vấn đề đặt xác định hai đặc trưng tương tác với hay không, kết phân lớp ảnh dựa đặc trưng có định cho kết phân lớp ảnh từ đặc trưng cịn lại Vì thế, chúng tơi đưa phương pháp xây dựng phân lớp ảnh phân lớp văn riêng biệt với Khi ảnh đầu vào tập liệu kiểm chứng đưa vào hai phân lớp này, kết thu giá trị tin cậy ảnh thuộc 17 lớp hai phân lớp Mỗi ảnh sau thu véctơ đặc trưng phương pháp nội suy theo công thức véctơ X = [ *(giá trị tin cậy ảnh dựa phân lớp ảnh)] ghép với [(1 - )*(giá trị tin cậy ảnh dựa phân lớp văn bản)] Khi phân lớp thứ ba kết hợp hai phân lớp ảnh văn sử dụng giải thuật hồi quy logistic [11] tập giá trị thu tập liệu kiểm chứng làm liệu huấn luyện VI KẾT QUẢ THỰC NGHIỆM Để tiến hành đánh giá hiệu phương pháp đề xuất, sử dụng độ xác trung bình (Average Precision - AP) Tất thực nghiệm thực máy tính cá nhân (CPU Core i5 2.2GHz RAM 4GB) chạy hệ điều hành Windows 8.1 Bảng Thống kê số lượng ảnh thực nghiệm Số ảnh huấn luyện (60 %) 5.551 Lớp Số ảnh Lớp Số ảnh 1.065 10 552 Số ảnh điều chỉnh tham số (20 %) 1.841 148 11 599 464 12 29 745 13 491 Số ảnh kiểm tra (20 %) 1.849 571 14 691 539 15 587 Số ảnh tập chuẩn 820 715 16 48 270 17 1.053 674 Tổng 9.241 Tập liệu thực nghiệm tập di sản văn hóa phi vật thể khu vực Đồng sông Cửu Long gồm 9.241 ảnh thuộc 17 lớp Chúng tiến hành phân chia tập liệu sau: Chọn ngẫu nhiên từ 17 lớp, lớp theo tỷ lệ 60 % số ảnh dùng để huấn luyện xây dựng mô hình, 20 % số ảnh thực nghiệm điều chỉnh tham số 20 % số ảnh làm tập kiểm tra mơ hình huấn luyện xây dựng (Bảng 1) Bên cạnh đó, tập ảnh thu thập được, chọn từ lớp ảnh có ảnh văn mơ tả xác thuộc lớp để xây dựng tập liệu chuẩn, tập gồm 820 ảnh Kết thu tập liệu kiểm tra trình bày bảng 2, với cột từ đến 17 đại diện cho 17 di sản văn hóa phi vật thể giới thiệu phần II, dịng độ xác trung bình phân lớp ảnh sử dụng phương pháp rút trích đặc trưng ảnh khác với giải thuật k láng giềng gần (kNN [5]), máy học véctơ hỗ trợ (SVM [13]) hồi quy logistic (LR [11]) Dựa kết thực nghiệm bảng 2, rút kết luận sau: - Kết phân lớp sử dụng giải thuật SVM dựa phân lớp ảnh cho kết tốt giải thuật kNN dựa phân lớp ảnh, thể dòng dòng bảng - Kết thực nghiệm cho thấy đặc trưng văn phụ thuộc nhiều vào đặc trưng ảnh, đặc trưng cho kết phân lớp dựa đặc trưng ảnh cao kết phân lớp dựa đặc trưng văn cao (như GIST, Color) đặc trưng cho kết phân lớp dựa đặc trưng ảnh thấp kéo theo kết phân lớp dựa đặc trưng văn thấp Vì đặc trưng tốt GIST Color giúp tìm ảnh láng giềng gần với ảnh truy vấn tập ảnh chuẩn tốt đặc trưng lại, giúp cho việc xây dựng đặc trưng văn có ý nghĩa Bảng Kết thực nghiệm phân lớp ảnh COLOR KNN SVM IMG2 SVM TEXT LR I+T GIST 3 0,3234 0,1302 0,3663 0,2901 0,1105 0,1061 0,2099 0,0423 0,2082 0,3465 0,2042 0,2364 0,3547 0,1374 0,2823 0,1998 0,0932 0,2857 0,2489 0,2750 0,4940 0,2554 0,1481 0,2574 0,1086 0,0893 0,0521 0,5127 0,0958 0,2472 0,4490 0,1600 0,2952 0,1851 0,0435 0,1984 ĐÓNG GÓP CỦA ĐẶC TRƯNG VĂN BẢN TRONG BÀI TOÁN PHÂN LỚP ẢNH 172 KNN1 0,4499 0,1082 0,0933 0,4140 0,2249 0,1877 0,2225 0,2752 0,2768 0,1720 0,2317 0,6158 0,1971 0,3448 0,1849 0,1518 0,2696 0,4430 0,0958 0,4640 0,1112 0,0848 0,1916 0,0915 0,0770 0,1886 0,4533 0,0958 0,2084 0,6418 0,2310 0,2505 0,2343 0,1542 0,3959 0,0526 0,1509 0,2189 0,1323 0,2406 0,1400 0,1611 0,1453 0,4122 0,1827 0,1309 0,1512 0,2315 0,1403 0,3079 0,0808 0,1049 0,0667 0,1601 0,3409 0,1377 0,3300 0,1036 0,0217 0,0684 0,4220 0,1250 0,3442 0,0648 0,2211 0,1404 0,0435 0,1675 0,9460 0 0,0762 0,0806 0,0476 0,0323 0,1939 0,2698 0,1392 0,1220 0,4156 0,0886 0,0517 0,5421 0,0733 0,0505 0,0373 0,1272 0,0535 0,6429 0,5488 0,1392 0,1245 0,1220 0,3725 0,0599 0,1125 IMG 0,4608 0,1056 0,1876 0,5958 0,2075 0,3061 0,2375 0,0711 0,2576 TEXT 0,4792 0,0958 0,1526 0,3266 0,1195 0,2543 0,1296 0,1309 I+T 0,4432 0,1158 0,2089 0,6097 0,2143 0,3074 0,2817 0,1000 0,2580 COLOR 10 11 12 13 14 15 16 17 MAPi 0,1214 0,2361 0,1667 0,0172 0,3667 0,1029 0,3162 0,1832 0,2074 0,2655 0,3333 0,0731 0,5237 0,1914 0,3193 0,2385 0,0716 0,2520 0,0970 0,2563 0,1961 0,1542 0,1739 0,1105 0,2858 0,0972 0,5341 0,1695 0,3722 0,2210 0,0987 0,0320 0,1211 0,4731 0,0908 0,3712 0,1860 0,0931 0,3301 0,3333 0,0912 0,5517 0,1595 0,3414 0,2556 0,0414 0,3231 0 0,3086 0,0596 0,1450 0,1544 0,1140 0,3495 0,0472 0,5555 0,1166 0,3996 0,2266 0,0625 0,3483 0,3333 0,2909 0,1302 0,3375 0,1762 0,1804 0,2656 0 0,3494 0,2078 0,1785 0,1744 0,0885 0,2903 0,5371 0,3331 0,0894 0,1454 0,1658 0,0273 0,3510 0,0313 0,3979 0,1850 0,3822 0,1708 0,5926 0 0 0,0505 0,1074 0,5087 0 0,4519 0,0711 0,0645 0,1565 0 0,2977 0,1394 0 0,0209 0,1168 0,0273 0,3521 0 0,1655 0,0660 0,4711 0,1507 IMG 0,1125 0,3495 0 0,5751 0,2087 0,4576 0,2431 TEXT 0,0498 0,2114 0 0,3802 0,1345 0,3042 0,1629 I+T 0,1217 0,3374 0,1227 0,5528 0,1306 0,4690 0,2514 SVM IMG2 SVM TEXT LR I+T HOG KNN1 SVM IMG SVM TEXT LR I+T SIFT KNN1 SVM IMG SVM TEXT3 LR I+T Combine KNN1 SVM IMG SVM TEXT LR I+T GIST KNN1 SVM IMG SVM TEXT3 LR I+T HOG KNN1 SVM IMG SVM TEXT LR I+T SIFT KNN1 SVM IMG SVM TEXT LR I+T4 Combine Hà Thị Phương Anh, Phạm Thế Phi, Đỗ Thanh Nghị 173 Kết phân lớp sử dụng giải thuật KNN; Kết phân lớp sử dụng giải thuật SVM để phân lớp ảnh dựa đặc trưng ảnh; Kết phân lớp sử dụng giải thuật SVM để phân lớp ảnh dựa đặc trưng văn bản; Kết phân lớp kết hợp phân lớp ảnh văn sử dụng giải thuật hồi quy logistic; Kết phân lớp kết hợp tất phân lớp ảnh văn tất đặc trưng ảnh Ảnh Ảnh Bộ phân lớp văn Nhãn Bộ phân lớp ảnh Nhãn Bộ phân lớp ảnh Nhãn 15 Bộ phân lớp văn Nhãn 17 Bộ phân lớp thứ ba Nhãn 17 (Chợ Cái Răng) Bộ phân lớp thứ ba Nhãn (Đờn ca tài tử) Lớp Hình Ví dụ minh họa phân lớp ảnh kết hợp phân lớp ảnh văn Ảnh truy vấn 1, phân lớp ảnh cho kết phân lớp văn cho kết sai kết hợp phân lớp thứ ba cho kết Ảnh truy vấn ngược lại với ảnh truy vấn avg 17 16 15 14 13 12 11 10 I+T TEXT IMG 0.1 0.2 0.3 0.4 0.5 AP Hình Biểu đồ so sánh phương pháp phân lớp ảnh 0.6 0.7 ĐÓNG GÓP CỦA ĐẶC TRƯNG VĂN BẢN TRONG BÀI TOÁN PHÂN LỚP ẢNH 174 Bảng Kết số ảnh phân lớp dựa phân lớp ảnh phân lớp văn COLOR 213 30 Ảnh (T) 36 30 28 12 17 15 8 29 19 34 65 25 10 23 24 19 19 20 57 19 63 10 11 12 13 14 15 16 17 94 40 13 15 12 19 0 37 31 61 14 62 13 26 20 20 12 25 64 17 60 10 11 12 13 14 15 16 17 17 14 41 13 28 12 47 34 10 26 32 15 12 16 16 18 15 13 22 0 36 19 32 10 11 12 13 14 15 16 17 101 2 11 15 0 0 37 0 38 11 30 0 60 11 Ảnh kiểm tra Ảnh (I) GIST Ảnh (T) Ảnh (I) HOG Ảnh (T) Ảnh (I) SIFT Ảnh (T) Ảnh (I) 93 149 114 108 143 o Số ảnh kiểm tra lớp (20 % số ảnh huấn luyện); Số ảnh phân lớp dựa phân lớp ảnh; Số ảnh phân lớp dựa phân lớp văn 10 11 12 54 135 110 120 13 14 15 98 138 117 16 17 10 211 0.3 0.2 0.1 Color Gist Hog Sift KNN SVM_IMG Combine Hình So sánh phương pháp trích đặc trưng ảnh - Kết phân lớp kết hợp hai phân lớp ảnh văn với cho kết cải thiện so với dùng hai phân lớp phần lớp lớp, có trường hợp phân lớp ảnh dựa đặc trưng ảnh phân lớp dựa đặc trưng văn sai ngược lại, nên kết hợp hai phân lớp lại kết cải thiện (Hình Hình 5) - Một số lớp không cải thiện kết phân lớp ảnh hưởng đặc trưng ảnh, đặc trưng Color GIST có kết phân lớp tốt nên việc kết hợp hai phân lớp lại với cải thiện hiệu phân lớp, cịn đặc trưng HOG SIFT khơng mang lại kết phân lớp tốt nên việc kết hợp lại khơng có hiệu - Bên cạnh đó, chọn ảnh kiểm tra 20 % số ảnh huấn luyện lớp để thực nghiệm có số lớp, số ảnh phân lớp dựa văn dựa ảnh thấp, kéo theo kết kết hợp lại cải thiện (Bảng 3) - Kết thực nghiệm cho thấy kết hợp tất đặc trưng ảnh lại với cho kết tốt (biểu đồ Hình 6) Vì đặc trưng ảnh thu vừa mang tính tồn cục, vừa mang tính cục bộ, giúp cho việc rút trích đặc trưng ảnh tốt - Ngồi ra, q trình thu thập liệu trích lọc lại ảnh lớp, có số lớp có số ảnh thu thập có ngưỡng tương đồng tin cậy khơng cao, ảnh thu bị nhiễu nên kết phân lớp thấp (như lớp 8, 12, 16) Những lớp di sản văn hóa phi vật thể Đại lễ Kỳ yên đình Tân Phước Tây, Nghề dệt chiếu lác, Lễ hội Trương Định người biết đến tìm kiếm Internet nên hình ảnh thu khơng phong phú; di sản Đờn ca tài tử Nam Bộ, Lễ hội miếu Bà Chúa Xứ Núi Sam, Hội đua bị Bảy Núi, Văn hóa Chợ Cái Răng,… di sản nhiều người biết đến quan tâm nên số lượng ảnh thu thập phong phú ảnh xác Do đó, kết phân lớp ảnh kết hợp lại bị ảnh hưởng trường hợp VII KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Chúng tơi vừa trình bày phương pháp phân lớp ảnh kết hợp phân lớp dựa đặc trưng ảnh đặc trưng văn sử dụng giải thuật hồi quy logistic Kết thực nghiệm cho thấy phương pháp đề xuất cải thiện kết Hà Thị Phương Anh, Phạm Thế Phi, Đỗ Thanh Nghị 175 phân lớp Kết thể đặc trưng cho kết tốt kết hợp lại cải thiện, cịn đặc trưng cho kết thấp kết hợp lại khơng cải thiện Ngồi tập ảnh văn thu thập bị nhiễu nên kết phân lớp dựa đặc trưng văn thấp, làm ảnh hưởng đến kết kết hợp phân lớp lại với Trong tương lai gần, để cải tiến hiệu phân lớp ảnh chúng tơi tập trung vào chuẩn hóa tập liệu huấn luyện đặc trưng văn kèm cho ảnh, phân tích ngữ nghĩa nội dung văn kèm, xác định từ đồng nghĩa gom nhóm lại để phân lớp ảnh dựa văn xác VIII TÀI LIỆU THAM KHẢO [1] A Quattoni, M Collins and T Darrell Learning visual representations using images with captions In CVPR, 2007 [2] A Torralba, R Fergus and W T Freeman Tiny images, Technical Report MIT-CSAIL-TR-2007-024 Computer Science and Artificial Intelligence Lab, Massachusetts Institute of Technology, 2007 [3] David G Lowe Distinctive image features from scale-invariant keypoints International Journal of Computer Vision, 60(2): 91-110, 2004 [4] Đỗ Thanh Nghị Phạm Nguyên Khang Phân lớp ảnh với giải thuật giảm gradient ngẫu nhiên đa lớp Tạp chí Khoa học Trường Đại học Cần Thơ, 29: 1-7, 2013a [5] Fix E and Hodges J Discriminatoiry Analysis: Small Sample Performance Technical Report 21-49-004, USAF School of Aviation Medicine, Randolph Field, USA, 1952 [6] J Hays and A A Efros IM2GPS: Estimating geographic information from a single image Proceedings of the IEEE Conf on Computer Vision and Pattern Recognition (CVPR), pp 1-8, 2008 [7] Kamarudin N S., Makhtar M., Fadzli S A., Mohamad M., Mohamad F S and Kadir M F A Comparison of Image Classification Techniques using Caltech 101 Dataset Journal of Theoretical and Applied Information Technology, 71(1):79-86, 2015 [8] M J Swain and D H Ballard Color indexing International Journal of Computer Vision, vol 7, no 1, pp 11-32, 1991 [9] N Dalal and B Triggs Histograms of Oriented Gradients for Human Detection In CVPR, pp 886-893, 2005 [10] Oliva and A Torralba Modeling the shape of the scene: a holistic representation of the spatial envelope IJCV, 42(3): 145-175, 2001 [11] Peng J., Lee K L and Ingersoll G M An Introduction to Logistic Regression Analysis and Reporting In The Journal of Educational Research, 96(1):3-14, 2002 [12] Phạm Nguyên Khang, Trần Nguyễn Minh Thư, Phạm Thế Phi, Đỗ Thanh Nghị Sự ảnh hưởng Phương pháp tách từ toán phân lớp văn tiếng Việt Kỷ yếu Hội thảo FAIR’9, pp 668-677, 2016 [13] Vapnik V The Nature of Statistical Learning Theory Springer-Verlag, NewYork 314 pp, 1995 [14] Viola P A., Jones M J Rapid object detection using a boosted cascade of simple features In IEEE Conference on Computer Vision and Pattern Recognition, pp 511-518, 2001 [15] Wang G., Hoiem D and Forsyth D Building text features for object image classification In CVPR, pp 13671374, 2009 [16] Zheng H and Daoudi M Blocking adult images based on statistical skin detection Electronic Letters on Computer Vision and Image Analysis, 4(2):1-1, 2004 CONTRIBUTION OF TEXT FEATURES IN IMAGE CLASSIFICATION ABSTRACT: In this paper, we introduce a new image classification approach, combine separate text classifiers and image classifiers in a third classifier, which uses logistic regression algorithm Text features are extracted from texts associated with images, which are nearest neighbor images in standard dataset Visual features are extracted by types of features to determine a best feature The numerical test result on a intangible cultural heritage dataset showed that our approach improves the performance in image classification with the good visual features and the training dataset is not too small and noisy Keywords: Image Classification, Visual feature, Text feature, Logistic Regression i MAP: Độ xác trung bình tất lớp ... so sánh phương pháp phân lớp ảnh 0.6 0.7 ĐÓNG GÓP CỦA ĐẶC TRƯNG VĂN BẢN TRONG BÀI TOÁN PHÂN LỚP ẢNH 174 Bảng Kết số ảnh phân lớp dựa phân lớp ảnh phân lớp văn COLOR 213 30 Ảnh (T) 36 30 28 12... kết hợp phân lớp ảnh văn sử dụng giải thuật hồi quy logistic; Kết phân lớp kết hợp tất phân lớp ảnh văn tất đặc trưng ảnh Ảnh Ảnh Bộ phân lớp văn Nhãn Bộ phân lớp ảnh Nhãn Bộ phân lớp ảnh Nhãn... vào đặc trưng ảnh, đặc trưng cho kết phân lớp dựa đặc trưng ảnh cao kết phân lớp dựa đặc trưng văn cao (như GIST, Color) đặc trưng cho kết phân lớp dựa đặc trưng ảnh thấp kéo theo kết phân lớp