Bài viết trình bày một phương pháp tìm kiếm sản phẩm thông qua ảnh sử dụng thuật toán học sâu và kỹ thuật so sánh ảnh tương tự trên tập dữ liệu tự thu thập từ Internet.
Dương Trần Đức TÌM KIẾM SẢN PHẨM THEO ẢNH BẰNG HỌC SÂU Dương Trần Đức Học viện Công nghệ Bưu Viễn thơng Tóm tắt: Tìm kiếm thơng tin nhu cầu cần thiết người Trước kia, hình thức tìm kiếm chủ đạo tìm kiếm từ khóa, với ưu điểm đơn giản dễ dùng, nhiên lại không đủ khả để diễn tả toàn ý muốn người Trong năm gần đây, nhận biết nhược điểm trên, với phát triển khoa học cơng nghệ, việc tìm kiếm ảnh bắt đầu nghiên cứu áp dụng Bài báo trình bày phương pháp tìm kiếm sản phẩm thơng qua ảnh sử dụng thuật toán học sâu kỹ thuật so sánh ảnh tương tự tập liệu tự thu thập từ Internet Các kết qủa cho thấy phương pháp có tiềm ứng dụng thực tế Từ khóa: tìm kiếm ảnh, nhận dạng ảnh, học sâu, mạng nơ ron tích chập I MỞ ĐẦU Trong hệ thống thương mại điện tử (TMĐT), chức tìm kiếm chức quan trọng, giúp cho hệ thống giới thiệu sản phẩm, hàng hố đến người dùng cách xác Các hệ thống TMĐT truyền thống thường cung cấp chức tìm kiếm theo từ khố, dựa mơ tả văn sản phẩm cần tìm Phương pháp tìm kiếm nhiều trường hợp gây khó khăn đạt hiệu khơng cao, nhiều loại sản phẩm, hàng hố khó mô tả hết đặc điểm cách sử dụng văn Khi đó, tìm kiếm hình ảnh chức hữu hiệu, giúp cho người dùng dễ dàng việc mô tả đặc điểm sản phẩm muốn tìm Một hình ảnh chứa đựng nhiều thơng tin mơ tả ẩn, khó nhanh chóng mơ tả văn Ngồi ra, cịn giúp ích số trường hợp, người dùng biết hình ảnh sản phẩm mà khơng biết cách mơ tả xác văn Kỹ thuật tìm kiếm hình ảnh khơng phổ biến trước phức tạp xử lí với khối lượng tính tốn, việc yêu cầu người dùng phải có thiết bị chụp lưu trữ ảnh dễ dàng thực thao tác tìm kiếm Trong năm gần đây, phát triển nhanh chóng mạnh mẽ phần cứng máy tính, với đời thuật tốn xử lí ảnh cơng nghệ trí tuệ nhân tạo, mạng học sâu v.v, việc xử lí tốn tìm kiếm ảnh trở nên khả thi, chứng tỏ hiệu so với tìm kiếm từ khóa thơng thường Các máy tìm kiếm phổ biển số hệ thống lớn Google, Bing (Microsoft), Amazon, Pinterest v.v triển khai áp dụng hệ thống tìm kiếm hình ảnh, đạt nhiều thành cơng Ngồi ra, thiết bị di động tích hợp camera điện thoại, máy tính bảng trở nên phổ biến, việc thực tìm kiếm ảnh người dùng trở nên dễ dàng, điều khiến cho tìm kiếm ảnh ngày sử dụng rộng rãi Bài báo đề xuất phương pháp tìm kiếm sản phẩm ảnh sử dụng thuật tốn học sâu, người dùng cung cấp hình ảnh hệ thống trả danh sách ảnh với mức độ tương tự xếp từ cao xuống thấp Cơng việc việc nhận diện ảnh người dùng cung cấp thuộc thể loại độ tương tự với ảnh thuộc thể loại Việc phân loại ảnh người dùng thực dựa mạng nơ ron tích chập (Convolution Neural Networks - CNN) việc tính tốn độ tương tự ảnh thực dựa kỹ thuật tìm “láng giềng gần nhất” (Nearest-Neighbors) để trả danh sách ảnh sản phầm có độ tương tự cao với ảnh đầu vào Bài báo có cấu trúc sau Phần II trình bày nghiên cứu liên quan lĩnh vực phân loại tìm kiếm ảnh học sâu Phần III mô tả phương pháp Phần IV trình bày kết thảo luận Cuối cùng, kết luận trình bày phần V báo II TỔNG QUAN A Mô hình so sánh độ tương đồng hình ảnh Ban đầu, mơ hình tìm kiếm hình ảnh thường tìm kiếm tương đồng theo nhãn (category) Hai ảnh đánh giá tương đồng chúng có nhãn, ví dụ ảnh hoa, ảnh người, v.v Tuy nhiên, mức độ tương đồng chưa đủ ứng dụng cấp cao Các tốn sau cần tìm kiếm tương đồng mức độ lớn, chi tiết hơn, kể hai ảnh có nhãn, nhằm nhận diện khác dù nhỏ Một phương pháp xây dựng giống hình ảnh sử dụng thuật tốn trích xuất đặc trưng (feature) ảnh lọc SIFT (Scale-Invariant Feature Transform) [14], HOG (Histogram of Oriented Gradient) [6], sử dụng đặc trưng để tính tốn tương đồng hai ảnh Phương pháp sử dụng nghiên cứu [3, 4] Tuy nhiên, mơ hình bị giới hạn khối lượng tính lớn Trong năm gần Tác giả liên hệ: Dương Trần Đức Email: duongtranduc@gmail.com Đến tòa soạn: 5/2020, chỉnh sửa: 6/2020, chấp nhận đăng: 7/2020 SỐ 02 (CS.01) 2020 TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 47 XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ VĂN BẢN TIẾNG VIỆT BẰNG HỌC SÂU đây, mơ hình mạng nơ ron tích chập (CNN) sử dụng phổ biến cho việc nhận dạng phân loại hình ảnh đem lại cách tiếp cận cho việc tính tốn độ tương đồng hình ảnh [12, 15] Các mơ hình học sâu, đặc biệt CNN, có khả tìm đặc trưng từ bậc thấp bậc cao với độ xác ổn định, điều giúp nhiều việc trích xuất đặc trưng ảnh để phục vụ trình so sánh Các lớp CNN biểu thị hình ảnh theo mức độ trừu tượng khác Lớp cuối làm véc tơ đại diện cho ảnh, dùng để làm đặc trưng tính tốn độ tương đồng hình ảnh Để so sánh độ tương đồng hình ảnh từ vec tơ đặc trưng thu được, sử dụng phép đo khoảng cách Một số phép đo thông dụng bao gồm L1-norm (khoảng cách Manhattan), L2-norm (khoảng cách Euclid), hay độ tương đồng Cosine (cosine similarity) Cần ý rằng, khoảng cách độ tương đồng tỉ lệ nghịch với nhau, khoảng cách lớn độ tương đồng nhỏ ngược lại Với vector x, y độ dài m, khoảng cách Manhattan tính sau: 𝑙1 = ∑𝑚 𝑖=1|𝑥𝑖 − 𝑦𝑖 | (1) Công thức cho khoảng cách: 𝑙2 = √∑𝑚 𝑖=1(𝑥𝑖 − 𝑦𝑖 ) (2) 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 = ∑𝑚 𝑚 𝑖=1(𝑥𝑖 ) ∑𝑖=1(𝑦𝑖 ) (3) Để làm tăng độ xác việc tìm kiếm ảnh thơng qua tính tốn độ tương đồng trên, áp dụng bước phân loại ảnh trước, sau tiến hành tính tốn độ tương đồng ảnh có nhãn (loại) với ảnh tìm kiếm Các ảnh khơng nhãn tính tốn độ tương đồng, nằm phần sau kết tìm kiếm Một phương pháp khác sử dụng để tính tốn độ tương đồng hình ảnh dụng mạng ba (triplet networks) [13, 16] Phương pháp sử dụng đầu vào gồm thành phần ảnh đầu vào (anchor), ảnh dương (positive) giống ảnh đầu vào, ảnh âm (negative) khác với ảnh đầu vào Các mạng loại có chức đặc biệt dùng để tính tốn độ tương đồng hình ảnh gán nhãn phân loại ảnh mạng CNN khác Bộ ba ảnh đầu vào đưa vào ba mạng riêng biệt (có trọng số chia sẻ), tạo đặc trưng ảnh lớp cuối mạng Sau đó, chuỗi so sánh độ tương đồng dựa thuật tốn nêu Mạng có nhiệm vụ sinh đặc trưng cho khoảng cách ảnh đầu vào tới ảnh dương phải lớn khoảng cách tới ảnh âm Ưu điểm phương pháp tạo đặc trưng thể nhiều đặc tính ảnh hơn, q trình chuẩn bị liệu tốn nhiều cơng sức thời gian huấn luyện lâu Trong nghiên cứu này, sử dụng phương pháp thứ có ưu điểm thời gian phù hợp với hạn chế mặt chuẩn bị liệu huấn luyện B Tìm kiếm ảnh Vấn đề tìm kiếm sản phẩm theo ảnh quan tâm thực số nghiên cứu trước [1, 2, 11] SỐ 02 (CS.01) 2020 Vấn đề tìm kiếm ảnh quan tâm nghiên cứu áp dụng hệ thống máy tìm kiếm, mạng xã hội v.v Jing et al [8] phát triển hệ thống tìm kiếm theo ảnh có tính hiệu ổn định cao áp dụng cho mạng xã hội Pinterest Phương pháp có hiệu chi phí có lực biểu cảm hình ảnh khơng cao Các máy tìm kiếm Google hay Bing [9] nghiên cứu áp dụng tính tìm kiếm ảnh mạng nơ ron học sâu, phải cân đối độ xác tốc độ phản hồi Trong nghiên cứu này, chúng tơi thực tìm kiếm ảnh sản phẩm, có tính đặc thù so với hệ thống mạng xã hội hay máy tìm kiếm, có tính tổng qt nghiên cứu thực tập liệu ảnh sản phẩm thời trang III PHƯƠNG PHÁP Công thức cho khoảng cách Cosine: ∑𝑚 𝑖=1 𝑥𝑖 𝑦𝑖 Kiapour et al [11] thực nghiên cứu việc tìm sản phẩm tương tự trang TMĐT Các tác giả thực so sánh số phương pháp, bật phương pháp sử dụng mạng CNN hai lớp ẩn thực nghiệm tập liệu Exact Street2Shop Borras et al [1]đề xuất cách kết hợp đặc tính sản phẩm quần áo thời trang cấu trúc đồ hoạ nhằm xác định xem người mặc đồ từ hình ảnh thu được, nhiên độ xác đạt 64% Bossard et al [2] giải vấn đề liên quan đến nhận dạng tìm kiếm ảnh sản phẩm thời trang, nhiên kết đạt hạn chế độ xác Phương pháp tìm kiếm theo ảnh áp dụng báo bao gồm hai giai đoạn: phân loại ảnh so sánh độ tương đồng với ảnh loại để tìm ảnh có độ tương đồng cao Với ảnh đầu vào sản phẩm cung cấp, phân loại thành loại sản phẩm Sau đó, hình ảnh sản phẩm khác loại giống tính tốn trả kết tìm kiếm Phần trình bày phương pháp áp dụng để phân loại tìm kiếm ảnh tương đồng nói A Phân loại ảnh mạng nơ ron tích chập Mạng nơ ron tích chập (CNN) cho phân loại ảnh nhận đầu vào ảnh với chiều biểu diễn dài, rộng, sâu (chiều dài, rộng ảnh chiều sâu thể màu sắc ảnh) Mỗi lớp mạng CNN chuyển đổi khối 3D (ma trận chiều) thành khối 3D khác Có loại lớp để xây dựng nên mạng CNN, lớp tích chập (Convolution), lớp hợp (Pooling), lớp kết nối đầy đủ (Fully-Connected) Lớp tích chập (CONV) khối quan trọng mạng neuron tích chập, thực hầu hết khối lượng tính tốn mạng Nó dựa phép tích chập ma trận, phép tốn giúp giảm số lượng tính toán đáng kể so với lớp kết nối đầy đủ Với ma trận A có kích thước h x w x d, phép tính tích chập A với lọc (filter) kích cỡ fh x fw x d tạo đầu có kích thước (h – fh + 1) x (w – fw +1) x Để thực phép tính tích chập hồn chỉnh lớp CONV, ngồi tham số số lọc K, kích thước lọc F, cịn tham số khác kích thước bước nhảy lần dịch lọc S, kích thước lề P Các lớp hợp (POOL) thường xếp xen kẽ với lớp CONV cách đặn Lớp có chức làm giảm nhanh chóng kích thước khối liệu nhằm giảm số lượng hệ số khối lượng tính tốn tồn mạng, qua tránh vấn đề khớp Phép hợp TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 48 Dương Trần Đức đơn giản thường sử dụng lấy giá trị lớn vùng để đại diện cho vùng Một hàm MAX lọc kích thước 2x2 kích thước bước nhảy làm giảm 75% kích thước khối liệu đầu vào Ngồi phép lấy giá trị lớn phép hợp khác sử dụng lấy giá trị trung bình hàm chuẩn hố L2 Tuy nhiên, phép hợp lấy giá trị lớn sử dụng phổ biến tính hiệu thực tế Lớp kết nối đầy đủ (FC) lớp cuối mạng nơ ron tích chập, có đầy đủ kết nối tới nơ ron liền trước mạng nơ ron thơng thường Hàm kích hoạt chúng tính phép nhân ma trận với tham số độ lệch (bias) Dạng thông dụng mạng CNN bao gồm vài lớp CONV, tiếp sau lớp POOL, tiếp tục lặp lại chuỗi ảnh giảm tới kích thước đủ nhỏ Khi lớp cuối duỗi thẳng thành véc tơ dọc thêm vào lớp FC mạng nơ ron truyền thống Nhìn chung, mạng CNN tổng quát có dạng sau: INPUT -> [CONV*N->POOL]*M -> FC*K -> FC Trong N, M, K số lượng lớp CONV, POOL, FC Hình Kiến trúc mạng CNN [mathworks.com] Để thực huấn luyện cho mạng CNN, sử dụng tập liệu riêng thực huấn luyện mạng từ đầu, tối ưu tham số để mạng đạt kết phân loại tốt Phương pháp cần tập liệu lớn tài ngun tính tốn lớn, tỷ lệ với độ sâu mạng Đây phương án tốn phân loại nói chung sử dụng mạng nơ ron nói riêng: tự huấn luyện phân loại tối ưu tham số Tuy nhiên, mạng CNN cho phân loại ảnh, phương pháp không thật hiệu liệu đầu vào thường không chuẩn bị tốt Phương pháp tiếp cận khác sử dụng mạng CNN huấn luyện từ trước, tối ưu lại tham số tập liệu riêng theo phương pháp học chuyển giao (transfer learning) [10] Phương pháp cần thực khối lượng xử lý lớn, chấp nhận tập liệu huấn luyện nhỏ hơn, phần lớn khối lượng xử lý thực q trình huấn luyện mạng trước Khối lượng xử lý lại thực trình học chuyển giao tập liệu riêng Việc đánh giá độ xác mạng CNN đơn giản Sử dụng tập liệu kiểm tra, đánh giá mạng tạo kết qủa có độ xác nhờ số đo thơng thường độ đo xác (accuracy) Để đảm bảo tính khách quan đánh giá mạng, tập liệu kiểm tra trích ngẫu nhiên từ tập liệu ban đầu không dùng để huấn luyện mạng Qúa trình thu thập ảnh tương tự cần sử dụng mạng CNN Mục tiêu việc cho hình ảnh qua mạng CNN để phân loại mà để chuyển đổi hình ảnh đối tượng đại diện có kích thước số chiều nhỏ Tất ảnh phân loại với ảnh đầu vào cho qua mạng CNN để tạo véc tơ đại diện Xi Sau đó, véc tơ đại diện X’ ảnh đầu vào so sánh với véc tơ Xi thu phép đo độ tương đồng ảnh giống ảnh đầu vào trả làm kết tìm kiếm theo phương pháp “láng giềng gần nhất” (k-nearest neighbors) Điểm mấu chốt phương pháp cần tạo véc tơ đại diện phản ánh xác đẩy đủ đặc trưng ảnh độ đo đánh giá tương đồng tốt Độ đo tương đồng véc tơ sử dụng báo độ đo L2, có tính phổ biến đơn giản tính tốn Các véc tơ đại diện tạo thông qua mạng CNN trình bày phần trước, khơng phải để phân loại mà sử dụng tạo đặc trưng Theo đó, véc tơ đặc trưng lớp FC cuối sử dụng véc tơ đại diện cho ảnh Tất ảnh tập liệu cho qua mạng CNN để tạo véc tơ đại diện theo phương pháp Khi ảnh đầu vào tìm kiếm, véc tơ đại diện tạo theo phương pháp tương tự so sánh với tất véc tơ đại diện ảnh tập liệu Các ảnh có độ tương đồng cao (độ đo L2 thấp nhất) chọn làm kết tìm kiếm Việc đánh giá độ xác tác vụ thu thập ảnh tương tự khó khăn so với đánh giá độ xác tác vụ phân loại, thân khái niệm “tương tự” thực tế có tính tương đối Trong tốn phân loại, hình ảnh rõ ràng thuộc lớp hay lớp kia, làm cho việc đánh giá kết phân loại thực dễ dàng Tuy nhiên, việc đánh giá hình ảnh nhìn có “giống” hình ảnh khác khơng lại mang nhiều tính chủ quan, kết tìm kiếm hình ảnh liên quan đến việc đánh giá bề ngồi hình ảnh Do đó, việc đánh giá độ xác tác vụ thực qua thao tác lấy mẫu đánh giá mang tính chủ quan IV THỰC NGHIỆM VÀ KẾT QUẢ A Dữ liệu môi trường thực nghiệm Trong nghiên cứu này, sử dụng tập liệu tự thu thập từ trang ảnh thương mại điện tử phổ biến Pinterest, Mediamart, Hoà Phát,, Canifa v.v Các ảnh thu thập đa dạng nguồn nhằm tăng tính khách quan cho vấn đề phân loại tính tốn độ tương tự hình ảnh Tổng số 11.539 ảnh với 11 nhãn phân bố sau: Bảng Thống kê tập liệu thực nghiệm Nhãn Điều hoà Số lượng Nguồn ảnh 1.080 Pinterest, Mediamart Quần 679 Pinterest, Canifa.com Ghế 721 Pinterest, Hòa Phát, Xuân Hòa Bàn 1.129 Pinterest, Nội thất Hòa Phát Váy 1.219 Pinterest, Loza.vn Tủ lạnh 1.465 Pinterest, Mediamart 415 Pinterest, Mediamart Lò vi sóng B Thu thập ảnh tương tự SỐ 02 (CS.01) 2020 TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 49 XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ VĂN BẢN TIẾNG VIỆT BẰNG HỌC SÂU Bút 946 Pinterest, Thiên Long Flex Office Nồi cơm điện 514 Pinterest, Mediamart Áo 2.206 Pinterest, Canifa.com Máy giặt 1.165 Pinterest, Mediamart • • • Các ảnh phân bố với tỉ lệ 80% để huấn luyện, 20% để kiểm chứng mơ hình Ngồi ra, nhãn cịn có thêm 200 ảnh với nguồn từ Google Images để làm liệu test Các thực nghiệm thực hệ thống, dành cho loại tác vụ khác 1) Môi trường thực trình học máy: Sử dụng Google Colab: • • • • CPU: 1x Single core hyper threaded Xeon Processor @2.3Ghz GPU: 1x Tesla K80, 12GB GDDR5 VRAM RAM: 13GB Disk: 30GB 2) Môi trường thực q trình đưa liệu ảnh qua mơ hình học máy: • • • • CPU: Intel Core i5-4200H (2 cores, threads) @2.8Ghz GPU: Nvidia GTX 950M, 4GB GDDR3 VRAM RAM: 12GB DDR3L Ổ cứng: SSD 128GB B Kiến trúc mạng Mơ hình học sâu hệ thống sử dụng kiến trúc mạng ResNet50 ResNet có tên đầy đủ Residual Network, phát triển Kaiming He cộng Nó bật có khả skip connection, tức phần liệu đầu vào tiếp tục qua lớp sau mà khơng qua xử lí Ngồi cịn sử dụng lượng lớn lớp chuẩn hóa theo lô (Batch Normalization) ResNet không sử dụng lớp kết nối đầy đủ cuối mạng ResNet mạng CNN đại ngày nay, lựa chọn tin dùng sử dụng CNN thực tế Mạng ResNet có kiến trúc sau: Mỗi khối conv_block bao gồm hàng loạt lớp CONV nhỏ, với hàm kích hoạt ReLU lớp chuẩn hố theo lơ Ngồi ra, khối cịn có sử dụng skip connection (nhằm tránh giảm hiệu mạng sâu) Identity block có trật tự thực gần giống conv_block, nhiên skip connection khơng bao gồm tích chập 1x1 chuẩn hố theo lơ, quan trọng nhất, hàm tích chập chỉnh kích thước đệm cho kích thước khối 3D trước sau qua lớp không đổi ResNet có nhiều biến thể ResNet50, ResNet101, ResNet152, … Trong báo này, hệ thống sử dụng mạng ResNet50 để có thời gian huấn luyện tìm kiếm mức vừa phải, tránh vấn đề khớp lượng liệu không lớn Tiếp sau mạng CNN, lớp FC sử dụng để huấn luyện bao gồm: • • • • Lớp ẩn: 128 nơ ron, hàm kích hoạt ReLU Lớp drop-out: giá trị dropout [0.1, 0.25, 0.4] Lớp ẩn: 64 nơ ron, hàm kích hoạt ReLU Lớp đầu ra: 11 nơ ron (tương ứng với số nhãn), hàm kích hoạt softmax Cuối cùng, mơ hình sử dụng hàm chi phí hàm cross-entropy (4) Hàm cross-entropy so sánh phân bố đầu ra, với xác suất nhãn xác suất nhãn khác Nói cách khác, nhãn kết dịch thành véc tơ với nhãn đúng, nhãn sai, sau véc tơ so sánh với đầu nơ ron Độ sai lệch véc tơ nhỏ, giá trị hàm chi phí nhỏ theo Một số tham số sử dụng: • • • • • Tốc độ học: [0.01, 0.001, 0.0001] Giá trị drop-out: [0.1, 0.25, 0.4] Hàm tối ưu: nadam Hàm chi phí: cross-entropy Số vịng: [10, 20, 50] C Kết đánh giá Các thực nghiệm thực sử dụng thư viện Keras [5] Với mạng ResNet50 Keras cung cấp, độ xác tính tốn so sánh 20 vịng (epochs) mơ hình có độ xác tốt lưu lại để làm kết thực nghiệm Do mạng ResNet không cung cấp lớp FC nên cần thêm vài lớp FC cuối mạng để thực phân loại Hình 2: Kiến trục mạng ResNet [7] Các đặc điểm mạng ResNet bao gồm [7]: SỐ 02 (CS.01) 2020 Đối với hoạt động tính tốn véc tơ đại diện cho ảnh nhằm thực so sánh thu thập ảnh tương đồng, tất ảnh tập liệu đưa qua mơ hình mạng huấn luyện Các véc tơ đại diện thu thập lớp FC cuối lưu lại sử dụng qúa trình tìm kiếm sau TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 50 Dương Trần Đức Các tham số thử nghiệm để tối ưu khoảng bao gồm kích thước lọc, số lọc, kích thước đệm, kích thước bước nhảy, tốc độ học, giá trị drop out Các tham số thực tối ưu qua thực nghiệm bảng cho thấy kết hợp tốt tham số Bảng Giá trị tham số tối ưu Tham số Giá trị tối ưu Kích thước lọc 3x3 Số lọc 1000 Kích thước đệm Kích thước bước nhảy Số drop-out 0,4 Tốc độ học 0,001 Các kết nhận cho thấy khả quan phương pháp phân loại thu thập ảnh tương đồng áp dụng tập liệu tương ứng Mặc dù có chênh lệnh kết phân loại loại sản phẩm khác nhau, kết trung bình kết riêng hầu hết loại sản phẩm có nhiều tiềm khoảng chấp nhận ứng dụng phân loại ảnh Kết thu thập ảnh tương tự có độ xác tốt, dù trải qua đánh giá mang tính chủ quan Về thời gian chạy, việc huấn luyện mơ hình phân loại khoảng 80 phút, thời gian để đưa toàn 11.539 ảnh qua mơ hình để thu thập véc tơ đại diện 70 phút Thời gian để thực tìm kiếm từ cung cấp ảnh đầu vào đến trả kết 10 giây (sau có mơ hình có véc tơ đại diện ảnh tập ảnh để so sánh) Với môi trường thực nghiệm trình bày trên, kết phân loại sản phẩm đạt độ xác tổng thể 85.09%, loại sản phẩm Váy có độ xác tốt (94.57%) loại sản phẩm Bàn có độ xác thấp (65.83%) Bảng cho thấy kết qủa phân loại chi tiết cho loại sản phẩm: Bảng Kết qủa phân loại Nhãn Độ xác (%) Nhãn Độ xác (%) Điều hồ 83.82 Lị vi sóng 80.90 Quần 88.37 Bút 78.79 Ghế 92.50 Nồi cơm điện 90.05 Bàn 65.82 Áo 78.24 Váy 94.57 Máy giặt 87.18 Tủ lạnh 90.82 Hình Kết tìm kiếm với hình ảnh nồi cơm điện Như trình bày phần III, việc đánh giá kết thu thập ảnh tương tự có khó khăn hơn, dựa nhiều vào đánh giá chủ quan Trong nghiên cứu này, thực đánh giá tương tự [11], theo lấy ngẫu nhiên 100 sản phẩm dùng làm ảnh đầu vào cho trình tìm kiếm Thu thập kết ảnh đầu vào, tiến hành đánh giá chủ quan theo thang điểm 1-5 độ tương tự với ảnh đầu vào Các kết 4, xem tương đồng nhỏ xem khơng tương đồng Độ xác tính tổng số ảnh đánh giá tương đồng tổng số ảnh thu Độ xác tìm kiếm = Số ảnh tương đồng Tổng số ảnh thu Hình cho thấy ví dụ kết qủa tìm kiếm với hình ảnh nồi cơm điện Với kết hình 2, đánh giá chủ quan có ảnh tương đồng ảnh khơng tương đồng ảnh kết tìm kiếm Kết cuối cho thấy độ xác tìm kiếm theo đánh giá chủ quan tồn 100 mẫu 75% SỐ 02 (CS.01) 2020 V KẾT LUẬN Trong nghiên cứu này, chúng tơi trình bày phương pháp sử dụng mạng nơ ron tích chập để phân loại so sánh độ tương đồng để tìm kiếm ảnh tương tự tập ảnh sản phẩm gồm 11 nhãn Các kết thực nghiệm cho thấy tính khả thi phương pháp áp dụng ứng dụng thương mại điện tử máy tìm kiếm, độ xác tìm kiếm thời gian thực Phương pháp có ưu điểm tận dụng khả xử lý mạng nơ ron tích chập cho thao tác phân loại tính tốn véc tơ đại diện cho ảnh tập ảnh tìm kiếm Tuy nhiên, nhược điểm phương pháp việc sử dụng mạng nơ ron tích chập đơn khơng tạo véc tơ đại diện thể tốt tương đồng mặt thị giác hình ảnh Hướng phát triển tiến hành nghiên cứu việc thực tìm kiếm ảnh sản phẩm sử dụng mạng ba (triplet network) nhằm tạo chế nắm bắt tốt tương đồng chi tiết thị giác sản phẩm so với việc sử dụng mạng nơ ron tích chập TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 51 XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ VĂN BẢN TIẾNG VIỆT BẰNG HỌC SÂU thơng thường Ngồi ra, tham số mạng nơ ron tích chập cần bổ sung mở rộng khoảng thực tối ưu nhằm tìm tham số tốt Do việc huấn luyện mạng nơ ron tích chập hoạt động tiêu tốn tài nguyên thời gian, nghiên cứu chưa thực tối ưu cách triệt để tham số thuật toán TÀI LIỆU THAM KHẢO [1] Agnes Borras, Francesc Tous, Josep Lladós, Maria Vanrell, High-Level Clothes Description Based on Color-Texture and Structural Features, In: Lecture Notes in Computer Science, Iberian Conference, Pattern Recognition and Image Analysis (2003) [2] Lukas Bossard, Matthias Dantone, Christian Leistner, Christian Wengert, Till Quack, Luc Van Gool, Apparel Classification with Style”, In: Computer Vision–ACCV 2012, Springer (2013) [3] Y-Lan Boureau, Francis Bach, Yann LeCun, and Jean Ponce, Learning Mid-Level Features for Recognition, In Proc CVPR (2010) [4] Gal Chechik, Varun Sharma, Uri Shalit, and Samy Bengio, Large Scale Online Learning of Image Similarity Through Ranking, Journal of Machine Learning Research 11, p 1109–1135 (2010) [5] F Chollet, & others, Keras, Available at: https://github.com/fchollet/keras (2015) [6] Navneet Dalal and Bill Triggs, Histograms of Oriented Gradients for Human Detection,.In Proc CVPR p.886– 893 (2005) [7] Q Ji, J Huang, W He, Y Sun, Optimized Deep Convolutional Neural Networks for Identification of Macular Diseases from Optical Coherence Tomography Images, Algorithms 12(3), 51 (2019) [8] Yushi Jing, David Liu, Dmitry Kislyuk, Andrew Zhai, Jiajing Xu, Je Donahue, and Sarah Tavel, Visual Search at Pinterest, In Proc KDD, p.1889–1898 (2015) [9] H Hu, Y Wang, L Yang, P Komlev, L Huang, X S Chen, Web-scale Responsive Visual Search at Bing, Proc 24th ACM SIGKDD Int Conf Knowl Discovery Data Mining, pp 359-367 (2018) [10] Andrej Karpathy, Transfer Learning, (2015), URL: http://cs231n.github.io/transfer- learning/ [11] N Khosla, and V Venkataraman, Building Image-Based Shoe Search Using Convolutional Neural Networks, CS231N Course Project Reports, (2015) [12] M Hadi Kiapour, Xufeng Han, Svetlana Lazebnik, Alexander C Berg, and Tamara L Berg, Where to Buy It: Matching Street Clothing Photos in Online Shops, In Proc ICCV, (2015) [13] Alex Krizhevsky, Ilya Sutskever, and Geo rey E Hinton, ImageNet Classification with Deep Convolutional Neural Networks, In Proc NIPS, p.1106–1114 (2012) [14] Hanjiang Lai, Yan Pan, Ye Liu, and Shuicheng Yan, Simultaneous Feature Learning and Hash Coding with Deep Neural Networks, In Proc CVPR, p.3270–3278 (2015) [15] David G Lowe, Object Recognition from Local ScaleInvariant Features, In Proc ICCV, p.1150–1157 (1999) [16] K Simonyan and A Zisserman, Very Deep Convolutional Networks for Large-Scale Image Recognition, In Proc ICLR (2015) [17] Jiang Wang, Yang Song, Omas Leung, Chuck Rosenberg, Jingbin Wang, James Philbin, Bo Chen, and Ying Wu, Learning Fine-Grained Image Similarity with Deep Ranking, In Proc CVPR, p.1386–1393 (2015) on author profiling of Vietnamese texts using deep learning based on Convolutional Neural Networks (CNN) The experiments were conducted on the datasets which was experimented in the previous research on author profiling of Vietnamese texts [8] The experiments show that the new method has better results than the traditional machine learning methods such as SVM (Support Vector Machine) and Random Forest on author profiling task Keywords: deep learning, convolutional neural network, author profiling Dương Trần Đức Tốt nghiệp Đại Ảnh tác giả học KHTN, Đại học Quốc gia Hà Nội ngành Công nghệ thông tin năm 1999, Thạc sỹ chuyên ngành Hệ thống thông tin Đại học Tổng hợp Leeds, Vương Quốc Anh năm 2004, Tiến sỹ chuyên ngành Kỹ thuật máy tính Học viện Cơng nghệ Bưu Viễn thông năm 2018 Hiện công tác Khoa Cơng nghệ Thơng tin, Học viện Cơng nghệ Bưu Viễn thông PRODUCT IMAGE SEARCH USING DEEP LEARNING Abstract: Author profiling is the task of identify the characteristics of authors such as gender, age, etc only based on analysis of their texts This paper show reseach SỐ 02 (CS.01) 2020 TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 52 ... luyện B Tìm kiếm ảnh Vấn đề tìm kiếm sản phẩm theo ảnh quan tâm thực số nghiên cứu trước [1, 2, 11] SỐ 02 (CS.01) 2020 Vấn đề tìm kiếm ảnh quan tâm nghiên cứu áp dụng hệ thống máy tìm kiếm, mạng... tính tìm kiếm ảnh mạng nơ ron học sâu, phải cân đối độ xác tốc độ phản hồi Trong nghiên cứu này, chúng tơi thực tìm kiếm ảnh sản phẩm, có tính đặc thù so với hệ thống mạng xã hội hay máy tìm kiếm, ... tìm kiếm theo ảnh áp dụng báo bao gồm hai giai đoạn: phân loại ảnh so sánh độ tương đồng với ảnh loại để tìm ảnh có độ tương đồng cao Với ảnh đầu vào sản phẩm cung cấp, phân loại thành loại sản