Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 106 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
106
Dung lượng
7,17 MB
Nội dung
THÀNH ĐỒN TP HỒ CHÍ MINH TRUNG TÂM PHÁT TRIỂN KHOA HỌC VÀ CƠNG NGHỆ TRẺ CHƯƠNG TRÌNH KHOA HỌC VÀ CÔNG NGHỆ CẤP THÀNH PHỐ BÁO CÁO TỔNG HỢP KẾT QUẢ NHIỆM VỤ NGHIÊN CỨU KHOA HỌC VÀ CÔNG NGHỆ TRA CỨU THƠNG TIN HỌC VIÊN QUA HÌNH ẢNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP HCM Chủ nhiệm nhiệm vụ: ThS Đào Xuân Bao TP Hồ Chí Minh, năm 2022 ỦY BAN NHÂN DÂN THÀNH ĐỒN TP HỒ CHÍ MINH THÀNH PHỐ HỒ CHÍ MINH TRUNG TÂM PHÁT TRIỂN SỞ KHOA HỌC VÀ CÔNG NGHỆ KHOA HỌC VÀ CƠNG NGHỆ TRẺ CHƯƠNG TRÌNH KHOA HỌC VÀ CÔNG NGHỆ CẤP THÀNH PHỐ BÁO CÁO TỔNG HỢP KẾT QUẢ NHIỆM VỤ NGHIÊN CỨU KHOA HỌC VÀ CÔNG NGHỆ TRA CỨU THƠNG TIN HỌC VIÊN QUA HÌNH ẢNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP HCM (Đã chỉnh sửa theo kết luận Hội đồng nghiệm thu ngày / /2022) Chủ nhiệm nhiệm vụ: (ký tên) Chủ tịch Hội đồng nghiệm thu Đào Xuân Bao (Ký ghi rõ họ tên) Cơ quan chủ trì nhiệm vụ Đồn Kim Thành Thành phố Hồ Chí Minh - 2022 THÀNH ĐỒN TP HỒ CHÍ MINH TRUNG TÂM PHÁT TRIỂN KHOA HỌC VÀ CÔNG NGHỆ TRẺ CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc Tp Hồ Chí Minh, ngày tháng năm 2022 BÁO CÁO THỐNG KÊ KẾT QUẢ THỰC HIỆN NHIỆM VỤ NGHIÊN CỨU KH&CN I THÔNG TIN CHUNG Tên nhiệm vụ: Tra cứu thông tin học viên qua hình ảnh Tại trường Đại học Cơng nghiệp Thực phẩm TP HCM Thuộc: Chương trình/lĩnh vực (tên chương trình/lĩnh vực): Vườn ươm Sáng tạo Khoa học Công nghệ trẻ Chủ nhiệm nhiệm vụ: Họ tên: Đào Xuân Bao Ngày, tháng, năm sinh: 28/11/1986 Nam/ Nữ: Nam Học hàm, học vị: Thạc sĩ Chức danh khoa học: Chức vụ: Chuyên viên Điện thoại: Tổ chức: 0283 8163 318 Nhà riêng: Mobile: 0977049583 Fax: E-mail: baodx@hufi.edu.vn Tên tổ chức công tác: Trường Đại học Công nghiệp Thực phẩm TP.HCM Địa tổ chức: 140 Lê Trọng Tấn, phường Tây Thạnh, quận Tân Phú, TP.HCM Địa nhà riêng: 276/48 Hương lộ 80, phường Bình Hưng Hịa B, quận Bình Tân, TP.HCM Tổ chức chủ trì nhiệm vụ: Tên tổ chức chủ trì nhiệm vụ: Trung tâm Phát triển Khoa học Công nghệ Trẻ Điện thoại: 028.38.230.780 Fax: E-mail: khoahoctre@gmail.com Website: khoahoctre.com.vn Địa chỉ: Số 01 Phạm Ngọc Thạch, phường Bến Nghé, quận 1, TP.HCM Họ tên thủ trưởng tổ chức: Đoàn Kim Thành Số tài khoản: 3713.0108327700000 Kho bạc: Kho bạc Nhà nước Quận Tên quan chủ quản đề tài: Trung tâm Phát triển Khoa học Cơng nghệ Trẻ II TÌNH HÌNH THỰC HIỆN Thời gian thực nhiệm vụ: - Theo Hợp đồng ký kết: từ tháng 12 năm 2021 đến tháng 11 năm 2022 - Thực tế thực hiện: từ tháng 12 năm 2021 đến tháng 11 năm 2022 - Được gia hạn (nếu có): - Lần từ tháng… năm… đến tháng… năm… - Lần … Kinh phí sử dụng kinh phí: a) Tổng số kinh phí thực hiện: 80 tr.đ, đó: + Kính phí hỗ trợ từ ngân sách khoa học: 80 tr.đ + Kinh phí từ nguồn khác: ……………….tr.đ b) Tình hình cấp sử dụng kinh phí từ nguồn ngân sách khoa học: Số TT Theo kế hoạch Thời gian Kinh phí (Tháng, năm) (Tr.đ) Thực tế đạt Thời gian Kinh phí (Tháng, năm) (Tr.đ) Ghi (Số đề nghị toán) … c) Kết sử dụng kinh phí theo khoản chi: Đối với đề tài: Đơn vị tính: Triệu đồng Số TT Nội dung khoản chi Trả công lao động (khoa học, phổ thông) Nguyên, vật liệu, lượng Thiết bị, máy móc Xây dựng, sửa chữa nhỏ Chi khác Tổng cộng Thực tế đạt Theo kế hoạch Tổng NSKH 74,105 5,895 80,00 Nguồn khác Tổng NSKH 74,105 74,105 74,105 5,895 5,895 5,895 80,00 80,00 Nguồn khác 80,00 - Lý thay đổi (nếu có): Đối với dự án: Đơn vị tính: Triệu đồng Số TT Nội dung khoản chi Thiết bị, máy móc mua Nhà xưởng xây dựng mới, cải tạo Kinh phí hỗ trợ cơng nghệ Chi phí lao động Nguyên vật liệu, lượng Theo kế hoạch Tổng NSKH Nguồn khác Thực tế đạt Tổng NSKH Nguồn khác Thuê thiết bị, nhà xưởng Khác Tổng cộng - Lý thay đổi (nếu có): Các văn hành q trình thực đề tài/dự án: (Liệt kê định, văn quan quản lý từ công đoạn xét duyệt, phê duyệt kinh phí, hợp đồng, điều chỉnh (thời gian, nội dung, kinh phí thực có); văn tổ chức chủ trì nhiệm vụ (đơn, kiến nghị điều chỉnh có): Số TT Số, thời gian ban hành văn -QĐ/KHCNT, ngày tháng năm 2021 33-TB/KHCNTVƯ ngày 07/12/2021 Tên văn Ghi V/v thành lập Hội đồng xét duyệt đề tài NCKH thuộc chương trình Vườn ươm sáng tạo KH CNT V/v phê duyệt cấp kinh phí NCKH cơng nghệ thuộc chương trình Vườn ươm sáng tạo KH CNT Tổ chức phối hợp thực nhiệm vụ: Số TT Tên tổ chức đăng Tên tổ chức ký theo tham gia Thuyết thực minh Nội dung tham gia chủ yếu Sản phẩm chủ yếu đạt Ghi chú* Trường Đại học Công nghiệp Thực phẩm TP.HCM Trường Đại học Công nghiệp Thực phẩm TP.HCM Xây dựng dựng thuyết minh chi tiết, trích xuất đặc trưng hình ảnh, Xây dựng cấu trúc liệu đa chiều KD-Tree , Xây dựng hệ tra cứu thông tin học viên HUFI thông qua hình ảnh, Đánh giá hiệu suất mơ hình đề xuất, Viết báo cáo Cuốn thuyết minh hoàn chỉnh, cấu trúc liệu KDTree, Hệ thống tra cứu thơng tin học viên HUFI qua hình ảnh sở liệu ảnh thu thập, báo cáo Trường Trường Đại Xây dựng cấu trúc Một cấu trúc Đại học Công nghiệp Thực phẩm TP.HCM học Sư phạm TP.HCM liệu đa chiều KDTree, … liệu KDTree lưu trữ tập véc-tơ đặc trưng hình ảnh Trường Đại học Bà Rịa Vũng Tàu Trường Đại Xây dựng ontology học Bà Rịa - nhằm mô tả ngữ Vũng Tàu nghĩa , Xây dựng hệ tra cứu thông tin học viên HUFI thơng qua hình ảnh Ontology mô tả nội dung ngữ nghĩa học viên HUFI, Hệ thống tra cứu thông tin học viên HUFI Trường Đại học Kinh tế Đà Nẵng Trường Đại học Kinh tế Đà Nẵng Xây dựng ontology nhằm mô tả ngữ nghĩa thông tin học viên HUFI Ontology mô tả nội dung ngữ nghĩa học viên HUFI - Lý thay đổi (nếu có): Thành viên Văn Thế Thành chuyển đơn vị công tác từ Trường Đại học Công nghiệp Thực phẩm TP.HCM Trường Đại học Sư phạm TP.HCM từ tháng 3/2022 Cá nhân tham gia thực nhiệm vụ: (Người tham gia thực đề tài thuộc tổ chức chủ trì quan phối hợp, không 10 người kể chủ nhiệm) Số TT Tên cá Tên cá nhân nhân đăng ký tham theo gia thực Thuyết minh Nội dung tham gia Sản phẩm chủ yếu đạt - Trình bày tổng quan tài - Đã bảo vệ đề cương liệu, bảo vệ đề cương thành công - Thực tiền xử lý - Thực xong tiền liệu ảnh xử lý liệu ảnh ThS Đào ThS Đào Xuân Bao Xuân Bao - Đề xuất thuật tốn, mơ - Đã đề xuất thuật tốn, hình thực nghiệm mơ hình thực nghiệm - Xây dựng thực nghiệm, - Xây dựng xong thực phân tích kết nghiệm, phân tích kết - Viết báo cáo - Đang hoàn thiệt báo cáo - Cố vấn vấn đề khoa Hoàn thành nhiệm vụ TS Văn TS Văn học liên quan đến đề tài cố vấn, đề xuất vấn đề khoa học liên Thế Thế - Đề xuất giải pháp quan đến đề tài Thành Thành tối ưu mơ hình cho đề tài ThS ThS Nguyễn Văn Thịnh Nguyễn Văn Thịnh - Thực tiền xử lý - Thực xong tiền liệu ảnh xử lý liệu ảnh - Đề xuất thuật toán - Đã đề xuất thuật truy xuất thơng tin hình tốn truy xuất thơng ảnh, mơ hình thực tin hình ảnh, mơ hình nghiệm thực nghiệm Ghi chú* - Cài đặt thuật toán, tiến - Đã cài đặt xong thuật hành thực nghiệm, phân tốn, tiến hành thực tích kết nghiệm, phân tích kết - Viết báo cáo - Đang hoàn thiện viết báo cáo - Thực tiền xử lý - Thực xong tiền liệu ảnh xử lý liệu ảnh ThS Lê Thị Vĩnh Thanh - Đề xuất thuật toán - Đã đề xuất thuật truy xuất thơng tin hình tốn truy xuất thơng ThS Lê ảnh, mơ hình thực tin hình ảnh, mơ hình Thị nghiệm thực nghiệm Vĩnh - Cài đặt thuật toán, tiến - Cài đặt xong thuật Thanh hành thực nghiệm, phân tốn, tiến hành thực tích kết nghiệm, phân tích kết - Viết báo cáo - Đang hồn thiện báo cáo - Thực tiền xử lý - Thực xong tiền liệu ảnh xử lý liệu ảnh ThS Nguyễn Thị Uyên Nhi ThS Nguyễn Thị Uyên Nhi - Đề xuất thuật toán - Đã đề xuất xong truy xuất thơng tin hình thuật tốn truy xuất ảnh, mơ hình thực thơng tin hình ảnh, mơ nghiệm hình thực nghiệm - Cài đặt thuật toán, tiến - Cài đặt xong thuật hành thực nghiệm, phân tốn, tiến hành thực tích kết nghiệm, phân tích kết - Viết báo cáo - Đang hoàn thiện báo cáo tổng kết - Thực tiền xử lý - Thực xong tiền liệu ảnh xử lý liệu ảnh ThS Nguyễn Thị Định ThS Nguyễn Thị Định - Đề xuất thuật toán - Đã đề xuất xong xây dựng cấu trúc thuật tốn truy xuất liệu, mơ hình thực thơng tin hình ảnh, mơ nghiệm hình thực nghiệm - Cài đặt thuật toán, tiến - Cài đặt xong thuật hành thực nghiệm, phân tốn, tiến hành thực tích kết thực nghiệm, phân tích kết nghiệm - Viết báo cáo - Đang hoàn thiện báo cáo tổng kết - Lý thay đổi ( có): Tình hình hợp tác quốc tế: Số TT Theo kế hoạch (Nội dung, thời gian, kinh phí, địa điểm, tên tổ chức hợp tác, số đoàn, số lượng người tham gia ) Thực tế đạt (Nội dung, thời gian, kinh phí, địa điểm, tên tổ chức hợp tác, số đồn, số lượng người tham gia ) Ghi chú* - Lý thay đổi (nếu có): Tình hình tổ chức hội thảo, hội nghị: Số TT Theo kế hoạch (Nội dung, thời gian, kinh phí, địa điểm ) Hội thảo đề tài NCKH “Tra Thực tế đạt (Nội dung, thời gian, kinh phí, địa điểm ) Buổi hội thảo đề tài cứu thông tin học viên qua hình ảnh Trường Đại học NCKH diễn với nội 10 Ghi chú* PHỤ LỤC Công bố liên quan nghiên cứu Bài báo: “Tìm kiếm ảnh đa đối tượng dựa mạng R-CNN cấu trúc KDTREE" – Tạp chí khoa học Đại học Huế (Đã chấp nhận đăng) TĨM TẮT Tìm kiếm ảnh đa đối tượng toán quan trọng lĩnh vực tra cứu ảnh đa dạng tính phức tạp hình ảnh Trong báo này, phương pháp tìm kiếm ảnh đa đối tượng dựa mạng R-CNN cấu trúc KD-Tree đề xuất nhằm phát triển ưu điểm mạng R-CNN việc xác định phân loại đối tượng riêng biệt ảnh; đồng thời kết hợp với cấu trúc KD-Tree việc lưu trữ hình ảnh mang lại hiệu suất truy vấn cao thời gian tìm kiếm ổn định Để thực toán này, đối tượng tập liệu hình ảnh trích xuất; phân lớp mơ hình mạng R-CNN lưu trữ cấu trúc KD-Tree Từ đó, với ảnh đầu vào phân đoạn theo đối tượng, trích xuất vector đặc trưng thực tìm kiếm tập ảnh tương tự dựa cấu trúc KD-Tree Trên sở đó, mơ hình tìm kiếm ảnh dựa mạng R-CNN cấu trúc KD-Tree đề xuất Để minh chứng cho tính đắn sở lý thuyết đề xuất, thực nghiệm xây dựng ảnh COCO với hiệu suất tìm kiếm ảnh 0.6898 Kết thực nghiệm so sánh với cơng trình khác liệu; điều minh chứng cho tính khả thi hiệu phương pháp đề xuất; đồng thời ứng dụng cho ảnh đa đối tượng Từ khóa: R-CNN, KD-Tree, ảnh đa đối tượng, tìm kiếm ảnh, ảnh tương tự Giới thiệu Sự phát triển loại thiết bị điện tử làm cho liệu đa phương tiện gia tăng nhanh theo thời gian, đặc biệt ảnh đa đối tượng [1, 2] Ngày nay, số lượng ảnh đa đối tượng gia tăng nhanh số lượng đa dạng chủng loại thuộc nhiều lĩnh vực thách thức cho tốn tìm kiếm ảnh đa đối tượng Hơn nửa, việc xác định bóc tách đối tượng riêng biệt ảnh đa đối tượng để có hiệu suất cao tốn phức tạp Sau phân đoạn phân lớp đối tượng ảnh, việc lựa chọn kỹ thuật học máy để thực tốn tìm kiếm ảnh để có hiệu suất truy vấn cao thách thức Vì vậy, tốn tìm kiếm ảnh đa đối tượng nhiều nhóm nghiên cứu quan tâm cải tiến nâng cao hiệu suất thời gian truy vấn ổn định Hiện nay, có nhiều phương pháp để thực trình phát phân loại đối tượng ảnh đa đối tượng R-CNN (Region Convolution Noron Network), Fast R-CNN, Faster R-CNN [12, 13] Trong báo này, hình ảnh đầu vào phân đoạn thành vùng để nhận diện đối tượng mơ hình mạng RCNN đồng thời phân loại đối tượng hình ảnh mang lại hiệu suất cao 90 Hiệu suất tìm kiếm tốn truy vấn ảnh chịu ảnh hưởng trình lưu trữ tổ chức liệu Đồng thời, cấu trúc liệu lưu trữ hình ảnh yếu tố ảnh hưởng đến thời gian tìm kiếm Hiện nay, có số cấu trúc liệu dạng ứng dụng nhiều tốn tìm kiếm ảnh S-Tree [3], KD-Tree [4, 8, 14], v.v Trên sở kế thừa cấu trúc liệu đa chiều KD-Tree sử dụng cho trình lưu trữ để tìm kiếm tập ảnh tương tự với ảnh đầu vào đánh giá khả thi hiệu thơng qua cơng trình [4, 9] Trong báo này, hình ảnh sau thực phân đoạn theo đối tượng, phân loại mơ hình R-CNN trích xuất vector đặc trưng lưu trữ nút KD-Tree (k-Dimensional Tree) Tại nút tập hợp hình ảnh có độ tương tự gần Cấu trú KD-Tree đánh giá với khả mở rộng số nút dễ dàng, phù hợp cho ảnh có khả mở rộng số phân lớp, mở rộng khả lưu trữ thời gian tìm kiếm ổn định cấu trúc KD-Tree đa nhánh cân [9] Vì vậy, để phát triển ưu điểm từ việc phân lớp ảnh mơ hình mạng R-CNN phương pháp lưu trữ, tìm kiếm ảnh cấu trúc KD-Tree nên phương pháp kết hợp mạng R-CNN cấu trúc KDTree đề xuất thực báo cần thiết đắn Đóng góp báo gồm: (1) Trích xuất phân lớp đối tượng ảnh mạng R-CNN; (2) Trích xuất vector đặc trưng xây dựng cấu trúc KD-Tree để lưu trữ liệu hình ảnh phân đoạn; (3) Đề xuất mơ hình tìm kiếm ảnh; xây dựng thực nghiệm ảnh đa đối tượng COCO [5] so sánh với số cơng trình khác liệu Kết thực nghiệm cho thấy hiệu suất truy vấn ảnh dựa mơ hình đề xuất cao Phần lại báo bao gồm: Phần khảo cơng trình nghiên cứu liên quan trích xuất phân loại đối tượng mạng R-CNN, cấu trúc KD-Tree cho tốn tìm kiếm ảnh; Phần trình bày mơ hình mạng R-CNN để phát phân lớp đối tượng; Phần xây dựng cấu trúc KD-Tree để lưu trữ liệu hình ảnh; Phần đề xuất mơ hình truy vấn ảnh; Phần xây dựng thực nghiệm đánh giá kết quả; kết luận hướng phát triển trình bày Phần Các cơng trình liên quan Trong báo này, trình tìm kiếm ảnh đa đối tượng thực qua giai đoạn gồm: (1) Trích xuất đối tượng thị giác ảnh phân lớp đối tượng; (2) xây dựng cấu trúc KD-Tree lưu trữ; tìm kiếm ảnh tương tự dựa cấu trúc liệu xây dựng Vì vậy, số cơng trình khảo sát trích xuất phân loại đối tượng mạng R-CNN; tìm kiếm ảnh cấu trúc KD-Tree nhằm phân tích ưu nhược điểm phương pháp để cơng trình để từ đưa phương pháp kết hợp mạng R-CNN cấu trúc KD-Tree để thực tốn tìm kiếm ảnh đa đối tượng nâng cao hiệu suất truy vấn; cụ thể gồm: Jui-Ying Chiao công (2019) [6] thực phương pháp phát phân loại khối u vú sử dụng mặt nạ R-CNN ảnh siêu âm Mục đích 91 báo xây dựng mơ hình phát hiện, phân đoạn phân loại tự động tổn thương vú hình ảnh siêu âm Dựa kỹ thuật học sâu, kỹ thuật sử dụng vùng mặt nạ với mạng lưới thần kinh phức hợp phát triển để phát tổn thương phân biệt lành tính ác tính hình ảnh Độ xác trung bình trung bình 0.75 cho việc phát phân đoạn Độ xác tổng thể phân loại lành tính ác tính hình ảnh 0.85 Cơng trình đánh giá khả thi ứng dụng tốt cho lĩnh vực phát sớm bệnh ung thư vú qua hình ảnh mạng RCNN Bên cạnh đó, Alina Kuznetsova cộng (2020) [7] đề xuất phương pháp phân tích ngữ nghĩa trực quan hình ảnh Cơng trình trình bày sưu tập gồm 9.2 triệu hình ảnh (COCO, PASCAL VOC) thích thống để phân loại hình ảnh phát đối tượng mơ hình mạng R-CNN Sau đó, mối quan hệ trực quan đối tượng xác định dựa trên ảnh đầu vào Phương pháp đề xuất đánh giá khả thi hiệu quả, áp dụng cho nhiều ảnh đa đối tượng khác Parikshit Ram cộng (2019) [10] sử dụng kỹ thuật tìm kiếm láng giềng k-NN dựa cấu trúc KD-Tree Việc kết hợp nhằm cải tiến hiệu suất tìm kiếm cách xây dựng phân vùng không gian ngẫu nhiên để thực lược đồ tìm kiếm theo cấu trúc KD-Tree Tác giả chứng minh tính hiệu thời gian truy vấn hiệu suất tìm kiếm Trong cơng trình này, tác giả đề cập tới hai cải tiến: (1) cải thiện độ phức tạp tổng thể giải thuật tìm kiếm; (2) thực đa mục KD-Tree để nâng cao hiệu tìm kiếm mặt thời gian Cùng thời điểm này, Yewang Chen cộng (2019) [11] sử dụng hai kỹ thuật tìm kiếm láng giềng RNN (Range Nearest Neighbors) NN (Nearest Neighbors) dựa KD-Tree Kỹ thuật RNN nhằm giảm tính tốn khoảng cách khơng cần thiết cách kiểm tra vị trí đối tượng xét nằm bên hay bên vùng lân cận điểm cần tìm Kỹ thuật NN sử dụng để giảm nút truy cập dư thừa cách lưu số truy cập điểm láng giềng Thực nghiệm chứng minh tính hiệu việc kết hợp thuật tốn tìm kiếm láng giềng RNN, NN kNN KD-Tree hiệu Fengquan Zhang (2019) [17] cộng thực xây dựng cấu trúc VocabularyKDTree nhằm thực tốn đối sánh hình ảnh Trong cơng trình này, nhóm tác giả thực hai q trình: (1) phân cụm liệu hình ảnh theo tính chất tương đồng; (2) đối sánh liệu trực tuyến với ảnh đầu vào Cấu trúc VocabularyKDTree dựa đặc trưng SIFT (Scale-Invariant Feature Transform) cách điều chỉnh trọng số nút Cấu trúc Vocabulary-KDTree chia thành nhóm: (1) nhóm chứa đặc trưng hình ảnh; (2) nhóm nút thực điều chỉnh trọng số liên quan đến trình huấn luyện để xây dựng VocabularyKDTree Mơ hình truy vấn ảnh thực theo hai pha: Pha offline, hình ảnh sau trích xuất đặc trưng đối sánh gom cụm với cấu trúc KD-Tree; từ xây dựng Vocabulary KD-Tree thực gom cụm lại cấu trúc 92 Tại pha online, ảnh đầu vào sau trích xuất đặc trưng so sánh đặc trưng với cấu trúc Vocabulary KD-Tree, tìm từ khóa làm sở so sánh với đặc trưng trích xuất Cuối lọc bỏ bất thường kết tìm kiếm trả kết tốt Y Narasimhulu cộng (2021) [18] đề xuất phương pháp tìm kiếm ảnh tượng tự dựa cấu trúc KD-Tree Từ ảnh đầu vào thực tìm kiếm cấu trúc KD-Tree thuật tốn tìm kiếm theo số láng giềng nhiều để làm xác định phân lớp cho hình ảnh Cuối cùng, tác giả dùng thang đo khoảng cách để thực phân lớp tập liệu hình ảnh huấn luyện Trong cơng trình này, KD-Tree sử dụng trực tiếp để lưu trữ liệu phân lớp cho ảnh đầu vào với kết tốt mà khơng nhiều chi phí trung gian Đây mơ hình đề xuất cho tốn phân lớp tìm kiếm ảnh dựa vào cấu trúc KD-Tree đánh giá tốt Từ cơng trình nghiên cứu cho thấy tính khả thi cho tốn trích xuất phân loại đối tượng R-CNN; tìm kiếm ảnh cấu trúc KD-Tree Tuy nhiên, kết hợp kỹ thuật R-CNN cấu trúc KD-Tree để nâng cao hiệu cho toán tìm kiếm ảnh đa đối tượng cịn hạn chế số lượng Vì vậy, báo này, mơ hình trích xuất, phân loại đối tượng; trích xuất vector đặc trưng lưu trữ cấu trúc KD-Tree áp dụng cho tốn tìm kiếm ảnh đa đối tượng thực nhằm kết hợp ưu điểm có kỹ thuật mạng R-CNN cấu trúc KD-Tree Mạng R-CNN phát phân lớp đối tượng Nâng cao hiệu suất phát đối tượng nhiệm vụ thách thức thị giác máy tính Hiện có nhiều cơng trình sử dụng mạng R-CNN [1], Fast RCNN and Faster R-CNN [12] để phát đối tượng riêng biệt ảnh Kết trình phát đối tượng để phân loại đối tượng, nhận dạng đối tượng, nhận dạng mẫu, định vị đối tượng ảnh, tìm mối quan hệ đối tượng ảnh, v.v Vì vậy, mạng R-CNN kỹ thuật tiên tiến sử dụng rộng rãi cơng trình cơng bố năm gần Kiến trúc mạng R-CNN gồm thành phần mơ tả hình gồm: (1) trích xuất vùng đề xuất đối tượng (Region proposal) có tác dụng tạo trích xuất vùng chứa vật thể bao bounding box; (2) trích xuất đặc trưng (Feature Extractor) giúp nhận diện hình ảnh từ region proposal thông qua mạng CNN; (3) phân loại (classifier) dựa ảnh đầu vào đặc trưng để phân loại hình ảnh chứa vùng đề xuất nhãn [1, 12, 13] Mạng R-CNN đánh giá ứng dụng hiệu cho toán phát đối tượng, phân loại đối tượng ảnh ưu điểm hiệu suất phát đối tượng phân loại đối tượng cao; ưu điểm khác mạng R-CNN trích xuất tính hình ảnh cách tự động Tuy nhiên, nhược điểm phương 93 pháp phát phân loại đối tượng R-CNN đòi hỏi phải vượt qua nhiều giai đoạn độc lập có trích xuất đặc trưng từ mạng CNN vùng đề xuất tạo vùng chứa ảnh Trong báo này, ưu điểm mạng R-CNN ứng dụng để phát phân loại đối tượng ảnh với hiệu suất phân loại cao Quá trình phát phân loại đối tượng ảnh mạng Mask R-CNN minh họa hình Hình Minh họa phát phân loại đối tượng Mask R-CNN Mỗi hình ảnh sau trích xuất đối tượng ảnh mạng R-CNN trình trích xuất vector đặc trưng ảnh phân đoạn Trên sở này, vùng ảnh trích xuất đặc trưng theo nhóm đặc trưng diện tích, chu vi, màu sắc, hình dạng, kết cấu gồm 81 thành phần cho vùng ảnh Q trình trích xuất vector đặc trưng có 81 thành phần kế thừa từ cơng trình [4] minh họa hình Hình Minh họa trích xuất vector đặc trưng hình ảnh gồm 81 thành phần Cấu trúc KD-Tree cho tìm kiếm ảnh đa đối tượng 4.1 Xây dựng cấu trúc KD-Tree lưu trữ ảnh phân đoạn 94 Mỗi hình ảnh sau phân đoạn đối tượng trích xuất thành vector đặc trưng lưu trữ cấu trúc KD-Tree [14] Mục đích xây dựng cấu trúc KD-Tree để lưu trữ hình ảnh phân đoạn giúp cho trình tìm kiếm nhanh hiệu Bên cạnh đó, cấu trúc KD-Tree có khả mở rộng số nhánh chứng minh từ cơng trình [9] Vì báo này, cải tiến khác hình ảnh phân đoạn theo đối tượng mạng R-CNN trước lưu trữ cấu trúc KD-Tree Vì vậy, nghiên cứu đề xuất thuật tốn xây dựng cấu trúc KD-Tree dựa tập vector đặc trưng vùng ảnh đối tượng đề xuất Trong thuật toán 1, hàm ExtractFeature kế thừa từ cơng trình [4], hàm RCNN thực để phân đoạn ảnh dựa mạng R-CNN Thuật toán 1: Xây dựng cấu trúc KD-Tree Input: Image data set COCO Output: KD-Tree Function BKDT (F, W, h, n) Begin Initialize height h, number of branches n; W = Initialize(random a set of vectors weight); Nodei.w = Wi; Segment-image = RCNN(Image I); Fi = ExtractFeature(Segment-image); KD-Tree = Initialze(Fi, W, h, n); Insert each vector Fi into KD-Tree; Return KD-Tree; End Gọi n số phần tử tập F để thực xây dựng KD-Tree h chiều cao Khi xây dựng KD-Tree, thuật toán cần thực thêm n phần tử vào có chiều cao h Cây KD-Tree cân nên thêm phần tử vào cây, phần tử phải duyệt từ nút gốc đến nút Vì vậy, chi phí để xây dựng KD-Tree chiều cao h có n phần tử O(n*h) Vì h số, nên độ phức tạp thuật toán O(n) Sau xây dựng cấu trúc KD-Tree gồm nút gốc (Root) nút (Nodei) lưu trữ tập vector trọng số; nút (Leaf) lưu trữ tập vector hình ảnh có độ tương tự gần Cấu trúc KD-Tree minh họa hình 95 Hình Minh họa cấu trúc KD-Tree 4.2 Huấn luyện cấu trúc KD-Tree Ban đầu cấu trúc KD-Tree xây dựng với vector trọng số lưu trữ nút ngẫu nhiên nên số hiệu suất phân bổ ảnh tương tự nút chưa cao Vì cần phải điều chỉnh vector nút KD-Tree để trình chèn vector đặc trưng hình ảnh vào KD-Tree để cho nút chứa hình ảnh phân lớp nhiều Thuật toán kế thừa hàm SetLabel2Leaf, UpdateWeight từ cơng trình [4, 9] Quá trình huấn luyện vector trọng số thực liên tập Epochi liệu trình bày sau: Thuật tốn 2: Huấn luyện trọng số KD-Tree Input: Output: Function Begin Set of Set TKDT Weight repeat initialized of (InitW = weights, training eight, Epochi weights Epochi) InitWeight(); BKDT(Epochi, InitW eight, h, n); SetLabel2Leaf (KD-Tree, ListLabels); Pi = SumofV ectorRightLabel()/SumofV ectorinEpochi (); Road (f.wrong) = LeafWrong.Road; Road (f.right) = LeafRight.Road; Get(Nodew)inRoadf,w; NewW eight = UpdateWeight(Nodew, Roadf,w); BKDT (Epochi, NewW eight, h, n); SetLabel2Leaf (KD-Tree, ListLabels); Pj = SumofV ectorRightLabel()/SumofV ectorinEboli(); 96 until (Pj < Pi); Weight = NewWeight; foreach (SubTree) F = Find(fj in SubTree); WeightSub = endForeach Weight = Return Weight; TKDT (InitWeight, NewWeight ∪ SubTree.F); WeightSub; End Gọi p số lần điều chỉnh véc-tơ trọng số; h chiều cao cây; m số phần tử tham gia vào trình xây dựng theo Epochi Quá trình huấn luyện cấu trúc KDTree thực thông qua việc cập nhật trọng số để tạo gán nhãn nút Vì vậy, chi phí để thực thuật tốn (p*h*m) Vì p, h số nhỏ nên độ phức tạp thuật toán O(m) Mơ hình tìm kiếm ảnh dựa R-CNN KD-Tree 5.1 Mơ hình đề xuất Trên sở kết hợp mạng R-CNN cấu trúc KD-Tree để áp dụng cho tốn tìm kiếm ảnh đa đối tượng, mơ hình tìm kiếm ảnh đề xuất hình Hình Mơ hình tìm kiếm ảnh dựa R-CNN KD-Tree Mơ hình tìm kiếm ảnh đa đối tượng dựa mạng R-CNN cấu trúc KD-Tree gồm hai pha: Pha tiền xửa lý pha truy vấn với bước sau: 97 (1) Phát phân loại đối tượng ảnh mạng R-CNN (2) Trích xuất vector đặc trưng hình ảnh phân đoạn (3) Xây dựng cấu trúc KD-Tree lưu trữ hình ảnh (4) Ảnh đầu vào phát phân loại mạng R-CNN (5) Trích xuất vector đặc trưng cho ảnh đầu vào theo vùng đối tượng (6) Tìm kiếm KD-Tree để trích xuất tập ảnh tương tự với ảnh đầu vào 5.2 Thuật toán tìm kiếm ảnh tương tự dựa cấu trúc KD-Tree Sau xây dựng cấu trúc KD-Tree, nút lưu trữ tập liệu hình ảnh Vì vậy, trình tìm kiếm tập ảnh tương tự với ảnh đầu vào (I) cần phải duyệt từ nút gốc đến nút Nếu vector đặc trưng vùng ảnh phân đoạn ảnh I thuộc nút leafk trích xuất tập ảnh tương tự tập ảnh nút leafk Trong trường hợp ảnh I có nhiều ảnh phân đoạn I1, …, In; vector đặc trưng ảnh I thuộc nhiều nút khác tập ảnh tương tự với ảnh I tập ảnh thuộc tập nút mà fIk tìm Thuật tốn 3: Tìm kiếm ảnh tương tự dựa KD-Tree mạng R-CNN Input: Tập vector đặc trưng F= { f Ii } ảnh I, KD-Tree Output: Tập ảnh tương tự CI Function RKDT(F, KD − Tree ) Begin CI = ; Foreach (fi F) Browsing from root to leaf on KD-Tree; If (fi leafk) then CI = leafk.{fk}; Endif; EndForeach; Return CI; End Gọi h chiều cao cấu trúc KD-Tree, k số nhánh tối đa Nodei bất kỳ, liệu đầu vào vector đặc trưng fi có n chiều Khi truyền vector fi vào KD-Tree, thuật toán duyệt qua mức Tại mức KD-Tree chọn nút tốt theo hướng chọn Do đó, mức có tối đa k phép so sánh để chọn nút tốt Mỗi lần so sánh thuật toán duyêt qua n phần tử vector fi Vì vậy, mức số phép toán tối đa k*n Cây chiều cao h, nên số phép toán tối đa để duyệt từ gốc đến theo hướng chọn k*n*h Vì h, k số nhỏ, 98 nên độ độ phức tạp thuật toán phụ thuộc vào n Mặc khác, số chiều vector fi cố định ban đầu nên n số Gọi C giá trị số k*h*n < C nên k*h*n ≤ C*1 Vậy độ phức tạp thuật toán O(1) Thực nghiệm đánh giá 6.1 Dữ liệu môi trường thực nghiệm Bộ ảnh COCO (Microsoft Common Objects in Context) ảnh đa đối tượng, đa dạng có nhiều phân lớp; đồng thời sử dụng để phát đối tượng, phân đoạn, phát điểm phụ đề quy mơ lớn Bộ liệu bao gồm 163,957 hình ảnh Sau thực phân lớp ảnh mạng R-CNN, ảnh COCO có 79 phân lớp sử dụng cho thực nghiệm tập Validation gồm 5,000 ảnh Môi trường thực nghiệm hệ tìm kiếm ảnh tương tự (IR-KDT) xây dựng tảng dotNET Framework 4.5, ngôn ngữ lập trình C# Cấu hình máy tính: Intel(R) Core™ i5-5200U, CPU 2.7GHz, RAM 16GB hệ điều hành Windows 10 Professional 6.2 Xây dựng thực nghiệm Thực nghiệm xây dựng hệ truy vấn ảnh IR-KDT gồm hình xây dựng cấu trúc KD-Tree để lưu trữ hình ảnh COCO phân đoạn nút Dựa số phân lớp ảnh COCO để xác định số nhánh chiều cao cho KD-Tree phù hợp Sau xây dựng xong cấu trúc KD-Tree, trình tìm kiếm tập ảnh tương tự dựa KD-Tree R-CNN minh họa hình Kết tập ảnh tương tự với ảnh đầu vào 000000100510.jpg (bộ ảnh COCO) minh họa hình Hình Xây dựng KD-Tree 99 Hình Hệ tìm kiếm ảnh IR-KDT Hình Kết truy vấn KD-Tree sử dụng R-CNN Kết thực nghiệm hệ tìm kiếm ảnh IR-KDT trình bày bảng gồm độ xác trung (Precision), độ phủ (Recall), độ dung hòa (F-measure) thời gian truy vấn trung bình (Time query) tính mili giâycủa hệ truy vấn ảnh IR-KDT Bảng Hiệu suất tìm kiếm ảnh hệ IR-KDT Tập ảnh COCO Precision Recall F-measure 0.6898 0.6472 0.6678 100 Time (ms) 109.02 query Kết thực nghiệm đánh giá mơ hình truy vấn ảnh đề xuất thực 5,000 ảnh với liệu COCO Độ xác trung bình lấy theo TopK (K=5) Kết tìm kiếm ảnh trung bình hệ IR-KDT minh họa đồ thị đường cong ROC hình Mỗi đường cong đồ thị mơ tả kết truy vấn với độ xác (precision) độ phủ (recall) chủ đề ảnh liệu COCO Đồng thời, đường cong tương ứng đồ thị ROC cho biết tỷ lệ kết truy vấn sai, nghĩa diện tích đường cong đánh giá tính đắn kết truy vấn Đồ thị cho thấy tính xác hệ truy vấn tập ảnh COCO nằm tập trung vùng [0.52, 1.0] Đồ thị đường cong ROC biểu diễn giá trị true positive false positive theo độ phủ recall, giá trị nằm tập trung đường sở, nhiều giá trị nằm vùng true positive vùng false positive Hình Đường cong Precision, Recall ROC cho ảnh COCO 6.3 Đánh giá kết thực nghiệm 101 Hiệu suất hệ tìm kiếm ảnh dựa mối quan hệ ngữ nghĩa (IR-KDT) thực nghiệm so sánh với cơng trình khác ảnh COCO Kết so sánh trình bày bảng Bảng So sánh hiệu suất truy vấn ảnh hệ IR-KDT với công trình khác ảnh COCO Phương pháp thực Độ xác trung bình CN MAX, TopK=5, [15] 0.3910 CAMP, TopK=5, [16] 0.6890 IR-KDT 0.6898 Kết tìm kiếm ảnh tương tự hệ IR-KDT cao công trình khác liệu Điều cho thấy phương pháp đề xuất khả thi, hiệu so sánh với cơng trình khác lĩnh vực lý sau: (1) hệ IRKDT sử dụng kỹ thuật mạng R-CNN để phân đoạn ảnh phân lớp đối tượng nên hiệu suất phân lớp cao làm tiền đề cho trình tìm kiếm KD-Tree; (2) trình huấn luyện tập vector trọng số KD-Tree để lưu trữ tập ảnh tương tự nút giúp trình hội tụ ảnh tương tự nút tốt Bên cạnh đó, kết hợp kỹ thuật R-CNN cấu trúc KD-Tree giúp giải toán tìm kiếm ảnh đa đối tượng hiệu thời gian tìm kiếm ổn định Kết luận hướng phát triển Trong báo này, hệ truy vấn ảnh ảnh đa đối tượng IR-KDT thực dựa cấu trúc KD-Tree mạng R-CNN Một số kết đạt gồm: (1) Thực trích xuất phân loại đối tượng ảnh mạng R-CNN; (2) xây dựng cấu trúc KD-Tree để lưu trữ tập ảnh phân đoạn sau trích xuất đặc trưng; (3) đề xuất mơ hình truy vấn ảnh dựa mạng R-CNN cấu trúc KD-Tree xây dựng; (4) đề xuất thuật toán xây dựng KD-Tree, huấn luyện trọng số, tìm kiếm KDTree; (4) đề xuất mơ hình tìm kiếm ảnh tương tự; (5) thực nghiệm ảnh COCO với độ xác tìm kiếm ảnh trung bình 0.6898 so sánh với cơng trình khác ảnh Trong hướng phát triển tiếp theo, chúng tơi kết hợp mạng R-CNN trích xuất phân loại đối tượng, sau xây dựng mối quan hệ đối tượng ảnh cấu trúc KD-Tree thực tìm kiếm ảnh theo ngữ nghĩa dựa ontology nhằm nâng cao hiệu suất cho tốn truy vấn ảnh Lời cảm ơn: Nhóm tác giả trân trọng cảm ơn Khoa Công nghệ thông tin – Đại học Khoa học - Đại học Huế, nhóm nghiên cứu SBIR-HCM, Trường Đại học Sư phạm TP.HCM Trường Đại học Cơng nghiệp Thực phẩm Thành phố Hồ Chí Minh hỗ trợ chuyên môn sở vật chất để nhóm tác giả hồn thành nghiên cứu 102 Đề tài thực nguồn kinh phí hỗ trợ từ Chương trình Vườn ươm Sáng tạo Khoa học Công nghệ Trẻ, quản lý Trung tâm Phát triển Khoa học Công nghệ Trẻ - Thành Đồn thành phố Hồ Chí Minh Sở Khoa học Cơng nghệ thành phố Hồ Chí Minh, theo hợp đồng số “33/2021/HĐ-KHCNT-VƯ” ký ngày 08 tháng 12 năm 2021 Tài liệu tham khảo Chen, S., Li, Z., and Tang, Z., (2020), Relation r-cnn: A graph based relationaware network for object detection, IEEE Signal Processing Letters, 27, 16801684 He, K., Gkioxari, G., Dollár, P., and Girshick, R., (2017), Mask r-cnn, In Proceedings of the IEEE international conference on computer vision, 29612969 Le, T M., and Van, T T., (2015), Image Retrieval System Base on EMD Similarity Measure and S-Tree, arXiv preprint arXiv: 1506.01165 Nguyễn Thị Định, Thế Thành Văn, Mạnh Thạnh Lê, (2021), Phân lớp ảnh KD-Tree cho tốn tìm kiếm ảnh tương tự, Các cơng trình nghiên cứu, phát triển ứng dụng Công nghệ Thông tin Truyền thông, 40-52 https://cocodataset.org/#download, 30/5/2022 Chiao, J Y., Chen, K Y., Liao, K Y K., Hsieh, P H., Zhang, G., and Huang, T C., (2019), Detection and classification the breast tumors using mask R-CNN on sonograms, Medicine, 98(19) Kuznetsova, A., Rom, H., Alldrin, N., Uijlings, J., Krasin, I., Pont-Tuset, J., and Ferrari, V., (2020), The open images dataset v4, International Journal of Computer Vision, 128(7), 1956-1981 Zhang, Y., Wang, N., Zhang, S., Li, J., and Gao, X., (2016), Fast face sketch synthesis via kd-tree search, In European Conference on Computer Vision, Springer, Cham, 64-77 Nguyễn Thị Định, Thế Thành Văn, Mạnh Thạnh Lê, (2021), Một phương pháp phân lớp cấu trúc KD-Tree cho tốn tìm kiếm ảnh theo ngữ nghĩa, Kỷ yếu Hội thảo Quốc gia Nghiên cứu ứng dụng CNTT (FAIR21), ĐH Công nghiệp Thực phẩm TP HCM, Nhà xuất Khoa học Tự nhiên Công nghệ, ISBN 978-604-9988-60-8 DOI: 10.15625/vap.2021.0075 10 Ram, P., & Sinha, K., (2019), Revisiting kd-tree for nearest neighbor search, In Proceedings of the 25th acm sigkdd international conference on knowledge discovery & data mining,1378-1388 11 Chen, Y., Zhou, L., Tang, Y., Singh, J P., Bouguila, N., Wang, C., and Du, J., (2019), Fast neighbor search by using revised kd tree, Information Sciences, 472, 145-162 12 Lee, H., Eum, S., and Kwon, H., (2019), Me r-cnn: Multi-expert r-cnn for object detection, IEEE Transactions on Image Processing, 29, 1030-1044 13 Schroeder, B., & Tripathi, S., (2020), Structured query-based image retrieval using scene graphs, In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, 178-179 103 14 Bentley, J L., (1975), Multidimensional binary search trees used for associative searching, Communications of the ACM, 18(9), 509-517 15 Icarte, R T., Baier, J A., Ruz, C., and Soto, A., (2017), How a general-purpose commonsense ontology can improve performance of learning-based image retrieval, arXiv preprint arXiv:1705.08844 16 Wang, Z., Liu, X., Li, H., Sheng, L., Yan, J., Wang, X., and Shao, J., (2019), Camp: Cross-modal adaptive message passing for text-image retrieval, In Proceedings of the IEEE/CVF International Conference on Computer Vision, 5764-5773 17 Zhang, F., Gao, Y., & Xu, L., (2020), An adaptive image feature matching method using mixed Vocabulary-KD tree, Multimedia Tools and Applications, 79(23), 16421-16439 18 Narasimhulu, Y., Suthar, A., Pasunuri, R., and Venkaiah, V C., (2021), CKDTree: An Improved KD-Tree Construction Algorithm, In ISIC, 211-218 MULTI-OBJECT IMAGE RETRIEVE BASED ON R-CNN NETWORK AND KD-TREE STRUCTURE ABSTRACT Multi-object image retrieval is an important problem in the field of image retrieval due to the diversity and complexity of image digital In this paper, a method of multiobject image retrieval based on the R-CNN network with a KD-Tree structure is proposed to develop the advantages of the R-CNN network in identifying and classifying each object separately on the image; at the same time, the KD-Tree structure has high storage capacity and stable retrieval time To perform this problem, the objects on the image dataset are extracted; classified by the R-CNN network model, and stored on the KD-Tree structure From there, for each input image segmented by each object, extract the feature vector and perform to retrieve a set similar image based on the KD-Tree structure Base on this basis, a model of image retrieval using the R-CNN network and KD-Tree structure is proposed To demonstrate the correctness of the proposed theoretical basis, the experiment was built on the COCO image dataset with an image retrieval precision of 0.6898 Experimental results are compared with other works on the same data set that proves the feasibility and effectiveness of the proposed method; at the same time, it can be applied to multi-object images Keywords: R-CNN, KD-Tree, Multi-object image, image retrieval, similar images 104