đề tài phân loại mật độ xác suất và áp dụng cho dữ liệu ảnh

Phương pháp Fisher có thể phân loại cho hai hay nhiều hơn hai tổng thể nhưng phải giả thiết ma trận hiệp phương sai của các tổng thể bằng nhau nên có nhiều hạn chế khi áp dụng cho các dữ

Trang 1

THUYẾT MINH ĐỀ TÀI

NGHIÊN CỨU KHOA HỌC CẤP CƠ SỞ(do sinh viên thực hiện)

2 Công nghệ cao trong nông nghiệp, thủy sản và phát triển bền vững 3 Môi trường, tài nguyên thiên nhiên và biến đổi khí hậu

4 Công nghê, công nghệ thông tin và chuyển đổi số 5 Khoa học giáo dục, luật và xã hội nhân văn 6 Phát triển kinh tế, thị trường và nông thôn 7 Công nghệ sinh học và thực phẩm

Không thuộc 7 Lĩnh vực ưu tiên

3 LĨNH VỰC NGHIÊN CỨU (đánh dấu X) Khoa học Nhân văn

4 LOẠI HÌNH NGHIÊN CỨU (đánh dấu X)

Trang 2

6 ĐƠN VỊ CỦA CHỦ NHIỆM ĐỀ TÀI

Tên đơn vị: Khoa Khoa học Tự nhiên Điện thoại: (0292) 3832 062

E-mail: kkhtn@ctu.edu.vn

Địa chỉ: Đại học Cần Thơ, Khu II, đường 3/2, P Xuân Khánh, Q Ninh Kiều, TP Cần Thơ Họ và tên thủ trưởng đơn vị: PGS TS Ngô Thanh PhongTên đơn vị:

7 CHỦ NHIỆM ĐỀ TÀI

Họ và tên: Trần Nguyễn Kim Ngân

Ngày tháng năm sinh: 29/02/2004

8 NHỮNG THÀNH VIÊN THAM GIA NGHIÊN CỨU ĐỀ TÀI

TT Họ và tên MSSV, Lớp, Khóa Nội dung nghiên cứu thực hiện Nội dung 1, 2 và viết báo cáo

Trang 3

Họ và tên, MSVC Đơn vị công tác và lĩnh trong và ngoài nước

Nội dung phối hợp nghiên cứu Họ và tên người đại diện đơn vị Không

Trang 4

10 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU THUỘC LĨNH VỰC CỦA ĐỀ TÀI Ở TRONGVÀ NGOÀI NƯỚC

10.1 Ngoài nước

Nhận dạng cho các phần tử gồm có ba thuật toán chính: nhận dạng không được giám sát (un-supervised recoginition), nhận dạng được giám sát (supervised recoginition) và nhận dạng bán giám sát (semi-supervised recoginition) Nhận dạng được giám sát là việc việc phân loại một phần tử vào trong các tổng thể đã biết một cách thích hợp nhất dựa vào các biến quan sát của nó Do đó, nó thường được gọi là bài toán phân loại (Pham-Gia et al., 2007; Nhu et al., 2020) Phân loại là một hướng phát triển quan trọng của thống kê nhiều chiều và khoa học dữ liệu Nó cũng là nền tảng trong xử lý dữ liệu lớn và trí tuệ nhân tạo ngày nay, nên được rất nhiều nhà thống kê và công nghệ thông tin quan tâm Tuy nhiên có thể khẳng định rằng cho đến nay bài toán phân loại vẫn chưa có lời giải cuối cùng

Bài toán phân loại được phát triển theo hai hướng chính: Theo hướng thống kê và theo hướng học máy, học sâu Có nhiều phương pháp phân loại theo hướng thống kê được sử dụng phổ biến ngày nay Theo thống kê, các phương pháp được sử dụng phổ biến ngày nay là Fisher (Fisher, 1938), Hồi quy logistic (Kung, 2010), Naive Bayes, Bayes cải tiến (Pham-Gia et al., 2008; Nhu et al 2020) Phương pháp Fisher có thể phân loại cho hai hay nhiều hơn hai tổng thể nhưng phải giả thiết ma trận hiệp phương sai của các tổng thể bằng nhau nên có nhiều hạn chế khi áp dụng cho các dữ liệu thực tế Phương pháp hồi qui logistic được sử dụng rất phổ biến, nhưng chỉ hiệu quả khi dữ liệu có sự tách rời tốt của các nhóm và biến phụ thuộc là nhị phân (Jan et al 2010) Phương pháp Naive Bayes đơn giản về lý thuyết nhưng khó thực hiện trong thực tế vì phải giả sử các biến cố độc lập Phương pháp Bayes cải tiến không đòi hỏi điều kiện dữ liệu, có thể phân loại cho nhiều tổng thể nên có nhiều ưu điểm về lý thuyết Phương pháp Bayes được đánh giá có nhiều tiềm năng trong mở rộng lý thuyết và ứng dụng, vì vậy nó đang được sự quan tâm của các nhà thống kê và công nghệ thông tin Trong phân loại bằng phương pháp Bayes, hai vấn đề quyết định đến kết quả phân loại là xác suất tiên nghiệm và hàm mật

Trang 5

độ xác suất Xác suất tiên nghiệm thường được xác định dựa vào kinh nghiệm, sự hiểu biết của người thực hiện, hoặc cập nhật một kết luận thống kê trước đó về đối tượng được quan sát Một số xác suất tiên nghiệm đề xuất dựa vào thống kê đã được xem xét và áp dụng như phân phối đều, tỉ lệ mẫu, phương pháp Laplace Tuy nhiên chúng chỉ phù hợp cho từng bộ dữ liệu mà không tốt nhất cho tất cả (Pham-Gia et al 2006, Miller et al 2001) Bên cạnh xác suất tiên nghiệm, khi thực hiện bài toán phân loại bằng phương pháp Bayes, chúng ta phải ước lượng hàm mật độ xác suất đại diện cho mỗi tổng thể Mặc dù có nhiều cải tiến trong những năm gần đây, nhưng cho đến nay nó vẫn còn nhiều hạn chế Ngoài hai vấn đề trên, những phức tạp trong tính toán như tìm hàm cực đại, tính tích phân trong không gian nhiều chiều cũng là cản trở chính trong áp dụng thực tế của phương pháp này

Bên cạnh các phương pháp thống kê trên, chúng ta cũng có nhiều phương pháp phân loại dựa trên học máy và học sâu như multi-Supported vector machine (Multi-SVM), Random Forest, k-NN, XGBoost, Convolutional Neural Network (CNN), (Chen et al., 2009; Cristianini et al., 2009; Pham et al., 2016; Huang et al., 2018; Zhao et al., 2019) và transformer (learning Yang et al., 2022) Các phương pháp có nhiều lợi thế trong sự phát triển mạnh của công nghệ thông tin ngày nay Tuy nhiên việc xây dựng mô hình dựa trên quá trình huấn luyện nên đòi hỏi dữ liệu lớn và chi phí thời gian Kết quả của chúng cũng phụ thuộc nhiều vào tính chất riêng của dữ liệu Tất cả các phương pháp được đề xuất ở trên đều thực hiện cho dữ liệu rời rạc Theo sự hiểu biết của chúng tôi, mô hình phân loại cho hàm mật độ xác suất chưa được quan tâm và đề xuất từ các nhà nghiên cứu.

Phân loại ảnh là việc xác định nhãn cho ảnh từ mô hình phân loại được xây dựng dựa vào tập huấn luyện Việc xác định nhãn của ảnh từ mô hình huấn luyện thường được thực hiện qua hai bước: trích xuất đặc trưng ảnh và xây dựng mô hình phân loại cụ thể từ các đặc trưng được trích xuất này Trích xuất ảnh là bước đầu tiên rất quan trọng để thực hiện bài toán phân loại Việc trích xuất ảnh được xem là tối ưu nếu nó đặc trưng được cho ảnh, dễ nhận dạng và giảm chi phí tính toán Một ảnh thông thường được trích xuất dựa vào đặc trưng màu sắc, kết cấu, hình dạng (Vijaya et al., 2016) Mặc dù có nhiều thảo luận về vấn đề này nhưng cho đến nay chưa một đặc trưng nào được xem là tối ưu cho tất cả các trường hợp Khi các đặc trưng được trích xuất, để áp dụng vào bài toán phân loại chúng ta phải

Trang 6

chọn lựa phần tử đại diện cho ảnh Việc chọn lựa này rất quan trọng bởi vì nhận dạng ảnh chính là nhận dạng các phần tử đại diện này Hiện nay các đối tượng chính được sử dụng để đại diện cho ảnh là các phần tử rời rạc, hàm mật độ xác suất và khoảng (Haraclick, 1979; Erbug and Adil, 2000; Hiremath et al., 2007; Tan et al 2011; Park et al 2014) Các tác giả Garg et al (2021) đã kết hợp ma trận đồng hiện mức xám (GLCM) nhằm giảm chiều và trích xuất đặc trưng kết cấu để tạo dữ liệu rời rạc cho bài toán phân loại ảnh Ha và cộng sự (2020) đã sử dụng hàm cực đại của các hàm mật độ xác suất được xây dựng từ trích xuất đặc trưng ảnh cho bài toán nhận diện gương mặt Mỗi loại trích xuất này đều có những ưu điểm riêng cho những trường hợp cụ thể, chưa có kiểu trích xuất nào được xem là tối ưu cho mọi trường hợp (Zhang et al., 2018) Mặc dù việc trích xuất ảnh thành hàm mật độ xác suất để thực hiện bài toán phân tích chùm đã được một số nghiên cứu gần đây thực hiện [], tuy nhiên sử dụng cho bài toán phân loại vẫn chưa được xem xét.

Tài liệu tham khảo

1 Erbug C., Adil A (2000) Clustering of texture features for content-based image retrieval Lecture Notes in Computer Science, 1909, 216-225

2 Cristianini N (2000) An introduction to support vector machines and other kernel-based learning methods, Cambridge University press

3 Fisher, R A (1938) The statistical utilization of multiple measurements, Annals of Eugenics, 8, 376–386

4 Garg M and Gaurav D (2021) A novel content-based image retrieval approach for classification using GLCM features, and texture fused LBP variants Neural Computing and Applications, 33, 1311-1328.

5 Ha C N., Thao N T., Tran N B., Trung N T., Tai V V (2020) A new approach for face detection using the maximum function of probability density functions Annals of Operations Research, https://doi.org/10.1007/s10479-020-03823-1

6 Huang, S., N Cai, P P Pacheco, S Narrandes, Y Wang, W Xu (2018) Applications of

Trang 7

support vector machine (SVM) learning in cancer geometrics Cancer Genomics-Proteomics, 15, 41–51

7 Haraclick R M (1979) Statistical and structural approaches to texture Proceedings of the IEEE, 67, 786–804

8 Kung, J Y., Wu C Hsu C., Lee S Y S., Yang C W (2010) Application of logistic regression analysis of home mortgage loan prepayment and default risk ICIC Express Letters, 4, 325–331 9 Miller G., Inkret W., Little T., Martz H., Schillaci M (2001) Bayesian prior probability

distributions for internal dosimetry Radiation Protection Dosimetry, 94, 347–352

10 Nhu V H., Zandi D., Shahabi H., Chapi K., Shirzadi A., Al-Ansari N., Singh S K., Dou J., Nguyen, H (2020) Comparison of support vector machine, Bayesian logistic regression, and alternating decision tree algorithms for shallow landslide susceptibility mapping along a mountainous road in the west of Iran Applied Sciences, 10, 5047

11 Pham-Gia T., Turkkan N., Bekker A (2007) Bounds for the Bayes error in classification: a bayesian approach using discriminant analysis Statistical Methods and Applications, 16, 7–26 12 Pham B.T., Pradhan B., Bui D T., Prakash I., Dholakia M (2016) A comparative study of different machine learning methods for landslide susceptibility assessment: A case study of uttarakhand area (India) Environmental Modelling & Software, 84, 240–250

13 Pham-Gia T., Turkkan N., Vovan T (2008) Statistical discrimination analysis using the maximum function Communications in Statistics – Simulation and Computation, 37, 320–336 14 Tan, W R., Chan, C S., Yogarajah, P., Condell, J (2011) A fusion approach for efficient

human skin detection, IEEE Transactions on Industrial Infor- matics, 8, 138 – 147

15 Zhao, D., Liu, H., Zheng, Y., He, Y., Lu, D., Lyu, C (2019) A reliable method for colorectal cancer prediction based on feature selection and support vector machine Medical & Biological Engineering & Computing, 57, 901–912

16 Zhang, N., Ruan, S., Lebonvallet, S., Liao, Q., Zhu, Y (2018) Kernel feature selection to fuse multi-spectral MRI images for brain tumor segmentation Computer Vision and Image

Trang 8

Understanding, 155, 256–269

17 Chen J, Shan S, He C et al (2009) Wld: Arobust local image descriptor IEEE transactions on pattern analysis and machine intelligence 32(9): 1705–1720

18 Hiremath P, Pujari J (2007) Content based image retrieval based on color, texture and shape features using image and its complement Int J of Computer Science and Security 1(4): 25–35 19 Park S., Lee J W., Kim S K (2014) Content-based image classification using a neural

network Pattern Recognition Letters, 25.3: 287-300.

20 Vijaya L Balasub R., Mohan V (2016) Kernel-based PSO and FRVM: An automatic plant leaf type detection using texture, shape, and color features Computers and Electronics in Agriculture, 125: 99-112.

21 Yang, B., Hu, S., Guo, Q., Hong, D (2022) Multisource domain transfer learning based on spectral projections for hyperspectral image classification IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 15: 3730-3739

10.1 Trong nước

Về lý thuyết, bài toán phân loại chủ yếu được phát triển bởi phương pháp Bayes dựa trên việc cải tiến xác suất tiên nghiệm và ước lượng hàm mật độ xác suất với các công trình tiêu biểu là (Tai, 2017; Tai et al., 2018; Tai, 2019; Thao and Tai, 2017; Tai et al., 2021) Một số nghiên cứu cũng đề cập đến việc trích xuất ảnh thành dữ liệu rời rạc hoặc khoảng dựa trên màu sắc hoặc ma trận đồng hiện mức xám để thực hiện bài toán phân tích chùm (Dinh et al., 2021; Ngoc et al., 2021)

Về ứng dụng, có nhiều ứng dụng cụ thể được thực hiện dựa trên các phương pháp phân loại phổ biến và các phần mềm có sẵn để thực hiện Vương Qưân Hoàng, Đào Gia Hưng, Nguyễn Văn Hữu (2008), Tai (2017) đã áp dụng bài toán phân loại trong kinh tế Một số tác giả khác cũng đã áp dụng bài toán phân loại trong y học, trong ngân hàng và trong nhận dạng ảnh (Nghi, 2015; Tai 2017) Chúng tôi cũng chưa tìm thấy ứng dụng phân loại ảnh dựa vào hàm mật độ xác suất được trích xuất.

Tài liệu tham khảo

Trang 9

1 Vương Quân Hoàng, Đào Gia Hưng, Nguyễn Văn Hữu (2008), Phương pháp thống kê xây dựng mô hình định mức tín nhiệm khách hàng thế nhân, Tạp chí ứng dụng toán học 4(2): 1-16.

2 Dinh P T., Khanh N H., Tai V V (2021) Fuzzy clustering algorithm for outlier-interval data

based on the robust exponent distance Applied Intelligence https://doi.org/10.1007/s10489-

021-02773-3 Đổng Yến Nghi (2015) Một số ứng dụng của bài toán phân loại trong y học Đề tài cấp cơ sở Trường Đại học Cần Thơ.

4 Ngoc L T K., Tuan, L H., Tai V V (2021) Automatic clustering algorithm for interval data based on overlap distance Communications in Statistics - Simulation and Computation https:// doi.org//10.1080/03610918.2021.1900248

5 Tai, V.V (2017) L1 – distance and classification problem by Bayesian method Journal of Applied Statistics, 44, 385–401

6 Tai V.V., Loc, T.P., Ha, C.N (2018) Classifying two populations by Bayesian method and applications Communications in Mathematics and Statistics, 7, 141 – 161

7 Tai, V.V (2019) Some results of classification problem by Bayesian method and application in credit operation Statistical Theory and Related Fields, 2, 150 – 157

8 Tai V V., Ha C N., Thao N T (2021) A New Strategy for Short-Term Stock Investment Using Bayesian Approach Computational Economics, 1-25

9 Thao, N T., Tai, V V (2017) A new approach for determining the prior probabilities in the classification problem by Bayesian method Advances in Data Analysis and Classification, 11, 629–643

10 Võ Văn Tài (2017) Phân loại bằng phương pháp Bayes và bài toán đánh giá khả năng trả nợ vay ngân hàng Tạp chí Ứng dụng toán học, 10(2): 25-43

11 Võ Văn Tài, Nguyễn Trang Thảo, Chế Ngọc Hà (2017) Nhận dạng kết cấu bề mặt của các hình ảnh bằng phương pháp phân loại Bayes Tạp chí Ứng dụng toán học 10(2): 85-97

10.3 Danh mục các công trình đã công bố thuộc lĩnh vực của đề tài của chủ nhiệm và những thành

Trang 10

viên tham gia nghiên cứu a) Của chủ nhiệm đề tài Không

b) Của các thành viên tham gia nghiên cứu Không

Trang 11

11 TÍNH CẤP THIẾT CỦA ĐỀ TÀI

Từ các phân tích trên ta có thể khẳng định rằng phân loại là bài toán chưa có lời giải cuối cùng Vì nó là nền tảng cho cách mạng số, trí tuệ nhân tạo nên được rất nhiều nhà thống kê, khoa học dữ liệu và công nghệ thông tin quan tâm Hiện có rất nhiều phương pháp theo hướng thống kê, học máy và học sâu được cải tiến liên tục các năm qua, tuy nhiên còn rất nhiều khe hở cần phải giải quyết Cụ thể bài toán phân loại hàm mật độ xác suất và ứng dụng cho dữ liệu ảnh vẫn chưa được quan tâm Phân loại cho đối tượng này hứa hẹn tiềm năng mở rộng lý thuyết và tăng hiệu quả ứng dụng thực tế Cụ thể các vấn đề sau cần được phát triển:

- Cải tiến việc tìm xác suất tiên nghiệm dựa vào kỹ thuật phân tích chùm mờ cho PDF, tìm kiếm một độ đo thích hợp đánh giá sự tương tự của của một phần tử được phân loại với các nhóm đã cho, từ đó đề xuất một nguyên tắc phân loại mà nó có ưu điểm hơn các phương pháp khác qua các tiêu chuẩn đánh giá trên nhiều tập dữ liệu đối chứng

- Ứng dụng phương pháp phân loại đề nghị cho dữ liệu ảnh khi các đặc trưng của chúng được đại diện bởi các PDF So sánh sự hiệu quả của thuật toán phân loại đề nghị với các thuật toán khác của thống kê truyền thống, học máy, học sâu trên những tập dữ liệu ảnh lớn của y học, kinh tế và môi trường.

Đề tài thực hiện có thể đóng góp thêm về mặt lý thuyết cho bài toán phân loại và có thể cải tiến kết quả phân loại cho một số trường hợp cụ thể Ngoài các ứng dụng trong y học của đề tài, kết quả nghiên cứu này có thể áp dụng cho nhiều lĩnh vực khác được đòi hỏi ngày nay trong sự phát triển kinh tế của đất nước.

12 MỤC TIÊU ĐỀ TÀI

- Đề nghị thuật toán phân loại cho hàm mật độ xác suất dựa trên sự cải tiến phương pháp tìm xác suất tiên nghiệm, độ đo đánh giá sự tương tự và phương pháp Bayes.

- Ứng dụng thuật toán đề nghị cho dữ liệu ảnh có hiệu quả hơn một số thuật toán phổ biến cho một số trường hợp cụ thể.

13 ĐỐI TƯỢNG, PHẠM VI NGHIÊN CỨU

đề tài phân loại mật độ xác suất và áp dụng cho dữ liệu ảnh

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan