Phân loại hình ảnh bằng phương pháp xác suất tiên nghiệm bayes cải tiến và hàm mật độ xác suất được trích xuất

Article Phân loại hình ảnh phương pháp xác suất tiên nghiệm Bayes cải tiến hàm mật độ xác suất trích xuất Trần Nam Hưng 1,† † E-mail: hungb1906052@student.ctu.edu.vn Khoa Khoa học Tự nhiên, Đại học Cần Thơ Abstract: Tổng quan: Dựa việc trích xuất đặc trưng kết cấu, khoảng liệu từ ma trận đồng mức xám (GLCM) trích xuất hàm mật độ xác suất dựa vào tần số điểm ảnh, nghiên cứu đề xuất thuật toán phân lớp Bayes cho hình ảnh thuốc Pills QC với hai cải tiến – xác định xác suất tiên nghiệm ước lượng hàm mật độ xác suất; Phương pháp: phân lớp Bayes cho hai tổng thể hình ảnh thuốc chuẩn thuốc bị nhiễm bẩn cho kết sai số Bayes cách nhanh chóng chương trình MATLAB dựa vào nguyên tắc phân lớp Bayes; Kết quả: phân loại đạt đến 97% Kết luận: Thực nghiệm cho thấy thuật tốn phân lớp Bayes chứng minh tính ưu việt so với phương pháp phân loại công bố trước cho thấy tiềm ứng dụng thực tế cao lĩnh vực phân loại hình ảnh y tế nhà thống kê y sinh đặc biệt quan tâm Citation: Trần Nam Hưng Hung T.N Journal Not Specified 2022, 1, https://doi.org/ Received: Ngày 30 tháng năm 2022 Accepted: Published: Publisher’s Note: MDPI stays neutral with regard to jurisdictional claims in published maps and institutional affiliations Copyright: © 2022 by the authors Keywords: Bayes method, Bayes error, Convolutional Neural Network, Image Classification 10 Giới thiệu 11 Phân loại hình ảnh tác vụ thời đại khoa học cơng nghệ chuyển đổi số với đa lĩnh vực ứng dụng cho hiệu đáng kinh ngạc thập kỷ qua Đây bước ngoặc lớn nghiên cứu ngành thống kê nhiều chiều khoa học liệu ngày Vì tốn có nhiều ứng dụng đa lĩnh vực nên nhiều nhà thống kê công nghệ thông tin quan tâm Với phát triển mạnh mẽ thiết bị ghi hình, chụp ảnh hình ảnh trở nên phổ biến từ trở thành liệu đầu vào cho nhiều ứng dụng thực tế Ngồi ra, cơng nghệ AI ngồi hướng xử lý ngơn ngữ tự nhiên tín hiệu âm xây dựng trợ lý ảo (như Siri, Google Assistant hay Alexa), cịn có ứng dụng mạnh mẽ vào xử lý hình ảnh Trên thực tế 10 năm trở lại đây, phân loại ảnh, ứng dụng thực tiễn đa lĩnh vực an ninh, bảo mật, môi trường, giao thông, hay robotics, đặc biệt quan tâm y sinh, dùng để chẩn đoán bệnh dựa phim chụp X-quang, X-rays hay ảnh chụp cắt lớp MRI Phân loại ảnh y tế cung cấp cho bác sĩ kỹ thuật viên nhiều công cụ mạnh mẽ từ sản phẩm AI nhằm tăng cao chất lượng dịch vụ chăm sóc y tế Phân loại ảnh trở thành tảng quan trọng thể thiếu cách mạng số Về thuật toán phân loại, có nhiều phương pháp tiếng cơng bố sử dụng phổ biến phương pháp Fisher, phân tích nhận dạng bậc hai (QDA), hồi quy Logistic, Naive Bayes, máy học véctơ hỗ trợ nhiều chiều (Multi-SVM), nhiều mạng Neutron tích chập phương pháp Bayes (Fisher, 1938; Cortes & Vapnik, 1995; Bedford & Cooke, 2002) Theo Ha et al (2020), Thao Tai (2017) chưa có phương pháp thật tối ưu cho tất liệu đầu vào Nhìn chung, mơ hình phân loại nghiên cứu theo nhiều hướng khác từ mơ hình học máy học sâu, tảng lại dựa phương pháp thống kê cổ điển Phương pháp học máy đại nhanh cho độ xác cao, nhiều lựa chọn nhà nghiên cứu Nhưng gặp phải vấn đề cỡ mẫu lớn tình trạng khớp liệu Phương pháp học sâu có khuyết điểm thời gian đào tạo mơ hình lâu tốn nhiều dung lượng Đặc biệt, phương pháp Bayes dù cổ điển cải tiến hàm mật độ xác suất tiên nghiệm Báo cáo Phân loại Phân tích chùm Ngày 30 tháng năm 2022 https://www.mdpi.com/journal/notspecified 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 Báo cáo Phân loại Phân tích chùm, Ngày 30 tháng năm 2022 of 13 để phân loại vừa nhanh, xác nhẹ nhàng, thích hợp cho nhiều số liệu thực tế Phương pháp Bayes cịn phân loại cho hai tổng thể nhiều hai tổng thể với thời gian huấn luyện ngắn mà không chịu hạn chế giả thiết phân phối chuẩn liệu nên đánh giá có nhiều ưu điểm (Ha et al., 2020) Tuy vậy, phương pháp chưa áp dụng nhiều thực tế so với phương pháp khác Ảnh hưởng trực tiếp đến khả ứng dụng phương pháp Bayes vấn đề ước lượng tham số hay yếu tố đầu vào từ số liệu thực Cụ thể việc xác định xác suất tiên nghiệm ước lượng hàm mật độ xác suất (PDFs) Xác suất tiên nghiệm thường lập nên dựa vào kinh nghiệm hiểu biết nhà nghiên cứu, cập nhật kết luận thống kê trước đối tượng quan sát Một số xác suất tiên nghiệm thường thấy xem xét áp dụng phân phối đều, tỉ lệ mẫu, phương pháp Laplace Tuy nhiên chúng phù hợp cho liệu mà chưa phải tối ưu cho tất (Pham-Gia et al 2007, 2008) Bên cạnh xác suất tiên nghiệm, thực phân loại phương pháp Bayes, phải ước lượng hàm mật độ xác suất đại diện cho tổng thể Mặc dù có nhiều cải tiến khác theo khía cạnh lý thuyết lẫn thực nghiệm, tồn đọng nhiều hạn chế liệu lưu trữ có tính chất khác biến (Thao Tai, 2017) Ngoài hai vấn đề trên, phức tạp tính tốn xác định hàm cực đại, tính tích phân không gian nhiều chiều cản trở việc áp dụng thực tế phương pháp (Ha et al 2020) Về lý thuyết, toán phân loại chủ yếu phát triển phương pháp Bayes dựa việc cải tiến xác suất tiên nghiệm ước lượng hàm mật độ xác suất với công trình tiêu biểu (Tai, 2017; Tai et al., 2018; Tai, 2019; Thao and Tai, 2017; Tai et al., 2021) Một số nghiên cứu đề cập đến việc trích xuất ảnh thành liệu rời rạc khoảng dựa màu sắc ma trận đồng mức xám để thực tốn phân tích chùm (Dinh et al., 2021; Ngoc et al., 2021) Về ứng dụng, có nhiều ứng dụng cụ thể thực dựa phương pháp phân loại phổ biến phần mềm có sẵn để thực Vương Qưân Hồng, Đào Gia Hưng, Nguyễn Văn Hữu (2008), Tai (2017) áp dụng toán phân loại kinh tế Một số tác giả khác áp dụng toán phân loại y học, ngân hàng nhận dạng ảnh (Nghi, 2015; Tai 2017) Chúng chưa tìm thấy ứng dụng phân loại ảnh dựa vào hàm mật độ xác suất trích xuất Đối với việc trích xuất hình ảnh, nay, hình ảnh thường trích xuất dạng phần tử rời rạc hay khoảng liệu, chưa tìm thấy ứng dụng phân loại ảnh dựa vào hàm mật độ xác suất Đây hướng cải tiến xác suất sai lầm Bayes vượt qua phương pháp phân loại phổ biến Bài báo cáo tập trung vào mục đích phân loại hình ảnh số trạng thái thuốc Pills QC Bằng cách khảo sát nhiều mơ hình phân loại từ cổ điển đến đại, đề xuất cách trích xuất hình ảnh hàm mật độ xác suất xây dựng mơ hình tiên nghiệm Bayesian nhằm chứng minh mơ hình tốt có thời gian đào tạo kiểm tra hình ảnh cách hợp lý Với chương trình phần mềm Matlab đựợc thiết lập, thuật tốn đề nghị áp dụng cho vấn đề thực tế khác Phần viết cấu trúc sau Phần trình bày phương pháp phân loại Bayes cho hai tổng thể số vấn đề liên quan xây dựng thuật toán xác định xác suất tiên nghiệm dựa vào phương pháp phân tích chùm mờ Phần trình bày số tiêu chuẩn kiểm đinh chất lượng mơ hình phân loại Các phương pháp trích xuất hình ảnh thảo luận phần với ba kiểu trích xuất Phần 6-7 trình bày liệu nghiên cứu mục tiêu thuật toán đề nghị Phần áp dụng thuật toán đề nghị phương pháp phân loại khác Cuối kết luận Nguyên tắc phân loại Cho hai lớp {ω1 , ω2 } với X = { X1 , X2 } liệu liên tục d-chiều, x = { x1 , x2 } mẫu cụ thể Ngoài ra, đặt p(x | ωi ) p(ωi ) hàm likelihood Rd xác suất tiên nghiệm lớp ωi có, tương ứng i = 1, 2, với điều kiện p(ω1 ) + p(ω2 ) = Theo Pham Gia el al (2008), Thao Tai (2017), Thao (2018), quy tắc phân loại theo xác suất 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 Báo cáo Phân loại Phân tích chùm, Ngày 30 tháng năm 2022 of 13 phát biểu sau: xếp quan sát x0 vào lớp thứ ω j xác suất lớp đó, p(ω j | x), lớn tất lớp khác, tức max{ p(ω1 ) p(x | ω1 ) , p(ω2 ) p(x | ω2 )} = p(ωi ) p(xωi ), i = 1,2 Hình minh họa việc phân loại phần tử x0 vào hai tổng thể với liệu rời rạc ước lượng hàm mật độ xác suất Ở ta không quan tâm đến xác suất tiên nghiệm tiên nghiệm cho trước tuân theo phân phối Ta dễ thấy biến quan sát x nằm khoảng A, ta xếp x vào tổng thể ω1 Nói cách khác f ( x0 ) > f ( x0 ) xếp phần tử vào tổng thể ω1 ngược lại 87 88 89 90 Minh h a phân l p Bayes cho hai t ng th (x| 1) ( 1) (x| 1) ( 2) Kho ng x x p vào 0.200 0.175 (x| 1) ( 1) 0.150 0.125 0.100 0.075 0.050 0.025 0.000 A x Hình Minh họa hàm qi f i (x) phân loại hai lớp ω1 ω2 Tổng thể ω1 tuân theo phân phối i.i.d Gaussian với trung bình µ = phương sai σ = , f (x) ∼ N (0 , 1) Tổng thể ω2 tuân theo phân i.i.d phối chuẩn kết hợp, f (x) ∼ 0.6N (1 , 1) + 0.4N (−1 , 2) Xác suất tiên nghiệm qua tổng thể q1 = q2 = 0.5 91 Xác suất tiên nghiệm dựa theo phân tích chùm mờ Trong nghiên cứu cổ điển, xác suất tiên nghiệm thường xác định từ kinh nghiệm hiểu biết nhà nghiên cứu, dựa tài liệu mang tính thống kê cơng bố tốn phân loại Thơng thường, trường hợp thiếu thông tin tiền nghiệm, xác suất tiên nghiệm chọn theo phân phối đều: p(ω1 ) = p(ω2 ) = 21 Khi ta dựa vào tập huấn luyện xác suất tiên nghiệm xác xác định theo tỷ lệ đóng góp phần tử tổng thể, tức p(ωi ) = ni /N phương pháp Laplace p(ω1 ) = (ni + d/C )/( N + d), ni số phần tử tổng thể ωi , d số chiều, C số tổng thể N số phần tử tập liệu Tất phương pháp tìm xác suất tiên nghiệm dựa vào tính chủ quan nhà nghiên cứu tập huấn luyện mà không xem xét đến mối quan hệ phần tử cần phân loại x0 tổng thể ωi Nghiên cứu cải tiến việc tìm xác suất tiên nghiêm dựa vào thuật tốn phân tích chùm mờ, xác suất tiên nghiệm vào mối quan hệ mờ phần tử cần phân loại tổng thể 92 93 94 95 96 97 98 99 100 101 102 103 104 105 Báo cáo Phân loại Phân tích chùm, Ngày 30 tháng năm 2022 of 13 Algorithm Xác suất tiên nghiệm mờ Cho hai tổng thể ảnh w1 w2 với số lượng n1 n2 (n1 + n2 = N ) ảnh cần phân loại I0 , thuật tốn tìm xác suất tiên nghiệm phân tích chùm mờ phân loại ảnh I0 đề nghị gồm bước sau: Thành lập ma trận phân vùng thời điểm t = bi ma trn U = [àij ](2ì( N +1) , N cột xác định theo nguyên tắc µij = phần tử thứ j thuộc tổng thể ωi , ngược lại, đặt µij = Trước nhất, ta chọn xác suất phân loại µij phân phối while S > ε Tính phần tử đại diện (0) vi = N ∑k=1 (µik )m zk N ∑ (µik )m , ≤ i ≤ k =1 đó, tham số m ∈ [1 , ∞) tham số xác định độ mờ, zik phần tử thứ k tổng thể i, µik xác suất thuộc tổng thể i phần thử thứ k Tính ma trận khoảng cách [Dij ] (Khoảng cách phần tử đại diện với phần tử chùm qua công thức khoảng cách Dij2 (z j , vi ) = ∥z j − vi ∥2 Cập nhật ma trận U (new) quy tắc sau if Dik= j > then (new) , với i ̸= j = , µij = ∑ j=1 (Dij /D jk )2/(m−1) else (new) µij =0 end (new) Tính St = ∥U (new) − U ∥ = max{|µik end − µik } Đối với thuật tốn trên, ta có Tham số ε số nhỏ chọn tùy ý Khi ε nhỏ thời gian vịng lặp thực lâu Thơng thường, chọn ε = 0.01 10−5 ứng dụng Ma trận khoảng cách Dik dựa ma trận A Khi A ma trận đơn vị I Dik ma trận khoảng cách Euclide Tham số m tham số đặc trưng cho độ mờ kết phân tích chùm, m = phân tích chùm mờ trở thành không mờ (non-fuzzy clustering), m tiến đến vô cùng, xác suất phần tử thuộc vào chùm 1c Tuy tham số m ảnh hưởng trực tiếp đến kết phân tích chùm làm để xác định tham số mờ cách hợp lý vấn đề khó Mặc dù có nhiều tác giả quan tâm đến vấn đề này, chưa có phương pháp cho tối ưu Trong ứng dụng này, người ta thường lấy m từ đến 10 Kết thúc bước ta nhận kết ma trận phân vùng có kích thước × ( N + 1) Cột cuối ma trận xem xác suất tiên nghiệm xếp I0 vào hai tổng thể tương ứng Tiêu chuẩn kiểm định mơ hình phân loại Phần cung cấp vài độ đo đánh giá chất lượng mơ hình sử dụng báo cáo nhằm kiểm định hiệu mơ hình, kiểm sốt điều chỉnh thuật toán đạt hiệu tối ưu đáp ứng mục tiêu thiết lập mơ hình xác 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 Báo cáo Phân loại Phân tích chùm, Ngày 30 tháng năm 2022 of 13 Xác suất phân loại toàn cục: metric biểu diễn xác suất xảy trường hợp phân loại toàn mẫu liệu ACC% = 126 127 TN + TP , TN + TP + FN + FP đó, TP số ảnh thuốc chuẩn phân loại TN số ảnh thuốc bẩn phân loại Ngược lại FP số ảnh thuốc chuẩn bị phân loại sai FN số ảnh thuốc bẩn bị phân loại sai 128 129 130 Độ xác Precision = Chỉ số F1 F1 = × TP TP + FP 1 + Recall Precision Hệ số Kappa κ = 1− − p0 − pe Để nhìn nhận độ xác mơ hình, tiêu chí phổ biến kiểm định hiệu mơ hình phân loại xác suất phân loại toàn cục Đơn giản tỉ lệ tất trường hợp phân loại toàn trường hợp mẫu kiểm định nên giá trị thực dụng thường khơng đặc hiệu cho mục tiêu Trong xây dựng mô hình, tính xác1 , tính tương hợp cao chứng minh cho mơ hình mạnh tốt Vì hầu hết mơ hình có tính chất ngẫu nhiên nên đánh giá tất mô hình dự đốn với số lần lấy mẫu ngẫu nhiên 50 lần báo cáo hiệu suất trung bình liệu hình ảnh thử nghiệm Ngồi ra, báo cáo cịn nhìn nhận yếu tố tiện ích quan tâm đến thời gian đào tạo mơ hình thời gian dự đốn hình ảnh Ở đây, thời gian đào tạo nhanh với thời gian phân loại ảnh chứng tỏ mơ hình nhạy 131 132 133 134 135 136 137 138 139 140 141 Phương pháp trích xuất hình ảnh 142 5.1 Trích xuất đặc trưng kết cấu ảnh 143 Ma trận đồng mức xám (GLCM) hình ảnh I có cấp M × N có mức xám G ma trận hai chiều P cấp G × G Mỗi phần tử p(i, j) ma trận đại diện cho tần số xuất giá trị cường độ sáng giống i j khoảng cách d góc định hướng xác định θ Cơng thức tính giá trị cụ thể cho phần tử p(i, j) sau 144 145 146 147 pdθ (i , j) = #{((r , c) , (r ′ , c′ )) ∈ M × N | d = ∥(r , c) , (r ′ , c′ )∥ , θ = Θ((r , c) , (r ′ , c′ )) , I (r , c) = i , I (r ′ , c′ ) = j} Haralick (1979) đề xuất đến 14 đặc trưng kết cấu tính từ ma trận đồng mức xám (GLCM) Tuy vậy, phần lớn nhà nghiên cứu sử dụng từ loại trích xuất đặc trưng quan trọng đại diện cho kết cấu (Thao Tai, 2017; Zhang et al., 2018) Đó đặc trưng lượng, độ đồng nhất, độ tương phản độ tương quan Cách tính đặc trưng trình bày Bảng 148 149 150 151 152 Báo cáo Phân loại Phân tích chùm, Ngày 30 tháng năm 2022 of 13 Bảng Một số đặc trưng kết cấu phổ biến theo Thao and Tai (2017) Kết cấu Công thức Correlation coefficient Homogeneity Contrast Energy Khoảng giá trị (i −µi )( j−µ j ) p(i ,j) ∑i,j δi δj p(i ,j) ∑i,j 1+|i− j| ∑i,j |i − j|k pl (i , j) ∑i,j p2 (i , j) [0, (size( GLCM, 1) − 1)2 ] [−1 , 1] [0 , 1] [0 , 1] Dữ liệu nghiên cứu 153 Bài báo cáo sử dụng liệu hình ảnh có tên PillsQC có sẵn chương trình MATLAB phiên 2021b chứng minh việc kiểm tra trực quan kiểm soát chất lượng liên quan đến sản xuất thuốc viên PillsQC ảnh chụp loại thuốc ba trạng thái khác thuốc bình thường (chuẩn), thuốc bị bẩn (dơ) thuốc bị mẻ bể (bể) Đại diện ba loại thuốc hiển thị hình ?? Dữ liệu có số ảnh nhãn định sẵn mô tả bảng Bài báo cáo sử dụng hai ba nhãn để xây dựng mơ hình phân loại hai lớp loại thuốc chuẩn (được mã hóa 0) thuốc bị nhiễm bẩn (được mã hóa 1) 154 155 156 157 158 159 160 Bảng Bảng thông tin liệu ảnh PillsQC với kích thước mã hóa cho mơ hình phân loại Nhãn Số ảnh Phần trăm Kích thước Mã hóa Chuẩn Nhiễm bẩn Mẻ/bể 149 138 43 45.2 41.8 13.0 225 × 225 225 × 225 225 × 225 – (a) Thuốc chuẩn (b) Thuốc nhiễm bẩn Hình Một vài ảnh ví dụ liệu hình ảnh PillsQC (c) Thuốc mẻ/bể Mục tiêu phương pháp Phương pháp đề xuất nghiên cứu bao gồm ba phần chính: Tiền xử lý hình ảnh (Trích xuất đặc trưng ảnh), xây dựng mơ hình phân loại ảnh, áp dụng phân loại cho hình ảnh Báo cáo sử dụng liệu ảnh Phần đầu tiên, để xử lý hình ảnh ta thực ba bước: trích xuất hình ảnh, chuẩn hóa liệu chia liệu Phần thứ hai xây dựng mơ hình phân loại bao gồm ba bước: Tối ưu hóa mơ hình phân loại, đào tạo mơ hình đánh giá chất lượng Mơ hình tối ưu hóa siêu tham số tốt đào tạo thông qua siêu tham số Mơ hình đào tạo đánh giá chất lượng tập ảnh kiểm tra so sánh với nhãn thực tế Phần ba áp dụng 50 lần, mơ hình phân loại lần kiểm định Hình mơ tả tồn q trình thực Phrase Tiền xử lý hình ảnh Trích xuất Ta tiến hành trích xuất liệu thành đặc trưng kết cấu, khoảng liệu hàm mật độ xác suất Tất hình ảnh chuyển đổi từ ảnh màu thành ảnh trắng đen Đối với đặc trưng kết cấu, 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 Báo cáo Phân loại Phân tích chùm, Ngày 30 tháng năm 2022 of 13 Bảng Bảng kết phân chia liệu Nhóm Tập liệu Tập huấn luyện (%) Tập kiểm tra (%) Y=0 Y=1 149 138 122 (53.04) 108 (46.96) 27 (47.37) 30 (52.63) bốn đặc trưng có cơng thức khoảng giá trị từ bảng Đối với trích xuất đặc trưng khoảng, Đối với trích xuất hình ảnh thành hàm mật độ xác suất, báo sử dụng thêm lệnh histeq nhằm cân tần số Sau chúng tơi sử dụng phương pháp hàm hạt nhân để xây dựng hàm mật độ xác suất cho tần số điểm ảnh Kết trích xuất hình ảnh thể cách thống kê, kết cấu 3a, khoảng liệu 3b hàm mật độ xác suất 3c Chuẩn hóa Các dạng liệu kết cấu hàm mật độ chuẩn hóa đoạn [0 , 1] Chia liệu Dữ liệu sau trích xuất theo loại khác chia thành hai tập huấn luyện tập kiểm tra với tỷ lệ 80% 20% Chúng tạo mẫu ngẫu nhiên chéo với 50 mẫu ngẫu nhiên Bảng trình bày kết chia liệu với mẫu ngẫu nhiên Phrase Xây dựng mơ hình phân loại Tối ưu Mỗi mơ hình phân loại tối ưu hóa siêu tham số tự động lựa chọn biến số hợp lý Đào tạo Các mơ hình phân loại đào tạo sử dụng siêu tham số tối ưu tập huấn luyện với 200 ảnh đánh giá từ hai lớp Mơ hình đánh giá sơ tập liệu tính tốn thời Đánh giá gian đào tạo Phrase Áp dụng phân loại hình ảnh Phân loại Mơ hình với siêu tham số tối ưu đánh giá số tiêu chuẩn đánh giá chất lượng mơ hình Thuật tốn phân loại tóm tắt hình Để đánh giá mơ hình có sở, câu hỏi nghiên cứu sau nêu lên RQ1 RQ2 Hiệu suất mơ hình phân loại đề xuất tốt so với mơ hình sở việc phân loại ảnh dựa liệu thử nghiệm? Tối ưu thời gian đào tạo thời gian kiểm nghiệm mơ hình bao lâu? 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 Báo cáo Phân loại Phân tích chùm, Ngày 30 tháng năm 2022 of 13 205 Phrase Tiền xử lý hình ảnh Trích xuất hình ảnh Hình ảnh Y tế Chia liệu Phrase Xây dựng mơ hình phân loại Phương pháp đề suất FCM Bayes Các phương pháp khác Machine Learning Deep Learning Tối ưu hóa mơ hình Đào tạo mơ hình ACC% Huấn luyện Phrase Áp dụng phân loại hình ảnh Phương pháp đề suất ACC% Kiểm tra Hình ảnh Các phương pháp khác 206 Các kết 207 8.1 Trích xuất hình ảnh 208 Hình ảnh kết trích xuất mơ tả hình 8.2 Đánh giá mơ hình Phần sử dụng tiêu chuẩn kiểm định chất lượng mơ hình để tìm mơ hình có xác suất phân loại đúng, số F1, độ xác cục bộ, hệ số Kappa thời gian đào tạo mô hình tốt 209 210 211 212 213 Báo cáo Phân loại Phân tích chùm, Ngày 30 tháng năm 2022 (a) Các đặc trưng kết cấu liệu (b) Khoảng liệu trích xuất (c) Các hàm mật độ xác suất tập liệu hình ảnh PillsQC cần tần số chuẩn hóa đoạn [0 , 1] Các hàm PDFs có màu xanh trích xuất từ ảnh thuốc chuẩn, hàm PDFs màu đỏ thể cho hình ảnh bị nhiễm bẩn Hình Mơ tả trực quan loại trích xuất hình ảnh of 13 Báo cáo Phân loại Phân tích chùm, Ngày 30 tháng năm 2022 10 of 13 Bảng Kết phân loại hình ảnh cho mơ hình phân loại cho liệu trích xuất thành đặc trưng kết cấu Mơ hình Fuzzy Bayes Kernel (Tai V.V 2021) Fuzzy Bayes Copulas (Tai V.V, 2021) Fine Tree Medium Tree Coarse Tree FDA (Linear Discriminant) QDA (Quadratic Discriminant) Logistic Regression Naăve Bayes Gaussian Naăve Bayes Kernel SVM Linear SVM Quadratic SVM Cubic SVM Fine Gaussian SVM Medium Gaussian SVM Coarse Gaussian KNN Fine KNN Medium KNN Cosine KNN Coarse KNN Cubic KNN Weight Boost Trees Bagged Trees Subspace Discriminant Subspace KNN RUSBootsed Trees Narrow Neural Network Medium Neural Network Wide Neural Network Bilayered Neural Network Trilayered Neural Network SVM Kernel Logistic Regression Kernel Optimizable Tree Optimizable Discriminant Optimizable Naăve Bayes Optimizable SVM Optimizable KNN Optimizable CNN ACC% F1-score Precision Kappa Thời gian 72.2 71.8 66.7 75.4 70.2 77.2 77.2 77.2 73.7 80.7 78.9 75.4 75.4 71.9 77.2 78.9 80.7 70.2 75.4 77.2 75.4 71.9 70.2 78.9 77.2 70.2 71.9 75.4 75.4 75.4 68.4 73.7 68.4 68.4 78.9 77.2 80.7 80.7 80.7 75.4 0.824 0.812 0.686 0.626 0.774 0.751 0.741 0.75 0.740 0.703 0.766 0.746 0.709 0.718 0.745 0.735 0.698 0.728 0.727 0.734 0.711 0.689 0.689 0.704 0.731 0.682 0.675 0.736 0.713 0.705 0.705 0.717 0.516 0.652 0.726 0.751 0.751 0.756 0.746 0.764 0.849 0.824 0.689 0.608 0.828 0.730 0.705 0.738 0.771 0.689 0.748 0.746 0.689 0.689 0.730 0.705 0.721 0.746 0.697 0.713 0.738 0.68 0.689 0.730 0.713 0.721 0.664 0.730 0.721 0.697 0.713 0.378 0.525 0.732 0.705 0.730 0.705 0.738 0.721 0.754 0.563 0.523 0.328 0.218 0.480 0.487 0.480 0.477 0.421 0.409 0.496 0.459 0.4 0.427 0.469 0.462 0.334 0.405 0.444 0.452 0.360 0.346 0.337 0.342 0.443 0.280 0.321 0.442 0.379 0.381 0.362 0.378 -0.00 0.168 0.435 0.487 0.506 0.495 0.480 0.503 0.62 0.4 16.5 3.0 2.0 2.6 2.5 4.7 2.4 4.4 3.2 22.6 66.0 1.6 2.7 2.8 3.1 4.9 2.7 3.0 3.1 10.7 14.4 12.5 14.8 13.4 19.1 21.0 14.8 20.7 21.1 5.4 2.8 43.7 61.1 92.4 161.9 62.0 1444 Bảng Kết phân loại hình ảnh cho mơ hình phân loại cho liệu trích xuất thành khoảng liệu Mơ hình AIGA-Euclidian AIGA-Cityblock AIGA-Hausdorff AIGA-Overlap Iter ACC% F1-score Precision Kappa Thời gian 10 30 11 10 84.5 77.6 65.5 72.4 0.836 0.806 0.667 0.758 0.821 0.750 0.625 0.694 0.690 0.544 0.313 0.444 8.4 0.2 6.6 7.2 Báo cáo Phân loại Phân tích chùm, Ngày 30 tháng năm 2022 11 of 13 Bảng Kết phân loại hình ảnh cho mơ hình phân loại cho liệu trích xuất thành hàm mật độ xác suất Mơ hình NAC-Hausdorff (m = 2) NAC-L1 (m = 1.5) NAC-SLC (m = 2) NAC-Euclidian (m = 2.6) NAC-Cosine (m = 2) NAC-Canberra (m = 2) NAC-Manhatin (m = 2.7) NAC-Cityblock (m = 2) Inter ACC% F1-score Precision Kappa Thời gian 11 297 19 165 22 97.2 48.8 78.0 78.7 70.7 82.9 86.1 86.1 0.974 0.624 0.777 0.785 0.704 0.838 0.867 0.867 0.949 0.531 0.821 0.828 0.741 0.825 0.861 0.861 0.944 0.034 0.562 0.576 0.416 0.658 0.721 0.721 40.4 0.3 1.7 1.1 0.3 0.3 0.7 0.7 Bảng Kết phân loại mơ hình ConvNet khác Mơ hình ConvNet (Thao, 2021) GoogLeNet SqueezeNet MobileNetv2 ACC% F1-score Precision Kappa Thời gian 93.1 51.7 91.4 94.8 0.923 – 0.912 0.943 – 0.897 0.861 0.828 0.896 363.7 1712.0 971.3 5775.3 Bàn luận 214 Kết thực nghiệm nghiên cứu trình bày để trả lời câu hỏi RQ1 RQ2 215 Bảng Xác suất phân loại hệ số kappa mơ hình phân loại thích hợp cho phương pháp trích xuất liệu mạng ConvNet Trích xuất Mơ hình Kết cấu Khoảng Hàm mật độ ConvNet FCMBayes-Ker AIGA-E NAC-H MoblieNetv2 ACC% Kappa Thời gian 72.2 84.5 97.2 94.8 0.56 0.69 0.94 0.896 0.62 8.4 40.4 5775.3 Trả lời câu hỏi RQ1., loại mơ hình phân loại cho kết xác khác mơ hình cho xác suất phân loại hệ số kappa cao thuật toán đề nghị (ACC: 97%, Kappa: 0.94) Trả lời câu hỏi RQ2., thời gian đào tạo mơ hình xây dựng liệu trích xuất hình ảnh nhanh mơ hình mạng ConvNet Cho thấy việc trích xuất hình ảnh cho hiệu tối ưu thời gian Các mơ hình chọn tốt cho loại trích xuất thời gian đào tạo kiểm tra cho mơ hình FCM-BayesKer thấp (0.62) 10 Kết luận Phân loại ảnh hướng nghiên cứu hấp dẫn cịn nhiều vấn đề bỏ ngõ lý thuyết tảng nhiều ứng dụng thực tế Nghiên cứu cải tiến toán phân loại phương pháp Bayes cho trường hợp hai tổng thể với hai vấn đề cốt yếu: Ước lượng hàm mật độ xác suất tìm xác suất tiên nghiệm Một đóng góp quan trọng nghiên cứu việc xem xét trích xuất ảnh kết cấu để áp dụng cho tốn phân loại Từ kết trích xuất ảnh áp dụng thuật toán đề nghị, nghiên cứu tiến hành phân loại ảnh cho hai trạng thái thuốc Pills QC thuốc chuẩn thuốc bị nhiễm bẩn Kết thực cho thấy thuật toán đề nghị cho kết bậc với tập ảnh so sánh với thuật toán tiếng sử dụng phổ biến Với tập huấn luyện đủ lớn, chúng tơi tin thuật tốn đề nghị cải thiện thêm hiệu phân loại để áp dụng cho thực tế Ký hiệu viết tắt 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 Báo cáo Phân loại Phân tích chùm, Ngày 30 tháng năm 2022 12 of 13 Các ký hiệu viết tắt sử dụng báo cáo có ý nghĩa sau 236 237 PDFs FDA QDA SVM Các hàm mật độ phân phối xác suất (Probabiliby density functions) Phân tích phân biệt Fisher (Fisher Dicriminant Analysis) Phân tích nhân dạng bậc hai Máy học véc-tơ hỗ trợ Phụ lục A Mã nguồn chương trình lệnh Trong trình lập trình thống kê, chúng tơi sử dụng máy chủ có cấu hình trình bày bảng sau Processor Installed RAM System type Edition 238 239 240 241 11th Gen Intel(R) Core(TM) i5-11400H @ 2.70GHz 2.69 GHz 8,00 GB 64-bit operating system, x64-based processor (AMD64) Windows 11 Home Single Language Bài báo cáo sử dụng phần mềm lập trình thống kê MATLAB 9.11.0 (Phiên 2021b) để tính tốn, trích xuất hình ảnh phân loại phần tử 242 243 Notes 244 245 Bao gồm số đánh giá: Xác suất phân loại toàn cục, độ xác số F1 References 10 11 12 13 14 15 16 17 18 19 Bedford T & M Cooke R 2002 Vines: A new graphical model for dependent random variables Annals of Statistics, 30, 1031–1068 Cortes C & Vapnik V 1995 Support-vector networks Machine learning, 20, 273–297 Fisher R A 1938 The statistical utilization of multiple measurements, Annals of Eugenics, 8, 376–386 Ha Che-Ngoc, Thao Nguyen-Trang, Tran Nguyen-Bao, Trung Nguyen-Thoi, Tai V V 2020 A new approach for face detection using the maximum function of probability density functions Annals of Operations Research https://doi.org/10.1007/s10479-020-03823-1 Haraclick R M 1979 Statistical and structural approaches to texture Proceedings of the IEEE, 67, 786-804 Kung J Y, Wu C C, Hsu Lee S Y S & Yang C W 2010 Application of logistic regression analysis of home mortgage loan prepayment and default risk ICIC Express Letters, 4, 325–331 Nhu VH, Zandi D, Shahabi H 2020 Comparison of support vector machine, Bayesian logistic regression, and alternating decision tree algorithms for shallow landslide susceptibility mapping along a mountainous road in the west of Iran Applied Science; 10(15) 5047 Pham-Gia T, Turkkan N & Bekker A 2007 Bounds for the bayes error in classification: a Bayesian approach using discriminant analysis Statistical Methods and Applications, 16, 7–26 Pham-Gia T, Turkkan N, Vovan T 2008 Statistical discrimination analysis using the maximum function Communications in Statistics - Simulation and Computation, 37, 320–336 Phung S L., Bouzerdoum, A and Chai, D (2005) Skin segmentation using color pixel classification: analysis and comparison, IEEE transactions on pattern analysis and machine intelligence 27, 148– 154 Sklar M 1959 Fonctions de repartition an dimensions etleurs marges, Universit’e Paris 8, 229-231 Tai VV, Thao N T 2018 Similar coefficient of cluster for discrete elements Sankhya B, The Indian Journal of Statistics, 80(1): 19 - 36 Pham-Gia, T., Turkkan, N., Vovan, T (2008) Statistical discrimination analysis using the maximum function Communications in Statistics—Simulation and Computation, 37, 320–336 Tai V.V., Loc, T.P., & Ha, C.N (2018) Classifying two populations by Bayesian method and applications Communications in Mathematics and Statistics, 7, 141 – 161 Thao, N T., & Tai, V V (2017) A new approach for determining the prior probabilities in the classification problem by Bayesian method Advances in Data Analysis and Classification, 11, 629–643 Zhao, D., Liu, H., Zheng, Y., He, Y., Lu, D., & Lyu, C (2019) A reliable method for colorectal cancer prediction based on feature selection and support vector machine Medical & Biological Engineering & Computing, 57, 901–912 Zhang, N., Ruan, S., Lebonvallet, S., Liao, Q., & Zhu, Y (2018) Kernel feature selection to fuse multi-spectral MRI images for brain tumor segmentation Computer Vision and Image Understanding, 155, 256–269 Che-Ngoc, H., Nguyen-Trang, T., Nguyen-Bao, T et al A new approach for face detection using the maximum function of probability density functions Ann Oper Res (2020) https://doi.org/10.1007/s10479-020-03823-1 Vo-Van, Tai & Che Ngoc, Ha & Nguyen-Trang, Thao (2017) Textural Features Selection for Image Classification by Bayesian Method 10.1109/FSKD.2017.8393365 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 20 Nguyen-Trang, Thao & Vo-Van, Tai (2016) A new approach for determining the prior probabilities in the classification problem by Bayesian method Advances in Data Analysis and Classification 11 10.1007/s11634-016-0253-y 21 Vovan, T., Tranphuoc, L & Chengoc, H Classifying Two Populations by Bayesian Method and Applications Commun Math Stat 7, 141–161 (2019) https://doi.org/10.1007/s40304-018-0139-8 22 Vovan, T “L1-distance and classification problem by Bayesian method.” Journal of Applied Statistics 44 (2017): 385 - 401 23 Nguyen-Trang, T., Vo-Van, T A new approach for determining the prior probabilities in the classification problem by Bayesian method Adv Data Anal Classif 11, 629–643 (2017) https://doi.org/10.1007/s11634-016-0253-y 24 Anderson J.A (1982) Logistic discrimination, in P.R Krishnaiah and L.N Kanal (Eds.), Classification, Pattern Recognition and Reduction of Dimensionality, Vol of Handbook of Statistics, 169–191, North Holland, Amsterdam 25 Thao Nguyen-Trang, "A New Efficient Approach to Detect Skin in Color Image Using Bayesian Classifier and Connected Component Algorithm", Mathematical Problems in Engineering, vol 2018, Article ID 5754604, 10 pages, 2018 https://doi.org/10.115 5/2018/5754604 26 Vovan, T., Phamtoan, D., Tuan, L.H et al An automatic clustering for interval data using the genetic algorithm Ann Oper Res (2020) https://doi.org/10.1007/s10479-020-03606-8 Thông tin tác giả 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 Trần Nam Hưng, Sinh viên Tốn Ứng Dụng, Khóa 45, Khoa Khoa học Tự nhiên, Trường Đại học Cần Thơ, Mã số sinh viên: B1906052, Địa e-mail: hungb1906052@student.ctu.edu.vn, Tel: (+84) 939 520174 295 Mục lục 296 Giới thiệu 297 Nguyên tắc phân loại 298 Xác suất tiên nghiệm dựa theo phân tích chùm mờ 299 Tiêu chuẩn kiểm định mô hình phân loại 300 Phương pháp trích xuất hình ảnh 5.1 Trích xuất đặc trưng kết cấu ảnh 5 Dữ liệu nghiên cứu 303 Mục tiêu phương pháp 304 Các kết 8.1 Trích xuất hình ảnh 8.2 Đánh giá mơ hình 8 301 302 305 306 307 Bàn luận 11 308 10 Kết luận 11 309 A Phụ lục A 12 310 References 12 311 Báo cáo Phân loại Phân tích chùm Ngày 30 tháng năm 2022 https://www.mdpi.com/journal/notspecified ... ứng dụng phân loại ảnh dựa vào hàm mật độ xác suất Đây hướng cải tiến xác suất sai lầm Bayes vượt qua phương pháp phân loại phổ biến Bài báo cáo tập trung vào mục đích phân loại hình ảnh số trạng... nhận dạng ảnh (Nghi, 2015; Tai 2017) Chúng tơi chưa tìm thấy ứng dụng phân loại ảnh dựa vào hàm mật độ xác suất trích xuất Đối với việc trích xuất hình ảnh, nay, hình ảnh thường trích xuất dạng... tạo mơ hình ACC% Huấn luyện Phrase Áp dụng phân loại hình ảnh Phương pháp đề suất ACC% Kiểm tra Hình ảnh Các phương pháp khác 206 Các kết 207 8.1 Trích xuất hình ảnh 208 Hình ảnh kết trích xuất

Định dạng
Số trang	13
Dung lượng	2,73 MB