PHƯƠNG PHÁP THUC HIỆN

Một phần của tài liệu Khóa luận tốt nghiệp Hệ thống thông tin: Xây dựng hệ thống phát hiện và phân loại bệnh trên lá cây bằng kỹ thuật xử lý ảnh (Trang 41 - 51)

TÓM TÁT KHÓA LUẬN

Chương 3. PHƯƠNG PHÁP THUC HIỆN

Trong chương 3, báo cáo sẽ mô tả chỉ tiết các bước xử lý ảnh của từng bước. Cũng như cách áp dụng các thuật toán phân loại để xác định bệnh trên lá của cây trồng.

Tải ảnh của lá cây bị Tách phần lá và

nhiém bệnh phần nên trong ảnh Phân đoạn ảnh

Hiền thị tên bệnh

và phân trăm chính xác

Hình 3.1 Mô hình khái quát các bước thực hiện

3.1. Tiền xử lý

Bước tiền xử lý là dé chuẩn bi ảnh cho quá trình phân đoạn và trích xuất các chi tiết trong ảnh.

Thuật toán phân đoạn ảnh Barbedo [5] hoạt động tốt nhất khi ảnh chỉ có phần lá và phần nền của lá là màu den trong khi tat cả các ảnh trong số dữ liệu được sử dụng đều

có phần nền ở sau. Dé có được kết quả phân đoạn tốt nhất, chúng ta cần tách được phần nên và phần lá của ảnh. Đề thực hiện bước này, ta cần tạo một mô hình máy học

để thực hiện. Mô hình này sẽ xác định điểm ảnh nào là ảnh thuộc về lớp lá, điểm ảnh

nào không phải là lá.

3.1.1. Tao anh ground truth

Đề tao một mô hình có thé phân tách lá với nên ta cần một số hình đã phân tách nền. Các ảnh này là ảnh ground truth sẽ là ảnh xám mà cường độ của của điểm ảnh

sẽ tượng trưng cho lớp lá và lớp nền trong ảnh. Điểm ảnh có màu đen thuộc về lớp

lá, các điểm ảnh sáng hơn thuộc về lớp lá. Các ảnh được tạo bang phan mém LabelMe. Chương trình LabelMe là phan mềm mã nguồn mở cho phép thực hiện đánh dau các vùng trong ảnh, gán lớp phân loại và xuất các ảnh ground truth của từng lớp.

Bước 1: Đánh dấu vùng ảnh thuốc về lớp lá trên phần mềm.

29

Hình 3.2 Lớp lá được đánh dấu bằng phần mềm LabelMe

Bước 2: Lưu thông tin ảnh đã được đánh dấu. Thông tin về các điểm được đánh dấu

sẽ được lưu bằng định dạng json bao gồm tọa độ các điểm trên ảnh và tên lớp.

Bước 3: Phần mềm LabelMe không có chức năng xuất ảnh trực tiếp thông qua giao

diện mà ta phải sử dụng mã lệnh có trong thư viện của phân mêm.

Hình 3.3 Ground truth được tạo từ phần mềm LabelMe

3.1.2. Trích xuất các đặc trưng trong ảnh

Các đặc trưng trong ảnh gốc được trích xuất bao gồm: màu sắc, kết cấu. Đặc trưng màu sắc là kênh màu H sau khi ảnh được chuyền sang không gian màu HSV.

30

Các đặc trưng còn lại sẽ được trích xuất bằng cách áp dụng các bộ lọc lên ảnh xám

của ảnh gốc. Các đặc trưng về về kết cầu được lây bằng cách sử dụng bộ lọc Gabor

với nhiều tham số khác nhau nhằm lấy tat cả các đặc trưng kết cầu ở nhiều phương khác nhau trên ảnh và kết quả sau khi đã được áp dụng các bộ lọc sau: bộ lọc trung

vị, bộ lọc Gaussian và bộ lọc Variance lên ảnh.

Các ảnh ground truth đã tạo sẽ được sử dụng làm nhãn huấn luyện cho thuật toán.

Bởi vì các đặc trưng về đường, kết cấu là kết quả sau khi áp dụng trên ảnh ở dạng ảnh xám nên các đặc trưng này ở dang dữ liệu mảng hai chiều. Ngoài ra, anh ground truth

và kênh màu H của ảnh cũng ở dạng mảng hai chiều. Vì mô hình sẽ xác định điểm ảnh nào thuộc lớp là và nền dé tao anh ground truth nên các đặc trưng và ảnh ground truth sẽ được chuyên sang dạng mang một chiều dé dữ liệu cho thuật toán phân loại

là một cường độ điêm ảnh.

3.1.3. Tiến hành huấn luyện và đánh giá mô hình phân tách anh

Mô hình phần tách sử dụng thuật toán Random Forest dé thực hiện phân loại.

Dữ liệu huấn luyện bao gồm 16 ảnh được lựa chon theo điều kiện ánh sáng và vị tri của lá trong anh. Có 12 ảnh dé huấn luyện và 4 ảnh dùng dé kiểm thử. Thuật toán cho

độ chính xác là 98.39%.

Tuy có độ chính xác cao nhưng những ảnh được tạo ra từ mô hình có nhiêu điêm

nhiễu khi ta sử dụng đề phân tách lá với nên.

31

Hình 3.4 Ảnh ground truth được tạo bởi mô hình phân tách ảnh

Dựa vào các điểm ảnh trên ảnh ground truth ta có thé xóa phan nền trên ảnh gốc bang cách kiểm tra từng điểm ảnh. Nếu cường độ điểm anh là 0 (màu đen) thì điểm anh đó

trên ảnh gôc sẽ chuyên thành màu đen.

Hình 3.5 Ảnh sau khi phân tách phần lá và nền

3.1.4. Cải thiện kết quả của mô hình phân tách ảnh

Có thé thay phan viền lá là phan bị nhiễu. Dé xử lý phan bị nhiễu này, qua thực nghiệm cho thấy sử dụng bộ lọc trung vị có kích thước là 7x7 đề xử lý các phần nhiễu này trên ảnh ground truth cho kết quả tốt nhất.

32

Hình 3.6 Ảnh lá đã xóa phần nền sau khi sử dụng bộ lọc trung vị

Với Hình 3.6 ở trong lá vẫn còn một lỗ hồng ở trong lá, phần lỗ hồng xuất hiện ở một vài lá và không che mat quá nhiều phan bị nhiễm bệnh trên lá nên sẽ không ảnh hưởng nhiều tới kết quả phân đoạn ảnh với thuật toán Barbedo.

3.2. Phân đoạn ảnh

Thuật toán của Barbedo [5] xác định hai ngưỡng phân định trên kênh màu H

của không gian mau HSV và giá trị trên kênh mau A của không gian màu LAB, tiếp theo dùng giá trị này đề xác định phần bị bệnh và phần khỏe mạnh của lá. Rồi sau đó, cho người dùng chọn kết quả trên kênh màu cho kết quả phân đoạn tốt hơn. Tuy nhiên, trên thực tế khi thực hiện với nhiều ảnh không thể chọn được ảnh nào phân đoạn tốt hơn nên sẽ dựa trên kết quả phân loại trên cùng dữ liệu để xem kênh màu cho kết quả phân đoạn tốt hơn. Các hình sau cho thấy kết quả phân đoạn ảnh bằng

thuật toán.

33

là kết quả phân đoạn trên kênh màu H của không gian màu HSV, (c) là kết qua phân

đoạn trên kênh màu a của kênh màu LAB

3.3. Trích xuất đặc trưng trong anh

Trong bước này, các đặc trưng dir liệu được trích xuất bao gồm: mau sắc và kết cau. Đặc trưng màu sắc được lấy bang hai giá trị trung bình của hai kênh màu A, B của không gian mau LAB của anh. Các đặc trưng về kết cấu được tính bằng GLCM qua các chỉ số thống kê về kết cấu của GLCM bao gồm năng lượng, entropy, hiệp phương sai, độ tương phản, tính khác nhau, tính đồng nhất.

Nhãn huấn luyện sẽ là tên tương ứng tình trạng của lá cây:

e scab: bệnh nam tao.

e© blk rot (Black rot): bệnh thối đen.

e rust: bệnh gi lá.

e healthy: 14 khoe manh.

34

3.4. Huấn luyện mô hình phân loại

Sau bước trích xuất dữ liệu, bước phân loại được thực hiện bằng thuật toán Random Forest. Random Forest là một phương pháp học hỗn hợp, có giám sát đề giải quyết các bài toán phân loại, hồi quy và nhiều bài toán khác. Thuật toán sẽ tạo nhiều cây quyết định, chạy trên các cấu hình khác nhau dé đưa ra kết quả cho thuật toán. Kết quả của mỗi cây phân loại sẽ được cộng don lại. Lớp có tổng kết quả phân loại cao nhất sẽ là kết quả cuối cùng của phân loại. Ngoài ra, mô hình sẽ được huấn luyện với các thuật toán khác như KNN và SVM để tìm ra thuật toán cho kết quả phân loại tốt nhất.

Dữ liệu huấn luyện và kiểm thử được lay từ 6400 ảnh trong đó dit liệu kiêm thử chiếm

20%.

Số lượng ảnh của mỗi lớp được chia ra như sau:

Bảng 3.1 Phân bố dữ liệu huấn luyện và kiêm thử

Huan luyện Kiểm thử Lớp Số lượng Lớp Số lượng

Scab 1265 scab 335

blk_rot 1286 blk_rot 314

Rust 1293 rust 307

Healthy 1276 healthy 324

35

Chương 4. ĐÁNH GIÁ KET QUA PHAN LOẠI

Trong chương này, báo cáo sẽ trình bày cách đánh giá mô hình phân loại, nhận

xét kết quả phân loại dựa trên kênh màu thực hiện phân đoạn ảnh để chọn ra kênh màu cho kết quả phân loại tốt nhất và đánh giá kết quả đối với từng thuật toán phân

loại.

4.1. Đánh giá mô hình bằng ma trận nhằm lẫn (Confusion matrix)

Ma trận nhằm lẫn cho ta biết độ hiệu qua của mô hình phân loại trên bộ di liệu kiểm thử. Mỗi dòng của ma trận nhằm lẫn thé hiện lớp (label) của dữ liệu trong thực

tế, mỗi cột thé hiện kết quả phân loại của mô hình. Ma trận nhằm lẫn cho mô hình

phân loại nhi phân (chỉ phân loại một lớp) với vi dụ trong trường hợp phân loại lá cây

có bệnh hoặc khỏe mạnh như sau:

Bảng 4.1 Ma trận nhằm lẫn cho phân loại nhị phân

Chân đoán Chân đoán

Không bệnh Có bệnh

Thực tế TN FP

Không bệnh

Thực tế EN TP

Có bệnh Các khái niệm sử dụng trong ma trận nhâm lân là:

e TP (True Positive) - là số lá được mô hình dự đoán là có bệnh và trong thực

tế là số lá đó có bệnh.

e TN (True Negative) - là số lá được mô hình dự đoán là có không bệnh và trong

thực tế lá đó không có bệnh.

e FP (False Positive) — là số lá được mô hình chân đoán là có bệnh nhưng trong

thực tế là lá không có bệnh.

e FN (False Negative) — là số lá duoc mô hình chan đoán là không có bệnh và

trong thực tế là lá có bệnh.

Các chỉ số có thé tính dùng dé đánh giá mô hình được từ ma trận nhằm lẫn bao gồm:

36

Accuracy: phan trăm dự đoán đúng trong bộ dữ liệu kiểm thử.

TN + TP Accuracy ==————

y Tổng số dự đoán (4.1)

Precision: phân trăm sô dự đoán lá có bệnh đúng trong tat cả các lá được chân đoán có bệnh.

Precision = — 4.2recision = TP EP (4.2)

Recall: phan trăm số lần dự đoán được lá có bệnh đúng với thực tế trong tất cả

lá có bệnh trong thực tế.

TP

ecall = TEEN (4.3)

Vi dụ: cho mô hình chân đoán 100 lá trong đó mô hình chan đoán có 20 lá có bệnh, trong 20 lá này có 12 lá thực sự bị bệnh trong thức tế. Mô hình chân đoán có 80 lá không bị bệnh trong đó có 3 lá bị bệnh trong thực tế, ta có ma trận nhằm lẫn như sau:

Bảng 4.2 Ma trận nhằm lẫn cho phân loại nhị phân

Chân đoán Chân đoán

Không bệnh Có bệnh

Thực tế 77 8

Không bệnh

Thực tế 3 12

Có bệnh

Từ ma trận trên, ta tính được các chỉ sô sau:

77+12 Accuracy = 00 = 0.89

Precision = 1 = 0.6recision = 128 Ú,

37

120

124+3

Recall = 0.8

M6 hinh phan loai da huấn luyện ở trên thực hiện phân loại các lá ra 4 lớp nên ma

trận nhằm lẫn của mỗi thuật toán sẽ như sau:

scab 1

— Nk rot 2FT -

4

8

Ễ rust 3

healthy 4

Hình 4.1 Ma trận nhầm lẫn cho mô hình phân loại 4 lớp

Với ma trận nhằm lẫn cho thuật toán phân loại 4 đối tượng với nhau ta cần tính các chỉ số đánh giá hiệu quả riêng cho từng lớp. Việc xác định TN, TP, EP, EN như sau:

Với scab:

e TP=Cell(1, 1)

e FP=Cell(2, 2) + Cell(3, 1) +Cell(4, 1)

e TN =Cell(2, 2) + Cell(2, 3) +Cell(2, 4) + Cell(3, 2) + Cell(3, 3) +Cell(3, 4) +

Cell(4, 2) + Cell(4, 3) +Cell(4, 4)

e FN=Cell(1, 2) + Cell(1, 3) +Cell(1, 4)

Với blk_rot:

e TP=Cell(2, 2)

e FP =Cell(1, 2) + Cell(3, 2) +Cell(4, 2)

38

e TN =Cell(1, 1) + Cell(1, 3) +Cell(1, 4) + Cell(3, 1) + Cell(3, 3) +Cell(3, 4) +

Cell(4, 1) + Cell(4, 3) +Cell(4, 4)

e FN=Cell(2, 1) + Cell(2, 2) +Cell(2, 4)

Tương tự ta có thé tìm được TP, FP, TN, EN cho các lớp còn lại và tinh được các chỉ

sô đo độ hiệu quả của phân loại.

4.2. Đánh giá kết qua phân loại dựa trên kênh màu phân đoạn

Thuật toán Barbedo thực hiện phân đoạn trên 2 kênh màu là H của không gian

màu HSV và A của không gian màu LAB sau đó sẽ cho người dùng chọn ảnh có kết quả phân đoạn tốt hơn. Tuy nhiên trong quá trình huấn luyện sẽ không chọn kênh màu có kết qua phân loại tốt hơn mà sẽ dùng độ chính xác dé quyết định kênh mau

sử dụng. Sau đây là bảng độ chính xác phân loại sau khi phân đoạn theo hai kênh màu.

Bảng 4.3 Độ chính xác phân loại khi phân đoạn trên kênh màu H

Thuật toán Độ chính xác (%) Random Forest 76.41

SVM 38.65

Một phần của tài liệu Khóa luận tốt nghiệp Hệ thống thông tin: Xây dựng hệ thống phát hiện và phân loại bệnh trên lá cây bằng kỹ thuật xử lý ảnh (Trang 41 - 51)

Tải bản đầy đủ (PDF)

(63 trang)