1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu ứng dụng học sâu convolutional neural network (cnn) trong nhận biết thời kỳ trái dứa chín tại vùng trồng dứa khu vực miền núi quảng nam – đà nẵng thạc sĩ

86 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Ứng Dụng Học Sâu Convolutional Neural Network (CNN) Trong Nhận Biết Thời Kỳ Trái Dứa Chín Tại Vùng Trồng Dứa Khu Vực Miền Núi Quảng Nam – Đà Nẵng
Tác giả Nguyễn Lào
Người hướng dẫn TS. Nguyễn Hà Huy Cường
Trường học Trường Đại Học Duy Tân
Chuyên ngành Khoa Học Máy Tính
Thể loại Luận Văn Thạc Sĩ
Năm xuất bản 2021
Thành phố Đà Nẵng
Định dạng
Số trang 86
Dung lượng 6,34 MB

Nội dung

Xuất phát từ nhưng đặc điểm trên đề tài “Nghiên cứu ứng dụng mô hình học sâu trong nhận biết thời kỳ trái Dứa chín cho các vùng trồng dứa khu vực miền núi Quảng Nam – Đà Nẵng” sẽ góp một

Trang 1

NGUYỄN LÀO

NGHIÊN CỨU ỨNG DỤNG HỌC SÂU CONVOLUTIONAL NEURAL NETWORK (CNN) TRONG NHẬN BIẾT THỜI

KỲ TRÁI DỨA CHÍN TẠI VÙNG TRỒNG DỨA KHU VỰC

MIỀN NÚI QUẢNG NAM – ĐÀ NẴNG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

ĐÀ NẴNG – 2021

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC DUY TÂN

NGUYỄN LÀO

NGHIÊN CỨU ỨNG DỤNG HỌC SÂU CONVOLUTIONAL NEURAL NETWORK (CNN) TRONG NHẬN BIẾT THỜI

KỲ TRÁI DỨA CHÍN TẠI VÙNG TRỒNG DỨA KHU VỰC

MIỀN NÚI QUẢNG NAM – ĐÀ NẴNG

Chuyên ngành: Khoa học máy tính

Mã số: 8480101

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS Nguyễn Hà Huy Cường

ĐÀ NẴNG – 2021

Trang 4

LỜI CAM ĐOAN

Tên tôi là: Nguyễn Lào

sự hướng dẫn của TS Nguyễn Hà Huy Cường, không phải sao chép từ các tài liệu,công trình nghiên cứu của người khác mà không ghi rõ trong tài liệu tham khảo

Tôi xin chịu trách nhiệm về lời cam đoan này

Học viên thực hiện

Nguyễn Lào

Trang 5

Để hoàn thành luận văn này, đầu tiên em gửi lời cảm ơn chân thành đến toànthể Quý Thầy, Cô giảng viên Trường Đại học Duy Tân đã tận tình giảng dạy, truyềnđạt những kiến thức quý báu và tạo điều kiện thuận lợi cho em trong suốt quá trìnhhọc tập, nghiên cứu.

Em bày tỏ lòng biết ơn đến TS Nguyễn Hà Huy Cường đã tận tâm giảngdạy, hướng dẫn và đưa ra những góp ý, điều chỉnh vô cùng xác thực cho luận văn,đồng thời Quý thầy cũng cho em những lời động viên sâu sắc giúp em có nhữngđịnh hướng đúng đắn để hoàn thành luận văn

Cuối cùng em gửi lời cảm ơn đến gia đình, các bạn cùng khóa, đồng nghiệpcùng cơ quan đã nhiệt tình hỗ trợ những thông tin, chia sẻ những kiến thức hay giúp

em trong quá trình thực hiện

Trân trọng!

Trang 6

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC CHỮ VIẾT TẮT viii

DANH MỤC BẢNG BIỂU x

DANH MỤC HÌNH, ĐỒ THỊ xi

MỞ ĐẦU 1

1 Lý do chọn đề tài 1

2 Mục tiêu nghiên cứu (mục tiêu chung, mục tiêu cụ thể) 4

3 Tổng quan nghiên cứu của đề tài 5

4 Đối tượng và phạm vi nghiên cứu 5

5 Phương pháp nghiên cứu 6

6 Đóng góp của đề tài 6

7 Cấu trúc của đề tài 7

Chương 1 TỔNG QUAN VỀ NHẬN DẠNG DỰA TRÊN MẠNG NƠ RON TÍCH CHẬP (CNN) 8

1.1 Khái niệm cơ bản trong xử lý ảnh 8

1.1.1 Điểm ảnh 8

1.1.2 Độ phân giải của ảnh (Resolution) 8

1.1.3 Mức xám của ảnh 9

1.1.4 Các kiểu ảnh 9

1.1.5 Biểu diễn ảnh 12

1.1.6 Khử nhiễu 13

1.1.7 Nhận dạng ảnh 13

Trang 7

1.2.1 Lọc màu vỏ trái cây 18

1.2.2 Lọc độ sâu 18

Chương 2 BÀI TOÁN NHẬN DẠNG TRÁI DỨA CHÍN ÁP DỤNG MẠNG NƠ RON TÍCH CHẬP 20

2.1 Mạng Neural 20 2.1.1 Giới thiệu về mạng nơ-ron nhân tạo 20

2.1.2 Đơn vị xử lý 22

2.1.3 Mạng nơ-ron truyền thẳng 23

2.1.4 Mạng nơ-ron truyền thẳng một lớp 23

2.2 Phân lớp, nhận dạng đối tượng với Support Vector Machine 2 lớp 26

2.2.1 SVM với tập mẫu phân hoạch tuyến tính được 26

2.2.2 SVM tuyến tính với tập mẫu không phân hoạch tuyến tính được 30

2.2.3 SVM phi tuyến 33

2.3 Mạng nơ ron tích chập 37

2.3.1 Khái niệm về mạng nơ ron tích chập 37

2.3.2 Mô hình mạng nơ ron tích chập 38

2.3.3 Xây dựng mạng nơ ron tích chập 39

2.4 Kết luận 47 Chương 3 KẾT QUẢ THỰC NGHIỆM 48

3.1 Áp dụng mạng nơ ron tích chập vào các giải pháp thông minh trong thực tế 48

3.2 Áp dụng mạng nơ ron tích chập để xây dựng hệ thống nhận diện người vào/ra và đánh giá thực nghiệm, so sánh với phương pháp HOG 48

3.2.1 Giới thiệu hệ thống nhận diện và đếm lượt người vào/ra sử dụng mạng nơ ron tích chập 48

Trang 8

3.2.2 Giới thiệu kiến trúc của máy chủ xử lý nhận diện và đếm lượng người 49

3.2.3 Giới thiệu sơ lược về phương pháp mô tả đặc trưng HOG sẽ được dùng để so sánh 51

3.2.4 Giới thiệu sơ lược về phương pháp HOG sử dụng để phát hiện đối tượng 51

3.3 Dựa trên thử nghiệm thực tế nhận diện trái dứa chín , ta thu được hình ảnh là kết quả của các mô hình 54

3.3.1 Môi trường cài đặt 54

3.3.2 Mô tả thực nghiệm 55

3.3.3 Thiết kế hệ thống 55

3.3.4 Tiến hành thực nghiệm 55

3.3.5 Triển khai xây dựng 56

3.4 Huấn luyện mô hình 63

3.4.1 Tiền huấn luyện 63

3.4.2 Huấn luyện 63

3.5 Đánh giá 65

KẾT LUẬN 68

1 Kết luận 68

2 Hướng phát triển của đề tài 68

TÀI LIỆU THAM KHẢO

Trang 9

Chữ viết

SVM Support Vector Machine

CGA Color Graphic Adaptor

Pixel Picture Element

RBF Radial Basis Function

AI Artificial Intelligence – Trí tuệ nhân tạo

ANN Artificial Neural Network – Mạng thần kinh nhân tạo

CNN Convolutional Neural Network – Mạng thần kinh tích chậpReLU Rectified Linear Unit – Điều chỉnh đơn vị tuyến tính

CDSL Cơ sở dữ liệu

GPU Graphics Processing Unit – Vi xử lý đồ hoạ

CPU Central Processing Unit – Bộ xử lý trung tâm

CUDA Compute Unified Device Architecture – Kiến trúc tính toán song song do hãng NVDIA phát triểnIoT Internet of Thing – Vạn vật kết nối

API Application Programming Interface – Giao diện lập trìnhYOLO You only lock one – Một hệ thống mạng nơ ron nhân tạp phát hiện đối tượng thời gian thựcHOG Histogram of Oriented Gradients – Biểu đồ độ dốc định hướngPCA Principal Component Analysis – Phân tích thành phần chính

Trang 10

DANH MỤC BẢNG BIỂU

Bảng 1 Bảng số liệu thống kê diện tích đất trồng cây ăn trái ( đơn vị 1000 m2) 2Bảng 2 Bảng số liệu thống sản lượng cây ăn trái (Đơn vị 1000 Tấn) 3

Trang 11

Hình 1.1: So sánh ảnh với độ phân giải khác nhau 9

Hình 1.2: Hệ màu cơ bản RGB 11

Hình 1.3: Không gian màu RGB 11

Hình 1.4: Ảnh màu 12

Hình 1.5 Qui trình tổng quát xử lý nhận dạng, phát hiện trái chín 16

Hình 1.6 Sơ đồ khối hệ thống xử lý nhận dạng, phát hiện trái dứa chín 17

Hình 2.1 Nơ-ron sinh học 20

Hình 2.2 Đơn vị xử lý của mạng nơ-ron 22

Hình 2.3 Mạng nơ-ron truyền thẳng nhiều lớp 23

Hình 2.4 Mạng perceptron một lớp 24

Hình 2.5 Siêu phẳng phân chia dữ liệu 27

Hình 2.6 Siêu phẳng với lề cực đại cho một SVM phân chia hai tập mẫu [16] 28

Hình 2.7 Minh hoạ các mẫu được gọi là Support Vector 30

Hình 2.8 Không thể phân hoạch hai tập mẫu trên bằng một siêu phẳng [16] 30

Hình 2.9 Ảnh hưởng của hằng số lề mềm C [8] 31

Hình 2.10 Một mặt phân chia phi tuyến có thể trở thành một siêu phẳng trong không gian lớn hơn [16] 34

Hình 2.11 Mặt phẳng [-1,1]x[-1,1] trong R2 thành mặt cong trong R3 [12] 34

Hình 2.12 RBF Gaussian Kernel có thể chuyển một mặt bất kỳ thành một siêu phẳng [11\2] 37

Hình 2.13 Các tầng (layer) trong CNN là 3 chiều 37

Hình 2.14 Hình minh họa một ví dụ sử dụng CNN để phân lớp đồ vật [20] 38

Trang 12

Hình 2.15 Ví dụ minh họa về cấu trúc CNNs – LeNet – 5[19] 38

Hình 2.16 Hình ảnh một mạng nơ ron được kết nối đầy đủ 39

Hình 2.17 Tích chập một ma trận nhỏ để tạo ra dữ liệu đầu vào cho một 40

Hình 2.18 Ví dụ về lớp tích chập 40

Hình 2.19 So sánh giữa ReLU và Sigmoid 42

Hình 2.20 Ví dụ minh họa đơn giản về tầng gộp 43

Hình 2.21 Một ví dụ của lớp được kết nối đầy đủ 44

Hình 2.22 Ví dụ về trường hợp quá khớp (bên trái) và trường hợp chuẩn (bên phải) 45

Hình 2.23 Cấu trúc của AlexNet 46

Hình 2.24 Cấu trúc của VGGNet 47

Hình 3.1 Hình ảnh thiết kế của hệ thống nhận diện đối tượng 49

Hình 3.2 Phương pháp mạng YOLO sử dụng để nhận diện đối tượng 50

Hình 3.3 Mô hình mạng YOLO 50

Hình 3.4 Tiền xử lý để xác định khung hình 51

Hình 3.5 Độ dốc sau khi tính toán 52

Hình 3.6 Kết quả sau khi tính toán véc tơ đặc trưng cho từng ô 53

Hình 3.7 Biểu diễn các véc tơ chỉ hướng theo HOG thu được sau khi tính toán 54

Hình 3.8 Figure 15 Sơ đồ hoạt động hệ thống nhận dạng 55

Hình 3.9 Ảnh gốc ban đầu với các trái dứa kích cỡ, độ chín khác nhau 56

Hình 3.10 Vùng trồng dứa tại xã Đại Hồng – Huyện Đại Lộc 57

Hình 3.11 Các quả dứa thu hoạch từ trang trại trồng dứa tại xã Đại Hồng - Huyện Đại Lộc 57

Hình 3.12 Dữ liệu trái dứa được thu thập 58

Trang 13

Hình 3.15 Cài đặt công cụ LabelImg từ github 59

Hình 3.16 Khởi chạy công cụ LabelImg 59

Hình 3.17: Giao diện chính của LabelImg 60

Hình 3.18 Mở thư mục chưa hình ảnh trái dứa để bắt đầu gán nhãn 60

Hình 3.19 Chọn đường dẫn tới vị trí lưu trữ tệp thông số gán nhãn 61

Hình 3.20 Chọn định dạng YOLO cho mô hình 61

Hình 3.21 Thực hiện quá trình chọn vùng đặc trưng trái dứa 62

Hình 3.22 Cập nhập thêm nhãn cho vùng đặc trưng vừa chọn 62

Hình 3.23 Thông số đặc trưng của hình ảnh sau khi được lưu 62

Hình 3.24 Khởi tạo quá trình sử dụng và kết nối với Google Colab 63

Hình 3.25 Huấn luyện mô hình với các thông số đã cài đặt 64

Hình 3.26 Quá trình huấn luyện bắt đầu thực thi 64

Hình 3.27 Mô hình huấn luyện sau khi đã huấn luyện hoàn thành 65

Hình 3.28 Giao diện hệ thống nhận dạng và phát hiện trái thơm 65

Hình 3.29 Chọn hình ảnh cho hệ thống so sánh 66

Hình 3.30 Kết quả hệ thống trả về 66

Hình 3.31 Kết quả hệ thống trả về 66

Trang 14

Máy tính hiện nay có sức mạnh tính toán lớn nhưng giá thành lại ở mức phổthông,dẫn tới người làm nghiên cứu rất dễ dàng để có thể tự kiểm nghiệm được các

lý thuyết về trí tuệ nhân tạo từ nhiều năm trước Cùng với mã nguồn mở, hiện lànsóng trí tuệ nhân tạo đang bùng nổ mạnh mẽ trong thời gian gần đây, và đem lạirất nhiều ứng dụng trong đời sống Chính vì lý do trên, việc tìm hiểu và nghiên cứuthị giác máy tính rất có ý nghĩa và thiết thực

…Hiện nay, trên thế giới có các mô hình đã nghiên cứu về nhận dạng hình ảnhnhư: YOLO, CNN, R-CNN, Fast R-CNN, Faster R-CNN và mô hình Mask R-CNN[1,2,3,4,5] Tuy nhiên, trong các mô hình này chưa có nhiều nghiên cứu trực tiếpliên quan đến nhận dạng thời kỳ trái chín, chủ yếu các nghiên cứu tập trung vàonhận dạng văn bản, nhận dạng khuôn mặt, vân tay và một số nghiên cứu nhận dạngcon vật nuôi

Trong nông nghiệp thông minh và nông nghiệp chính xác, vấn đề ước tính kịpthời và chính xác thời kỳ trái chín của vườn cây sẽ giúp cải thiện và nâng cao chấtlượng, đảm bảo sản lượng trái cây và kế hoạch thu hoạch Ngoài ra, xác định kịpthời và chính xác thời kỳ trái chín trong các giai đoạn trưởng thành cây quả sẽ chophép giảm chi phí canh tác, chi phí lưu trữ sau thu hoạch và làm tăng giá trị kinh tế,đáp ứng yêu cầu thị trường Đây là những vấn đề rất được quan tâm trong địnhhướng phát triển nông nghiệp tận dụng lợi thế của công nghệ cao trong thời gian tới

Trang 15

ở Việt Nam.

Cho đến năm 2020, diện tích trồng cây ăn quả chủ lực của Việt Nam là257.000 ha, chiếm 52% tổng diện tích quy hoạch cây ăn quả ở Nam bộ, trong đóvùng Đồng bằng sông Cửu Long (ĐBSCL) 185.100 ha, vùng Đông Nam bộ 71.900

ha Trong khu vực này, hiện nay chú trọng trồng 12 loại cây ăn quả chủ lực gồm:Thanh long, xoài, chôm chôm, sầu riêng, vú sữa, bưởi, nhãn, chuối, dứa, cam, mãngcầu và quýt Trong bảng dữ liệu 1 và 2 đưa ra thống kê diện tích trồng cây ăn quả vàsản lượng thu hoạch cây ăn từ năm 2015 đến năm 2018 Có thể nhận thấy diện tíchtrồng và sản lượng thu hoạch tăng lên đáng kể, mang hiệu quả kinh tế xã hội Đặcbiệt, khi ngày càng có nhiều nông dân và trang trại nông nghiệp có diện tích trồnglớn tham gia chuỗi sản xuất và xuất khẩu

Ở Việt Nam cây dứa được trồng khá phổ biến, phân bố từ Phú Thọ đến KiênGiang Tiền Giang là tỉnh có sản lượng dứa đứng đầu cả nước

Năm 2019, sản lượng dứa của tỉnh Tiền Giang đạt 211.300 tấn Tiếp theo

là Kiên Giang (185.000 tấn), Ninh Bình (150.400 tấn), Nghệ An (130.600tấn), Long An (127.000 tấn), Hà Nam (123.400 tấn), Thanh Hoá (120.500 tấn),Quảng Nam (112.000 tấn); Đà Nẵng (30.000 tấn) Tổng sản lượng cả nước năm

2019 đạt 12.229.100 tấn Nhiều địa phương đã xây dựng thương hiệu đặc sản tráidứa như dứa Đồng Giao (Tam Điệp - Ninh Bình), hoặc ở Kiên Giang, TiềnGiang đều có những nhà máy chuyên sản xuất, chế biến các thực phẩm từ trái dứa

Bảng 1 Bảng số liệu thống kê diện tích đất trồng cây ăn trái ( đơn vị 1000 m 2 )

STT

theo

năm

Cam, quýt

Dứ a

Chuố i

Xoà i

Nhã n

Vải, Chôm chôm

Bưởi, Bòng

Trang 16

đã trở thành nguồn thu nhập chính của hầu hết các hộ gia đình nơi đây

Tuy nhiên, trong bối cảnh hội nhập, cạnh tranh về giá cả và chất lượng xuấtkhẩu sang thị trường Châu Âu, Mỹ, Nhật Bản và cả Trung Quốc, cần phải đưa cáccông nghệ hỗ trợ cho việc nâng cao chất lượng nhờ xác định đúng, trúng và sát vớithực tế thời kỳ trái chín, nhờ vậy giảm chi phí bảo quản trái cây sau thu hoạch, gópphần luân canh tăng vụ Ngoài ra, nhận biết trái chín cũng giúp giảm chi phí sảnxuất, nhờ xác định lượng nước, lượng phân bón cho giai đoạn cuối mùa phù hợp.Đây là một bài toán rất quan trọng và cần thiết cho ngành nông nghiệp ở Việt Nam.Qua khảo sát thực tế tại các trang trại nông nghiệp, công việc nhận biết thời kỳtrái Dứa chín và trái Dứa chưa chín cần tiếp tục được chăm sóc, hoàn toàn làm bằngthủ công, theo kinh nghiệm dân gian truyền thống Do vậy, tốn công sức và nếukhông nhận biết trái chín kịp thời, tỷ lệ tổn thất sản lượng thu hoạch sẽ rất lớn

Xuất phát từ nhưng đặc điểm trên đề tài “Nghiên cứu ứng dụng mô hình học sâu trong nhận biết thời kỳ trái Dứa chín cho các vùng trồng dứa khu vực miền núi Quảng Nam – Đà Nẵng” sẽ góp một phần giải quyết bài toán này Việc

nhận biết thời kỳ trái chín dựa vào xử lý và nhận dạng hình ảnh camera quan sátvùng canh tác cây ăn quả Từ hình ảnh sẽ trích ra các phần ảnh quả Phần mềm họcsâu sẽ nhận dạng phân loại mức độ chín của quả hiện đang xét Để đạt độ chính xác

Trang 17

nhận dạng, phần mềm cần phải được huấn luyện với một tập mẫu ảnh quả đủ lớn,

đa dạng về kích thước, màu sắc, góc nhìn với các điều kiện thực tế thu thập ảnh (độsáng, độ chói,…) khác nhau

2 Mục tiêu nghiên cứu (mục tiêu chung, mục tiêu cụ thể)

2.1 Mục tiêu chung:

- Luận văn của tôi hướng tới việc nghiên cứu một mô hình có chức năng nhậndạng, chọn lọc đối tượng thông qua hình ảnh thu được và từ đó khuyến nghị nhậndạng các đối tượng, từ vùng trồng dứa, hay các đại lý thu mua nông sản, hay ápdụng tại các siêu thị bán trái cây nông sản

2.2 Mục tiêu cụ thể:

- Nghiên cứu xác định mô hình học sâu phù hợp nhận dạng hình ảnh giải quyếtbài toán nhận biết thời kỳ trái dứa chín

- Tìm hiểu các công đoạn xử lý nhận dạng hình ảnh camera

- Nghiên cứu các mô hình học sâu (YOLO,CNN, R-CNN, Fast R-CNN,Faster R-CNN, Mask-R-CNN)

- Phân tích lựa chọn mô hình học sâu phù hợp nhận dạng hình ảnh giải quyếtbài toán nhận biết thời kỳ trái Dứa chín

Nghiên cứu các giống dứa phổ biến khu vực Quảng Nam - Đà Nẵng và đặcđiểm sinh hóa của trái dứa thời kỳ chín

- Tình hình các loại dứa được trồng trên thế giới và Việt Nam; tình hình tráidứa được trồng tại các vùng canh tác thuộc tỉnh Quảng Nam – thành phố Đà Nẵng;

- Nghiên cứu đặc điểm sinh học của cây dứa; trái dứa: đặc điểm phân loại;đặc điểm về hình trái; giải phẫu; đặc điểm về sinh lý; sinh hóa của trái dứa; đặcđiểm sinh trưởng và phát triển; đặc điểm các thành phần dinh dưỡng;

- Quá trình biến đổi của trái dứa: Thời điểm ra hoa và kết quả; Quá trình biếnđổi từ trái xanh tới trái chín; Nghiên cứu đặc điểm mùi vị và màu sắc của trái dứakhi biến đổi; chất lượng của trái khi biến đổi

- Việc áp dụng các giải pháp kỹ thuật, độ chính xác của mô hình nhận dạngphụ thuộc vào đề xuất giải pháp phù hợp với đặc điểm của đề tài Do đó, tôi đã áp

Trang 18

Mô hình 2: Lọc tách các điểm ảnh có màu đặc trưng của trái dứa dựa trênmạng nơ-ron (Neural networks) truyền thẳng Thực hiện phép đếm các đối tượngcòn lại trên ảnh.

Mô hình 3: Áp dụng phương pháp phân loại đối tượng bằng Support VectorMachine (SVM) để lọc màu Thực hiện phép đếm các đối tượng còn lại trên ảnh

3 Tổng quan nghiên cứu của đề tài

Để đạt được mục tiêu trên, đề tài cần thực hiện các nội dung sau:

- Tìm hiểu các kỹ thuật xử lý ảnh, áp dụng các phương pháp vào đề tài như:Một số tiêu chuẩn lưu trữ ảnh số, phân tách đối tượng bằng các phương pháp lọcmàu (Gauss 3 chiều, huấn luyện mạng nơ-ron truyền thẳng, phân loại đối tượngbằng SVM)

- Tìm hiểu và phân tích các bài báo, công trình nghiên cứu liên quan gần hoặctương đương

- Đề xuất các kỹ thuật, phương pháp đếm số lượng thẻ biểu quyết trong cuộchọp dựa qua hình ảnh

- Thực hiện và so sánh kết quả đạt được với các nghiên cứu khác

4 Đối tượng và phạm vi nghiên cứu

4.1 Đối tượng nghiên cứu:

Đối tượng nghiên cứu của đề tài là các công trình nghiên cứu, các bài báo, tàiliệu liên quan đến mô hình học sâu đã có hiện nay như: CNN, R-CNN, Fast R-CNN,Faster R-CNN, Mask – R -CNN, có thể nói trên thế giới hiện nay cũng có khá nhiều

mô hình học sâu trong nhận dạng và xử lý ảnh, vì thế nhóm nghiên phải có mộthướng tiếp cận toàn diện, mang tính tổng hợp và có hệ thống các nghiên cứu đã có

Trang 19

Nhóm nghiên cứu cần có sự phân tích cụ thể về điểm mạnh cũng như điểm yếu từ cácgiải pháp hiện tại để đề xuất giải pháp mới phù hợp với mục tiêu của đề tài.

- Nghiên cứu các bước trong quy trình nhận dạng của các mô hình học sâu

- Phân tích đánh giá ưu nhược điểm của từng mô hình

- Sử dụng ngôn ngữ lập trình, xây dựng phần mềm dự báo (mô phỏng) để đánhgiá các mô hình đã đề xuất

4.2 Phạm vi nghiên cứu

- Phạm vi không gian : Đề tài thực hiện trong phạm vi khu vực Quảng Nam –

Đà Nẵng

5 Phương pháp nghiên cứu

Để thực hiện đề tài này, tác giả sử dụng các phương pháp nghiên cứu sau:

- Phương pháp phân tích và tổng hợp lý thuyết: Tìm kiếm, tổng hợp và nghiêncứu các tài liệu về xử lý ảnh; các thuật toán chọn lọc hình ảnh, kiến thức liên quan

kỹ thuật lập trình

- Phương pháp thực nghiệm: Sau khi nghiên cứu phương pháp lý thuyết, xácđịnh vấn đề bài toán, đề xuất mô hình; tiến hành xây dựng và đề xuất các mô hình;cài đặt thử nghiệm chương trình với ngôn ngữ lập trình Python

- Phương pháp so sánh và đánh giá: để phân tích đánh giá các mô hình đề xuất

- Lập trình, áp dụng phương pháp đếm đối tượng trên ảnh

7 Cấu trúc của đề tài

Ngoài phần mở đầu, kết luận, tài liệu tham khảo, luận văn có kết cấu gồm 03

Trang 20

chương như sau:

Chương 1: TỔNG QUAN NHẬN DẠNG DỰA TRÊN MẠNG NƠ RON TÍCH CHẬP

Bài toán đặt ra cho việc nhận dạng dứa chín tại vùng trồng dứa

Chương 2: NHẬN DẠNG TRÁI DỨA CHÍN DỰA VÀO MẠNG NƠ RON TÍCH CHẬP

Dựa vào đặc trưng của thẻ, tác giả đề xuất phương pháp lọc màu và phươngpháp đếm thẻ

Chương 3: KẾT QUẢ THỰC NGHIỆM

- Mô tả thực nghiệm

- Tiến hành thực nghiệm

- Đánh giá kết quả

Trang 21

Chương 1 TỔNG QUAN VỀ NHẬN DẠNG DỰA TRÊN MẠNG NƠ

Ảnh trong thực tế là ảnh liên tục về không gian và độ sáng Để xử lý bằng máytính, ảnh cần phải được số hoá Trong quá trình số hóa, người ta biến đổi gần đúngmột ảnh liên tục thành một tập điểm phù hợp với ảnh thật về vị trí (không gian) và

độ sáng (mức xám) Khoảng cách giữa các điểm ảnh đó được thiết lập sao cho mắtngười không phân biệt được ranh giới giữa chúng Mỗi một điểm như vậy gọi làđiểm ảnh (PEL: Picture Element) hay gọi tắt là Pixel

1.1.2 Độ phân giải của ảnh (Resolution)

Là mật độ điểm ảnh được ấn định trên một ảnh số được hiển thị Theo địnhnghĩa, khoảng cách giữa các điểm ảnh phải được chọn sao cho mắt người vẫn thấyđược sự liên tục của ảnh Việc lựa chọn khoảng cách thích hợp tạo nên một mật độphân bổ, đó chính là độ phân giải và được phân bố theo trục x và y trong không gianhai chiều

Ví dụ: Độ phân giải của ảnh trên màn hình CGA là một lưới điểm theo chiềungang màn hình: 320 điểm chiều dọc * 200 điểm ảnh (320*200) Rõ ràng, cùng mànhình CGA 12” ta nhận thấy mịn hơn màn hình CGA 17” độ phân giải 320*200 Lýdo: cùng một mật độ (độ phân giải) nhưng diện tích màn hình rộng hơn thì độ mịn(liên tục của các điểm) kém hơn

Trang 22

a) Định nghĩa: Mức xám của điểm ảnh là cường độ sáng của nó được gán bằnggiá trị số tại điểm đó.

b) Các thang giá trị mức xám thông thường: 16, 32, 64, 128, 256 (Mức 256 làmức phổ dụng Lý do: từ kỹ thuật máy tính dùng 1 byte (8 bit) để biểu diễn mứcxám: Mức xám dùng 1 byte biểu diễn: 28 = 256 mức, tức là từ 0 đến 255)

1Các kiểu ảnh

1.1.4.1 Ảnh đen trắng

Ảnh đen trắng chỉ bao gồm 2 màu: màu đen và màu trắng Người ta phân mứcđen trắng đó thành L mức Nếu sử dụng số bit B=8 bít để mã hóa mức đen trắng(hay mức xám) thì L được xác định:

L=2B (trong ví dụ của ta L=28 = 256 mức)Nếu L bằng 2, B=1, nghĩa là chỉ có 2 mức: mức 0 và mức 1, còn gọi là ảnh nhị

Trang 23

phân Mức 1 ứng với màu sáng, còn mức 0 ứng với màu tối Nếu L lớn hơn 2 ta cóảnh đa cấp xám Nói cách khác, với ảnh nhị phân mỗi điểm ảnh được mã hóa trên 1bit, còn với ảnh 256 mức, mỗi điểm ảnh được mã hóa trên 8 bit Như vậy, với ảnhđen trắng: nếu dùng 8 bit (1 byte) để biểu diễn mức xám, số các mức xám có thểbiểu diễn được là 256 Mỗi mức xám được biểu diễn dưới dạng là một số nguyênnằm trong khoảng từ 0 đến 255, với mức 0 biểu diễn cho mức cường độ đen nhất và

255 biểu diễn cho mức cường độ sáng nhất

1.1.4.2 Ảnh nhị phân

Ảnh chỉ có 2 mức đen trắng phân biệt tức dùng 1 bit mô tả 21 mức khác nhau.Nói cách khác: mỗi điểm ảnh của ảnh nhị phân chỉ có thể là 0 hoặc 1 Ảnh nhị phânkhá đơn giản, các phần tử ảnh có thể coi như các phần tử logic Ứng dụng chính của

nó được dùng theo tính logic để phân biệt đối tượng ảnh với nền hay để phân biệtđiểm biên với điểm khác

1.1.4.3 Ảnh màu

Lý thuyết ba màu cho phép dùng màu R = Red (đỏ), G = Green (xanh lá), B =Blue (xanh dương) để tạo nên thế giới màu Do đó, người ta thường dùng 3 byte để

mô tả mức màu, khi đó các giá trị màu: 2(8*3) = 224 ≈ 16,7 triệu màu

Đối với một số thiết bị hiển thị màu sắc như màn hình tivi, màn hình máy tính,camera kỹ thuật số,… thường sử dụng hệ màu RGB để hiển thị màu sắc Nguyên lýlàm việc của hệ màu RGB là phát xạ ánh sáng, hay còn gọi là mô hình ánh sáng bổsung Các màu được sinh ra từ 3 màu RGB sẽ sáng hơn các màu gốc

Trang 24

Hình 1.2: Hệ màu cơ bản RGB

Không gian màu RGB:

Là tập các màu thành phần sắp xếp theo hình lập phương của hệ trục toạ độ X,

Y, Z Giá trị của mỗi thành phần màu biến thiên từ 0 - 255 Đường chéo chính củahình lập phương với sự cân bằng về số lượng từng màu gốc tương ứng với mức độxám đen là (0, 0, 0) – (255, 255, 255)

Hình 1.3: Không gian màu RGB

Trang 25

Hệ tọa độ cho không gian màu hình trụ:

Giá trị màu thuần khiết (Hue) chạy từ 0 đến 360°

Độ bão hòa màu (Saturation) là mức độ của thuần khiết của màu, có thể hiểu

là có bao nhiêu màu trắng được thêm vào màu thuần khiết này Giá trị của S nằmtrong đoạn [0, 1], trong đó S = 1 là màu tinh khiết nhất, hoàn toàn không pha trắng.Nói cách khác, S càng lớn thì màu càng tinh khiết, nguyên chất

Độ sáng của màu (Value), có khi được gọi là Intensity, Lightness, cũng có giátrị dao động trong đoạn [0, 1], trong đó V = 0 là hoàn toàn tối (đen), V = 1 là hoàntoàn sáng Nói cách khác, V càng lớn thì màu càng sáng

Hình 1.4: Ảnh màu

2Biểu diễn ảnh

Ảnh trên máy tính là kết quả thu nhận theo các phương pháp số hoá đượcnhúng trong các thiết bị kỹ thuật khác nhau Quá trình lưu trữ ảnh nhằm hai mụcđích:

- Tiết kiệm bộ nhớ

- Giảm thời gian xử lý

Trang 26

Việc lưu trữ thông tin trong bộ nhớ có ảnh hưởng rất lớn đến việc hiển thị, in

ấn và xử lý ảnh được xem như là một tập hợp các điểm với cùng kích thước nếu sửdụng càng nhiều điểm ảnh thì bức ảnh càng đẹp, càng mịn và càng thể hiện rõ hơnchi tiết của ảnh người ta gọi đặc điểm này là độ phân giải

3Khử nhiễu

Có hai loại nhiễu cơ bản trong quá trình thu nhận ảnh:

- Nhiều hệ thống: là nhiễu có quy luật có thể khử bằng các phép biến đổi

- Nhiễu ngẫu nhiên: vết bẩn không rõ nguyên nhân, cách khắc phục bằng cácphép lọc

4Nhận dạng ảnh

Nhận dạng là một ngành thuộc lĩnh vực trí tuệ nhân tạo Nhận dạng mẫu là khảnăng phát hiện sự sắp xếp các đặc tính hoặc dữ liệu mang lại thông tin về một hệthống hoặc tập dữ liệu nhất định Nhận dạng mẫu chia thành nhiều lĩnh vựctrong công nghệ thông tin, bao gồm phân tích dữ liệu lớn, nhận dạng sinh trắc học,bảo mật và trí tuệ nhân tạo Nhận dạng đối tượng trong hình ảnh là một nhánh củanhận dạng mẫu Nhận dạng đối tượng trong hình ảnh thể hiện qua các công nghệmáy tính có thể nhận ra người, động vật, vật thể…… hoặc các đối tượng mục tiêukhác thông qua việc sử dụng các thuật toán và khái niệm học máy

1.1.8 Nhận dạng đối tượng

Một số khái niệm liên quan:

+ Nhận dạng đối tượng (object recognition) là một thuật ngữ chung để mô

tả một tập hợp các cách xử lý trong thị giác máy tính có liên quan đến việc xác địnhcác đối tượng trong ảnh kỹ thuật số

+ Phân loại hình ảnh (image classification) liên quan đến việc dự đoán,

phân loại các lớp thông tin của một đối tượng trong một hình ảnh

+ Khoanh vùng đối tượng (object localization) là việc xác định vị trí của

một

Trang 27

hoặc nhiều đối tượng trong một hình ảnh bằng hình chữ nhật xung quanh phạm

vi của đối tượng bằng hộp chứa (bounding box)

+ Phát hiện đối tượng (object detection) kết hợp cả hai nhiệm vụ nhận

dạng đối tượng và khoanh vùng đối tượng Phát hiện đối tượng là việc khoanhvùng và phân loại một hoặc nhiều đối tượng khác nhau trong một hình ảnh

Nhận dạng đối tượng khác với phát hiện đối tượng ở chỗ nhận dạng đối tượngmang ý nghĩa rộng hơn, bao gồm cả việc phân loại hình ảnh (đòi hỏi thuật toánxác định các lớp của đối tượng xuất hiện trong hình ảnh), cũng như phát hiện đốitượng (đòi hỏi thuật toán khoanh vùng, định vị được tất cả các đối tượng có tronghình ảnh)

1.2 Nhận dạng trái chín trong vùng trồng dứa dựa trên

mạng nơ ron tích chập

Các mô hình học sâu (Deep Learning) tiêu biểu như mô hình mạng Neuraltích chập (Convolutional Neural Networks – CNNs) được ứng dụng thành côngtrong các bài toán phân lớp ảnh, văn bản, nhận dạng tiếng nói

Ưu điểm của các mô hình học sâu là tự động học các đặc trưng của dữ liệu đểthiết lập các đặc trưng mới và phân lớp dữ liệu Vấn đề phân lớp khi gặp số chiềulớn thường gặp rất nhiều khó khăn Mô hình phân lớp cho kết quả tốt trên tập huấnluyện nhưng có kết quả thấp trên tập kiểm tra Vấn đề khó khăn thường gặp chính là

dữ liệu có số chiều quá lớn lên đến hàng nghìn chiều và dữ liệu tách rời nhau trongkhông gian có số chiều lớn nên việc tìm mô hình phân lớp tốt là khó khăn do có quánhiều khả năng lựa chọn mô hình Hiện nay, đã có nhiều giải thuật học tự độngđược nghiên cứu để giải quyết bài toán phân lớp dữ liệu khi có số chiều lớn như:kNN (Fix & Hodges Jr, 1952), cây quyết định CART (Breiman et al, 1984), máyhọc vector hỗ trợ SVM (Vapnik, 1995)

Những năm qua, mô hình học sâu đặc biệt là mạng Neural tích chập CNNs là

mô hình được sử dụng phổ biến, cho kết quả cao trong các bài toán phân loại hìnhảnh (Krizhevky et al.,2012), phân loại văn bản (Kim, 2014) và gần đây đã công bốnhiều nghiên cứu sử dụng mạng Neural tích chập trong lĩnh vực tin sinh học (Min et

Trang 28

al., 2016), nghiên cứu của Li et al., 2014 phân tích ảnh y khoa Có thể thấy rằngCNNs cho phép khả năng trích chọn đặc trưng của lớp tích chập và bộ phân lớpđược các huấn luyện đồng thời Đến thời điểm này, có thể nói rằng chưa có nhiềuhướng nghiên cứu sử dụng CNNs trong phân lớp và nhận dạng trái chín tại ViệtNam

Trong những năm gần đây, chúng ta chứng kiến được nhiều thành tựu vượtbậc trong ngành Thị giác máy tính (Computer Vision) Các hệ thống xử lý ảnh lớnnhư Facebook, Google hay Amazon đã đưa vào sản phẩm của mình có những chứcnăng thông minh như nhận diện khuôn mặt người dùng, phát triển xe hơi tự lái haygiao hàng tự động

Ở Việt Nam thời gian gần đây đang chú trọng đến lĩnh vực hẹp của công nghệTrí tuệ nhân tạo (AI), Machine Learning là phương pháp phân tích dữ liệu từ đó tựđộng hóa việc xây dựng mô hình phân tích Có thể nói đây là công nghệ rất hứa hẹnmang lại những hỗ trợ tối ưu cho các doanh nghiệp với nhiều ứng dụng trong thếgiới thực, ví dụ như: nhận dạng giọng nói và nhận diện hình ảnh

Với nhận diện hình ảnh, có rất nhiều tình huống hệ thống phân loại hình ảnhcác đối tượng như một ảnh kỹ thuật số Đối với hình ảnh số, các phép đo mô tả cáckết quả đầu ra của mỗi pixel trong hình ảnh Với ảnh đen trắng, mật độ của mỗipixel được tính như 1 đơn vị đo Vì thế, nếu một hình ảnh đen trắng có N * Npixels, tổng số pixel và các phép đo là N2 Với ảnh màu, mỗi pixel được tính nhưcung cấp 3 phép đo với mật độ của 3 thành phần màu chính là RGB Vì vậy ảnhmàu N * N có 3 phép đo N2

Trước đây, để dự đoán các chấn thương hay để có được thông tin bên trong cơthể của người bệnh, bác sỹ chỉ có thể dựa vào các thông số xét nghiệm hay các triệuchứng ở người bệnh hoặc phát hiện ra trong quá trình phẫu thuật Kỹ thuật dựng ảnh

y khoa phát triển đã cho bác sỹ một công cụ hữu dụng để “nhìn thấy” được nhữngthông tin bên trong cơ thể của người bệnh, các vết nứt xương có thể được nhìn thấythông qua một bức ảnh chụp X-quang hay các khối u, các vết thương, tế bào ungthư trên nội tạng của người bệnh có thể được nhìn thấy thông qua ảnh chụp CT

Trang 29

Trước khi phẫu thuật, ảnh chụp CT còn hỗ trợ như một bản đồ giúp bác sỹ có thểnhìn thấy vị trí các khối máu vón cục trong mạch máu, những vùng tổn thươngtrong não Với lợi thế to lớn này, việc thu ảnh để chẩn đoán bệnh đã trở thành mộtbước gần như không thể thiếu ở hầu hết các bệnh viện Tuy nhiên, điều này cũngtạo nên một lượng dữ liệu y học to lớn mà con người khó có thể tự mình thống kê

và sử dụng trong thời gian ngắn

Phát hiện trái cây trong vườn cây đã được giải quyết bởi suchet Bargoti et al.[3], thực hiện một RCNN nhanh hơn để bản địa hóa các loại trái cây (xoài, hạnhnhân và táo), nhưng không phát hiện các giai đoạn chín

Một cách tiếp cận khác để phát hiện quả trong vườn được Joseph Redmon et al.[17,18,19,20,21,26] đưa ra, phát triển kiến trúc MangoYolo (dựa trên YOLO-v3,YOLO-v2 [7,8]) để phát hiện xoài trong vườn với độ chính xác trung bình là 0,983% D.Stajnko, M.Lakota, M.Hočevar [28] đã sử dụng máy ảnh nhiệt để chụp ảnhtáo và áp dụng các thuật toán xử lý hình ảnh khác nhau để ước tính năng suất vàkích thước của táo trong vườn cây

Phát hiện giai đoạn chín của trái cây trong vườn cây đã được thảo luận bởi Y.Tian et al [7], sử dụng YOLO-v3 và phát hiện các giai đoạn phát triển khác nhaucủa táo trong vườn cây Vấn đề phát hiện chín trong [11] yêu cầu đào tạo các giaiđoạn phát triển táo khác nhau thành các đối tượng riêng biệt và do đó, nó sẽ gây rachi phí đào tạo lớn nếu một giai đoạn phát hiện bổ sung được thêm vào mô hình do

S Kim et al [20] Một số nhà nghiên cứu đã nghiên cứu những thay đổi về tính chấtvật lý và hóa học của các loại trái cây khác nhau trong quá trình chín [21, 22]

Trang 30

Trích đối tượng Trích đặc trưngTiền xử lý

Ảnh đầu vào

Kết quả

17

Hình 1.5 Qui trình tổng quát xử lý nhận dạng, phát hiện trái chín

Hình 1.6 Sơ đồ khối hệ thống xử lý nhận dạng, phát hiện trái dứa chín

Bước 1 : Tiền xử lý

Các hệ thống Deep Learning khác nhau thường sử dụng các loại camera thu nhậnảnh khác nhau, do đó chất lượng ảnh thu được cũng khác nhau Bước tiền xử lý đượcthực hiện nhằm nâng cao chất lượng ảnh về mặt trực quan, khử nhiễu, hay chuẩn hóathông tin trong ảnh (ví dụ độ sáng, miền giá trị cường độ,…) Bước xử lý này thường

sử dụng các bộ lọc (lọc trung bình, lọc trung vị), các phép biến đổi hình thái học (phéplàm dày, ăn mòn, đóng, mở) với các thông số tùy chọn Kết quả cuối cùng sau khi thựchiện tiền xử lý là ảnh có chất lượng phù hợp cho bước xử lý tiếp theo

Bước 2: Trích đối tượng

Mục tiêu ở bước này là tách riêng loại ra khỏi kho dữ liệu ảnh những ảnhkhông đúng chất lượng Có nhiều giải pháp thường được sử dụng, bao gồm trừ nền,lọc màu vỏ trái cây, hay lọc độ sâu Nội dung tiếp theo sẽ trình bày rõ hơn cácphương pháp này

Bước 3: Trích đặc trưng

Một loạt các phép tính được dùng để tính toán ảnh của trái chín được tách ranhằm biểu diễn thông tin màu quả dưới dạng thức phù hợp Các đặc trưng thườngđược trích xuất dựa trên đường biên hay thông số sinh học được xác định trên ảnh.Biên ảnh thường được biểu diễn dưới dạng mã xích, trong đó mỗi giá trị tương ứngvới hướng của vector nối hai điểm ảnh biên liền kề

Bước 4: Nhận dạng

Trước khi đưa vào ứng dụng, các nhà nghiên cứu phải xây dựng một mô hình

Trang 31

nhận dạng với đầu vào Quá trình xây dựng mô hình được gọi là giai đoạn huấnluyện, được thực hiện dựa trên một mô hình định nghĩa trước cùng với các thông sốkhởi tạo ban đầu và một tập hợp các ảnh mẫu gồm tất cả các hình ảnh Các ảnh nàyđược thực hiện tuần tự các bước đã nêu và các đặc trưng sau khi trích xuất được đưavào mô hình nhận dạng Trong quá trình huấn luyện, các thông số được hiệu chỉnhđến khi mô hình cho ra sai số nhận dạng nhỏ hơn một ngưỡng định trước Lúc này,

bộ thông số của mô hình được lưu giữ lại và sử dụng cho việc nhận dạng trái chín

1.2.1 Lọc màu vỏ trái cây

Qua thực nghiệm, người ta thấy rằng màu vỏ của trái cây thể hiện rõ nét trongcác kênh màu thuộc một số không gian màu cụ thể như: xanh, đỏ, vàng Việc lọcmàu được thực hiện bằng cách áp dụng các công thức tính toán (nhằm cải thiện màuhoặc biến đổi giá trị màu về dạng thức phù hợp) cho ảnh xám tương ứng với cáckênh màu này, sau đó ảnh kết quả được chuyển sang mặt nạ nhị phân dựa trênnhững so sánh về giá trị từng điểm ảnh với ngưỡng cho trước Cuối cùng, lọc ảnhmàu ban đầu bằng mặt nạ vừa thu được sẽ cho ra ảnh màu chỉ chứa ở lớp bề ngoài

Kĩ thuật phát hiện hình ảnh trái dứa chín có thể được sử dụng ngay tại bước này

1.2.2 Lọc độ sâu

Nhằm tránh sự tác động bởi màu sắc hay độ sáng, các nhà nghiên cứu sử dụngthông tin độ sâu được thu bởi camera có gắn cảm biến tương ứng Các camera này

Trang 32

tạo ra ảnh xám thể hiện độ sâu của từng vùng trên ảnh Cụ thể, các điểm ảnh càngsáng tương ứng với các điểm thật trong không gian càng xa quang tâm của cảmbiến Để xác định vùng hình ảnh các quả, người ta định nghĩa một miền giá trịkhoảng cách nhất định, thường là vùng gần ngay phía trước camera, kết quả lọc sẽtrả về các đối tượng thuộc vùng này Hiện nay, kĩ thuật lọc này đang được áp dụngrộng rãi bởi hiệu quả mang lại cao và không có sự chênh lệch nhiều về giá cả giữacamera có cảm biến độ sâu với camera màu

Trang 33

Chương 2 BÀI TOÁN NHẬN DẠNG TRÁI DỨA CHÍN ÁP DỤNG

MẠNG NƠ RON TÍCH CHẬP 2.1 Mạng Neural

2.1.1 Giới thiệu về mạng nơ-ron nhân tạo

Bộ não con người chứa khoảng 1011 các phần tử (được gọi là nơron) liên kếtchặt chẽ với nhau Đối với mỗi nơron, có khoảng 104 liên kết với các nơron khác.Một nơron được cấu tạo bởi các thành phần như tế bào hình cây, tế bào thân và sợitrục thần kinh (axon) Tế bào hình cây có nhiệm vụ mang các tín hiệu điện tới tếbào thân, tế bào thân sẽ thực hiện gộp (sum) và phân ngưỡng các tín hiệu đến Sợitrục thần kinh làm nhiệm vụ đưa tín hiệu từ tế bào thân tới tế bào hình cây của cácnơ-ron liên kết

Trang 34

Cấu trúc mạng nơron luôn luôn phát triển và thay đổi Các thay đổi có khuynhhướng chủ yếu là làm tăng hay giảm độ mạnh các mối liên kết thông qua các khớpthần kinh

Một trong những phương pháp điển hình giải quyết bài toán học máy là thiếtlập các mạng nơron nhân tạo Mạng nơron nhân tạo chưa tiếp cận được sự phức tạpcủa bộ não Tuy nhiên, do mô phỏng hoạt động học trong não mà về cơ bản có hai

sự tương quan giữa mạng nơron nhân tạo và nơron sinh học Thứ nhất, cấu trúc tạothành chúng đều là các thiết bị tính toán đơn giản (với mạng nơron sinh học đó làcác tế bào thân còn với mạng nhân tạo thì đơn giản hơn nhiều) được liên kết chặtchẽ với nhau Thứ hai, các liên kết giữa các nơron quyết định chức năng hoạt độngcủa mạng

Mạng nơ-ron, được xem như hoặc là mô hình liên kết (connectionist model),hoặc là mô hình phân bố song song (parallel-distributed model) và có các thànhphần phân biệt sau đây:

1) Tập các đơn vị xử lý;

2) Trạng thái kích hoạt hay đầu ra của đơn vị xử lý;

3) Liên kết giữa các đơn vị, mỗi liên kết được xác định bởi một trọng số wjicho ta biết hiệu ứng mà tín hiệu của đơn vị j có trên đơn vị i;

4) Luật lan truyền quyết định cách tính tín hiệu ra của đơn vị từ đầu vào củanó;

5) Hàm kích hoạt, xác định mức độ kích hoạt khác dựa trên mức độ kích hoạthiện tại;

6) Đơn vị điều chỉnh (độ lệch - bias) của mỗi đơn vị;

7) Phương pháp thu thập thông tin (luật học – learning rule);

8) Môi trường hệ thống có thể hoạt động

Trang 35

2.1.2 Đơn vị xử lý

Một đơn vị xử lý, cũng được gọi là một nơron hay một nút (node), thực hiệncông việc rất đơn giản: nhận tín hiệu vào từ các đơn vị khác hay một nguồn bênngoài và sử dụng chúng để tính tín hiệu ra sẽ được lan truyền sang các đơn vị khác

Hình 2.2: Đơn vị xử lý của mạng nơ-ron

Trong đó:

- xi: các đầu vào của đơn vị thứ j,

- wji: hệ số nối tới đơn vị thứ j,

- θj: độ lệch đối với đơn vị thứ j,

- aj: tổng thứ j của đầu vào mạng (net input), tương ứng với đơn vị thứ j,

- zj: đầu ra của đơn vị thứ j,

- g(x): hàm kích hoạt

Trong một mạng nơron có 3 kiểu đơn vị:

1) Các đơn vị đầu vào (input unit), nhận tín hiệu từ bên ngoài;

2) Các đơn vị đầu ra (output unit), gửi tín hiệu ra bên ngoài;

3) Các đơn vị ẩn (hidden unit), đầu vào (input) và đầu ra (output) của chúngđều nằm trong mạng

Như được thể hiện trong hình 2, mỗi đơn vị j có thể có một hoặc nhiều đầuvào: x0, x1, x2, , xn, nhưng chỉ có một đầu ra zj Mỗi đầu vào của một đơn vị có thể

là dữ liệu từ bên ngoài mạng, hoặc đầu ra của một đơn vị khác, hoặc đầu ra củachính đơn vị đó

Trang 36

2.1.3 Mạng nơ-ron truyền thẳng

Mạng nơ-ron truyền thẳng (Feed-forward neural network) là dòng dữ liệu từđơn vị đầu vào đến đơn vị đầu ra chỉ được truyền thẳng Việc xử lý dữ liệu có thể

mở rộng ra nhiều lớp, nhưng không có các liên kết phản hồi Nghĩa là, các liên kết

mở rộng từ các đơn vị đầu ra tới các đơn vị đầu vào trong cùng một lớp hay các lớptrước đó là không cho phép

Hình 2.3: Mạng nơ-ron truyền thẳng nhiều lớp

2.1.4 Mạng nơ-ron truyền thẳng một lớp

Mạng nơ-ron truyền thẳng một lớp (perceptron một lớp) do F Rosenblatt đềxuất năm 1960 [16] là mạng truyền thẳng chỉ một lớp vào và một lớp ra không cólớp ẩn Trên mỗi lớp này có thể có một hoặc nhiều nơ-ron Mô hình mạng nơ-roncủa Rosenblatt sử dụng hàm ngưỡng đóng vai trò là hàm chuyển Do đó, tổng củacác tín hiệu vào lớn hơn giá trị ngưỡng thì giá trị đầu ra của nơ-ron sẽ là 1, còn tráilại sẽ là 0

Với neti = ∑wijxj là tổng thông tin đầu vào của nơ-ron i

Ngay từ khi mạng Perceptron một lớp được đề xuất nó đã được sử dụng đểgiải quyết bài toán phân lớp Một đối tượng sẽ được nơ-ron i phân vào lớp A nếu

Trang 37

Tổng thông tin đầu vào: ∑ w ij xj >θθi

Trong đó wij là trọng số liên kết từ nơ-ron j tới nơ-ron i, xj là đầu vào từ nơ-ron

j, và θ là ngưỡng của nơ-ron i Trong trường hợp trái lại đối tượng sẽ được phân vàolớp B

Việc huấn luyện mạng dựa trên phương pháp học có giám sát với tập mẫu học

là {(x(k), d(k))}, k= 1,2, …, p Trong đó d(k) = [d1(k), d2(k), …, dn(k)] T là đầu raquan sát được tương ứng với đầu vào x(k) = [x1(k), x2(k), …, xm(k)] T (với m là sốđầu vào, n là số đầu ra và p là cặp mẫu đầu vào - đầu ra dùng cho việc học) Nhưvậy chúng ta mong rằng sau quá trình học, đầu ra tính toán được y(k) = [y1(k),y2(k), …, yn(k)] T sẽ bằng với đầu ra của mẫu học d(k)

Hình 2.4: Mạng perceptron một lớp

Để bắt đầu quá trình luyện mạng, các trọng số được gán giá trị ngẫu nhiêntrong khoảng [-3, 3] Sau đó hiệu chỉnh các trọng số cho phù hợp với mẫu học đểlàm giảm sai số giữa y(k) và d(k)

Trang 38

Các bước tiến hành:

Xác định ngẫu nhiên bộ trọng số

Với mỗi mẫu học (x(k), d(k)), k=1,2, …, p thực hiện các bước:

- Tính giá trị y(k) theo công thức

- Xác định sai số ¦i tại nơ-ron i: ¦i = di – yi, trong đó di là giá trị đầu ra quansát được và yi là giá trị đầu ra tính toán tại nơ-ron thứ i

- Tính ∆wij là số gia của trọng số wij (trọng số liên kết giữa đầu vào j tới ron i) theo công thức: ∆wij =η¦ixj trong đó η là tốc độ học (0<η<1)η<η<1)1)

nơ Hiệu chỉnh wij(t+1) = wij(t) + ∆wij =wij(t) +η¦i(t)xj(t) trong đó wij(t+1) làtrọng số sau khi điều chỉnh ở lần học tại thời điểm t

Rosenblatt đã chứng minh rằng quá trình học của mạng Perceptron sẽ hội tụtới bộ trọng số W, biểu diễn đúng các mẫu học với điều kiện là các mẫu này biểu thịcác điểm rời rạc của một hàm khả tách tuyến tính nào đó (f: Rn → R được gọi làkhả tách tuyến tính nếu các tập {F-1(xk)}, với xk thuộc miền trị của f, có thể táchđược với nhau bởi các siêu phẳng trong không gian Rn)

Năm 1969, Minsky và Papert đã chứng minh một cách chặt chẽ rằng lớp hàmthể hiện sự phụ thuộc giữa đầu vào và đầu ra có thể học bởi mạng Perceptron mộtlớp là lớp hàm khả tách tuyến tính Khả tách tuyến tính là trường hợp tồn tại mộtmặt siêu phẳng để phân cách tất cả các đối tượng của một lớp này với một lớp khác,

ví dụ một mặt phẳng sẽ phân chia không gian ba chiều thành hai vùng riêng biệt

Mở rộng ra, nếu có n đầu vào, n>2 thì công thức ∑

i=1

n

w ij x j=θ i tạo nên một siêu phẳng

có n-1 chiều trong không gian n chiều, nó chia không gian đó thành hai nửa Trongnhiều bài toán thực tế đòi hỏi chia các vùng của các điểm trong một siêu không gianthành các lớp riêng biệt Loại bài toán này gọi là bài toán phân lớp Bài toán phânlớp có thể giải quyết bằng cách tìm các tham số thích hợp cho một siêu phẳng để nó

có thể chia không gian n chiều thành các vùng riêng biệt

Trang 39

2.2 Phân lớp, nhận dạng đối tượng với Support Vector Machine 2 lớp

Support Vector Machine (SVM) là phương pháp phân lớp dựa trên lý thuyếtthống kê của Vapnik và Alexei Chervonenkis xây dựng vào năm 1960 SVM được

sử dụng rộng rãi trong các bài toán nhận dạng, phân lớp,… So với các phương phápphân loại khác, khả năng phân loại của SVM là tương đương hoặc tốt hơn đáng kể[12] Trong luận văn, ảnh màu sắc được trích chọn dưới dạng vector đặc trưng và ápdụng phương pháp phân loại SVM để lọc màu, việc ứng dụng SVM để lọc màucũng là một nghiên cứu mới của tác giả

SVM phân loại sử dụng siêu phẳng thứ nguyên N để tách dữ liệu thành hailoại một cách tối ưu Điều này làm cho công cụ thích hợp trong việc đếm đối tượng,

vì hình ảnh thường có hai lớp được phân biệt (đối tượng và nền), sử dụng SVM hailớp để phân loại các vùng khác nhau trong ảnh màu [15] Các mô hình SVM có liênquan chặt chẽ đến mạng nơ-ron

1.1.3

2.2.1 SVM với tập mẫu phân hoạch tuyến tính được

Ý tưởng của thuật toán SVM là xây dựng một mô hình để phân loại một đốitượng có thuộc hay không thuộc vào nhóm đối tượng cần quan tâm Thuật toánSVM sẽ biểu diễn các điểm trong không gian và xác định ranh giới giữa hai nhómđối tượng sao cho khoảng cách giữa tập dữ liệu được huấn luyện tới ranh giới là xanhất có thể

Trong trường hợp này, tập mẫu có thể được phân chia tuyến tính bằng mộtsiêu phẳng Và SVM đi tìm siêu phẳng này

a Giai đoạn huấn luyện SVM.

Ta có tập huấn luyện gồm m điểm có dạng: (x1, y1), (x2, y2), , (xm, ym) Trong

đó mỗi xi là một vector thực p chiều, xi  Rn, còn yi  {1, -1} là phân lớp của xi

Ta cần xác định một siêu phẳng mà có thể tách biệt được hai lớp trên Có thể

có nhiều siêu phẳng như vậy Thực tế quan sát cũng như lý thuyết học thống kê(Vapnik, 1999) cho thấy rằng để phân loại tốt nhất thì các siêu phẳng nằm ở càng xa

Trang 40

các điểm dữ liệu của tất cả các lớp (gọi là lề) càng tốt Và như vậy ta cần tìm ra siêuphẳng nào làm cho khoảng cách Eulid giữa hai lớp trên là lớn nhất Lúc đó cácvector có khoảng cách gần siêu phẳng nhất được gọi là Support Vector

Hình 2.5: Siêu phẳng phân chia dữ liệu

Giả sử phương trình siêu phẳng cần tìm là wx + b = 0 trong đó w là vector pháp tuyến của siêu phẳng w  Rn Chúng ta cần chọn w và b để cực đại hoá lề hay

khoảng cách giữa hai siêu phẳng song song ở xa nhau nhất có thể trong khi vẫnphân chia được dữ liệu Các siêu phẳng ấy được xác định bằng:

wx + b = 1

wx + b = -1

Ta thấy rằng nếu dữ liệu huấn luyện có thể được chia tách một cách tuyếntính, thì ta có thể chọn hai siêu phẳng sao cho không có điểm nào ở giữa chúng vàsau đó tăng khoảng cách giữa chúng đến tối đa có thể Để đảm bảo không có dữ liệu

nào trong lề, ta thêm vào các điều kiện sau, với mỗi i ta có:

Kết hợp hai bất phương trình trên:

yi (wx i + b) -1 ≥ 0

Lúc đó những support vector xi thoả mãn phương trình wx + b = 1 thì nằm trên

siêu phẳng H1, những support vector xi thoả mãn phương trình wx + b = -1 thì nằm

trên siêu phẳng H2

Ngày đăng: 07/03/2024, 20:55

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w