1. Trang chủ
  2. » Công Nghệ Thông Tin

Xây dựng hệ thống tư vấn trong chuẩn đoán bệnh nha khoa từ kho dữ liệu ảnh

90 408 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 90
Dung lượng 1,26 MB

Nội dung

Kiến thức về xử lý ảnh được áp dụng vào việc xử lý trích chọn đặc trưng cho ảnh nha khoa, sau đó các đặc trưng sẽ được sử dụng vào việc xây dựng mô hình suy diễn nhằm đưa ra kết quả.. Ý

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

-

Nguyễn Thanh Đức

XÂY DỰNG HỆ TƯ VẤN TRONG CHUẨN ĐOÁN BỆNH NHA KHOA TỪ KHO DỮ LIỆU ẢNH

Chuyên ngành: Công nghệ thông tin

LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN:

1 TS Phạm Văn Hải

2 TS Lê Hoàng Sơn

Hà Nội – 2016

Trang 2

LỜI CAM ĐOAN

Những kiến thức trình bày trong luận văn là do tôi tìm hiểu, nghiên cứu và trình bày theo những kiến thức tổng hợp của cá nhân Kết quả nghiên cứu trong luận văn này chƣa từng đƣợc công bố tại bất kỳ công trình nào khác Trong quá trình làm luận văn, tôi có tham khảo các tài liệu có liên quan và đã ghi rõ nguồn tài liệu tham khảo Tôi xin cam đoan đây là công trình nghiên cứu của tôi và không sao chép của bất kỳ ai

Tôi xin chịu hoàn toàn trách nhiệm, nếu sai, tôi xin chịu mọi hình thức kỷ luật theo quy định

Hà Nội, ngày 15 tháng 3 năm 2016

Học viên

Nguyễn Thanh Đức

Trang 3

Tôi cũng xin gửi lời cảm ơn tới các anh chị em và các bạn trong Trung tâm tính toán hiệu năng cao, Trường Đại học Khoa học Tự Nhiên đã giúp đỡ tôi trong suốt quá trình học tập và nghiên cứu tại trung tâm

Tôi cũng xin gửi lời cảm ơn chân thành tới PGS TS Võ Trương Như Ngọc, Viện đào tạo Răng Hàm Mặt, Đại học Y Hà Nội đã cung cấp số liệu, tài liệu liên quan trong quá trình nghiên cứu

Cuối cùng tôi xin gửi lời cám ơn đến gia đình, bạn bè, những người đã luôn bên tôi, động viên và khuyến khích tôi trong quá trình thực hiện đề tài nghiên cứu của mình

Học viên Nguyễn Thanh Đức

Trang 4

MỤC LỤC

MỤC LỤC 4

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT 6

DANH MỤC CÁC BẢNG 7

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 8

MỞ ĐẦU 9

CHƯƠNG 1 - TỔNG QUAN CƠ SỞ LÝ THUYẾT 13

1.1 Lý thuyết tập mờ 13

1.2 Hàm mờ hóa 18

1.3 Hệ suy diễn mờ 23

1.4 Mạng nơ ron mờ 27

1.5 Thuật toán phân c ụm mờ 29

1.6 Thuật toán mờ với K láng giềng gần nhất 31

1.7 Tổng kết chương 32

CHƯƠNG 2 - THIẾT KẾ MÔ HÌNH HỆ TƯ VẤN CHO BÀI TOÁN CHUẨN ĐOÁN BỆNH NHA KHOA 33

2.1 Mô tả bài toán 33

2.2 Trích chọn đặc trưng c ủa ảnh nha khoa 35

2.3 Xây dựng cơ sở dữ liệu 39

2.4 Xây dựng cơ sở luật 41

2.5 Mô hình suy diễn mờ 44

2.6 Tổng kết chương 48

CHƯƠNG 3 - KẾT QUẢ THỰC NGHIỆM VÀ MÔ PHỎNG 49

3.1 Mô tả dữ liệu thực nghiệm 49

Trang 5

3.2 Tiêu chí đánh giá 50

3.3 Kết quả thực nghiệm 51

CHƯƠNG 4 - PHẦN MỀM HỖ TRỢ CHUẨN ĐOÁN 54

4.1 Thiết kế hệ thống 54

4.2 Mô tả chương trình 56

4.3 Tổng kết chương 61

CHƯƠNG 5 - KẾT LUẬN 62

5.1 Kết luận chung 62

5.2 Kết quả đạt được 62

5.3 Định hướng tiếp theo 62

TÀI LIỆU THAM KHẢO 64

PHỤ LỤC 66

Trang 6

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

FKNN Fuzzy K-Nearest Neighbour Thuật toán mờ với K láng giềng

gần nhất EEI Entropy, Edge-value, Intensity Các giá trị Entropy, giá trị biên,

giá trị cường độ của ảnh LBP Local Binary Pattern Mẫu nhị phân cục bộ

MF Membership Function Hàm mờ (hàm thành viên) FIS Fuzzy Inference System Hệ suy diễn mờ

ANFIS Adaptive Neuro Fuzzy Inference

System

Mạng nơ ron mờ thích nghi cho

hệ suy diễn MAE Mean Absolute Error Sai số trung bình tuyệt đối MSE Mean Squared Error Sai số trung bình bình phương

Trang 7

DANH MỤC CÁC BẢNG

Bảng 1.1 – Thuật toán phân cụm FCM 31

Bảng 1.2 – Thuật toán FKNN 32

Bảng 2.1 – Kết quả sinh luật 44

Bảng 3.1 - Kết quả của hệ thống suy diễn 52

Bảng 3.2 - Kết quả so sánh giữa FIS và FKNN 52

Trang 8

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1.1 – Hàm mờ tam giác 19

Hình 1.2 – Hàm mờ hình thang 20

Hình 1.3 – Hàm mờ Gaussian 21

Hình 1.4 – Hàm mờ hình chum 22

Hình 1.5 – Hàm mờ sigmoidal 23

Hình 1.6 – Sơ đồ tổng quan hệ suy diễn mờ 24

Hình 1.7 - Hệ thống suy diễn Mamdani với 2 đầu vào và 2 luật 25

Hình 1.8 - Hệ suy diễn Sugeno với 2 đầu vào và 2 luật (p n ,q n ,r n là các hằng số) 26

Hình 1.9 - Hệ suy diễn Tsukamoto 27

Hình 1.10 – Mô hình mạng ANFIS 27

Hình 1.11 - Hình ảnh trước (bên trái) và sau (bên phải) khi phân cụm 29

Hình 2.1 – Quy trình hệ thống 33

Hình 2.2 - Giá trị LBP 37

Hình 2.3 - Hàm Gauss áp dụng với các đặc trưng 43

Hình 2.4 – Mô hình tối ưu tham số 45

Hình 2.5 – Kết quả sau khi tối ưu tham số khử mờ 46

Hình 2.6 – Kết quả sau khi tối ưu các tham số hàm thuộc 47

Hình 3.1 - Một vài ảnh nha khoa X-Quang 49

Hình 4.1 – Biểu đồ Usercase mô tả chức năng 54

Hình 4.2 – Biểu độ trình tự chức năng chuẩn đoán bệnh 55

Hình 4.3 – Biểu đồ trình tự chức năng c ập nhật dữ liệu 56

Hình 4.4 - Giao diện chính c ủa phần mềm 57

Hình 4.5 – Chọn ảnh cần chuẩn đoán 58

Hình 4.6 – Bấm nút Analyze để bắt đầu 58

Hình 4.7 – Hệ thống tự động phân tích ảnh 59

Hình 4.8 – Kết quả chuẩn đoán bệnh 60

Hình 4.9 – Bấm nút Update để cập nhật đ ặc trưng vào CSDL 60

Hình 4.10 – Thông tin trợ giúp 61

Trang 9

MỞ ĐẦU

1 Lý do chọn đề tài

Trong cuộc sống hàng ngày, chăm sóc sức khỏe luôn là vấn đề được quan tâm trong đó có vấn đề chăm sóc sức khỏe răng miệng Theo Thống kê Viện Răng Hàm Mặt Trung Ương: Việt Nam có trên 90% dân số mắc các bệnh về răng lợi, tập trung như sâu răng, viêm lợi, viêm quanh răng, trong đó 75% dân số bị sâu răng, 90% người trưởng thành bị viêm lợi và viêm quanh răng Riêng ở trẻ em 6-8 tuổi, hơn 85% bị bệnh sâu răng nhưng 94% trong số đó không được điều trị [15].Tuy nhiên, đa số mọi người thường không quan tâm đến vấn đề này và chỉ đi khám khi bệnh đã nặng Kéo theo đó là nhu cầu khám chữa bệnh rất lớn Đối với nha sĩ, người trực tiếp khám chữa bệnh cho bệnh nhân, khi chuẩn đoán cần phải đưa ra được các quyết định chính xác để có thể lên phương án điều trị tốt nhất

Thông thường, ảnh nha khoa X-Quang sẽ được sử dụng để chuẩn đoán Với ảnh X-Quang, các bác sĩ có thể quan sát được vùng bệnh một cách tốt nhất Tuy nhiên, chuẩn đoán bệnh qua ảnh X-Quang một cách chính xác không hoàn toàn đơn giản và phụ thuộc nhiều vào kinh nghiệm của từng nha sĩ Do đó, việc hỗ trợ nha sĩ đưa ra những chuẩn đoán chính xác là vô cùng cần thiết

Vì những lý do trên, tác giả đã có ý tưởng xây dựng nên một hệ thống chuẩn đoán bệnh dựa trên ảnh nha khoa X-Quang giúp tăng tính chính xác khi bác sĩ đưa

ra quyết định

2 Mục tiêu và nhiệm vụ nghiên cứu

Về mặt lý thuyết, trước tiên, tác giả sẽ nghiên cứu các đặc trưng cơ bản của ảnh nha khoa X-Quang Đây là bước tiền xử lý dữ liệu quan trọng, những đặc trưng được lựa chọn có ảnh hưởng lớn đến kết quả của quá trình suy diễn Thứ hai, những kiến thức nền tảng như lý thuyết về tập mờ và suy diễn mờ cũng sẽ được đề cập

Trang 10

Cuối cùng, một phương pháp chuẩn đoán bệnh nha khoa sử dụng hệ suy diễn mờ sẽ được xây dựng

Về mặt ứng dụng thực tiễn, tác giả sẽ xây dựng một chương trình phần mềm

hỗ trợ chuẩn đoán cho bác sĩ, từ ảnh nha khoa X-Quang, chương trình sẽ phân tích

và đưa ra kết quả nhận dạng bệnh, đồng thời cũng đưa ra lời khuyên về điều trị và cách phòng tránh Đồng thời, chương trình cũng có khả năng cập nhật cơ sở tri thức giúp tăng khả năng nhận dạng bệnh từ ảnh

3 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu tập trung vào việc xử lý ảnh nha khoa bằng phương pháp trích chọn đặc trưng Đồng thời, tác giả cũng thực hiện việc xử lý các đặc trưng có trong ảnh nha khoa

Phạm vi nghiên cứu giới hạn trong việc nhận dạng 5 bệnh thường gặp về răng bao gồm: Gãy răng, Răng mọc ngầm, Sâu răng, Thiếu răng và Tiêu xương quanh răng Bộ ảnh nha khoa được sử dụng gồm 56 ảnh bao gồm 5 bệnh đã được phân loại bao gồm: Gãy răng, Răng mọc ngầm, Sâu răng, Thiếu răng, và Tiêu xương quanh răng

4 Phương pháp nghiên cứu

Với yêu cầu của bài toán đặt ra, tác giả đã tập trung nghiên cứu về các các kiến thức liên quan bao gồm, kiến thức về xử lý ảnh, lý thuyết tập mờ, các thuật toán phân cụm, hệ suy diễn mờ Mô hình cho bài toán chuẩn đoán bệnh nha khoa (được mô tả chi tiết tại mục 2.1) sẽ được cài đặt trên môi trường phát triển MATLAB

Nhằm tăng tính thực tiễn cho đề tài, tác giả đã sử dụng bộ ảnh nha khoa thực

tế được chụp trực tiếp từ bệnh nhân Kiến thức về xử lý ảnh được áp dụng vào việc

xử lý trích chọn đặc trưng cho ảnh nha khoa, sau đó các đặc trưng sẽ được sử dụng vào việc xây dựng mô hình suy diễn nhằm đưa ra kết quả Dữ liệu được thử nghiệm

Trang 11

trên một số phương pháp khác nhau, hai phương pháp là “suy diễn Sugeno” và thuật toán “láng giềng gần nhất” sẽ được đề cập trong đồ án

5 Kết quả dự kiến

Trích chọn được các đăng trưng cho ảnh nha khoa, làm tiền đề cho phương pháp suy diễn sau đó

Xây dựng được mô hình suy diễn cho ảnh nha khoa

Xây dựng được phần mềm hỗ trợ chuẩn đoán cho bác sĩ

6 Ý nghĩa khoa học và thực tiễn

Mô hình suy diễn dành cho ảnh nha khoa với dữ liệu là các đặc trưng của ảnh

có nhiều ưu điểm về sự thuận lợi, và tính chính xác Việc nghiên cứu này sẽ giúp cho việc đánh giá chính xác và tận dụng tốt hơn thông tin từ ảnh nha khoa Khi đem

ra ứng dụng, việc phân tích ảnh nha khoa của nha sĩ với trợ giúp của hệ thống chuẩn đoán sẽ giúp tăng độ chính xác khi đưa ra quyết định Do đó, việc nghiên cứu này

có tính thực tiễn cao

7 Bố cục luận văn

Chương 1 - Tổng quan cơ sở lý thuyết: Chương này nhắc lại một số lý thuyết

cơ bản về tập mờ, hệ suy diễn mờ và thuật toán phân cụm mờ FCM Những kiến thức này là kiến thức nền tảng để xây dựng hệ thống

Chương 2 – Xây dựng hệ suy diễn mờ cho bài toán chuẩn đoán bệnh nha khoa: Các đặc trưng trích chọn từ ảnh nha khoa, cách xây dựng cơ sở luật và bộ suy diễn mờ sẽ được trình bày trong chương này

Chương 3 – Kết quả thực nghiệm và mô phỏng: Chương này trình bày kết quả thực nghiệm trên bộ ảnh nha khoa Hệ thống thực nghiệm được thực hiện từ các đặc trưng ảnh nha khoa, thông qua bộ suy diễn; cuối cùng các độ đo Accuracy, MSE, MAE sẽ được sử dụng để đánh giá độ chính xác của kết quả suy diễn

Trang 12

Chương 4 – Từ các kết quả thực nghiệm ở chương 3, tác giả sẽ xây dựng nên

phần mềm chuẩn đoán bệnh từ ảnh nha khoa Chương này sẽ trình bày về thiết kế

hệ thống và các chức năng chính của chương trình

Chương 5 – Kết luận: Chương này tổng kết lại kết quả đạt được và nêu lên

những định hướng tiếp theo cho đề tài

Phụ lục – Bài báo “Dental diagnosis from X-Ray image using Fuzzy

Rule-based Systems” Giải pháp về bài toán chuẩn đoán bệnh nha khoa đã được trình bày

t trên bài báo “Dental diagnosis from X-Ray image using Fuzzy Rule-based

Systems” và được đính kèm trong luận văn như một phụ lục để làm rõ hơn vấn đề

Trang 13

CHƯƠNG 1 - TỔNG QUAN CƠ SỞ LÝ THUYẾT

1.1 Lý thuyết tập mờ 1.1.1 Giới thiệu

Trong lý thuyết tập hợp, một phần tử được xác định rõ ràng là thuộc hoặc không thuộc một tập hợp và được kí hiệu lần lượt là 1 và 0 tức là một phần tử bất kỳ chỉ có hai khả năng là thuộc hoặc không thuộc tập hợp [2] Tuy nhiên, lý thuyết này không thể giải quyết được những bài toán phức tạp này sinh trong thực tế Ví dụ: tập hợp những người cao là từ 1m75 trở lên được chọn vào đội bóng rổ Vậy người cao 1m74 nhưng có kĩ năng tốt sẽ không thuộc tập hợp những người cao và bị loại liệu đã hợp lý?

Do vậy, một cách tiếp cận mới đã và đang được phát triển nhằm giải quyết những vấn đề trên Đó là lý thuyết tập mờ (Fuzzy Set) do giáo sư Lotfi A Zadeh của trường đại học California – Mỹ sáng lập, bắt đầu với bài báo “Fuzzy Sets” năm

1965 Công trình này nhanh chóng được các nhà nghiên cứu đón nhận Ý tưởng của Zadeh về lý thuyết tập mờ là biểu diễn các thông tin trừu tượng, không chắc chắn như chiều cao (cao – thấp), độ tuổi (trẻ – già) v.v bằng khái niệm toán học gọi là tập mờ Phần tiếp theo sẽ cho thấy sự khác biệt giữa tập rõ và tập mờ

1.1.2 Khái niệm tập rõ

Định nghĩa 1.1: Cho tập nền X với x là phần tử của tập X A là một tập rõ

trên tập X, với x là phần tử thuộc tập hợp A, ta có x A hoặc x A và (x) được gọi là hàm thuộc hay hàm đặc trưng của tập hợp A [2]

(1.1)

Ví dụ: X={x1, x2, x3, x4} với x1 A, x2 A, x3 A, x4 A

(x1) = 1; (x2) = 1; (x3) = 1; (x4) = 0;

Trang 14

1.1.3 Khái niệm tập mờ

Định nghĩa 1.2: Cho tập nền X với x là phần tử của tập X Một tập mờ F trên

tập X được định nghĩa bởi một hàm thành viên hay còn gọi là hàm thuộc F(x), đo

“mức độ” mà phần tử x thuộc về tập F thỏa mãn điều kiện với x X, 0 F(x) 1 [2]

(1.2) Nếu F(x) = 1 thì x F hoàn toàn

Nếu F(x) = 0 thì x F hoàn toàn

Nếu hàm thuộc F(x) chỉ nhận giá trị 1 hoặc 0, tức là các phần tử trong tập hợp F thuộc hoặc không thuộc F một cách rõ ràng thì tập mờ trở thành tập rõ Như vậy tập rõ chính là một trường hợp đặc biệt trong tập mờ

Ví dụ: Cho tập X gồm 5 mức độ nhiệt {x1, x2, x3, x4, x5} tương ứng với nhiệt

độ là 35,25,20,30,15; cần xác định tập F là tập của nhiệt độ “Cao”?

Ta xây dựng hàm thuộc với F(35)=0.95, F(25)=0.5, F(20)=0.3, F(30)=0.8,

F(x) trên tập nền X

(1.4)

Trang 15

(3) Tập mờ chuẩn: tập mờ F được gọi là chuẩn nếu height(F) = 1 và ngược

lại được gọi là dưới chuẩn

(4) Lõi của tập mờ F, ký hiệu là Core(A) là tập con của tập nền X được xác định như sau:

(1.5) Định nghĩa: Lực lượng của tập mờ F, ký hiệu là card (F), bao gồm tổng tất cả các F(x) của các phần tử xcủa nó, được xác định như sau:

Biến ngôn ngữ [14] là những biến có miền giá trị là giá trị ngôn ngữ hay còn gọi là miền ngôn ngữ Ví dụ giá trị của biến ngôn ngữ có thể là: “già”, “trẻ”, “rất trẻ”, “rất già” v.v Tuy nhiên, bản thân giá trị ngôn ngữ không phải là đối tượng toán học, ngữ nghĩa của chúng được biểu thị bằng các tập mờ hay hàm thuộc Để khái niệm biến ngôn ngữ trở thành một khái niệm toán học, Zadeh hình thức hóa khái niệm này như sau:

Định nghĩa: Biến ngôn ngữ là một bộ năm (X, T(X), U, R, M), trong đó X là tên biến, T(X) là tập các giá trị ngôn ngữ của biến X, U là không gian tham chiếu của biến cơ sở u, mỗi giá trị ngôn ngữ xem như là một biến mờ trên U kết hợp với biến cơ sở u, R là một qui tắc cú pháp sinh các giá trị ngôn ngữ của T(X), M là qui tắc ngữ nghĩa gán mỗi giá trị ngôn ngữ trong T(X) với một tập mờ trên U

Ví dụ: Cho X là biến ngôn ngữ có tên là AGE, biến cơ sở u lấy theo số tuổi của con người có miền xác định là U = [0,100] Tập các giá trị ngôn ngữ

Trang 16

T(AGE) = {old, very old, more or less young, less young, very young….}

R là một qui tắc sinh các giá trị này M gán ngữ nghĩa mỗi tập mờ với một giá trị

ngôn ngữ Chẳng hạn, đối với giá trị nguyên thủy old,

M (old) = {(u, µold(u) | u [0,100]},

Ta có A(2)= B(2)=0.7 và A(5)= B(5)=0.1 và A(9)= B(9)=0.2 Vậy kết luận A=B

Trang 17

Ta có phần bù của A là Ā = {(8,0.7) (5,0.3) (9,0.2) (3,0.4)}

c) Phép chứa Tập mờ A là tập con của tập mờ B nếu một phần tử bất kỳ thuộc A thì cũng thuộc B với độ thuộc trên B không thấp hơn độ thuộc của phần tử đó trên A

Ta có A(2) ≤ B(2)=0.7 và A(5) ≤ B(5)=0.1 và A(9) ≤ B(9)=0.2 Vậy kết luận A ⊆ B

d) Phép hợp Hợp của hai tập mờ (A ∪ B) thể hiện mức độ một phần tử thuộc về một trong hai tập mờ là bao nhiêu

Vậy A ∪ B={(2,0.8),(5,0.3) ,(6,0.6),(9,0.5)}

e) Phép giao Giao của hai tập mờ (A B) thể hiện mức độ một phần tử thuộc về cả hai tập

Trang 18

Vậy A B={(2,0.7),(5,0.1),(9,0.2)}

f) Một số tính chất Các phép tính hợp ∪ và giao ∩ có tính giao hoán:

Tính đơn điệu giảm:

–Tính chất De Morgan: –(a ∪b)= –a∩–b; –(a ∩ b) = –a ∪ –b 1.2 Hàm mờ hóa

Như đã đề cập, các tình huống thực tế thường không chắc chắn, và không thể

mô tả một cách chính xác Ví dụ như trong mục giới thiệu, tập hợp người cao và thấp Tuy nhiên, sẽ có những trường hợp được mô tả như “hơi cao”, “hơi thấp” Những trường hợp như vậy có thể hiểu là thông tin đưa ra là mờ Một hàm đo độ thuộc của các phần tử với mỗi phần tử trong tập hợp tương ứng với một giá trị trong khoảng [0, 1] của hàm được gọi là hàm mờ Sẽ không có quy chuẩn để định nghĩa

ra một hàm mờ hay hàm thành viên (MF) Phần lớn, sẽ có một số hàm mờ được sử dụng Trong luận văn sẽ trình bày một số hàm mờ kinh điển thường được sử dụng

Đó là hàm mờ tam giác, hàm mờ hình thang, hàm hình Gaussian, hàm hình chum và hàm sigmoidal [9]

Trang 19

1.2.1 Hàm mờ tam giác

Hàm tam giác đƣợc hình thành với 3 tham số

, theo hình 1.1, và đƣợc định nghĩa nhƣ sau

Trang 20

(1.15)

Tham số m là tâm và σ đại diện cho độ rộng của hàm

Trang 23

Hình 1.5 – Hàm mờ sigmoidal

1.3 Hệ suy diễn mờ

1.3.1 Kiến trúc cơ bản của hệ suy diễn mờ

Suy diễn là cơ chế liên kết các tri thức đã có để suy dẫn ra các tri thức mới

Cơ chế suy diễn phụ thuộc rất nhiều vào phương thức biểu diễn tri thức và không có một phương pháp suy diễn duy nhất cho mọi loại tri thức Hệ suy diễn mờ là một cơ chế suy diễn thường xuyên được áp dụng khi xây dựng các hệ chuyên gia Hệ suy diễn mờ tỏ ra hiệu quả trong trường hợp tri thức không đầy đủ, bất định hoặc không chính xác

Hệ suy diễn mờ có cấu trúc cơ bản như sau [4]:

Trang 24

Hình 1.6 – Sơ đồ tổng quan hệ suy diễn mờ

- Giao diện mờ hóa: chuyển đổi các lớp đầu vào vào các biên độ phù hợp với các giá trị ngôn ngữ

- Cơ sở trí thức bao gồm 2 phần:

Cơ sở dữ liệu: định nghĩa các hàm thuộc của các tập mờ được sử dụng trong các luật mờ

Bộ luật: gồm các luật mờ IF – THEN

- Đơn vị thực thi: thực hiện các hoạt động suy diễn trong các luật

- Giao diện giải mờ: chuyển đổi các giá trị kết quả mờ của hệ suy diễn ra các lớp đầu ra

Các bước suy diễn mờ:

- Mờ hóa các biến vào: ta cần mờ hóa những giá trị rõ để tham gia vào quá trình suy diễn

- Áp dụng các toán từ mờ (AND hoặc OR) cho các giả thiết của từng luật

- Áp dụng phép kéo theo để tính toán giá trị các giá trị từ giả thiết đến kết luận của từng luật

- Áp dụng toán tử gộp để kết hợp các kết quả trong từng luật thành một kết quả duy nhất cho cả hệ

- Giải mờ kết quả tìm được cho ta một số rõ

Có ba kiểu suy diễn mờ, đó là Hệ suy diễn Mamdani, Hệ suy diễn Sugeno (hay còn gọi là Takagi – Sugeno), Hệ suy diễn Tsukamoto [12]

Trang 25

1.3.2 Hệ suy diễn Mamdani

Theo hình 1.7, hệ suy diễn mờ Mamdani có hai biến đầu vào x, y và một đầu

ra z Mỗi đầu vào có hai hàm thuộc, được ký hiệu lần lượt là là {A1, A2}, {B1, B2}

và đầu ra ký hiệu là {C1, C2} Luật thứ k sẽ có dạng như sau:

k: If x is Aki and y is Bkj then z is Ckl

với k = 1, , R; i = 1, , N; j = 1, , M và l = 1, , L trong đó N, M, L là số lượng

hàm thuộc của hai biến đầu vào và biến đầu ra Trong hệ suy diễn này, phương pháp giải mờ thường được sử dụng là lấy cực đại và tính toán điểm trọng tâm

Hình 1.7 - Hệ thống suy diễn Mamdani với 2 đầu vào và 2 luật

1.3.3 Hệ suy diễn Sugeno

Trong hệ suy diễn Sugeno, các luật được hình thành như sau:

k: If x is Aki and y is Bkj then zk =f (x,y)

Cũng giống như Mamdani, k = 1, , R, i = 1, , N và j = 1, , M trong đó N và M

là số lượng hàm thuộc cho biến đầu vào Phương pháp giải mờ này sử dụng toán tử

độ mạnh trung bình

Trang 26

Hình 1.8 - Hệ suy diễn Sugeno với 2 đầu vào và 2 luật (p n ,q n ,r n là các hằng số)

Do hệ suy diễn Sugeno có hiệu quả tính toán cao hơn so với hệ suy diễn Mamdani, mô hình Sugeno thường được sử dụng cho các kỹ thuật thích ứng trong việc xây dựng các mô hình mờ Những kỹ thuật thích ứng có thể được sử dụng để tùy chỉnh các hàm thành viên để đạt được mô hình hiệu quả nhất cho từng loại dữ liệu Lợi thế của suy diễn Sugeno là tính toán hiệu quả, làm việc tốt với các kỹ thuật tuyến tính, tối ưu hóa, và rất thích hợp để phân tích toán học Một trong những vấn

đề lớn với hệ suy diễn mờ Sugeno là không có phương pháp trực quan tốt để xác định các hệ số, p, q, và r Ngoài ra, hệ suy diễn Sugeno chỉ có đầu ra rõ

1.3.4 Hệ suy diễn Tsukamoto

Trong hệ suy diễn Tsukamoto, luật if – then được biểu diễn như sau:

k: If x is Aki and y is Bkj then z is CklCác luật trong hệ suy diễn này được đại diện bởi một tập mờ với hàm thuộc monotonical, như trong hình 1.9 Kết quả suy diễn của từng luật được xác định là

Trang 27

một giá trị rõ, giá trị này được tính ra khi tính độ mạnh của luật Kết quả cuối cùng được tính bằng cách lấy giá trị trung bình đầu ra của từng luật

Hình 1.9 - Hệ suy diễn Tsukamoto

Vì mỗi luật suy diễn ra một kết quả rõ, hệ suy diễn Tsukamoto lấy giá trị cuối cùng là trung bình nên quá trình giải mờ diễn ra nhanh chóng Tuy nhiên, hệ suy diễn mờ Tsukamoto không được sử dụng thường xuyên vì nó được hiệu quả như hai hệ suy diễn mờ Mamdani hoặc Sugeno

1.4 Mạng nơ ron mờ

Hình 1.10 – Mô hình mạng ANFIS

Trang 28

Mạng ANFIS [6] bao gồm 4 lớp

- Lớp 1: Lớp mờ chuyển dữ liệu đầu vào thành độ thuộc tương ứng

- Lớp 2: Lớp luật - kết hợp các độ thuộc vào để tạo nên độ mạnh của từng luật

- Lớp 3: chuẩn hóa khiến tổng các độ thuộc bằng 1 :

w w

w

i i

i i

- Lớp 4: tìm tham số khử mờ - đây cũng là một trong các tham số cần tối ưu

- Lớp 5: kết hợp các giá trị để tạo ra giá trị đầu ra

Gọi các chỉ số i là chỉ số ứng với vector dữ liệu, j là chỉ số thuộc tính j, r là chỉ

số luật, k là chỉ số của giá trị ngôn ngữ, k phụ thuộc vào j và r vì mỗi luật ứng với một thuộc tính thì xác định giá trị biến ngôn ngữ

Sai số ứng với dữ liệu thứ i là i i

Trang 29

Tương tự

,

ir jk

Hình 1.11 - Hình ảnh trước (bên trái) và sau (bên phải) khi phân cụm

Gom cụm dữ liệu đóng vai trò quan trọng trong các nghành khoa học như: sinh học, khôi phục dữ liệu, dự báo thời tiết, tâm lý học, y học và cả kinh doanh 1.5.2 Thuật toán phân cụm mờ FCM

Trong thực tế, một đối tượng có thể thuộc về nhiều cụm khác nhau, do đó ranh giới giữa các cụm thường không rõ, do vậy nếu chỉ áp dụng phân cụm thì nhiều bài toán sẽ không được giải quyết hiệu quả Do đó, ta cần áp dụng phương pháp phân cụm mờ vào việc phân cụm dữ liệu

Thuật toán phân cụm mờ FCM [13] là một phương pháp của phân nhóm cho phép một phần dữ liệu thuộc về hai hoặc nhiều cụm Thuật toán FCM phân hoạch

Trang 30

tập dữ liệu ban đầu thành C cụm Mỗi đối tƣợng dữ liệu thuộc về các cụm đƣợc xác định bởi độ phụ thuộc ukj [0,1] với k là chỉ số của cụm và j là số thứ tự của đối tƣợng dữ liệu trong tập dữ liệu ban đầu, hệ số ukj đƣợc gọi là độ phụ thuộc của đối tƣợng dữ liệu thứ j vào tâm cụm thứ k

Hàm mục tiêu của FCM đƣợc định nghĩa nhƣ sau:

u

u

C j kj kj

,1

;,1

1

]1,0[

1

(1.17)

Với m là tham số, C là số cụm, N là số lƣợng các phần tử, r là số chiều của dữ liệu,

ukj là độ thuộc của phần tử Xk vào cụm thứ j, Xk Rr là phần tử thứ k của X={X1,

C

k

k m kj j

u

X u V

1 1

(1.18)

C i

m

i k

j k kj

V X

V X u

1

1 1

Trang 31

Giải thuật của FCM được mô tả như sau:

Bảng 1.1 – Thuật toán phân cụm FCM

1.6 Thuật toán mờ với K láng giềng gần nhất

FKNN [11] được gọi là thuật toán lười không tham số bởi nó không đảm bảo cho bất kỳ dữ liệu nào được phân bố bên dưới và cũng không huấn luyện dữ liệu cho việc phân lớp và hồi quy Đầu vào bao gồm tập k dữ liệu mẫu gần nhất Với FKNN, đầu ra là một lớp thành viên Một đối tượng được phân lớp bởi nó cơ bản gần với láng giềng nhất, với đối tượng được gán cho một lớp thông dụng nhất theo

các láng giềng k gần nhất (k là giá trị integer dương, thường là số nhỏ) Nếu k = 1,

đối tượng đơn giản được gán cho một lớp có láng giềng gần nhất Giá trị k tốt nhất được lựa chọn tùy thuộc vào dữ liệu; thông thường, giá trị k lớn giúp giảm nhiễu khi phân lớp nhưng sẽ khó xác định ranh giới Thuật toán FKNN gồm có các bước sau:

Trang 32

Vòng lặp FOR với i từ 1 đến C

Tính toán độ thuộc của y đối với lớp thứ i

) 1 ( /

1

/ 1 )

(

1

) 1 /(

2 1

) 1 /(

2

m x

y

x y u y

j

m j

K

j

m j ij

và FKNN cũng được trình bày chi tiết Hai thuật toán này sẽ đóng vai trò quan trọng trong thực nghiệm ở chương 3 trong luận văn

Trong chương 2 tiếp theo, việc xây dựng nên hệ tư vấn cho bài toán chuẩn

Trang 33

CHƯƠNG 2 - THIẾT KẾ MÔ HÌNH HỆ TƯ VẤN CHO BÀI TOÁN

CHUẨN ĐOÁN BỆNH NHA KHOA

2.1 Mô tả bài toán

Như đã đề cập ở phần mở đầu, chuẩn đoán bệnh luôn đóng một vai trò quan trọng, và trong nha khoa cũng vậy Trong chuẩn đoán các bệnh nha khoa, thì ảnh X-Quang chính là một tư liệu quan trọng, nó giúp nha sĩ dựa vào đó có thể kiểm tra, phân tích, và tìm ra những bệnh mà nếu chỉ nhìn bằng mắt thường sẽ khó xác định Thực tế, kinh nghiệm và trình độ của các bác sĩ là khác nhau cũng có thể dẫn đến các kết quả khác nhau và chưa hoàn toàn đảm chính xác Do vậy, việc phát triển các

hệ thống hỗ trợ chuẩn đoán và điều trị dựa trên hình ảnh nha khoa là vô cùng cấp thiết

Trong thời gian gần đây, với sự phát triển của khoa học, đã có những hướng nghiên cứu về xử lý hình ảnh nha khoa nhằm hỗ trợ bác sĩ, trong nghiên cứu này,

tác giả đã đề xuất một hướng nghiên cứu mới, đó là xây dựng một hệ tư vấn cho bài toán chuẩn đoán bệnh nha khoa dựa trên kho dữ liệu ảnh X-Quang.

Dữ liệu training

Dữ liệu testing

Dữ liệu testing

Diagnosis Results and Accuracy

Diagnosis Results and Accuracy

Trang 34

Toàn bộ quy trình của hệ thống suy diễn mờ được thể hiện như hình 2.1 Theo luồng dữ liệu được mô tả, hệ thống sẽ gồm có 3 giai đoạn chính:

Giai đoạn 1: Tiền xử lý dữ liệu

Giai đoạn 1 gồm có 2 bước: như trên hình 2.1 là bước 1 và bước 2

 Bước 1: trích chọn đặc trưng

a Đầu vào: Ảnh nha khoa (mục 3.1)

b Đầu ra: File text chứa dữ liệu đặc trưng (mục 3.3)

c Mô tả: ảnh nha khoa được trích chọn ra 5 đặc trưng (mục 3.2) lưu trữ dưới dạng số và tập hợp dữ liệu số này được lưu trữ dưới dạng bản ghi và lưu thành file text Định dạng của bản ghi tương ứng mới 1 ảnh được mô tả như sau:

Số thứ tự, <giá trị đặc trưng 1>, … , <đặc trưng n>,

<nhãn>

 Bước 2: chia bộ dữ liệu

a Đầu vào: file text chứa dữ liệu đặc trưng

b Đầu ra: 2 file text với file thứ nhất là bộ training chứa 2/3 số bản ghi và bộ testing chứa 2/3 số bản ghi

c Mô tả: bước này thực hiện việc chia bộ dữ liệu thành 2 phần, một phần là bộ training sẽ được sử dụng để xây dựng cơ sở luật (mục 2.4) và bộ testing sẽ được sử dụng để thử nghiệm độ chính xác của mô hình suy diễn

Giai đoạn 2: Xây dựng mô hình suy diễn

Giai đoạn 2 theo hình 2.1 sẽ là bước 3 sử dụng FCM

 Bước 3: Tạo luật

a Đầu vào: Bộ dữ liệu training

b Đầu ra: Bộ luật (mục 2.4)

Trang 35

c Mô tả: tại bước này, thuật toán phân cụm mờ FCM được sử dụng để tạo ra mô hình luật phục vụ mục đích suy diễn về sau Luật được tạo ra từ dữ liệu, sau khi bỏ đi số thứ tự sẽ có dạng như sau:

<đặc trưng 1>, <2>, <3>, <4>, <5>, <nhãn>

Và dược chuyển đổi thành dạng

IF <điều kiện 1> AND <2> AND <3> AND <4> AND <5> THEN <result>

 Bước 4: huấn luyện tham số cho hệ suy diễn (mục 2.5, hình 2.4)

a Đầu vào: Bộ dữ liệu training

b Đầu ra: Tham số hàm thuộc và tham số khử mờ

c Mô tả: Tham số của khối suy diễn Sugeno cần được tối ưu gồm

có tham số hàm thuộc và tham số khử mờ Cho tập huấn luyện qua hệ thống suy diễn, kết quả suy diễn so sánh với kết quả thật, nếu chưa đúng thì thay đổi tham số khử mờ và cho tập huấn luện qua hệ suy diễn để thử lại đến khi kết quả không thể tối ưu hơn được nữa thì ta tiếp tục làm tương tự với tham số của hàm thuộc Sau cùng ta sẽ có hệ suy diễn với tham số tối

ưu

Giai đoạn 3: Ứng dụng mô hình suy diễn cho bộ testing

Giai đoạn 3 theo hình 2.1 là bước 5, sau đó bước 6 là cho ra kết quả

a Đầu vào: Bộ dữ liệu testing

b Đầu ra: Kết quả và độ đo tính hiệu quả của hệ thống suy diễn (mục 3.3)

c Mô tả: Lần lượt từng bản ghi không có nhãn sẽ được 2.2 Trích chọn đặc trưng của ảnh nha khoa

Ảnh X-Quang nha khoa là ảnh được chụp bởi tia X, hình ảnh thu được là ảnh đen trắng Bằng việc nhìn vào các ảnh X-Quang, các bác sĩ có thể phân tích và nhận

Trang 36

biết được các bệnh như: sâu răng, gãy răng, các bệnh viêm nướu, v.v Đó là với thị giác của người, còn trong vấn đề thị giác máy, ta phải sử dụng các kĩ thuật xử lý ảnh Để phân tích ảnh nha khoa, ta sử dụng 5 loại đặc trưng được trích chọn từ ảnh X-Quang Dữ liệu sẽ được lưu trữ dưới dạng tệp tin để phục vụ cho quá trình suy diễn

2.2.1 Entropy, edge-value và intensity

a) Entropy [7]: là độ đo mức độ ngẫu nhiên của thông tin lấy được trong một phạm vi nhất định và được tính bằng công thức

với f x,y là độ dài của véc tơ gradient, b(x,y) là ảnh nhị phân và e(x,y)

intensity của ảnh X-Quang T1 là ngưỡng Những đặc trưng này được chuẩn hóa bởi công thức:

(2.5)

Trang 37

(2.6)

2.2.2 Local Binary Patterns – LBP

Đặc trưng này là bất biến đối với bất kì sự thay đổi về cường độ sáng nào và đảm bảo thứ tự của mật độ điểm ảnh trong một vùng không gian cho trước (hình 2.2) Giá trị LBP được xác định theo các bước sau [1]:

1 Chọn một điểm ảnh bất kì, xét tất cả các điểm ảnh xung quanh, ta có cửa sổ 3x3

2 So sánh giá trị các điểm ảnh xung quanh với điểm ảnh được chọn Nếu giá trị điểm ảnh đó lớn hơn điểm ảnh được chọn thì đánh dấu 1, còn không thì đánh dấu là 0

3 Đưa toàn bộ giá trị nhị phân từ điểm ảnh trên cùng bên trái đến điểm ảnh cuối cùng theo chiều kim đồng hồ vào chuỗi 8 bit, sau đó quy đổi sang hệ thập phân

(2.8) Với gc là giá trị của điểm ảnh trung tâm (xc, yc) và gn là giá trị của điểm ảnh thứ n trong cửa sổ 3x3

Hình 2.2 - Giá trị LBP

Trang 38

Đặc trưng này được sử dụng nhằm phân biệt các thành phần khác nhau của răng như men răng, xương răng, lợi, ống tủy [3] Giá trị Gradient được tính như sau:

1 Áp dụng bộ lọc Gaussian vào ảnh X-Quang nhằm giảm nhiễu nền

2 Bộ lọc Difference of Gaussian (DoG) được dùng để tính gradient của ảnh theo 2 trục x và y Mỗi điểm ảnh được mô tả bằng một véc tơ gradient

3 Lấy lại dạng tiêu chuẩn của véc tơ gradient và lấy véc tơ 2 chiều cho mỗi điểm ảnh như sau

(2.10) Với α là hướng của véc tơ gradient

Ví dụ, độ và và hướng của một điểm ảnh được tính như sau

Với I(x, y) là véc tơ điểm ảnh, G(x, y, kζ) là hàm Gaussian của véc tơ điểm ảnh, *

là toán tử nhân chập giữa x và y, θ 1 là ngưỡng

Trang 39

là giá trị tiêu chuẩn của m(z) và εg

là hằng số δ(z) thường được xác định bởi phương pháp Hard Binning như sau

(2.17)

2.3 Xây dựng cơ sở dữ liệu

Cơ sở dữ liệu được lưu trữ dưới dạng tệp tin dạng text đuôi txt Với mỗi ảnh nha khoa, ta trích chọn ra 5 đặc trưng đã được mô tả ở phần trước bao gồm đặc trưng EEI, LBP, RGB, Gradient và Patch Đồng thời, với kinh nghiệm chuyên gia, các ảnh đã được xác định chính xác tên bệnh để lưu trữ Trong tệp tin, mỗi dòng là thông tin một bản ghi tương ứng với một ảnh Mỗi bản ghi sẽ gồm các giá trị được ngăn cách bởi dấu phẩy và có dạng như sau:

Số thứ tự, EEI, LBP, RGB, Gradient, Patch, Label

Ví dụ về một bản ghi: 1,42.719,156.4,113.04,0.41599,0.019287,1 Bản ghi trên thể hiện ảnh thứ nhất, có giá trị EEI là 42.719, LBP là 156.4, RGB là 113.04, Gradient là 0.41599, Patch là 0.019287, nhãn của bệnh là 1

Số thứ tự: số thứ tự của bản ghi tương ứng với số thứ tự của ảnh được trích

chọn đặc trưng và đưa vào số liệu Trong ví dụ trên thì số thứ tự 1 sẽ tương ứng với ảnh đầu tiên (ta tạm gọi là ảnh 1) được xử lý

Trang 40

EEI: bao gồm 3 thông số Entropy, Edge-value và Intensity Trong MATLAB

đã hỗ trợ tính toán cho 3 thông số này Sau khi tính toán các thông số trên, ta thu được 3 giá trị, và giá trị đặc trưng của EEI chính là trung bình cộng của 3 thông số này Trong ví dụ của ảnh 1 thì giá trị được tính ra là 42.719

LBP: Áp dụng lý thuyết tính toán LBP được đề cập ở trên, ta tính giá trị LBP

cho từng điểm ảnh và được một ma trận giá trị LBP của một ảnh Ta tính giá trị trung bình của ma trận đó, kết quả cuối cùng là một giá trị duy nhất thu được, đó chính là giá trị của đặc trưng LBP Theo ví dụ thì kết quả đặc trưng LBP của ảnh 1

là 156.4

RGB: Đặc trưng RGB được tính với ảnh JPEG Ảnh JPEG bao gồm 3 ma

trận Red, Green, Blue, ta tính giá trị trung bình lần lượt 3 ma trận đó và thu được 3 giá trị trung bình của 3 ma trận Để có được kết quả cuối cùng, ta tiếp tục tính trung bình cọng của 3 giá trị vừa tính được để lấy kết quả cuối cùng Đó là giá trị đặc trưng RGB, với ví dụ ảnh 1 thì giá trị là 113.04

Gradient: Đặc trưng Gradient được tính bằng việc sử dụng 3 ma trận

Red-Green-Blue Truyền 3 tham số là 3 ma trận vào hàm gradient trong MATLAB, ta

thu được một ma trận số Kết quả cuối cùng vẫn được tính bằng giá trị trung bình của ma trận Theo ví dụ tao có gái trị gradient là 0.41599

Patch: Đặc trưng Patch cũng được tính bằng cách sử dụng 3 ma trận

Red-Green-Blue của ảnh JPEG Kết quả cuối cùng được tính bằng hàm patch trong MATLAB

Label: Giá trị cuối cùng của 1 bản ghi trong cơ sở dữ liệu là Label Giá trị

này thể hiện nhóm bệnh của bản ghi hay chính là của ảnh Trong nghiên cứu này, tác giả hiện giới hạn thực nghiệm cho 5 loại bệnh cơ bản là: Gãy răng, Răng mọc ngầm, Sâu răng, Thiếu răng, và Tiêu xương quanh răng Mỗi bệnh sẽ được đánh số

để lưu vào dữ liệu phục vụ tính toán sau này Các bệnh sẽ được đánh số như sau:

- Gãy răng được đánh số 1

Ngày đăng: 25/07/2017, 21:58

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w