ứng dụng mô hình nơron - mờ trong việc phát hiện tế bào cổ tử cung giai đoạn tiền ung thư

Trang 1

Tiếp đến, em xin gởi lời cám ơn chân thành nhất đến Tiến sĩ Lê Hoài Bắc Thầy đã cho em một định hướng đúng đắn cho đề tài của mình và luôn tận tình theo dõi quá trình thực hiện đề tài cũng như giúp đỡ kịp thời khi cần thiết

Em cũng xin chân thành cám ơn bác sĩ Trần Hòa, trưởng khoa Giải phẫu bệnh (Bệnh viện C, Đà Nẵng) và Thạc sĩ Bác sĩ Nguyễn Thị Tuyết Mai (Bệnh viện Đa khoa, Đà Nẵng) đã tận tình chỉ dẫn những kiến thức chuyên ngành cần thiết và tạo điều kiện cho em tiếp cận thực tế

Cuối cùng, em xin gởi tất cả tình cảm thân thương nhất đến gia đình, thầy cô và bạn bè; những người luôn ủng hộ em về mọi mặt

TP Hồ Chí Minh, ngày 1 tháng 7 năm 2004 Võ Thị Thuỷ Tú

Trang 2

KHOA CNTT –

ĐH KHTN

Trang 2

LỜI NÓI ĐẦU

Ung thư là một nhóm các bệnh gồm hơn 100 căn bệnh khác nhau, trong đó các bệnh này đều ảnh hưởng đến đơn vị cơ bản nhất của cơ thể sống, đó là tế bào Ung thư xuất hiện khi việc phân chia tế bào trở nên bất thường, không thể kiểm soát được từ đó sẽ dẫn đến tử vong nhanh chóng Tại hội thảo quốc tế “Ung thư phụ nữ và trẻ em” tổ chức tại Hà Nội ngày 6 và 7 tháng 11 năm 2003, qua thống kê, mỗi năm Việt Nam có 100000 đến 150000 người mắc bệnh ung thư được phát hiện, trong đó số người tử vong lên đến 70000 người Các nghiên cứu đã chứng minh rằng nhiều loại bệnh ung thư có thể ngăn chặn nếu được phát hiện và điều trị sớm, chẳng hạn như ung thư vú, ung thư cổ tử cung, ung thư da, ung thư tuyến tiền liệt,… Khi các bệnh này được phát hiện sớm và điều trị thích hợp, 95% bệnh nhân có thể sống thêm ít nhất 5 năm

Ung thư cổ tử cung là loại ung thư phụ khoa nguy hiểm thứ hai sau ung thư vú, chiếm khoảng 18% các trường hợp ung thư ở hệ cơ quan sinh dục nữ Bệnh là nguyên nhân gây tử vong do ung thư cao nhất cho phụ nữ ở các nước đang phát triển Đó là do những nước này chưa thực hiện chương trình khám sàng lọc nhằm phát hiện sớm ung thư Việc chẩn đoán và điều trị cho từng bệnh nhân bị chi phối bởi tiến triển bệnh tại thời điểm chẩn đoán Quá trình điều trị sẽ trở nên đơn giản, hiệu quả, với chi phí thấp nếu bệnh được phát hiện trong giai đoạn tiền ung thư, ngược lại nếu không điều trị kịp thời thì bệnh sẽ không chữa được Vì vậy, phát hiện sớm ung thư cổ tử cung rất quan trọng, liên quan đến lợi ích người bệnh và hiệu quả điều trị Để làm được điều này, các bác sĩ giải phẫu bệnh sẽ khám sàng lọc cho tất cả các bệnh nhân ở độ tuổi có thể mắc bệnh

Năm 1943, bác sĩ George Papanicolaou đã giới thiệu một phương pháp đơn giản, hiệu quả, thích hợp cho việc chẩn đoán tế bào cổ tử cung trong giai đoạn tiền ung thư; đó chính là xét nghiệm Pap Xét nghiệm này thỉnh thoảng vẫn cho kết quả không chính xác do nhiều nguyên nhân khách quan và chủ quan Nhiều phụ nữ sau khi được

Trang 3

Bên cạnh đó, việc xác định các hệ thống tự động đang là một công cụ ứng dụng rất quan trọng trong nhiều lĩnh vực của xã hội Trong đó, mô hình nơron – mờ dần dần được thiết lập không chỉ trong lĩnh vực nghiên cứu mà còn trong lĩnh vực ứng dụng Cả mạng nơron và hệ thống mờ đều được phát triển dựa trên qui trình lập luận của con người Ở hệ thống mờ, các mối liên hệ được mô tả rõ ràng bằng các luật nếu – thì nhưng lại thiếu khả năng tự điều chỉnh (khả năng “học”) Còn ở mạng nơron, các mối liên hệ thể hiện không rõ ràng mà chỉ có thể thiết lập được những mô hình liên quan nhân quả, tuy nhiên dữ liệu lại được mã hóa vào mạng thành các tham số có khả năng “học” Như vậy, các hệ thống tích hợp mạng nơron và logic mờ sẽ kết hợp được khả năng ngữ nghĩa của hệ thống mờ và khả năng “học” của mạng nơron để tạo ra được một mô hình suy luận hiệu quả nhất

Với tính chất phức tạp của hệ thống phân lớp tế bào cổ tử cung, một hệ thống nơron - mờ có thể khắc phục được một số lỗi thường gặp trong chẩn đoán, mà bác sĩ hay mắc phải Mô hình nơron – mờ kiểu ANFIS (hệ suy luận mờ loại Sugeno dựa trên mạng thích nghi) được dùng để thực hiện phân lớp tế bào là bình thường hay bất thường

Báo cáo sẽ gồm 5 phần chính và 3 phần phụ:

• Chương 1: Tổng quan

Giới thiệu sơ lược về đề tài và các kiến thức cơ bản liên quan đến đề tài

Trang 4

KHOA CNTT –

ĐH KHTN

Trang 4

• Chương 2: Hệ thống suy luận mờ dựa trên mạng thích nghi

Trình bày về lý thuyết mô hình ANFIS: cấu trúc ANFIS và thuật toán học

• Chương 3: Trích chọn đặc trưng

Nêu phương pháp tạo dữ liệu cho hệ thống phân loại tế bào và cách tính các đặc trưng được trích ra từ ảnh tế bào

• Chương 4: Phân lớp tế bào cổ tử cung sử dụng mô hình ANFIS

Mô tả cách thức mà mô hình ANFIS thực hiện phân lớp tế bào cổ tử cung trên một số hệ thống luật mờ: luật chuyên gia, luật chuyên gia biến đổi và luật trích dẫn từ hệ thống

• Chương 5: Tổng kết

Giới thiệu chương trình và đánh giá mức độ thực hiện của hệ thống, cũng như một số ưu, khuyết điểm và định hướng

Trang 5

1.3 Mẫu xét nghiệm Pap 11

1.4 Một số nguyên nhân dẫn đến chẩn đoán sai 16

1.5 Một số hệ thống phân lớp tế bào tự động và bán tự động 17

1.6 Phát biểu vấn đề 19

1.7 Các tiêu chuẩn đánh giá mức độ thực hiện hệ thống 20

Chương 2: HỆ SUY LUẬN MỜ DỰA TRÊN MẠNG THÍCH NGHI 22

2.1 Giới thiệu sơ lược về mô hình nơron - mờ 22

Trang 6

KHOA CNTT –

ĐH KHTN

Trang 6

DANH MỤC HÌNH ẢNH

Hình 1-1: Cấu trúc mô tế bào ở cổ tử cung 12

Hình 1-2: Phân lớp trong mô tế bào gai 13

Hình 1-3: (a) tế bào gai cận đáy, (b) tế bào gai trung gian, (c) tế bào gai bề mặt, 14

Hình 1-4: Phân lớp trong mô tế bào trụ 14

Hình 1-5: Sơ đồ các bước thực hiện chẩn đoán 19

Hình 3-5: Tâm của trọng lực đối với nhân và bào tương 44

Hình 3-6: Đường tròn cực tiểu cho nhân 46

Hình 4-1: Ý nghĩa các tham số trong hàm dạng chuông 49

Hình 4-2: Cấu trúc ANFIS với 2 dữ liệu vào và 4 luật 50

Trang 7

KHOA CNTT –

ĐH KHTN

Trang 7

DANH MỤC BẢNG BIỂU

Bảng 1-1: Thống kê kích thước tế bào 16

Bảng 2-1: Hai quá trình trong thuật toán học lai 36

Bảng 3-1 : Danh sách các đặc trưng trích chọn vào cơ sở dữ liệu 47

Bảng 4-1: Ví dụ luật mờ phân loại tế bào 48

Bảng 4-2: Luật chuyên gia 54

Bảng 4-3: Luật chuyên gia biến đổi 55

Bảng 5-1: Luật chuyên gia số hóa 66

Bảng 5-2: Mức độ thực hiện luật chuyên gia 67

Bảng 5-3: Mức độ kiểm nghiệm của luật chuyên gia 67

Bảng 5-4: Luật chuyên gia biến đổi số hóa 68

Bảng 5-5: Mức độ thực hiện luật chuyển gia biến đổi 68

Bảng 5-6: Mức độ kiểm nghiệm của luật chuyên gia biến đổi 69

Bảng 5-7: Luật trích từ hệ thống với 2 dữ liệu xuất 70

Bảng 5-8: Luật trích từ hệ thống với 7 dữ liệu xuất 72

Bảng 5-9: Mức độ thực hiện mạng của luật trích từ hệ thống 72

Bảng 5-10: Mức độ kiểm nghiệm của luật trích từ hệ thống 73

Trang 9

1.1.Giới thiệu sơ lược đề tài

Ung thư cổ tử cung là loại bệnh nguy hiểm, chiếm tỉ lệ cao thứ hai sau ung thư vú Ở Úc, hơn một nghìn trường hợp ung thư cổ tử cung được chẩn đoán hằng năm, và khoảng 350 phụ nữ chết vì bệnh này (Viện Sức khoẻ Úc, 1991) Độ tuổi trung bình người bệnh là 52,2 và thường tập trung vào hai độ tuổi 35-39 và 60-64 Thống kê tại Mĩ cho thấy, ở phụ nữ da trắng, 54% bệnh nhân ung thư cổ tử cung khi được chẩn đoán bệnh còn ở giai đoạn khu trú (tiền ung thư), 31% có tổn thương trong vùng (ung thư) và 8% có di căn xa (ung thư giai đoạn cuối); ở phụ nữ Mỹ gốc Phi, tỉ lệ này tương ứng là 40%, 40% và 12%; Tỉ lệ mắc ung thư cổ tử cung theo độ tuổi cao nhất là ở những phụ nữ gốc Việt sống ở Mỹ (43/100.000) Trong vòng 45 năm qua, tần xuất mắc ung thư cổ tử cung giảm từ 45/100.000 xuống còn 8/100.000 Khi tần xuất mắc bệnh xâm lấn (ung thư) giảm xuống thì tần xuất mắc bệnh tiền xâm lấn (tiền ung thư) lại tăng đáng kể Tỉ lệ sống 5 năm của bệnh nhân ung thư cổ tử cung mọi giai đoạn là 71% cho phụ nữ da trắng và 57% cho phụ nữ Mỹ gốc Phi Tỉ lệ sống phụ thuộc vào giai đoạn của bệnh; khi bệnh còn khu trú tỷ lệ sống 5 năm là 92%, con số này giảm xuống 10% khi bệnh đã di căn Vì vậy, phát hiện ung thư cổ tử cung giai đoạn tiền ung thư là một biện pháp hữu hiệu chăm sóc sức khỏe phụ nữ

Trang 10

Tại Đan Mạch, mặc dù có chương trình khám sàng lọc trên diện rộng, nhưng mỗi năm lại có hơn 500 ca mới được phát hiện, trong đó có khoảng 5% chẩn đoán âm tính giả (không tìm ra bệnh) Cách hiệu quả nhất để khắc phục vấn đề này là thực hiện tầm soát lại toàn bộ mẫu xét nghiệm bằng phương pháp thủ công Tuy nhiên, điều này khó có thể thực hiện được vì vấn đề chi phí và số lượng bác sĩ giải phẫu bệnh Vì vậy, việc khảo sát tự động bằng máy tính là một biến đổi lớn Một số hệ thống chẩn đoán ung thư cổ tử cung tự động và bán tự động cũng đã hoàn thành, nhưng chi phí cho chúng lại đắt hơn chi phí đào tạo bác sĩ chuyên khoa Do đó mà khoa Giải phẫu bệnh của trường đại học Herlev kết hợp với công ty thương mại DIMAC đã thực hiện cơ sở dữ liệu gồm các ảnh tế bào cổ tử cung cùng kết quả phân lớp loại tế bào chính xác để có thể phát triển các ứng dụng công nghệ thông tin trong lĩnh vực này Đề tài này sử dụng toàn bộ dữ liệu lấy từ đây Hệ thống suy luận mờ sẽ sử dụng bộ dữ liệu này để thực hiện phân lớp tế bào cổ tử cung

1.2.Mục đích của đề tài

Đề tài được thực hiện với một số mục đích sau:

¾ Phát hiện những tế bào cổ tử cung có thay đổi bất thường, và xác định mức độ thay đổi của chúng (nhẹ, vừa, nặng), những thay đổi này còn gọi là loạn sản và chúng cũng chính là nguyên nhân gây ra ung thư cổ tử cung sau này

Trang 11

KHOA CNTT –

ĐH KHTN

Trang 11

¾ Giảm tỷ lệ chẩn đoán âm tính giả và dương tính giả

¾ Giúp các sinh viên y khoa dễ dàng tiếp cận với việc chẩn đoán tế bào học, giảm thiểu được chi phí đào tạo, huấn luyện bác sĩ

¾ Giúp các bác sĩ giải phẫu bệnh kiểm tra lại các mẫu xét nghiệm đã chẩn đoán; và nếu được thử nghiệm nhiều thì chương trình có thể thực hiện sàng lọc bước đầu, loại bỏ những mẫu xét nghiệm không nghi vấn và các bác sĩ chỉ cần kiểm tra lại các mẫu có những thay đổi bất thường

1.3.Mẫu xét nghiệm Pap

Xét nghiệm Pap là một phương pháp y khoa dùng để xác định ung thư cổ tử cung trong giai đoạn tiến triển sớm Nó có ý nghĩa rất lớn trong vấn đề y tế cộng đồng vì thực hiện đơn giản và chi phí rẻ

1.3.1.Mục đích thực hiện xét nghiệm Pap

Mục đích của việc khám sàng lọc bằng mẫu xét nghiệm Pap là nhằm chẩn đoán các thay đổi “ác tính” trong tế bào ở giai đoạn tiền ung thư trước khi chúng tiến triển thành ung thư

1.3.2.Cách thực hiện mẫu xét nghiệm Pap

Dùng chổi y khoa hoặc que gỗ lấy mẫu xét nghiệm từ cổ tử cung, quét lên một miếng thủy tinh mỏng, hình chữ nhật để thu được một mẫu Pap Mẫu này sau đó sẽ được nhuộm theo phương pháp Papanicolaou Bằng cách này, đặc điểm của những tế bào khác nhau sẽ có màu khác nhau, dễ phân biệt dưới kính hiển vi Sau đó, các bác sĩ giải phẫu bệnh sẽ khảo sát trực tiếp trên kính hiển vi Việc này làm tốn nhiều thời gian mà tỷ lệ lỗi lại rất cao khi mà mỗi mẫu như vậy có thể chứa đến 300000 tế bào

Trang 12

Hình 1-1: Cấu trúc mô tế bào ở cổ tử cung

1.3.3.2.Mô tế bào gai

Mô tế bào gai có 4 lớp tế bào (Hình 1.2) Tế bào gai bắt đầu hình thành từ lớp đáy, và khi trưởng thành chúng chuyển qua lớp cận đáy, lớp trung gian và cuối cùng là lớp bề mặt Như vậy, các tế bào lớp đáy sẽ phân chia và phân phát tế bào cho các lớp trên nó Khi các tế bào trưởng thành và di chuyển giữa các lớp, chúng thay đổi hình dạng, màu sắc và các đặc tính khác Khi đến lớp bề mặt, chúng sẽ bị đào thải và được

Trang 13

Hình 1-2: Phân lớp trong mô tế bào gai

Trang 14

Hình 1-4: Phân lớp trong mô tế bào trụ

Trang 15

KHOA CNTT –

ĐH KHTN

Trang 15

1.3.3.4.Mô trung gian

Mô trung gian (vùng chuyển tiếp giữa mô tế bào gai và mô tế bào trụ) chứa các tế bào dự trữ từ mô tế bào trụ Khi các tế bào này trưởng thành, chúng trông như các tế bào gai

1.3.3.5.Các tế bào loạn sản

Khi thông tin di truyền của tế bào vì một lý do nào đó bị thay đổi, tế bào sẽ không phân chia theo cách thông thường, và có thể tạo thành một tế bào tiền ung thư Những biến đổi ác tính trong tế bào ở giai đoạn tiền ung thư được gọi là loạn sản Tùy theo cách phân chia của các tế bào này mà nó sẽ được chẩn đoán là loạn sản hay ung thư mô tế bào

Loạn sản có nhiều mức độ khác nhau: loạn sản nhẹ, loạn sản vừa và loạn sản nặng Loạn sản chưa sừng hoá là loại phổ biến (chiếm 85% các ca loạn sản), phát triển từ mô trung gian hoặc từ mô tế bào gai Tế bào loạn sản nhẹ (Hình 1.3e) có nhân sáng và lớn hơn tế bào bình thường Tế bào loạn sản vừa (Hình 1.3f) có nhân tối và lớn hơn tế bào loạn sản nhẹ Tế bào loạn sản nặng (Hình 1.3g) có nhân giống như loạn sản vừa nhưng bào tương nhỏ hơn

1.3.3.6.Một số đặc điểm giải phẫu bệnh

Một số đặc điểm dưới đây được dùng cho các bác sĩ giải phẫu bệnh khi thực hiện chẩn đoán trên xét nghiệm Pap bằng phương pháp thủ công:

¾ nhân mở rộng, tối hơn; tức là hình dạng và màu sắc của nhân biến đổi ¾ tỷ lệ nhân / bào tương tăng lên

Bảng 1.1 tóm tắt một số đánh giá các loại tế bào khác nhau và được sử dụng để tham khảo

Trang 16

Cận đáy 50 300 20 Trung gian 35 1000 5

Bề mặt 20 1600 2 Trụ 50 180 30 Loạn sản nhẹ 175 1000 – 1500 10 – 20

Loạn sản vừa 175 1000 – 1500 20 – 50 Loạn sản nặng 175 1000 – 1500 trên 50

Bảng 1-1: Thống kê kích thước tế bào

1.4.Một số nguyên nhân dẫn đến chẩn đoán sai

1.4.1.Nguyên nhân khách quan

¾ Do điều kiện trang thiết bị y tế thấp kém như: các thiết bị lấy mẫu không theo tiêu chuẩn, dính quá nhiều tạp chất,… làm cho chất lượng mẫu lấy được thấp

¾ Ý thức người dân không cao, không chấp nhận khám sàng lọc hoặc nếu có thì cũng không thực hiện theo định kì, …

¾ Thiếu đội ngũ cán bộ y tế có chuyên môn để thực hiện khám sàng lọc

1.4.2.Nguyên nhân chủ quan

¾ Một chẩn đoán ung thư hay tiền ung thư dựa trên các tế bào bất thường trong mẫu Pap được xác định bởi các bác sĩ giải phẫu bệnh Một mẫu có thể chứa hàng trăm đến hàng ngàn tế bào, nhưng đa số là tế bào bình thường, chỉ có một số trong chúng ác tính, cho nên các tế bào bất thường có thể bị bỏ sót do bác sĩ không tập trung hoặc mệt mỏi

Trang 17

có thể gần giống với các thay đổi ác tính, gây phức tạp thêm nhiệm vụ của bác sĩ Do đó, khi các tế bào bất thường được xác định, việc phân loại chính xác mức độ thay đổi ác tính hay tiền ác tính mang tính chủ quan cao

1.5.Một số hệ thống phân lớp tế bào tự động và bán tự động

1.5.1.Lịch sử phát triển

Hệ thống bán tự động đầu tiên là Cytoanalyzer, xuất hiện vào đầu thập niên 50, do Mellors thực hiện Hệ thống này đo được đường kính nhân và bào tương cùng với độ sáng của chúng Tuy nhiên nó không thể phân đoạn được các cụm tế bào gần nhau, và đây cũng chính là mối quan tâm của các hệ thống hiện nay Hệ thống tuy không đưa ra được một kết quả mong muốn được nhưng nó là một bước ngoặt cho các hướng phát triển kế tiếp

Một sản phẩm khác xuất hiện vào giữa những năm 60 là TICAS Hệ thống này sử dụng máy tính loại DEC LINC – 8 để phát triển các phương pháp phân loại nhạy cảm hơn so với các kĩ thuật tế bào học Nhưng do giới hạn phần cứng của máy tính nên việc khảo sát dữ liệu bị giới hạn trong 475 tế bào Vì vậy mà việc ứng dụng vào thực tế bị hạn chế Tuy nhiên, sản phẩm đã thành công trong việc nghiên cứu các hệ thống phân loại trong tương lai Vào thập niên 80, TICAS được mở rộng thành microTICAS, sử dụng kính hiển vi, kết hợp camera kĩ thuật số và máy IBM chạy trên DOS phiên bản 2.0

Năm 1965, Husain đã xây dựng một hệ thống chẩn đoán tự động, phát hiện các tế bào có nhân lớn và tối thông qua một hệ thống kính hiển vi điện tử, để có thể xác định tế bào là ung thư hay tiền ung thư Đầu những năm 70, ông tiếp tục phát triển các

Trang 18

Năm 1989, khi phần cứng và phần mềm được cải tiến đáng kể thì hệ thống LEYTAS xuất hiện, cho kết quả FN là 0.3% và FP là 13%, nhưng do qui trình lấy mẫu mất thời gian và đòi hỏi sự tác động đáng kể của con người nên không được ứng dụng rộng rãi

Tất cả những người thiết kế các hệ thống này đều nhận thấy rằng khám sàng lọc cổ tử cung tự động là một vấn đề cực kì khó khăn Từ đó đến nay cũng có nhiều hệ thống mới ra đời, nhưng vẫn chỉ có thể cho hiệu suất cao khi có bàn tay con người trợ giúp

1.5.2.Một số hệ thống khám sàng lọc thương mại

Tổ chức FDA của Mĩ thông qua hai hệ thống khám sàng lọc tự động:

¾ Hệ thống PAPNET là một thiết bị khám sàng lọc nhằm bổ sung thêm cho hệ thống khám thủ công Từ mỗi mẫu, hệ thống chọn 128 vùng khả nghi và lưu lại cho các bác sĩ giải phẫu học xem xét

¾ Hệ thống AutoPap 300 nhận ra các mẫu âm tính, và được dùng cho việc sàng lọc lại các mẫu đã khám bằng phương pháp thủ công

Cả hai hệ thống đều làm giảm tỷ lệ chẩn đoán bệnh sai, nhưng đồng thời chúng cũng làm tăng chi phí xét nghiệm

Trang 19

trích ra các đặc trưng của tế bào để thực hiện phân loại

¾ Phân loại tế bào dựa trên các đặc trưng đã có, dùng hệ thống suy luận mờ sử dụng mạng thích nghi để thực hiện

Có thể hình dung các bước thực hiện theo sơ đồ sau:

Hình 1-5: Sơ đồ các bước thực hiện chẩn đoán

Dữ liệu thử nghiệm

Trích đặc trưng Trích đặc trưng Đặc trưng tế bào Đặc trưng tế bào Huấn luyện phân lớp

Phân lớp tế bào Dữ liệu huấn luyện

Phân lớp Chuẩn đoán bệnh

Trang 20

KHOA CNTT –

ĐH KHTN

Trang 20

1.7.Các tiêu chuẩn đánh giá mức độ thực hiện hệ thống

Các giá trị sau được dùng để đánh giá mức độ thực hiện việc phân lớp tự động tế bào:

¾ Sai số trung bình bình phương lỗi (RMSE) ¾ Tỷ lệ âm tính giả (FN%)

¾ Tỷ lệ dương tính giả (FP%) ¾ Độ nhạy (Sensitivity)

¾ Độ đặc trưng (Specificity)

¾ Giá trị dự đoán dương tính (PP%) ¾ Giá trị dự đoán âm tính (NP%)

1.7.1.Sai số trung bình bình phương lỗi - RMSE

RMSE là độ sai khác giữa phân lớp d đích và giá trị thực y có được nhờ vào việc

phân lớp tự động tế bào RMSE khác với độ lệch chuẩn σ ở chỗ σ là độ lệch chuẩn so với giá trị µ của y:

= 100% 100%

với TP là số lượng tế bào phân lớp dương tính đúng

Trang 21

Như vậy, số lượng tế bào bình thường trong cơ sở dữ liệu là N = TN + FP

1.7.6.Giá trị dự đoán dương tính – PP%

PP% là tỷ lệ tế bào được phân lớp loạn sản đúng

+×= 100%

1.7.7.Giá trị dự đoán âm tính – NP%

NP% là tỷ lệ tế bào được phân lớp bình thường đúng

+×= 100%

Trang 22

2.1.Giới thiệu sơ lược về mô hình nơron - mờ

Một mạng nơron với các trọng số được điều chỉnh có thể xem như là một thiết bị điều khiển tự động nhờ vào tính chất hồi qui phi tuyến của các đối tượng rời rạc Tuy nhiên tri thức được lưu trữ trong mạng không rõ ràng, không mô tả được những mối liên hệ giữa dữ liệu nhập và dữ liệu xuất, mà chỉ có thể xác định các mối liên hệ này thông qua những tham số thích nghi của mạng Trái lại, một luật mờ nếu – thì lại có thể diễn tả được các mối liên hệ đó dưới dạng ngôn ngữ tự nhiên, nhưng lại không có khả năng điều chỉnh luật cho phù hợp Hai vấn đề này được kết hợp lại tạo thành một hệ thống nơron - mờ nhằm đạt được khả năng “đọc” và “học” cùng một lúc Các luật thu được từ hệ thống này có thể điều chỉnh phù hợp với dữ liệu phát sinh mô hình, và đối với các ứng dụng điều khiển tự động, mô hình nơron - mờ có thể tích hợp với các luật chuyên gia nhằm đưa ra những kết quả chính xác

Bên cạnh các luật chuyên gia, các luật trích ra từ dữ liệu cũng là một hình thức

mô hình hoá hệ thống điều khiển tự động, chẳng hạn như trong Nhận dạng, khai mỏ dữ liệu, Mục tiêu đưa ra các luật này là nhằm giảm độ phức tạp của vấn đề cũng như

lượng dữ liệu liên quan đến vấn đề Có rất nhiều phương pháp phân tích dữ liệu để đưa

Trang 23

2.2.Hệ thống suy luận mờ

2.2.1.Tập mờ

Trong tập rõ, chúng ta có thể xác định rõ một phần tử là thành viên hay không là thành viên của một tập rõ cho trước Tuy nhiên trong đời sống thực tế, có nhiều vấn đề mà chúng ta không biết rõ là đúng hay sai, điều này đồng nghĩa với việc tồn tại một

phần tử x mà ta không thể xác định rõ ràng tính thành viên của x trong tất cả các tập rõ

mà chúng ta đã biết Để giải thích vấn đề này, Dr Zadeh đã đưa ra khái niệm tập mờ và khái niệm hàm thành viên để thể hiện tính thành viên của biến trong tập mờ

Tập mờ A trong X là tập các phần tử có dạng A = {(x, µA(x)) | x ∈ X}, trong đó x là phần tử của tập vũ trụ X và µA(x) là giá trị thể hiện tính thành viên của x trong tập mờ A, với 0≤µA( )x ≤1

Nói cách khác, tập mờ A chính là nhãn được gán cho ánh xạ:

[ ]0,1:X →

x→ y=µA( )x

Trang 24

Luật mờ là biểu thức điều kiện có dạng “NẾU A THÌ B”, trong đó A và B là

nhãn của các tập mờ được mô tả bằng cách xấp xỉ các hàm thành viên Nhờ vào dạng rút gọn, luật mờ thường được dùng để thiết lập những phương thức lập luận không chính xác, nhằm thể hiện tính đa dạng trong tri thức của con người Ví dụ sau mô tả một sự kiện đơn giản là (đây là luật mờ loại Mamdani):

Nếu nhiệt độ cao, thì giá máy lạnh tăng

trong đó nhiệt độ và giá máy lạnh là các biến ngôn ngữ, cao và tăng là các giá trị ngôn ngữ hoặc các nhãn được mô tả bởi các hàm thành viên

Một dạng khác của luật mờ do Takagi và Sugeno đề xuất, có các tập mờ chỉ xuất hiện trong phần giả thuyết của luật Ví dụ (đây là luật mờ loại Sugeno):

Nếu lưu lượng dòng chảy cao thì mực nước sông = k* lưu lượng dòng chảy trong đó, cao là phần giả thuyết được mô tả bởi hàm thành viên xấp xỉ Tuy nhiên, phần kết luận được định nghĩa bởi phương trình theo biến lưu lượng dòng chảy

Cả hai loại luật mờ trên đều được mở rộng trong cả hai lĩnh vực mô hình hóa và điều khiển tự động Bởi vì lợi ích của các nhãn ngôn ngữ và các hàm thành viên, một luật mờ có thể nắm bắt dễ dàng qui luật điều khiển của con người

2.2.3.Hệ thống suy luận mờ 2.2.3.1.Cấu trúc

Một hệ thống suy luận mờ gồm 5 khối cơ bản sau (Hình 2.1):

¾ Một cơ sở luật chứa các luật mờ nếu - thì

Trang 25

2.2.3.2.Các bước thực hiện suy luận

Các bước lập luận mờ (phép toán suy luận trên các luật mờ) được thực hiện bởi các hệ thống suy luận mờ (Hình 2.1):

1 So sánh dữ liệu nhập với các hàm thành viên trong phần giả thuyết để thu được các giá trị hàm thành viên (độ đo tính tương thích) của mỗi nhãn ngôn ngữ (bước này thường được gọi là mờ hóa)

Dữ liệu xuất Dữ liệu nhập

(mờ)

mờ hoá

cơ sở tri thức

đơn vị thực hiện quyết định

khử mờ hoá

Trang 26

3 Phát sinh các kết luận đủ tiêu chuẩn (hoặc mờ hoặc thô) của mỗi luật dựa trên ngưỡng kích hoạt

4 Tập hợp lại các kết luận đủ tiêu chuẩn để đưa ra một dữ liệu xuất thô (bước này được gọi là khử mờ)

2.2.3.3.Các loại hệ thống suy luận mờ

Dựa trên các loại lập luận mờ và các luật mờ được dùng, hầu hết các hệ thống suy luận mờ có thể được phân làm 3 loại chính:

Loại 1: Toàn bộ dữ liệu xuất là trung bình trọng số các dữ liệu xuất thô của mỗi

luật có được do ngưỡng kích hoạt của luật (toán tử tích hoặc min tổ hợp các giả thuyết) và các hàm thành viên dữ liệu xuất

Loại 2: Toàn bộ dữ liệu xuất thu được bằng cách dùng toán tử max cho các dữ

liệu xuất mờ đủ tiêu chuẩn (cực tiểu hóa độ ngưỡng kích hoạt và hàm thành viên dữ liệu xuất của mỗi luật) Các ý tưởng khác nhau được đề xuất để chọn lựa dữ liệu xuất thô cuối cùng dựa trên toàn bộ dữ liệu xuất mờ; một số trong chúng là tâm của diện tích, đường phân giác của diện tích, trung bình cực đại, tiêu chuẩn cực đại,…

Loại 3: Các luật mờ loại Takagi và Sugeno được sử dụng Dữ liệu xuất của mỗi

luật là một tổ hợp tuyến tính các dữ liệu nhập, cộng với một số hạng không đổi, và dữ liệu xuất cuối cùng chính là trung bình trọng số các dữ liệu xuất trong mỗi luật

Hình 2.2 ví dụ về một hệ thống suy luận mờ hai luật, hai dữ liệu nhập để chỉ ra các loại luật mờ và lập luận mờ khác nhau Chú ý rằng sự khác nhau là ở phần kết luận (không giảm đều hoặc hàm thành viên dạng chuông, hoặc hàm thô) và do đó mà các ý tưởng khử mờ (trung bình trọng, trọng tâm của diện tích…) cũng khác nhau

Trang 28

Để phản ánh các khả năng thích nghi khác nhau, các nút hình tròn và hình vuông được dùng trong mạng thích nghi Một nút hình vuông (nút thích nghi) có chứa tham số còn một nút hình tròn (nút cố định) thì không Tập tham số của mạng thích nghi là hợp của các tập tham số của mỗi nút thích nghi Để thu được ánh xạ nhập – xuất đích, các tham số này được cập nhật theo dữ liệu huấn luyện đã cho và thủ tục học dựa trên gradient được mô tả ở phần sau

trong đó Tm,p là thành phần thứ m của vectơ ra đích thứ p, và Lpm

O , thành phần thứ m của vectơ ra thực sự của vectơ vào thứ p Vì vậy độ đo lỗi toàn cục là ∑

= P

Trang 29

KHOA CNTT –

ĐH KHTN

Trang 29

Để phát triển thủ tục học thực hiện giảm gradient trong E toàn bộ không gian

tham số, đầu tiên phải tính tỷ lệ lỗi

cho dữ liệu huấn luyện thứ p và cho mỗi đầu ra của nút O Tỷ lệ lỗi cho nút đầu ra tại (L, i) được suy ra từ phương trình (2.2) là:

( L )

∂ + +

trong đó 1 ≤ k ≤ L – 1 Chính là, tỷ lệ lỗi của nút ẩn có thể được mô tả như một tổ hợp

tuyến tính các tỷ lệ lỗi của các nút trong lớp kế tiếp Vì vậy ∀k, ∀i, sao cho 1 ≤ k ≤ L

và 1 ≤ i ≤ #(k), chúng ta có thể tính k

1 α

Suy ra, công thức cập nhật cho tham số chung α là:

trong đó η là tốc độ học được tính bằng:

(2.8)

Trang 30

của thuật toán học

Có hai mô hình học cho mạng thích nghi Với học theo khối (hoặc học ngoại tuyến), công thức cập nhật tham số α dựa trên phương trình (2.6) và hành động cập

nhật chỉ xảy ra sau khi toàn bộ tập dữ liệu huấn luyện được đưa vào, tức là sau mỗi chu kì huấn luyện Ngược lại, nếu cập nhật các tham số ngay khi dữ liệu nhập – xuất được

đưa vào, thì công thức cập nhật dựa trên phương trình (2.5) và dựa theo học theo mẫu (hoặc học trực tuyến)

2.3.3.Luật học lai theo khối (học ngoại tuyến)

Mặc dù chúng ta có thể áp dụng phương pháp gradient để xác định các tham số trong mạng thích nghi, nhưng phương pháp này nhìn chung rất chậm và có thể bị rơi vào tình trạng cực tiểu địa phương Ở đây, việc kết hợp phương pháp gradient và phương pháp ước lượng bình phương cực tiểu (LSE) được dùng để xác định và điều chỉnh các tham số của mạng

Để đơn giản, giả sử rằng mạng thích nghi đang xét chỉ có một đầu ra:

( )ISF

trong đó I là tập các biến và S là tập các tham số Nếu tồn tại một hàm H để H oF

tuyến tính trong một số phần tử của S, thì các phần tử này có thể được định nghĩa bằng phương pháp bình phương cực tiểu Thông thường, tập tham số S có thể được phân tích

thành hai tập

21 SS

Trang 31

KHOA CNTT –

ĐH KHTN

Trang 31

là tuyến tính trong tập S2 Dựa vào các giá trị đã cho của những phần tử S1, chúng ta có

thể chia dữ liệu huấn luyện P vào phương trình (2.11) và thu được phương trình ma

trận:

trong đó X là vectơ chưa biết mà các phần tử của nó là các tham số trong S2 Đặt |S2| =

M, thì kích thước tương ứng của A, X, và B là P × M, M × 1, và P × 1 Do P (số lượng cặp dữ liệu huấn luyện) thường lớn hơn M (số lượng tham số tuyến tính), nên cần phải

có một giải pháp thực hiện tính phương trình (2.12) Một ước lượng bình phương cực

tiểu (LSE) của X và X*, được tìm để cực tiểu hóa lỗi bình phương ||AX – B||2; đây là

chuẩn để thiết lập cơ sở cho hồi qui tuyến tính, lọc thích nghi và xử lý tín hiệu X* được

tính bằng cách sử dụng nghịch đảo giả của X:

( )AAAB

trong đó AT là ma trận chuyển vị của A, và (ATA)-1AT là ma trận nghịch đảo giả của A

Mặc dù phương trình (2.13) rất ngắn gọn nhưng chi phí tính toán để xử lý nghịch đảo

ma trận lại quá lớn Ở đây, công thức dãy được dùng để tính LSE của X Phương pháp dãy này hiệu quả hơn (đặc biệt khi M nhỏ) và có thể thay đổi dễ dàng thành một thuật

toán học trực tuyến (xem phần sau) cho hệ thống thay đổi đặc tính Đặc biệt, nếu gọi

vectơ hàng thứ i của ma trận A được định nghĩa trong phương trình (2.12) là Ti

a , và

thành phần thứ i của B là Ti

b, thì X có thể được tính lặp đi lặp lại, dùng công thức dãy

mở rộng như sau:

1, ,1,0,1 1 1

(2.14)

trong đó Si thường được gọi là ma trận hiệp phương sai và ước lượng bình phương cực tiểu X* bằng Xp Các điều kiện khởi tạo cho phương trình (2.14) làX0 =0vàS0 =γI, trong đó γ là một số dương lớn (chọn γ = 106) và I là ma trận đồng nhất kích

Trang 32

KHOA CNTT –

ĐH KHTN

Trang 32

thướcM×M Khi giải quyết các mạng thích nghi nhiều dữ liệu xuất (dữ liệu xuất trong

phương trình (2.9) là một vectơ cột), phương trình (2.14) vẫn được áp dụng ngoại trừ

b là hàng thứ i của ma trận B

Bây giờ chúng ta có thể kết hợp phương pháp gradient và ước lượng bình phương cực tiểu để cập nhật các tham số trong mạng thích nghi Mỗi chu kì huấn luyện của thủ tục học lai này bao gồm quá trình tiến và quá trình lùi Trong quá trình tiến, chúng ta cung cấp dữ liệu nhập và các tín hiệu hàm số đi tới để tính dữ liệu xuất của

mỗi nút cho đến khi thu được các ma trận A, B trong phương trình (2.12), và các tham số trong S2 được xác định bởi phương trình (2.14) Sau khi xác định các tham số trong

S2, các tín hiệu hàm vẫn tiếp tục đi tới cho đến khi tính được độ đo lỗi Trong quá trình lùi, các tỷ lệ lỗi (phương trình (2.3) và (2.4)) truyền từ đầu ra cuối đến đầu ra đầu, và

các tham số trong S1 được cập nhật bằng phương pháp gradient theo phương trình (2.7)

Đối với các giá trị cố định của các tham số trong S1, tham số trong S2 do đó

được bảo đảm là điểm tối ưu toàn cục trong không gian tham số S2 dựa trên việc lựa chọn độ đo lỗi bình phương Luật học này không chỉ giảm kích thước không gian tìm kiếm trong phương pháp gradient mà về cơ bản nó còn giảm bớt thời gian hội tụ

2.3.4.Luật học lai theo mẫu

Nếu các tham số được cập nhật sau mỗi biểu diễn dữ liệu, chúng ta có kiểu học theo mẫu hoặc học trực tuyến Mô hình học này quan trọng đối với việc xác định tham

số trực tuyến cho hệ thống đối với các hệ thống thay đổi Để thay đổi luật học theo

khối thành trực tuyến, rõ ràng việc giảm gradient nên dựa theo Ep (phương trình (2.5))

thay vì dựa vào E Nói cách khác, học theo mẫu không phải là thủ tục tìm kiếm gradient đích thực để cực tiểu hoá E, nó sẽ xấp xỉ E nếu tốc độ học nhỏ

Đối với công thức dãy bình phương cực tiểu dùng để giải thích các đặc tính biến đổi theo thời gian của dữ liệu vào, chúng ta cần phân huỷ các ảnh hưởng của cặp dữ

Trang 33

trong đó giá trịλ∈[ ]0,1 Lambda càng nhỏ thì ảnh hưởng của việc phân huỷ dữ liệu cũ càng nhanh Nhưng lambda nhỏ thỉnh thoảng gây tình trạng không ổn định về mặt số

học, nên tránh trường hợp này

2.4.Hệ thống suy luận mờ dựa trên mạng thích nghi

2.4.1.Cấu trúc ANFIS

Không mất tính tổng quát, xét hệ thống suy luận mờ có hai dữ liệu nhập x và y, và một dữ liệu xuất z Giả sử rằng cơ sở luật chứa hai luật mờ loại Sugeno:

Nếu x là A1 và y là B1 thì f1 = p1x + q1y + r1 Nếu x là A2 và y là B2 thì f2 = p2x + q2y + r2

thì suy luận mờ loại 3 trong hình 2.4a sẽ tương ứng với cấu trúc ANFIS ở hình 2.4b Chú ý rằng, các hàm nút trong cùng một lớp có dạng hàm như nhau

Lớp 1: Mọi nút i trong lớp này là nút hình vuông với hàm nút:

( )xO

⎝⎛ −+=

1

Trang 34

KHOA CNTT –

ĐH KHTN

Trang 34 Hay

( )

2⎟⎟⎞⎜⎜⎛ −−

Dữ liệu xuất của mỗi nút biểu diễn ngưỡng kích hoạt của luật

Hình 2-4: (a) Suy luận mờ loại 3, (b) cấu trúc ANFIS tương ứng

Lớp 3: Mỗi nút trong lớp này là nút tròn, được gán nhãn N Nút thứ i tính tỷ lệ

ngưỡng kích hoạt của luật thứ i so với tổng tất cả các ngưỡng kích hoạt của tất cả các

luật:

ww

Trang 35

Trong đó wi là dữ liệu xuất của lớp 3, và {ai, bi, ci} là tập tham số kết quả

Lớp 5: Nút duy nhất trong lớp này là nút tròn được gán nhãn ∑, để tính tổng dữ liệu xuất:

∑∑∑ ==

Trên đây vừa giới thiệu mô hình ANFIS áp dụng hệ thống suy luận mờ loại 3 Những hệ thống suy luận mờ khác cũng thực hiện gần giống như hệ thống loại này

2.4.2.Thuật toán học lai

Từ cấu trúc ANFIS trên (hình 2.4), giả sử đã có các tham số giả thuyết, như vậy tổng dữ liệu xuất có thể xem như một tổ hợp tuyến tính các tham số kết quả Dữ liệu

xuất f có thể được viết lại:

( ) ( ) ( ) ( ) ( ) ( )1 1 1 1 1 1 2 2 2 2 2 22

(2.24)

là tuyến tính theo các tham số kết quả (p1, q1, r1, p2, q2 và r2) Kết quả là, chúng ta có:

S = tập toàn bộ tham số S1 = tập tham số giả thuyết

S2 = tập tham số kết quả

trong phương trình 2.10; H(.) là hàm đồng nhất và F(., ) là hàm của hệ thống suy luận

mờ Do đó mà thuật toán học lai được trình bày ở phần trước có thể được áp dụng trực tiếp Cụ thể hơn, trong quá trình lan truyền tiến của thuật toán học lai, tín hiệu hàm truyền đến lớp 4 và các tham số kết quả được xác định bằng LSE Trong quá trình lan

Trang 36

tham số giả thuyết cố định giảm gradient

tín hiệu dữ liệu xuất của nút tỷ lệ lỗi

Bảng 2-1: Hai quá trình trong thuật toán học lai

Trang 37

3.1.Giới thiệu sơ lược về trích đặc trưng

Trích chọn đặc trưng là chuyển đổi một ảnh đã phân đoạn thành tập hợp các con số mô tả nội dung của đối tượng cần nhận dạng Trong mẫu xét nghiệm Pap, nhân và bào tương phải được nhận dạng đúng để phân biệt tế bào bình thường và tế bào bất thường, cũng như để phân biệt được các loại tế bào khác nhau

3.2.Dữ liệu nhập của hệ thống

3.2.1.Tạo dữ liệu

Các yêu cầu khi tạo dữ liệu ảnh tế bào:

¾ độ phản chiếu giữa nền và đối tượng có độ dao động thấp: điều chỉnh tự động bằng camera và kính hiển vi

¾ độ phân giải của ảnh: sử dụng độ phóng đại kính hiển vi 400X và độ phân giải 384 * 284 điểm ảnh 24 bit màu Độ co giãn là 0.201µm / điểm ảnh ¾ chỉ tạo ảnh gồm các tế bào đơn, không chứa cụm tế bào

Trong mẫu Pap, ngoài các tế bào cổ tử cung, còn có rất nhiều loại tế bào phụ khác như hồng cầu, bạch cầu, xác tế bào, vi trùng,… Để đơn giản, dữ liệu nhập chỉ giới hạn trong các loại sau: tế bào trụ, tế bào gai cận đáy, tế bào gai trung gian và tế bào gai

Trang 38

¾ 100 ảnh tế bào loạn sản nhẹ chưa sừng hoá ¾ 100 ảnh tế bào loạn sản vừa chưa sừng hoá ¾ 100 ảnh tế bào loạn sản nặng chưa sừng hoá

Như vậy, cơ sở dữ liệu ảnh này gồm 200 ảnh tế bào bình thường và 300 ảnh tế bào loạn sản Trước khi sử dụng dữ liệu để xây dựng mô hình phân lớp, cơ sở dữ liệu được chia thành hai tập bằng nhau: tập huấn luyện và tập kiểm nghiệm Dữ liệu huấn luyện dùng để xây dựng mô hình phân lớp tế bào Dữ liệu kiểm nghiệm dùng để đánh giá mức độ thực hiện của mô hình

¾ Đường kính ngắn nhất của nhân

Trang 39

KHOA CNTT –

ĐH KHTN

Trang 39 ¾ Đường kính dài nhất của nhân

¾ Đường kính ngắn nhất của bào tương ¾ Đường kính dài nhất của bào tương ¾ Chu vi nhân

¾ Chu vi bào tương ¾ Vị trí nhân ¾ Vị trí bào tương ¾ Cực đại trong nhân ¾ Cực tiểu trong nhân ¾ Cực đại trong bào tương ¾ Cực tiểu trong bào tương

3.3.Dữ liệu xuất của hệ thống

Cơ sở dữ liệu được tạo ra với 20 đặc trưng cùng với đặc trưng thứ 21, là con số tượng trưng cho phân lớp của tế bào:

¾ 1: tế bào trụ

¾ 2: tế bào gai cận đáy ¾ 3: tế bào gai trung gian ¾ 4: tế bào gai bề mặt

¾ 5: tế bào loạn sản nhẹ chưa sừng hoá ¾ 6: tế bào loạn sản vừa chưa sừng hoá ¾ 7: tế bào loạn sản nặng chưa sừng hoá

Đây chính là dữ liệu xuất dùng cho phân lớp tế bào Nếu chỉ phân lớp là âm tính (tương ứng 1, 2, 3, 4 ở trên) hoặc dương tính (tương ứng 4, 6, 7) thì đặc trưng phân lớp tế bào sẽ gồm:

¾ 1: tế bào bình thường ¾ 2: tế bào loạn sản

Trang 40

Hình 3-2: Ảnh đã gán nhãn

Đối với những ảnh trong cơ sở dữ liệu này, ta có chiều dài một điểm ảnh là:

16051.

Định dạng
Số trang	86
Dung lượng	1,01 MB