ứng dụng mô hình nơron - mờ trong việc phát hiện tế bào cổ tử cung giai đoạn tiền ung thư
Trang 1Tiếp đến, em xin gởi lời cám ơn chân thành nhất đến Tiến sĩ Lê Hoài Bắc Thầy đã cho em một định hướng đúng đắn cho đề tài của mình và luôn tận tình theo dõi quá trình thực hiện đề tài cũng như giúp đỡ kịp thời khi cần thiết
Em cũng xin chân thành cám ơn bác sĩ Trần Hòa, trưởng khoa Giải phẫu bệnh (Bệnh viện C, Đà Nẵng) và Thạc sĩ Bác sĩ Nguyễn Thị Tuyết Mai (Bệnh viện Đa khoa, Đà Nẵng) đã tận tình chỉ dẫn những kiến thức chuyên ngành cần thiết và tạo điều kiện cho em tiếp cận thực tế
Cuối cùng, em xin gởi tất cả tình cảm thân thương nhất đến gia đình, thầy cô và bạn bè; những người luôn ủng hộ em về mọi mặt
TP Hồ Chí Minh, ngày 1 tháng 7 năm 2004 Võ Thị Thuỷ Tú
Trang 2KHOA CNTT –
ĐH KHTN
Trang 2
LỜI NÓI ĐẦU
Ung thư là một nhóm các bệnh gồm hơn 100 căn bệnh khác nhau, trong đó các bệnh này đều ảnh hưởng đến đơn vị cơ bản nhất của cơ thể sống, đó là tế bào Ung thư xuất hiện khi việc phân chia tế bào trở nên bất thường, không thể kiểm soát được từ đó sẽ dẫn đến tử vong nhanh chóng Tại hội thảo quốc tế “Ung thư phụ nữ và trẻ em” tổ chức tại Hà Nội ngày 6 và 7 tháng 11 năm 2003, qua thống kê, mỗi năm Việt Nam có 100000 đến 150000 người mắc bệnh ung thư được phát hiện, trong đó số người tử vong lên đến 70000 người Các nghiên cứu đã chứng minh rằng nhiều loại bệnh ung thư có thể ngăn chặn nếu được phát hiện và điều trị sớm, chẳng hạn như ung thư vú, ung thư cổ tử cung, ung thư da, ung thư tuyến tiền liệt,… Khi các bệnh này được phát hiện sớm và điều trị thích hợp, 95% bệnh nhân có thể sống thêm ít nhất 5 năm
Ung thư cổ tử cung là loại ung thư phụ khoa nguy hiểm thứ hai sau ung thư vú, chiếm khoảng 18% các trường hợp ung thư ở hệ cơ quan sinh dục nữ Bệnh là nguyên nhân gây tử vong do ung thư cao nhất cho phụ nữ ở các nước đang phát triển Đó là do những nước này chưa thực hiện chương trình khám sàng lọc nhằm phát hiện sớm ung thư Việc chẩn đoán và điều trị cho từng bệnh nhân bị chi phối bởi tiến triển bệnh tại thời điểm chẩn đoán Quá trình điều trị sẽ trở nên đơn giản, hiệu quả, với chi phí thấp nếu bệnh được phát hiện trong giai đoạn tiền ung thư, ngược lại nếu không điều trị kịp thời thì bệnh sẽ không chữa được Vì vậy, phát hiện sớm ung thư cổ tử cung rất quan trọng, liên quan đến lợi ích người bệnh và hiệu quả điều trị Để làm được điều này, các bác sĩ giải phẫu bệnh sẽ khám sàng lọc cho tất cả các bệnh nhân ở độ tuổi có thể mắc bệnh
Năm 1943, bác sĩ George Papanicolaou đã giới thiệu một phương pháp đơn giản, hiệu quả, thích hợp cho việc chẩn đoán tế bào cổ tử cung trong giai đoạn tiền ung thư; đó chính là xét nghiệm Pap Xét nghiệm này thỉnh thoảng vẫn cho kết quả không chính xác do nhiều nguyên nhân khách quan và chủ quan Nhiều phụ nữ sau khi được
Trang 3Bên cạnh đó, việc xác định các hệ thống tự động đang là một công cụ ứng dụng rất quan trọng trong nhiều lĩnh vực của xã hội Trong đó, mô hình nơron – mờ dần dần được thiết lập không chỉ trong lĩnh vực nghiên cứu mà còn trong lĩnh vực ứng dụng Cả mạng nơron và hệ thống mờ đều được phát triển dựa trên qui trình lập luận của con người Ở hệ thống mờ, các mối liên hệ được mô tả rõ ràng bằng các luật nếu – thì nhưng lại thiếu khả năng tự điều chỉnh (khả năng “học”) Còn ở mạng nơron, các mối liên hệ thể hiện không rõ ràng mà chỉ có thể thiết lập được những mô hình liên quan nhân quả, tuy nhiên dữ liệu lại được mã hóa vào mạng thành các tham số có khả năng “học” Như vậy, các hệ thống tích hợp mạng nơron và logic mờ sẽ kết hợp được khả năng ngữ nghĩa của hệ thống mờ và khả năng “học” của mạng nơron để tạo ra được một mô hình suy luận hiệu quả nhất
Với tính chất phức tạp của hệ thống phân lớp tế bào cổ tử cung, một hệ thống nơron - mờ có thể khắc phục được một số lỗi thường gặp trong chẩn đoán, mà bác sĩ hay mắc phải Mô hình nơron – mờ kiểu ANFIS (hệ suy luận mờ loại Sugeno dựa trên mạng thích nghi) được dùng để thực hiện phân lớp tế bào là bình thường hay bất thường
Báo cáo sẽ gồm 5 phần chính và 3 phần phụ:
• Chương 1: Tổng quan
Giới thiệu sơ lược về đề tài và các kiến thức cơ bản liên quan đến đề tài
Trang 4KHOA CNTT –
ĐH KHTN
Trang 4
• Chương 2: Hệ thống suy luận mờ dựa trên mạng thích nghi
Trình bày về lý thuyết mô hình ANFIS: cấu trúc ANFIS và thuật toán học
• Chương 3: Trích chọn đặc trưng
Nêu phương pháp tạo dữ liệu cho hệ thống phân loại tế bào và cách tính các đặc trưng được trích ra từ ảnh tế bào
• Chương 4: Phân lớp tế bào cổ tử cung sử dụng mô hình ANFIS
Mô tả cách thức mà mô hình ANFIS thực hiện phân lớp tế bào cổ tử cung trên một số hệ thống luật mờ: luật chuyên gia, luật chuyên gia biến đổi và luật trích dẫn từ hệ thống
• Chương 5: Tổng kết
Giới thiệu chương trình và đánh giá mức độ thực hiện của hệ thống, cũng như một số ưu, khuyết điểm và định hướng
Trang 51.3 Mẫu xét nghiệm Pap 11
1.4 Một số nguyên nhân dẫn đến chẩn đoán sai 16
1.5 Một số hệ thống phân lớp tế bào tự động và bán tự động 17
1.6 Phát biểu vấn đề 19
1.7 Các tiêu chuẩn đánh giá mức độ thực hiện hệ thống 20
Chương 2: HỆ SUY LUẬN MỜ DỰA TRÊN MẠNG THÍCH NGHI 22
2.1 Giới thiệu sơ lược về mô hình nơron - mờ 22
Trang 6KHOA CNTT –
ĐH KHTN
Trang 6
DANH MỤC HÌNH ẢNH
Hình 1-1: Cấu trúc mô tế bào ở cổ tử cung 12
Hình 1-2: Phân lớp trong mô tế bào gai 13
Hình 1-3: (a) tế bào gai cận đáy, (b) tế bào gai trung gian, (c) tế bào gai bề mặt, 14
Hình 1-4: Phân lớp trong mô tế bào trụ 14
Hình 1-5: Sơ đồ các bước thực hiện chẩn đoán 19
Hình 3-5: Tâm của trọng lực đối với nhân và bào tương 44
Hình 3-6: Đường tròn cực tiểu cho nhân 46
Hình 4-1: Ý nghĩa các tham số trong hàm dạng chuông 49
Hình 4-2: Cấu trúc ANFIS với 2 dữ liệu vào và 4 luật 50
Trang 7KHOA CNTT –
ĐH KHTN
Trang 7
DANH MỤC BẢNG BIỂU
Bảng 1-1: Thống kê kích thước tế bào 16
Bảng 2-1: Hai quá trình trong thuật toán học lai 36
Bảng 3-1 : Danh sách các đặc trưng trích chọn vào cơ sở dữ liệu 47
Bảng 4-1: Ví dụ luật mờ phân loại tế bào 48
Bảng 4-2: Luật chuyên gia 54
Bảng 4-3: Luật chuyên gia biến đổi 55
Bảng 5-1: Luật chuyên gia số hóa 66
Bảng 5-2: Mức độ thực hiện luật chuyên gia 67
Bảng 5-3: Mức độ kiểm nghiệm của luật chuyên gia 67
Bảng 5-4: Luật chuyên gia biến đổi số hóa 68
Bảng 5-5: Mức độ thực hiện luật chuyển gia biến đổi 68
Bảng 5-6: Mức độ kiểm nghiệm của luật chuyên gia biến đổi 69
Bảng 5-7: Luật trích từ hệ thống với 2 dữ liệu xuất 70
Bảng 5-8: Luật trích từ hệ thống với 7 dữ liệu xuất 72
Bảng 5-9: Mức độ thực hiện mạng của luật trích từ hệ thống 72
Bảng 5-10: Mức độ kiểm nghiệm của luật trích từ hệ thống 73
Trang 91.1.Giới thiệu sơ lược đề tài
Ung thư cổ tử cung là loại bệnh nguy hiểm, chiếm tỉ lệ cao thứ hai sau ung thư vú Ở Úc, hơn một nghìn trường hợp ung thư cổ tử cung được chẩn đoán hằng năm, và khoảng 350 phụ nữ chết vì bệnh này (Viện Sức khoẻ Úc, 1991) Độ tuổi trung bình người bệnh là 52,2 và thường tập trung vào hai độ tuổi 35-39 và 60-64 Thống kê tại Mĩ cho thấy, ở phụ nữ da trắng, 54% bệnh nhân ung thư cổ tử cung khi được chẩn đoán bệnh còn ở giai đoạn khu trú (tiền ung thư), 31% có tổn thương trong vùng (ung thư) và 8% có di căn xa (ung thư giai đoạn cuối); ở phụ nữ Mỹ gốc Phi, tỉ lệ này tương ứng là 40%, 40% và 12%; Tỉ lệ mắc ung thư cổ tử cung theo độ tuổi cao nhất là ở những phụ nữ gốc Việt sống ở Mỹ (43/100.000) Trong vòng 45 năm qua, tần xuất mắc ung thư cổ tử cung giảm từ 45/100.000 xuống còn 8/100.000 Khi tần xuất mắc bệnh xâm lấn (ung thư) giảm xuống thì tần xuất mắc bệnh tiền xâm lấn (tiền ung thư) lại tăng đáng kể Tỉ lệ sống 5 năm của bệnh nhân ung thư cổ tử cung mọi giai đoạn là 71% cho phụ nữ da trắng và 57% cho phụ nữ Mỹ gốc Phi Tỉ lệ sống phụ thuộc vào giai đoạn của bệnh; khi bệnh còn khu trú tỷ lệ sống 5 năm là 92%, con số này giảm xuống 10% khi bệnh đã di căn Vì vậy, phát hiện ung thư cổ tử cung giai đoạn tiền ung thư là một biện pháp hữu hiệu chăm sóc sức khỏe phụ nữ
Trang 10Tại Đan Mạch, mặc dù có chương trình khám sàng lọc trên diện rộng, nhưng mỗi năm lại có hơn 500 ca mới được phát hiện, trong đó có khoảng 5% chẩn đoán âm tính giả (không tìm ra bệnh) Cách hiệu quả nhất để khắc phục vấn đề này là thực hiện tầm soát lại toàn bộ mẫu xét nghiệm bằng phương pháp thủ công Tuy nhiên, điều này khó có thể thực hiện được vì vấn đề chi phí và số lượng bác sĩ giải phẫu bệnh Vì vậy, việc khảo sát tự động bằng máy tính là một biến đổi lớn Một số hệ thống chẩn đoán ung thư cổ tử cung tự động và bán tự động cũng đã hoàn thành, nhưng chi phí cho chúng lại đắt hơn chi phí đào tạo bác sĩ chuyên khoa Do đó mà khoa Giải phẫu bệnh của trường đại học Herlev kết hợp với công ty thương mại DIMAC đã thực hiện cơ sở dữ liệu gồm các ảnh tế bào cổ tử cung cùng kết quả phân lớp loại tế bào chính xác để có thể phát triển các ứng dụng công nghệ thông tin trong lĩnh vực này Đề tài này sử dụng toàn bộ dữ liệu lấy từ đây Hệ thống suy luận mờ sẽ sử dụng bộ dữ liệu này để thực hiện phân lớp tế bào cổ tử cung
1.2.Mục đích của đề tài
Đề tài được thực hiện với một số mục đích sau:
¾ Phát hiện những tế bào cổ tử cung có thay đổi bất thường, và xác định mức độ thay đổi của chúng (nhẹ, vừa, nặng), những thay đổi này còn gọi là loạn sản và chúng cũng chính là nguyên nhân gây ra ung thư cổ tử cung sau này
Trang 11KHOA CNTT –
ĐH KHTN
Trang 11
¾ Giảm tỷ lệ chẩn đoán âm tính giả và dương tính giả
¾ Giúp các sinh viên y khoa dễ dàng tiếp cận với việc chẩn đoán tế bào học, giảm thiểu được chi phí đào tạo, huấn luyện bác sĩ
¾ Giúp các bác sĩ giải phẫu bệnh kiểm tra lại các mẫu xét nghiệm đã chẩn đoán; và nếu được thử nghiệm nhiều thì chương trình có thể thực hiện sàng lọc bước đầu, loại bỏ những mẫu xét nghiệm không nghi vấn và các bác sĩ chỉ cần kiểm tra lại các mẫu có những thay đổi bất thường
1.3.Mẫu xét nghiệm Pap
Xét nghiệm Pap là một phương pháp y khoa dùng để xác định ung thư cổ tử cung trong giai đoạn tiến triển sớm Nó có ý nghĩa rất lớn trong vấn đề y tế cộng đồng vì thực hiện đơn giản và chi phí rẻ
1.3.1.Mục đích thực hiện xét nghiệm Pap
Mục đích của việc khám sàng lọc bằng mẫu xét nghiệm Pap là nhằm chẩn đoán các thay đổi “ác tính” trong tế bào ở giai đoạn tiền ung thư trước khi chúng tiến triển thành ung thư
1.3.2.Cách thực hiện mẫu xét nghiệm Pap
Dùng chổi y khoa hoặc que gỗ lấy mẫu xét nghiệm từ cổ tử cung, quét lên một miếng thủy tinh mỏng, hình chữ nhật để thu được một mẫu Pap Mẫu này sau đó sẽ được nhuộm theo phương pháp Papanicolaou Bằng cách này, đặc điểm của những tế bào khác nhau sẽ có màu khác nhau, dễ phân biệt dưới kính hiển vi Sau đó, các bác sĩ giải phẫu bệnh sẽ khảo sát trực tiếp trên kính hiển vi Việc này làm tốn nhiều thời gian mà tỷ lệ lỗi lại rất cao khi mà mỗi mẫu như vậy có thể chứa đến 300000 tế bào
Trang 12Hình 1-1: Cấu trúc mô tế bào ở cổ tử cung
1.3.3.2.Mô tế bào gai
Mô tế bào gai có 4 lớp tế bào (Hình 1.2) Tế bào gai bắt đầu hình thành từ lớp đáy, và khi trưởng thành chúng chuyển qua lớp cận đáy, lớp trung gian và cuối cùng là lớp bề mặt Như vậy, các tế bào lớp đáy sẽ phân chia và phân phát tế bào cho các lớp trên nó Khi các tế bào trưởng thành và di chuyển giữa các lớp, chúng thay đổi hình dạng, màu sắc và các đặc tính khác Khi đến lớp bề mặt, chúng sẽ bị đào thải và được
Trang 13Hình 1-2: Phân lớp trong mô tế bào gai
Trang 14Hình 1-4: Phân lớp trong mô tế bào trụ
Trang 15KHOA CNTT –
ĐH KHTN
Trang 15
1.3.3.4.Mô trung gian
Mô trung gian (vùng chuyển tiếp giữa mô tế bào gai và mô tế bào trụ) chứa các tế bào dự trữ từ mô tế bào trụ Khi các tế bào này trưởng thành, chúng trông như các tế bào gai
1.3.3.5.Các tế bào loạn sản
Khi thông tin di truyền của tế bào vì một lý do nào đó bị thay đổi, tế bào sẽ không phân chia theo cách thông thường, và có thể tạo thành một tế bào tiền ung thư Những biến đổi ác tính trong tế bào ở giai đoạn tiền ung thư được gọi là loạn sản Tùy theo cách phân chia của các tế bào này mà nó sẽ được chẩn đoán là loạn sản hay ung thư mô tế bào
Loạn sản có nhiều mức độ khác nhau: loạn sản nhẹ, loạn sản vừa và loạn sản nặng Loạn sản chưa sừng hoá là loại phổ biến (chiếm 85% các ca loạn sản), phát triển từ mô trung gian hoặc từ mô tế bào gai Tế bào loạn sản nhẹ (Hình 1.3e) có nhân sáng và lớn hơn tế bào bình thường Tế bào loạn sản vừa (Hình 1.3f) có nhân tối và lớn hơn tế bào loạn sản nhẹ Tế bào loạn sản nặng (Hình 1.3g) có nhân giống như loạn sản vừa nhưng bào tương nhỏ hơn
1.3.3.6.Một số đặc điểm giải phẫu bệnh
Một số đặc điểm dưới đây được dùng cho các bác sĩ giải phẫu bệnh khi thực hiện chẩn đoán trên xét nghiệm Pap bằng phương pháp thủ công:
¾ nhân mở rộng, tối hơn; tức là hình dạng và màu sắc của nhân biến đổi ¾ tỷ lệ nhân / bào tương tăng lên
Bảng 1.1 tóm tắt một số đánh giá các loại tế bào khác nhau và được sử dụng để tham khảo
Trang 16Cận đáy 50 300 20 Trung gian 35 1000 5
Bề mặt 20 1600 2 Trụ 50 180 30 Loạn sản nhẹ 175 1000 – 1500 10 – 20
Loạn sản vừa 175 1000 – 1500 20 – 50 Loạn sản nặng 175 1000 – 1500 trên 50
Bảng 1-1: Thống kê kích thước tế bào
1.4.Một số nguyên nhân dẫn đến chẩn đoán sai
1.4.1.Nguyên nhân khách quan
¾ Do điều kiện trang thiết bị y tế thấp kém như: các thiết bị lấy mẫu không theo tiêu chuẩn, dính quá nhiều tạp chất,… làm cho chất lượng mẫu lấy được thấp
¾ Ý thức người dân không cao, không chấp nhận khám sàng lọc hoặc nếu có thì cũng không thực hiện theo định kì, …
¾ Thiếu đội ngũ cán bộ y tế có chuyên môn để thực hiện khám sàng lọc
1.4.2.Nguyên nhân chủ quan
¾ Một chẩn đoán ung thư hay tiền ung thư dựa trên các tế bào bất thường trong mẫu Pap được xác định bởi các bác sĩ giải phẫu bệnh Một mẫu có thể chứa hàng trăm đến hàng ngàn tế bào, nhưng đa số là tế bào bình thường, chỉ có một số trong chúng ác tính, cho nên các tế bào bất thường có thể bị bỏ sót do bác sĩ không tập trung hoặc mệt mỏi
Trang 17có thể gần giống với các thay đổi ác tính, gây phức tạp thêm nhiệm vụ của bác sĩ Do đó, khi các tế bào bất thường được xác định, việc phân loại chính xác mức độ thay đổi ác tính hay tiền ác tính mang tính chủ quan cao
1.5.Một số hệ thống phân lớp tế bào tự động và bán tự động
1.5.1.Lịch sử phát triển
Hệ thống bán tự động đầu tiên là Cytoanalyzer, xuất hiện vào đầu thập niên 50, do Mellors thực hiện Hệ thống này đo được đường kính nhân và bào tương cùng với độ sáng của chúng Tuy nhiên nó không thể phân đoạn được các cụm tế bào gần nhau, và đây cũng chính là mối quan tâm của các hệ thống hiện nay Hệ thống tuy không đưa ra được một kết quả mong muốn được nhưng nó là một bước ngoặt cho các hướng phát triển kế tiếp
Một sản phẩm khác xuất hiện vào giữa những năm 60 là TICAS Hệ thống này sử dụng máy tính loại DEC LINC – 8 để phát triển các phương pháp phân loại nhạy cảm hơn so với các kĩ thuật tế bào học Nhưng do giới hạn phần cứng của máy tính nên việc khảo sát dữ liệu bị giới hạn trong 475 tế bào Vì vậy mà việc ứng dụng vào thực tế bị hạn chế Tuy nhiên, sản phẩm đã thành công trong việc nghiên cứu các hệ thống phân loại trong tương lai Vào thập niên 80, TICAS được mở rộng thành microTICAS, sử dụng kính hiển vi, kết hợp camera kĩ thuật số và máy IBM chạy trên DOS phiên bản 2.0
Năm 1965, Husain đã xây dựng một hệ thống chẩn đoán tự động, phát hiện các tế bào có nhân lớn và tối thông qua một hệ thống kính hiển vi điện tử, để có thể xác định tế bào là ung thư hay tiền ung thư Đầu những năm 70, ông tiếp tục phát triển các
Trang 18Năm 1989, khi phần cứng và phần mềm được cải tiến đáng kể thì hệ thống LEYTAS xuất hiện, cho kết quả FN là 0.3% và FP là 13%, nhưng do qui trình lấy mẫu mất thời gian và đòi hỏi sự tác động đáng kể của con người nên không được ứng dụng rộng rãi
Tất cả những người thiết kế các hệ thống này đều nhận thấy rằng khám sàng lọc cổ tử cung tự động là một vấn đề cực kì khó khăn Từ đó đến nay cũng có nhiều hệ thống mới ra đời, nhưng vẫn chỉ có thể cho hiệu suất cao khi có bàn tay con người trợ giúp
1.5.2.Một số hệ thống khám sàng lọc thương mại
Tổ chức FDA của Mĩ thông qua hai hệ thống khám sàng lọc tự động:
¾ Hệ thống PAPNET là một thiết bị khám sàng lọc nhằm bổ sung thêm cho hệ thống khám thủ công Từ mỗi mẫu, hệ thống chọn 128 vùng khả nghi và lưu lại cho các bác sĩ giải phẫu học xem xét
¾ Hệ thống AutoPap 300 nhận ra các mẫu âm tính, và được dùng cho việc sàng lọc lại các mẫu đã khám bằng phương pháp thủ công
Cả hai hệ thống đều làm giảm tỷ lệ chẩn đoán bệnh sai, nhưng đồng thời chúng cũng làm tăng chi phí xét nghiệm
Trang 19trích ra các đặc trưng của tế bào để thực hiện phân loại
¾ Phân loại tế bào dựa trên các đặc trưng đã có, dùng hệ thống suy luận mờ sử dụng mạng thích nghi để thực hiện
Có thể hình dung các bước thực hiện theo sơ đồ sau:
Hình 1-5: Sơ đồ các bước thực hiện chẩn đoán
Dữ liệu thử nghiệm
Trích đặc trưng Trích đặc trưng Đặc trưng tế bào Đặc trưng tế bào Huấn luyện phân lớp
Phân lớp tế bào Dữ liệu huấn luyện
Phân lớp Chuẩn đoán bệnh
Trang 20KHOA CNTT –
ĐH KHTN
Trang 20
1.7.Các tiêu chuẩn đánh giá mức độ thực hiện hệ thống
Các giá trị sau được dùng để đánh giá mức độ thực hiện việc phân lớp tự động tế bào:
¾ Sai số trung bình bình phương lỗi (RMSE) ¾ Tỷ lệ âm tính giả (FN%)
¾ Tỷ lệ dương tính giả (FP%) ¾ Độ nhạy (Sensitivity)
¾ Độ đặc trưng (Specificity)
¾ Giá trị dự đoán dương tính (PP%) ¾ Giá trị dự đoán âm tính (NP%)
1.7.1.Sai số trung bình bình phương lỗi - RMSE
RMSE là độ sai khác giữa phân lớp d đích và giá trị thực y có được nhờ vào việc
phân lớp tự động tế bào RMSE khác với độ lệch chuẩn σ ở chỗ σ là độ lệch chuẩn so với giá trị µ của y:
= 100% 100%
với TP là số lượng tế bào phân lớp dương tính đúng
Trang 21Như vậy, số lượng tế bào bình thường trong cơ sở dữ liệu là N = TN + FP
1.7.6.Giá trị dự đoán dương tính – PP%
PP% là tỷ lệ tế bào được phân lớp loạn sản đúng
+×= 100%
1.7.7.Giá trị dự đoán âm tính – NP%
NP% là tỷ lệ tế bào được phân lớp bình thường đúng
+×= 100%
Trang 222.1.Giới thiệu sơ lược về mô hình nơron - mờ
Một mạng nơron với các trọng số được điều chỉnh có thể xem như là một thiết bị điều khiển tự động nhờ vào tính chất hồi qui phi tuyến của các đối tượng rời rạc Tuy nhiên tri thức được lưu trữ trong mạng không rõ ràng, không mô tả được những mối liên hệ giữa dữ liệu nhập và dữ liệu xuất, mà chỉ có thể xác định các mối liên hệ này thông qua những tham số thích nghi của mạng Trái lại, một luật mờ nếu – thì lại có thể diễn tả được các mối liên hệ đó dưới dạng ngôn ngữ tự nhiên, nhưng lại không có khả năng điều chỉnh luật cho phù hợp Hai vấn đề này được kết hợp lại tạo thành một hệ thống nơron - mờ nhằm đạt được khả năng “đọc” và “học” cùng một lúc Các luật thu được từ hệ thống này có thể điều chỉnh phù hợp với dữ liệu phát sinh mô hình, và đối với các ứng dụng điều khiển tự động, mô hình nơron - mờ có thể tích hợp với các luật chuyên gia nhằm đưa ra những kết quả chính xác
Bên cạnh các luật chuyên gia, các luật trích ra từ dữ liệu cũng là một hình thức
mô hình hoá hệ thống điều khiển tự động, chẳng hạn như trong Nhận dạng, khai mỏ dữ liệu, Mục tiêu đưa ra các luật này là nhằm giảm độ phức tạp của vấn đề cũng như
lượng dữ liệu liên quan đến vấn đề Có rất nhiều phương pháp phân tích dữ liệu để đưa
Trang 232.2.Hệ thống suy luận mờ
2.2.1.Tập mờ
Trong tập rõ, chúng ta có thể xác định rõ một phần tử là thành viên hay không là thành viên của một tập rõ cho trước Tuy nhiên trong đời sống thực tế, có nhiều vấn đề mà chúng ta không biết rõ là đúng hay sai, điều này đồng nghĩa với việc tồn tại một
phần tử x mà ta không thể xác định rõ ràng tính thành viên của x trong tất cả các tập rõ
mà chúng ta đã biết Để giải thích vấn đề này, Dr Zadeh đã đưa ra khái niệm tập mờ và khái niệm hàm thành viên để thể hiện tính thành viên của biến trong tập mờ
Tập mờ A trong X là tập các phần tử có dạng A = {(x, µA(x)) | x ∈ X}, trong đó x là phần tử của tập vũ trụ X và µA(x) là giá trị thể hiện tính thành viên của x trong tập mờ A, với 0≤µA( )x ≤1
Nói cách khác, tập mờ A chính là nhãn được gán cho ánh xạ:
[ ]0,1:X →
x→ y=µA( )x
Trang 24Luật mờ là biểu thức điều kiện có dạng “NẾU A THÌ B”, trong đó A và B là
nhãn của các tập mờ được mô tả bằng cách xấp xỉ các hàm thành viên Nhờ vào dạng rút gọn, luật mờ thường được dùng để thiết lập những phương thức lập luận không chính xác, nhằm thể hiện tính đa dạng trong tri thức của con người Ví dụ sau mô tả một sự kiện đơn giản là (đây là luật mờ loại Mamdani):
Nếu nhiệt độ cao, thì giá máy lạnh tăng
trong đó nhiệt độ và giá máy lạnh là các biến ngôn ngữ, cao và tăng là các giá trị ngôn ngữ hoặc các nhãn được mô tả bởi các hàm thành viên
Một dạng khác của luật mờ do Takagi và Sugeno đề xuất, có các tập mờ chỉ xuất hiện trong phần giả thuyết của luật Ví dụ (đây là luật mờ loại Sugeno):
Nếu lưu lượng dòng chảy cao thì mực nước sông = k* lưu lượng dòng chảy trong đó, cao là phần giả thuyết được mô tả bởi hàm thành viên xấp xỉ Tuy nhiên, phần kết luận được định nghĩa bởi phương trình theo biến lưu lượng dòng chảy
Cả hai loại luật mờ trên đều được mở rộng trong cả hai lĩnh vực mô hình hóa và điều khiển tự động Bởi vì lợi ích của các nhãn ngôn ngữ và các hàm thành viên, một luật mờ có thể nắm bắt dễ dàng qui luật điều khiển của con người
2.2.3.Hệ thống suy luận mờ 2.2.3.1.Cấu trúc
Một hệ thống suy luận mờ gồm 5 khối cơ bản sau (Hình 2.1):
¾ Một cơ sở luật chứa các luật mờ nếu - thì
Trang 252.2.3.2.Các bước thực hiện suy luận
Các bước lập luận mờ (phép toán suy luận trên các luật mờ) được thực hiện bởi các hệ thống suy luận mờ (Hình 2.1):
1 So sánh dữ liệu nhập với các hàm thành viên trong phần giả thuyết để thu được các giá trị hàm thành viên (độ đo tính tương thích) của mỗi nhãn ngôn ngữ (bước này thường được gọi là mờ hóa)
Dữ liệu xuất Dữ liệu nhập
(mờ)
mờ hoá
cơ sở tri thức
đơn vị thực hiện quyết định
khử mờ hoá
Trang 263 Phát sinh các kết luận đủ tiêu chuẩn (hoặc mờ hoặc thô) của mỗi luật dựa trên ngưỡng kích hoạt
4 Tập hợp lại các kết luận đủ tiêu chuẩn để đưa ra một dữ liệu xuất thô (bước này được gọi là khử mờ)
2.2.3.3.Các loại hệ thống suy luận mờ
Dựa trên các loại lập luận mờ và các luật mờ được dùng, hầu hết các hệ thống suy luận mờ có thể được phân làm 3 loại chính:
Loại 1: Toàn bộ dữ liệu xuất là trung bình trọng số các dữ liệu xuất thô của mỗi
luật có được do ngưỡng kích hoạt của luật (toán tử tích hoặc min tổ hợp các giả thuyết) và các hàm thành viên dữ liệu xuất
Loại 2: Toàn bộ dữ liệu xuất thu được bằng cách dùng toán tử max cho các dữ
liệu xuất mờ đủ tiêu chuẩn (cực tiểu hóa độ ngưỡng kích hoạt và hàm thành viên dữ liệu xuất của mỗi luật) Các ý tưởng khác nhau được đề xuất để chọn lựa dữ liệu xuất thô cuối cùng dựa trên toàn bộ dữ liệu xuất mờ; một số trong chúng là tâm của diện tích, đường phân giác của diện tích, trung bình cực đại, tiêu chuẩn cực đại,…
Loại 3: Các luật mờ loại Takagi và Sugeno được sử dụng Dữ liệu xuất của mỗi
luật là một tổ hợp tuyến tính các dữ liệu nhập, cộng với một số hạng không đổi, và dữ liệu xuất cuối cùng chính là trung bình trọng số các dữ liệu xuất trong mỗi luật
Hình 2.2 ví dụ về một hệ thống suy luận mờ hai luật, hai dữ liệu nhập để chỉ ra các loại luật mờ và lập luận mờ khác nhau Chú ý rằng sự khác nhau là ở phần kết luận (không giảm đều hoặc hàm thành viên dạng chuông, hoặc hàm thô) và do đó mà các ý tưởng khử mờ (trung bình trọng, trọng tâm của diện tích…) cũng khác nhau
Trang 28Để phản ánh các khả năng thích nghi khác nhau, các nút hình tròn và hình vuông được dùng trong mạng thích nghi Một nút hình vuông (nút thích nghi) có chứa tham số còn một nút hình tròn (nút cố định) thì không Tập tham số của mạng thích nghi là hợp của các tập tham số của mỗi nút thích nghi Để thu được ánh xạ nhập – xuất đích, các tham số này được cập nhật theo dữ liệu huấn luyện đã cho và thủ tục học dựa trên gradient được mô tả ở phần sau
trong đó Tm,p là thành phần thứ m của vectơ ra đích thứ p, và Lpm
O , thành phần thứ m của vectơ ra thực sự của vectơ vào thứ p Vì vậy độ đo lỗi toàn cục là ∑
= P
Trang 29
KHOA CNTT –
ĐH KHTN
Trang 29
Để phát triển thủ tục học thực hiện giảm gradient trong E toàn bộ không gian
tham số, đầu tiên phải tính tỷ lệ lỗi
cho dữ liệu huấn luyện thứ p và cho mỗi đầu ra của nút O Tỷ lệ lỗi cho nút đầu ra tại (L, i) được suy ra từ phương trình (2.2) là:
( L )
∂ + +
trong đó 1 ≤ k ≤ L – 1 Chính là, tỷ lệ lỗi của nút ẩn có thể được mô tả như một tổ hợp
tuyến tính các tỷ lệ lỗi của các nút trong lớp kế tiếp Vì vậy ∀k, ∀i, sao cho 1 ≤ k ≤ L
và 1 ≤ i ≤ #(k), chúng ta có thể tính k
1 α
Suy ra, công thức cập nhật cho tham số chung α là:
trong đó η là tốc độ học được tính bằng:
(2.8)
Trang 30của thuật toán học
Có hai mô hình học cho mạng thích nghi Với học theo khối (hoặc học ngoại tuyến), công thức cập nhật tham số α dựa trên phương trình (2.6) và hành động cập
nhật chỉ xảy ra sau khi toàn bộ tập dữ liệu huấn luyện được đưa vào, tức là sau mỗi chu kì huấn luyện Ngược lại, nếu cập nhật các tham số ngay khi dữ liệu nhập – xuất được
đưa vào, thì công thức cập nhật dựa trên phương trình (2.5) và dựa theo học theo mẫu (hoặc học trực tuyến)
2.3.3.Luật học lai theo khối (học ngoại tuyến)
Mặc dù chúng ta có thể áp dụng phương pháp gradient để xác định các tham số trong mạng thích nghi, nhưng phương pháp này nhìn chung rất chậm và có thể bị rơi vào tình trạng cực tiểu địa phương Ở đây, việc kết hợp phương pháp gradient và phương pháp ước lượng bình phương cực tiểu (LSE) được dùng để xác định và điều chỉnh các tham số của mạng
Để đơn giản, giả sử rằng mạng thích nghi đang xét chỉ có một đầu ra:
( )ISF
trong đó I là tập các biến và S là tập các tham số Nếu tồn tại một hàm H để H oF
tuyến tính trong một số phần tử của S, thì các phần tử này có thể được định nghĩa bằng phương pháp bình phương cực tiểu Thông thường, tập tham số S có thể được phân tích
thành hai tập
21 SS
Trang 31KHOA CNTT –
ĐH KHTN
Trang 31
là tuyến tính trong tập S2 Dựa vào các giá trị đã cho của những phần tử S1, chúng ta có
thể chia dữ liệu huấn luyện P vào phương trình (2.11) và thu được phương trình ma
trận:
trong đó X là vectơ chưa biết mà các phần tử của nó là các tham số trong S2 Đặt |S2| =
M, thì kích thước tương ứng của A, X, và B là P × M, M × 1, và P × 1 Do P (số lượng cặp dữ liệu huấn luyện) thường lớn hơn M (số lượng tham số tuyến tính), nên cần phải
có một giải pháp thực hiện tính phương trình (2.12) Một ước lượng bình phương cực
tiểu (LSE) của X và X*, được tìm để cực tiểu hóa lỗi bình phương ||AX – B||2; đây là
chuẩn để thiết lập cơ sở cho hồi qui tuyến tính, lọc thích nghi và xử lý tín hiệu X* được
tính bằng cách sử dụng nghịch đảo giả của X:
( )AAAB
trong đó AT là ma trận chuyển vị của A, và (ATA)-1AT là ma trận nghịch đảo giả của A
Mặc dù phương trình (2.13) rất ngắn gọn nhưng chi phí tính toán để xử lý nghịch đảo
ma trận lại quá lớn Ở đây, công thức dãy được dùng để tính LSE của X Phương pháp dãy này hiệu quả hơn (đặc biệt khi M nhỏ) và có thể thay đổi dễ dàng thành một thuật
toán học trực tuyến (xem phần sau) cho hệ thống thay đổi đặc tính Đặc biệt, nếu gọi
vectơ hàng thứ i của ma trận A được định nghĩa trong phương trình (2.12) là Ti
a , và
thành phần thứ i của B là Ti
b, thì X có thể được tính lặp đi lặp lại, dùng công thức dãy
mở rộng như sau:
1, ,1,0,1 1 1
(2.14)
trong đó Si thường được gọi là ma trận hiệp phương sai và ước lượng bình phương cực tiểu X* bằng Xp Các điều kiện khởi tạo cho phương trình (2.14) làX0 =0vàS0 =γI, trong đó γ là một số dương lớn (chọn γ = 106) và I là ma trận đồng nhất kích
Trang 32KHOA CNTT –
ĐH KHTN
Trang 32
thướcM×M Khi giải quyết các mạng thích nghi nhiều dữ liệu xuất (dữ liệu xuất trong
phương trình (2.9) là một vectơ cột), phương trình (2.14) vẫn được áp dụng ngoại trừ
b là hàng thứ i của ma trận B
Bây giờ chúng ta có thể kết hợp phương pháp gradient và ước lượng bình phương cực tiểu để cập nhật các tham số trong mạng thích nghi Mỗi chu kì huấn luyện của thủ tục học lai này bao gồm quá trình tiến và quá trình lùi Trong quá trình tiến, chúng ta cung cấp dữ liệu nhập và các tín hiệu hàm số đi tới để tính dữ liệu xuất của
mỗi nút cho đến khi thu được các ma trận A, B trong phương trình (2.12), và các tham số trong S2 được xác định bởi phương trình (2.14) Sau khi xác định các tham số trong
S2, các tín hiệu hàm vẫn tiếp tục đi tới cho đến khi tính được độ đo lỗi Trong quá trình lùi, các tỷ lệ lỗi (phương trình (2.3) và (2.4)) truyền từ đầu ra cuối đến đầu ra đầu, và
các tham số trong S1 được cập nhật bằng phương pháp gradient theo phương trình (2.7)
Đối với các giá trị cố định của các tham số trong S1, tham số trong S2 do đó
được bảo đảm là điểm tối ưu toàn cục trong không gian tham số S2 dựa trên việc lựa chọn độ đo lỗi bình phương Luật học này không chỉ giảm kích thước không gian tìm kiếm trong phương pháp gradient mà về cơ bản nó còn giảm bớt thời gian hội tụ
2.3.4.Luật học lai theo mẫu
Nếu các tham số được cập nhật sau mỗi biểu diễn dữ liệu, chúng ta có kiểu học theo mẫu hoặc học trực tuyến Mô hình học này quan trọng đối với việc xác định tham
số trực tuyến cho hệ thống đối với các hệ thống thay đổi Để thay đổi luật học theo
khối thành trực tuyến, rõ ràng việc giảm gradient nên dựa theo Ep (phương trình (2.5))
thay vì dựa vào E Nói cách khác, học theo mẫu không phải là thủ tục tìm kiếm gradient đích thực để cực tiểu hoá E, nó sẽ xấp xỉ E nếu tốc độ học nhỏ
Đối với công thức dãy bình phương cực tiểu dùng để giải thích các đặc tính biến đổi theo thời gian của dữ liệu vào, chúng ta cần phân huỷ các ảnh hưởng của cặp dữ
Trang 33trong đó giá trịλ∈[ ]0,1 Lambda càng nhỏ thì ảnh hưởng của việc phân huỷ dữ liệu cũ càng nhanh Nhưng lambda nhỏ thỉnh thoảng gây tình trạng không ổn định về mặt số
học, nên tránh trường hợp này
2.4.Hệ thống suy luận mờ dựa trên mạng thích nghi
2.4.1.Cấu trúc ANFIS
Không mất tính tổng quát, xét hệ thống suy luận mờ có hai dữ liệu nhập x và y, và một dữ liệu xuất z Giả sử rằng cơ sở luật chứa hai luật mờ loại Sugeno:
Nếu x là A1 và y là B1 thì f1 = p1x + q1y + r1 Nếu x là A2 và y là B2 thì f2 = p2x + q2y + r2
thì suy luận mờ loại 3 trong hình 2.4a sẽ tương ứng với cấu trúc ANFIS ở hình 2.4b Chú ý rằng, các hàm nút trong cùng một lớp có dạng hàm như nhau
Lớp 1: Mọi nút i trong lớp này là nút hình vuông với hàm nút:
( )xO
⎝⎛ −+=
1
Trang 34KHOA CNTT –
ĐH KHTN
Trang 34 Hay
( )
2⎟⎟⎞⎜⎜⎛ −−
Dữ liệu xuất của mỗi nút biểu diễn ngưỡng kích hoạt của luật
Hình 2-4: (a) Suy luận mờ loại 3, (b) cấu trúc ANFIS tương ứng
Lớp 3: Mỗi nút trong lớp này là nút tròn, được gán nhãn N Nút thứ i tính tỷ lệ
ngưỡng kích hoạt của luật thứ i so với tổng tất cả các ngưỡng kích hoạt của tất cả các
luật:
ww
Trang 35Trong đó wi là dữ liệu xuất của lớp 3, và {ai, bi, ci} là tập tham số kết quả
Lớp 5: Nút duy nhất trong lớp này là nút tròn được gán nhãn ∑, để tính tổng dữ liệu xuất:
∑∑∑ ==
Trên đây vừa giới thiệu mô hình ANFIS áp dụng hệ thống suy luận mờ loại 3 Những hệ thống suy luận mờ khác cũng thực hiện gần giống như hệ thống loại này
2.4.2.Thuật toán học lai
Từ cấu trúc ANFIS trên (hình 2.4), giả sử đã có các tham số giả thuyết, như vậy tổng dữ liệu xuất có thể xem như một tổ hợp tuyến tính các tham số kết quả Dữ liệu
xuất f có thể được viết lại:
( ) ( ) ( ) ( ) ( ) ( )1 1 1 1 1 1 2 2 2 2 2 22
(2.24)
là tuyến tính theo các tham số kết quả (p1, q1, r1, p2, q2 và r2) Kết quả là, chúng ta có:
S = tập toàn bộ tham số S1 = tập tham số giả thuyết
S2 = tập tham số kết quả
trong phương trình 2.10; H(.) là hàm đồng nhất và F(., ) là hàm của hệ thống suy luận
mờ Do đó mà thuật toán học lai được trình bày ở phần trước có thể được áp dụng trực tiếp Cụ thể hơn, trong quá trình lan truyền tiến của thuật toán học lai, tín hiệu hàm truyền đến lớp 4 và các tham số kết quả được xác định bằng LSE Trong quá trình lan
Trang 36tham số giả thuyết cố định giảm gradient
tín hiệu dữ liệu xuất của nút tỷ lệ lỗi
Bảng 2-1: Hai quá trình trong thuật toán học lai
Trang 373.1.Giới thiệu sơ lược về trích đặc trưng
Trích chọn đặc trưng là chuyển đổi một ảnh đã phân đoạn thành tập hợp các con số mô tả nội dung của đối tượng cần nhận dạng Trong mẫu xét nghiệm Pap, nhân và bào tương phải được nhận dạng đúng để phân biệt tế bào bình thường và tế bào bất thường, cũng như để phân biệt được các loại tế bào khác nhau
3.2.Dữ liệu nhập của hệ thống
3.2.1.Tạo dữ liệu
Các yêu cầu khi tạo dữ liệu ảnh tế bào:
¾ độ phản chiếu giữa nền và đối tượng có độ dao động thấp: điều chỉnh tự động bằng camera và kính hiển vi
¾ độ phân giải của ảnh: sử dụng độ phóng đại kính hiển vi 400X và độ phân giải 384 * 284 điểm ảnh 24 bit màu Độ co giãn là 0.201µm / điểm ảnh ¾ chỉ tạo ảnh gồm các tế bào đơn, không chứa cụm tế bào
Trong mẫu Pap, ngoài các tế bào cổ tử cung, còn có rất nhiều loại tế bào phụ khác như hồng cầu, bạch cầu, xác tế bào, vi trùng,… Để đơn giản, dữ liệu nhập chỉ giới hạn trong các loại sau: tế bào trụ, tế bào gai cận đáy, tế bào gai trung gian và tế bào gai
Trang 38¾ 100 ảnh tế bào loạn sản nhẹ chưa sừng hoá ¾ 100 ảnh tế bào loạn sản vừa chưa sừng hoá ¾ 100 ảnh tế bào loạn sản nặng chưa sừng hoá
Như vậy, cơ sở dữ liệu ảnh này gồm 200 ảnh tế bào bình thường và 300 ảnh tế bào loạn sản Trước khi sử dụng dữ liệu để xây dựng mô hình phân lớp, cơ sở dữ liệu được chia thành hai tập bằng nhau: tập huấn luyện và tập kiểm nghiệm Dữ liệu huấn luyện dùng để xây dựng mô hình phân lớp tế bào Dữ liệu kiểm nghiệm dùng để đánh giá mức độ thực hiện của mô hình
¾ Đường kính ngắn nhất của nhân
Trang 39KHOA CNTT –
ĐH KHTN
Trang 39 ¾ Đường kính dài nhất của nhân
¾ Đường kính ngắn nhất của bào tương ¾ Đường kính dài nhất của bào tương ¾ Chu vi nhân
¾ Chu vi bào tương ¾ Vị trí nhân ¾ Vị trí bào tương ¾ Cực đại trong nhân ¾ Cực tiểu trong nhân ¾ Cực đại trong bào tương ¾ Cực tiểu trong bào tương
3.3.Dữ liệu xuất của hệ thống
Cơ sở dữ liệu được tạo ra với 20 đặc trưng cùng với đặc trưng thứ 21, là con số tượng trưng cho phân lớp của tế bào:
¾ 1: tế bào trụ
¾ 2: tế bào gai cận đáy ¾ 3: tế bào gai trung gian ¾ 4: tế bào gai bề mặt
¾ 5: tế bào loạn sản nhẹ chưa sừng hoá ¾ 6: tế bào loạn sản vừa chưa sừng hoá ¾ 7: tế bào loạn sản nặng chưa sừng hoá
Đây chính là dữ liệu xuất dùng cho phân lớp tế bào Nếu chỉ phân lớp là âm tính (tương ứng 1, 2, 3, 4 ở trên) hoặc dương tính (tương ứng 4, 6, 7) thì đặc trưng phân lớp tế bào sẽ gồm:
¾ 1: tế bào bình thường ¾ 2: tế bào loạn sản
Trang 40Hình 3-2: Ảnh đã gán nhãn
Đối với những ảnh trong cơ sở dữ liệu này, ta có chiều dài một điểm ảnh là:
16051.