Hàm thành viên

Một phần của tài liệu Ứng dụng hệ thống nhận dạng miễn dịch nhân tạo mờ trong chẩn đoán ung thư (FULL TEXT) (Trang 79 - 99)

Biến đầu vào của cơ chế phân phối tài nguyên mờ là mức kích hoạt của ARB, vì vậy biến đầu ra là số lượng tài nguyên sẽ được phân phối cho ARB đó. Cũng giống như những hệ thống mờ khác, hàm thành viên đầu vào cũng như hàm thành viên đầu ra được định nghĩa, ở đây thể hiện trong hình 4.10.

Hình 4.10: (a) Hàm thành viên đầu vào; (b) Hàm thành viên đầu ra

Trọng số

Trọng số

Biến đầu vào, ARN.stim, biến đổi giữa 0 và 1. Giá trị hàm thành viên được tính theo giá trị này sử dụng hàm thành viên đầu vào. Trong phép tính này, hai điểm được chọn là hai điểm cắt bởi giá trị đầu vào ARB.stim trong hàm thành viên tam giác. Các điểm này cũng được xem như các giá trị thành viên của biến đầu vào đối với hàm thành viên liên quan. Cực tiểu của những điểm này chính là giá trị hàm thành viên của biến đầu vào x, ARB.stim (phương trình 4.5):

X x x x MIN x A B B A , , (4.5)

Trong đó A x , B x là giá trị hàm thành viên của x trong A, B với A, B là những tập mờ trong tập vũ trụ X.

Giá trị hàm thành viên đầu vào được dùng để lấy giá trị đầu ra bằng hàm thành viên đầu ra (Xem hình 4.9 (b)).

Tại trục x trong hình 4.9 (b), số lượng tài nguyên được phân phối sẽ được tính bằng hàm thành viên của ARB thay đổi từ 0 đến 10. Trọng số trong trục y, là giá trị hàm thành viên đầu vào đã nói ở trên, phân cắt những tam giác thành viên tại một số điểm.

Chương 4

Ứng dụng vào hệ thống chẩn đoán ung thư

Thuật toán Hệ nhận dạng miễn dịch nhân tạo AIRS là một trong những thuật toán phân lớp có khả năng giải quyết vấn đề hiệu quả trong máy học nói chung và trong vấn đề chẩn đoán y khoa nói riêng. Chương 4 xin phép đề cập đến việc xây dựng Hệ thống nhận dạng miễn dịch nhân tạo AIRS và Hệ thống nhận dạng miễn dịch nhân tạo mờ Fuzzy – AIRS trên tập dữ liệu bệnh ung thư vú do UCI cung cấp, trong đó việc phân phối tài nguyên bằng logic mờ là sự thay đổi đáng kể cho hệ thống AIRS.

4.1 Tiến trình chẩn đoán ung thư

Tiến trình chẩn đoán ung thư, hỗ trợ bác sĩ được mô tả trong hình 4.1.

Nhập dữ liệu huấn luyện bệnh: các dữ liệu trước đây sẽ được đưa vào hệ thống để huấn luyện, nhằm đưa ra các thông số phân lớp cho hệ thống. Dữ liệu này càng nhiều và chính xác thì độ chính xác phân lớp càng cao.

Chuẩn hóa dữ liệu: Khởi tạo dữ liệu đầu vào của thuật toán. Để bảo đảm tính chính xác, tất cả khoảng cách Euclidean được chuẩn hóa nằm trong khoảng 0 và 1.

Hệ thống phân lớp: bao gồm việc chọn tế bào nhớ và phát sinh ARB, cạnh tranh tài nguyên và phát triển tế bào nhớ ứng viên, lưu tế bào nhớ ứng viên vào tập tế bào nhớ. Hệ thống này lưu trữ tất cả các thông số phân lớp, giúp chẩn đoán ung thư.

Rồi Chưa

Nhập dữ liệu huấn luyện bệnh

Chuẩn hóa dữ liệu

Chọn tế bào nhớ và phát sinh ARB Lặp lại với n mẫu

Cạnh tranh tài nguyên và phát triển tế bào nhớ ứng viên

Lưu tế bào nhớ ứng viên vào tập các tế bào nhớ

Đủ n lần?

Tế bào nhớ chứa mẫu đặc trưng

Nhập số liệu bệnh của bệnh nhân

Dùng k – nn so khớp

Kết luận bệnh

Kết thúc

Nhập số liệu của bệnh nhân: Chọn loại bệnh muốn chẩn đoán, sau đó nhập vào các thông số của bệnh do chương trình yêu cầu.

Phân lớp: sử dụng thuật toán k láng giềng gần nhất để phân lớp bệnh.

Kết luận bệnh: Cho ra chẩn đoán, tùy theo loại bệnh và kết quả phân lớp.

4.2 Dữ liệu nhập của hệ thống

4.2.1 Dữ liệu nhập ung thư vú

Dữ liệu sử dụng được lấy từ kho máy học của UCI do giáo sư William của Đại học Y Dược Wisconsin – Madison thực hiện từ năm 1989 đến năm 1991. Tên của cơ sở dữ liệu ung thư vú là WBCD (Wisconsin Breast Cancer dataset) [14]. Tập dữ liệu này chứa 683 mẫu được lấy từ những mô bệnh ung thư vú. WBCD bao gồm 9 đặc trưng, mỗi đặc trưng mang giá trị từ 1 đến 10. Các biến độ đo được mô tả như sau:

1. Độ dày khối u x1 (Clump Thickness)

2. Độ thay đổi kích thước tế bào x2 (Uniformity of Cell Size) 3. Độ thay đổi hình dáng tế bào x3 (Uniformity of Cell Shape) 4. Độ dính mép x4 (Marginal Adhesion)

5. Kích thước tế bào biểu mô đơn x5(Single Epithelia Cell Size) 6. Hạch nhân x6 (Bare Nucleoi)

7. Chất nhiễm sắc x7 (Bland Chromatin) 8. Nhân x8(Normal Nucleoi)

9. Phân bào tơ x9(Mitoses)

Trong 683 mẫu thực nghiệm, có 458 mẫu âm tính (chiếm 65.5%) và 241 mẫu dương tính (chiếm 34.5%).

Dữ liệu được cho ví dụ như trong bảng 4.1. Tất cả phân tích quá trình thực hiện thuật toán sẽ sử dụng bảng này. Trong đó, các mẫu có màu xanh da trời tượng trưng cho mẫu bình thường, và xanh lá cây là mẫu ung thư.

STT x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 1 5 1 1 1 2 1 3 1 1 2 2 5 4 4 5 7 10 3 2 1 2 3 3 1 1 1 2 2 3 1 1 2 4 6 8 8 1 3 4 3 7 1 2 5 4 1 1 3 2 1 3 1 1 2 6 8 10 10 8 7 10 9 7 1 4 7 10 7 7 6 4 10 4 1 2 4 8 7 3 2 10 5 10 5 4 4 4 9 10 5 5 3 6 7 7 10 1 4 10 8 10 10 8 7 10 9 7 1 4

Bảng 4.1: Ví dụ về dữ liệu ung thư vú

4.2.2 Dữ liệu nhập ung thư cổ tử cung

Trong mẫu xét nghiệm theo phương pháp Pap Smear, ngoài các tế bào cổ tử cung, còn có rất nhiều loại tế bào phụ khác như hồng cầu, bạch cầu, xác tế bào, vi trùng,… Để đơn giản, dữ liệu nhập chỉ giới hạn trong các loại sau: tế bào trụ, tế bào gai cận đáy, tế bào gai trung gian và tế bào gai bề mặt, tế bào loạn sản nhẹ chưa sưng hoá, tế bào loạn sản vừa, tế bào loạn sản nặng. Dữ liệu này được thực hiện bởi bác sĩ khoa giải phẫu học của đại học Y khoa Herlev, bằng cách sử dụng camera kĩ thuật số kết nối với kính hiển vi và máy tính.

Cơ sở dữ liệu gồm 500 mẫu, trong đó có 50 mẫu tế bào trụ, 50 mẫu tế bào gai cận đáy, 50 mẫu tế bào gai trung gian, 50 mẫu tế bào gai bề mặt (nghĩa là tổng cộng 200 mẫu chẩn đoán bình thường); 100 mẫu tế bào loạn sản nhẹ chưa sừng hóa, 100 mẫu tế bào loạn sản vừa chưa sừng hóa và 100 mẫu tế bào loạn sản nặng chưa sừng hóa (nghĩa là 300 mẫu tế bào loạn sản đang ở tình trạng bất thường dẫn đến ung thư). Trong đó có 20 thuộc tính như sau:

2. Diện tích bào tương y2

3. Tỷ lệ nhân / bào tương y3

4. Độ sáng nhân y4

5. Độ sáng bào tương y5

6. Đường kính ngắn nhất của nhân y6

7. Đường kính dài nhất của nhân y7

8. Độ giãn dài của nhân y8

9. Độ tròn của nhân y9

10.Đường kính ngắn nhất bào tương y10

11.Đường kính dài nhất của bào tương y11

12.Độ giãn dài của bào tương y12

13.Độ tròn của bào tương y13

14.Chu vi nhân y14

15.Chu vi bào tương y15

16.Vị trí nhân y16

17.Cực đại trong nhân y17

18.Cực tiểu trong nhân y18

19.Cực đại trong bào tương y19

20.Cực tiểu trong bào tương y20

Khi kiểm tra độ chính xác của thuật toán, một vài thuộc tính sẽ được lựa chọn để phân lớp ung thư, dựa trên luật chuyên gia hoặc dựa trên việc rút trích đặc trưng, do số lượng thuộc tính lớn.

4.3 Dữ liệu xuất của hệ thống

4.3.1 Dữ liệu xuất ung thư vú

Dữ liệu xuất bao gồm 2 lớp với giá trị tương ứng như sau:

Bất thường – bị ung thư: 4

4.3.2 Dữ liệu xuất ung thư cổ tử cung

Cơ sở dữ liệu được tạo ra với 20 đặc trưng cùng với đặc trưng thứ 21, là con số tượng trưng cho phân lớp của tế bào:

1: Bình thường – là tế bào trụ

2: Bình thường – là tế bào gai cận đáy 3: Bình thường – là tế bào gai trung gian 4: Bình thường – là tế bào gai bề mặt

5: Ung thư – là tế bào loạn sản nhẹ chưa sừng hoá 6: Ung thư – là tế bào loạn sản vừa chưa sừng hoá 7: Ung thư – là tế bào loạn sản nặng chưa sừng hoá

Đây chính là dữ liệu xuất dùng cho phân lớp tế bào. Nếu chỉ phân lớp là âm tính (tương ứng 1, 2, 3, 4 ở trên) hoặc dương tính (tương ứng 4, 6, 7) thì đặc trưng phân lớp tế bào sẽ gồm:

1: Bình thường – là tế bào bình thường 2: Ung thư – là tế bào loạn sản

4.4 Xây dựng hệ thống AIRS

AIRS là thuật toán học giám sát giới hạn tài nguyên, khởi nguồn từ hệ miễn dịch. Trong thuật toán này, cơ chế miễn dịch được dùng là cạnh tranh tài nguyên, chọn lựa dòng, tăng trưởng tương đồng và sự hình thành tế bào nhớ. Các vectơ đặc trưng dành cho huấn luyện và kiểm nghiệm là các kháng nguyên, trong khi các đơn vị hệ thống gọi là tế bào B. Tương tự, các tế bào B được tượng trưng bằng những quả cầu nhận dạng nhân tạo ARB và những ARB này cạnh tranh với từng ARB khác về số lượng tài nguyên cố định. Các ARB có độ tương đồng cao hơn để huấn luyện kháng

nguyên được cung cấp. Các tế bào nhớ được hình thành sau toàn bộ quá trình huấn luyện kháng nguyên, được sử dụng để phân lớp các kháng nguyên kiểm nghiệm.

4.4.1 Khởi tạo

Hệ thống sử dụng tập tham số như Bảng 4.2.

Tham số WBCD

Tỷ lệ đột biến 0,15

ATS (Ngưỡng tương đồng vô hướng) 0,1

Ngưỡng kích hoạt 0,91

Tỷ lệ dòng 10

Tỷ lệ dòng cao 2,0

Số lượng tài nguyên trong AIRS 250

Số lần lặp 10.000

Giá trị k trong thuật toán k láng giền gần nhất 3

Số lượng tài nguyên trong hệ thống AIRS mờ 120

Bảng 4.2: Các tham số được dùng trong hệ thống AIRS mờ

Tập tế bào nhớ được khởi tạo bằng cách chọn ngẫu nhiên, trong trường hợp này, chẳng hạn chọn 4 tế bào nhớ (Bảng 4.3). STT x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 2 5 4 4 5 7 10 3 2 1 2 3 3 1 1 1 2 2 3 1 1 2 4 6 8 8 1 3 4 3 7 1 2 7 10 7 7 6 4 10 4 1 2 4

Bảng 4.3: Tập tế bào nhớ khởi tạo

4.4.2 Xác định tế bào nhớ và phát sinh ARB

Trong bước này, thuật toán bắt đầu tương tác với từng kháng nguyên huấn luyện. Kháng nguyên huấn luyện được đưa vào các tế bào nhớ và các tế bào nhớ bị kích hoạt bởi kháng nguyên đó bị dòng hóa. Các mức độ kích hoạt được tính bằng

phương trình (4.2). Tất cả các dòng cùng với tế bào nhớ được thêm vào tập ARB. Ở đây, số lượng dòng được xác định theo độ tương đồng giữa tế bào nhớ và kháng nguyên. Phép tính giá trị mức tương đồng được thực hiện như phương trình (4.3), cho kết quả giá trị độ tương đồng cao hơn đối với khoảng cách Euclidean nhỏ hơn:

otherwise y x affinity y of class x of class y x affinity y x n stimulatio , , 1 _ _ _ _ , , , (4.2) n i i i y x y x ce is Euclideand y x affinity 1 2 1 , tan 1 , (4.3) Xét từng kháng nguyên huấn luyện (từng mẫu trong bảng 4.1), giá trị kích hoạt của kháng nguyên huấn luyện lên từng tế bào nhớ được tính như sau:

(Kháng nguyên – Tế bào nhớ) Khoảng cách Euclidean Khoảng cách Euclidean chuẩn hóa Độ tương đồng affinity Giá trị kích hoạt Stimulation (1 – 2) 11.874 0.789 0.211 0.211 (1 – 3) 2.236 0.000 1.000 1.000 (1 – 4) 12.042 0.802 0.198 0.198 (1 – 7) 14.457 1.000 0.000 1.000 Bảng 4.4: Bảng tính xác định tế bào nhớ

Tế bào nhớ mcmatch chính là tế bào 3, được xác định như Bảng 4.4 và như Hình 4.2, Hình 4.3.

Hình 4.2: Quá trình xác định tế bào nhớ, trong đó A là kháng nguyên xâm nhập cơ thể

Hình 4.3: Tìm MCmatch trong tập tế bào nhớ

Sử dụng tế bào 3 để đột biến thành các con đột biến và tạo ra các ARB bằng cách đột biến giá trị bất kì (từ 1 – 10) tại một vị trí bất kì.

STT x1 x2 x3 x4 x5 x6 x7 x8 x9 x10

3 3 1 1 1 2 2 3 1 1 2

3.1 3 1 10 1 2 2 3 1 1 2

3.2 3 1 1 1 2 2 1 1 1 2

3.3 3 1 1 1 5 2 3 1 1 4

Hình 4.4: Sự phát sinh ARB

4.4.3 Cạnh tranh tài nguyên và phát triển tế bào nhớ ứng viên

Sau các quá trình trên, kháng nguyên huấn luyện được đưa vào tất cả các ARBs trong tập ARB. Tất cả các ARB được hoàn lại, để các phần hoàn lại của những ARB trong cùng một lớp với kháng nguyên đưa vào, được đưa ra theo giá trị ái lực cao hơn các ARB của lớp khác. Ở đây các phần hoàn lại là số lượng tài nguyên. Số lượng tài nguyên yêu cầu có thể vượt quá số lượng cho phép bởi hệ thống. Trong trường hợp này, các tài nguyên vượt mức bị loại bỏ, bắt đầu bằng những ARB ái lực thấp hơn, điều này tiếp tục cho đến khi số lượng yêu cầu bằng số tài nguyên cho phép. Các mức kích thích của những ARB còn lại được thử nghiệm và giá trị trung bình của các mức này được xác định cho mỗi lớp. Nếu bất cứ giá trị trung bình nào thấp hơn ngưỡng kích thích được xác định bởi người dùng, ARB thuộc lớp đó được kích thích và các dòng được thêm vào tập ARB. Bước này tiến hành cho đến khi độ kích thích trung bình của tất cả các lớp lớn hơn ngưỡng kích thích. Phương trình (4.4) đưa ra công thức tính giá trị kích thích trung bình cho từng lớp:

i i i ARB j j i arb ARB ARB stim arb S i , . 1 (4.4)

Trong đó, i = 1,.., nc, s = {s1, s2,.., snc}, |ARBi| là số lượng ARB thuộc lớp thứ i và arbi.stim là mức độ kích thích của ARB thứ j trong lớp thứ i.

Như vậy, giá trị kích thích của kháng nguyên lên từng quả cầu nhận dạng arb. (Kháng nguyên – arb) Khoảng cách Euclidean Khoảng cách Euclidean chuẩn hóa Độ tương đồng affinity Giá trị kích hoạt stimulation Giá trị kích hoạt stimulation chuẩn hóa Số lượng tài nguyên (1 – 3.1) 9.274 1.000 0.000 0.000 0.000 0 (1 – 3.2) 3.000 0.000 1.000 1.000 1.000 10 (1 – 3.3) 3.742 0.118 0.882 0.118 0.882 9

Bảng 4.6: Giá trị kích thích của kháng nguyên lên arb

Số lượng tài nguyên được phân phối cho tập tế bào ARB là 19. Ta có thể xác định được số lượng tài nguyên sẽ được phân phối cho từng quả cầu nhận dạng arb là bao nhiêu tùy vào việc phân lớp đầu ra của nó có cùng phân lớp với kháng nguyên huấn luyện hay không. Giả sử tổng số tài nguyên cho phép là 20. Như vậy, số lượng tài nguyên được phép phân phối cho hệ thống là 10 (nhỏ hơn số lượng tài nguyên được phân phối cho tập tế bào ARB - 19). Khi này, chúng ta sẽ loại bỏ những quả cầu nhận dạng có giá trị kích hoạt thấp nhất, tức là loại bỏ arb 3.1. Ta sẽ loại bỏ tiếp theo arb 3.3 do số lượng tài nguyên được phân phối vẫn vượt ngưỡng cho phép. Cho đến khi chỉ còn arb 3.2 là con đột biến tốt nhất và sẽ lấy giá trị này đột biến thêm 10 phần tử cho tập ARB.

Hình 4.5: Sự tiếp xúc của ARB với kháng nguyên

Hình 4.6: Sự phát triển tế bào nhớ ứng viên

Tập tế bào ARB cuối cùng được cho trong Bảng 4.7.

STT x1 x2 x3 x4 x5 x6 x7 x8 x9 x10

3.2 3 1 1 1 2 2 1 1 1 2

3.2.1 3 1 1 1 2 2 1 6 1 2

3.2.2 10 1 1 1 2 2 1 1 1 2

3.2.4 3 1 1 1 1 2 1 1 1 2 3.2.5 3 1 5 1 2 2 1 1 1 2 3.2.6 3 1 1 1 2 2 1 1 10 4 3.2.7 3 1 1 1 2 2 1 1 1 4 3.2.8 3 9 1 1 2 2 1 1 1 4 3.2.9 3 1 1 1 2 1 1 1 1 4 Bảng 4.7: Tập tế bào ARB

4.4.4 Giới thiệu tế bào nhớ

Sau khi tổng giá trị kích thích của các ARB trong tất cả các lớp đạt đến ngưỡng kích thích, ARB tốt nhất cùng lớp với kháng nguyên huấn luyện được xem như một tế bào nhớ ứng viên. Ở đây, tốt nhất nghĩa là có độ tương đồng cao nhất. Nếu giá trị kích thích giữa kháng nguyên huấn luyện và tế bào nhớ ứng viên này lớn hơn giá trị

Một phần của tài liệu Ứng dụng hệ thống nhận dạng miễn dịch nhân tạo mờ trong chẩn đoán ung thư (FULL TEXT) (Trang 79 - 99)

Tải bản đầy đủ (PDF)

(109 trang)