Mô tả phương pháp

Theo ý tưởng trên, trong bài toán cụ thể là chuẩn đoán bệnh ung thư, dữ liệu về bệnh nhân được trình bày dưới dạng một ma trận, trong đó mỗi cột là một dấu hiệu (thuộc tính) của bệnh ung thư, mỗi dòng sẽ biểu diễn những số liệu về một bệnh nhân cụ thể. Ở bước đầu tiên, chúng ta sử dụng thuật toán di truyền (GA) để giải quyết vấn đề tối ưu tập thuộc tính từ tập dữ liệu ban đầu. Bước thứ hai, phương pháp phân lớp MPM sẽ thực hiện phân lớp với tập thuộc tính đã được chọn lọc để đưa ra kết luận bệnh nhân đó có khả năng bị ung thư hay không?

Ở đây ta áp dụng GA như một công cụ tối ưu hóa đầu vào cho quá trình phân lớp, nhằm tăng hiệu năng và tính chính xác của quá trình phân lớp. Trước tiên, GA được áp dụng để chọn ra tập con thuộc tính tốt nhất từ tập dữ liệu ban đầu. Dữ liệu của chúng ta bao gồm n cột số liệu sẽ được mô tả dưới dạng một vector nhị phân 01110…11101 có độ dài ứng với số thuộc tính và có ý nghĩa như sau: 0 là không chọn cột đó, còn 1 là chọn cột có số thứ tự tương ứng. Cách biểu diễn này sẽ mô tả được bộ dữ liệu với số cột được lựa chọn theo một thứ tự ngẫu nhiên. Một chuỗi nhị phân được coi là một chromosome trong thuật toán di truyền. Tiếp đó, tìm các chuỗi nhị phân này được thực hiện thông qua các phép toán của GA như chọn lọc, lai ghép và đột biến dựa trên hàm mục tiêu là MPM hay MPM dùng để tính toán giá trị thích nghi (fitness function) cho GA. Với tập thuộc tính được coi là tối ưu, chúng ta sẽ sử dụng phương pháp MPM để chuẩn đoán bệnh nhân đó

thuộc về lớp bị bệnh hay không bị bệnh và so sánh kết quả phân lớp với kết quả thực tế nhằm đánh giá mức độ tốt của hệ thống.

Thể hiện các giả thuyết

Các toán tử di truyền