Phân lớp dữ liệu là kỹ thuật cần đƣợc ứng dụng trong rất nhiều lĩnh vực của đời sống kinh tế xã hội. Phân lớp dữ liệu càng đúng đắn, chính xác thì việc ra quyết định càng dễ dàng và hiệu quả hơn.
Bài toán đƣợc phát biểu nhƣ sau: Cho tập cơ sở dữ liệu gồm các triệu chứng sức khỏe của bệnh nhân. Hãy xây dựng một chƣơng trình để chuẩn đoán xem bệnh nhân đó có bị cúm H1N1 hay không.
- Đầu vào: Tập dữ liệu các biểu hiện sức khỏe của bệnh nhân. - Đầu ra: Có bị H1N1 hay không?
Bảng 3.1 đƣợc dùng để làm cơ sở dữ liệu xây dựng chƣơng trình mô phỏng chuẩn đoán bệnh cúm H1N1.
Bảng 3.1. Bảng dữ liệu về những dấu hiệu của các bệnh nhân nhiễm cúm
Đầu Mũi Cổhọng Cơ thể Result
Nhức đầu Hắt hơi Ho thƣờng Nhức mỏi toàn thân Yes
Bình thƣờng Xổ mũi nặng Ho đờm Chỉ bị đau vùng đầu Yes
Nhức đầu Xổ mũi nặng Ho đờm Nhức mỏi toàn thân Yes
Nhức đầu Xổ mũi nhẹ Ho đờm Chỉ bị đau vùng đầu Yes
Bình thƣờng Xổ mũi nặng Ho thƣờng Nhức mỏi toàn thân No
Bình thƣờng Hắt hơi Ho khan Chỉ bị đau vùng đầu No
Bình thƣờng Xổ mũi nhẹ Ho đờm Nhức mỏi toàn thân Yes
Nhức đầu Xổ mũi nặng Ho khan Chỉ bị đau vùng đầu Yes
Bình thƣờng Xổ mũi nhẹ Ho khan Nhức mỏi toàn thân Yes Bình thƣờng Xổ mũi nhẹ Ho thƣờng Nhức mỏi toàn thân No Bình thƣờng Xổ mũi nặng Ho thƣờng Nhức mỏi toàn thân No
Bình thƣờng Hắt hơi Ho đờm Chỉ bị đau vùng đầu Yes
Nhức đầu Xổ mũi nặng Ho thƣờng Chỉ bị đau vùng đầu Yes Bình thƣờng Xổ mũi nhẹ Ho khan Chỉ bị đau vùng đầu No
Bảng 3.1 là bảng dữ liệu về những dấu hiệu của các bệnh nhân nhiễm cúm, cây quyết định phân loại dữ liệu đƣợc xây dựng để đi tới kết luận là “Bị cúm H1N1” hay “Không bị cúm H1N1”.
47