5. Bố cục của luận văn
1.3.2. Thuật toán K-Means
K-Means là thuật toán quan trọng và phổ biến trong kỹ thuật phân cụm. Tư tưởng chính của thuật toán K-Means là tìm cách phân nhóm các đối tượng đã cho vào K cụm (K là số các cụm được xác đinh trước, K nguyên dương) sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm nhóm là nhỏ nhất. Thuật toán K-Means thực hiện qua các bước như Hình 1.5:
1.Chọn ngẫu nhiên K tâm cho K cụm. Mỗi cụm được đại diện bằng các tâm của cụm.
2.Tính khoảng cách giữa các đối tượng đến K tâm (thường dùng khoảng cách Euclidean).
3.Nhóm các đối tượng vào nhóm gần nhất. 4.Xác định lại tâm mới cho các nhóm.
5.Thực hiện lại bước 2 cho đến khi không có sự thay đổi nhóm nào.
Hình 1.5. Sơ đồ thuật toán K-Means
Ví dụ minh họa thuật toán K-Means
Bảng 1.3. Ví dụ minh họa thuật toán K-Means
Đối tượng Thuộc tính 1 (X) Thuộc tính 2 (Y)
A 1 1
B 2 1
C 4 3
Bước 1: Khởi tạo
Chọn 2 trọng tâm ban đầu: C1 (1,1) ≡ A và C2 (2,1) ≡ B, thuộc 2 cụm 1 và 2 Bước 2: Tính toán khoảng cách
- d(C, c1) = (4 -1)2 + (3 -1)2 = 13 - d(C, c2) = (4 -2)2 + (3 -1)2 =8 - d(C, c1) > d(C, c2) => C thuộc cụm 2 - d(D, c1) = (5 -1)2 + (4 -1)2 = 25 - d(D, c2) = (5 -2)2 + (4 -1)2 = 18 - d(D, c1) > d(D, c2) => D thuộc cụm 2 Bước 3: Cập nhật lại vị trí trọng tâm - Trọng tâm cụm 1 c1 = A (1, 1) - Trọng tâm cụm 2 c2 (x, y) = ( 2+4+5
3 ,1+3+4
3 )
Hình 1.6. Khởi tạo trọng tâm
Bước 4-1: Lặp lại bước 2 –tính toán khoảng cách - d(A, c1 ) = 0 < d(A, c2 ) = 9.89 =>A thuộc cụm 1 -d(B, c1 ) = 1 < d(B, c2 ) = 5.56 =>B thuộc cụm 1 - d(C, c1 ) = 13 > d(C, c2 ) = 0.22 =>C thuộc cụm 2 - d(D, c1 ) = 25 > d(D, c2 ) = 3.56 =>D thuộc cụm 2 Bước 4-2: Lặp lại bước 3 –Cập nhật trọng tâm c1 = (3/2, 1) và c2 =(9/2, 7/2)
Bước 4-3: Lặp lại bước 2
- d(A, c1 ) = 0.25 < d(A, c2 ) = 18.5 =>A thuộc cụm 1 - d(B, c1 ) = 0.25 < d(B, c2 ) = 12.5 =>B thuộc cụm 1 - d(C, c1 ) = 10.25 < d(C, c2 ) = 0.5 =>C thuộc cụm 2 - d(D, c1 ) = 21.25 > d(D, c2 ) = 0.5 =>D thuộc cụm 2
KẾT LUẬN CHƯƠNG 1
Chương này đã tập trung nghiên cứu tổng quan về KPDL; khái niệm KPDL; quá trình KPDL và các kỹ thuật KPDL. Trong đó đặc biệt là KPDL bằng kỹ thuật cây quyết định, nêu được giải thuật ID3 và giải thuật C4.5. Thuật toán C4.5 được cải tiến nhiều so với thuật toán ID3, C4.5 giải quyết hầu hết các bài toán mà ID3 chưa thể giải quyết được. C4.5 sử dụng RatioGain để xác định điểm chia tốt nhất. Ngoài ra, phần này còn trình bày thêm kỹ thuật phân cụm dữ liệu bằng thuật toán K-Means dựa trên khoảng cách của các đối tượng.
CHƯƠNG 2. NGHIÊN CỨU VÀ XỬ LÝ DỮ LIỆU VỀ BỆNH RỐI LOẠN
TRẦM CẢM
Trong chương này, luận văn sẽ trình bày về đặc điểm tâm sinh lý của tuổi vị thành niên, khái niệm về bệnh RLTC, thực trạng bệnh RLTC hiện nay và nêu các đặc điểm lâm sàng chung cũng như đặc điểm lâm sàng của bệnh RLTC ở tuổi vị thành niên nói riêng và liệt kê các triệu chứng của bệnh RLTC. Trên cơ sở đó để thu thập xử lý số liệu thực tế về bệnh RLTC tại tỉnh Quảng Trị. Ngoài ra chương này cũng trình bày thêm các công cụ khai phá dữ liệu để từ đó xây dựng mô hình chẩn đoán bệnh RLTC.