Cài đặt thuật toán gom cụm nửa giám sát với dữ liệ- 123docz.net

4. Đánh giá thuật toán:

3.2.3. Cài đặt thuật toán gom cụm nửa giám sát với dữ liệu hỗn hợp

tuổi. Thời hạn hợp đồng: 19 đến 39 năm.

Phú_An khang trọn đời:

Người được bảo hiểm: 18-45 tuổi hoặc 18-50 tuổi (tùy thuộc độ tuổi chọn nghỉ hưu). Tuổi tối đa khi đáo hạn hợp đồng: 70 hoặc 75 tuổi. Thời hạn hợp đồng: 10 đến 57 năm.

3.2.3. Cài đặt thuật toán gom cụm nửa giám sát với dữ liệu hỗn hợp hợp

Nếu nói Thuật toán K-Tâm là cải tiến của thuật toán K-Means áp dụng với kiểu dữ liệu hỗn hợp và thuật toán phân cụm dữ liệu nửa giám sát Seeded- Kmeans và Constrained-Kmeans là cải tiến của thuật toán K-Means với việc khởi tạo K cụm ban đầu từ tập giống. Thì bằng cách phân cụm dữ liệu áp dụng thuật toán phân cụm dữ liệu nửa giám sát cho kiểu dữ liệu hỗn hợp có nghĩa là ta đã kết hợp thuật toán K-Tâm và thuật toán phân cụm dữ liệu nửa giám sát.

Về cơ bản khi tiến hành phân cụm dữ liệu nửa giám sát cho kiểu dữ liệu hỗn hợp không khác gì mấy so với việc phân cụm dữ liệu nửa giám sát với kiểu dữ liệu số. Chỉ có một điểm khác nhau cơ bản ở đây là việc tính khoảng cách giữa hai đối tượng ta phải áp dụng phương pháp tính khoảng cách với kiểu dữ liệu hỗn hợp thay vì kiểu dữ liệu số thông thường. Các công thức tính khoảng cách:

• Nếu Aj là thuộc tính thứ tự và DOM(Aj) ={ k} j j a a1,..., với a1j <a2j <...<akj , ta lấy một hàm đơn điệu fj: DOM(Aj)→ [0,1] sao cho ( 1)=0; ( k)=1

j j j j a f a f (hàm này có thể là : 1 1 ) ( − − = k i a f i j j ).

Khi đó dj(x, y)= │fj(x)-fj(y) │ (2)

• Nếu Aj là dữ liệu định danh thì dj(x,y)=    ≠ = y x khi y x khi : 1 : 0 (3)

Vậy khoảng cách d(x, y) giữa hai đối tượng x = (x1,...,xn) và y = (y1,...,yn) được tính bởi công thức:

= ∑n= j j j j jd x y y x d 1 2 2 ( , ) ) , ( ρ (4)

Trong đó các dj(xj, yj) được tính theo các công thức (1-3) và ρj là các trọng số dương cho bởi các chuyên gia. Các giá trị trọng số này cũng chính là một phần thể hiện sự nửa giám sát, các trọng số sẽ giúp cho việc xác định các thông tin nào là quan trọng và các thông tin nào là kém quan trọng hơn trong qua trình phân cụm. Giá trị của các trọng số sẽ góp phần quan trọng trong kết quả phân cụm thu được.

3.2.4. Giao diện chương trình

 Phân cụm dữ liệu

 Kết quả phân cụm •

KẾT LUẬN

Data mining là một trong những lĩnh vực nghiên cứu mới, nhưng đồng thời nó cũng là một trong những xu hướng nghiên cứu ngày càng phổ biến. Do nhu cầu của thực tế, với sự phát triển của công nghệ máy tính, của các lĩnh vực kinh tế - xã hội thì lượng thông tin lưu trữ ngày càng tăng, và nhu cầu khai thác thông tin, tri thức ngày càng lớn. Do đó việc đọc, nghiên cứu và phát triển phương pháp gom cụm dữ liệu đóng một vai trò rất quan trọng trong hoạt động của khoa học công nghệ máy tính, cũng như trong hoạt động thực tiễn.

Trong bài thu hoạch này em đã nêu lên những nét đặc trưng nhất trong lĩnh vực Data Mining bao gồm các vấn đề cần khám phá tri thức, các hướng tiếp cận nghiên cứu tiêu biểu. Gom cụm dữ liệu là một phương pháp khám phá tri thức quan trọng trong Data Mining có nhiều ý nghĩa trong khoa học cũng như thực tiễn. Trong đó, gom cụm dữ liệu Kmean là một trong những hướng nghiên cứu mới được nhiều nhà khoa học quan tâm. Bài thu hoạch đã nêu được một cách khái quát về Data mining và trình bày thuật toán điển hình của gom cụm dữ liệu là thuật toán Kmean.

TÀI LIỆU THAM KHẢO

[1] PSG.TS Đỗ phúc Giáo trình khai thác dữ liệu, Nhà xuất bản Đại học Quốc gia TPHCM

[2] Hà Quang Thụy (2009), Giáo trình khai phá dữ liệu Web, Nhà xuất bản giáo dục Việt Nam.

[3] Kỹ sư Nguyễn Anh Trung - Trung tâm Công nghệ Thông tin, Ứng dụng các kỹ thuật khai phá dữ liệu vào lĩnh vực viễn thông.

[4] Hoàng Hải Xanh, Một số kỹ thuật phân cụm dữ liệu trong Data Mining,

Luận văn thạc sĩ, Trường Đại học Công nghệ (ĐHQGHN), Hà Nội. [6] Nguyễn Thị Ngọc Mai, Microsoft Visual Basic 6.0 và Lập Trình Cơ Sở