Nếu nói Thuật toán K-Tâm là cải tiến của thuật toán K-Means áp dụng với kiểu dữ liệu hỗn hợp và thuật toán phân cụm dữ liệu nửa giám sát Seeded- Kmeans và Constrained-Kmeans là cải tiến của thuật toán K-Means với việc khởi tạo K cụm ban đầu từ tập giống. Thì bằng cách phân cụm dữ liệu áp dụng thuật toán phân cụm dữ liệu nửa giám sát cho kiểu dữ liệu hỗn hợp có nghĩa là ta đã kết hợp thuật toán K-Tâm và thuật toán phân cụm dữ liệu nửa giám sát.
Về cơ bản khi tiến hành phân cụm dữ liệu nửa giám sát cho kiểu dữ liệu hỗn hợp không khác gì mấy so với việc phân cụm dữ liệu nửa giám sát với kiểu dữ liệu số. Chỉ có một điểm khác nhau cơ bản ở đây là việc tính khoảng cách giữa hai đối tƣợng ta phải áp dụng phƣơng pháp tính khoảng cách với kiểu dữ liệu hỗn hợp thay vì kiểu dữ liệu số thông thƣờng. Các công thức tính khoảng cách:
Trang 50
Nếu Aj là thuộc tính thứ tự và DOM(Aj) = k
j j a a1,..., với k j j j a a a1 2 ... , ta lấy một hàm đơn điệu fj: DOM(Aj)→ [0,1] sao cho ( 1)0; ( k)1
j j j j a f a f (hàm này có thể là : 1 1 ) ( k i a fj ij ).
Khi đó dj(x, y)= │fj(x)-fj(y) │ (2)
Nếu Aj là dữ liệu định danh thì dj(x,y)=
y x khi y x khi : 1 : 0 (3)
Vậy khoảng cách d(x, y) giữa hai đối tƣợng x = (x1,...,xn) và y = (y1,...,yn) đƣợc tính bởi công thức:
n j j j j jd x y y x d 1 2 2 ) , ( ) , ( (4)
Trong đó các dj(xj, yj) đƣợc tính theo các công thức (1-3) và j là các trọng số dƣơng cho bởi các chuyên gia. Các giá trị trọng số này cũng chính là một phần thể hiện sự nửa giám sát, các trọng số sẽ giúp cho việc xác định các thông tin nào là quan trọng và các thông tin nào là kém quan trọng hơn trong qua trình phân cụm. Giá trị của các trọng số sẽ góp phần quan trọng trong kết quả phân cụm thu đƣợc.
Trang 51
3.2.4. Giao diện chương trình
Trang 52
Phân cụm dữ liệu
Trang 53
Kết quả phân cụm
Trang 54
KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN
1. Kết luận
Data mining là một trong những lĩnh vực nghiên cứ mới, nhƣng đồng thời nó cũng là một trong những xu hƣớng nghiên cứu ngày càng phổ biến. Do nhu cầu của thực tế, với sự phát triển của công nghệ máy tính, của các lĩnh vực kinh tế - xã hội thì lƣợng thông tin lƣu trữ ngày càng tăng, và nhu cầu khai thác thông tin, tri thức ngày càng lớn. Do đó việc đọc, nghiên cứu và phát triển phƣơng pháp phân cụm dữ liệu đóng một vai trò rất quan trọng trong hoạt động của khoa học công nghệ máy tính, cũng nhƣ trong hoạt động thực tiễn.
Trong khóa luận này em đã nêu lên những nét đặc trƣng nhất trong lĩnh vực Data Mining bao gồm các vấn đề cần khám phá tri thức, các hƣớng tiếp cận nghiên cứu tiêu biểu. Phân cụm dữ liệu là một phƣơng pháp khám phá tri thức quan trọng trong Data Mining có nhiều ý nghĩa trong khoa học cũng nhƣ thực tiễn. Trong đó, phân cụm dữ liệu nửa giám sát là một trong những hƣớng nghiên cứu mới đƣợc nhiều nhà khoa học quan tâm. Bài khóa luận đã nêu đƣợc một cách khái quát về Data mining và phƣơng pháp phân cụm không giám sát, từ đó phân tích chi tiết về phân cụm nửa giám sát. Trình bày hai thuật toán điển hình của phân cụm nửa giám sát đó là: Seeded-KMeans, Constrained-Kmeans.
Tóm lại, phân cụm dữ liệu nói chung và phân cụm nửa giám sát nói riêng đang ngày càng đƣợc quan tâm ở nƣớc ta và trên thế giới. Ngày càng có nhiều thuật toán và tƣ tƣởng mới về phân cụm dữ liệu ra đời. Phân cụm dữ liệu đã từng bƣớc chứng minh đƣợc tầm quan trọng cũng nhƣ vai trò của mình trong sự phát triển của công nghệ máy tính nói riêng và phát triển của thế giới nói chung.
Trang 55
2. Định hướng phát triển
Do đây là một đề tài mới, với thời gian nghiên cứu còn ngắn nên bài khóa luận còn nhiều hạn chế. Em sẽ cố gắng hoàn thiện hơn ở thời gian sau với hai thuật toán Seeded-KMeans, Constrained-KMeans.
Tìm hiểu và phát triển nghiên cứu với các thuật toán phân cụm dữ liệu mới, tìm cách cải tiến mới cho một số thuật toán phân cụm nửa giám sát.
Phát triển mở rộng ứng dụng cho các ngành nông nghiệp trong việc dự đoán bệnh cho cây trồng và vật nuôi. Em mong muốn đƣa đề tài này ứng dụng vào thực tiễn ngành nông nghiệp của quê hƣơng em, góp phần nhỏ của mình để phát triển quê hƣơng ngày một giàu mạnh hơn.
Trên đây là hƣớng phát triển của em cho khóa luận tốt nghiệp này, kính mong đƣợc sự quan tâm giúp đỡ của các quý thầy cô và các bạn.
Một lần nữa, em xin chân thành gửi lời cảm ơn sự giúp đỡ của các thầy cô giáo khoa Công nghệ thông tin, đặc biệt là thầy giáo Trịnh Đình Thắng; cùng toàn thể các bạn lớp K34 Công nghệ thông tin đã giúp đỡ em trong quá trình làm khóa luận tốt nghiệp này.
Trang 56
TÀI LIỆU THAM KHẢO
[1] Nguyễn Trung Thông, Phương pháp phân cụm nửa giám sát, Nhà xuất bản giáo dục.
[2] Hà Quang Thụy (2009), Giáo trình khai phá dữ liệu Web, Nhà xuất bản giáo dục Việt Nam.
[3] Kỹ sƣ Nguyễn Anh Trung - Trung tâm Công nghệ Thông tin, Ứng dụng các kỹ thuật khai phá dữ liệu vào lĩnh vực viễn thông.
[4] Hoàng Hải Xanh, Một số kỹ thuật phân cụm dữ liệu trong Data Mining,
Luận văn thạc sĩ, Trƣờng Đại học Công nghệ (ĐHQGHN), Hà Nội. [5] Hoàng Xuân Huấn, Nguyễn Thị Xuân Hƣơng, Mở rộng thuật toán phân
cụm K-Mean cho dữ liệu hỗn hợp. Một số vấn đề chọn lọc của Công nghệ thông tin, Hải phòng 25-27 tháng 8 năm 2005.
[6] Nguyễn Thị Ngọc Mai, Microsoft Visual Basic 6.0 và Lập Trình Cơ Sở Dữ Liệu, Nhà xuất bản Lao Động Và Xã Hội.