1. Trang chủ
  2. » Luận Văn - Báo Cáo

Thuật toán phân cụm dữ liệu nửa giám sát

56 381 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 56
Dung lượng 1,28 MB

Nội dung

TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN o0o ĐỖ THỊ PHƯƠNG THUẬT TOÁN PHÂN CỤM DỮ LIỆU NỬA GIÁM SÁT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học: TS TRỊNH ĐÌNH THẮNG Hà Nội - 2012 Trang Mục Lục LỜI CẢM ƠN LỜI CAM ĐOAN MỞ ĐẦU Chƣơng 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 10 1.1 Tổng quan khám phá tri thức sở liệu 10 1.2 Khái niệm khai phá liệu (Data mining) .12 1.3 Các phƣơng pháp khai phá liệu 12 1.3.1 Các nhiệm vụ khai phá liệu 12 1.3.2 Phân loại 13 1.4 Ứng dụng khai phá liệu 14 Chƣơng 2: PHÂN CỤM DỮ LIỆU VÀ CÁC THUẬT TOÁN ĐIỂN HÌNH 15 2.1 Khái niệm phân cụm liệu .15 2.2 Các kiểu liệu độ đo tƣơng tự 15 2.2.1 Phân loại kiểu dự liệu dựa kích thƣớc miền 15 2.2.2 Phân loại kiểu liệu dựa hệ đo 15 2.2.3 Phép đo độ tƣơng tự, phi tƣơng tự 16 2.3 Các ứng dụng phân cụm liệu 20 2.4 Các phƣơng pháp thuật toán điển hình liên quan đến phân cụm liệu không giám sát 20 2.4.1 Phân cụm phân hoạch 20 2.4.2 Phân cụm phân cấp 26 Trang 2.4.3 Thuật toán K-Tâm 32 2.5 Các phƣơng pháp thuật toán điển hình liên quan đến PCDL nửa giám sát .34 2.5.1 K-Means bán giám sát với phần liệu gán nhãn: SeededKMeans Constrained-KMeans 35 2.5.2 K-Means bán giám sát sở ràng buộc: COP-Kmeans 38 Chƣơng 3: XÂY DỰNG ỨNG DỤNG 40 3.1 Giới thiệu ngôn ngữ Visual Basic 6.0 .40 3.1.1 Cấu trúc đề án (Project) 40 3.1.2 Một số điều khiển 41 3.1.3 Thuộc tính, phƣơng thức kiện 41 3.1.4 Mô hình truy cập sở liệu ADO 42 3.1.5 Hệ quản trị Cơ sở liệu ACCESS 43 3.2 Xây dựng ứng dụng 44 3.2.1 Giới thiệu 44 3.2.2 Bài toán 45 3.2.3 Cài đặt thuật toán phân cụm nửa giám sát với liệu hỗn hợp 49 3.2.4 Giao diện chƣơng trình 51 KẾT LUẬN VÀ ĐỊNH HƢỚNG PHÁT TRIỂN 54 Kết luận 54 Định hƣớng phát triển 55 TÀI LIỆU THAM KHẢO 56 Trang MỞ ĐẦU Lý chọn đề tài Trong vài thập niên gần đây, với thay đổi phát triển không ngừng ngành Công nghệ thông tin nói chung ngành công nghệ phần cứng, phần mềm, truyền thông hệ thống liệu phục vụ lĩnh vực kinh tế - xã hội nói riêng việc thu thập thông tin nhƣ nhu cầu lƣu trữ thông tin ngày lớn Việc tin học hoá cách ạt nhanh chóng hoạt động sản xuất, kinh doanh nhƣ nhiều lĩnh vực hoạt động khác tạo cho lƣợng liệu lƣu trữ khổng lồ Hàng triệu CSDL đƣợc sử dụng hoạt động sản xuất, kinh doanh, quản lí; đó, có nhiều CSDL cực lớn cỡ Gigabyte, chí Terabyte Trong tình hình đó, kĩ thuật khai phá liệu trở thành lĩnh vực thời Công nghệ thông tin Một vấn đề đƣợc đặt phải trích chọn đƣợc thông tin có ý nghĩa từ tập liệu lớn, để từ giải đƣợc yêu cầu thực tế nhƣ trợ giúp định, dự đoán,… Khai phá liệu (Data mining) đời nhằm giải yêu cầu Quá trình khai phá liệu đƣợc định nghĩa là: Quá trình trích xuất thông tin có giá trị tiềm ẩn bên lượng lớn liệu lưu trữ CSDL, kho liệu… Hiện nay, thuật ngữ khai phá liệu, ngƣời ta dùng số thuật ngữ khác có ý nghĩa tƣơng tự nhƣ: khai phá tri thức từ sở liệu (knowlegde mining from databases), trích lọc liệu (knowlegde extraction), khảo cổ liệu (data archaeology), nạo vét liệu (data dredging) Nhiều ngƣời coi khai phá liệu thuật ngữ thông dụng khác khám phá tri thức sở liệu (Knowlegde Discovery in Databases – KDD) nhƣ Tuy nhiên Trang thực tế, khai phá liệu bƣớc thiết yếu trình khám phá tri thức sở liệu Ngay từ ngày đầu xuất hiện, Data mining trở thành xu hƣớng nghiên cứu phổ biến lĩnh vực học máy tính công nghệ tri thức Data mining có nhiều hƣớng quan trọng hƣớng phân cụm liệu (Data Clustering) Phân cụm liệu đƣợc hiểu trình tìm kiếm để phân cụm liệu, mẫu liệu từ tập sở liệu lớn Phân cụm liệu phƣơng pháp học không giám sát Trong năm trở lại đây, phƣơng pháp phân cụm liệu không giám sát nhiều nhƣợc điểm chƣa đáp ứng đƣợc nhu cầu sử dụng thông tin Để giải vấn đề đó, hƣớng phƣơng pháp phân cụm liệu nửa giám sát, đời dựa sở học không giám sát học có giám sát Dù phƣơng pháp phân cụm chƣa hoàn thiện nhƣng phần khắc phục đƣợc hạn chế phát huy ƣu điểm phƣơng pháp phân cụm không giám sát Do đó, em chọn đề tài: “Thuật toán phân cụm liệu nửa giám sát” để trình bày khóa luận tốt nghiệp Mục đích nghiên cứu Trong khóa luận em xin trình bày theo mục đích sau:  Tìm hiểu qua trình khám phá tri thức, khai phá liệu  Tìm hiểu phân cụm liệu số thuật toán phân cụm liệu không giám sát  Trên tảng lý thuyết khai phá liệu số thuật toán phân cụm không giám sát tiến tới sâu vào tìm hiểu, phân tích, đánh giá Trang số thuật toán phƣơng pháp phân cụm liệu nửa giám sát (Thuật toán Seeded-KMeans Constrained-KMeans)  Xây dựng chƣơng trình demo, mô hoạt động phƣơng pháp phân cụm liệu nửa giám sát Phạm vi nghiên cứu Data mining lĩnh vực thu hút đƣợc nhiều quan tâm nhà nghiên cứu, với nhiều ngành ứng dụng Một hƣớng phân cụm liệu, với phƣơng pháp phân cụm khác Ở khóa luận này, em xin trình bày số phƣơng pháp phân cụm liệu nửa giám sát với thuật toán tiêu biểu nhƣ thuật toán Seeded-Kmeans Constrained-Kmeans Ý nghĩa khoa học thực tiễn Nếu đề tài “Thuật toán phân cụm liệu nửa giám sát” đƣợc nghiên cứu đạt hiệu phân cụm tối ƣu phân cụm liệu không giám sát giúp xử lý liệu nhanh hơn, giảm thời gian, công sức để tìm kiếm, phát cụm, mẫu liệu tập liệu lớn để cung cấp thông tin trợ giúp việc định, dự đoán Phương pháp nghiên cứu a Phương pháp nghiên cứu lý luận Nghiên cứu qua việc đọc sách, báo tài liệu liên quan nhằm xây dựng sở lý thuyết đề tài biện pháp cần thiết để giải vấn đề đề tài b Phương pháp chuyên gia Tham khảo ý kiến chuyên gia để thiết kế chƣơng trình phù hợp với yêu cầu thực tiễn Nội dung xử lý nhanh đáp ứng đƣợc yêu cầu ngày cao ngƣời sử dụng Trang c Phương pháp thực nghiệm Thông qua quan sát thực tế, yêu cầu sở, lý luận đƣợc nghiên cứu kết đạt đƣợc qua phƣơng pháp Cấu trúc khóa luận Ngoài phần mở đầu, kết luận định hƣớng phát triển luận văn em bao gồm ba chƣơng: Chƣơng 1: Tổng quan khai phá liệu Chƣơng 2: Phân cụm liệu thuật toán điển hình Chƣơng 3: Xây dựng ứng dụng Trang DANH SÁCH CÁC HÌNH Hình 1: Quá trình khám phá tri thức CSDL Hình 2: Các thiết lập để xác định danh giới cụm ban đầu Hình 3:Tính toán trọng tâm cụm Hình 4: Phân cụm phân cấp Top-down Bottom-up Hình 5: Các cụm liệu đƣợc khám phá CURE Hình 6: Cấu trúc CF Trang DANH SÁCH CÁC CỤM TỪ VIẾT TẮT STT Viết tắt Cụm từ tiếng Anh Cụm từ tiếng Việt CNTT Information Technology Công nghệ thông tin CSDL Database Cơ sở liệu KDD Knowledge Discovery in Khám phá tri thức Database sở liệu KPDL Data mining Khai phá liệu PCDL Data Clustering Phân cụm liệu MTĐT Electronic Computer Máy tính điện tử Trang Chương TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Tổng quan khám phá tri thức sở liệu Các yêu cầu thông tin loại hoạt động nhƣ công tác quản lý, hoạt động kinh doanh, phát triển sản xuất dịch vụ, đặc biệt việc định giải vấn đề ngày đòi hỏi chất lƣợng cao Ngƣời làm định cần liệu mà cần có thêm nhiều hiểu biết, nhiều tri thức để hỗ trợ cho việc định Để giải vấn đề kỹ thuật khám phá tri thức sở liệu (Knowledge Discovery in Databases- KDD) đời Khám phá tri thức sở liệu lĩnh vực liên quan đến ngành nhƣ: xác suất thống kê, học máy, trực quan hóa liệu, tính toán song song,… Quá trình KDD chia thành bƣớc thực nhƣ sau: Trích chọn liệu: Xác định mục đích quy trình khai phá liệu dựa quan điểm ngƣời dùng, thu thập chuẩn bị liệu để khai phá Tiền xử lý liệu: Nhằm mục đích loại bỏ trùng lặp liệu, cắt tỉa thông tin gây nhiễu, tập hợp thông tin cần thiết cho mô hình hoá, chọn phƣơng pháp xử lý thông tin bị khiếm khuyết Chuyển đổi liệu: Thực thu gọn liệu, phép ánh xạ liệu, tìm đặc trƣng phù hợp để mô tả khai phá liệu Khai phá liệu: Chọn nhiệm vụ khai phá liệu nhƣ phân lớp, gom cụm, hồi qui, kết hợp… Từ nhiệm vụ chọn, sử dụng thuật toán Trang 10  Phƣơng thức: Là đoạn chƣơng trình chứa điều khiển, cho điều khiển biết cách thức để thực công việc Mỗi điều khiển có phƣơng thức khác  Sự kiện: Sự kiện phản ứng đối tƣợng Mỗi điều khiển có kiện khác nhau, nhƣng số kiện thông dụng với hầu hết điều khiển Các kiện xảy thƣờng kết hành động nhƣ di chuột, nhấn nút bàn phím gõ vào hộp thoại văn 3.1.4 Mô hình truy cập sở liệu ADO Mô hình dùng để truy cập xử lý sở liệu từ xa thông qua mạng nhờ kết nối ODBC  ODBC: (Open Database Connectivity – Khả tương kết sở mở) Là biện pháp độc lập ứng dụng để kết nối nhiều sở liệu miễn có trình điều khiển đắn ODBC cho phép kết nối với sở liệu từ xa  Mô hình ADO (Active Data Object) Connection Command Parameter RecordSet Field Error Trang 42  Điều khiển ADODC (ADO Data Control) Project Component Control Microsoft ADO Data Control 6.0 (OLEDB) - Một số thuộc tính: Connection String = “DSN = Tên kết nối ODBC” Command Type (xác định kiểu câu lệnh): AdCmdTable, adCmdText Cursor Type (kiểu trỏ): AdopenDynamic, adopenStatic Lock Type: AdLockBatch Optimistic, adLock Optimistic Mode: AdMode Read, adMode ReadWrite, adMode Unknow RecordSource: Xác định bảng liệu cần truy cập  Đối tượng ADODB Tham chiếu đến thƣ viện: Project References Microsoft Active X Data Object 2.0 Library Khai báo thiết lập: Dim cn as ADODB.Connection, rs as ADODB.RecordSet Set cn = New ADODB.Connection cn.Open “Tên kết nối ODBC” Set rs = cn.excute(“tên bảng | Nội dung câu lệnh Select”) 3.1.5 Hệ quản trị Cơ sở liệu ACCESS Access hệ thống quản trị CSDL, lƣu trữ tìm kiếm liệu, biểu diễn thông tin tự động làm nhiều nhiệm vụ khác Với việc sử dụng Access, phát triển ứng dụng cách nhanh chóng môi trƣờng Windows Microsoft Trang 43 Access cung cấp tất liệu cần thiết cho trƣờng, bao gồm kiểu văn (Text), kiểu số (Number), kiểu tiền tệ (Currency), kiểu ngày/tháng (date/time), kiểu có/không (yes/no),… Việc xử lý quan hệ Access đáp ứng đƣợc đòi hỏi với kiến trúc mềm dẻo Nó sử dụng nhƣ quan hệ quản lý CSDL độc lập 3.2 Xây dựng ứng dụng 3.2.1 Giới thiệu Trong vài năm gần hoạt động kinh doanh bảo hiểm Việt Nam có phát triển vƣợt bậc Thị trƣờng bảo hiểm nƣớc ta đƣợc đa dạng hóa, sức ép mở cửa thị trƣờng ngày lớn Các doanh nghiệp muốn tồn phát triển buộc phải mở rộng thị phần, phát triển sản phẩm bảo hiểm Kinh doanh bảo hiểm nhân thọ thân có tính rủi ro cao rủi ro bất ngờ xảy đến với ngƣời mua bảo hiểm, có cá nhân cố tình trục lợi từ việc bảo hiểm nhƣ khai báo không trung thực hay cố ý tạo kiện bảo hiểm Việc xác định tiềm từ thông tin khách hàng cung cấp hợp đồng bảo hiểm tính xác thực thông tin công việc quan trọng Chỉ chuyên gia ngƣời có kinh nghiệm đánh giá đƣợc nhóm khách hàng tiềm Vấn đề đặt cần đƣa mẫu để trợ giúp nhân viên kinh nghiệm xác định mức độ rủi ro cho hợp đồng bảo hiểm Các mẫu bƣớc đầu phân loại mức độ rủi ro cho hợp đồng bảo hiểm Việc xác định tính đắn mẫu cần có chuyên gia đánh giá lại Tuy nhiên làm giảm nhiều công việc cho chuyên gia Bên cạnh giúp nhân viên tƣ vấn khách hàng hƣớng khách hàng đến sản phẩm bảo hiểm phù hợp với điều kiện họ Việc đánh giá rủi ro cho hợp đồng Trang 44 mua bảo hiểm góp phần quan trọng việc công ty có chấp nhận cho khách hàng mua bảo hiểm mà họ yêu cầu không Rủi ro hợp đồng bảo hiểm biến cố xảy bất thƣờng với hậu thiệt hại mang lại kết không nhƣ dự tính thời gian khách hàng mua bảo hiểm Khi xảy rủi ro, công ty bảo hiểm xác định mức chi trả cho khách hàng theo quy định nội dung hợp đồng Rủi ro hợp đồng bảo hiểm có nhiều mức, để xác định mức độ rủi ro hợp đồng bảo hiểm phải dựa nhiều thông tin: Độ tuổi thu nhập, nghề nghiệp, tình trạng sức khỏe, thông tin ngƣời thân ngƣời tham gia bảo hiểm nhƣ có bệnh không, thông tin quan trọng có số bệnh nghiêm có tính di truyền khả mắc bệnh ngƣời tham gia bảo hiểm xảy 3.2.2 Bài toán Input: Tập n hồ sơ mua bảo hiểm, gồm thông tin khách hàng mua đƣợc bảo hiểm thông tin việc mua bảo hiểm khách hàng Các thông tin đƣợc coi tập liệu hỗn hợp có thuộc tính số thuộc tính thứ tự, thuộc tính định danh K mức độ rủi ro từ thông tin khách hàng cung cấp theo ý kiến chuyên gia có kinh nghiệm Output: Đƣa k nhóm khách hàng có giống lớn dựa theo đánh giá chuyên gia để đƣa mẫu khách hàng với mức độ rủi ro tƣơng ứng Trang 45 Tất thông tin khách hàng cung cấp quan trọng nhƣng có thông tin quan trọng Mỗi thông tin khách hàng cung cấp ta gán cho chúng trọng số theo kinh nghiệm chuyên gia Bảng sau gồm thuộc tính dùng để đánh giá mức độ rủi ro: Số Tên thuộc tính Kiểu thuộc Các giá trị TT tính Tuổi ngƣời đƣợc bảo hiểm Số Nghề nghiệp ngƣời đƣợc bảo hiểm Định danh Loại nghề nghiệp ngƣời đƣợc Thứ tự bảo hiểm 160 1: An toàn 2:Bình thƣờng 3: Hơi nguy hiểm 4: Nguy hiểm Thu nhập ngƣời đƣợc bảo hiểm Số Quan hệ với ngƣời đƣợc bảo hiểm Định danh Bệnh ngƣời đƣợc bảo hiểm Định danh Tuổi ngƣời mua bảo hiểm Số Nghề nghiệp ngƣời mua bảo hiểm Định danh Loại nghề nghiệp ngƣời mua Thứ tự bảo hiểm 160 1: An toàn 2:Bình thƣờng 3: Hơi nguy hiểm 4: Nguy hiểm Trang 46 10 Thu nhập gia đình ngƣời mua BH Số 11 Bệnh ngƣời mua bảo hiểm Định danh 12 Tên bảo hiểm đăng kí mua Định danh 13 Số tiền mua bảo hiểm Số 14 Số năm mua bảo hiểm Số 560 (tùy bảo hiểm) Vì thuộc tính bệnh khách có nhiều bệnh khác nhau, chƣơng trình ứng dụng để đơn giản em chuyển thuộc tính bệnh thành cấp độ tình trạng sức khỏe từ đến 10 theo cấp độ nguy hiểm tăng dần 1: Hoàn toàn khỏe mạnh tăng dần đến 10 bệnh nghiêm trọng ung thƣ, tiểu đƣờng, bệnh tim mạch Với cấp độ 10 khách hàng khó có hội mua bảo hiểm đƣợc mua nhƣng với phí cao Do đó, thuộc tính bệnh đƣợc coi nhƣ thuộc tính có thứ tự chƣơng trình ứng dụng Tƣơng tự nhƣ với thuộc tính nghề nghiệp, em xin bỏ thuộc tính nghề nghiệp, thay vào xét theo mức độ nguy hiểm nghề nghiệp theo thuộc tính loại nghề nghiệp  Thông tin loại bảo hiểm Công ty Prudential có loại bảo hiểm sau: Phú_Thành tài, Phú _Khởi nghiệp, Phú_Tích lũy gia tăng, Phú_An khang thịnh kỳ, Phú_An khang tích lũy thịnh kỳ, Phú_An khang hƣu trí, Phú_An khang hƣu trí toàn diện, Phú_An khang trọn đời, Phú_Trƣờng an, Phú_Hoà nhân an, Phú_Thành gia Khi khách hàng mua sản phẩm bảo hiểm mua kèm sản phẩm bảo hiểm bổ sung: Trang 47 Phú_Thành tài: Trẻ em (ngƣời đƣợc bảo hiểm): - 12 tuổi Tuổi tối đa đáo hạn hợp đồng: Trẻ em (ngƣời đƣợc bảo hiểm): 24 tuổi Phú_Khởi nghiệp: Ngƣời đƣợc bảo hiểm: từ 0-17 tuổi.Tuổi đáo hạn hợp đồng: 28 tuổi Thời hạn hợp đồng: 11-28 năm Phú_Tích lũy gia tăng: Ngƣời đƣợc bảo hiểm: - 63 tuổi Tuổi tối đa đáo hạn hợp đồng: 75 tuổi Thời hạn hợp đồng: 12, 15 18 năm Phú_Trường an: Độ tuổi tham gia bảo hiểm: - 55 Tuổi đáo hạn hợp đồng: 99 Thời hạn hợp đồng: 44 đến 99 năm Phú_Hòa nhân an: Độ tuổi tham gia bảo hiểm: từ 15 - 60 tuổi.Tuổi tối đa đáo hạn hợp đồng: 65 tuổi Thời hạn hợp đồng: năm năm Phú_Thành gia: Ngƣời đƣợc bảo hiểm: 15 - 50 tuổi Tuổi tối đa đáo hạn hợp đồng: 65 tuổi Thời hạn hợp đồng: 15 năm Phú_An khang thịnh kỳ: Ngƣời đƣợc bảo hiểm: - 60 61 - 65 tuổi Tuổi tối đa đáo hạn hợp đồng: 75 tuổi Thời hạn hợp đồng: 10 đến 30 năm Phú_An khang tích lũy gia tăng: Ngƣời đƣợc bảo hiểm: 0-65 tuổi.Tuổi tối đa đáo hạn hợp đồng: 75 tuổi Thời hạn hợp đồng: đến 30 năm Trang 48 Phú_An khang hưu trí: Ngƣời đƣợc bảo hiểm: 20 - 55 tuổi Tuổi tối đa đáo hạn hợp đồng: 74 tuổi Thời hạn hợp đồng: 19 đến 39 năm Phú_An khang hưu trí toàn diện: Ngƣời đƣợc bảo hiểm: 20-50 tuổi Tuổi tối đa đáo hạn hợp đồng: 69 tuổi Thời hạn hợp đồng: 19 đến 39 năm Phú_An khang trọn đời: Ngƣời đƣợc bảo hiểm: 18-45 tuổi 18-50 tuổi (tùy thuộc độ tuổi chọn nghỉ hƣu) Tuổi tối đa đáo hạn hợp đồng: 70 75 tuổi Thời hạn hợp đồng: 10 đến 57 năm 3.2.3 Cài đặt thuật toán phân cụm nửa giám sát với liệu hỗn hợp Nếu nói Thuật toán K-Tâm cải tiến thuật toán K-Means áp dụng với kiểu liệu hỗn hợp thuật toán phân cụm liệu nửa giám sát SeededKmeans Constrained-Kmeans cải tiến thuật toán K-Means với việc khởi tạo K cụm ban đầu từ tập giống Thì cách phân cụm liệu áp dụng thuật toán phân cụm liệu nửa giám sát cho kiểu liệu hỗn hợp có nghĩa ta kết hợp thuật toán K-Tâm thuật toán phân cụm liệu nửa giám sát Về tiến hành phân cụm liệu nửa giám sát cho kiểu liệu hỗn hợp không khác so với việc phân cụm liệu nửa giám sát với kiểu liệu số Chỉ có điểm khác việc tính khoảng cách hai đối tƣợng ta phải áp dụng phƣơng pháp tính khoảng cách với kiểu liệu hỗn hợp thay kiểu liệu số thông thƣờng Các công thức tính khoảng cách:  Nếu Aj thuộc tính số dj đƣợc dj(x, y)= x-y Trang 49 (1)  Nếu Aj thuộc tính thứ tự DOM(Aj) = a j , ,a kj  với a 1j  a 2j   a kj , ta lấy hàm đơn điệu fj: DOM(Aj)→ [0,1] cho f j (a1j )  0; f j (a kj )  (hàm : f j (a ij )  i 1 ) k 1 Khi dj(x, y)= │fj(x)-fj(y) │  (2) 0 : x  y Nếu Aj liệu định danh dj(x,y)=   : x  y (3) Vậy khoảng cách d(x, y) hai đối tƣợng x = (x1, ,xn) y = (y1, ,yn) đƣợc tính công thức: d ( x, y )  n  j 1 j d 2j ( x j , y j ) (4) Trong dj(xj, yj) đƣợc tính theo công thức (1-3) j trọng số dƣơng cho chuyên gia Các giá trị trọng số phần thể nửa giám sát, trọng số giúp cho việc xác định thông tin quan trọng thông tin quan trọng qua trình phân cụm Giá trị trọng số góp phần quan trọng kết phân cụm thu đƣợc Trang 50 3.2.4 Giao diện chương trình  Một số giao diện cập nhập Trang 51  Phân cụm liệu  Trang 52   Kết phân cụm Trang 53 KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN Kết luận Data mining lĩnh vực nghiên mới, nhƣng đồng thời xu hƣớng nghiên cứu ngày phổ biến Do nhu cầu thực tế, với phát triển công nghệ máy tính, lĩnh vực kinh tế - xã hội lƣợng thông tin lƣu trữ ngày tăng, nhu cầu khai thác thông tin, tri thức ngày lớn Do việc đọc, nghiên cứu phát triển phƣơng pháp phân cụm liệu đóng vai trò quan trọng hoạt động khoa học công nghệ máy tính, nhƣ hoạt động thực tiễn Trong khóa luận em nêu lên nét đặc trƣng lĩnh vực Data Mining bao gồm vấn đề cần khám phá tri thức, hƣớng tiếp cận nghiên cứu tiêu biểu Phân cụm liệu phƣơng pháp khám phá tri thức quan trọng Data Mining có nhiều ý nghĩa khoa học nhƣ thực tiễn Trong đó, phân cụm liệu nửa giám sát hƣớng nghiên cứu đƣợc nhiều nhà khoa học quan tâm Bài khóa luận nêu đƣợc cách khái quát Data mining phƣơng pháp phân cụm không giám sát, từ phân tích chi tiết phân cụm nửa giám sát Trình bày hai thuật toán điển hình phân cụm nửa giám sát là: Seeded-KMeans, Constrained-Kmeans Tóm lại, phân cụm liệu nói chung phân cụm nửa giám sát nói riêng ngày đƣợc quan tâm nƣớc ta giới Ngày có nhiều thuật toán tƣ tƣởng phân cụm liệu đời Phân cụm liệu bƣớc chứng minh đƣợc tầm quan trọng nhƣ vai trò phát triển công nghệ máy tính nói riêng phát triển giới nói chung Trang 54 Định hướng phát triển Do đề tài mới, với thời gian nghiên cứu ngắn nên khóa luận nhiều hạn chế Em cố gắng hoàn thiện thời gian sau với hai thuật toán Seeded-KMeans, Constrained-KMeans Tìm hiểu phát triển nghiên cứu với thuật toán phân cụm liệu mới, tìm cách cải tiến cho số thuật toán phân cụm nửa giám sát Phát triển mở rộng ứng dụng cho ngành nông nghiệp việc dự đoán bệnh cho trồng vật nuôi Em mong muốn đƣa đề tài ứng dụng vào thực tiễn ngành nông nghiệp quê hƣơng em, góp phần nhỏ để phát triển quê hƣơng ngày giàu mạnh Trên hƣớng phát triển em cho khóa luận tốt nghiệp này, kính mong đƣợc quan tâm giúp đỡ quý thầy cô bạn Một lần nữa, em xin chân thành gửi lời cảm ơn giúp đỡ thầy cô giáo khoa Công nghệ thông tin, đặc biệt thầy giáo Trịnh Đình Thắng; toàn thể bạn lớp K34 Công nghệ thông tin giúp đỡ em trình làm khóa luận tốt nghiệp Trang 55 TÀI LIỆU THAM KHẢO [1] Nguyễn Trung Thông, Phương pháp phân cụm nửa giám sát, Nhà xuất giáo dục [2] Hà Quang Thụy (2009), Giáo trình khai phá liệu Web, Nhà xuất giáo dục Việt Nam [3] Kỹ sƣ Nguyễn Anh Trung - Trung tâm Công nghệ Thông tin, Ứng dụng kỹ thuật khai phá liệu vào lĩnh vực viễn thông [4] Hoàng Hải Xanh, Một số kỹ thuật phân cụm liệu Data Mining, Luận văn thạc sĩ, Trƣờng Đại học Công nghệ (ĐHQGHN), Hà Nội [5] Hoàng Xuân Huấn, Nguyễn Thị Xuân Hƣơng, Mở rộng thuật toán phân cụm K-Mean cho liệu hỗn hợp Một số vấn đề chọn lọc Công nghệ thông tin, Hải phòng 25-27 tháng năm 2005 [6] Nguyễn Thị Ngọc Mai, Microsoft Visual Basic 6.0 Lập Trình Cơ Sở Dữ Liệu, Nhà xuất Lao Động Và Xã Hội [7] Nhóm tác giả Elicom, Visual Basic 6.X , Nhà xuất Hà Nội Trang 56 [...]... đến phân cụm dữ liệu không giám sát 2.4.1 Phân cụm phân hoạch Phƣơng pháp phân cụm phân hoạch nhằm phân một tập dữ liệu có n phần tử cho trƣớc thành k nhóm dữ liệu, sao cho mỗi phần tử dữ liệu chỉ thuộc về một nhóm dữ liệu và mỗi nhóm dữ liệu có tối thiểu ít nhất một phần tử dữ liệu Các thuật toán phân hoạch dữ liệu có độ phức tạp rất lớn khi xác Trang 20 định nghiệm tối ƣu toàn cục cho vấn đề phân cụm. .. 2 PHÂN CỤM DỮ LIỆU VÀ CÁC THUẬT TOÁN ĐIỂN HÌNH 2.1 Khái niệm phân cụm dữ liệu Phân cụm dữ liệu là một kỹ thuật phát triển mạnh mẽ trong nhiều năm trở lại đây do các ứng dụng và lợi ích to lớn của nó đối với các lĩnh vực trong thực tế Ở một mức cơ bản nhất, ngƣời ta định nghĩa phân cụm dữ liệu nhƣ sau: Phân cụm dữ liệu là một kỹ thuật trong Data mining nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu. .. (similarity-based) 2.5.1 K-Means bán giám sát với một phần dữ liệu đã gán nhãn: Seeded-KMeans và Constrained-KMeans Trong phân cụm nửa giám sát, ngƣời ta sử dụng dữ liệu đƣợc dán nhãn hoặc hình thành nên các cụm giống nhằm khởi tạo cho một thuật toán phân cụm hoặc để sinh ra các ràng buộc nhằm dẫn dắt quá trình phân cụm Cho một tập dữ liệu ban đầu X   xi i 1 , gọi S  X là tập giống (tập N dữ liệu đã dán nhãn) trong... các cụm; End 2.5 Các phương pháp và thuật toán điển hình liên quan đến PCDL nửa giám sát Phân cụm nửa giám sát là phƣơng pháp sử dụng các thông tin bổ trợ để hƣớng dẫn cho quá trình phân cụm Các thông tin bổ trợ có thể đƣợc cho dƣới dạng tập các cặp ràng buộc hoặc một tập nhỏ một số dữ liệu đƣợc dán nhãn Hiện nay có hai hƣớng tiếp cận phƣơng pháp phân cụm nửa giám sát đó là: Phƣơng pháp dựa trên tìm... Top-down Hình 4: Phân cụm phân cấp Top-down và Bottom-up Sau đây em xin trình bày hai thuật toán điển hình của phƣơng pháp phân cụm phân cấp đó là: CURE và BIRCH 2.4.2.1 Thuật toán CURE Thuật toán CURE (Clustering Using REpresentatives) đƣợc đề xuất bởi Sudipto Guha, Rajeev Rastogi và Kyuseok Shim năm 1998, thuật toán sử dụng chiến lƣợc bottom-up của phƣơng pháp phân cụm phân cấp Thuật toán CURE sử dụng... cụm Bước 4: Phân phối lại các đối tƣợng dữ liệu bằng cách dùng các đối tƣợng trọng tâm cho cụm đã đƣợc khám phá từ bƣớc 3 Đây là một bƣớc tùy chọn để duyệt lại tập dữ liệu và gán nhãn lại cho các đối tƣợng dữ liệu tới các trọng tâm gần nhất Bƣớc này nhằm để gán nhãn cho các dữ liệu khởi tạo và loại bỏ các phần tử ngoại lai Trang 31 Bước 5: BIRCH chọn một thuật toán phân cụm bất kỳ (nhƣ thuật toán phân. .. thực hiện phân cụm cho tất các các nút lá  Đánh giá thuật toán BIRCH Ưu điểm: - BIRCH có tốc độ phân cụm nhanh - Áp dụng đối với tập dữ liệu lớn, các tập dữ liệu gia tăng theo thời gian Nhược điểm: - Chất lƣợng cụm đƣợc khám phá bởi BIRCH là không tốt Ngoài ra tham số ngƣỡng T ảnh hƣởng lớn đến kích thƣớc và tính tự nhiên của cụm 2.4.3 Thuật toán K-Tâm Thuật toán K-Tâm mở rộng từ thuật toán K-Means... trong tập dữ liệu lớn để từ đó cung cấp thông tin, tri thức cho việc ra quyết định Do đó, PCDL là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu, sao cho các đối tƣợng trong một cụm thì “tương tự” nhau và các đối tƣợng trong các cụm khác nhau thì “phi tương tự” với nhau Số cụm dữ liệu đƣợc xác định bằng kinh nghiệm hoặc bằng một số phƣơng pháp phân cụm 2.2 Các kiểu dữ liệu và độ... điểm của học máy  Học có giám sát: Là quá trình gán nhãn lớp cho các đối tƣợng trong tập dữ liệu dựa trên một bộ các đối tƣợng huấn luyện và các thông tin về nhãn lớp đã biết  Học không giám sát: Là quá trình phân chia một tập dữ liệu thành các lớp hay cụm dữ liệu tƣơng tự nhau mà chƣa biết trƣớc các thông tin về nhãn lớp  Học nửa giám sát: Là quá trình chia một tập dữ liệu thành các lớp con dựa... cho đến khi thu đƣợc một phân hoạch mong muốn, thoả mãn ràng buộc cho trƣớc Các thuật toán phân cụm phân hoạch cố gắng cải tiến tiêu chuẩn phân cụm, bằng cách tính các giá trị đo độ tƣơng tự giữa các đối tƣợng dữ liệu và sắp xếp các giá trị này, sau đó thuật toán lựa chọn một giá trị trong dãy sắp xếp sao cho hàm tiêu chuẩn đạt giá trị tối ƣu Có rất nhiều thuật toán phân cụm phân hoạch nhƣ: K-Means, ... thuật toán K-Tâm thuật toán phân cụm liệu nửa giám sát Về tiến hành phân cụm liệu nửa giám sát cho kiểu liệu hỗn hợp không khác so với việc phân cụm liệu nửa giám sát với kiểu liệu số Chỉ có điểm... 3.2.3 Cài đặt thuật toán phân cụm nửa giám sát với liệu hỗn hợp Nếu nói Thuật toán K-Tâm cải tiến thuật toán K-Means áp dụng với kiểu liệu hỗn hợp thuật toán phân cụm liệu nửa giám sát SeededKmeans... Thuật toán phân cụm liệu nửa giám sát đƣợc nghiên cứu đạt hiệu phân cụm tối ƣu phân cụm liệu không giám sát giúp xử lý liệu nhanh hơn, giảm thời gian, công sức để tìm kiếm, phát cụm, mẫu liệu

Ngày đăng: 08/11/2015, 20:08

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w