1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn sư phạm Thuật toán phân cụm dữ liệu nửa giám sát

56 37 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 56
Dung lượng 1,36 MB

Nội dung

TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN o0o ĐỖ THỊ PHƯƠNG THUẬT TOÁN PHÂN CỤM DỮ LIỆU NỬA GIÁM SÁT KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC CHUN NGÀNH: CƠNG NGHỆ THƠNG TIN Người hướng dẫn khoa học: TS TRỊNH ĐÌNH THẮNG Hà Nội - 2012 Trang Mục Lục LỜI CẢM ƠN LỜI CAM ĐOAN MỞ ĐẦU Chƣơng 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 10 1.1 Tổng quan khám phá tri thức sở liệu 10 1.2 Khái niệm khai phá liệu (Data mining) .12 1.3 Các phƣơng pháp khai phá liệu 12 1.3.1 Các nhiệm vụ khai phá liệu 12 1.3.2 Phân loại 13 1.4 Ứng dụng khai phá liệu 14 Chƣơng 2: PHÂN CỤM DỮ LIỆU VÀ CÁC THUẬT TỐN ĐIỂN HÌNH 15 2.1 Khái niệm phân cụm liệu .15 2.2 Các kiểu liệu độ đo tƣơng tự 15 2.2.1 Phân loại kiểu dự liệu dựa kích thƣớc miền 15 2.2.2 Phân loại kiểu liệu dựa hệ đo 15 2.2.3 Phép đo độ tƣơng tự, phi tƣơng tự 16 2.3 Các ứng dụng phân cụm liệu 20 2.4 Các phƣơng pháp thuật toán điển hình liên quan đến phân cụm liệu khơng giám sát 20 2.4.1 Phân cụm phân hoạch 20 2.4.2 Phân cụm phân cấp 26 Trang 2.4.3 Thuật toán K-Tâm 32 2.5 Các phƣơng pháp thuật tốn điển hình liên quan đến PCDL nửa giám sát .34 2.5.1 K-Means bán giám sát với phần liệu gán nhãn: SeededKMeans Constrained-KMeans 35 2.5.2 K-Means bán giám sát sở ràng buộc: COP-Kmeans 38 Chƣơng 3: XÂY DỰNG ỨNG DỤNG 40 3.1 Giới thiệu ngôn ngữ Visual Basic 6.0 .40 3.1.1 Cấu trúc đề án (Project) 40 3.1.2 Một số điều khiển 41 3.1.3 Thuộc tính, phƣơng thức kiện 41 3.1.4 Mơ hình truy cập sở liệu ADO 42 3.1.5 Hệ quản trị Cơ sở liệu ACCESS 43 3.2 Xây dựng ứng dụng 44 3.2.1 Giới thiệu 44 3.2.2 Bài toán 45 3.2.3 Cài đặt thuật toán phân cụm nửa giám sát với liệu hỗn hợp 49 3.2.4 Giao diện chƣơng trình 51 KẾT LUẬN VÀ ĐỊNH HƢỚNG PHÁT TRIỂN 54 Kết luận 54 Định hƣớng phát triển 55 TÀI LIỆU THAM KHẢO 56 Trang MỞ ĐẦU Lý chọn đề tài Trong vài thập niên gần đây, với thay đổi phát triển không ngừng ngành Cơng nghệ thơng tin nói chung ngành công nghệ phần cứng, phần mềm, truyền thông hệ thống liệu phục vụ lĩnh vực kinh tế - xã hội nói riêng việc thu thập thông tin nhƣ nhu cầu lƣu trữ thông tin ngày lớn Việc tin học hoá cách ạt nhanh chóng hoạt động sản xuất, kinh doanh nhƣ nhiều lĩnh vực hoạt động khác tạo cho lƣợng liệu lƣu trữ khổng lồ Hàng triệu CSDL đƣợc sử dụng hoạt động sản xuất, kinh doanh, quản lí; đó, có nhiều CSDL cực lớn cỡ Gigabyte, chí Terabyte Trong tình hình đó, kĩ thuật khai phá liệu trở thành lĩnh vực thời Công nghệ thông tin Một vấn đề đƣợc đặt phải trích chọn đƣợc thơng tin có ý nghĩa từ tập liệu lớn, để từ giải đƣợc yêu cầu thực tế nhƣ trợ giúp định, dự đoán,… Khai phá liệu (Data mining) đời nhằm giải yêu cầu Q trình khai phá liệu đƣợc định nghĩa là: Q trình trích xuất thơng tin có giá trị tiềm ẩn bên lượng lớn liệu lưu trữ CSDL, kho liệu… Hiện nay, thuật ngữ khai phá liệu, ngƣời ta cịn dùng số thuật ngữ khác có ý nghĩa tƣơng tự nhƣ: khai phá tri thức từ sở liệu (knowlegde mining from databases), trích lọc liệu (knowlegde extraction), khảo cổ liệu (data archaeology), nạo vét liệu (data dredging) Nhiều ngƣời coi khai phá liệu thuật ngữ thông dụng khác khám phá tri thức sở liệu (Knowlegde Discovery in Databases – KDD) nhƣ Tuy nhiên Trang thực tế, khai phá liệu bƣớc thiết yếu trình khám phá tri thức sở liệu Ngay từ ngày đầu xuất hiện, Data mining trở thành xu hƣớng nghiên cứu phổ biến lĩnh vực học máy tính cơng nghệ tri thức Data mining có nhiều hƣớng quan trọng hƣớng phân cụm liệu (Data Clustering) Phân cụm liệu đƣợc hiểu trình tìm kiếm để phân cụm liệu, mẫu liệu từ tập sở liệu lớn Phân cụm liệu phƣơng pháp học không giám sát Trong năm trở lại đây, phƣơng pháp phân cụm liệu khơng giám sát cịn nhiều nhƣợc điểm chƣa đáp ứng đƣợc nhu cầu sử dụng thông tin Để giải vấn đề đó, hƣớng phƣơng pháp phân cụm liệu nửa giám sát, đời dựa sở học không giám sát học có giám sát Dù phƣơng pháp phân cụm chƣa hồn thiện nhƣng phần khắc phục đƣợc hạn chế phát huy ƣu điểm phƣơng pháp phân cụm không giám sát Do đó, em chọn đề tài: “Thuật tốn phân cụm liệu nửa giám sát” để trình bày khóa luận tốt nghiệp Mục đích nghiên cứu Trong khóa luận em xin trình bày theo mục đích sau:  Tìm hiểu qua trình khám phá tri thức, khai phá liệu  Tìm hiểu phân cụm liệu số thuật tốn phân cụm liệu khơng giám sát  Trên tảng lý thuyết khai phá liệu số thuật tốn phân cụm khơng giám sát tiến tới sâu vào tìm hiểu, phân tích, đánh giá Trang số thuật tốn phƣơng pháp phân cụm liệu nửa giám sát (Thuật tốn Seeded-KMeans Constrained-KMeans)  Xây dựng chƣơng trình demo, mô hoạt động phƣơng pháp phân cụm liệu nửa giám sát Phạm vi nghiên cứu Data mining lĩnh vực thu hút đƣợc nhiều quan tâm nhà nghiên cứu, với nhiều ngành ứng dụng Một hƣớng phân cụm liệu, với phƣơng pháp phân cụm khác Ở khóa luận này, em xin trình bày số phƣơng pháp phân cụm liệu nửa giám sát với thuật toán tiêu biểu nhƣ thuật toán Seeded-Kmeans Constrained-Kmeans Ý nghĩa khoa học thực tiễn Nếu đề tài “Thuật toán phân cụm liệu nửa giám sát” đƣợc nghiên cứu đạt hiệu phân cụm tối ƣu phân cụm liệu không giám sát giúp xử lý liệu nhanh hơn, giảm thời gian, cơng sức để tìm kiếm, phát cụm, mẫu liệu tập liệu lớn để cung cấp thông tin trợ giúp việc định, dự đoán Phương pháp nghiên cứu a Phương pháp nghiên cứu lý luận Nghiên cứu qua việc đọc sách, báo tài liệu liên quan nhằm xây dựng sở lý thuyết đề tài biện pháp cần thiết để giải vấn đề đề tài b Phương pháp chuyên gia Tham khảo ý kiến chuyên gia để thiết kế chƣơng trình phù hợp với yêu cầu thực tiễn Nội dung xử lý nhanh đáp ứng đƣợc yêu cầu ngày cao ngƣời sử dụng Trang c Phương pháp thực nghiệm Thông qua quan sát thực tế, yêu cầu sở, lý luận đƣợc nghiên cứu kết đạt đƣợc qua phƣơng pháp Cấu trúc khóa luận Ngoài phần mở đầu, kết luận định hƣớng phát triển luận văn em bao gồm ba chƣơng: Chƣơng 1: Tổng quan khai phá liệu Chƣơng 2: Phân cụm liệu thuật toán điển hình Chƣơng 3: Xây dựng ứng dụng Trang DANH SÁCH CÁC HÌNH Hình 1: Q trình khám phá tri thức CSDL Hình 2: Các thiết lập để xác định danh giới cụm ban đầu Hình 3:Tính tốn trọng tâm cụm Hình 4: Phân cụm phân cấp Top-down Bottom-up Hình 5: Các cụm liệu đƣợc khám phá CURE Hình 6: Cấu trúc CF Trang DANH SÁCH CÁC CỤM TỪ VIẾT TẮT STT Viết tắt Cụm từ tiếng Anh Cụm từ tiếng Việt CNTT Information Technology Công nghệ thông tin CSDL Database Cơ sở liệu KDD Knowledge Discovery in Khám phá tri thức Database sở liệu KPDL Data mining Khai phá liệu PCDL Data Clustering Phân cụm liệu MTĐT Electronic Computer Máy tính điện tử Trang Chương TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Tổng quan khám phá tri thức sở liệu Các yêu cầu thông tin loại hoạt động nhƣ công tác quản lý, hoạt động kinh doanh, phát triển sản xuất dịch vụ, đặc biệt việc định giải vấn đề ngày đòi hỏi chất lƣợng cao Ngƣời làm định khơng cần liệu mà cịn cần có thêm nhiều hiểu biết, nhiều tri thức để hỗ trợ cho việc định Để giải vấn đề kỹ thuật khám phá tri thức sở liệu (Knowledge Discovery in Databases- KDD) đời Khám phá tri thức sở liệu lĩnh vực liên quan đến ngành nhƣ: xác suất thống kê, học máy, trực quan hóa liệu, tính tốn song song,… Q trình KDD chia thành bƣớc thực nhƣ sau: Trích chọn liệu: Xác định mục đích quy trình khai phá liệu dựa quan điểm ngƣời dùng, thu thập chuẩn bị liệu để khai phá Tiền xử lý liệu: Nhằm mục đích loại bỏ trùng lặp liệu, cắt tỉa thơng tin gây nhiễu, tập hợp thơng tin cần thiết cho mơ hình hố, chọn phƣơng pháp xử lý thông tin bị khiếm khuyết Chuyển đổi liệu: Thực thu gọn liệu, phép ánh xạ liệu, tìm đặc trƣng phù hợp để mô tả khai phá liệu Khai phá liệu: Chọn nhiệm vụ khai phá liệu nhƣ phân lớp, gom cụm, hồi qui, kết hợp… Từ nhiệm vụ chọn, sử dụng thuật toán Trang 10  Phƣơng thức: Là đoạn chƣơng trình chứa điều khiển, cho điều khiển biết cách thức để thực cơng việc Mỗi điều khiển có phƣơng thức khác  Sự kiện: Sự kiện phản ứng đối tƣợng Mỗi điều khiển có kiện khác nhau, nhƣng số kiện thông dụng với hầu hết điều khiển Các kiện xảy thƣờng kết hành động nhƣ di chuột, nhấn nút bàn phím gõ vào hộp thoại văn 3.1.4 Mơ hình truy cập sở liệu ADO Mơ hình dùng để truy cập xử lý sở liệu từ xa thông qua mạng nhờ kết nối ODBC  ODBC: (Open Database Connectivity – Khả tương kết sở mở) Là biện pháp độc lập ứng dụng để kết nối nhiều sở liệu miễn có trình điều khiển đắn ODBC cho phép kết nối với sở liệu từ xa  Mơ hình ADO (Active Data Object) Connection Command Parameter RecordSet Field Error Trang 42  Điều khiển ADODC (ADO Data Control) Project Component Control Microsoft ADO Data Control 6.0 (OLEDB) - Một số thuộc tính: Connection String = “DSN = Tên kết nối ODBC” Command Type (xác định kiểu câu lệnh): AdCmdTable, adCmdText Cursor Type (kiểu trỏ): AdopenDynamic, adopenStatic Lock Type: AdLockBatch Optimistic, adLock Optimistic Mode: AdMode Read, adMode ReadWrite, adMode Unknow RecordSource: Xác định bảng liệu cần truy cập  Đối tượng ADODB Tham chiếu đến thƣ viện: Project References Microsoft Active X Data Object 2.0 Library Khai báo thiết lập: Dim cn as ADODB.Connection, rs as ADODB.RecordSet Set cn = New ADODB.Connection cn.Open “Tên kết nối ODBC” Set rs = cn.excute(“tên bảng | Nội dung câu lệnh Select”) 3.1.5 Hệ quản trị Cơ sở liệu ACCESS Access hệ thống quản trị CSDL, lƣu trữ tìm kiếm liệu, biểu diễn thơng tin tự động làm nhiều nhiệm vụ khác Với việc sử dụng Access, phát triển ứng dụng cách nhanh chóng mơi trƣờng Windows Microsoft Trang 43 Access cung cấp tất liệu cần thiết cho trƣờng, bao gồm kiểu văn (Text), kiểu số (Number), kiểu tiền tệ (Currency), kiểu ngày/tháng (date/time), kiểu có/khơng (yes/no),… Việc xử lý quan hệ Access đáp ứng đƣợc đòi hỏi với kiến trúc mềm dẻo Nó sử dụng nhƣ quan hệ quản lý CSDL độc lập 3.2 Xây dựng ứng dụng 3.2.1 Giới thiệu Trong vài năm gần hoạt động kinh doanh bảo hiểm Việt Nam có phát triển vƣợt bậc Thị trƣờng bảo hiểm nƣớc ta đƣợc đa dạng hóa, sức ép mở cửa thị trƣờng ngày lớn Các doanh nghiệp muốn tồn phát triển buộc phải mở rộng thị phần, phát triển sản phẩm bảo hiểm Kinh doanh bảo hiểm nhân thọ thân có tính rủi ro cao rủi ro bất ngờ xảy đến với ngƣời mua bảo hiểm, ngồi cịn có cá nhân cố tình trục lợi từ việc bảo hiểm nhƣ khai báo không trung thực hay cố ý tạo kiện bảo hiểm Việc xác định tiềm từ thông tin khách hàng cung cấp hợp đồng bảo hiểm tính xác thực thơng tin cơng việc quan trọng Chỉ chuyên gia ngƣời có kinh nghiệm đánh giá đƣợc nhóm khách hàng tiềm Vấn đề đặt cần đƣa mẫu để trợ giúp nhân viên kinh nghiệm xác định mức độ rủi ro cho hợp đồng bảo hiểm Các mẫu bƣớc đầu phân loại mức độ rủi ro cho hợp đồng bảo hiểm Việc xác định tính đắn mẫu cần có chuyên gia đánh giá lại Tuy nhiên làm giảm nhiều cơng việc cho chun gia Bên cạnh cịn giúp nhân viên tƣ vấn khách hàng hƣớng khách hàng đến sản phẩm bảo hiểm phù hợp với điều kiện họ Việc đánh giá rủi ro cho hợp đồng Trang 44 mua bảo hiểm cịn góp phần quan trọng việc cơng ty có chấp nhận cho khách hàng mua bảo hiểm mà họ yêu cầu không Rủi ro hợp đồng bảo hiểm biến cố xảy bất thƣờng với hậu thiệt hại mang lại kết không nhƣ dự tính thời gian khách hàng mua bảo hiểm Khi xảy rủi ro, công ty bảo hiểm xác định mức chi trả cho khách hàng theo quy định nội dung hợp đồng Rủi ro hợp đồng bảo hiểm có nhiều mức, để xác định mức độ rủi ro hợp đồng bảo hiểm phải dựa nhiều thông tin: Độ tuổi thu nhập, nghề nghiệp, tình trạng sức khỏe, thơng tin ngƣời thân ngƣời tham gia bảo hiểm nhƣ có bệnh khơng, thơng tin quan trọng có số bệnh nghiêm có tính di truyền khả mắc bệnh ngƣời tham gia bảo hiểm xảy 3.2.2 Bài toán Input: Tập n hồ sơ mua bảo hiểm, gồm thông tin khách hàng mua đƣợc bảo hiểm thông tin việc mua bảo hiểm khách hàng Các thông tin đƣợc coi tập liệu hỗn hợp có thuộc tính số thuộc tính thứ tự, thuộc tính định danh K mức độ rủi ro từ thông tin khách hàng cung cấp theo ý kiến chuyên gia có kinh nghiệm Output: Đƣa k nhóm khách hàng có giống lớn dựa theo đánh giá chuyên gia để đƣa mẫu khách hàng với mức độ rủi ro tƣơng ứng Trang 45 Tất thông tin khách hàng cung cấp quan trọng nhƣng có thơng tin quan trọng Mỗi thông tin khách hàng cung cấp ta gán cho chúng trọng số theo kinh nghiệm chuyên gia Bảng sau gồm thuộc tính dùng để đánh giá mức độ rủi ro: Số Tên thuộc tính Kiểu thuộc Các giá trị TT tính Tuổi ngƣời đƣợc bảo hiểm Số Nghề nghiệp ngƣời đƣợc bảo hiểm Định danh Loại nghề nghiệp ngƣời đƣợc Thứ tự bảo hiểm 160 1: An tồn 2:Bình thƣờng 3: Hơi nguy hiểm 4: Nguy hiểm Thu nhập ngƣời đƣợc bảo hiểm Số Quan hệ với ngƣời đƣợc bảo hiểm Định danh Bệnh ngƣời đƣợc bảo hiểm Định danh Tuổi ngƣời mua bảo hiểm Số Nghề nghiệp ngƣời mua bảo hiểm Định danh Loại nghề nghiệp ngƣời mua Thứ tự bảo hiểm 160 1: An toàn 2:Bình thƣờng 3: Hơi nguy hiểm 4: Nguy hiểm Trang 46 10 Thu nhập gia đình ngƣời mua BH Số 11 Bệnh ngƣời mua bảo hiểm Định danh 12 Tên bảo hiểm đăng kí mua Định danh 13 Số tiền mua bảo hiểm Số 14 Số năm mua bảo hiểm Số 560 (tùy bảo hiểm) Vì thuộc tính bệnh khách có nhiều bệnh khác nhau, chƣơng trình ứng dụng để đơn giản em chuyển thuộc tính bệnh thành cấp độ tình trạng sức khỏe từ đến 10 theo cấp độ nguy hiểm tăng dần 1: Hoàn toàn khỏe mạnh tăng dần đến 10 bệnh nghiêm trọng ung thƣ, tiểu đƣờng, bệnh tim mạch Với cấp độ 10 khách hàng khó có hội mua bảo hiểm đƣợc mua nhƣng với phí cao Do đó, thuộc tính bệnh đƣợc coi nhƣ thuộc tính có thứ tự chƣơng trình ứng dụng Tƣơng tự nhƣ với thuộc tính nghề nghiệp, em xin bỏ thuộc tính nghề nghiệp, thay vào xét theo mức độ nguy hiểm nghề nghiệp theo thuộc tính loại nghề nghiệp  Thơng tin loại bảo hiểm Cơng ty Prudential có loại bảo hiểm sau: Phú_Thành tài, Phú _Khởi nghiệp, Phú_Tích lũy gia tăng, Phú_An khang thịnh kỳ, Phú_An khang tích lũy thịnh kỳ, Phú_An khang hƣu trí, Phú_An khang hƣu trí tồn diện, Phú_An khang trọn đời, Phú_Trƣờng an, Phú_Hoà nhân an, Phú_Thành gia Khi khách hàng mua sản phẩm bảo hiểm cịn mua kèm sản phẩm bảo hiểm bổ sung: Trang 47 Phú_Thành tài: Trẻ em (ngƣời đƣợc bảo hiểm): - 12 tuổi Tuổi tối đa đáo hạn hợp đồng: Trẻ em (ngƣời đƣợc bảo hiểm): 24 tuổi Phú_Khởi nghiệp: Ngƣời đƣợc bảo hiểm: từ 0-17 tuổi.Tuổi đáo hạn hợp đồng: 28 tuổi Thời hạn hợp đồng: 11-28 năm Phú_Tích lũy gia tăng: Ngƣời đƣợc bảo hiểm: - 63 tuổi Tuổi tối đa đáo hạn hợp đồng: 75 tuổi Thời hạn hợp đồng: 12, 15 18 năm Phú_Trường an: Độ tuổi tham gia bảo hiểm: - 55 Tuổi đáo hạn hợp đồng: 99 Thời hạn hợp đồng: 44 đến 99 năm Phú_Hòa nhân an: Độ tuổi tham gia bảo hiểm: từ 15 - 60 tuổi.Tuổi tối đa đáo hạn hợp đồng: 65 tuổi Thời hạn hợp đồng: năm năm Phú_Thành gia: Ngƣời đƣợc bảo hiểm: 15 - 50 tuổi Tuổi tối đa đáo hạn hợp đồng: 65 tuổi Thời hạn hợp đồng: 15 năm Phú_An khang thịnh kỳ: Ngƣời đƣợc bảo hiểm: - 60 61 - 65 tuổi Tuổi tối đa đáo hạn hợp đồng: 75 tuổi Thời hạn hợp đồng: 10 đến 30 năm Phú_An khang tích lũy gia tăng: Ngƣời đƣợc bảo hiểm: 0-65 tuổi.Tuổi tối đa đáo hạn hợp đồng: 75 tuổi Thời hạn hợp đồng: đến 30 năm Trang 48 Phú_An khang hưu trí: Ngƣời đƣợc bảo hiểm: 20 - 55 tuổi Tuổi tối đa đáo hạn hợp đồng: 74 tuổi Thời hạn hợp đồng: 19 đến 39 năm Phú_An khang hưu trí tồn diện: Ngƣời đƣợc bảo hiểm: 20-50 tuổi Tuổi tối đa đáo hạn hợp đồng: 69 tuổi Thời hạn hợp đồng: 19 đến 39 năm Phú_An khang trọn đời: Ngƣời đƣợc bảo hiểm: 18-45 tuổi 18-50 tuổi (tùy thuộc độ tuổi chọn nghỉ hƣu) Tuổi tối đa đáo hạn hợp đồng: 70 75 tuổi Thời hạn hợp đồng: 10 đến 57 năm 3.2.3 Cài đặt thuật toán phân cụm nửa giám sát với liệu hỗn hợp Nếu nói Thuật tốn K-Tâm cải tiến thuật toán K-Means áp dụng với kiểu liệu hỗn hợp thuật toán phân cụm liệu nửa giám sát SeededKmeans Constrained-Kmeans cải tiến thuật toán K-Means với việc khởi tạo K cụm ban đầu từ tập giống Thì cách phân cụm liệu áp dụng thuật toán phân cụm liệu nửa giám sát cho kiểu liệu hỗn hợp có nghĩa ta kết hợp thuật toán K-Tâm thuật toán phân cụm liệu nửa giám sát Về tiến hành phân cụm liệu nửa giám sát cho kiểu liệu hỗn hợp khơng khác so với việc phân cụm liệu nửa giám sát với kiểu liệu số Chỉ có điểm khác việc tính khoảng cách hai đối tƣợng ta phải áp dụng phƣơng pháp tính khoảng cách với kiểu liệu hỗn hợp thay kiểu liệu số thơng thƣờng Các cơng thức tính khoảng cách:  Nếu Aj thuộc tính số dj đƣợc dj(x, y)= x-y Trang 49 (1)  Nếu Aj thuộc tính thứ tự DOM(Aj) = a j , ,a kj  với a 1j  a 2j   a kj , ta lấy hàm đơn điệu fj: DOM(Aj)→ [0,1] cho f j (a1j )  0; f j (a kj )  (hàm : f j (a ij )  i 1 ) k 1 Khi dj(x, y)= │fj(x)-fj(y) │  (2) 0 : x  y Nếu Aj liệu định danh dj(x,y)=   : x  y (3) Vậy khoảng cách d(x, y) hai đối tƣợng x = (x1, ,xn) y = (y1, ,yn) đƣợc tính cơng thức: d ( x, y )  n  j 1 j d 2j ( x j , y j ) (4) Trong dj(xj, yj) đƣợc tính theo cơng thức (1-3) j trọng số dƣơng cho chuyên gia Các giá trị trọng số phần thể nửa giám sát, trọng số giúp cho việc xác định thông tin quan trọng thông tin quan trọng qua trình phân cụm Giá trị trọng số góp phần quan trọng kết phân cụm thu đƣợc Trang 50 3.2.4 Giao diện chương trình  Một số giao diện cập nhập Trang 51  Phân cụm liệu  Trang 52   Kết phân cụm Trang 53 KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN Kết luận Data mining lĩnh vực nghiên mới, nhƣng đồng thời xu hƣớng nghiên cứu ngày phổ biến Do nhu cầu thực tế, với phát triển công nghệ máy tính, lĩnh vực kinh tế - xã hội lƣợng thơng tin lƣu trữ ngày tăng, nhu cầu khai thác thông tin, tri thức ngày lớn Do việc đọc, nghiên cứu phát triển phƣơng pháp phân cụm liệu đóng vai trò quan trọng hoạt động khoa học cơng nghệ máy tính, nhƣ hoạt động thực tiễn Trong khóa luận em nêu lên nét đặc trƣng lĩnh vực Data Mining bao gồm vấn đề cần khám phá tri thức, hƣớng tiếp cận nghiên cứu tiêu biểu Phân cụm liệu phƣơng pháp khám phá tri thức quan trọng Data Mining có nhiều ý nghĩa khoa học nhƣ thực tiễn Trong đó, phân cụm liệu nửa giám sát hƣớng nghiên cứu đƣợc nhiều nhà khoa học quan tâm Bài khóa luận nêu đƣợc cách khái quát Data mining phƣơng pháp phân cụm không giám sát, từ phân tích chi tiết phân cụm nửa giám sát Trình bày hai thuật tốn điển hình phân cụm nửa giám sát là: Seeded-KMeans, Constrained-Kmeans Tóm lại, phân cụm liệu nói chung phân cụm nửa giám sát nói riêng ngày đƣợc quan tâm nƣớc ta giới Ngày có nhiều thuật tốn tƣ tƣởng phân cụm liệu đời Phân cụm liệu bƣớc chứng minh đƣợc tầm quan trọng nhƣ vai trị phát triển cơng nghệ máy tính nói riêng phát triển giới nói chung Trang 54 Định hướng phát triển Do đề tài mới, với thời gian nghiên cứu cịn ngắn nên khóa luận cịn nhiều hạn chế Em cố gắng hoàn thiện thời gian sau với hai thuật toán Seeded-KMeans, Constrained-KMeans Tìm hiểu phát triển nghiên cứu với thuật tốn phân cụm liệu mới, tìm cách cải tiến cho số thuật toán phân cụm nửa giám sát Phát triển mở rộng ứng dụng cho ngành nơng nghiệp việc dự đốn bệnh cho trồng vật nuôi Em mong muốn đƣa đề tài ứng dụng vào thực tiễn ngành nông nghiệp quê hƣơng em, góp phần nhỏ để phát triển quê hƣơng ngày giàu mạnh Trên hƣớng phát triển em cho khóa luận tốt nghiệp này, kính mong đƣợc quan tâm giúp đỡ quý thầy cô bạn Một lần nữa, em xin chân thành gửi lời cảm ơn giúp đỡ thầy cô giáo khoa Công nghệ thông tin, đặc biệt thầy giáo Trịnh Đình Thắng; tồn thể bạn lớp K34 Cơng nghệ thơng tin giúp đỡ em q trình làm khóa luận tốt nghiệp Trang 55 TÀI LIỆU THAM KHẢO [1] Nguyễn Trung Thông, Phương pháp phân cụm nửa giám sát, Nhà xuất giáo dục [2] Hà Quang Thụy (2009), Giáo trình khai phá liệu Web, Nhà xuất giáo dục Việt Nam [3] Kỹ sƣ Nguyễn Anh Trung - Trung tâm Công nghệ Thông tin, Ứng dụng kỹ thuật khai phá liệu vào lĩnh vực viễn thơng [4] Hồng Hải Xanh, Một số kỹ thuật phân cụm liệu Data Mining, Luận văn thạc sĩ, Trƣờng Đại học Cơng nghệ (ĐHQGHN), Hà Nội [5] Hồng Xuân Huấn, Nguyễn Thị Xuân Hƣơng, Mở rộng thuật toán phân cụm K-Mean cho liệu hỗn hợp Một số vấn đề chọn lọc Công nghệ thông tin, Hải phòng 25-27 tháng năm 2005 [6] Nguyễn Thị Ngọc Mai, Microsoft Visual Basic 6.0 Lập Trình Cơ Sở Dữ Liệu, Nhà xuất Lao Động Và Xã Hội [7] Nhóm tác giả Elicom, Visual Basic 6.X , Nhà xuất Hà Nội Trang 56 ... thuật tốn K-Tâm thuật toán phân cụm liệu nửa giám sát Về tiến hành phân cụm liệu nửa giám sát cho kiểu liệu hỗn hợp khơng khác so với việc phân cụm liệu nửa giám sát với kiểu liệu số Chỉ có điểm... 3.2.3 Cài đặt thuật toán phân cụm nửa giám sát với liệu hỗn hợp Nếu nói Thuật tốn K-Tâm cải tiến thuật toán K-Means áp dụng với kiểu liệu hỗn hợp thuật toán phân cụm liệu nửa giám sát SeededKmeans... ? ?Thuật toán phân cụm liệu nửa giám sát? ?? đƣợc nghiên cứu đạt hiệu phân cụm tối ƣu phân cụm liệu không giám sát giúp xử lý liệu nhanh hơn, giảm thời gian, công sức để tìm kiếm, phát cụm, mẫu liệu

Ngày đăng: 26/07/2020, 20:46

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w