Khai phá dữ liệu với hệ thông tin địa lý và ứng dụng

1 MỞ ĐẦU Hệ thống thông tin địa lý (GIS) ứng dụng ngày phổ biến, không lĩnh vực giám sát, quản lý, lập kế hoạch tài nguyên môi trường mà nhiều toán kinh tế xã hội khác Kết là, khối lượng liệu liên quan đến địa lý, gọi liệu không gian thu thập tăng lên nhanh chóng Một câu hỏi đặt làm để tận dụng, khai thác, khám phá, phát tri thức hữu ích từ kho liệu này? Khai phá liệu áp dụng kỹ thuật công cụ để trích rút tri thức có ích từ nguồn liệu lĩnh vực mà ta quan tâm Khai phá liệu với GIS hay gọi khai phá liệu không gian, mở rộng khai phá liệu CSDL quan hệ, xét thêm thuộc tính liệu không gian phản ánh hệ thông tin địa lý, ví dụ khoảng cách (gần kề hay cách xa), điều kiện môi trường tự nhiên hay kinh tế xã hội (rừng núi, đồng bằng, ven biển, đô thị, v.v…) Là giáo viên tỉnh Nam Định, em tích lũy nhiều liệu thực tế xếp hạng trường THPT tỉnh qua kết thi tốt nghiệp, kết thi đại học kết thi học sinh giỏi, Trong đó, nhiều trường có thành tích cao tồn không trường có kết học tập học sinh thấp Nguyên nhân dẫn đến kết đó? Liệu điều kiện nơi cư trú có ảnh hưởng đến kết học tập học sinh? Lượng thông tin kết học tập điều kiện cư trú địa phương nhiều chủ yếu quản lý dạng bảng hay văn Rất khó để thể mối liên hệ điều kiện cư trú với kết học tập học sinh theo hướng khai phá liệu thông thường Ứng dụng khai phá liệu với hệ thông tin địa lý cho phép nghiên cứu vấn đề, trả lời câu hỏi có liên quan trực tiếp, ví dụ “ô nhiễm môi trường sống ảnh hưởng đến sức khỏe cộng đồng” câu hỏi trực tiếp hơn, ví dụ “nơi cư trú học sinh (ở đô thị lớn, nông thôn, vùng núi,…) có ảnh hưởng đến kết học tập môn học định (về khoa học tự nhiên, khoa học xã hội, ngoại ngữ, ) đến số học sinh bỏ học, đến trung bình kết học tập, đến số học sinh đỗ đại học, số học sinh giỏi? ” Luận văn đặt vấn đề ứng dụng khai phá liệu không gian với hệ thông tin địa lý để tìm hiểumối liên hệ nơi cư trú kết học tập với mục tiêu bước đầu thử nghiệm áp dụng số kỹ thuật khai phá liệu thường dùng với GIS vào toán thực tế Luận văn cấu trúc gồm chương: Chương I: Trong chương tìm hiểu khái quát khai phá liệu khai phá liệu không gian Chương II: Trong chương tìm hiểu số thuật toán phân cụm kỹ thuật phân cụm thuật toán CLARANS Chương III: Trong chương tiến hành cài đặt ứng dụng thuật toán CLARANS để phân cụm liệu không gian, tìm hiểu mối liên hệ điều kiện cư trú với kết học tập học sinh Luận văn hoàn thành hướng dẫn tận tình PGS.TS Nguyễn Đình Hóa, em xin bày tỏ lòng biết ơn chân thành thầy Em xin chân thành cảm ơn thầy, cô giáo Viện Công nghệ thông tin, Trường Đại học Công nghệ thông tin Truyền thông - Đại học Thái Nguyên tham gia giảng dạy, giúp đỡ em suốt qúa trình học tập nâng cao trình độ kiến thức Tuy nhiên điều kiện thời gian khả có hạn nên luận văn tránh khỏi thiếu sót Em kính mong thầy cô giáo bạn đóng góp ý kiến để đề tài hoàn thiện CHƯƠNG I: KHAI PHÁ DỮ LIỆU VỚI HỆ THÔNG TIN ĐỊA LÝ 1.1 Khai phá liệu 1.1.1 Khai phá liệu ? 1.1.1.1 Khái niệm khám phá tri thức khai phá liệu Khám phá tri thức sở liệu (Knowledge Discovery in Database-KDD) qui trình nhận biết mẫu mô hình liệu với tính năng: hợp thức, mới, khả ích, hiểu Khai phá liệu (Data Mining-DM) l khái niệm đời vào năm cuối thập kỷ 1980 Cụm từ “khai phá liệu” bao hàm loạt kỹ thuật nhằm phát thông tin có giá trị tiềm ẩn tập liệu lớn Thuật ngữ thực tên nhầm lẫn Hãy nhớ việc khai thác vàng từ đá cát gọi khai thác vàng khai thác đá, cát Như vậy, khai phá liệu (KPDL) nên đặt tên thích hợp “khai thác kiến thức từ liệu” [5].Tuy nhiên, “khai phá liệu” dùng cách phổ biến Hình 1.1 minh họa đơn giản trực quan cho khái niệm Hình 1.1: Khai phá liệu tập liệu [5] Khái niệm KDD KPDL nhà khoa học xem tương đương Tuy nhưng, phân chia cách rành mạch chi tiết KPDL bước trình KDD Khám phá tri thức CSDL lĩnh vực liên quan đến nhiều ngành như: Tổ chức liệu, xác suất, thống kê, lý thuyết thông tin, học máy, CSDL, thuật toán, trí tuệ nhân tạo, tính toán song song hiệu cao Các kỹ thuật áp dụng khám phá tri thức phần lớn thừa kế từ ngành 1.1.1.2 Một số định nghĩa khai phá liệu Sau số định nghĩa khác KPDL [5]: Định nghĩa Giáo sư Tom Mitchell: “Khai phá liệu việc sử dụng liệu lịch sử để khám phá qui tắc cải thiện định tương lai.” Định nghĩa Ferruzza: “Khai phá liệu tập hợp phương pháp dùng tiến trình khám phá tri thức để khác biệt mối quan hệ mẫu chưa biết bên liệu” Định nghĩa Parsaye: “Khai phá liệu trình trợ giúp định, tìm kiếm mẫu thông tin chưa biết bất ngờ CSDL lớn” Với cách tiếp cận ứng dụng hơn, tiến sĩ Fayyad phát biểu:” Khai phá liệu thường xem việc khám phá tri thức sở liệu, trình trích xuất thông tin ẩn, trước chưa biết có khả hữu ích, dạng quy luật, ràng buộc, qui tắc sở liệu.” Còn nhà Thống kê xem "Khai phá liệu trình phân tích thiết kế thăm dò lượng cực lớn liệu nhằm phát mẫu thích hợp và/ mối quan hệ mang tính hệ thống biến sau hợp thức hoá kết tìm cách áp dụng mẫu phát cho tập liệu" Tuy nhiên thực tế, KPDL xem bước thiết yếu trình khám phá tri thức CSDL bao gồm thụât toán KPDL chuyên dùng, số quy định hiệu tính toán chấp nhận được, để tìm mẫu mô hình liệu 1.1.2 Quá trình phát tri thức CSDL Quá trình phát tri thức CSDL mô tả hình 1.2 bao gồm chuỗi lặp lặp lại bước sau [4] : Làm liệu (Data Cleaning): Loại bỏ nhiễu (noisy) liệu không quán Tích hợp liệu (Data Integration): Kết hợp liệu từ nguồn liệu khác Lựa chọn liệu (Data Selection): Dữ liệu phù hợp cho thao tác phân tích lấy từ sở liệu Chuyển dạng liệu (Data Transformation): Dữ liệu chuyển dạng hợp thành dạng phù hợp cho trình khai phá cách thực thao tác tóm tắt (summary) gộp nhóm liệu (aggregation) Trích chọn mẫu (Data Patterns Extracting): Áp dụng phương pháp “thông minh” để trích chọn mẫu thực đáng quan tâm từ liệu Đôi thân bước gọi khai phá liệu (Data Mining) (hiểu theo nghĩa hẹp) Đánh giá mẫu (Pattern Evaluation): Dựa độ đo đặc trưng, xác định mẫu đáng quan tâm biểu diễn tri thức Biểu diễn tri thức (Knowledge Presentation): Sử dụng kỹ thuật biểu diễn tri thức trực quan hóa (visualization) để biểu diễn biến đổi tri thức khai phá bước thành dạng gần gũi với người sử dụng đồ thị, cây, bảng biểu, luật, đến với người dùng Hình 1.2: Quy trình khám phá tri thức từ sở liệu [4] Trong đó, giai đoạn đầu gọi giai đoạn tiền xử lý liệu (data preprocessing) nhằm chuẩn bị liệu cho trình khai phá (trích chọn mẫu) Các giai đoạn trình khám phá tri thức có mối quan hệ chặt chẽ với bối cảnh chung hệ thống Các kỹ thuật sử dụng giai đoạn trước ảnh hưởng đến hiệu giải thuật sử dụng giai đoạn Quá trình KDD không thiết phải tuần tự, cho phép nhà phân tích xem xét lại bước dựa kiến thức tìm kiếm chất thông tin phát trình Các bước tiền xử lý liệu chế biến làm sạch, lựa chọn rút gọn áp dụng theo trình tự khác lặp lặp lại số lần 1.1.3 Các kỹ thuật khai phá liệu Trong thực tế có nhiều kỹ thuật khai phá liệu khác nhằm thực hai chức mô tả dự đoán Kỹ thuật khai phá liệu mô tả: có nhiệm vụ mô tả tính chất đặc tính chung liệu CSDL có Một số kỹ thuật khai phá nhóm là: phân cụm liệu (Clustering), tổng hợp (Summarisation), trực quan hoá (Visualization), phân tích tiến hóa (Evolution and deviation analyst),… Kỹ thuật khai phá liệu dự đoán: có nhiệm vụ đưa dự đoán dựa vào suy diễn sở liệu thời Một số kỹ thuật khai phá nhóm là: phân lớp (Classification), hồi quy (Regression), định (Decision tree), thống kê (statictics), mạng nơron (neural network), luật kết hợp,… Một số kỹ thuật phổ biến [1],[3],[5] thường sử dụng để khai phá liệu : 1.1.3.1 Phân lớp liệu Mục tiêu phân lớp liệu dự đoán nhãn lớp cho mẫu liệu Quá trình gồm hai bước: xây dựng mô hình, sử dụng mô hình để phân lớp liệu (mỗi mẫu lớp) Mô hình sử dụng để dự đoán nhãn lớp mà độ xác mô hình chấp nhận 1.1.3.2 Phân cụm liệu Mục tiêu phân cụm liệu nhóm đối tượng tương tự tập liệu vào cụm, cho đối tượng thuộc cụm tương đồng Trong luận tác giả sử dụng kỹ thuật phân cụm thuật toán CLARANS tìm hiểu mối liên hệ điều kiện cư trú với kết học tập học sinh Vì kỹ thuật thuật toán có liên quan trình bày chương II 1.1.3.3 Khai phá luật kết hợp Mục tiêu phương pháp phát đưa mối liên hệ giá trị liệu sở liệu Đầu giải thuật luật kết hợp tập luật kết hợp tìm Phương pháp khai phá luật kết hợp gồm có hai bước: Bước 1: Tìm tất tập mục phổ biến Một tập mục phổ biến xác định thông qua tính độ hỗ trợ thoả mãn độ hỗ trợ cực tiểu Bước 2: Sinh luật kết hợp mạnh từ tập mục phổ biến, luật phải thoả mãn độ hỗ trợ độ tin cậy cực tiểu 1.1.3.4 Hồi quy Phương pháp hồi quy tương tự phân lớp liệu Nhưng khác chỗ dùng để dự đoán giá trị liên tục phân lớp liệu dùng để dự đoán giá trị rời rạc 1.1.3.5 Mạng nơ-ron (neural network) Đây kỹ thuật KPDL ứng dụng phổ biến Kỹ thuật phát triển dựa tảng toán học vững vàng, khả huấn luyện kỹ thuật dựa mô hình thần kinh trung ương người Kết mà mạng nơ-ron học có khả tạo mô hình dự báo, dự đoán với độ xác độ tin cậy cao Nó có khả phát xu hướng phức tạp mà kỹ thuật thông thường khác khó phát Tuy nhiên phương pháp neural network phức tạp trình tiến hành gặp nhiều khó khăn: đòi hỏi nhiều thời gian, nhiều DL, nhiều lần kiểm tra thử nghiệm 1.1.3.6 Cây định Kỹ thuật định công cụ mạnh hiệu việc phân lớp dự báo Các đối tượng DL phân thành lớp Các giá trị đối tượng DL chưa biết dự đoán, dự báo Tri thức rút kỹ thuật thường mô tả dạng tường minh, đơn giản, trực quan, dễ hiểu người sử dụng Trong năm qua, nhiều mô hình phân lớp DL nhà khoa học nhiều lĩnh vực khác đề xuất, kỹ thuật định với ưu điểm đánh giá công cụ mạnh, phổ biến đặc biệt thích hợp cho DM nói chung phân lớp liệu nói riêng 1.2 Khai phá liệu GIS 1.2.1 Khái niệm Dữ liệu địa lý đồ sộ tiếp tục thu thập công nghệ thu thập liệu đại hệ thống định vị toàn cầu (GPS), độ phân giải cảm biến từ xa, dịch vụ địa điểm nhận biết vị trí, điều tra, thông tin địa lý tình nguyện internet Có nhu cầu cấp thiết cho phương pháp hiệu kịp thời hiệu để trích xuất thông tin tiềm ẩn bất ngờ từ liệu không gian rộng lớn độ phức tạp cao Để giải thách thức này, khai thác liệu không gian khám phá tri thức địa lý lên lĩnh vực nghiên cứu hoạt động, tập trung vào phát triển lý thuyết, phương pháp thực hành cho việc khai thác thông tin hữu ích kiến thức từ sở liệu không gian lớn phức tạp [6], [9] Khai phá liệu với GIS hay gọi khai phá liệu không gian, mở rộng khai phá liệu CSDL quan hệ, xét thêm thuộc tính liệu không gian phản ánh hệ thông tin địa lý Phương pháp khai phá liệu thông thường không phù hợp với liệu không gian chúng không hỗ trợ liệu vị trí địa lý mối quan hệ tiềm ẩn đối tượng địa lý Do đó, cần phát triển 10 phương pháp bao gồm mối quan hệ không gian xử lý liệu không gian Tính toán mối quan hệ không gian tốn thời gian, khối lượng lớn liệu tạo mã hóa vị trí hình học Việc biểu diễn toàn cầu phức tạp Sử dụng GIS, người sử dụng truy vấn liệu không gian thực nhiệm vụ phân tích đơn giản cách sử dụng chương trình truy vấn Tuy nhiên, GIS không thiết kế để thực phân tích liệu phức tạp khám phá tri thức Chúng không cung cấp phương pháp chung để thực phân tích suy luận quy tắc Tuy nhiên, cần tích hợp phương pháp có mở rộng chúng cách kết hợp phương pháp khai thác liệu không gian Phương pháp GIS quan trọng để truy cập liệu, kết nối không gian hiển thị đồ đồ họa Ngày nay, có nhiều sở liệu không gian sử dụng nhiều ứng dụng khác nhau, từ viễn thám hệ thống thông tin địa lý, môi trường quy hoạch Việc phân tích sở liệu không gian rộng lớn vượt xa khả người Do cần tự động hóa việc khám phá thông tin (tri thức) để hỗ trợ người Khai thác liệu không gian thể quán vài lĩnh vực tìm hiểu máy móc, hệ thống sở liệu, hiển thị thống kê liệu, lý thuyết thông tin hình học điện toán Kỹ thuật khai thác liệu không gian có ứng dụng rộng rãi hệ thống thông tin địa lý viễn thám Những phương pháp sử dụng để tìm hiểu liệu không gian, khám phá mối liên quan liệu không gian phi không gian, thiết lập sở tri thức không gian, tối ưu hóa truy vấn, đặc trưng hóa liệu không gian Một khác biệt lớn khai thác liệu trong sở liệu không gian với sở liệu quan hệ thông thường thuộc tính đối tượng gần kề số đối tượng quan tâm, có ảnh hưởng đến đối tượng coi hữu ích Các vị trí tiềm ẩn phần mở rộng đối tượng không gian xác định mối quan hệ tiềm ẩn vùng không gian (chẳng hạn quan hệ topo, khoảng cách hướng) sử dụng thuật toán khai thác liệu không gian 71 TÀI LIỆU THAM KHẢO Tiếng Việt Hoàng Văn Dũng (2007), Khai phá liệu Web kỹ thuật phân cụm, Luận văn thạc sỹ khoa học, Trường Đại học sư phạm Hà Nội, Hà Nội Trương Mạnh Hà (2009), Nghiên cứu số kỹ thuật lấy tin tự động Internet, Luận văn thạc sĩ Công nghệ thông tin, Trường Đại học Thái Nguyên Ngô Quốc Tạo (2011), Bài giảng môn Data Mining, Lớp CK09D ĐH Thái Nguyên Nguyễn Vương Thịnh (2011), Bài giảng môn học Khai phá liệu, Đại học Hàng hải Việt Nam, Hải Phòng Trương Minh Văn (2012), Khai phá liệu có canh tác liệu ứng dụng khai phá liệu y khoa, Luận văn thạc sĩ Công nghệ thông tin, Trường Đại học Lạc Hồng, Biên Hòa Tiếng Anh Diansheng Guo, Jeremy Mennis (2009), “Spatial data mining and geographic knowledge discovery”, Computers, Environment and Urban Systems 33, pp 403 - 408 Deepti Joshi (2011), Polygonal Spatial Clustering, Ph.D Dissertation, University of Nebraska Ch.N.Santhosh Kumar, V Sitha Ramulu, K.Sudheer Reddy, Suresh Kotha, Ch Mohan Kumar (2012), Spatial Data Mining using Cluster Analysis, International Journal of Computer Science & Information Technology (IJCSIT) Vol (4) 72 Imam Mukhlash, Benhard Sitohang, (2007), Spatial Data Preprocessing for Mining Spatial Association Rule with Conventional Association Mining Algorithms, Proceeding of the International Conference on Electrical Engineering and Informatics Institut Teknologi Bandung, Indonesia 10 Raymond T Ng, Jiawei Han (1994), Efficient and Effective Clustering Methods for Spatial Data Mining, Proceeding VLDB ’94 Proceeding of 20th International Conference on Very Large Data Bases, Morgan Kaufmann Publishers Inc San Francisco, CA, USA, pp.144-155 11 Raymond T Ng, Jiawei Han (2002), “CLARANS: A Method for Clustering Objects for Spatial Data Mining”, IEEE Computer Society, IEEE Transactions on Knowledge and Data Engineering, vol 14 (5) 73 PHỤ LỤC privatevoid LoadData() { KQHT kqht1 = new KQHT(); DataTable dt = kqht1.LayDanhSachXa(); //Thêm liệu đầu vào DieuKienCuTru _objCT = new DieuKienCuTru(); KqHT = newList(); foreach (DataRow item in dt.Rows) { KQHT kq = new KQHT(); kq.maxa = Convert.ToInt32(item["maxa"]); kq.tenxa = item["tenxa"].ToString(); kq.kqAnhVan = kqht1.LayDiemAnhVanTheoMaXa(kq.maxa); kq.kqToan = kqht1.LayDiemToanTheoMaXa(kq.maxa); kq.kqLy = kqht1.LayDiemLyTheoMaXa(kq.maxa); kq.kqHoa = kqht1.LayDiemHoaTheoMaXa(kq.maxa); kq.kqVan = kqht1.LayDiemVanTheoMaXa(kq.maxa); kq.ThuNhap = kqht1.LayThuNhapTheoMaXa(kq.maxa); kq.LangNghe = kqht1.LayLangNgheTheoMaXa(kq.maxa); kq.MatDoDanCu = kqht1.LayMatDoDanCuTheoMaXa(kq.maxa); kq.DienTich = kqht1.LayDienTichTheoMaXa(kq.maxa); kq.TongDanSo = kqht1.LayTongDanSoTheoMaXa(kq.maxa); 74 KqHT.Add(kq); } //Thiết lập tâm cho đơn vị hành ThietLapTamChoTungXa(); //Chuẩn hóa liệu double mTongAnhVan = 0.0; double mTongToan = 0.0; double mTongLy = 0.0; double mTongHoa = 0.0; double mX = 0.0; double mY = 0.0; double mTN = 0.0; double mDS = 0.0; double mMD = 0.0; double mLN = 0; double mDT = 0.0; foreach (KQHT item1 in KqHT) { foreach (KQHT item in KqHT) { 75 mTongAnhVan += item.kqAnhVan; mTongToan += item.kqToan; mTongLy += item.kqLy; mTongHoa += item.kqHoa; mX += item.cX; mY += item.cY; mTN += item.ThuNhap; mDS += item.TongDanSo; mMD += item.MatDoDanCu; mLN += item.LangNghe; mDT += item.DienTich; } double mfAV = (mTongAnhVan / KqHT.Count); double mfT = (mTongToan / KqHT.Count); double mfL = (mTongLy / KqHT.Count); double mfH = (mTongHoa / KqHT.Count); double mfX = (mX / KqHT.Count); double mfY = (mY / KqHT.Count); double mfTN = (mTN / KqHT.Count); double mfDS = (mDS / KqHT.Count); double mfMD = (mMD / KqHT.Count); double mfLN = (mLN / KqHT.Count); double mfDT = (mDT / KqHT.Count); 76 double tAV = 0.0; double tT = 0.0; double tL = 0.0; double tH = 0.0; double tX = 0.0; double tY = 0.0; double tTN = 0.0; double tDS = 0.0; double tMD = 0.0; double tLN = 0.0; double tDT = 0.0; foreach (KQHT item in KqHT) { tAV += Math.Abs(item.kqAnhVan - mfAV); tT += Math.Abs(item.kqToan - mfT); tL += Math.Abs(item.kqLy - mfL); tH += Math.Abs(item.kqHoa - mfH); tX += Math.Abs(item.cX - mfX); tY += Math.Abs(item.cY - mfY); tTN += Math.Abs(item.ThuNhap - mfTN); tDS += Math.Abs(item.TongDanSo - mfDS); 77 tMD += Math.Abs(item.MatDoDanCu - mfMD); tLN += Math.Abs(item.LangNghe - mfLN); tDT += Math.Abs(item.DienTich - mfDT); } double sf = (tAV / KqHT.Count); item1.kqAnhVanQc = (item1.kqAnhVan - mfAV) / sf; sf = (tT / KqHT.Count); item1.kqToanQc = (item1.kqToan - mfT) / sf; sf = (tL / KqHT.Count); item1.kqLyQc = (item1.kqLy - mfL) / sf; sf = (tH / KqHT.Count); item1.kqHoaQc = (item1.kqHoa - mfH) / sf; sf = (tX / KqHT.Count); item1.cXQc = (item1.cX - mfX) / sf; sf = (tY / KqHT.Count); item1.cYQc = (item1.cY - mfY) / sf; sf = (tTN / KqHT.Count); item1.ThuNhapQc = (item1.ThuNhap - mfTN) / sf; 78 sf = (tDS / KqHT.Count); item1.TongDanSoQc = (item1.TongDanSo - mfDS) / sf; sf = (tMD / KqHT.Count); item1.MatDoDanCuQc = (item1.MatDoDanCu - mfMD) / sf; //sf = (tLN / KqHT.Count); //item1.LangNgheQc = (item1.LangNghe - mfLN) / sf; sf = (tDT / KqHT.Count); item1.DienTichQc = (item1.DienTich - mfDT) / sf; } } //Tính khoảng cách điểm privatedouble dist(KQHT P1, KQHT P2) { double dkq; if (cboField.SelectedValue.ToString().Equals("1")) { dkq = P2.kqToanQc - P1.kqToanQc; } elseif (cboField.SelectedValue.ToString().Equals("2")) { dkq = P2.kqLyQc - P1.kqLyQc; } 79 elseif (cboField.SelectedValue.ToString().Equals("3")) { dkq = P2.kqHoaQc - P1.kqHoaQc; } elseif (cboField.SelectedValue.ToString().Equals("4")) { dkq = P2.kqAnhVanQc - P1.kqAnhVanQc; ; } else { dkq = P2.kqVanQc - P1.kqVanQc; } double dx = P2.cXQc - P1.cXQc; double dy = P2.cYQc - P1.cYQc; double dTN = P2.ThuNhapQc - P1.ThuNhapQc; double dDT = P2.DienTichQc - P1.DienTichQc; double dMD = P2.MatDoDanCuQc - P1.MatDoDanCuQc; //double dLN = P2.LangNgheQc - P1.LangNgheQc; double dDS = P2.TongDanSoQc - P1.TongDanSoQc; //double kq = Math.Sqrt(dkq * dkq); double kq = Math.Sqrt(dx * dx + dy * dy + dTN * dTN + dDT * dDT + dDS * dDS + dMD * dMD + dkq * dkq); 80 return kq; } //Khởi tạo ban đầu cụm privatevoid init_k(List pOut) { List objKqht = newList(); objKqht = KqHT.ToList(); Random rd = newRandom(); for (int i = 0; i < n; i++) { int b = rd.Next(0, objKqht.Count); pOut[i] = objKqht[b]; objKqht.Remove(objKqht[b]); } } //Lựa chọn ngẫu nhiên tập mảng privatevoid select_k(List pOut) { Random rd = newRandom(); List objKqht = newList(); objKqht = KqHT.ToList(); int dem = rd.Next(0, n); int b = rd.Next(0, objKqht.Count); pOut[dem] = objKqht[b]; 81 objKqht.Remove(objKqht[b]); } //Chuyển đổi vị trí mảng privatevoid copy_k(List P1, List P2) { for (int i = 0; i < n; i++) { P1[i] = P2[i]; } } privatedouble cost(List k) { double total_rand = 0; var dem = newint[n]; var s_rand = newdouble[n]; foreach (KQHT pnt in KqHT) { double = dist(k[0], pnt); int sav = 0; for (int l = 1; l < n; l++) { if (dist(k[l], pnt) < min) { 82 = dist(k[l], pnt); sav = l; } } s_rand[sav] += min; dem[sav]++; } for (int j = 0; j < n; j++) { if (dem[j] != 0) total_rand += s_rand[j] / dem[j]; } return total_rand; } //Phân cụm theo số cụm publicvoid clust() { List k_rand, temp; double current_cost = 0, temp_cost = 0; current_k = newList(n); for (int i = 0; i < n; i++) current_k.Add(new KQHT()); k_rand = newList(n); 83 for (int i = 0; i < n; i++) k_rand.Add(new KQHT()); bestnode = newList(n); for (int i = 0; i < n; i++) bestnode.Add(new KQHT()); for (int i = 1; i temp_cost) { current_cost = temp_cost; copy_k(current_k, k_rand); j = 1; 84 } else j++; } if (mincost.Equals(0)) { mincost = current_cost; copy_k(bestnode, current_k); } elseif (current_cost < mincost) { mincost = current_cost; copy_k(bestnode, current_k); } } } 85 XÁC NHẬN CỦA GIÁO VIÊN HƯỚNG DẪN Thái nguyên, ngày tháng năm 2013 Học viên Bùi Thị Huế [...]... trong một cụm và phi tương tự với các đối tượng trong các cụm khác Một cụm các đối tượng dữ liệu có thể xem như là một nhóm trong nhiều ứng dụng Mục đích chính của phân cụm dữ liệu (PCDL) nhằm khám phá cấu trúc của mẫu dữ liệu để thành lập các nhóm dữ liệu từ tập dữ liệu lớn, theo đó nó cho phép đi sâu vào phân tích và nghiên cứu cho từng cụm dữ liệu này nhằm khám phá và tìm kiếm các thông tin tiềm ẩn,... không gian: Do sự đồ sộ của dữ liệu không gian như dữ liệu thu được từ các hình ảnh chụp từ vệ tinh, các thiết bị y học hoặc hệ thống thông tin địa lý (GIS), …làm cho người dùng rất khó để kiểm tra các dữ liệu không gian một cách chi tiết PCDL có thể trợ giúp người dùng tự động phân tích và xử lý các dữ liêu không gian như nhận dạng và chiết xuất các đặc tính hoặc các mẫu dữ liệu quan tâm có thể tồn tại... cung cấp thông tin cho nhận dạng các vùng nguy hiểm Địa lý: Phân lớp các động vật, thực vật và đưa ra đặc trưng của chúng Khai phá Web: PCDL có thể khám phá các nhóm tài liệu quan trọng, có nhiều ý nghĩa trong môi trường Web Các lớp tài liệu này trợ giúp cho việc khám phá tri thức từ dữ liệu Web, khám phá ra các mẫu truy cập của khách hàng đặc biệt hay khám phá ra cộng đồng Web,… Phân tích dữ liệu không... cụm dữ liệu được khám phá rất lệch so với các cụm trong thực tế Trên thực tế người ta chưa có một giải pháp tối ưu nào để chọn các tham số đầu vào, giải pháp thường được sử dụng nhất là thử nghiệm với các giá trị đầu vào k khác nhau rồi sau đó chọn giải pháp tốt nhất 20 Thuật toán này cũng không phù hợp với việc khai phá các dữ liệu gồm các cụm có hình dạng không lồi k-means còn rất nhạy cảm với nhiễu... được chọn từ tập dữ liệu Nó đưa ra nhiều mẫu của tập dữ liệu, áp dụng PAM trên mỗi mẫu, và trả lại cụm tốt nhất ở đầu ra, như vậy, CLARA có thể xử lý với tập dữ liệu lớn hơn PAM 2.3 Thuật toán CLARANS 2.3.1 Giới thiệu thuật toán CLARANS 25 Thuật toán k-means và k-medoids thường thực hiện với CSDL vừa và nhỏ, chỉ khoảng vài trăm đến vài nghìn đối tượng Do yêu cầu của việc phân cụm dữ liệu không gian... học cao”… Như vậy, PCDL là một phương pháp xử lý thông tin quan trọng và phổ biến, nó nhằm khám phá mối liên hệ giữa các mẫu dữ liệu bằng cách tổ chức chúng thành các cụm Ta có thể khái quát hóa khái niệm PCDL: PCDL là một kỹ thuật trong KPDL, nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên, tiềm ẩn, quan trọng trong tập dữ liệu lớn từ đó cung cấp thông tin, tri thức hữu ích cho việc ra quyết... đối tượng dữ liệu trong tập đối tượng dữ liệu ban đầu Kết quả thực nghiệm chỉ ra rằng, 5 mẫu dữ liệu có kích thước 40 +2k cho kết quả tốt Các bước thực hiện của thuật toán CLARA [1], [2], [10], [11]: 24 INPUT: CSDL gồm n đối tượng, số cụm k OUTPUT: k cụm dữ liệu 1 For i = 1 to 5 do Begin 2 Lấy một mẫu có 40 + 2k đối tượng dữ liệu ngẫu nhiên từ tập dữ liệu và áp dụng thuật toán PAM cho mẫu dữ liệu này... thời điểm hiện tại End; Phương pháp medoid không hiệu quả với trường hợp tập dữ liệu lớn, như vậy, phương pháp dựa trên mẫu được gọi là CLARA Ở đây, một phần nhỏ dữ liệu hiện thời được chọn như một đại diện của dữ liệu thay vì sử dụng toàn bộ dữ liệu và sau đó medoid được chọn từ mẫu sử dụng PAM Nếu mẫu được chọn theo cách ngẫu nhiên thì nó có thể cần phải đại diện tập dữ liệu gốc Các đối tượng đại diện... PCDL, chức năng của nó là xác định một nhóm nhỏ các đối tượng dữ liệu "khác thường" so với các dữ liệu khác trong CSDL - tức là các đối tượng dữ liệu không tuân theo các hành vi hoặc mô hình dữ liệu - nhằm tránh sự ảnh hưởng của chúng tới quá trình và kết quả của PCDL Khám phá các phần tử ngoại lai đã được phát triển và ứng dụng trong viễn thông, dò tìm gian lận thương mại… Tóm lại, PCDL là một vấn đề... không ngừng trong các hệ quản trị dữ liệu, đây cũng là một trong những thách thức lớn trong lĩnh vực KPDL trong những thập kỷ tiếp theo và đặc biệt là trong lĩnh vực KPDL không gian [1], [3] 2.1.2 Ứng dụng của phân cụm dữ liệu PCDL là một trong những công cụ chính của KPDL được ứng dụng trong nhiều lĩnh vực như thương mại và khoa học Các kỹ thuật PCDL đã được áp dụng cho một số ứng dụng điển hình [1], ... thiện 3 CHƯƠNG I: KHAI PHÁ DỮ LIỆU VỚI HỆ THÔNG TIN ĐỊA LÝ 1.1 Khai phá liệu 1.1.1 Khai phá liệu ? 1.1.1.1 Khái niệm khám phá tri thức khai phá liệu Khám phá tri thức sở liệu (Knowledge Discovery... vấn đề ứng dụng khai phá liệu không gian với hệ thông tin địa lý để tìm hiểumối liên hệ nơi cư trú kết học tập với mục tiêu bước đầu thử nghiệm áp dụng số kỹ thuật khai phá liệu thường dùng với. .. sở liệu không gian lớn phức tạp [6], [9] Khai phá liệu với GIS hay gọi khai phá liệu không gian, mở rộng khai phá liệu CSDL quan hệ, xét thêm thuộc tính liệu không gian phản ánh hệ thông tin địa

Định dạng
Số trang	85
Dung lượng	3,36 MB