Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 85 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
85
Dung lượng
1,79 MB
Nội dung
1 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG BÙI THỊ HUẾ KHAI PHÁ DỮ LIỆU VỚI HỆ THÔNG TIN ĐỊA LÝ VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH Thái Nguyên – 2013 MỞ ĐẦU Hệ thống thông tin địa lý (GIS) ứng dụng ngày phổ biến, không lĩnh vực giám sát, quản lý, lập kế hoạch tài ngun mơi trường mà cịn nhiều toán kinh tế xã hội khác Kết là, khối lượng liệu liên quan đến địa lý, cịn gọi liệu khơng gian thu thập tăng lên nhanh chóng Một câu hỏi đặt làm để tận dụng, khai thác, khám phá, phát tri thức hữu ích từ kho liệu này? Khai phá liệu áp dụng kỹ thuật cơng cụ để trích rút tri thức có ích từ nguồn liệu lĩnh vực mà ta quan tâm Khai phá liệu với GIS hay gọi khai phá liệu không gian, mở rộng khai phá liệu CSDL quan hệ, xét thêm thuộc tính liệu không gian phản ánh hệ thông tin địa lý, ví dụ khoảng cách (gần kề hay cách xa), điều kiện môi trường tự nhiên hay kinh tế xã hội (rừng núi, đồng bằng, ven biển, đô thị, v.v…) Là giáo viên tỉnh Nam Định, em tích lũy nhiều liệu thực tế xếp hạng trường THPT tỉnh qua kết thi tốt nghiệp, kết thi đại học kết thi học sinh giỏi, Trong đó, nhiều trường có thành tích cao tồn khơng trường có kết học tập học sinh thấp Nguyên nhân dẫn đến kết đó? Liệu điều kiện nơi cư trú có ảnh hưởng đến kết học tập học sinh? Lượng thông tin kết học tập điều kiện cư trú địa phương nhiều chủ yếu quản lý dạng bảng hay văn Rất khó để thể mối liên hệ điều kiện cư trú với kết học tập học sinh theo hướng khai phá liệu thông thường Ứng dụng khai phá liệu với hệ thông tin địa lý cho phép nghiên cứu vấn đề, trả lời câu hỏi có liên quan trực tiếp, ví dụ “ô nhiễm môi trường sống ảnh hưởng đến sức khỏe cộng đồng” câu hỏi trực tiếp hơn, ví dụ “nơi cư trú học sinh (ở đô thị lớn, nơng thơn, vùng núi,…) có ảnh hưởng đến kết học tập môn học định (về khoa học tự nhiên, khoa học xã hội, ngoại ngữ, ) đến số học sinh bỏ học, đến trung bình kết học tập, đến số học sinh đỗ đại học, số học sinh giỏi? ” Luận văn đặt vấn đề ứng dụng khai phá liệu khơng gian với hệ thơng tin địa lý để tìm hiểumối liên hệ nơi cư trú kết học tập với mục tiêu bước đầu thử nghiệm áp dụng số kỹ thuật khai phá liệu thường dùng với GIS vào toán thực tế Luận văn cấu trúc gồm chương: Chƣơng I: Trong chương tìm hiểu khái quát khai phá liệu khai phá liệu không gian Chƣơng II: Trong chương tìm hiểu số thuật tốn phân cụm kỹ thuật phân cụm thuật toán CLARANS Chƣơng III: Trong chương tiến hành cài đặt ứng dụng thuật tốn CLARANS để phân cụm liệu khơng gian, tìm hiểu mối liên hệ điều kiện cư trú với kết học tập học sinh Luận văn hoàn thành hướng dẫn tận tình PGS.TS Nguyễn Đình Hóa, em xin bày tỏ lịng biết ơn chân thành thầy Em xin chân thành cảm ơn thầy, cô giáo Viện Công nghệ thông tin, Trường Đại học Công nghệ thông tin Truyền thông - Đại học Thái Nguyên tham gia giảng dạy, giúp đỡ em suốt qúa trình học tập nâng cao trình độ kiến thức Tuy nhiên điều kiện thời gian khả có hạn nên luận văn khơng thể tránh khỏi thiếu sót Em kính mong thầy giáo bạn đóng góp ý kiến để đề tài hoàn thiện CHƢƠNG I: KHAI PHÁ DỮ LIỆU VỚI HỆ THÔNG TIN ĐỊA LÝ 1.1 Khai phá liệu 1.1.1 Khai phá liệu ? 1.1.1.1 Khái niệm khám phá tri thức khai phá liệu Khám phá tri thức sở liệu (Knowledge Discovery in Database-KDD) qui trình nhận biết mẫu mơ hình liệu với tính năng: hợp thức, mới, khả ích, hiểu Khai phá liệu (Data Mining-DM) l khái niệm đời vào năm cuối thập kỷ 1980 Cụm từ “khai phá liệu” bao hàm loạt kỹ thuật nhằm phát thơng tin có giá trị tiềm ẩn tập liệu lớn Thuật ngữ thực tên nhầm lẫn Hãy nhớ việc khai thác vàng từ đá cát gọi khai thác vàng khai thác đá, cát Như vậy, khai phá liệu (KPDL) nên đặt tên thích hợp “khai thác kiến thức từ liệu” [5].Tuy nhiên, “khai phá liệu” dùng cách phổ biến Hình 1.1 minh họa đơn giản trực quan cho khái niệm Hình 1.1: Khai phá liệu tập liệu [5] Khái niệm KDD KPDL nhà khoa học xem tương đương Tuy nhưng, phân chia cách rành mạch chi tiết KPDL bước q trình KDD Khám phá tri thức CSDL lĩnh vực liên quan đến nhiều ngành như: Tổ chức liệu, xác suất, thống kê, lý thuyết thông tin, học máy, CSDL, thuật tốn, trí tuệ nhân tạo, tính tốn song song hiệu cao Các kỹ thuật áp dụng khám phá tri thức phần lớn thừa kế từ ngành 1.1.1.2 Một số định nghĩa khai phá liệu Sau số định nghĩa khác KPDL [5]: Định nghĩa Giáo sư Tom Mitchell: “Khai phá liệu việc sử dụng liệu lịch sử để khám phá qui tắc cải thiện định tương lai.” Định nghĩa Ferruzza: “Khai phá liệu tập hợp phương pháp dùng tiến trình khám phá tri thức để khác biệt mối quan hệ mẫu chưa biết bên liệu” Định nghĩa Parsaye: “Khai phá liệu q trình trợ giúp định, tìm kiếm mẫu thơng tin chưa biết bất ngờ CSDL lớn” Với cách tiếp cận ứng dụng hơn, tiến sĩ Fayyad phát biểu:” Khai phá liệu thường xem việc khám phá tri thức sở liệu, q trình trích xuất thơng tin ẩn, trước chưa biết có khả hữu ích, dạng quy luật, ràng buộc, qui tắc sở liệu.” Cịn nhà Thống kê xem "Khai phá liệu trình phân tích thiết kế thăm dị lượng cực lớn liệu nhằm phát mẫu thích hợp và/ mối quan hệ mang tính hệ thống biến sau hợp thức hố kết tìm cách áp dụng mẫu phát cho tập liệu" Tuy nhiên thực tế, KPDL xem bước thiết yếu trình khám phá tri thức CSDL bao gồm thụât toán KPDL chuyên dùng, số quy định hiệu tính tốn chấp nhận được, để tìm mẫu mơ hình liệu 1.1.2 Quá trình phát tri thức CSDL Quá trình phát tri thức CSDL mơ tả hình 1.2 bao gồm chuỗi lặp lặp lại bước sau [4] : Làm liệu (Data Cleaning): Loại bỏ nhiễu (noisy) liệu khơng qn Tích hợp liệu (Data Integration): Kết hợp liệu từ nguồn liệu khác Lựa chọn liệu (Data Selection): Dữ liệu phù hợp cho thao tác phân tích lấy từ sở liệu Chuyển dạng liệu (Data Transformation): Dữ liệu chuyển dạng hợp thành dạng phù hợp cho trình khai phá cách thực thao tác tóm tắt (summary) gộp nhóm liệu (aggregation) Trích chọn mẫu (Data Patterns Extracting): Áp dụng phương pháp “thơng minh” để trích chọn mẫu thực đáng quan tâm từ liệu Đơi thân bước gọi khai phá liệu (Data Mining) (hiểu theo nghĩa hẹp) Đánh giá mẫu (Pattern Evaluation): Dựa độ đo đặc trưng, xác định mẫu đáng quan tâm biểu diễn tri thức Biểu diễn tri thức (Knowledge Presentation): Sử dụng kỹ thuật biểu diễn tri thức trực quan hóa (visualization) để biểu diễn biến đổi tri thức khai phá bước thành dạng gần gũi với người sử dụng đồ thị, cây, bảng biểu, luật, đến với người dùng Hình 1.2: Quy trình khám phá tri thức từ sở liệu [4] Trong đó, giai đoạn đầu gọi giai đoạn tiền xử lý liệu (data preprocessing) nhằm chuẩn bị liệu cho q trình khai phá (trích chọn mẫu) Các giai đoạn trình khám phá tri thức có mối quan hệ chặt chẽ với bối cảnh chung hệ thống Các kỹ thuật sử dụng giai đoạn trước ảnh hưởng đến hiệu giải thuật sử dụng giai đoạn Q trình KDD khơng thiết phải tuần tự, cho phép nhà phân tích xem xét lại bước dựa kiến thức tìm kiếm chất thơng tin phát q trình Các bước tiền xử lý liệu chế biến làm sạch, lựa chọn rút gọn áp dụng theo trình tự khác lặp lặp lại số lần 1.1.3 Các kỹ thuật khai phá liệu Trong thực tế có nhiều kỹ thuật khai phá liệu khác nhằm thực hai chức mơ tả dự đốn Kỹ thuật khai phá liệu mơ tả: có nhiệm vụ mơ tả tính chất đặc tính chung liệu CSDL có Một số kỹ thuật khai phá nhóm là: phân cụm liệu (Clustering), tổng hợp (Summarisation), trực quan hoá (Visualization), phân tích tiến hóa (Evolution and deviation analyst),… Kỹ thuật khai phá liệu dự đốn: có nhiệm vụ đưa dự đoán dựa vào suy diễn sở liệu thời Một số kỹ thuật khai phá nhóm là: phân lớp (Classification), hồi quy (Regression), định (Decision tree), thống kê (statictics), mạng nơron (neural network), luật kết hợp,… Một số kỹ thuật phổ biến [1],[3],[5] thường sử dụng để khai phá liệu : 1.1.3.1 Phân lớp liệu Mục tiêu phân lớp liệu dự đốn nhãn lớp cho mẫu liệu Q trình gồm hai bước: xây dựng mơ hình, sử dụng mơ hình để phân lớp liệu (mỗi mẫu lớp) Mơ hình sử dụng để dự đốn nhãn lớp mà độ xác mơ hình chấp nhận 1.1.3.2 Phân cụm liệu Mục tiêu phân cụm liệu nhóm đối tượng tương tự tập liệu vào cụm, cho đối tượng thuộc cụm tương đồng Trong luận tác giả sử dụng kỹ thuật phân cụm thuật tốn CLARANS tìm hiểu mối liên hệ điều kiện cư trú với kết học tập học sinh Vì kỹ thuật thuật tốn có liên quan trình bày chương II 1.1.3.3 Khai phá luật kết hợp Mục tiêu phương pháp phát đưa mối liên hệ giá trị liệu sở liệu Đầu giải thuật luật kết hợp tập luật kết hợp tìm Phương pháp khai phá luật kết hợp gồm có hai bước: Bước 1: Tìm tất tập mục phổ biến Một tập mục phổ biến xác định thơng qua tính độ hỗ trợ thoả mãn độ hỗ trợ cực tiểu Bước 2: Sinh luật kết hợp mạnh từ tập mục phổ biến, luật phải thoả mãn độ hỗ trợ độ tin cậy cực tiểu 1.1.3.4 Hồi quy Phương pháp hồi quy tương tự phân lớp liệu Nhưng khác chỗ dùng để dự đốn giá trị liên tục cịn phân lớp liệu dùng để dự đoán giá trị rời rạc 1.1.3.5 Mạng nơ-ron (neural network) Đây kỹ thuật KPDL ứng dụng phổ biến Kỹ thuật phát triển dựa tảng toán học vững vàng, khả huấn luyện kỹ thuật dựa mơ hình thần kinh trung ương người Kết mà mạng nơ-ron học có khả tạo mơ hình dự báo, dự đốn với độ xác độ tin cậy cao Nó có khả phát xu hướng phức tạp mà kỹ thuật thông thường khác khó phát Tuy nhiên phương pháp neural network phức tạp trình tiến hành gặp nhiều khó khăn: địi hỏi nhiều thời gian, nhiều DL, nhiều lần kiểm tra thử nghiệm 10 1.1.3.6 Cây định Kỹ thuật định công cụ mạnh hiệu việc phân lớp dự báo Các đối tượng DL phân thành lớp Các giá trị đối tượng DL chưa biết dự đoán, dự báo Tri thức rút kỹ thuật thường mô tả dạng tường minh, đơn giản, trực quan, dễ hiểu người sử dụng Trong năm qua, nhiều mơ hình phân lớp DL nhà khoa học nhiều lĩnh vực khác đề xuất, kỹ thuật định với ưu điểm đánh giá cơng cụ mạnh, phổ biến đặc biệt thích hợp cho DM nói chung phân lớp liệu nói riêng 1.2 Khai phá liệu GIS 1.2.1 Khái niệm Dữ liệu địa lý đồ sộ tiếp tục thu thập công nghệ thu thập liệu đại hệ thống định vị toàn cầu (GPS), độ phân giải cảm biến từ xa, dịch vụ địa điểm nhận biết vị trí, điều tra, thơng tin địa lý tình nguyện internet Có nhu cầu cấp thiết cho phương pháp hiệu kịp thời hiệu để trích xuất thơng tin tiềm ẩn bất ngờ từ liệu không gian rộng lớn độ phức tạp cao Để giải thách thức này, khai thác liệu không gian khám phá tri thức địa lý lên lĩnh vực nghiên cứu hoạt động, tập trung vào phát triển lý thuyết, phương pháp thực hành cho việc khai thác thông tin hữu ích kiến thức từ sở liệu không gian lớn phức tạp [6], [9] Khai phá liệu với GIS hay gọi khai phá liệu không gian, mở rộng khai phá liệu CSDL quan hệ, xét thêm thuộc tính liệu khơng gian phản ánh hệ thông tin địa lý Phương pháp khai phá liệu thơng thường khơng phù hợp với liệu khơng gian chúng khơng hỗ trợ liệu vị trí địa lý mối quan hệ tiềm ẩn đối tượng địa lý Do đó, cần phát triển 71 TÀI LIỆU THAM KHẢO Tiếng Việt Hoàng Văn Dũng (2007), Khai phá liệu Web kỹ thuật phân cụm, Luận văn thạc sỹ khoa học, Trường Đại học sư phạm Hà Nội, Hà Nội Trương Mạnh Hà (2009), Nghiên cứu số kỹ thuật lấy tin tự động Internet, Luận văn thạc sĩ Công nghệ thông tin, Trường Đại học Thái Nguyên Ngô Quốc Tạo (2011), Bài giảng môn Data Mining, Lớp CK09D ĐH Thái Nguyên Nguyễn Vương Thịnh (2011), Bài giảng môn học Khai phá liệu, Đại học Hàng hải Việt Nam, Hải Phòng Trương Minh Văn (2012), Khai phá liệu có canh tác liệu ứng dụng khai phá liệu y khoa, Luận văn thạc sĩ Công nghệ thông tin, Trường Đại học Lạc Hồng, Biên Hòa Tiếng Anh Diansheng Guo, Jeremy Mennis (2009), “Spatial data mining and geographic knowledge discovery”, Computers, Environment and Urban Systems 33, pp 403 - 408 Deepti Joshi (2011), Polygonal Spatial Clustering, Ph.D Dissertation, University of Nebraska Ch.N.Santhosh Kumar, V Sitha Ramulu, K.Sudheer Reddy, Suresh Kotha, Ch Mohan Kumar (2012), Spatial Data Mining using Cluster Analysis, International Journal of Computer Science & Information Technology (IJCSIT) Vol (4) 72 Imam Mukhlash, Benhard Sitohang, (2007), Spatial Data Preprocessing for Mining Spatial Association Rule with Conventional Association Mining Algorithms, Proceeding of the International Conference on Electrical Engineering and Informatics Institut Teknologi Bandung, Indonesia 10 Raymond T Ng, Jiawei Han (1994), Efficient and Effective Clustering Methods for Spatial Data Mining, Proceeding VLDB ’94 Proceeding of 20th International Conference on Very Large Data Bases, Morgan Kaufmann Publishers Inc San Francisco, CA, USA, pp.144-155 11 Raymond T Ng, Jiawei Han (2002), “CLARANS: A Method for Clustering Objects for Spatial Data Mining”, IEEE Computer Society, IEEE Transactions on Knowledge and Data Engineering, vol 14 (5) 73 PHỤ LỤC privatevoid LoadData() { KQHT kqht1 = new KQHT(); DataTable dt = kqht1.LayDanhSachXa(); //Thêm liệu đầu vào DieuKienCuTru _objCT = new DieuKienCuTru(); KqHT = newList(); foreach (DataRow item in dt.Rows) { KQHT kq = new KQHT(); kq.maxa = Convert.ToInt32(item["maxa"]); kq.tenxa = item["tenxa"].ToString(); kq.kqAnhVan = kqht1.LayDiemAnhVanTheoMaXa(kq.maxa); kq.kqToan = kqht1.LayDiemToanTheoMaXa(kq.maxa); kq.kqLy = kqht1.LayDiemLyTheoMaXa(kq.maxa); kq.kqHoa = kqht1.LayDiemHoaTheoMaXa(kq.maxa); kq.kqVan = kqht1.LayDiemVanTheoMaXa(kq.maxa); kq.ThuNhap = kqht1.LayThuNhapTheoMaXa(kq.maxa); kq.LangNghe = kqht1.LayLangNgheTheoMaXa(kq.maxa); kq.MatDoDanCu = kqht1.LayMatDoDanCuTheoMaXa(kq.maxa); kq.DienTich = kqht1.LayDienTichTheoMaXa(kq.maxa); kq.TongDanSo = kqht1.LayTongDanSoTheoMaXa(kq.maxa); 74 KqHT.Add(kq); } //Thiết lập tâm cho đơn vị hành ThietLapTamChoTungXa(); //Chuẩn hóa liệu double mTongAnhVan = 0.0; double mTongToan = 0.0; double mTongLy = 0.0; double mTongHoa = 0.0; double mX = 0.0; double mY = 0.0; double mTN = 0.0; double mDS = 0.0; double mMD = 0.0; double mLN = 0; double mDT = 0.0; foreach (KQHT item1 in KqHT) { foreach (KQHT item in KqHT) { 75 mTongAnhVan += item.kqAnhVan; mTongToan += item.kqToan; mTongLy += item.kqLy; mTongHoa += item.kqHoa; mX += item.cX; mY += item.cY; mTN += item.ThuNhap; mDS += item.TongDanSo; mMD += item.MatDoDanCu; mLN += item.LangNghe; mDT += item.DienTich; } double mfAV = (mTongAnhVan / KqHT.Count); double mfT = (mTongToan / KqHT.Count); double mfL = (mTongLy / KqHT.Count); double mfH = (mTongHoa / KqHT.Count); double mfX = (mX / KqHT.Count); double mfY = (mY / KqHT.Count); double mfTN = (mTN / KqHT.Count); double mfDS = (mDS / KqHT.Count); double mfMD = (mMD / KqHT.Count); double mfLN = (mLN / KqHT.Count); double mfDT = (mDT / KqHT.Count); 76 double tAV = 0.0; double tT = 0.0; double tL = 0.0; double tH = 0.0; double tX = 0.0; double tY = 0.0; double tTN = 0.0; double tDS = 0.0; double tMD = 0.0; double tLN = 0.0; double tDT = 0.0; foreach (KQHT item in KqHT) { tAV += Math.Abs(item.kqAnhVan - mfAV); tT += Math.Abs(item.kqToan - mfT); tL += Math.Abs(item.kqLy - mfL); tH += Math.Abs(item.kqHoa - mfH); tX += Math.Abs(item.cX - mfX); tY += Math.Abs(item.cY - mfY); tTN += Math.Abs(item.ThuNhap - mfTN); tDS += Math.Abs(item.TongDanSo - mfDS); 77 tMD += Math.Abs(item.MatDoDanCu - mfMD); tLN += Math.Abs(item.LangNghe - mfLN); tDT += Math.Abs(item.DienTich - mfDT); } double sf = (tAV / KqHT.Count); item1.kqAnhVanQc = (item1.kqAnhVan - mfAV) / sf; sf = (tT / KqHT.Count); item1.kqToanQc = (item1.kqToan - mfT) / sf; sf = (tL / KqHT.Count); item1.kqLyQc = (item1.kqLy - mfL) / sf; sf = (tH / KqHT.Count); item1.kqHoaQc = (item1.kqHoa - mfH) / sf; sf = (tX / KqHT.Count); item1.cXQc = (item1.cX - mfX) / sf; sf = (tY / KqHT.Count); item1.cYQc = (item1.cY - mfY) / sf; sf = (tTN / KqHT.Count); item1.ThuNhapQc = (item1.ThuNhap - mfTN) / sf; 78 sf = (tDS / KqHT.Count); item1.TongDanSoQc = (item1.TongDanSo - mfDS) / sf; sf = (tMD / KqHT.Count); item1.MatDoDanCuQc = (item1.MatDoDanCu - mfMD) / sf; //sf = (tLN / KqHT.Count); //item1.LangNgheQc = (item1.LangNghe - mfLN) / sf; sf = (tDT / KqHT.Count); item1.DienTichQc = (item1.DienTich - mfDT) / sf; } } //Tính khoảng cách điểm privatedouble dist(KQHT P1, KQHT P2) { double dkq; if (cboField.SelectedValue.ToString().Equals("1")) { dkq = P2.kqToanQc - P1.kqToanQc; } elseif (cboField.SelectedValue.ToString().Equals("2")) { dkq = P2.kqLyQc - P1.kqLyQc; } 79 elseif (cboField.SelectedValue.ToString().Equals("3")) { dkq = P2.kqHoaQc - P1.kqHoaQc; } elseif (cboField.SelectedValue.ToString().Equals("4")) { dkq = P2.kqAnhVanQc - P1.kqAnhVanQc; ; } else { dkq = P2.kqVanQc - P1.kqVanQc; } double dx = P2.cXQc - P1.cXQc; double dy = P2.cYQc - P1.cYQc; double dTN = P2.ThuNhapQc - P1.ThuNhapQc; double dDT = P2.DienTichQc - P1.DienTichQc; double dMD = P2.MatDoDanCuQc - P1.MatDoDanCuQc; //double dLN = P2.LangNgheQc - P1.LangNgheQc; double dDS = P2.TongDanSoQc - P1.TongDanSoQc; //double kq = Math.Sqrt(dkq * dkq); double kq = Math.Sqrt(dx * dx + dy * dy + dTN * dTN + dDT * dDT + dDS * dDS + dMD * dMD + dkq * dkq); 80 return kq; } //Khởi tạo ban đầu cụm privatevoid init_k(List pOut) { List objKqht = newList(); objKqht = KqHT.ToList(); Random rd = newRandom(); for (int i = 0; i < n; i++) { int b = rd.Next(0, objKqht.Count); pOut[i] = objKqht[b]; objKqht.Remove(objKqht[b]); } } //Lựa chọn ngẫu nhiên tập mảng privatevoid select_k(List pOut) { Random rd = newRandom(); List objKqht = newList(); objKqht = KqHT.ToList(); int dem = rd.Next(0, n); int b = rd.Next(0, objKqht.Count); pOut[dem] = objKqht[b]; 81 objKqht.Remove(objKqht[b]); } //Chuyển đổi vị trí mảng privatevoid copy_k(List P1, List P2) { for (int i = 0; i < n; i++) { P1[i] = P2[i]; } } privatedouble cost(List k) { double total_rand = 0; var dem = newint[n]; var s_rand = newdouble[n]; foreach (KQHT pnt in KqHT) { double = dist(k[0], pnt); int sav = 0; for (int l = 1; l < n; l++) { if (dist(k[l], pnt) < min) { 82 = dist(k[l], pnt); sav = l; } } s_rand[sav] += min; dem[sav]++; } for (int j = 0; j < n; j++) { if (dem[j] != 0) total_rand += s_rand[j] / dem[j]; } return total_rand; } //Phân cụm theo số cụm publicvoid clust() { List k_rand, temp; double current_cost = 0, temp_cost = 0; current_k = newList(n); for (int i = 0; i < n; i++) current_k.Add(new KQHT()); k_rand = newList(n); 83 for (int i = 0; i < n; i++) k_rand.Add(new KQHT()); bestnode = newList(n); for (int i = 0; i < n; i++) bestnode.Add(new KQHT()); for (int i = 1; i temp_cost) { current_cost = temp_cost; copy_k(current_k, k_rand); j = 1; 84 } else j++; } if (mincost.Equals(0)) { mincost = current_cost; copy_k(bestnode, current_k); } elseif (current_cost < mincost) { mincost = current_cost; copy_k(bestnode, current_k); } } } 85 XÁC NHẬN CỦA GIÁO VIÊN HƢỚNG DẪN Thái nguyên, ngày tháng năm 2013 Học viên Bùi Thị Huế ... thiện 4 CHƢƠNG I: KHAI PHÁ DỮ LIỆU VỚI HỆ THÔNG TIN ĐỊA LÝ 1.1 Khai phá liệu 1.1.1 Khai phá liệu ? 1.1.1.1 Khái niệm khám phá tri thức khai phá liệu Khám phá tri thức sở liệu (Knowledge Discovery... nguồn liệu lĩnh vực mà ta quan tâm Khai phá liệu với GIS hay cịn gọi khai phá liệu khơng gian, mở rộng khai phá liệu CSDL quan hệ, xét thêm thuộc tính liệu khơng gian phản ánh hệ thông tin địa lý, ... vấn đề ứng dụng khai phá liệu không gian với hệ thơng tin địa lý để tìm hiểumối liên hệ nơi cư trú kết học tập với mục tiêu bước đầu thử nghiệm áp dụng số kỹ thuật khai phá liệu thường dùng với