PHƯƠNG PHÁP LAN TRUYỀN ĐỘ TƯƠNG TỰ TRONG PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG. LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

20 2 0
PHƯƠNG PHÁP LAN TRUYỀN ĐỘ TƯƠNG TỰ TRONG PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG. LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG TẠ DUY KHÁNH PHƢƠNG PHÁP LAN TRUYỀN ĐỘ TƢƠNG TỰ TRONG PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên - 2015 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG TẠ DUY KHÁNH PHƢƠNG PHÁP LAN TRUYỀN ĐỘ TƢƠNG TỰ TRONG PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN ĐÌNH HĨA Thái Ngun - 2015 Số hóa Trung tâm Học liệu – ĐHTNii http://www.lrc.tnu.edu.vn LỜI CÁM ƠN Đầu tiên, xin gửi lời cảm ơn sâu sắc đến thầy giáo, cán hướng dẫn khoa học PGS.TS Nguyễn Đình Hóa tận tình hướng dẫn từ buổi tiếp cận với đề tài khoa học Trong trình làm luận văn, tơi nhận giúp đỡ nhiệt tình từ nhóm nghiên cứu TS Lê Hồng Sơn Trung tâm tính tốn hiệu cao, trường ĐH KHTN đề tài NCKH cấp ĐHQG, mã số GG.14.60 Tôi xin bày tỏ lịng biết ơn đến thầy giáo trường Đại học Công nghệ thông tin Truyền thông – Đại học Thái Nguyên, cán Trung tâm Đơng Đơ - Hà Nội, tận tình giảng dạy tạo điều kiện cho học tập, nghiên cứu hồn thành luận văn Tơi xin chân thành cảm ơn bạn học viên lớp CK12H, CK13H – Khoa học máy tính giúp đỡ, tạo điều kiện cho tơi suốt q trình học tập thực luận văn Cuối cùng, xin gửi lời cảm ơn sâu sắc đến gia đình, đồng nghiệp bạn bè tôi, người động viên, tạo điều kiện cho lao động học tập suốt thời gian qua Tôi xin cam đoan luận văn cơng trình nghiên cứu riêng cá nhân tôi, không chép Luận văn tự nghiên cứu, đọc, dịch tài liệu, tổng hợp thực Nội dung lý thuyết luận văn có sử dụng số tài liệu tham khảo trình bày phần tài liệu tham khảo Chương trình phần mềm kết luận văn trung thực chưa công bố hệ thống khác Một lần nữa, xin chân thành cảm ơn! Số hóa Trung tâm Học liệu – ĐHTN i http://www.lrc.tnu.edu.vn MỤC LỤC LỜI CÁM ƠN i MỤC LỤC………………………………………………………………………ii DANH MỤC CÁC TỪ VIẾT TẮT iv DANH MỤC CÁC HÌNH VẼ v MỞ ĐẦU CHƢƠNG 1: HỆ THỐNG THÔNG TIN ĐỊA LÝ VÀ PHÂN CỤM DỮ LIỆU ĐỊA LÝ 1.1 Tổng quan hệ thống thông tin địa lý 1.1.1 Lịch sử đời 1.1.2 Định nghĩa 1.1.3 Các thành phần hệ thống thông tin địa lý 1.1.4 Dữ liệu hệ thống thông tin địa lý 10 1.2 Phân cụm liệu địa lý 11 1.2.1 Phân cụm liệu 11 1.2.2 Một số kỹ thuật phân cụm liệu 12 1.2.2.1 Thuật toán phân cụm theo phân cấp 13 1.2.2.2 Thuật toán phân cụm phân hoạch : Phân cụm k-means 14 1.2.2.3 Phân cụm mờ 16 1.3 Dữ liệu địa lý vấn đề phân cụm đối tƣợng địa lý 17 1.3.1 Cấu trúc liệu GIS 18 1.3.1.1 Hai mơ hình liệu khơng gian 18 1.3.1.2 Dữ liệu thuộc tính 19 1.3.2 Các vấn đề phân cụm liệu địa lý 20 CHƢƠNG 2: PHÂN CỤM BẰNG THUẬT TOÁN LAN TRUYỀN ĐỘ TƢƠNG TỰ 22 2.1 Các khái niệm sở 22 2.1.1 Ý tưởng thuật toán 22 2.1.2 Các cơng thức thuật tốn AP 24 2.1.3 Thuật toán AP nguyên thủy 25 2.2 Thuật tốn lan truyền AP tự thích nghi 27 2.2.1 Phương pháp thích ứng giảm dần 28 2.2.2 Kỹ thuật thích nghi p-scanning 30 Số hóa Trung tâm Học liệu – ĐHTNii http://www.lrc.tnu.edu.vn 2.3 Thuật toán lan truyền AP với tập liệu hỗn hợp kiểu số kiểu phân loại 31 2.3.1 Khoảng cách ý nghĩa 32 2.3.2 Phương pháp 32 2.3.3 Cải thiện độ đo tương tự 34 2.3.4 Thích nghi thuật toán lan truyền 36 CHƢƠNG 3: XÂY DỰNG ỨNG DỤNG PHÂN CỤM DỮ LIỆU ĐỊA LÝ 39 3.1 Bài toán thực tế cách tiếp cận phân cụm liệu 39 3.1.1 Bài toán khai thác liệu quan trắc khí tượng 39 3.1.2 Lựa chọn giải pháp kỹ thuật công nghệ 40 3.2 Các phần mềm GIS 40 3.3 Tìm hiểu phần mềm mã nguồn mở MapWindow 42 3.4 Thiết kế plug-in phần mềm mã nguồn mở Mapwindown 44 3.4.1 Thêm plug-ins từ Visual Studio vào MapWindow 44 3.4.2 Xây dựng ứng dụng với Active X map control Visual Studio 45 Kết chạy thử nghiệm 53 KẾT LUẬN 56 Một số kết đạt luận văn 56 Những hạn chế hướng phát triển 56 TÀI LIỆU THAM KHẢO 57 Số hóa Trung tâm Học liệu – ĐHTNiii http://www.lrc.tnu.edu.vn DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt GIS Từ tiếng Anh Geographical Ý nghĩa Hệ thống thông tin địa lý Information System AP affinity propagation Thuật toán lan truyền độ tương tự CSDL Database Cơ sở liệu SIL Silhouette Công thức Silhouette DEM Digital Elevation Model Mơ hình kỹ thuật số độ cao DTM Digital Terrain Model Mơ hình kỹ thuật số địa hình TIN Triangulated Irregular Lưới tam giác không Network SQL Structured Query Ngôn ngữ truy vấn có cấu trúc Language Số hóa Trung tâm Học liệu – ĐHTNiv http://www.lrc.tnu.edu.vn DANH MỤC CÁC HÌNH VẼ Hình 1.1: Các thành phần hệ thống thơng tin địa lý Gis Hình 1.2: Thuật tốn phân cụm K-means Hình 1.3: Cấu trúc vector raster Hình 2.1: Đồ thị Affinity Propagation (AP) Hình 2.2: Minh họa hiệu ba kỹ thuật rời rạc hóa khác Hình 3.1: Phần mềm mã nguồn mở Mapwindow Hình 3.2: Kiếm tra plug-ins vừa add MapWindow Hình 3.3: Kéo thả Map Control vào form Hình 3.4: Kéo Legend vào form Hình 3.5: Kéo thêm DataGridView vào form Table Hình 3.6: Giao diện plugin APCluster Số hóa Trung tâm Học liệu – ĐHTNv http://www.lrc.tnu.edu.vn MỞ ĐẦU Đặt vấn đề Nguồn liệu dồi cung cấp nhiều thông tin, từ nhân loại đúc rút thành tri thức q trình phát triển xã hội lồi người Với phát triển cơng nghệ điện tốn hệ thống lưu trữ liệu khối lượng tài nguyên số ngày trở nên phong phú đồ sộ Trong xã hội đại, thơng tin đóng vai trị then chốt Nhu cầu xử lý liệu, trích rút thông tin, kịp thời khai thác chúng để mang lại hiệu thiết thực cho công tác quản lý, hoạt động sản xuất kinh doanh,… ngày trở nên cấp thiết Khai phá liệu nói chung để trích rút thơng tin phân cụm liệu nói riêng trọng tâm nghiên cứu khoa học máy tính Phân cụm liệu biện pháp để tìm kiếm tri thức, ta chưa biết nhiều thông tin miền ứng dụng Phân cụm coi công cụ độc lập để xem xét phân bố liệu, bước tiền xử lý cho bước sau Phân cụm liệu có nhiều ứng dụng hầu hết lĩnh vực hoạt động kinh tế, xã hội Có nhiều phương pháp thuật toán phân cụm liệu khác nhau, tùy theo cách tiếp cận tốn góc độ Một phương pháp đề xuất tương đối gần Phương pháp lan truyền độ tương tự Thuật toán lan truyền độ tương tự (Affinity Propagation - AP) thuật toán phân cụm liệu đưa Frey & Dueck vào năm 2007 dựa ý tưởng thuật toán lan truyền độ tin cậy suy diễn mạng xác xuất Bayes, dựa sở toán học lý thuyết xác suất Thuật toán lan truyền làm việc dựa tương đồng (affinity nghĩa giống nhau, tương thích, hấp dẫn) cặp điểm liệu đồng thời xem xét tất điểm liệu tâm cụm tiềm năng, theo thuật ngữ tất điểm liệu hình mẫu (exemplar) tiềm năng, trao đổi thông điệp giá trị thực có tập hình mẫu tốt (phân cụm tương ứng) Số hóa Trung tâm Học liệu – ĐHTN1 http://www.lrc.tnu.edu.vn Thuật toán phân cụm AP có số ưu điểm: cho kết phân cụm tốt, đặc biệt trường hợp có số lượng lớn cụm, phát cụm có hình dáng bất kỳ, không yêu cầu phải xác định trước số cụm Nó cho phép dễ dàng thực phân cụm thỏa mãn số điều kiện xác định trước đó, tức phân cụm bán giám sát Đặc tính thích hợp cho phân cụm liệu GIS ràng buộc điều kiện địa hình tự nhiên quản lý hành cần tính đến toán thực tế Luận văn chọn đề tài “Phương pháp lan truyền độ tương tự phân cụm liệu ứng dụng” hướng nghiên cứu chính, với mục tiêu khám phá điểm mạnh, điểm yếu phương pháp này, hiểu biết sâu thêm cách tiếp cận phân cụm, đồng thời nâng cao kỹ thực hành triển khai ứng dụng Đối tƣợng phạm vi nghiên cứu Đối tượng nghiên cứu phương pháp phân cụm liệu, tập trung vào thuật toán lan truyền độ tương tự Phạm vi nghiên cứu điểm mạnh, điểm yếu tiềm ứng dụng phương pháp lan truyền độ tương tự phân cụm liệu địa lý Hƣớng nghiên cứu đề tài Luận văn dự kiến hướng nghiên cứu là: Nghiên cứu lý thuyết: tìm hiểu sâu thuật toán lan truyền độ tương tự, sở nắm vững chất phương pháp lan truyền độ tin cậy suy diễn mạng xác xuất Bayes dựa sở toán học lý thuyết xác suất Nghiên cứu ứng dụng: Cài đặt thử nghiệm thuật toán với liệu mơ để đánh giá, phân tích đánh giá kết quả; thử với liệu thực tế Những nội dung nghiên cứu Số hóa Trung tâm Học liệu – ĐHTN2 http://www.lrc.tnu.edu.vn Nội dung nghiên cứu luận văn bao gồm: Tìm hiểu tổng quan phân cụm liệu; điểm đặc thù toán phân cụm liệu địa lý; Một số đặc điểm thuật toán lan truyền độ tương tự, sở lý thuyết tốn học phân tích thực nghiệm Về thực hành: Cài đặt thử nghiệm thuật tốn với liệu mơ để đánh giá, phân tích đánh giá kết quả; thử với liệu thực tế Làm quen với hệ thống thông tin địa lý nguồn mở; sở liệu địa lý; cách viết plugin tích hợp phép phân tích liệu địa lý Phƣơng pháp nghiên cứu Phương pháp nghiên cứu lý thuyết: tổng quan, phân tích kết nghiên cứu có, nhận biết ưu nhược điểm, lựa chọn cách tiếp cận phù hợp để giải tốn ứng dụng Nghiên cứu thực nghiệm qua phân tích kết thử nghiệm với liệu mô phỏng; liệu thực tế; so sánh đánh giá kết luận Ý nghĩa khoa học đề tài Đề tài nghiên cứu có ý nghĩa khoa học, góp phần làm hiểu biết sâu sắc phương pháp lan truyền độ tương tự phân cụm liệu Ứng dụng thực tế: phân cụm liệu mơi trường, khơng khí, thời tiết… nhận từ trạm quan trắc khí tượng để xác định tiểu vùng mơi trường khí tượng địa phương, khu vực Bố cục luận văn Luận văn bao gồm chương với phần Mở đầu, phần Kết luận, phần Mục lục, phần Tài liệu tham khảo Chương 1: Tổng quan phân cụm liệu GIS phân cụm liệu địa lý: Trình bày khái niệm bản, cách tiếp cận, phương pháp, thuật tốn; Số hóa Trung tâm Học liệu – ĐHTN3 http://www.lrc.tnu.edu.vn Chú trọng kết biết đánh giá điểm mạnh điểm yếu Số hóa Trung tâm Học liệu – ĐHTN4 http://www.lrc.tnu.edu.vn Chương 2: Phương pháp lan truyền độ tương tự phân cụm liệu Trình bày tổng quan số phương pháp Chương 3: Xây dựng chương trình thử nghiệm Giới thiệu toán thử nghiệm Dữ liệu thử nghiệm Thiết kế hệ thống Viết chương trình thử nghiệm Dự định sử dụng ngơn ngữ lập trình C# để xây dựng chương trình demo Kết luận hướng phát triển luận văn Số hóa Trung tâm Học liệu – ĐHTN5 http://www.lrc.tnu.edu.vn CHƢƠNG HỆ THỐNG THÔNG TIN ĐỊA LÝ VÀ PHÂN CỤM DỮ LIỆU ĐỊA LÝ 1.1 Tổng quan hệ thống thông tin địa lý 1.1.1 Lịch sử đời Từ lâu đồ cơng cụ thơng tin quen thuộc lồi người Trong trình phát triển kinh tế kĩ thuật, đồ cải tiến cho ngày đầy đủ thơng tin xác Với đa dạng loại đồ việc thể đối tượng khác bề mặt trái đất, nhà quy hoạch nhận thức cần thiết xử lý đồng thời nhiều đồ Các mơ hình đồ họa cổ điển xử lý thơng tin đồ gặp nhiều khó khăn xử lý đồng thời liệu không gian liệu thuộc tính Điều dẫn đến phát triển phương pháp kỹ thuật xử lý tổng hợp thông tin nhằm phục vụ tốt cho công tác quy hoạch định Trong năm đầu thập kỉ 60 (1963-1964) nhà khoa học Canada cho đời hệ thông tin địa lý Hệ thống thông tin địa lý kế thừa thành tựu ngành đồ ý tưởng lẫn thành tựu kỹ thuật đồ Hệ thông tin địa lý bắt đầu hoạt động việc thu thập liệu theo định hướng tuỳ thuộc vào mục tiêu đặt Cùng với Canada, trường đại học Mỹ tiến hành nghiên cứu xây dựng hệ thống thông tin địa lý ngày nhu cầu sử dụng, nghiên cứu hệ thống thông tin địa lý quan tâm nhiều Một số mốc lịch sử q trình hình thành phát triển cơng nghệ GIS:  1963 – Phịng đồ họa vi tính trường đại học tổng hợp Harvard (R.Fisher, J Dangermond, D Sinton, N Chrisman, G Dutton, S Morehouse, T.Peuker) Số hóa Trung tâm Học liệu – ĐHTN6 http://www.lrc.tnu.edu.vn  1963 – thành lập Hiệp hội hệ thống thông tin đô thị khu vực (URISA)  1964 – Symap đời (Hệ thống phần mềm vẽ đồ sở Đại học tổng hợp Harvard xây dựng)  Giữa năm 1960 – Tổng cục điều tra dân số Mỹ xây dựng quy trình vẽ đồ địa theo địa (D Cooke, M White xây dựng lý thuyết quan hệ không gian cho liệu địa lý)  1967 – GIS Canađa đời (R Tomlinson tác giả thuật ngữ GIS)  1967 – Thành lập Cơ quan đo vẽ đồ thực nghiệm Anh (Boyle, Rhind)  1969 – Thành lập Intergraph ESRI (Dangermond Morehouse)  1973 – Các hội nghị Hệ thống thông tin đô thị (URPIS) tổ chức Australia dẫn đến thành lập Tổ chức hệ thống thông tin thị Ơxtrâylia (AURISA) vào năm 1975  1974 – Các hội nghị AutoCarto tổ chức  1973 – ODYSSEY (tiền thân phần mềm GIS trường đại học Harvard xây dựng) đời  1978 – Hệ thống hiển thị thông tin nội địa Nhà Trắng (Mỹ) đời  1980 – Phần mềm ArcINFO đời  1987 - Phần mềm MapINFO đời  1987- Tạp chí GIS quốc tế đời 1.1.2 Định nghĩa Hệ thông tin địa lý GIS (Geographical Information System) tập hợp công cụ để thu thập, lưu trữ, chỉnh sửa, truy cập, phân tích cập nhật thơng Số hóa Trung tâm Học liệu – ĐHTN7 http://www.lrc.tnu.edu.vn tin địa lý cho mục đích chuyên biệt Ngồi có nhiều định nghĩa khác GIS: GIS công cụ sở máy tính để lập đồ phân tích tượng tồn kiện xảy trái đất (Environmental System Research Institute ESRI – Mỹ) GIS hệ thống phần cứng, phần mềm thủ tục thiết kế nhằm thu thập, quản lý, xử lý, phân tích, mơ hình hóa hiển thị liệu quy chiếu không gian để giải vấn đề quản lý lập kế hoạch (National Center for Geography Information and Analysis NCGIA – Mỹ) GIS tập hợp nguyên lý, phương pháp, dụng cụ liệu quy chiếu không gian sử dụng để nhập, lưu trữ, chuyển đổi, phân tích, lập mơ hình, mơ lập đồ tượng, kiện trái đất, nhằm sản sinh thông tin thiết thực hổ trợ cho việc định (Thesriault – Canada) 1.1.3 Các thành phần hệ thống thông tin địa lý GIS bao gồm thành phần là: phần cứng, phần mềm, liệu, người sách Hình 1.1: Các thành phần hệ thống thơng tin địa lý Gis Số hóa Trung tâm Học liệu – ĐHTN8 http://www.lrc.tnu.edu.vn Phần cứng Phần cứng hệ thống thiết bị có nhiệm vụ chạy chương trình GIS nhằm thực u cầu thu thập, phân tích, tính tốn, xử lý, truy vấn liệu Hệ thống phần cứng gồm:  Thiết bị nhập: Chuột, bàn phím, máy quét ảnh, bàn số hoá, máy quét đồ  Thiết bị xử lý: Máy tính - cụ thể xử lý trung tâm  Thiết bị xuất: Máy in, máy chiếu, máy vẽ  Thiết bị lưu trữ: Đĩa từ, đĩa quang, đĩa cứng Phần mềm Tuỳ vào nhu cầu sử dụng tuỳ vào sản phẩm mà phần mềm khác Tuy nhiên, thành phần phần mềm GIS gồm có :  Nhập tìm kiếm liệu  Lưu trữ quản lý sở liệu  Xuất liệu  Chỉnh sửa liệu  Tương tác với người sử dụng Dữ liệu Có thể coi liệu thành phần quan trọng hệ thống sở liệu hệ thống GIS Dữ liệu thu thập từ trắc địa, viễn thám mua lại từ nhà cung cấp để xử lý, phân tích, sở để phát triển nghiên cứu GIS Hệ GIS kết hợp liệu không gian với nguồn liệu khác, chí sử dụng hệ quản trị sở liệu để tổ chức lưu giữ quản lý liệu Số hóa Trung tâm Học liệu – ĐHTN9 http://www.lrc.tnu.edu.vn Con người Là đối tượng sử dụng GIS vào việc học tập, nghiên cứu, định Người sử dụng GIS chuyên gia kỹ thuật, người thiết kế trì hệ thống, người dùng GIS để giải vấn đề cơng việc Chính sách Là yếu tố quan trọng định đến thành công việc phát triển công nghệ GIS 1.1.4 Dữ liệu hệ thống thông tin địa lý Cơ sở liệu GIS sở liệu mà lĩnh vực công tác quản lý tài nguyên môi trường cần đến sử dụng chúng Cơ sở liệu GIS phần giao sở liệu công tác quản lý tài nguyên môi trường Cơ sở liệu GIS bao gồm hai phần:  Cơ sở liệu không gian (bản đồ nền)  Cơ sở liệu thuộc tính chung Bản đồ Bản đồ đồ bao gồm yếu tố sở địa lý Nó sở để xác định vị trí địa lý đối tượng liệu chuyên ngành Nền sở địa lý đồ tập hợp yếu tố thuỷ văn, giao thông, dân cư, biên giới quốc gia, địa giới hành chính, địa danh địa hình để làm sở thể cách nội dung khác đồ Bản đồ phân thành hai nhóm: đồ địa lý chung địa lý chuyên đề Bản đồ địa lý chung đồ thể đối tượng, tượng địa lý bề mặt trái đất, bao gồm đầy đủ đối tượng tượng kinh tế, văn Số hóa Trung tâm Học liệu – ĐHTN10 http://www.lrc.tnu.edu.vn hóa, xã hội thủy văn, địa hình, thực vật, đất đai, dân cư, giao thơng, cơng nghiệp, nơng nghiệp, lâm nghiệp văn hóa, hành – trị Bản đồ địa lý chuyên đề loại đồ thể rõ ràng, bật hoàn thiện yếu tố thể đồ địa lý chung Cơ sở liệu thuộc tính chung Là số liệu phi không gian mô tả đặc tính, đặc điểm tượng xảy vị trí địa lý xác định, ví dụ: tên đường phố, số lượng dân số khu vực, lượng mưa hàng năm khu vực Trên đồ, vật giới thực thể qua tập điểm, đường miền, cịn ký hiệu, nhãn thể thơng tin thuộc tính vật 1.2 Phân cụm liệu địa lý 1.2.1 Phân cụm liệu Phân cụm liệu kỹ thuật khai phá liệu nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên tiềm ẩn quan trọng tập liệu lớn để từ cung cấp thông tin, tri thức cho việc định Phân cụm liệu phân chia sở liệu lớn thành nhóm liệu mà đối tượng tương tự “Phân cụm liệu trình tổ chức đối tượng thành nhóm mà đối tượng nhóm tương tự theo tính chất đó, đối tượng khơng tương tự tính chất nhóm khác.” Dữ liệu địa lý liệu bao gồm liệu khơng gian liệu thuộc tính kết hợp với cách tương ứng Dữ liệu địa lý đồ số máy vi tính, mơ hình mơ hình dáng bề mặt trái đất, sở liệu ảnh bề mặt trái đất Số hóa Trung tâm Học liệu – ĐHTN11 http://www.lrc.tnu.edu.vn Dữ liệu địa lý ngày phát triển với lượng liệu ngày lớn phức tạp hơn, đòi hỏi nhà nghiên cứu cần có phương pháp, kỹ thuật để phân tích khai phá liệu hiệu Trong năm gần đây, việc nghiên cứu khai phá liệu có xu hướng chuyển từ sở liệu quan hệ sở liệu giao dịch sang sở liệu không gian Khám phá tri thức từ liệu khơng gian thực nhiều hình thức khác sử dụng quy tắc đặc trưng định, trích rút mô tả cấu trúc cụm bật, kết hợp không gian Ứng dụng phân cụm liệu địa lý Phân cụm liệu địa lý ứng dụng nhiều lĩnh vực khác nhau:  Y tế: Xác định khoanh vùng ổ dịch giúp cho việc điều trị, quản lý, phòng chống lây lan sang khu vực khác  Nông – lâm nghiệp: Nhận dạng vùng đất, điều kiện địa lý phù hợp với loại trồng tương ứng  Sinh học: Phân loại động – thực vật thông qua Gen tương đồng chúng  Kinh tế: Phân cụm nhóm khách hàng quan trọng theo vùng miền  Xã hội – phòng chống tội phạm: Khoanh vùng khu vực điểm nóng tội phạm 1.2.2 Một số kỹ thuật phân cụm liệu - Thuật toán phân cụm kiểu phân cấp hai dạng – gộp dần, chia tách dần "từ xuống" Gộp dần: bắt đầu với cụm Số hóa Trung tâm Học liệu – ĐHTN12 http://www.lrc.tnu.edu.vn phần tử , hợp liên tiếp thành cụm ngày lớn Chia tách : bắt đầu với toàn tập hợp, phân chia tiếp thành cụm nhỏ - Kiểu phân hoạch thường xác định tất cụm lần, lúc Cũng sử dụng thuật tốn chia tách nói - Dựa mật độ để khám phá cụm hình dạng tùy ý Một cụm vùng, mật độ đối tượng liệu vượt ngưỡng DBSCAN OPTICS hai thuật tốn điển hình loại 1.2.2.1 Thuật tốn phân cụm theo phân cấp Tạo hệ thống cụm, biểu diễn cấu trúc Gốc cụm có chứa tất phần tử, tương ứng với phần tử Các thuật toán : gộp dần chia tách dần Có thể sử dụng độ đo hợp lệ tương tự cặp quan sát (phần tử) Chọn cụm để sáp nhập chia tách theo tiêu chí nối liên kết, hàm khoảng cách đôi quan sát Cắt độ cao định cho phân cụm đạt độ xác chọn Thông thường, khoảng cách hai cụm A,B độ đo sau đây: • Khoảng cách tối đa cặp phần tử cụm (còn gọi phân cụm liên kết đầy đủ): max{ d(x,y): , } • Khoảng cách tối thiểu cặp phần tử cụm (còn gọi phân cụm liên kết đơn lẻ - single link): min{ d(x,y): , } Số hóa Trung tâm Học liệu – ĐHTN13 http://www.lrc.tnu.edu.vn

Ngày đăng: 03/08/2022, 00:57

Tài liệu cùng người dùng

Tài liệu liên quan