TIỂU LUẬN MÔN CƠ SƠ DỮ LIỆU NÂNG CAO PHƯƠNG PHÁP PHÂN TÍCH CỤM TRONG KHAI PHÁ DỮ LIỆU KHÔNG GIAN

16 560 1
TIỂU LUẬN MÔN CƠ SƠ DỮ LIỆU NÂNG CAO PHƯƠNG PHÁP PHÂN TÍCH CỤM TRONG KHAI PHÁ DỮ LIỆU KHÔNG GIAN

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  &  Bài tập lớn Cơ sở dữ liệu nâng cao Đề tài: Phương pháp phân tích cụm trong khai phá dữ liệu không gian Giảng viên : PGS.TS Nguyễn Hà Nam Nhóm thực hiện : Nhóm 19 Sinh viên thực hiện : Khúc Ngọc Hiệp Nguyễn Quang Minh Hà Nội – 3/2012 1 Mục lục Mục lục 2 Danh sách hình vẽ 3 Giới thiệu 4 1.Cơ sở dữ liệu không gian 5 1.1 Định nghĩa 5 1.2 Các đặc điểm của cơ sở dữ liệu không gian 5 2.Khai phá dữ liệu không gian 8 2.1 Định nghĩa 8 2.2 Đặc điểm của khai phá dữ liệu không gian 8 3.Phân tích phân cụm 11 3.1 Giới thiệu về phân tích phân cụm 11 3.2 Các thuật toán phân cụm 12 3.3 Phân cụm theo phân bố 12 4.Kết luận 15 5.Tài liệu tham khảo 16 2 Danh sách hình vẽ Hình 1: Kiểu dữ liệu không gian trong Oracle Spatial 6 Hình 2: Kiểu dữ liệu không gian trong DB2 Spatial Extender 6 Hình 3: Thứ tự đánh chỉ số trong R-tree 7 Hình 4: Mối liên hệ không gian giữa các mức trong R-tree 7 Hình 5: Các hình với hình dạng đặc biệt 12 Hình 6: Phương pháp phân cụm EM-clustering 14 3 Giới thiệu Cơ sở dữ liệu không gian là cơ sở dữ liệu được thiết kế để xử lý dữ liệu không gian, nó thường được sử dụng cho rất nhiều lĩnh vực từ dữ liệu không gian địa lý đến kiến thức về công nghệ y học, và các cơ sở dữ liệu không gian được sử dụng ngày càng nhiều. Lượng dữ liệu không gian được thu thập cũng tăng vô cùng nhanh theo hàm mũ. Độ phức tạp của các dữ liệu được chứa đựng trong các cơ sở dữ liệu có nghĩa là con người không thể phân tích một cách hoàn toàn các dữ liệu đã được thu thập. Các kỹ thuật khai phá dữ liệu đã được sử dụng với các cơ sở dữ liệu quan hệ để khám phá các thông tin chưa biết, tìm các kết quả không mong đợi và các tương quan. Các cơ sở dữ liệu vô cùng lớn đòi hỏi các kỹ thuật mới để phân tích dữ liệu và khám phá những các mẫu như trên. Các thuật toán tìm kiếm truyền thống có thể vẫn có câu trả lời cho một số phần của thông tin, tuy nhiên các kỹ thuật cũ đã hoàn toàn không thể thực hiện các tìm kiếm cho các mẫu chưa biết đến trong dữ liệu. Phần sau đây của báo cáo sẽ tìm hiểu về cơ sở dữ liệu không gian, các kỹ thuật trong khai phá dữ liệu không gian để giải quyết bài toán ở trên, và đi sâu vào tìm hiểu các thuật toán phân cụm ứng dụng trong khai phá dữ liệu không gian. 4 1. Cơ sở dữ liệu không gian 1.1 Định nghĩa Cơ sở dữ liệu không gian là một loại đặc biệt của cơ sở dữ liệu mà nó được tối ưu hóa để lưu trữ và truy vấn các dữ liệu liên quan đến các đối tượng trong không gian bao gồm điểm, đường, đa giác và mặt. Trong khi các cơ sở dữ liệu điển hình có thể hiểu các kiểu dữ liệu dạng số và ký tự, cơ sở dữ liệu không gian phải có các chức năng được xây dựng thêm để xử lý các dữ liệu không gian. Güting (1994) định nghĩa cơ sở dữ liệu không gian là một kiểu của cơ sở dữ liệu mà có các đặc tính sau: • Là một cơ sở dữ liệu • Có các kiểu dữ liệu không gian trong mô hình dữ liệu và ngôn ngữ truy vấn của nó • Hỗ trợ các kiểu dữ liệu không gian và cung cấp ít nhất là chỉ số không gian (spatial indexing) và một thuật toán hiệu quả cho phép kết không gian (spatial joins). 1.2 Các đặc điểm của cơ sở dữ liệu không gian Cơ sở dữ liệu không gian cho phép quản lý và xử lý các dữ liệu liên quan đến bản đồ. Phần sau đây sẽ nói về các đặc điểm của nó, bao gồm các kiểu dữ liệu không gian, đánh chỉ số không gian (spatial indexing) và phép kết không gian. Các kiểu dữ liệu không gian Các cơ sở dữ liệu truyền thống được thiết kế để quản lý và xử lý dữ liệu chữ-số thể hiện bởi chuỗi các ký tự, giá trị số, ngày tháng và giá trị đúng sai. Nó không có sự chuẩn bị để hỗ trợ để lưu trữ và xử lý dữ liệu không gian mà được thể hiện bởi các điểm, đường, đa giác và bề mặt. Các cơ sở dữ liệu hướng đối tượng và cơ sở dữ liệu quan hệ cho phép người dùng định nghĩa các kiểu dữ liệu trừu tượng mô tả cấu trúc cột phức tạp trong cơ sở dữ liệu. Một vài nhà cung cấp phần mềm cơ sở dữ liệu đã sử dụng khả năng này để định nghĩa các kiểu dữ liệu không gian cho phép sản phẩm của họ quản lý và xử lý tốt các dữ liệu không gian. Mỗi nhà cung cấp phần mềm cơ sở dữ liệu cài đặt một cách khác nhau, ví dụ Oracle Spatial có chín kiểu dữ liệu không gian cơ bản bao gồm điểm, đường thẳng, đường cong, đường phức hợp, đa giác, đa giác cong, đa giác phức hợp, hình tròn và hình chữ nhật. Trong khi đó, DB2 Spatial Extender của IBM lại sử dụng thuật ngữ hình học để mô tả các kiểu dữ liệu không gian của nó với điểm, đa điểm, đường, đa đường, đa giác, hợp đa giác và ellipse. 5 Trong khi các thuật ngữ được sử dụng khác nhau, các mô hình dữ liệu cơ bản và các hàm và phép toán lại khá là nhất quán. Hình 1: Kiểu dữ liệu không gian trong Oracle Spatial Hình 2: Kiểu dữ liệu không gian trong DB2 Spatial Extender Đánh chỉ số dữ liệu không gian Đánh chỉ số dữ liệu không gian cũng có mục đích tương tự như trong các cơ sở dữ liệu truyền thống, là để nhanh chóng tìm kiếm được giá trị mong muốn từ cơ sở dữ liệu không gian, tuy nhiên nó phức tạp hơn rất nhiều vì nó phải làm việc với không gian hai chiều hơn là một mảng các dữ liệu dạng ký tự trong các bảng. Một khái niệm cơ bản trong đánh chỉ số không gian đó là nó sử dụng xấp xỉ bởi đó quá trình truy cập dữ liệu không gian dần dần thu hẹp vùng tìm kiếm của nó cho đến khi tìm thấy đối tượng mong muốn. Có rất nhiều phương pháp đánh chỉ số được sử dụng cho các cơ sở dữ liệu không gian , một trong số những phương pháp được sử dụng nhiều nhất là R-tree. 6 Hình 3: Thứ tự đánh chỉ số trong R-tree Hình 4: Mối liên hệ không gian giữa các mức trong R-tree Phép kết không gian (spatial joins) Phép kết không gian là một truy vấn trong đó nó so sánh hai hay nhiều hình dựa vào vị trí của chúng. Về mặt chức năng, phép kết không gian có mục đích tương tự với các phép kết trong cơ sở dữ liệu thông thường , tuy nhiên nó bổ sung thêm các toán tử không gian như là nằm trên (overlay), đan xen (intersect), chứa, hợp. Trong thực tế, phép kết không gian là truy vấn quan trọng nhất trong các truy vấn không gian vì nó cung cấp cơ chế để so sánh hai hay nhiều lớp trong các hàm phân tích không gian như là phân tích một đối tượng có nằm trên đối tượng khác hay không. 7 2. Khai phá dữ liệu không gian Cơ sở dữ liệu không gian đầu tiên được thiết kế và cài đặt chủ yếu để quản lý dữ liệu. Vì quá trình phát triển tập trung vào cấu trúc dữ liệu và xử lý giao dịch, các hệ thống đầu tiên này thường yếu về các chức năng phân tích dữ liệu, với kết quả là chúng hiếm khi được sử dụng để hỗ trợ thực thi và quản lý ra quyết định. Sự tích hợp tăng cường của các cơ sở dữ liệu không gian với xu hướng chính của công nghệ cơ sở dữ liệu đã ngày càng cho thấy tầm quan trọng và giá trị của dữ liệu không gian trong các quá trình ra quyết định trong các tổ chức. Xu hướng mới nổi lên này trong việc sử dụng dữ liệu không gian để hỗ trợ ra quyết định được hưởng lợi rất nhiều từ sự tiến bộ song song trong khai phá tri thức trong các cơ sở dữ liệu lớn sử dụng khái niệm và kỹ thuật hiện nay thường được biết đến như là khai phá dữ liệu hoặc khám phá kiến thức trong cơ sở dữ liệu. 2.1 Định nghĩa Khai phá dữ liệu không gian là một lĩnh vực ứng dụng đặc biệt của khai phá dữ liệu. Nó được đặt nền móng từ khai phá dữ liệu truyền thống và dựa chủ yếu vào các công nghệ khai phá dữ liệu tổng quát để điều khiển các thuộc tính của dữ liệu không gian. Khai phá dữ liệu không gian là quá trình khám phá các mẫu đáng chú ý, có ích tiềm tàng, chưa biết trước từ các tập dữ liệu không gian lớn. Phân tích các mẫu đáng chú ý và có ích từ các tập dữ liệu không gian khó hơn rất nhiều so với việc phân tích các mẫu tương ứng từ các dữ liệu chữ-số truyền thống bởi vì sự phức tạp của các kiểu dữ liệu không gian và các mối quan hệ không gian. Để sử dụng các kỹ thuật và khái niệm của khai phá dữ liệu trong lĩnh vực không gian, chúng ta phải cải tiến chúng về cả lý thuyết và kỹ thuật để phù hợp với các tính chất của dữ liệu không gian và đáp ứng được yêu cầu của người sử dụng trong ra quyết định không gian. 2.2 Đặc điểm của khai phá dữ liệu không gian Khai phá dữ liệu không gian phức tạp hơn khai phá dữ liệu truyền thống rất nhiều do đặc thù của dữ liệu không gian: • Cấu trúc dữ liệu không gian. Dữ liệu không gian thường mang thông tin về vị trí và địa hình, thường được tổ chức bằng các cấu trúc đánh chỉ số phức tạp và được truy xuất bởi các phương pháp truy xuất không gian. 8 • Tập dữ liệu không gian. Các cơ sở dữ liệu không gian luôn chứa một lượng lớn dữ liệu thật sự và nó thường có định dạng và chất lượng hỗn tạp và đòi hỏi một lượng tính toán đáng kể để làm sạch và lựa chọn chúng để sử dụng trong khai phá dữ liệu. • Thu thập dữ liệu không gian. Rất nhiều dữ liệu không gian được sử dụng ngày nay đã được thu thập bằng cách lấy mẫu và được cung cấp tạm thời dưới dạng tập hợp. Đặc tính này có nghĩa là những thông tin hay thay đổi có thể bị mất bởi vì thiết kế lấy mẫu và phiên dịch trong thu thập dữ liệu, tính toán và các quá trình biên dịch. • Phụ thuộc không gian. Các đặc điểm của không gian thường liên hệ với nhau về bản chất, vì vậy thường là khó hoặc không thể khám phá ra các kiến thức ẩn trong dữ liệu nếu không có kiến thức trước về các đặc tính của tập dữ liệu cần phân tích. Kiến thức đó thường không dễ để tìm thấy. • Tính tạm thời của dữ liệu không gian. Đặc điểm của không gian là liên hệ và kết nối với nhau về mặt thời gian. Bởi vì dữ liệu không gian ghi lại trạng thái của các đặc điểm chỉ tại một thời điểm nhất định, thông tin của trạng thái trước đó rất hiếm khi được ghi lại và lưu giữ trong cơ sở dữ liệu không gian. Các nhân tố khác liên quan đến những kỹ thuật và khái niệm của kiến thức không gian. Nó bao gồm: • Các kỹ thuật khai phá dữ liệu không gian. Khai phá dữ liệu không gian đòi hỏi tính toán hình học và các phép toán không gian, điều này chỉ có thể có trong cơ sở dữ liệu không gian, điều đó ngụ ý rằng khai phá dữ liệu không gian đòi hỏi tích hợp chặt chẽ và dựa chủ yếu trên các kỹ thuật cơ sở dữ liệu không gian phức tạp. • Các mô hình khái niệm dữ liệu không gian. Sự thiếu hụt rõ ràng một mô hình chung được chấp nhận của địa lý học đã gây ra những khó khan trong hình thức hóa miền dữ liệu không gian. Điều này đã tạo ra các cách cài đặt khác nhau của các cơ sở dữ liệu không gian từ những cơ sở dữ liệu chính. Khai phá dữ liệu không gian vì vậy được mô tả bởi cả sự phức tạp cố hữu của của dữ liệu không gian và sự phức tạp trong các kỹ thuật cài đặt. Nó khác so với khai phá dữ liệu truyền thống theo những cách sau: • Khai phá dữ liệu không gian liên quan tới kiến thức không gian trong không gian địa lý hai hoặc ba chiều, trong khi khai phá dữ liệu truyền thống chỉ liên quan tới kiến thức trong một không gian riêng rẽ. • Không giống như khai phá dữ liệu truyền thống, khai phá dữ liệu không gian không chỉ làm việc với các dữ liệu rõ ràng dạng chữ-số, mà nó còn phải làm việc với các dữ liệu mở rộng như điểm, đường, vùng, mặt… • Khai phá dữ liệu không gian tập trung vào khám phá kiến thức cục bộ, nhưng khai phá dữ liệu truyền thống lại có xu hướng khám phá dữ liệu toàn cục 9 • Khai phá dữ liệu không gian dựa chủ yếu vào khái niệm về lân cận • Các vị từ trong khai phá dữ liệu không gian (nằm trên, gần, đan xen, nằm trong…) là ẩn và với số lượng lớn, trong khi đó các vị từ của khai phá dữ liệu truyền thống (bằng, lớn hơn, nhỏ hơn …) là rõ ràng và giới hạn. 10 [...]... hướng không gian và phân cụm dữ liệu không gian Các thuật toán phân lớp dữ liệu không gian và phân tích xu hướng không gian được phát triển và kiểm thử, tuy nhiên nó đòi hỏi tính toán rất lớn đặc biệt là với tập lớn dữ liệu Phương pháp thú vị nhất và được phát triển rất tốt để thao tác và làm sạch dữ liệu không gian để chuẩn bị cho phân tích khai phá dữ liệu không gian được chỉ ra là sử dụng phân tích phân. ..3 Phân tích phân cụm Ở phần trước chúng ta đã tìm hiểu về khai phá dữ liệu không gian Để khai phá thành công một cơ sở dữ liệu không gian được thu thập với số lượng vô cùng lớn đòi hỏi phải có các kỹ thuật bổ trợ cho thao tác và làm sạch dữ liệu để chuẩn bị cho phân tích chúng Có ba phương pháp được đưa ra và phát triển để hỗ trợ chuẩn bị dữ liệu bao gồm phân lớp dữ liệu không gian, phân tích xu... rất nhiều phương pháp được đưa ra để tiến hành phân cụm, tuy nhiên có thể chia thành ba loại chính bao gồm phân cụm thứ bậc, phân cụm dựa vào tâm, phân cụm theo phân bố và phân cụm theo mật độ Mặc dù có sự tương đồng giữa phân cụm dữ liệu không gian và phân cụm dữ liệu truyền thống, tuy nhiên các cơ sở dữ liệu lớn và các cơ sở dữ liệu không gian có các yêu cầu riêng cho các thuật toán phân cụm: 1 Cần... phân cụm Phần sau đây sẽ tìm hiểu chi tiết về phương pháp phân cụm dữ liệu không gian 3.1 Giới thiệu về phân tích phân cụm Phân tích cụm hay phân cụm là công việc gán một tập các đối tượng lại thành các nhóm (cụm) sao cho các đối tượng trong cùng một cụm là giống nhau (theo một tiêu chí nào đó) hơn so với các đối tượng nằm trong các cụm khác Phân cụm là một trong những nhiệm vụ chính của khai phá dữ liệu, ... tìm hiểu các phương pháp phân cụm ứng dụng trong khai phá dữ liệu không gian Có rất nhiều thuật toán khác nhau để phân cụm dữ liệu không gian, tuy nhiên do thời gian có hạn nên nhóm mới chỉ tìm hiểu được thuật toán phân cụm theo phân bố Hướng phát triển của nhóm là tìm hiểu thêm một số thuật toán phân cụm khác để so sánh hiệu quả của các thuật toán với nhau cho dữ liệu không gian 15 5 Tài liệu tham khảo... cấp một phương pháp phân cụm nhanh và tự nhiên cho các cơ sở dữ liệu lớn Nó tự động quyết định được số lượng cụm cần phải tạo ra Tuy nhiên, sử dụng thuật toán này sẽ đẩy thêm gánh nặng cho người sử dụng: phải chọn một mô hình dữ liệu phù hợp để tối ưu 14 4 Kết luận Trong khuôn khổ của bài tập lớn, nhóm đã tìm hiểu về cơ sở dữ liệu không gian, các kỹ thuật trong khai phá dữ liệu không gian và đã đi sâu... yêu cầu có kiến thức trước về dữ liệu hoặc yêu cầu số lượng cụm để tạo ra, và vì vậy không yêu cầu miền kiến thức đầu vào từ người sử dụng Các phương pháp phân cụm khác nhau đều có những mặt mạnh và mặt yếu riêng của mình Phần dưới đây sẽ trình bày chi tiết về phương pháp phân cụm theo phân bố 3.3 Phân cụm theo phân bố Phân cụm theo phân bố là một quá trình lặp đối với dữ liệu đầu vào Mỗi bảng ghi đầu... với một lượng lớn dữ liệu 2 Các thuật toán phải có thể xác định được các hình không theo quy luật, bao gồm các vết lõm, các kẽ hở và các hình lồng nhau Hình 5: Các hình với hình dạng đặc biệt 3 Các phương pháp phân cụm không nhạy cảm với lượng lớn nhiễu 4 Các thuật toán không nhạy cảm với thứ tự của dữ liệu vào, tức là kết quả phân tích phân cụm không phụ thuộc vào thứ tự của dữ liệu 5 Không yêu cầu có... sánh 12 Phân cụm theo phân bố sử dụng tiêu chuẩn gà chọi để quản lý tính toán của độ giống nhau giữa các bản ghi, giữa bản ghi với các cụm và giữa các cụm với các cụm Tiêu chuẩn gà chọi đánh giá tính đồng nhất của mỗi cụm đã được phát hiện và và tính đồng nhất giữa các cụm đã được phát hiện Quá trình lặp để phát hiện các cụm sẽ dừng lại sau khi một hoặc nhiều lần quét qua dữ liệu đầu vào nếu không có... vào nếu không có thêm thời gian để quét lần nữa hoặc nếu sự cải thiện của các cụm theo tiêu chuẩn gà chọi không biện minh cho một lần quét mới Thông thường, dữ liệu nhân khẩu học bao gồm số lượng lớn của các biến chủng loại, vì vậy rất phù hợp với phương pháp phân cụm theo phân bố Mô hình phân cụm này liên hệ chặt chẽ với các thống kê dựa trên dựa trên các mô hình phân bố Các cụm có thể được định nghĩa . 4 1 .Cơ sở dữ liệu không gian 5 1.1 Định nghĩa 5 1.2 Các đặc điểm của cơ sở dữ liệu không gian 5 2 .Khai phá dữ liệu không gian 8 2.1 Định nghĩa 8 2.2 Đặc điểm của khai phá dữ liệu không gian 8 3 .Phân. hiểu các thuật toán phân cụm ứng dụng trong khai phá dữ liệu không gian. 4 1. Cơ sở dữ liệu không gian 1.1 Định nghĩa Cơ sở dữ liệu không gian là một loại đặc biệt của cơ sở dữ liệu mà nó được tối. của dữ liệu không gian và đáp ứng được yêu cầu của người sử dụng trong ra quyết định không gian. 2.2 Đặc điểm của khai phá dữ liệu không gian Khai phá dữ liệu không gian phức tạp hơn khai phá dữ

Ngày đăng: 08/07/2015, 16:06

Từ khóa liên quan

Mục lục

  • Mục lục

    • Danh sách hình vẽ

    • Giới thiệu

    • 1. Cơ sở dữ liệu không gian

      • 1.1 Định nghĩa

      • 1.2 Các đặc điểm của cơ sở dữ liệu không gian

      • 2. Khai phá dữ liệu không gian

        • 2.1 Định nghĩa

        • 2.2 Đặc điểm của khai phá dữ liệu không gian

        • 3. Phân tích phân cụm

          • 3.1 Giới thiệu về phân tích phân cụm

          • 3.2 Các thuật toán phân cụm

          • 3.3 Phân cụm theo phân bố

          • 4. Kết luận

          • 5. Tài liệu tham khảo

Tài liệu cùng người dùng

Tài liệu liên quan