Các mô hình khai phá dữ liệu

Mô hình khai phá dữ liệu là mô tả về phương pháp, cách thức khai phá thông tin từ dữ liệu và định hướng kiểu tri thức cần khai phá.

Một mô hình khai phá dữ liệu có thể được mô tả ở 2 mức:

Mức chức năng (Function level): Mô tả mô hình bằng những thuật ngữ về dự định sử dụng. Ví dụ: Phân lớp, phân cụm…

Mức biểu diễn (Representation level): Biểu diễn cụ thể một mô hình. Ví dụ: Mô hình log-linear, cây phân lớp, phương pháp láng giềng gần nhất…

Các mô hình khai phá dữ liệu dựa trên 2 kiểu học: có giám sát và không giám sát (đôi khi được nói đến như là học trực tiếp và không trực tiếp -directed and undirected learning) [ODC03].

Các hàm học có giám sát (Supervised learning functions) được sử dụng để dự đoán giá trị. Một ví dụ của thuật toán học có giám sát bao gồm Naive Bayes cho phân lớp (classification).

Các hàm học không giám sát được dùng để tìm ra cấu trúc bên trong, các quan hệ hoặc tính giống nhau trong nội dung dữ liệu nhưng không có lớp hay nhãn

nào được gán ưu tiên. Ví dụ của các thuật toán học không giám sát gồm phân nhóm k-mean (k-mean clustering) và các luật kết hợp Apriori.

Tương ứng có 2 loại mô hình khai phá dữ liệu:

Các mô hình dự báo (học có giám sát):

- Phân lớp: nhóm các đối tượng thành các lớp riêng biệt và dự đoán một đối tượng sẽ thuộc vào lớp nào.

- Hồi qui (Regression): xấp xỉ hàm và dự báo các giá trị liên tục

Các mô hình mô tả (học không giám sát):

- Phân cụm (Clustering): Tìm các nhóm tự nhiên trong dữ liệu - Các mô hình kết hợp (Association models): Phân tích “giỏ hàng”

- Trích chọn đặc trưng (Feature extraction): Tạo các thuộc tính (đặc trưng) mới như là kết hợp của các thuộc tính ban đầu

2.2.4. Các hướng tiếp cận và kỹ thuật sử dụng trong khai phá dữ liệu

Xuất phát từ hai mô hình khai phá dữ liệu chủ yếu như đã đề cập ở trên, các bài toán (hay chức năng) khai phá dữ liệu giải quyết thường được phân chia thành các dạng sau [HK06]:

Mô tả khái niệm (concept description & summarization): . Tổng quát, tóm tắt

các đặc trưng dữ liệu, Ví dụ: tóm tắt văn bản…

Phân lớp và dự đoán (classification & prediction): Xây dựng các mô hình

(chức năng) để mô tả và phân biệt khái niệm cho các lớp hoặc khái niệm để dự đoán trong tương lai, xếp một đối tượng vào một trong những lớp đã biết trước. Ví dụ: phân lớp vùng địa lý theo dữ liệu thời tiết. Hướng tiếp cận này thường sử dụng một số kỹ thuật của machine learning như cây quyết định (decision tree), mạng nơ ron nhân tạo (neural network), .v.v. Phân lớp còn được gọi là học có giám sát (học có thầy – supervised learning).

Luật kết hợp (association rules): Biểu diễn mối tương quan nhân quả giữa dữ

liệu và xu hướng của dữ liệu dưới dạng luật biểu diễn tri thức ở dạng khá đơn giản.

Ví dụ: “60 % nam giới vào siêu thị nếu mua bia thì có tới 80% trong số họ sẽ mua thêm thịt bò khô”. Luật kết hợp được ứng dụng nhiều trong lĩnh vực kinh doanh, y học, tin-sinh, tài chính & thị trường chứng khoán, .v.v.

Khai phá chuỗi theo thời gian (sequential/temporal patterns): tương tự như

khai phá luật kết hợp nhưng có thêm tính thứ tự và tính thời gian. Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán vì nó có tính dự báo cao.

Phân cụm (clustering/segmentation): xếp các đối tượng theo từng cụm (số

lượng cũng như tên của cụm chưa được biết trước. Phân cụm còn được gọi là học không giám sát (học không có thầy – unsupervised learning).

Phân tích bất thường (ngoại lai): Phát hiện sự bất thường của dữ liệu: đối

tượng dữ liệu không tuân theo hành vi chung của toàn bộ dữ liệu nhằm phát hiện gian lận hoặc phân tích các sự kiện hiếm…

2.2.5. Các dạng dữ liệu có thể khai phá

Khai phá dữ liệu là kết hợp của nhiều lĩnh vực khoa học, xử lý nhiều nhiều kiểu dữ liệu khác nhau [HK06]. Sau đây là một số kiểu dữ liệu điển hình:

CSDL quan hệ (relational databases)

CSDL đa chiều (multidimensional structures, data warehouses) CSDL dạng giao dịch (transactional databases)

CSDL quan hệ - hướng đối tượng (object-relational databases) Dữ liệu không gian và thời gian (spatial and temporal data) Dữ liệu chuỗi thời gian (time-series data)

CSDL đa phương tiện (multimedia databases) như âm thanh (audio), hình ảnh (image), phim ảnh (video), .v.v.

Dữ liệu Text và Web (text database & www)

2.2.6. Các ứng dụng của khai phá dữ liệu

Khai phá dữ liệu được vận dụng để giải quyết các vấn đề thuộc nhiều lĩnh vực khác nhau. Chẳng hạn như giải quyết các bài toán phức tạp trong các ngành đòi hỏi kỹ thuật cao, như tìm kiếm mỏ dầu từ ảnh viễn thám, cảnh báo hỏng hóc trong các hệ thống sản xuất; quy hoạch và phát triển các hệ thống quản lý và sản xuất trong thực tế như dự đoán tải sử dụng điện, mức độ tiêu thụ sản phẩm, phân nhóm khách hàng; áp dụng cho các vấn đề xã hội như phát hiện tội phạm, tăng cường an ninh… Có thể liệt kê ra đây một số ứng dụng điển hình như:

Phân tích dữ liệu và hỗ trợ ra quyết định (data analysis & decision support) Điều trị y học (medical treatment): mối liên hệ giữa triệu chứng, chẩn đoán và phương pháp điều trị (chế độ dinh dưỡng, thuốc men, phẩu thuật, …).

Text mining & Web mining: phân lớp văn bản và các trang web, tóm tắt văn bản, .v.v.

Tin-sinh (bio-informatics): tìm kiếm, đối sánh các hệ gene và thông tin di truyền, mối liên hệ giữa một số hệ gene và một số bệnh di truyền, .v.v.

Tài chính và thị trường chứng khoán (finance & stock market): phân tích tình hình tài chính và dự báo giá của các loại cổ phiếu trong thị trường chứng khoán, .v.v.

Bảo hiểm (insurance) .v.v.

2.3. Khai phá dữ liệu không gian

2.3.1. Các đặc trưng của khai phá dữ liệu không gian

Cơ sở dữ liệu không gian lưu trữ một khối lượng lớn các dữ liệu liên quan đến không gian như bản đồ, ảnh viễn thám, ảnh y học, sơ đồ thiết kế vi mạch VLSI…Cơ sở dữ liệu không gian có nhiều điểm khác với cơ sở dữ liệu quan hệ. Chúng chứa các thông tin về tô pô và hoặc thông tin về khoảng cách. Chúng thường có cấu trúc phức tạp, được lập chỉ mục không gian và được truy nhập bởi các phương pháp truy nhập dữ liệu không gian riêng, với các công nghệ riêng.

Khai phá dữ liệu không gian là quá trình trích rút tri thức, các mối quan hệ không gian hoặc các mẫu hấp dẫn tiềm ẩn không được lưu trữ một cách rõ ràng trong cơ sở dữ liệu không gian. Quá trình khai phá dữ liệu này đòi hỏi một sự hội nhập của khai phá dữ liệu với các công nghệ cơ sở dữ liệu không gian. Nó có thể được sử dụng để hiểu dữ liệu không gian, phát hiện các mối quan hệ không gian và các mối quan hệ giữa các dữ liệu phi không gian, xây dựng cơ sở kiến thức không gian, tổ chức lại các cơ sở dữ liệu không gian, và tối ưu hóa các truy vấn không gian. Dự kiến sẽ có ứng dụng rộng rãi trong hệ thống thông tin địa lý, viễn thám, thăm dò cơ sở dữ liệu hình ảnh, hình ảnh y tế, điều hướng, kiểm soát giao thông, nghiên cứu môi trường, và nhiều lĩnh vực liên quan đến dữ liệu không gian khác được sử dụng. Thách thức đối với khai phá dữ liệu không gian là khám phá và sử dụng hiệu quả các công nghệ khai phá dữ liệu không gian trên tập dữ liệu không gian rất đồ sộ và phức tạp cả về kiểu dữ liệu lẫn các phương pháp truy nhập.

Thống kê phân tích dữ liệu không gian là một phương pháp phổ biến để phân tích các dữ liệu không gian và khám phá thông tin địa lý. Thuật ngữ Thống kê địa lý (Geostatistics) thường gắn liền với không gian địa lý liên tục, trong khi các số liệu thống kê không gian thường gắn liền với không gian riêng biệt, rời rạc. Trong một mô hình thống kê để xử lý dữ liệu phi không gian, người ta thường giả định có sự độc lập thống kê giữa các phần khác nhau của dữ liệu. Tuy nhiên, khác với các tập dữ liệu truyền thống, không có sự độc lập giữa các dữ liệu không gian bởi vì trong thực tế, đối tượng không gian thường liên quan với nhau, các đối tượng càng gần nhau thì càng liên quan mật thiết với nhau, tức là càng có xu hướng tương đồng với nhau. Ví dụ, các khu vực địa lý gần nhau thì tài nguyên thiên nhiên, khí hậu, nhiệt độ, và điều kiện kinh tế thường tương tự nhau. Người ta thậm chí xem xét mối quan hệ này như luật đầu tiên về địa lý: "Mọi thứ đều liên quan đến tất cả mọi thứ khác, nhưng những thứ gần nhau liên quan nhiều hơn những thứ xa nhau". Thuộc tính phụ thuộc lẫn nhau chặt chẽ trong không gian gần dẫn đến khái niệm về tự tương quan không gian (autocorrelation). Dựa trên khái niệm này, các phương pháp mô hình hóa thống kê không gian đã được phát triển với nhiều thành công lớn. Khai phá dữ liệu không gian sẽ tiếp tục phát triển các phương pháp phân tích thống kê không gian và mở rộng đối với số lượng rất lớn của

dữ liệu không gian, với nhiều điểm nhấn về tính hiệu quả, khả năng mở rộng, hợp tác với các hệ thống cơ sở dữ liệu và kho dữ liệu, cải thiện khả năng tương tác với người dùng, và phát hiện ra các kiểu tri thức mới.

2.3.2. Kho dữ liệu không gian và các chiều dữ liệu

Cũng như dữ liệu quan hệ, chúng ta có thể tích hợp dữ liệu không gian để xây dựng một kho dữ liệu tạo điều kiện khai thác dữ liệu không gian. Kho dữ liệu không gian là một tuyển tập có định hướng chủ đề, được tích hợp, kèm theo và bền vững với thời gian của cả hai loại dữ liệu không gian và phi không gian hỗ trợ khai phá dữ liệu không gian và ra quyết định trong các bài toán liên quan tới dữ liệu không gian. Sau đây là một số ví dụ.

Ví dụ: Có khoảng 3.000 trạm quan trắc thời tiết phân bố tại British Columbia (BC),

Canada, mỗi trạm ghi nhiệt độ hàng ngày và lượng mưa cho một khu vực nhỏ và truyền dữ liệu đến một trạm thời tiết của tỉnh. Với một kho dữ liệu không gian (spatial data warehouse- SDW) hỗ trợ xử lý phân tích trực tuyến không gian (spatial OLAP), người dùng có thể xem được các thông tin về thời tiết trên bản đồ theo tháng, theo từng khu vực, cùng với sự kết hợp khác nhau của nhiệt độ và lượng mưa, và có thể thực hiện các thao tác của OLAP như tự động “khoan xuống” (drill down) hoặc “cuộn lên” (roll up) theo bất kỳ chiều nào để khám phá các mô hình mong muốn,chẳng hạn như: "khu vực ẩm ướt và nóng ở thung lũng Fraser trong mùa hè năm 1999."

Có nhiều vấn đề thách thức liên quan đến việc xây dựng và sử dụng kho dữ liệu không gian.

Thách thức đầu tiên là sự tích hợp dữ liệu không gian từ các nguồn và các hệ thống không đồng nhất. Dữ liệu không gian thường được lưu trữ trong các công ty thuộc các ngành công nghiệp khác nhau và các cơ quan chính phủ sử dụng các định dạng dữ liệu khác nhau. Định dạng dữ liệu không chỉ chuyên biệt về cấu trúc (ví dụ, dữ liệu không gian dựa trên véc tơ hay raster, mô hình hướng đối tượng so với mô hình quan hệ, sự khác nhau về cách thức lưu trữ và lập chỉ mục), mà còn chuyên biệt về nhà cung cấp (ví dụ, ESRI, MapInfo, Intergraph) . Hiện đã có rất nhiều công việc về kết hợp và trao đổi dữ liệu không gian không đồng nhất, đã mở đường cho tích hợp dữ liệu không gian và xây dựng kho dữ liệu không gian.

Thách thức thứ hai là việc thực hiện các xử lý phân tích trực tuyến nhanh và linh hoạt trong các kho dữ liệu không gian. Mô hình giản đồ sao [HK06] là một lựa chọn tốt cho việc mô hình hóa các kho dữ liệu không gian bởi vì nó cung cấp một cấu trúc kho súc tích và có tổ chức và tạo điều kiện hoạt động OLAP. Tuy nhiên, trong một kho dữ liệu không gian, cả các chiều và các độ đo đều có thể chứa các thành phần không gian.

Có 3 kiểu chiều dữ liệu trong một khối dữ liệu không gian [HK06]:

Chiều phi không gian chỉ chứa dữ liệu phi không gian. Các chiều phi không gian như “Nhiệt độ” và “Lượng mưa” có thể được xây dựng cho kho dữ liệu không gian ở ví dụ trên vì mỗi chiều đều chứa dữ liệu phi không gian mà các khái quát hóa của chúng là phi không gian (ví dụ như “nóng” đối với “nhiệt độ” và “ẩm” cho “lượng mưa”).

Chiều không gian- phi không gian (spatial-to-nonspatial dimension): là chiều mà dữ liệu mức nguyên thủy là dữ liệu không gian, nhưng mức khái quát ở một cấp độ nào đó lại trở thành phi không gian. Ví dụ: chiều “city” biểu thị dữ liệu

địa lý trên bản đồ của nước Mỹ, và giả sử rằng biểu diễn không gian của chiều này, chẳng hạn “Seattle” được khái quát hóa thành chuỗi “Tây Bắc Thái Bình Dương”. Mặc dù Tây Bắc Thái Bình Dương là một khái niệm không gian, nhưng biểu diễn của nó ở dạng chuỗi ký tự lại là phi không gian. Nó đóng vai trò của một chiều phi không gian.

Chiều không gian- không gian (spatial-to-spatial dimension): là chiều mà dữ liệu mức nguyên thủy và toàn bộ các khái quát hóa ở mức cao hơn đều là không gian. Ví dụ, chiều “vùng nhiệt độ cân bằng” chứa dữ liệu không gian, và mức khái quát hóa của nó như các vùng bao phủ “0-5 độ C”, “5-10 độ C”…

Chúng ta phân biệt 2 loại độ đo sử dụng trong khối dữ liệu không gian:

Độ đo dạng số: chỉ chứa dữ liệu số. Ví dụ, một độ đo trong một kho dữ liệu không gian có thể là “doanh thu hàng tháng” của một khu vực, khi đó, thao tác “cuộn lên” có thể tính toán tổng doanh thu theo năm, của quận…

Độ đo không gian: chứa các tập con trỏ tham chiếu tới các đối tượng không gian. Ví dụ, trong một thao tác “cuộn lên” trong khối dữ liệu không gian ở ví dụ trên, các vùng với cùng dải nhiệt độ và lượng mưa sẽ được nhóm vào cùng một cell trong khối, và độ đo này chứa một tập các con trỏ tham chiếu đến những vùng trên.

2.3.3. Một số ứng dụng của khai phá dữ liệu không gian

Như đã trình bày ở phần 2.2.3 về các phương pháp khai phá dữ liệu, phân cụm dữ liệu thuộc lớp bài toán khai phá dữ liệu theo hướng mô tả.

Phương pháp khai phá dữ liệu không gian được sử dụng trong nhiều ứng dụng liên quan đến dữ liệu không gian. Trong đó, có nhiều ứng dụng khai phá dữ liệu không gian sử dụng tiếp cận phân cụm, một số bài toán mà phân cụm dữ liệu không gian có thể giải quyết như:

Giám sát tội phạm: Phân cụm các điểm nóng tội phạm để bố trí các trạm an ninh

và lực lượng cảnh sát.

Phân tích xu thế

- Phân tích dữ liệu địa hình và thủy văn, phân cụm các vùng theo độ đo mức tương đồng về điều kiện thủy văn, địa hình để tìm ra hướng dòng chảy trong trường hợp xảy ra ngập lụt ở một vùng.

- Phân tích xu thế biến động giá bất động sản, nhà cho thuê căn cứ trên các thông tin về tỷ lệ thất nghiệp, lương trung bình, mật độ dân cư…

Hình 13: Phân cụm polygon để phân tích xu thế giảm giá trung bình nhà cho thuê xung quanh một khu vực ở Regensburg [ESKS01]

Dự báo thời tiết, xói mòn: phân tích ảnh mây vệ tinh, dự báo mưa. Phân tích dữ

liệu thủy văn, lưu lượng nước, loại đất, lưu vực sông để dự báo xói mòn, sạt lở đất lưu vực sông.

Đồ họa máy tính: dò tìm các lỗi bề mặt vật thể, khái quát hóa mô hình 3D

Nghiên cứu Trái đất: Sử dụng dữ liệu ảnh vệ tinh, ảnh viễn thám để phân tích loại

đất, vùng mây bao phủ, vùng ô nhiễm, vùng nguy cơ cháy rừng…

Hình 15: Phân cụm dữ liệu ảnh viễn thám thu được theo sự tổ hợp tín hiệu của 5 kênh màu của 5 ảnh viễn thám vùng ven biển California [ESKS01]

Môi trường: tìm các vùng đất gần lưu vực sông, có đặc điểm thủy văn tương đồng

Ứng dụng của hệ thông tin địa lý

Tiến trình khai phá dữ liệu