Từ Kho dữ liệu đến khai phỏ dữ liệu

Một phần của tài liệu Một số phương pháp khai phá dữ liệu và ứng dụng trong bài toán lập thời khoá biểu (Trang 25)

1. Tổ chức và khai thỏc cơ sở dữ liệu truyền thống

1.2.9.Từ Kho dữ liệu đến khai phỏ dữ liệu

1.2.9.1. Sử dụng Kho dữ liệu.

Kho dữ liệu sử dụng cho ba loại ứng dụng sau:

1. Xử lý thụng tin: trợ giỳp truy vấn, phõn tớch thụng tin tĩnh và cơ bản, tạo bỏo cỏo sử dụng crosstabs, bảng, biểu đồ và đồ thị.

2. Xử lý cỏc phõn tớch: Phõn tớch nhiều loại kớch thƣớc của dữ liệu trong Kho dữ liệu. Trợ giỳp cỏc hoạt động cơ bản của xử lý phõn tớch trực tuyến.

3. Khai phỏ dữ liệu (data mining): Khai phỏ tri thức từ cỏc mẫu ẩn. Trợ giỳp cỏc mụ hỡnh phõn tớch xõy dựng và kết hợp, biểu diễn phõn loại và dự bỏo, đƣa ra cỏc kết quả khai phỏ bằng cỏc cụng cụ trực quan.

Define a high-level corporate data model

Data Mart Data Mart

Distributed Data Marts Multi-Tier Data Warehouse Enterprise Data Warehouse Model refinement Model refinement

1.2.9.2. Cụng nghệ xử lý phõn tớch trực tuyến dựng cho khai phỏ dữ liệu.

Làm thế nào để khai phỏ dữ liệu gắn liền xử lý thụng tin với xử lý phõn tớch trực tuyến (On-line analytical processing-OLAP). Xử lý thụng tin dựa trờn truy vấn cú thể tỡm thấy cỏc thụng tin hữu ớch. Tuy nhiờn, những cõu trả lời đƣợc tạo ra bởi query lấy thụng tin trực tiếp chứa trong cơ sở dữ liệu hoặc cỏc bảng tớnh toỏn bởi việc tập hợp cỏc chức năng, chỳng khụng phản hồi lại thụng tin từ cỏc mẫu tinh hoặc cỏc thụng tin cú tớnh quy tắc trong cơ sở dữ liệu. Do đú, xử lý thụng tin khụng phải là khai phỏ dữ liệu.

Xử lý thụng tin trực tuyến trở thành cỏc bƣớc đúng cho khai phỏ dữ liệu từ khi nú cú thể điều khiển tổng kết thụng tin từ Kho dữ liệu.

Cỏc chức năng của OLAP và khai phỏ dữ liệu cú thể nhỡn nhận bằng hai phần phõn biệt: OLAP tổng kết hoặc tập hợp dữ liệu bằng cỏc cụng cụ để phõn tớch dữ liệu một cỏch đơn giản, trong khi khai phỏ dữ liệu cho phộp khai phỏ tự động cỏc mẫu và phỏt hiện tri thức ẩn trong số lƣợng lớn cỏc dữ liệu. Cụng cụ OLAP cú mục tiờu đơn giản hoỏ và trợ giỳp tƣơng tỏc phõn tớch dữ liệu, trong khi đú mục tiờu của cụng cụ khai phỏ dữ liệu là tự động xử lý đƣợc càng nhiều càng tốt trong khi vẫn cho phộp ngƣời sử dụng hƣớng dẫn xử lý(vừa tự động vừa cú sự can thiệp của con ngƣời). Với phƣơng thức kết hợp làm việc nhƣ vậy, khai phỏ dữ liệu tiến một bƣớc xa hơn xử lý phõn tớch trực tuyến truyền thống.

Từ khi hệ thống OLAP cú thể biểu diễn mụ tả chung về dữ liệu trong Kho dữ liệu, chức năng của OLAP dƣờng nhƣ cho ngƣời sử dụng trực tiếp tổng kết và so sỏnh dữ liệu. Tuy vậy theo cỏch nhỡn này, khai phỏ dữ liệu vẫn hoạt động bao trựm hơn xử lý của OLAP vỡ khai phỏ dữ liệu khụng chỉ xử lý tổng kết và so sỏnh dữ liệu mà cũn phõn tớch kết hợp, phõn lớp, dự đoỏn, bú cụm và hàng loạt cỏc bài toỏn phõn tớch khỏc.

Khai phỏ dữ liệu khụng bị giam cầm trong khuụn khổ phõn tớch dữ liệu trong Kho dữ liệu. Nú cú thể phõn tớch dữ liệu tồn tại ở dạng chi tiết hơn là phõn tớch dữ liệu đó đƣợc tổng kết từ Kho dữ liệu.

Từ khi khai phỏ dữ liệu cung cấp chế độ hoạt động tự động và sõu hơn OLAP thỡ nú đó là sự mong đợi của một số lƣợng lớn cỏc ứng dụng.

1.2.9.3. Từ xử lý phõn tớch trực tuyến đến khai phỏ phõn tớch trực tuyến.

Khai phỏ phõn tớch trực tuyến (On-line analytical Mining-OLAM) dựng tớch hợp OLAP , khai phỏ dữ liệu và khai phỏ tri thức trong rất nhiều cỏc cơ sở dữ liệu cú kớch thƣớc khỏc nhau.

* Lý do để dựng OLAM:

- Tạo dữ liệu chất lƣợng cao trong Kho dữ liệu (Kho dữ liệu chứa dữ liệu tớch hợp, thớch đỏng và sạch).

- Cú khả năng xử lý thụng tin xung quanh kiến trỳc của Kho dữ liệu. - Dựa trờn cơ sở OLAP nhƣng phõn tớch mang tớnh chất thỏm hiểm

- Lựa chọn trực tuyến cỏc chức năng khai phỏ dữ liệu: tớch hợp và hoỏn đổi cỏc chức năng, thuật toỏn và bài toỏn khai phỏ dữ liệu.

* Kiến trỳc của OLAM [9]

Hỡnh 1.3. Kiến trỳc OLAM Data Warehouse Meta Data MDDB OLAM Engine OLAP Engine User GUI API

Data Cube API

Database API Data cleaning Data integration Layer3 OLAP/OLAM Layer2 MDDB Layer1 Data Repository Layer4 User Interface Filtering&Integration Filtering Databases

CHƢƠNG 2. KHAI PHÁ DỮ LIỆU 2. 1. GIỚI THIỆU KHAI PHÁ DỮ LIỆU.

2.1.1. Khai phỏ dữ liệu là gỡ ?

Khai phỏ dữ liệu cú nghĩa là phỏt hiện tri thức trong cơ sở dữ liệu, nú rỳt ra cỏc thụng tin khụng tầm thƣờng, tiềm ẩn, chƣa từng biết đến và tiềm năng từ cơ sở dữ liệu lớn[9].

Tuy nhiờn, ở đõy chỳng ta cần khẳng định rằng cỏc hệ thống xử lý truy vấn, hệ chuyờn gia, cỏc hệ thống thống kờ nhỏ khụng phải là khai phỏ dữ liệu.

2.1.2. Động cơ thỳc đẩy dựng khai phỏ dữ liệu.

Chỳng ta cú một số thực trạng nhƣ sau: (adsbygoogle = window.adsbygoogle || []).push({});

1. Nhiều tổ chức đó cảnh bỏo từ cỏc doanh nghiệp tƣ nhõn đến chớnh phủ việc cỏc bộ mỏy quan liờu đó mất mỏt một số lƣợng kinh khủng những tài nguyờn trong việc xõy dựng và bảo trỡ thụng tin của cơ sở dữ liệu trong cả những thập niờn gần đõy, bao gồm sự phỏt triển lớn về quy mụ cỏc Kho dữ liệu.

2. Dữ liệu khụng đƣợc phõn tớch thƣờng xuyờn bởi cỏc phƣơng thức thống kờ chuẩn, nguyờn nhõn là do mất cỏc bản ghi hoặc cỏc mẫu dữ liệu đƣợc thu thập theo dạng định tớnh hơn là định lƣợng.

3. Trong mụt số trƣờng hợp thụng tin chứa trong cỏc cơ sở dữ liệu lại ớt giỏ trị và khụng dựng đƣợc bởi vỡ dữ liệu khụng thể dễ dàng truy nhập hoặc phõn tớch.

4. Một vài cơ sở dữ liệu lại qua lớn đến mức quản trị hệ thống khụng thể biết thụng tin nào cú thể đƣa ra hoặc cỏi nào là thớch đỏng cho thời điểm hiện tại.

5. Cỏc tổ chức cú thể nắm giữ nhiều lợi ớch từ cỏc Kho dữ liệu lớn chứa đựng cỏc thụng tin hoặc cỏc mẫu cú giỏ trị.

6. Cú rất nhiều phƣơng phỏp khai phỏ dữ liệu cú thể dựng để phõn tớch nguồn dữ liệu trong yờu cầu khỏm phỏ ra cỏc mẫu mới và cỏc khuyng hƣớng mới.

Nhƣ vậy, ta nhận thấy cú sự bựng nổ về cỏc vấn đề của dữ liệu: Việc tập hợp dữ liệu tự động cựng với sự trƣởng thành của cụng nghệ cơ sở dữ liệu đó dẫn đến một số lƣợng lớn dữ liệu đang chứa trong cơ sở dữ liệu, Kho dữ liệu và cỏc kho chứa thụng tin khỏc.

Tuy nhiờn, dự chỳng ta tràn ngập thụng tin và cú thể núi là chỳng ta bội thực về dữ liệu, nhƣng chỳng ta lại đúi dữ liệu cú tri thức.

Giải phỏp đƣa ra ở đõy là chỳng ta dựng Kho dữ liệu(data warehousing) và khai phỏ dữ liệu(data mining).

2.2. CÁC ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU: 2.2.1. Phõn tớch cơ sở dữ liệu và trợ giỳp ra quyết định:

* Phõn tớch và quản lý thị trƣờng: Quản lý quan hệ giữa bỏn hàng và khỏch hàng, phõn tớch quỏ trỡnh bỏn hàng, phõn đoạn quỏ trỡnh bỏn hàng

- Nguồn dữ liệu để phõn tớch: giao dịch bằng thẻ tớn dụng, kiểm tra thẻ, giảm giỏ, cỏc kiến nghị của khỏch hàng, nghiờn cứu về phong cỏch sống của cộng đồng.

- Mục tiờu tiếp thị, bỏn hàng: Tỡm kiếm nhúm khỏch hàng cú cựng đặc trƣng nhƣ: sở thớch, thu nhập, thúi quen tiờu tiền.

- Phõn tớch thị trƣờng: Sự kết hợp, liờn kết cỏc sản phẩm bầy bỏn. Dự bỏo trƣớc dựa trờn tổng hợp thụng tin.

- Xỏc định nhu cầu của khỏch hàng: khai phỏ dữ liệu sẽ cho biết khỏch hàng thuộc loại này sẽ mua sản phẩm thuộc loại nào (phõn cụm, phõn lớp).

- Xỏc định nhu cầu của khỏch hàng: Xỏc định sản phẩm tốt nhất cho từng nhúm khỏch hàng. Dựng cỏc dự đoỏn để xỏc định nhõn tố cú thờm khỏch hàng mới.

- Cung cấp cỏc thụng tin tổng hợp: Cỏc bỏo cỏo khỏc nhau về số lƣợng, cỏc bỏo cỏo tổng hợp thống kờ (xu hƣớng và thay đổi dữ liệu).

* Quản lý và phõn tớch rủi ro: Dự bỏo, giữ khỏch hàng, phỏt triển bảo hiểm, quản lý chất lƣợng, phõn tớch cạnh tranh.

- Đƣa ra kế hoạch tài chớnh và ƣớc lƣợng tài sản: phõn tớch và dự bỏo chu kỳ quanh vốn. Phõn tớch vốn phỏt sinh cho ƣớc lƣợng tài sản. Phõn tớch tỷ lệ tài chớnh và xu hƣớng phỏt triển.

- Kế hoạch về nguồn vốn: tổng hợp và so sỏnh giữa nguồn vốn và ciệc chi tiờu.

- Phõn tớch cạnh tranh: Nghe ngúng tỡnh hỡnh cạnh tranh và điều khiển kinh doanh. Nhúm khỏch hàng theo từng nhúm dựa theo giỏ sản phẩm. Đặt chiến lƣợc về giả cả trong giai đoạn cạnh tranh.

* Quản lý và phỏt hiện gian lận

- Cỏc ứng dụng: Dựng rộng rói trong cỏc lĩnh vực chăm súc sức khoẻ, bỏn lẻ, dịch vụ thanh toỏn bằng thẻ, kết nối viễn thụng…

- Tiếp cận: Dựng dữ liệu cú tớnh lịch sử để xõy dựng cung cỏch đối xử với gian lận và dựng khai phỏ dữ liệu để nhận dạng cỏc trƣờng hợp tƣơng tự.

- Vớ dụ:

 Chiếm đoạt tiền bảo hiểm: phỏt hiện những ngƣời đúng kịch tai nạn để lấy tiền bảo hiểm vào một loại hợp đồng bảo hiểm.

 Rửa tiền: Dũ tỡm cỏc giao dịch đỏng ngờ

 Bảo hiểm y tế: phỏt hiện cỏc khỏch hàng chuyờn dựng y tế để kiếm tiền bảo hiểm.

- Dũ tỡm cỏc gian lận trong điện thoại:.

- Bỏn lẻ: Phõn tớch đó cảnh bảo 38% số lƣợng doanh thu trong bỏn lẻ đó rơi vào tỳi nhõn viờn khụng trung thực. (adsbygoogle = window.adsbygoogle || []).push({});

2.2.2. Cỏc ứng dụng khỏc.

- Thể thao. - Thiờn văn học. - WEB.

2.3. KHAI PHÁ DỮ LIỆU TRONG QUÁ TRèNH PHÁT HIỆN TRI THỨC

* Mụ hỡnh quỏ trỡnh phỏt hiện tri thức (knowledge discovery process – KDD)[9]

Hỡnh 2.1. Quỏ trỡnh phỏt hiện tri thức. Cỏc bƣớc phỏt hiện tri thức:

1. Tỡm hiểu cỏc miền ứng dụng: ƣu tiờn cỏc tri thức thớch đỏng và mục tiờu của ứng dụng.

2. Tạo cỏc tập dữ liệu đớch: Chọn lọc dữ liệu.

3. Xử lý và làm sạch dữ liệu: cụng việc này cú thể mất 60% cụng sức. 4. Thu nhỏ và biến đổi dữ liệu: Tỡm kiếm cỏc đặc điểm hữu dụng, xỏc

định thành phần cú thể thu nhỏ, thành phần bất biến

5. Lựa chọn chức năng của khai phỏ dữ liệu: Tổng kết, phõn loại, hồi quy, bú cụm, kết hợp.

6. Lựa chọn phƣơng phỏp khai phỏ.

7. Khai phỏ dữ liệu: tỡm kiếm cỏc mẫu quan tõm.

Làm sạch dữ liệu Tớch hợp dữ liệu cơ sở dữ liệu Kho dữ liệu Dữ liệu thớch đỏng Chọn lọc Khai phỏ dữ liệu

8. Ƣớc lƣợng mẫu và trỡnh bày tri thức: nhỡn nhận, biến đổi và loại bỏ cỏc mẫu dƣ thừa

9. Sử dụng tri thức phỏt hiện đƣợc: Lƣu trữ tri thức đó đƣợc phỏt hiện, Kết hợp cỏc tri thức thành hệ thống. Giải quyết cỏc xung đột tiềm tàng trong tri thức khai thỏc đƣợc.

Ngoài ra ta chỳ ý theo mụ hỡnh trờn cú rất nhiều bƣớc cú thể đƣợc lặp đi lặp lại

Phỏt hiện tri thức từ CSDL là một quỏ trỡnh sử dụng nhiều phƣơng phỏp và cụng cụ tin học nhƣng vẫn cú một quỏ trỡnh mà trong đú con ngƣời là chớnh. Tri thức ở đõy là cỏc tri thức rỳt ra từ cỏc CSDL, thƣờng để phục vụ cho việc giải quyết một loạt nhiệm vụ nhất định trong một lĩnh vực nhất định. Do dú, quỏ trỡnh phỏt hiện tri thức cũng mang tớnh chất hƣớng nhiệm vụ, khụng phải là phỏt hiện mọi tri thức bất kỳ mà là phỏt hiện tri thức nhằm giải quyết tốt nhiệm vụ đề ra. Nếu phỏt hiện tri thức là toàn bộ quỏ trỡnh chiết xuất tri thức từ cỏc CSDL thỡ khai phỏ dữ liệu là giai đoạn chủ yếu của quỏ trỡnh đú. Khai phỏ dữ liệu thƣờng bao gồm việc thử tỡm mụ hỡnh phự hợp với tập dữ liệu và tỡm kiếm cỏc mẫu từ tập dữ liệu theo mụ hỡnh đú nhƣng chỉ cú những mẫu đƣợc xem là đỏng quan tõm xột theo một phƣơng diện nào đú mới đƣợc coi là tri thức. Ta cú thể coi khai phỏ dữ liệu giống nhƣ một quỏ trỡnh phỏt hiện cỏc mẫu mới đỏp ứng đƣợc cỏc yờu cầu trờn, cỏc tƣơng quan mới cú ý nghĩa, cỏc xu hƣớng bằng cỏch khai thỏc dữ liệu trong Kho dữ liệu, sử dụng cỏc kỹ thuật khai phỏ.

2.4. KHAI PHÁ DỮ LIỆU VÀ TIN TỨC KINH DOANH

Ta cú thể biểu diễn mối quan hệ thụng qua mụ hỡnh sau:[9]

Hỡnh 2.2. Mụ hỡnh kinh doanh.

2.5. KIẾN TRệC ĐIỂN HèNH CỦA HỆ THỐNG KHAI PHÁ DỮ LIỆU.

Hỡnh 2.3. Kiến trỳc hệ thống khai phỏ dữ liệu.

Hướng tăng trợ giỳp ra quyết định Kết thỳc User Phõn tớch kinh doanh Dữ liệu Analyst Cơ sở dữ liệu A Ra quyết định Trỡnh bày dữ liệu Kỹ xảo trực quan Khai phỏ dữ liệu Khỏm phỏ thụng tin Dữ liệu đó qua OLAP, MDA

Phõn tớch thống kờ, truy vấn và bỏo cỏo

Kho dữ liệu / dữ liệu hướng chủ đề Nguồn dữ liệu

Giấy tờ, File, thụng tin, hệ thống cơ sở dữ liệu, OLTP

Kho dữ liệu

Tớch hợp và làm sạch dữ liệu Lọc dữ liệu

Cơ sở dữ liệu

Cơ sở dữ liệu hoặc quản trị Kho dữ liệu (adsbygoogle = window.adsbygoogle || []).push({});

Phương tiện khai phỏ dữ liệu ước lượng mẫu Giao diện người sử dụng

2.6. KHAI PHÁ DỮ LIỆU NƠI HỘI TỤ CỦA RẤT NHIỀU KIẾN THỨC:

Khai phỏ dữ liệu cú thể coi là ngó ba sụng nơi hội tụ của rất nhiều ngành học và kiến thức, ta cú thể biểu diễn điều này qua sơ đồ sau:[9]

Hỡnh 2.4. Khai phỏ dữ liệu và tri thức.

2.7. TRỌNG TÂM CHÍNH TRONG KHAI PHÁ DỮ LIỆU.

Cỏc phƣơng phỏp khai phỏ và tƣơng tỏc ngƣời sử dụng.

- Khai phỏ cỏc loại tri thức khỏc nhau của cơ sở dữ liệu.

- Khai phỏ tƣơng tỏc cỏc tri thức ở nhiều mức trừu tƣợng khỏc nhau. - Hợp nhất cỏc nền tảng tri thức.

- Ngụn ngữ truy vấn khai phỏ dữ liệu và khai phỏ dữ liệu khụng theo thể thức (khai phỏ dữ liệu đặc biệt).

- Đƣa ra kết quả khai phỏ dữ liệu dƣới dạng trực quan hoặc biểu thức. - Điều khiển dữ liệu phức tạp và khụng đầy đủ.

- Ƣớc lƣợng mẫu

Tớnh khả thi và khả năng

- Hiệu năng và khả năng thực thi của cỏc thuật toỏn khai phỏ dữ liệu. Khai phỏ dữ liệu Cụng nghệ cơ sở dữ liệu Thống kờ Cỏc ngành học khỏc Thụng tin khoa học Học mỏy Trực quan

- Hoạt động song song, phõn tỏn và sự lớn mạnh của cỏc phƣơng phỏp khai phỏ.

Liờn kết cỏc kiểu dữ liệu đa dạng

- Điều khiển cỏc kiểu dữ liệu phức tạp và cú liờn hệ với nhau

- Khai phỏ thụng tin từ cỏc cơ sở dữ liệu hỗn tạp và hệ thống thụng tin toàn cầu.

2.8. NHỮNG VẤN ĐỀ KHễNG CẦN DÙNG KHAI PHÁ DỮ LIỆU

Vấn đề quan trọng chỳng ta luụn suy nghĩ trong tõm trớ là tiờu điểm của quỏ trỡnh khai phỏ dữ liệu là khỏm phỏ những mẫu và những khuynh hƣớng đƣợc che giấu. Mỗi lần một mẫu đặc biệt đó đƣợc xỏc định, nú cú thể chứa đựng những đặc trƣng nhất định để hƣớng ngƣời khai thỏc dữ liệu khỏm phỏ xa hơn nữa. Tuy nhiờn, một lần mẫu đặc biệt đú đƣợc xỏc định, nú cú thể đƣợc mụ tả nhƣ chất lƣợng tri thức. Mẫu cú thể đƣợc đƣa vào bờn trong vụ số cỏch sử dụng, bao gồm tập cỏc bỏo cỏo chuẩn, cỏc phƣơng phỏp huấn luyện trong mạng nơron hoặc đƣợc mó húa thành một quy tắc vào trong một hệ chuyờn gia. Tại điểm này quỏ trỡnh khỏm phỏ mẫu đặc biệt đú đó kết thỳc. Từ phối cảnh hoặc quỏ trỡnh xử lý khai phỏ dữ liệu thỡ cỏc mẫu đú coi nhƣ cỏc mẫu đó biết. Hơn nữa, những yờu cầu về mẫu đó biết chỉ đƣợc tạo ra khi cần xỏc định chỳng vẫn hợp lệ hoặc sự biến đổi của cỏc mẫu cần phải đƣợc xem

Một phần của tài liệu Một số phương pháp khai phá dữ liệu và ứng dụng trong bài toán lập thời khoá biểu (Trang 25)