Động cơ thỳc đẩy dựng khai phỏ dữ liệu

Một phần của tài liệu Một số phương pháp khai phá dữ liệu và ứng dụng trong bài toán lập thời khoá biểu (Trang 28)

1. Tổ chức và khai thỏc cơ sở dữ liệu truyền thống

2.1.2.Động cơ thỳc đẩy dựng khai phỏ dữ liệu

Chỳng ta cú một số thực trạng nhƣ sau:

1. Nhiều tổ chức đó cảnh bỏo từ cỏc doanh nghiệp tƣ nhõn đến chớnh phủ việc cỏc bộ mỏy quan liờu đó mất mỏt một số lƣợng kinh khủng những tài nguyờn trong việc xõy dựng và bảo trỡ thụng tin của cơ sở dữ liệu trong cả những thập niờn gần đõy, bao gồm sự phỏt triển lớn về quy mụ cỏc Kho dữ liệu.

2. Dữ liệu khụng đƣợc phõn tớch thƣờng xuyờn bởi cỏc phƣơng thức thống kờ chuẩn, nguyờn nhõn là do mất cỏc bản ghi hoặc cỏc mẫu dữ liệu đƣợc thu thập theo dạng định tớnh hơn là định lƣợng.

3. Trong mụt số trƣờng hợp thụng tin chứa trong cỏc cơ sở dữ liệu lại ớt giỏ trị và khụng dựng đƣợc bởi vỡ dữ liệu khụng thể dễ dàng truy nhập hoặc phõn tớch.

4. Một vài cơ sở dữ liệu lại qua lớn đến mức quản trị hệ thống khụng thể biết thụng tin nào cú thể đƣa ra hoặc cỏi nào là thớch đỏng cho thời điểm hiện tại.

5. Cỏc tổ chức cú thể nắm giữ nhiều lợi ớch từ cỏc Kho dữ liệu lớn chứa đựng cỏc thụng tin hoặc cỏc mẫu cú giỏ trị.

6. Cú rất nhiều phƣơng phỏp khai phỏ dữ liệu cú thể dựng để phõn tớch nguồn dữ liệu trong yờu cầu khỏm phỏ ra cỏc mẫu mới và cỏc khuyng hƣớng mới.

Nhƣ vậy, ta nhận thấy cú sự bựng nổ về cỏc vấn đề của dữ liệu: Việc tập hợp dữ liệu tự động cựng với sự trƣởng thành của cụng nghệ cơ sở dữ liệu đó dẫn đến một số lƣợng lớn dữ liệu đang chứa trong cơ sở dữ liệu, Kho dữ liệu và cỏc kho chứa thụng tin khỏc.

Tuy nhiờn, dự chỳng ta tràn ngập thụng tin và cú thể núi là chỳng ta bội thực về dữ liệu, nhƣng chỳng ta lại đúi dữ liệu cú tri thức.

Giải phỏp đƣa ra ở đõy là chỳng ta dựng Kho dữ liệu(data warehousing) và khai phỏ dữ liệu(data mining).

2.2. CÁC ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU: 2.2.1. Phõn tớch cơ sở dữ liệu và trợ giỳp ra quyết định:

* Phõn tớch và quản lý thị trƣờng: Quản lý quan hệ giữa bỏn hàng và khỏch hàng, phõn tớch quỏ trỡnh bỏn hàng, phõn đoạn quỏ trỡnh bỏn hàng

- Nguồn dữ liệu để phõn tớch: giao dịch bằng thẻ tớn dụng, kiểm tra thẻ, giảm giỏ, cỏc kiến nghị của khỏch hàng, nghiờn cứu về phong cỏch sống của cộng đồng.

- Mục tiờu tiếp thị, bỏn hàng: Tỡm kiếm nhúm khỏch hàng cú cựng đặc trƣng nhƣ: sở thớch, thu nhập, thúi quen tiờu tiền.

- Phõn tớch thị trƣờng: Sự kết hợp, liờn kết cỏc sản phẩm bầy bỏn. Dự bỏo trƣớc dựa trờn tổng hợp thụng tin.

- Xỏc định nhu cầu của khỏch hàng: khai phỏ dữ liệu sẽ cho biết khỏch hàng thuộc loại này sẽ mua sản phẩm thuộc loại nào (phõn cụm, phõn lớp).

- Xỏc định nhu cầu của khỏch hàng: Xỏc định sản phẩm tốt nhất cho từng nhúm khỏch hàng. Dựng cỏc dự đoỏn để xỏc định nhõn tố cú thờm khỏch hàng mới.

- Cung cấp cỏc thụng tin tổng hợp: Cỏc bỏo cỏo khỏc nhau về số lƣợng, cỏc bỏo cỏo tổng hợp thống kờ (xu hƣớng và thay đổi dữ liệu).

* Quản lý và phõn tớch rủi ro: Dự bỏo, giữ khỏch hàng, phỏt triển bảo hiểm, quản lý chất lƣợng, phõn tớch cạnh tranh.

- Đƣa ra kế hoạch tài chớnh và ƣớc lƣợng tài sản: phõn tớch và dự bỏo chu kỳ quanh vốn. Phõn tớch vốn phỏt sinh cho ƣớc lƣợng tài sản. Phõn tớch tỷ lệ tài chớnh và xu hƣớng phỏt triển.

- Kế hoạch về nguồn vốn: tổng hợp và so sỏnh giữa nguồn vốn và ciệc chi tiờu.

- Phõn tớch cạnh tranh: Nghe ngúng tỡnh hỡnh cạnh tranh và điều khiển kinh doanh. Nhúm khỏch hàng theo từng nhúm dựa theo giỏ sản phẩm. Đặt chiến lƣợc về giả cả trong giai đoạn cạnh tranh.

* Quản lý và phỏt hiện gian lận

- Cỏc ứng dụng: Dựng rộng rói trong cỏc lĩnh vực chăm súc sức khoẻ, bỏn lẻ, dịch vụ thanh toỏn bằng thẻ, kết nối viễn thụng…

- Tiếp cận: Dựng dữ liệu cú tớnh lịch sử để xõy dựng cung cỏch đối xử với gian lận và dựng khai phỏ dữ liệu để nhận dạng cỏc trƣờng hợp tƣơng tự.

- Vớ dụ:

 Chiếm đoạt tiền bảo hiểm: phỏt hiện những ngƣời đúng kịch tai nạn để lấy tiền bảo hiểm vào một loại hợp đồng bảo hiểm.

 Rửa tiền: Dũ tỡm cỏc giao dịch đỏng ngờ

 Bảo hiểm y tế: phỏt hiện cỏc khỏch hàng chuyờn dựng y tế để kiếm tiền bảo hiểm.

- Dũ tỡm cỏc gian lận trong điện thoại:.

- Bỏn lẻ: Phõn tớch đó cảnh bảo 38% số lƣợng doanh thu trong bỏn lẻ đó rơi vào tỳi nhõn viờn khụng trung thực. (adsbygoogle = window.adsbygoogle || []).push({});

2.2.2. Cỏc ứng dụng khỏc.

- Thể thao. - Thiờn văn học. - WEB.

2.3. KHAI PHÁ DỮ LIỆU TRONG QUÁ TRèNH PHÁT HIỆN TRI THỨC

* Mụ hỡnh quỏ trỡnh phỏt hiện tri thức (knowledge discovery process – KDD)[9]

Hỡnh 2.1. Quỏ trỡnh phỏt hiện tri thức. Cỏc bƣớc phỏt hiện tri thức:

1. Tỡm hiểu cỏc miền ứng dụng: ƣu tiờn cỏc tri thức thớch đỏng và mục tiờu của ứng dụng.

2. Tạo cỏc tập dữ liệu đớch: Chọn lọc dữ liệu.

3. Xử lý và làm sạch dữ liệu: cụng việc này cú thể mất 60% cụng sức. 4. Thu nhỏ và biến đổi dữ liệu: Tỡm kiếm cỏc đặc điểm hữu dụng, xỏc

định thành phần cú thể thu nhỏ, thành phần bất biến

5. Lựa chọn chức năng của khai phỏ dữ liệu: Tổng kết, phõn loại, hồi quy, bú cụm, kết hợp.

6. Lựa chọn phƣơng phỏp khai phỏ.

7. Khai phỏ dữ liệu: tỡm kiếm cỏc mẫu quan tõm.

Làm sạch dữ liệu Tớch hợp dữ liệu cơ sở dữ liệu Kho dữ liệu Dữ liệu thớch đỏng Chọn lọc Khai phỏ dữ liệu

8. Ƣớc lƣợng mẫu và trỡnh bày tri thức: nhỡn nhận, biến đổi và loại bỏ cỏc mẫu dƣ thừa

9. Sử dụng tri thức phỏt hiện đƣợc: Lƣu trữ tri thức đó đƣợc phỏt hiện, Kết hợp cỏc tri thức thành hệ thống. Giải quyết cỏc xung đột tiềm tàng trong tri thức khai thỏc đƣợc.

Ngoài ra ta chỳ ý theo mụ hỡnh trờn cú rất nhiều bƣớc cú thể đƣợc lặp đi lặp lại

Phỏt hiện tri thức từ CSDL là một quỏ trỡnh sử dụng nhiều phƣơng phỏp và cụng cụ tin học nhƣng vẫn cú một quỏ trỡnh mà trong đú con ngƣời là chớnh. Tri thức ở đõy là cỏc tri thức rỳt ra từ cỏc CSDL, thƣờng để phục vụ cho việc giải quyết một loạt nhiệm vụ nhất định trong một lĩnh vực nhất định. Do dú, quỏ trỡnh phỏt hiện tri thức cũng mang tớnh chất hƣớng nhiệm vụ, khụng phải là phỏt hiện mọi tri thức bất kỳ mà là phỏt hiện tri thức nhằm giải quyết tốt nhiệm vụ đề ra. Nếu phỏt hiện tri thức là toàn bộ quỏ trỡnh chiết xuất tri thức từ cỏc CSDL thỡ khai phỏ dữ liệu là giai đoạn chủ yếu của quỏ trỡnh đú. Khai phỏ dữ liệu thƣờng bao gồm việc thử tỡm mụ hỡnh phự hợp với tập dữ liệu và tỡm kiếm cỏc mẫu từ tập dữ liệu theo mụ hỡnh đú nhƣng chỉ cú những mẫu đƣợc xem là đỏng quan tõm xột theo một phƣơng diện nào đú mới đƣợc coi là tri thức. Ta cú thể coi khai phỏ dữ liệu giống nhƣ một quỏ trỡnh phỏt hiện cỏc mẫu mới đỏp ứng đƣợc cỏc yờu cầu trờn, cỏc tƣơng quan mới cú ý nghĩa, cỏc xu hƣớng bằng cỏch khai thỏc dữ liệu trong Kho dữ liệu, sử dụng cỏc kỹ thuật khai phỏ.

2.4. KHAI PHÁ DỮ LIỆU VÀ TIN TỨC KINH DOANH

Ta cú thể biểu diễn mối quan hệ thụng qua mụ hỡnh sau:[9]

Hỡnh 2.2. Mụ hỡnh kinh doanh.

2.5. KIẾN TRệC ĐIỂN HèNH CỦA HỆ THỐNG KHAI PHÁ DỮ LIỆU.

Hỡnh 2.3. Kiến trỳc hệ thống khai phỏ dữ liệu.

Hướng tăng trợ giỳp ra quyết định Kết thỳc User Phõn tớch kinh doanh Dữ liệu Analyst Cơ sở dữ liệu A Ra quyết định Trỡnh bày dữ liệu Kỹ xảo trực quan Khai phỏ dữ liệu Khỏm phỏ thụng tin Dữ liệu đó qua OLAP, MDA

Phõn tớch thống kờ, truy vấn và bỏo cỏo

Kho dữ liệu / dữ liệu hướng chủ đề Nguồn dữ liệu

Giấy tờ, File, thụng tin, hệ thống cơ sở dữ liệu, OLTP

Kho dữ liệu

Tớch hợp và làm sạch dữ liệu Lọc dữ liệu

Cơ sở dữ liệu

Cơ sở dữ liệu hoặc quản trị Kho dữ liệu (adsbygoogle = window.adsbygoogle || []).push({});

Phương tiện khai phỏ dữ liệu ước lượng mẫu Giao diện người sử dụng

2.6. KHAI PHÁ DỮ LIỆU NƠI HỘI TỤ CỦA RẤT NHIỀU KIẾN THỨC:

Khai phỏ dữ liệu cú thể coi là ngó ba sụng nơi hội tụ của rất nhiều ngành học và kiến thức, ta cú thể biểu diễn điều này qua sơ đồ sau:[9]

Hỡnh 2.4. Khai phỏ dữ liệu và tri thức.

2.7. TRỌNG TÂM CHÍNH TRONG KHAI PHÁ DỮ LIỆU.

Cỏc phƣơng phỏp khai phỏ và tƣơng tỏc ngƣời sử dụng.

- Khai phỏ cỏc loại tri thức khỏc nhau của cơ sở dữ liệu.

- Khai phỏ tƣơng tỏc cỏc tri thức ở nhiều mức trừu tƣợng khỏc nhau. - Hợp nhất cỏc nền tảng tri thức.

- Ngụn ngữ truy vấn khai phỏ dữ liệu và khai phỏ dữ liệu khụng theo thể thức (khai phỏ dữ liệu đặc biệt).

- Đƣa ra kết quả khai phỏ dữ liệu dƣới dạng trực quan hoặc biểu thức. - Điều khiển dữ liệu phức tạp và khụng đầy đủ.

- Ƣớc lƣợng mẫu

Tớnh khả thi và khả năng

- Hiệu năng và khả năng thực thi của cỏc thuật toỏn khai phỏ dữ liệu. Khai phỏ dữ liệu Cụng nghệ cơ sở dữ liệu Thống kờ Cỏc ngành học khỏc Thụng tin khoa học Học mỏy Trực quan

- Hoạt động song song, phõn tỏn và sự lớn mạnh của cỏc phƣơng phỏp khai phỏ.

Liờn kết cỏc kiểu dữ liệu đa dạng

- Điều khiển cỏc kiểu dữ liệu phức tạp và cú liờn hệ với nhau

- Khai phỏ thụng tin từ cỏc cơ sở dữ liệu hỗn tạp và hệ thống thụng tin toàn cầu.

2.8. NHỮNG VẤN ĐỀ KHễNG CẦN DÙNG KHAI PHÁ DỮ LIỆU

Vấn đề quan trọng chỳng ta luụn suy nghĩ trong tõm trớ là tiờu điểm của quỏ trỡnh khai phỏ dữ liệu là khỏm phỏ những mẫu và những khuynh hƣớng đƣợc che giấu. Mỗi lần một mẫu đặc biệt đó đƣợc xỏc định, nú cú thể chứa đựng những đặc trƣng nhất định để hƣớng ngƣời khai thỏc dữ liệu khỏm phỏ xa hơn nữa. Tuy nhiờn, một lần mẫu đặc biệt đú đƣợc xỏc định, nú cú thể đƣợc mụ tả nhƣ chất lƣợng tri thức. Mẫu cú thể đƣợc đƣa vào bờn trong vụ số cỏch sử dụng, bao gồm tập cỏc bỏo cỏo chuẩn, cỏc phƣơng phỏp huấn luyện trong mạng nơron hoặc đƣợc mó húa thành một quy tắc vào trong một hệ chuyờn gia. Tại điểm này quỏ trỡnh khỏm phỏ mẫu đặc biệt đú đó kết thỳc. Từ phối cảnh hoặc quỏ trỡnh xử lý khai phỏ dữ liệu thỡ cỏc mẫu đú coi nhƣ cỏc mẫu đó biết. Hơn nữa, những yờu cầu về mẫu đó biết chỉ đƣợc tạo ra khi cần xỏc định chỳng vẫn hợp lệ hoặc sự biến đổi của cỏc mẫu cần phải đƣợc xem xột. Những cỏch tiếp cận phõn tớch tỡm kiếm những tập dữ liệu trờn cơ sở những mẫu đó biết thỡ khụng phải là làm khai phỏ dữ liệu, mặc dự chỳng cú thể sử dụng dữ liệu đầu vào từ những bài toỏn khai phỏ dữ liệu đến cỏc biểu mẫu phự hợp mục đớch. Từ nguyờn nhõn này, chỳng ta khụng lƣu tõm tới kỹ thuật yờu cầu thực thi những quy tắc, vớ dụ huấn luyện cú sẵn hoặc học cú giỏm sỏt tự động những cỏch tiếp cận khai phỏ dữ liệu. Cỏc nguyờn nhõn này tất nhiờn khụng cú nghĩa rằng kỹ thuật đú khụng phải là khụng hữu ớch trong nhiều trƣờng hợp, nú đơn giản cú nghĩa rằng những quỏ trỡnh đú khụng cấu thành khai phỏ dữ liệu.

Khai phỏ dữ liệu khỏc với kiểm tra thụng tin.

Chỳng ta cần phõn biệt giữa xử lý dữ liệu bằng khai phỏ dữ liệu và bằng kiểm tra định lƣợng.

Phần lớn cỏc ứng dụng khai phỏ dữ liệu tập trung vào phõn tớch thụng tin từ tập cỏc thụng tin đó đƣợc thu gom từ trƣớc. Trong cỏc trƣờng hợp này, dữ liệu là

tĩnh và biểu diễn trạng thỏi của thế giới thực trong một khoảng thời gian nào đú đó qua. Ta cú thể xem lại cỏc thụng tin đó cú qua cỏc bƣớc đi để xỏc nhận sự chớnh xỏc của dữ liệu, đƣa ra quyết định mẫu nào là quan trọng. Dữ liệu khụng thay đổi trong khi quỏ trỡnh phõn tớch thực thi. Do đú, kết quả thu đƣợc là đỏng tin cậy và chắc chắn cho tập dữ liệu đú. Với lý do này, ta khụng cần bận tõm đến thời gian chi phớ để ra quyết định.

Trỏi lại, sự kiểm tra thƣờng bao hàm việc so sỏnh cỏc mẫu trực tuyến phự hợp với tập cỏc điều kiện hoặc cỏc đƣờng biờn. Việc kiểm tra thƣờng xảy ra trong thời gian thực và bao hàm việc xử lý dữ liệu đang đƣợc cập nhập. Hệ thống kiểm tra đó đƣợc phỏt triển cho cỏc ứng dụng nhƣ: thị trƣờng tài chớnh, kiểm soỏt khụng lƣu, lũ phản ứng hạt nhõn. Sự kiểm tra làm tăng nhanh thời gian trả lời để tận dụng đƣợc cỏc thụng tin này. Nhƣ vậy, mụ hỡnh dự bỏo và ngƣời dự bỏo cú thể giỳp đỡ xỏc định cỏc giỏ trị tới hạn, những vận hành khỏc thƣờng và cỏc tiờu chuẩn dữ liệu. Những hệ thống này hiện tại khụng thƣờng xuyờn sử dụng khai phỏ dữ liệu, chỳng khụng khỏm phỏ ra cỏc mẫu mới hoặc sự phõn loại. Trong hầu hết cỏc trƣờng hợp, cỏc mẫu cần lƣu tõm đó đƣợc phỏt sinh trong thời gian trƣớc đú.

2.9. QUÁ TRèNH KHAI PHÁ DỮ LIỆU. 2.9.1. Truy cập và chuẩn bị dữ liệu.

Bất kỳ hệ thống nào trƣớc khi đƣợc phỏt triển để phõn tớch và tạo ra cỏc bỏo cỏo thụng minh thỡ dữ liệu bắt buộc phải sẵn sàng. Yờu cầu cơ bản này khụng phải lỳc nào cũng hoàn thành đƣợc. Nếu may mắn ta sẽ cú thể trực tiếp thu đƣợc những hệ thống cơ sở dữ liệu và những file trực tuyến mà khụng cần cú bất kỳ những thủ tục, nghi thức đặc biệt nào, hoặc phải truy nhập bằng những đặc quyền. Trong nhiều miền, hầu hết dữ liệu đƣợc cất giữ trong những cấu trỳc quan hệ mà cú thể thụng qua truy vấn để truy nhập thụng tin mong muốn.

Tuy nhiờn, vấn đề trờn cú thể khụng phải luụn luụn là sự thật. Mặc dự cỏc Kho dữ liệu hiện nay ngày càng trở lờn phổ biến nhƣng chỳng ta phải trả một cỏi giỏ rất đắt cho việc xõy dựng và bảo trỡ đỳng mức. Nếu chỳng ta khụng phải thuộc nhúm cụng nghệ bộ phận của một tổ chức thƣơng mại hoặc chớnh phủ lớn với những hệ thụng tin lũy tiến, sẽ cú khụng cú cấu trỳc nhƣ vậy để truy nhập. Trong phần lớn ràng buộc khai phỏ dữ liệu mà chỳng ta đó chỉ ra, thụng tin đƣợc sử dụng

lấy từ nguồn đặc biệt khụng dự tớnh trƣớc mà việc truy nhập, tớch hợp, trỡnh bày bằng cỏc phƣơng phỏp khụng cần tiờn tiến nhƣ trong Kho dữ liệu.

Dự chỳng ta đang truy nhập dữ liệu từ kho dữ liệu trực tuyến, hoặc bằng phƣơng phỏp thấp hơn hơn nào đú, vấn đề phải đƣợc hƣớng vào là trớch ra một phần dữ liệu để đƣa vào trong mụi trƣờng khai phỏ dữ liệu.

Truy vấn nguồn dữ liệu. (adsbygoogle = window.adsbygoogle || []).push({});

Bƣớc đầu tiờn trong cỏc ràng buộc khai phỏ dữ liệu là định nghĩa tập con dữ liệu mà ta bắt đầu phõn tớch. Ta muốn rằng cấu trỳc dữ liệu của tập hợp đƣợc rỳt ra cú mẫu mà ta cần phõn tớch. Việc trớch ra mẫu là một trong cỏc phƣơng phỏp tốt nhất để tạo ra cỏc lỏt cắt của dữ liệu để đƣa vào cỏc ứng dụng khai phỏ dữ liệu.

Cỏc thao tỏc cú ớch thực hiện trong quỏ trỡnh truy cập dữ liệu. 1. Chuyển đổi chữ: Chuyển tất cả cỏc ký từ trong luồng dữ liệu thành chữ hoa hoặc chữ thƣờng. Sự trợ giỳp này giỳp ngăn ngừa bất kỳ sự thay đổi cú thể xảy

Một phần của tài liệu Một số phương pháp khai phá dữ liệu và ứng dụng trong bài toán lập thời khoá biểu (Trang 28)