Quỏ trỡnh khỏi phỏ dữ liệu

Một phần của tài liệu Một số phương pháp khai phá dữ liệu và ứng dụng trong bài toán lập thời khoá biểu (Trang 39)

1. Tổ chức và khai thỏc cơ sở dữ liệu truyền thống

2.9.2. Quỏ trỡnh khỏi phỏ dữ liệu

Cỏc giải thuật khai phỏ dữ liệu thƣờng đƣợc miờu tả nhƣ những chƣơng trỡnh hoạt động trực tiếp trờn tiệp dữ liệu. Quỏ trỡnh khai phỏ dữ liệu đƣợc thể hiện bởi mụ hỡnh trờn với từng bƣớc chi tiết nhƣ sau[6],[9]:

Xỏc định nhiệm vụ : Xỏc định chớnh xỏc vấn đề cần thực hiện.

Xỏc định cỏc dữ liệu liờn quan : Trờn cơ sở vẫn đề cần giải quyết xỏc định cỏc nguồn dữ liệu liờn quan cú thể dựng để xõy dựng giải phỏp.

Thu thập cỏc dữ liệu cú liờn quan và xử lý chỳng thành dạng sao cho giải thuật khai phỏ dữ liệu cú thể hiểu được. Vẫn đề này cú thể gặp phải một số vƣớng mắc nhƣ: cỏc dữ liệu phải đƣợc sao ra nhiều bản (nếu đƣợc thiết xuất vào cỏc tệp), quản lý tập cỏc tệp dữ liệu, phải lặp đi lặp lại nhiều lần toàn bộ quỏ trỡnh ( nếu mụ hỡnh dữ liệu thay đổi), v.v...

Thống kờ, túm tắt dữ liệu. Đồng thời kết hợp với cỏc dữ liệu trực tiếp để làm đầu vào cho thực hiện giải thuật khai phỏ số liệu.

Chọn thuật toỏn khai phỏ dữ liệu thớch hợp và thực hiện việc khai phỏ dữ liệu để tỡm đƣợc cỏc mẫu cú ý nghĩ. Với cỏc cỏc nhiệm vụ của khai phỏ dữ liệu khỏc nhau, dạng của cỏc mẫu chiết xuất đƣợc cũng rất đa dạng. Mẫu chiết xuất đƣợc cú thể là một mụ tả xu hƣớng, cú thể là dƣới dạng văn bản, một đồ thị mụ tả cỏc mối quan hệ trong mụ hỡnh.

2.10. CÁC NHIỆM VỤ CHÍNH CỦA KHAI PHÁ DỮ LIỆU

Cụng việc khai phỏ dữ liệu cú thể chia làm hai loại: khai phỏ dữ liệu mụ tả và khai phỏ dữ liệu dự đoỏn. Loại thứ nhất mụ tả dữ liệu một cỏch ngắn gọn, túm tắt và trỡnh bày cỏc tớnh chất chung đỏng quan tõm của dữ liệu. Loại thứ hai xõy dựng một hoặc một tập cỏc mụ hỡnh, thực hiện cỏc phộp suy luận trờn dữ liệu sẵn cú và dự đoỏn hành vi của cỏc tập dữ liệu mới.

Cỏc mục tiờu mụ tả và dự đoỏn đạt đƣợc thụng qua cỏc cụng việc khai phỏ dữ liệu chớnh sau đõy:

- Phõn lớp là việc học một hàm ỏnh xạ một mẫu dữ liệu vào một trong số cỏc lớp đó xỏc định. Quỏ trỡnh này phõn tớch một tập dữ liệu huấn luyện (tức là một tập cỏc đối tƣợng mà ta đó biết tờn lớp của nú) và xõy dựng một mụ hỡnh cho mỗi lớp

dựa trờn cỏc đặc tớnh trong dữ liệu. Một cõy quyết định hoặc một tập cỏc luật phõn lớp đƣợc tạo ra từ quỏ trỡnh phõn lớp đú, nú cú thể đƣợc dựng để hiểu rừ hơn mỗi lớp trong cơ sở dữ liệu và để phõn loại dữ liệu trong tƣơng lai.

Vớ dụ, ngƣời ta cú thể phõn loại cỏc bệnh và giỳp dự đoỏn bệnh dựa trờn cỏc triệu chứng của bệnh nhõn. Phõn lớp đƣợc dựng trong việc phõn nhúm khỏch hàng, mụ hỡnh húa doanh nghiệp và phõn tớch tớn dụng...

- Hồi quy là việc học một hàm ỏnh xạ từ một mẫu dữ liệu sang một biến dự đoỏn cú giỏ trị thực. Cú rất nhiều cỏc ứng dụng khai phỏ dữ liệu với nhiệm vụ hồi quy, vớ dụ nhƣ đỏnh giỏ khả năng tử vong của bệnh nhõn dựa trờn cỏc kết quả xột nghiệm chẩn đoỏn, dự đoỏn nhu cầu tiờu thụ một sản phẩm mới bằng một hàm chi tiờu quảng cỏo.

- Phõn nhúm (đoạn) là việc mụ tả chung để tỡm ra cỏc tập xỏc định cỏc nhúm để mụ tả dữ liệu. Cỏc nhúm cú thể tỏch rời hoặc phõn cấp hoặc gối lờn nhau, tức là một dữ liệu cú thể vừa thuộc nhúm này, vừa thuộc nhúm khỏc. Cỏc ứng dụng khai phỏ dữ liệu cú nhiệm vụ phõn nhúm nhƣ phỏt hiện tập khỏch hàng cú phản ứng giống nhau trong cơ sở dữ liệu tiếp thị, xỏc định cỏc loại quang phổ từ cỏc phƣơng phỏp đo tia hồng ngoại.

- Mụ hỡnh hoỏ phụ thuộc bao gồm việc tỡm kiếm một mụ hỡnh mụ tả sự phụ thuộc đỏng kể giữa cỏc biến. Cỏc mụ hỡnh phụ thuộc tồn tại dƣới hai mức: mức cấu trỳc của mụ hỡnh xỏc định những biến nào là phụ thuộc cục bộ với nhau, và mức định lƣợng của một mụ hỡnh xỏc định độ mạnh của sự phụ thuộc theo một thƣớc đo nào đú.

- Phỏt hiện sự thay đổi và chệch hƣớng khai thỏc những thay đổi đỏng kể nhất trong dữ liệu từ cỏc giỏ trị chuẩn hoặc đƣợc đo trƣớc đú.

Cỏc nhiệm vụ khỏc nhau này đũi hỏi số lƣợng và dạng thụng tin khỏc nhau nờn chỳng thƣờng ảnh hƣởng đến việc thiết kế và chọn thuật toỏn khai phỏ dữ liệu khỏc nhau.

2.11. CÁC THÀNH PHẦN CỦA GIẢI THUẬT KHAI PHÁ DỮ LIỆU.

Quỏ trỡnh khai phỏ dữ liệu là quỏ trỡnh phỏt triển mẫu. Trong đú, giải thuật khai phỏ dữ liệu tỡm kiếm cỏc mẫu đỏng quan tõm theo dạng xỏc định nhƣ cỏc luật, cõy phõn lớp, quy hồi, phõn nhúm,... Giải thuật khai phỏ dữ liệu bao gồm 3 thành phần chớnh nhƣ sau: biểu diễn mụ hỡnh, đỏnh giỏ mụ hỡnh, tỡm kiếm mụ hỡnh.

Biểu diễn mụ hỡnh: Mụ hỡnh đƣợc biểu diễn bằng một ngụn ngữ sao cho cú thể khai phỏ đƣợc. Nếu mụ hỡnh cú sự mụ tả hạn chế thỡ sẽ khụng thể học đƣợc hoặc sẽ khụng thể cú cỏc mẫu tạo ra đƣợc một mụ hỡnh chớnh xỏc cho dữ liệu. Nếu diễn tả mụ hỡnh càng lớn thỡ càng làm tăng mức độ nguy hiểm do bị học quỏ và làm giảm đi khả năng dự đoỏn cỏc dữ liệu chƣa biết. Hơn nữa, việc tỡm kiếm sẽ càng trở nờn phức tạp hơn và việc giải thớch mụ hỡnh cũng khú khăn hơn.

Đỏnh giỏ mụ hỡnh: Đỏnh giỏ xem một mẫu cú đỏp ứng đƣợc cỏc tiờu chuẩn của quỏ trỡnh phỏt hiện tri thức hay khụng Việc đỏnh giỏ mụ hỡnh đƣợc thực hiện qua kiểm tra dữ liệu, đối với nhiệm vụ dự đoỏn thỡ việc đỏnh giỏ mụ hỡnh ngoài kiểm tra dữ liệu cũn dựa trờn độ chớnh xỏc dự đoỏn, Việc đỏnh giỏ độ chớnh xỏc dự đoỏn dựa trờn đỏnh giỏ chộo.

Tỡm kiếm mụ hỡnh: Bao gồm 2 thành phần: tỡm kiếm tham số và tỡm kiếm mụ hỡnh.

- Tỡm kiếm tham số: giải thuật cần tỡm kiếm cỏc tham số để tối ƣu hoỏ cỏc tiờu chuẩn đỏnh giỏ mụ hỡnh với cỏc dữ liệu quan sỏt đƣợc và với một miờu tả mụ hỡnh đó định.

- Tỡm kiếm mụ hỡnh: xảy ra giống nhƣ một vũng lặp qua phƣơng phỏp tỡm kiếm tham số. Khi miờu tả mụ hỡnh bị thay đổi tạo nờn một họ cỏc mụ hỡnh thỡ với mỗi một miờu tả mụ hỡnh, phƣơng phỏp tỡm kiếm tham số đƣợc ỏp dụng để đỏnh giỏ chất lƣợng mụ hỡnh. Cỏc phƣơng phỏp tỡm kiếm mụ hỡnh thƣờng sử dụng cỏc kỹ thuật tỡm kiếm heuristic (Dựa theo kinh nghiệm, thử nghiệm, rỳt ra kết luận) vỡ kớch thƣớc của khụng gian cỏc mụ hỡnh cú thể ngăn cản cỏc tỡm kiếm tổng thể.

CHƢƠNG 3. CÁC PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU TRỰC QUAN

Trờn thực tế chỳng ta cú rất nhiều cỏc phƣơng phỏp khai phỏ dữ liệu và cú thể núi số lƣợng là vụ hạn. Trong bối cảnh hiện nay, phƣơng phỏp trực quan là một trong cỏc phƣơng phỏp mạnh đƣợc đề nghị dựng để phỏt hiện ra cỏc kẽ hở về mẫu và khuynh hƣớng mà cỏc phƣơng phỏp khụng trực quan khụng thấy đƣợc. Cỏc phƣơng phỏp khụng trực quan nhƣ thống kờ, luật, mạng nơron… thƣờng yờu cầu rằng phõn tớch dữ liệu theo kiểu thử giả thuyết, trong đú ngƣời phõn tớch cú những khỏi niệm thứ bậc về những kết quả cú đƣợc trƣớc khi sự phõn tớch thật sự bắt đầu. Kết quả của cỏc phƣơng phỏp này đƣa ra mụ tả khuynh hƣớng phỏt triển của nhúm, cỏc sự khỏc biệt phổ biến và sự phõn lớp. Rừ ràng, cỏc phƣơng phỏp này phự hợp cho rất nhiều mục đớch nhƣng phƣơng hƣớng toàn cầu lại khụng đƣợc đề cập nhiều lắm. Phƣơng phỏp trực quan cho phộp chỳng ta khỏm phỏ toàn diện cỏc xu hƣớng trong tập dữ liệu đang xột trong khi cho phộp ta tỡm ra cỏc cỏc mẫu nhỏ cũn ẩn trong dữ liệu, nhiều khi chớnh cỏc mẫu nhỏ này lại rất quan trọng trong cỏc ứng dụng. Tuy nhiờn, ở đõy khi chỳng ta núi đến phƣơng phỏp trực quan khụng cú nghĩa là chỳng loại trừ cỏc phƣơng phỏp khỏc mà chỳng ta cần kết hợp cỏc phƣơng phỏp để khỏm phỏ càng nhiều dữ liệu càng tốt.

Chỳng ta thƣờng dựng phƣơng phỏp trực quan để trợ giỳp cỏc tập dữ liệu phức tạp, rối ren và cú nhiều thụng tin tạp. Phƣơng phỏp trực quan đó đƣợc chứng minh là đỏng tin cậy, dễ học và hiệu quả cao. Hơn nữa, phƣơng phỏp trực quan cú thể tớch hợp cỏc tập dữ liệu bằng phƣơng phỏp tự nhiờn.

Trong phần này chỳng ta sẽ tiếp cận với cỏc phƣơng phỏp trực quan đó đƣợc dựng thành cụng trong rất nhiều lĩnh vực.

3.1. QUAN SÁT CÁC HOẠT ĐỘNG KHễNG THEO CHỦ QUAN.

Kỹ thuật khai phỏ dữ liệu trực quan cung cấp cho ngƣời khai phỏ khả năng đầy đủ để quan sỏt cỏc hoạt động mà khụng theo định kiến cỏ nhõn nào cả. Điều đú cú nghĩa là ta khụng cần phải biết là cần phải tỡm kiếm cỏi gỡ trong thời gian sắp tới. Hơn thế, bạn cú thể bắt dữ liệu chỉ ra cho bạn thấy cỏi gỡ là quan trọng. Trong thời gian phõn tớch trực quan ta cú thể nhanh chúng thấy đƣợc cỏc mẫu cần thiết dựa trờn sự xõm phạm danh giới, trờn tần số xuất hiện hoặc sự cố và tất cả cỏc phõn loại, sắp xếp dữ liệu phụ thuộc lẫn nhau. Trực quan hoỏ cho phộp ta kiểm định cỏc xử lý

phõn tớch, từ đú ta xử lý dữ liệu trực tiếp và đƣa ra cỏc quyết định lặp đi lặp lại cỏi gỡ sẽ đƣa ra đầu tiờn. Chớnh việc quay đi quay lại trong nghiờn cứu dữ liệu làm cho ta hiểu sõu hơn về tập dữ liệu. Đến đõy ta lại khẳng định lại một lần nữa việc kết hợp cỏc phƣơng phỏp truyền thống và phƣơng phỏp trực quan cú thể tạo ra một cỏch tiếp cận tụt và mạnh hơn cho quỏ trỡnh khai phỏ dữ liệu.

Việc ỏp dụng trực quan vào cỏc tập dữ liệu cho bạn nhanh chúng tỡm thấy những mẫu quan trọng hoặc nẩy sinh xu hƣớng mà cỏc phƣơng phỏp khỏc khụng tỡm thấy. Sự mụ tả bằng đồ thị dữ liệu cho phộp ta tỡm ra những lƣợng thụng tin lớn hơn tại một thời điểm, những thụng tin này cú thể đƣợc hoàn thành khi sử dụng nhiều kỹ thuật truyền thống. Trực quan cũng là cụng nghệ tƣơng tỏc cho phộp ta xếp đặt lại cỏc tham số sao cho thấy đƣợc sự ảnh hƣởng của chỳng đến sự trỡnh diễn. Trong mụ hỡnh này cũng rất dễ ỏp dụng cỏc phõn tớch theo mụ hỡnh thăm dũ. Ngoài ra, trực quan về tƣơng quan và kết hợp giữa số lƣợng cỏc đối tƣợng dữ liệu cú thể nhanh chúng làm lộ cỏc mẫu và khuynh hƣớng tiềm ẩn trong dữ liệu, do đú, cú khả năng làm cho việc phõn tớch thành cụng.

3.2. TRỰC QUAN VÀ ĐếI HỎI CỦA NHẬN THỨC

Cú thể sự mở rộng lớn nhất trong việc sử dụng trực quan trong cỏc phƣơng phỏp khai phỏ dữ liệu là phƣơng phỏp trực quan cốt để làm nổi bật sức mạnh nhận thức của con ngƣời hơn là tới sự yếu kộm của nú. Chắc chắn cú nhiều cỏc cụng việc cần nhận thức, kinh nghiệm con ngƣời cú thể làm tốt và một số cụng việc khỏc lại làm rất tồi. Việc lựa chọn phƣơng phỏp nghiờn cứu thƣờng phải cú sự cõn nhắc về kiểu xử lý thụng tin mà ngƣời đú đũi hỏi trong suốt quỏ trỡnh nghiờn cứu. Tại cỏc nơi cú thể, tiếp cận khai phỏ dữ liệu cần cho phộp cỏc thụng tin đƣợc miờu tả và thao tỏc theo cỏc cỏch để ngƣời phõn tớch cú thể hiểu và biểu diễn. Trực quan hoỏ di chuyển cỏc thụng tin ra khỏi mụ hỡnh cồng kềnh và cho phộp ngƣời phõn tớch chuyển đổi chỳng và trong cỏc mụ hỡnh xử lý thụng tin cú hiệu quả.

Giới hạn nhận thức trong xử lý thụng tin.

Hiện nay, đa số cỏc định dạng truyền thống biểu diễn thụng tin dƣới dạng văn bản hoặc bảng, điều này bắt buộc ngƣời phõn tớch vào trong cỏc mụ hỡnh xử lý thụng tin sai. Những khuụn dạng này làm yờu cầu xử lý cao trong khi nhận thức cú hạn, điều này cũng bắt buộc ngƣời phõn tớch mở rộng trớ nhớ của mỡnh, đú quả là

một việc khú và việc xảy ra lỗi là chắc chắn. Hoạt động của khai phỏ dữ liệu cú thể yờu cầu nhận thức dƣới dạng yờu cầu ngƣời dựng những định dạng dữ liệu phức tạp, thụng tin kết nối từ nhiều nguồn, làm sỏng tỏ và khỏm phỏ những mẫu khụng biết trƣớc đú.

Con ngƣời cú hai loại trớ nhớ đú là trớ nhớ ngắn hạn và trớ nhớ dài hạn, cả hai loại trớ nhớ này đều cú giới hạn.

Trực quan hoỏ lợi dụng sức mạnh của nhận thức.

Mặc dự con ngƣời giới hạn trong sự chỳ ý và trớ nhớ nhƣng trội hơn trong xử lý thụng tin trực quan. Những đặc trƣng quan trong đƣợc đƣa ra trong cảnh trực quan phức tạp nhƣng con ngƣời cú thể nhận ra vấn đề trong thời gian mili giõy. Nóo của chỳng ta cú cấu trỳc để xử lý cỏc vấn đề trực quan nhanh chúng và song song. Hơn thế, cỏc thụng tin biểu diễn trực quan dễ nhận ra hơn cỏc thụng tin biểu diễn bằng văn bản hoặc lời núi.

Mụ hỡnh trực quan biểu diễn bằng sơ đồ giỳp ngƣời phõn tớch nhanh chúng xỏc định đƣợc cỏc mẫu nào là quan trọng cho mục tiờu và tƣơng lai.

3.3. VẼ SƠ ĐỒ DỮ LIỆU TRấN LƢỢC ĐỒ TRỰC QUAN.

Phƣơng phỏp trực quan mà bạn chọn cho quỏ trỡnh phõn tớch sẽ dựa trờn kiểu dữ liệu bạn cú và biết mụ hỡnh dữ liệu đó xõy dựng. Mức độ trừu tƣợng của dữ liệu đó đƣợc thu nhỏ.

3.3.1. Thuật toỏn xỏc định vị trớ [6]

Khi đƣa dữ liệu vào trong một mụi trƣờng trực quan, bạn phải quyết định làm sao để trỡnh bày dữ liệu theo một kiểu cỏch cú ý nghĩa. Hoạt động này tập trung vào sử dụng những thuộc tớnh của cỏc phần tử dữ liệu đó đƣợc định nghĩa trong mụ hỡnh để xỏc định làm sao thụng tin sẽ đƣợc nhỡn thấy và cảm nhận. Nhƣ vậy, cú những sự ràng buộc vị trớ xỏc định nơi những đối tƣợng sẽ xuất hiện trong màn hỡnh. Phụ thuộc vào kiểu trực quan húa đƣợc dựng, bạn cú thể trụng đợi một thủ tục chung dạng a( x,y,z) cho tất cả cỏc điểm dữ liệu. Bạn cú thể chọn những giải thuật xỏc định vị trớ nhƣ bú cụm, phõn cấp,…

Phõn lớp, bú cụm:

Vị trớ cỏc đối tƣợng trờn màn hỡnh hiển thị dựa trờn cỏc giỏ trị hiển thị chung gắn với chỳng. Những phần tử này đƣợc bú cụm hoặc chia thành nhúm xung quanh cỏc giỏ trị dựng chung. Tiờu biểu, khi cỏc giỏ trị này đại diện cho cỏc tập hợp tuỳ ý về mụ tả ta sẽ thấy rừ hơn sự tập trung dữ liệu trong cỏc giỏ trị dựng chung. Nhiều màn hỡnh hai hoặc ba chiều sử dụng cỏch tiếp cận này.

Cỏc cụm cú thể tự tạo lờn cỏc bản đồ theo quy luật tự nhiờn vào cỏc vị trớ XYZ đặc biệt hoặc xếp theo thứ tự trong biễu diễn hỡnh học. Sự khỏc nhau giữa hai cỏch trỡnh bày của cỏc bú dẫn đến sự trỡnh bày tƣơng đối hoặc tuyệt đối. Trong sự xếp đặt tuyệt đối cỏc vị trớ vật lý của đối tƣợng đƣợc xếp đặt sao cho cỏc bú đƣợc nhỡn thấy và hơn nữa khoảng cỏch giữa chỳng cú thể đo đƣợc.

Nhƣ vậy, cỏc thành phần trong khụng gian đƣợc đƣa vào khụng gian hiển thị của sơ đồ. Do đú, theo nhƣ ta hỡnh dung, cỏc giỏ trị mất tớch sẽ dễ phỏt hiện ra khi sử dụng cỏch tiếp cận này, nhƣng cỏc giỏ trị chớnh xỏc hoặc tƣơng tự sẽ chồng lờn nhau. Trong sự hiển thị tƣơng đối, cỏc bú đƣợc phõn biệt bởi sự xếp đặt theo thứ tự theo cỏch trỡnh bày hỡnh học vớ dụ nhƣ đƣờng trũn hoặc đƣờng thẳng. Sự khỏc biệt chớnh giữa cỏc bú là sự biểu diễn mỗi cỏi khỏc nhau và duy nhất.

Vấn đề là khi nào ta dựng sự sắp xếp tƣơng đối thay cho sự sắp xếp tuyệt đối.

Một phần của tài liệu Một số phương pháp khai phá dữ liệu và ứng dụng trong bài toán lập thời khoá biểu (Trang 39)

Tải bản đầy đủ (PDF)

(126 trang)