0
Tải bản đầy đủ (.pdf) (126 trang)

Khi nào dựng cõy quyết định

Một phần của tài liệu MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG TRONG BÀI TOÁN LẬP THỜI KHOÁ BIỂU (Trang 60 -60 )

1. Tổ chức và khai thỏc cơ sở dữ liệu truyền thống

4.2.2. Khi nào dựng cõy quyết định

Cõy quyết định là phƣơng phỏp thƣờng dựng trong cỏc bài toỏn phõn loại hoặc dự đoỏn dữ liệu theo một tiờu chuẩn nào đú, dựa theo mức độ khỏc nhau của thuộc tớnh. Cõy quyết định và luật cú ƣu điểm là hỡnh thức miờu tả đơn giản, mụ hỡnh suy diễn khả dễ hiểu đối với ngƣời sử dụng. Cõy quyết định cú lẽ tốt nhất cho cỏc ứng dụng trong đú cú cỏc cõu hỏi tiờn nghiệm. Tuy nhiờn, giới hạn của nú là miờu tả cõy và luật chỉ cú thể biểu diễn đƣợc một số dạng chức năng và vỡ vậy giới hạn cả về độ chớnh xỏc của mụ hỡnh vớ dụ nhƣ trong trƣờng hợp dựng cho cỏc dự đoỏn định lƣợng cần độ chớnh xỏc tuyệt đối.

4.3. CÁC LUẬT KẾT HỢP 4.3.1. Luật kết hợp.

Những luật kết hợp đƣợc dẫn xuất ra từ sự phõn tớch cỏc thụng tin trựng hợp. Phƣơng phỏp luận này cho phộp khỏm phỏ những tƣơng quan, hoặc những biến cố trong giao dịch là cỏc sự kiện.

Cỏc luật kết hợp là một dạng biểu diễn tri thức, hay chớnh xỏc hơn là dạng mẫu của hỡnh thành tri thức. Phƣơng phỏp này nhằm phỏt hiện ra cỏc luật kết hợp giữa cỏc thành phần dữ liệu trong cơ sở dữ liệu. Mẫu đầu ra của giải thuật khai phỏ dữ liệu là tập luật kết hợp tỡm đƣợc[6].

Cho một lƣợc đồ R = [A1 ,... Ap] với miền giỏ trị {0,1} và một quan hệ r trờn R. Ta gọi một luật kết hợp trờn quan hệ r đƣợc mụ tả nhƣ sau X=> B với XR và BR\X. Cho W  R, đặt s(W,r) là tần số xuất hiện của W trong r đƣợc tớnh bằng tỷ lệ của cỏc hàng trong r cú giỏ trị 1 tại mỗi cột thuộc tớnh. Khi đú ta định nghĩa tần số xuất hiện và độ tin cậy của luật X => B trong r nhƣ sau[6] :

+ Tần số xuất hiện: = s( X{B}, r). + Độ tin cậy  = s( X{B}, r) \ s(X,r).

với X gồm nhiều thuộc tớnh, B là giỏ trị khụng cố định.

Nhiệm vụ của việc phỏt hiện cỏc luật kết hợp là phải tỡm tất cả cỏc luật X => B sao cho tần số của luật khụng nhỏ hơn ngƣỡng  cho trƣớc và độ tin cậy của luật khụng nhỏ hơn ngƣỡng  cho trƣớc.

4.3.2. Khi nào dựng cỏc luật kết hợp

Sự phõn tớch cỏc luật kết hợp đa số hữu ớch khi bạn đang thăm rũ cỏc phõn tớch, tỡm kiếm cỏc mối quan hệ cú thể tồn tại bờn trong một tập dữ liệu, chỳng cũng cú thể sử dụng để dự bỏo trƣớc. Tuy nhiờn, nếu cú hai thành phần xuất hiện gần nhau thỡ điều đú cũng khụng đảm bảo chắc chắn chỳng cú quan hệ với nhau hoặc cú một ý nghĩa quan trọng nào đú. Do đú, khi dựng phƣơng phỏp này cần cú sự nghiờn cứu kỹ trƣớc khi sử dụng.

4.4. MẠNG NƠ RON. 4.4.1. Mạng Nơ ron. 4.4.1. Mạng Nơ ron.

Mạng nơ ron là một tiếp cận tớnh toỏn mới liờn quan đến việc phỏt triền cỏc cấu trực toỏn học với khả năng học. Cỏc phƣơng phỏp là kết quả của việc nghiờn cứu mụ hỡnh học của hệ thống thần kinh con ngƣời. Mạng nơ ron cú thể đƣa ra ý nghĩa từ cỏc dữ liệu phức tạp hoặc khụng chớnh xỏc và cú thể đƣợc sử dụng để chiết xuất cỏc mẫu và phỏt hiện ra cỏc xu hƣớng quỏ phức tạp mà con ngƣời cũng nhƣ cỏc kỹ thuật mỏy tớnh khỏc khụng thể hoặc khú phỏt hiện đƣợc. Mạng Nơ ron đƣợc định nghĩa : "Là một hệ thống bao gồm rất nhiều phần tử xử lý đơn giản cựng hoạt động song song. Tớnh năng hoạt động của hệ thống này phụ thuộc vào cấu trỳc của hệ thống, vào cường độ liờn kết giữa cỏc phần tử trong hệ thống và Vào quỏ trỡnh xử lý bờn trong cỏc phần tử đú. Hệ thống này cú thể học từ' cỏc dữ liệu và cú khả năng tổng quỏt hoỏ cỏc dữ liệu đú [6]"

Trong mụ hỡnh mạng Neutron cú hai mụ hỡnh học đú là học cú giỏm sỏt (học cú thầy) và học khụng cú giỏm sỏt (học khụng giỏm sỏt).

Học cú thầy.

Trong phƣơng phỏp học cú giỏm sỏt, việc huấn luyện mạng neutron dựa trờn một tập hợp cỏc giỏ trị cú sẵn, cỏc giỏ trị này chớnh là đớch hay mục tiờu cần đạt đƣợc của việc huấn luyện. Với một tập giỏ trị đầu vào hệ thống cung cấp đỏp ỏn đầu ra, nếu sau khi huấn luyện kết quả khụng giống đỏp ỏn thỡ kết quả đƣợc phản hồi lại để sửa trong lần huấn luyện tiếp theo. Khi kết quả đầu ra đạt yờu cầu thỡ việc huấn luyện kết thỳc và khi đú mạng Neutron dựng để phỏt hiện và phõn loại cỏc mẫu mới nhập vào. Nhƣ vậy, với cỏc mạng thần kinh đó huấn luyện cú thể sử dụng tự động để dũ tỡm mẫu và bỏo cho ngƣời sử dụng biết mẫu đầu vào phự hợp với đỏp ỏn đầu ra.

Trong phƣơng phỏp này ta cú thể dễ dàng nhận thấy mạng Neutron đƣợc huấn luyện cú giỏm sỏt rất hữu ớch trong cỏc hệ thống hỗ trợ quyết định và theo dừi cỏc mẫu đó đƣợc xỏc định. Tuy nhiờn, đõy lại khụng phải phƣơng phỏp dựng trong khai phỏ dữ liệu vỡ nú khụng tỡm ra đƣợc cỏi mới.

Học khụng cú thầy.

Học khụng thầy là phƣơng phỏp đƣợc sử dụng trong khai phỏ dữ liệu. Với phƣơng phỏp học khụng cú thầy, khụng cú thụng tin phản hồi từ mụi trƣờng bờn ngoài để chỉ ra rằng đầu ra của mạng là đỳng hay sai. Mạng nơ ron phải tự khỏm phỏ cỏc đặc trƣng, cỏc mối tƣơng quan, tớnh cõn xứng của cỏc mẫu, hay học một cỏch tự động. Núi một cỏch khỏc, học khụng cú thầy luụn thực hiện một cụng việc

Dữ liệu huấn luyện

Mạng

Giải thuật luyện ( Ph-ơng pháp tối -u)

Hàm Mục tiêu Đầu vào Đầu ra mong muốn

Vào Ra Thay đổi Trọng số Đích Sai số + -

tƣơng tự nhƣ một mạng tự liờn hợp, cụ đọng thụng tin từ dữ liệu đầu vào và đƣợc rỳt ra bởi chớnh mạng nơ ron.

4.4.2. Khi nào sử dụng phƣơng phỏp học khụng cú thầy.

Núi chung phƣơng phỏp học khụng cú thầy của mạng nơ ron đƣợc ỏp dụng vào khai phỏ dữ liệu khi ta tỡm cỏc đƣờng lối mới (lạ) hoặc phõn chia tập dữ liệu thành cỏc tập con. Phƣơng thức này cú thẻ sử dụng để khỏm phỏ ra những nhúm dữ liệu nhỏ hoặc cỏc dữ liệu đó cú mục tiờu xỏc định từ trƣớc và phõn bố lại dữ liệu.

4.5. GIẢI THUẬT DI TRUYỀN 4.5.1. Giải thuật di truyền. 4.5.1. Giải thuật di truyền.

Giải thuật di truyền đƣợc phỏt triển mụ phỏng lại hệ thống tiến hoỏ trong tự nhiờn, chớnh xỏc hơn đú là cỏc giải thuật chỉ ra tập cỏc cỏ thể đƣợc hỡnh thành, đƣợc ƣớc lƣợng và biến đổi nhƣ thế nào. Giải thuật cũng mụ phỏng lại yếu tố gen trong nhiễm sắc thể sinh học trờn mỏy tớnh để cú thể giải quyết nhiều bài toỏn thực tế khỏc nhau.

Cỏc giải thuật mà chỳng ta đề cập đến bờn trờn chủ yếu núi về vấn đề phõn loại và dự đoỏn trong khi Giải thuật di truyền là một giải thuật tối ƣu hoỏ. Nú đƣợc sử dụng rất rộng rói trong việc tối ƣu hoỏ cỏc kỹ thuật khai phỏ dữ liệu trong đú cú kỹ thuật mạng neuron. Sự liờn hệ của nú với cỏc giải thuật khai phỏ dữ liệu là ở chỗ việc tối ƣu hoỏ cần thiết cho cỏc quỏ trỡnh khai phỏ dữ liệu. Nhƣ đó đề cập ở phần trƣớc, cỏc luật mụ hỡnh hoỏ dữ liờu chứa cỏc tham số đƣợc xỏc định bởi cỏc giải thuật phỏt hiện tri thức. Giai đoạn tối ƣu hoỏ là cần thiết để xỏc định cỏc giỏ trị tham số nào tạo ra cỏc luật tốt nhất. Vỡ vậy, giải thuật di truyền đƣợc sử dụng trong cụng cụ khai phỏ.

Giải thuật di truyền dựa trờn ba cơ chế cơ bản: Chọn lọc, tƣơng giao chộo và đột biến[6].

Sự Chọn lọc

Quỏ trỡnh chọn lọc trong giải thuật di truyền dựa trờn sự chọn lọc tự nhiờn trong quỏ trỡnh tiến hoỏ. Sự chọn lọc này sẽ chọn ra cỏc cỏ thể cú sự tồn tại thớch hợp nhất trong mụi trƣờng và truyền lại cho thế hệ sau. Những giỏ trị thớch hợp đƣợc tớnh toỏn cho tất cả cỏc cỏ thể nhõn hoặc gen bờn trong quần thể, và những giỏ

trị cao nhất đƣợc cho phộp để tỏi sản xuất. Cỏc Gen cú sự thớch hợp thấp thỡ ớt đƣợc sao chộp đến cỏc thế hệ tiếp theo. Phƣơng phỏp chọn gen cho cỏc thế hệ liờn tiếp thụng thƣờng đƣợc làm theo phƣơng phỏp xỏc suất. Sự chọn lọc gen cho thế hệ tiếp theo đƣợc tiến hành ngẫu nhiờn trờn một quần thể với số lƣợng cỏ thể đại diện.

Tƣơng giao chộo

Tƣơng giao chộo xuất hiện khi hai cỏ thể đƣợc chọn ngẫu nhiờn từ quần thể. Khi một chu trỡnh lai giống xuất hiện cỏc gen đƣợc ghộp đụi ngẫu nhiờn với nhau và tỏi di truyền theo một xỏc suất đƣợc gỏn cho sự lai ghộp. Xỏc suất này là một tham số cú thể thay đổi đƣợc theo nhịp độ thay đổi xuất hiện trong quần thể. Khi tƣơng giao chộo xảy ra, con cỏi đƣợc hƣởng cỏc gen di truyền ở cả bố và mẹ, số lƣợng cỏc thụng tin đƣợc đƣa vào trong gen của con bởi điểm lai giống bị giỏn đoạn.

Đột biến.

Trong lai ghộp thƣờng cú sự di truyền hoàn hảo của cha mẹ tới con. Bờn trong cỏch này dần dần xuất hiện cỏc bậc thang thay đổi, tuy nhiờn cú cỏc thay đổi đột ngột, những thay đổi này xảy ra khi cú lỗi trong sự di truyền thụng tin chung từ cha, mẹ đến con. Cỏc thay đổi này cú thể tốt hoặc xấu.

4.5.2. Khi nào sử dụng giải thuật Di truyền.

Giải thuật di truyền rất hữu ớch trong trƣờng hợp tỡm ra cỏc giỏ trị tối ƣu ngay cả trong trƣờng hợp dữ liệu nguồn thụng tin và dữ liệu ta cú đƣợc là từ nhiều nguồn khỏc nhau.

Giải thuật di truyền cũng đƣợc ỏp dụng trong kinh doanh nhằm tỡm ra lợi nhuận tối ƣu bằng cỏch kết hợp cỏc đặc tớnh của sản phẩm. Ngoài ra chỳng cũn đƣợc sử dụng thành cụng trong lập lịch và chuỗi thời gian.

Giải thuật di truyền cũng cú cỏc hiệu ứng tốt cú thể đƣợc dựng kết hợp với mạng nơ ron tại đầu ra của mạng này.

4.6. CÁC PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU KHÁC. 4.6.1. Phõn nhúm và phõn đoạn.

Kỹ thuật phõn nhúm và phõn đoạn là những kỹ thuật phõn chia dữ liệu sao cho mỗi phần hoặc mỗi nhúm giống nhau theo một tiờu chuẩn nào đú. Mỗi quan hệ

thành viờn của cỏc nhúm cú thể dựa trờn mức độ giống nhau của cỏc thành viờn và từ đú xõy dựng nờn cỏc luật ràng buộc giữa cỏc thành viờn trong nhúm[6].

Mẫu đầu ra của quỏ trỡnh khai phỏ dữ liệu sử dụng kỹ thuật này là cỏc tập mẫu chứa cỏc dữ liệu cú chung những tớnh chất nào đú đƣợc phõn tớch từ cơ sở dữ liệu. Khi cỏc mẫu đƣợc thiết lập, chỳng cú thể đƣợc sử dụng để tỏi tạo cỏc tập dữ liệu ở dạng dễ hiểu hơn, đồng thời cũng cung cấp cỏc nhúm dữ liệu cho cỏc hoạt động cũng nhƣ cụng việc phõn tớch. Đối với cơ sở dữ liệu lớn, việc lấy ra cỏc nhúm này là rất quan trọng.

4.6.2. Phƣơng phỏp suy diễn và quy nạp

Một cơ sở dữ liệu là một kho thụng tin nhƣng cỏc thụng tin quan trọng hơn cũng cú thể đƣợc suy diễn từ kho thụng tin đú. Cú hai kỹ thuật chớnh để thực hiện việc này là suy diễn và quy nạp.

Phương phỏp suy diễn: Nhằm rỳt ra thụng tin là kết quả logic của cỏc thụng tin trong cơ sở dữ liệu, dựa trờn cỏc quan hệ trong dữ liệu. Phƣơng phỏp suy diễn dựa trờn cỏc sự kiện chinh xỏc để suy ra cỏc tri thức mới từ cỏc thụng tin cũ. Mẫu chiết xuất đƣợc bằng cỏnh sử dụng phƣơng phỏp này thƣờng là cỏc luật suy diễn.

Phương phỏp quy nạp: phƣơng phỏp quy nạp suy ra cỏc thụng tin đƣợc sinh ra từ cơ sở dữ liệu. Cú nghĩa là nú tự tỡm kiếm, tạo mẫu và sinh ra tri thức chứ khụng phải bắt dầu với cỏc tri thức đó biết trƣớc.

4.6.3. Cỏc phƣơng phỏp dựa trờn mẫu.

Sử dụng cỏc mẫu miờu tả từ cơ sở dữ liệu để tạo nờn một mụ hỡnh dự đoỏn cỏc mẫu mới bằng cỏch rỳt ra cỏc thuộc tớnh tƣơng tự nhƣ cỏc mẫu đó biết trong mụ hỡnh. ở đõy, nhiệm vụ chớnh chớnh là phải xỏc định đƣợc độ đo giống nhau giữa cỏc mẫu, sau đú mới tạo ra mẫu dự đoỏn.

4.6.4. Khai phỏ dữ liệu văn bản.

Kỹ thuật đƣợc sử dụng trong việc tỡm kiếm, phõn tớch và phõn lớp cỏc dữ liệu văn bản khụng định dạng, đặc biệt phõn tớch cõu trả lời cho cỏc cõu hỏi mở trong khảo sỏt thị trƣờng, tỡm kiếm cỏc tài liệu phức tạp

4.7. LỰA CHỌN PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU.

Cỏc thuật toỏn khai phỏ dữ liệu tự động vẫn mới chỉ ở giai đoạn phỏt triển ban đầu. Ngƣời ta vẫn chƣa đƣa ra đƣợc một tiờu chuẩn nào trong việc quyết định sử dụng phƣơng phỏp nào và trong trƣờng hợp nào thỡ cú hiệu quả.

Hầu hết cỏc kỹ thuật khai phỏ dữ liệu đều mới đối với lĩnh vực kinh doanh. Hơn nữa lại cú rất nhiều kỹ thuật, mỗi kỹ thuật đƣợc sử dụng cho nhiều bài toỏn khỏc nhau. Mỗi phƣơng phỏp đều cú điểm mạnh và điểm yếu của nú, nhƣng hầu hết cỏc điểm yếu đều cú thể khắc phục đƣợc, vỡ vậy cần tỡm cỏch ỏp dụng mỗi kỹ thuật một cỏch thật đơn giản, dễ sử dụng để khụng cảm thấy những phức tạp vốn cú của kỹ thuật đú.

Để so sỏnh cỏc kỹ thuật cần phải cú một tập lớn cỏc quy tắc và cỏc phƣơng phỏp thực nghiệm tốt. Thƣờng thỡ quy tắc này khụng đƣợc sử dụng khi đỏnh giỏ cỏc kỹ thuật mới nhất. Vỡ vậy mà những yờu cầu cải thiện độ chớnh xỏc khụng phải lỳc nào cũng thực hiện đƣợc.

Nhiều cụng ty đó đƣa ra những sản phẩm sử dụng kết hợp nhiều kỹ thuật khai phỏ dữ liệu khỏc nhau với hy vọng nhiều kỹ thuật thỡ sẽ tốt hơn. Nhƣng thực tế cho thấy nhiều kỹ thuật chỉ thờm nhiều rắc rối và gõy khú khăn cho việc so sỏnh giữa cỏc phƣơng phỏp và cỏc sản phẩm. Theo nhiều đỏnh giỏ cho thấy khi đó hiểu đƣợc cỏc kỹ thuật và nghiờn cứu tớnh giống nhau giữa chỳng, ngƣời ta thấy rằng nhiều kỹ thuật lỳc đầu thỡ cú vẻ khỏc nhau nhƣng thực chất khi hiểu ra đƣợc cỏc kỹ thuật này thỡ thấy chỳng hoàn toàn giống nhau. Tuy nhiờn, đỏnh giỏ này cũng chỉ để tham khảo vỡ cho đến nay, khai phỏ dữ liệu vẫn cũn là kỹ thuật mới chứa nhiều tiềm năng mà ngƣời ta vẫn chƣa khai thỏc hết.

4.8. ƢU THẾ VÀ KHể KHĂN CỦA KHAI PHÁ DỮ LIỆU. 4.8.1. Ƣu thế:

Nhƣ đó phõn tớch ở trờn, ta thấy khai phỏ dữ liệu hoàn toàn dựa trờn cỏc phƣơng phỏp cơ bản đó biết. Vậy khai phỏ dữ liệu cú gỡ khỏc so với cỏc phƣơng phỏp đú và cú ƣu thế gỡ hơn cỏc phƣơng phỏp cơ bản. Ta sẽ xem xột với từng phƣơng phỏp cơ bản :

Trong học mỏy, thuật ngữ cơ sở dữ liệu chủ yếu đề cập tới một tập cỏc mẫu đƣợc lƣu trong một tập. Cỏc mẫu thƣờng là cỏc vector đặc điểm cú độ dài cố định. Thụng tin về cỏc tờn đặc điểm, dóy giỏ trớ của chỳng đụi khi cũng đƣợc lƣu lại nhƣ trong từ điển dữ liệu. Một giải thuật học cũn sử dụng tập dữ liệu và cỏc thụng tin kốm theo tập dữ liệu đú làm đầu vào và đầu ra biểu thị kết quả của việc học.

Học mỏy chỉ cú khả năng dƣợc ỏp dụng trong cơ sở dữ liệu đầy đủ ớt biến động, tập dữ liệu khụng quỏ lớn. Thực tế, cơ sở dữ liệu thƣờng động, khụng đầy đủ, bị nhiễu, và lớn hơn nhiều so với cỏc tập dữ liệu học mỏy điển hỡnh. Cỏc yếu tố này làm cho hầu hết cỏc giải thuật học mỏy trở nờn khụng hiệu quả trong hầu hết cỏc trƣờng hợp.

Ngƣợc lại, Khai phỏ dữ liệu cú khả năng ỏp dụng trong những cơ sở dữ liệu lớn, cú nhiều biến động.

Hệ chuyờn gia

Một phần của tài liệu MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG TRONG BÀI TOÁN LẬP THỜI KHOÁ BIỂU (Trang 60 -60 )

×