Thiết lập cỏc lớp mẫu thời gian

Một phần của tài liệu Một số phương pháp khai phá dữ liệu và ứng dụng trong bài toán lập thời khoá biểu (Trang 54)

1. Tổ chức và khai thỏc cơ sở dữ liệu truyền thống

3.4.4. Thiết lập cỏc lớp mẫu thời gian

Chỳng ta cú định nghĩa về hai phạm trự mẫu thời gian tuyệt đối và mẫu thời gian kề nhau. Thời gian tuyệt đối tham chiếu đến số lƣợng thời gian thực tế bị mất trờn bất kỳ sự kiện nào hoặc giữa tập cỏc sự kiện. Giỏ trị thời gian tuyệt đối tham chiếu làm tới số lƣợng thời gian trụi qua của thế giới thực. Thời gian kề nhau dƣờng nhƣ chỉ liờn quan đến thứ tự cỏc sự kiện. Với thời gian này, số lƣợng thời gian khụng đƣợc xem xột mà chuyển qua xem xột thứ tự tƣơng đối giữa cỏc sự kiện. Những đặc trƣng này của mẫu thời gian cú thể sử dụng để định nghĩa và phỏt hiện

ra những mẫu sự kiện – chu trỡnh bờn trong một tập dữ liệu. Một sự kiện – chu trỡnh cú thể đƣợc định nghĩa là sự kết hợp đặc biệt giữa hai đối tƣợng xuất hiện với một tần số nhất định.

Mụ hỡnh mụ tả thời gian tuyệt đối và thời gian kề nhau:[6]

KẾT LUẬN: Cỏc phƣơng phỏp khai phỏ dữ liệu trực quan ỏp dụng trờn cỏc tập dữ liệu phức tạp và lớn. Trong cỏc phƣơng phỏp này chủ yếu tập trung tỡm ra cỏc đặc tớnh cấu trỳc, cỏc đặc tớnh chung của dữ liệu, từ đú cú thể quan sỏt để phõn tớch dữ liệu.

Thời gian tuyệt đối Thời gian kề nhau

CHƢƠNG 4. CÁC PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU THễNG DỤNG.

Trong chƣơng trƣớc chỳng ta đó thấy đƣợc phƣơng phỏp khai phỏ dữ liệu trực quan là cụng nghệ rất mạnh. Khai phỏ dữ liệu trực quan giỳp cho ngƣời sử dụng dễ dàng thực hiện hơn việc khai phỏ dữ liệu dự họ khụng hiểu rừ lắm về phạm vi của thụng tin vỡ khụng cần phải đƣa ra nhiều giả thuyết khi bắt đầu.

Trong phần này chỳng ta sẽ tỡm hiểu cỏc cụng cụ khai phỏ dữ liệu khỏc của cụng nghệ khai phỏ dữ liệu.

4.1. PHƢƠNG PHÁP THỐNG Kấ. 4.1.1. Phƣơng phỏp thống kờ.

Trong phƣơng phỏp này, ta sử dụng những thụng tin đƣợc thống kờ để suy luận và miờu tả xa hơn trong phõn tớch dữ liệu. Những thụng tin đƣợc thống kờ là sự lựa chọn phõn tớch trong khoa học, y học, và thậm chớ trong kinh doanh, buụn bỏn trong để tỡm ra và định liệu cú phải cú sự khỏc nhau tồn tại giữa cỏc nhúm. Trong hệ thống hỗ trợ quyết định thỡ việc dựng phƣơng phỏp thống kờ là rất phổ biến[6].

Những thụng tin đƣợc thống kờ theo tớnh toỏn toỏn học đỏp ứng nhu cầu sử dụng dữ liệu định lƣợng, ta cũng cú thể sử dụng cỏc thụng tin này ở dạng định tớnh nếu định dạng lại dữ liệu theo một khuụn dạng cho trƣớc để phõn tớch. Thống kờ kiểm tra cú thể sử dụng để so sỏnh những giỏ trị giữa nhiều nhúm làm mẫu trong tập dữ liệu. Trong những trƣờng hợp đơn giản nhất, thống kờ dựng để mụ tả tổng quan những đặc trƣng của nhúm lấy mẫu. Thống kờ mụ tả bao gồm những đo đạc trung bỡnh nhƣ giỏ trị bỡnh quõn (giỏ trị giữa), chuẩn độ lệch, sắp xếp. Trong phần tiếp theo ta núi về việc đỏnh giỏ sự khỏc nhau trong nhúm và hồi quy nhúm.

Sử lý cỏc nhúm khỏc biệt

Trong rất nhiều cỏc trƣờng hợp phức tạp, cỏc phƣơng thức thống kờ cú thể đƣợc dựng trong nội dung của cỏc giả thuyết kiểm định mà ta dựng để dự đoỏn sự khỏc biệt giữa cỏc nhúm trƣớc khi việc phõn tớch bắt đầu.

Kiểm định giả thuyết.

Trong cụng việc thống kờ, cỏc giả thuyết mụ tả sự khỏc biệt giữa cỏc nhúm đó đƣợc kiểm định chống lại cỏc giả thuyết rỗng. Cỏc giả thuyết rỗng ý chỉ khụng

cú cỏc sự khỏc biệt thực giữa cỏc nhúm. Vỡ vậy, chỳng ta sử dụng kiểm định thống kờ để tỡm ra sự khỏc biệt giữa cỏc nhúm.

Trong tham số kiểm định thống kờ nhƣ kiểm định t, sự phõn tớch phƣơng sai và phõn tớch nhiều biến ngẫu nhiờn (Thống kờ F), sự định giỏ sự khỏc nhau giữa cỏc nhúm đƣợc tạo ra với việc đƣa cỏc độ sai ngẫu nhiờn vào trong tớnh toỏn. Sau khi tớnh toỏn và quan sỏt dựa vào cụng thức sau ta đƣa ra kết luận logic của thống kờ[6].

Tuy nhiờn, để cú đƣợc kết quả tốt thỡ ta cần tớnh đến độ lớn của hiệu ứng thống kờ. Chỳng ta cần một tỷ lệ lớn bao nhiờu để cho kết luận là đỏng tin cậy. Cõu trả lời là phụ thuộc vào số cỏc nhõn tố. Cú ba nhõn tố quan trọng nhất là là mức xỏc suất mà ta chọn làm tiờu chuẩn, số lƣợng quan sỏt trong mẫu và số lƣợng cỏc nhúm so sỏnh. Mức tiờu chuẩn cho ý nghĩa thống kờ , đƣợc tham chiếu tới nhƣ mức alpha, thụng thƣờng chọn là 0.05 hoặc 0.10. Nếu những kết quả của kiểm định là quan trọng thỡ chọn mức 0.05. Việc thay đổi số lƣợng quan sỏt và số lƣợng nhúm cũng làm thay đổi kết quả của kết luận.

Phõn tớch hồi quy cú dự đoỏn trƣớc.

Trong trƣờng hợp ta muốn giỏ trị thu đƣợc trong một khoảng dự đoỏn cho trƣớc, cỏch tiếp cận này gọi là phõn tớch hồi quy dự đoỏn. Trong cỏch tiếp cận này ngƣời ta dựng phƣơng phỏp hồi quy tuyến tớnh, cỏch tốt nhất để đạt đến mục đớch mà ta muốn. Kết quả của cỏch tiếp cận này cú hai thành phần quan trọng. Thứ nhất, hàm toỏn học tuyến tớnh cho sự mụ tả phự hợp tốt nhất cho tập dữ liệu ta cú. Thứ hai, cựng với sự tuyến tớnh này cũng cú một sự đo đạc tƣơng quan để ta cú thể đƣa dữ liệu đến gần hàm này. Hơn thế, cỏc số đo cú thể cho thấy sự mõu thuẫn của cỏc quan sỏt trong mẫu.

4.1.2. Khi nào thỡ sử dụng phõn tớch thống kờ:

Để dựng phƣơng phỏp phõn tớch thống kế ta cần cú một số điều kiện sau: - Cú một vị trớ để quan sỏt những hiệu ứng thống kờ đỏng tin cậy trong sự

phõn tớch của mỡnh.

Sự khỏc bịờt nhúm Sự mõu thuẫn lỗi

- Dữ liệu phải trong mẫu dạng số và đƣợc chia cắt vào trong những nhúm cho sự phõn tớch.

- Ta phải cú giả thuyết về giỏ trị mà ta chờ đợi để tỡm thấy nú trong một sự phõn tớch. Giỏ trị đú, ta phải biết trƣớc.

- Để phõn loại những sự khỏc nhau thỡ ta quan tõm đến bờn trong và do đú phải biết làm sao để chia cắt thụng tin trong tập dữ liệu thành cỏc nhúm thuận lợi cho mục đớch so sỏnh.

Trong trƣờng hợp lý tƣởng, vấn đề này cần thực hiện trờn bất kỳ tập dữ liệu nào. Trong những trƣờng hợp đú, sự so sỏnh thống kờ đƣợc lập kế hoạch để cú thể trực tiếp đƣợc làm giữa những nhúm. Ngoài ra khi cần cú nhiều so sỏnh thỡ cần xỏc định mức tiờu chuẩn anpha chớnh xỏc để trỏnh cỏc sai lầm.

Ngoài ra, khi sử dụng phƣơng phỏp thống kờ ta cũn cần để ý đến vấn đề độ lớn của mẫu. Nếu giữa cỏc mõu thuẫn và mẫu là khụng tƣơng đồng thỡ cần thay đổi lại kớch thƣớc của mẫu.

Điểm cuối cựng ta cần phải chỳ ý đú là phải để ý đến bối cảnh toàn bộ của khai phỏ dữ liệu. Ta cần sử dụng phƣơng phỏp thống kờ để lập dự đoỏn khuynh hƣớng cho tƣơng lai.

4.2. PHƢƠNG PHÁP CÂY QUYẾT ĐỊNH VÀ LUẬT. 4.2.1. Phƣơng phỏp cõy quyết định và luật.

Cõy quyết định là cụng cụ phõn tớch để khỏm phỏ ra cỏc luật và mối quan hệ bằng phƣơng phỏp phõn tớch thống kờ hoặc phõn chia thành cỏc phần nhỏ cỏc thụng tin chứa trong tập dữ liệu.

Cõy quyết định là một mụ tả tri thức dạng đơn giản nhằm phõn cỏc đối tƣợng dữ liệu thành một số lớp nhất định. Cỏc nỳt của cõy đƣợc gỏn nhón là tờn cỏc thuộc tớnh, cỏc cạnh đƣợc gỏn cỏc giỏ trị cú thể của cỏc thuộc tớnh, cỏc lỏ miờu tả cỏc lớp khỏc nhau. Cỏc đối tƣợng đƣợc phõn lớp theo cỏc đƣờng đi trờn cõy, qua cỏc cạnh tƣơng ứng với giỏ trị của thuộc tớnh của đối tƣợng tới lỏ[6].

Tỏch riờng dữ liệu.

Những giải thuật chia nhỏ ra dữ liệu trong mụ hỡnh cõy quyết định chớnh là việc tỡm kiếm cỏc biến hoặc cỏc trƣờng cho phộp cỏc tập dữ liệu tỏch ra là cực đại.

Theo lý thuyết bất kỳ lĩnh vực nào trong tập dữ liệu cũng cú thể đƣợc chọn, nhƣng lĩnh vực chỉ hữu ớch khi nú chia cắt những bản ghi.

Sử dụng cõy quyết định để xõy dựng cỏc luật.

Với việc xõy dựng cõy quyết định đƣợc mụ tả nhƣ trờn, với một giả thuyết ban đầu đi theo cỏc nhỏnh của cõy ta sẽ cú cỏc kết luận tại vị trớ cỏc lỏ của cõy.

Đỏnh giỏ cỏc luật

Một lần cú cõy quyết định đỳng chỗ, ta cần ƣớc lƣợng hiệu quả thực hiện nú. Việc này này thụng thƣờng đƣợc hoàn thành bởi việc kiểm tra hệ thống với một tập dữ liệu mới chƣa đƣợc sử dụng cho huấn luyện. Với mỗi luật ta cú thể kiểm tra qua sự phõn loại thụng thƣờng của cỏc bản ghi. Đồng thời, ta cú thể tớnh toỏn tỷ lệ số lỗi của toàn bộ cõy nhƣ là tổng cỏc trọng số lỗi của cỏc thành phần riờng. Tỷ lệ lỗi và và hiệu quả tớnh toỏn cú thể đƣợc cải thiện khi bỏ bớt cỏc nhỏnh của cõy, khi đú cỏc luật sẽ hữu ớch hơn.

Việc đỏnh giỏ cỏc luật cũng cú thể thực hiện bằng chủ quan khi ta cần cỏc tiện ớch chung hoặc những quy tắc đại diện bởi cõy quyết định. Một vài quy tắc cú thể rất quan trọng cho sự phõn tớch, một vài quy tắc khỏc cú thể vụ lý trong ngữ cảnh của ứng dụng, trong những trƣờng hợp này những quy tắc đú cú thể đƣợc loại trừ bằng tay nếu mong muốn.

Trong một số trƣờng hợp cần đỏnh giỏ lại cỏc luật mà ta cho rằng là sai. Việc làm này cú thể dẫn ta đến cỏc kết quả rất bất ngờ, ở đõy chớnh là một trong cỏc cỏch ta thay đổi hệ số để đến đƣợc kết quả, khi đú phƣơng hƣớng của phõn tớch sẽ thay đổi đỏng kể.

Phõn chia cỏc nỳt và hiệu lực hệ số phõn đầu ra.

Việc phõn chia số lƣợng cỏc nhỏnh trờn cỏc nỳt là rất khú khăn. Một mặt, nếu biểu diễn tất cả cỏc mức của cỏc biến ở cỏc nỳt thỡ sẽ giỳp ớch rất nhiều trong phõn

tớch. Mặt khỏc, nếu biểu diễn tất cả thỡ hệ số phõn đầu ra rất nhiều, khi đú hiệu lực của chỳng tất giảm xuống.

Nhỡn chung ở đõy ta trỏnh việc cỏc bản ghi đƣợc phõn loại quỏ rộng rói vỡ khi đú việc đỏnh giỏ là rất khú khăn và khụng chớnh xỏc. Để đạt đƣợc vấn đề này ta cần chỳ ý đến hiệu lực của hệ số đầu ra.

4.2.2. Khi nào dựng cõy quyết định

Cõy quyết định là phƣơng phỏp thƣờng dựng trong cỏc bài toỏn phõn loại hoặc dự đoỏn dữ liệu theo một tiờu chuẩn nào đú, dựa theo mức độ khỏc nhau của thuộc tớnh. Cõy quyết định và luật cú ƣu điểm là hỡnh thức miờu tả đơn giản, mụ hỡnh suy diễn khả dễ hiểu đối với ngƣời sử dụng. Cõy quyết định cú lẽ tốt nhất cho cỏc ứng dụng trong đú cú cỏc cõu hỏi tiờn nghiệm. Tuy nhiờn, giới hạn của nú là miờu tả cõy và luật chỉ cú thể biểu diễn đƣợc một số dạng chức năng và vỡ vậy giới hạn cả về độ chớnh xỏc của mụ hỡnh vớ dụ nhƣ trong trƣờng hợp dựng cho cỏc dự đoỏn định lƣợng cần độ chớnh xỏc tuyệt đối.

4.3. CÁC LUẬT KẾT HỢP 4.3.1. Luật kết hợp.

Những luật kết hợp đƣợc dẫn xuất ra từ sự phõn tớch cỏc thụng tin trựng hợp. Phƣơng phỏp luận này cho phộp khỏm phỏ những tƣơng quan, hoặc những biến cố trong giao dịch là cỏc sự kiện.

Cỏc luật kết hợp là một dạng biểu diễn tri thức, hay chớnh xỏc hơn là dạng mẫu của hỡnh thành tri thức. Phƣơng phỏp này nhằm phỏt hiện ra cỏc luật kết hợp giữa cỏc thành phần dữ liệu trong cơ sở dữ liệu. Mẫu đầu ra của giải thuật khai phỏ dữ liệu là tập luật kết hợp tỡm đƣợc[6].

Cho một lƣợc đồ R = [A1 ,... Ap] với miền giỏ trị {0,1} và một quan hệ r trờn R. Ta gọi một luật kết hợp trờn quan hệ r đƣợc mụ tả nhƣ sau X=> B với XR và BR\X. Cho W  R, đặt s(W,r) là tần số xuất hiện của W trong r đƣợc tớnh bằng tỷ lệ của cỏc hàng trong r cú giỏ trị 1 tại mỗi cột thuộc tớnh. Khi đú ta định nghĩa tần số xuất hiện và độ tin cậy của luật X => B trong r nhƣ sau[6] :

+ Tần số xuất hiện: = s( X{B}, r). + Độ tin cậy  = s( X{B}, r) \ s(X,r).

với X gồm nhiều thuộc tớnh, B là giỏ trị khụng cố định.

Nhiệm vụ của việc phỏt hiện cỏc luật kết hợp là phải tỡm tất cả cỏc luật X => B sao cho tần số của luật khụng nhỏ hơn ngƣỡng  cho trƣớc và độ tin cậy của luật khụng nhỏ hơn ngƣỡng  cho trƣớc.

4.3.2. Khi nào dựng cỏc luật kết hợp

Sự phõn tớch cỏc luật kết hợp đa số hữu ớch khi bạn đang thăm rũ cỏc phõn tớch, tỡm kiếm cỏc mối quan hệ cú thể tồn tại bờn trong một tập dữ liệu, chỳng cũng cú thể sử dụng để dự bỏo trƣớc. Tuy nhiờn, nếu cú hai thành phần xuất hiện gần nhau thỡ điều đú cũng khụng đảm bảo chắc chắn chỳng cú quan hệ với nhau hoặc cú một ý nghĩa quan trọng nào đú. Do đú, khi dựng phƣơng phỏp này cần cú sự nghiờn cứu kỹ trƣớc khi sử dụng.

4.4. MẠNG NƠ RON. 4.4.1. Mạng Nơ ron. 4.4.1. Mạng Nơ ron.

Mạng nơ ron là một tiếp cận tớnh toỏn mới liờn quan đến việc phỏt triền cỏc cấu trực toỏn học với khả năng học. Cỏc phƣơng phỏp là kết quả của việc nghiờn cứu mụ hỡnh học của hệ thống thần kinh con ngƣời. Mạng nơ ron cú thể đƣa ra ý nghĩa từ cỏc dữ liệu phức tạp hoặc khụng chớnh xỏc và cú thể đƣợc sử dụng để chiết xuất cỏc mẫu và phỏt hiện ra cỏc xu hƣớng quỏ phức tạp mà con ngƣời cũng nhƣ cỏc kỹ thuật mỏy tớnh khỏc khụng thể hoặc khú phỏt hiện đƣợc. Mạng Nơ ron đƣợc định nghĩa : "Là một hệ thống bao gồm rất nhiều phần tử xử lý đơn giản cựng hoạt động song song. Tớnh năng hoạt động của hệ thống này phụ thuộc vào cấu trỳc của hệ thống, vào cường độ liờn kết giữa cỏc phần tử trong hệ thống và Vào quỏ trỡnh xử lý bờn trong cỏc phần tử đú. Hệ thống này cú thể học từ' cỏc dữ liệu và cú khả năng tổng quỏt hoỏ cỏc dữ liệu đú [6]"

Trong mụ hỡnh mạng Neutron cú hai mụ hỡnh học đú là học cú giỏm sỏt (học cú thầy) và học khụng cú giỏm sỏt (học khụng giỏm sỏt).

Học cú thầy.

Trong phƣơng phỏp học cú giỏm sỏt, việc huấn luyện mạng neutron dựa trờn một tập hợp cỏc giỏ trị cú sẵn, cỏc giỏ trị này chớnh là đớch hay mục tiờu cần đạt đƣợc của việc huấn luyện. Với một tập giỏ trị đầu vào hệ thống cung cấp đỏp ỏn đầu ra, nếu sau khi huấn luyện kết quả khụng giống đỏp ỏn thỡ kết quả đƣợc phản hồi lại để sửa trong lần huấn luyện tiếp theo. Khi kết quả đầu ra đạt yờu cầu thỡ việc huấn luyện kết thỳc và khi đú mạng Neutron dựng để phỏt hiện và phõn loại cỏc mẫu mới nhập vào. Nhƣ vậy, với cỏc mạng thần kinh đó huấn luyện cú thể sử dụng tự động để dũ tỡm mẫu và bỏo cho ngƣời sử dụng biết mẫu đầu vào phự hợp với đỏp ỏn đầu ra.

Trong phƣơng phỏp này ta cú thể dễ dàng nhận thấy mạng Neutron đƣợc huấn luyện cú giỏm sỏt rất hữu ớch trong cỏc hệ thống hỗ trợ quyết định và theo dừi cỏc mẫu đó đƣợc xỏc định. Tuy nhiờn, đõy lại khụng phải phƣơng phỏp dựng trong khai phỏ dữ liệu vỡ nú khụng tỡm ra đƣợc cỏi mới.

Học khụng cú thầy.

Học khụng thầy là phƣơng phỏp đƣợc sử dụng trong khai phỏ dữ liệu. Với phƣơng phỏp học khụng cú thầy, khụng cú thụng tin phản hồi từ mụi trƣờng bờn

Một phần của tài liệu Một số phương pháp khai phá dữ liệu và ứng dụng trong bài toán lập thời khoá biểu (Trang 54)

Tải bản đầy đủ (PDF)

(126 trang)