0
Tải bản đầy đủ (.pdf) (126 trang)

Khi nào sử dụng giải thuật Di truyền

Một phần của tài liệu MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG TRONG BÀI TOÁN LẬP THỜI KHOÁ BIỂU (Trang 64 -64 )

1. Tổ chức và khai thỏc cơ sở dữ liệu truyền thống

4.5.2. Khi nào sử dụng giải thuật Di truyền

Giải thuật di truyền rất hữu ớch trong trƣờng hợp tỡm ra cỏc giỏ trị tối ƣu ngay cả trong trƣờng hợp dữ liệu nguồn thụng tin và dữ liệu ta cú đƣợc là từ nhiều nguồn khỏc nhau.

Giải thuật di truyền cũng đƣợc ỏp dụng trong kinh doanh nhằm tỡm ra lợi nhuận tối ƣu bằng cỏch kết hợp cỏc đặc tớnh của sản phẩm. Ngoài ra chỳng cũn đƣợc sử dụng thành cụng trong lập lịch và chuỗi thời gian.

Giải thuật di truyền cũng cú cỏc hiệu ứng tốt cú thể đƣợc dựng kết hợp với mạng nơ ron tại đầu ra của mạng này.

4.6. CÁC PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU KHÁC. 4.6.1. Phõn nhúm và phõn đoạn.

Kỹ thuật phõn nhúm và phõn đoạn là những kỹ thuật phõn chia dữ liệu sao cho mỗi phần hoặc mỗi nhúm giống nhau theo một tiờu chuẩn nào đú. Mỗi quan hệ

thành viờn của cỏc nhúm cú thể dựa trờn mức độ giống nhau của cỏc thành viờn và từ đú xõy dựng nờn cỏc luật ràng buộc giữa cỏc thành viờn trong nhúm[6].

Mẫu đầu ra của quỏ trỡnh khai phỏ dữ liệu sử dụng kỹ thuật này là cỏc tập mẫu chứa cỏc dữ liệu cú chung những tớnh chất nào đú đƣợc phõn tớch từ cơ sở dữ liệu. Khi cỏc mẫu đƣợc thiết lập, chỳng cú thể đƣợc sử dụng để tỏi tạo cỏc tập dữ liệu ở dạng dễ hiểu hơn, đồng thời cũng cung cấp cỏc nhúm dữ liệu cho cỏc hoạt động cũng nhƣ cụng việc phõn tớch. Đối với cơ sở dữ liệu lớn, việc lấy ra cỏc nhúm này là rất quan trọng.

4.6.2. Phƣơng phỏp suy diễn và quy nạp

Một cơ sở dữ liệu là một kho thụng tin nhƣng cỏc thụng tin quan trọng hơn cũng cú thể đƣợc suy diễn từ kho thụng tin đú. Cú hai kỹ thuật chớnh để thực hiện việc này là suy diễn và quy nạp.

Phương phỏp suy diễn: Nhằm rỳt ra thụng tin là kết quả logic của cỏc thụng tin trong cơ sở dữ liệu, dựa trờn cỏc quan hệ trong dữ liệu. Phƣơng phỏp suy diễn dựa trờn cỏc sự kiện chinh xỏc để suy ra cỏc tri thức mới từ cỏc thụng tin cũ. Mẫu chiết xuất đƣợc bằng cỏnh sử dụng phƣơng phỏp này thƣờng là cỏc luật suy diễn.

Phương phỏp quy nạp: phƣơng phỏp quy nạp suy ra cỏc thụng tin đƣợc sinh ra từ cơ sở dữ liệu. Cú nghĩa là nú tự tỡm kiếm, tạo mẫu và sinh ra tri thức chứ khụng phải bắt dầu với cỏc tri thức đó biết trƣớc.

4.6.3. Cỏc phƣơng phỏp dựa trờn mẫu.

Sử dụng cỏc mẫu miờu tả từ cơ sở dữ liệu để tạo nờn một mụ hỡnh dự đoỏn cỏc mẫu mới bằng cỏch rỳt ra cỏc thuộc tớnh tƣơng tự nhƣ cỏc mẫu đó biết trong mụ hỡnh. ở đõy, nhiệm vụ chớnh chớnh là phải xỏc định đƣợc độ đo giống nhau giữa cỏc mẫu, sau đú mới tạo ra mẫu dự đoỏn.

4.6.4. Khai phỏ dữ liệu văn bản.

Kỹ thuật đƣợc sử dụng trong việc tỡm kiếm, phõn tớch và phõn lớp cỏc dữ liệu văn bản khụng định dạng, đặc biệt phõn tớch cõu trả lời cho cỏc cõu hỏi mở trong khảo sỏt thị trƣờng, tỡm kiếm cỏc tài liệu phức tạp

4.7. LỰA CHỌN PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU.

Cỏc thuật toỏn khai phỏ dữ liệu tự động vẫn mới chỉ ở giai đoạn phỏt triển ban đầu. Ngƣời ta vẫn chƣa đƣa ra đƣợc một tiờu chuẩn nào trong việc quyết định sử dụng phƣơng phỏp nào và trong trƣờng hợp nào thỡ cú hiệu quả.

Hầu hết cỏc kỹ thuật khai phỏ dữ liệu đều mới đối với lĩnh vực kinh doanh. Hơn nữa lại cú rất nhiều kỹ thuật, mỗi kỹ thuật đƣợc sử dụng cho nhiều bài toỏn khỏc nhau. Mỗi phƣơng phỏp đều cú điểm mạnh và điểm yếu của nú, nhƣng hầu hết cỏc điểm yếu đều cú thể khắc phục đƣợc, vỡ vậy cần tỡm cỏch ỏp dụng mỗi kỹ thuật một cỏch thật đơn giản, dễ sử dụng để khụng cảm thấy những phức tạp vốn cú của kỹ thuật đú.

Để so sỏnh cỏc kỹ thuật cần phải cú một tập lớn cỏc quy tắc và cỏc phƣơng phỏp thực nghiệm tốt. Thƣờng thỡ quy tắc này khụng đƣợc sử dụng khi đỏnh giỏ cỏc kỹ thuật mới nhất. Vỡ vậy mà những yờu cầu cải thiện độ chớnh xỏc khụng phải lỳc nào cũng thực hiện đƣợc.

Nhiều cụng ty đó đƣa ra những sản phẩm sử dụng kết hợp nhiều kỹ thuật khai phỏ dữ liệu khỏc nhau với hy vọng nhiều kỹ thuật thỡ sẽ tốt hơn. Nhƣng thực tế cho thấy nhiều kỹ thuật chỉ thờm nhiều rắc rối và gõy khú khăn cho việc so sỏnh giữa cỏc phƣơng phỏp và cỏc sản phẩm. Theo nhiều đỏnh giỏ cho thấy khi đó hiểu đƣợc cỏc kỹ thuật và nghiờn cứu tớnh giống nhau giữa chỳng, ngƣời ta thấy rằng nhiều kỹ thuật lỳc đầu thỡ cú vẻ khỏc nhau nhƣng thực chất khi hiểu ra đƣợc cỏc kỹ thuật này thỡ thấy chỳng hoàn toàn giống nhau. Tuy nhiờn, đỏnh giỏ này cũng chỉ để tham khảo vỡ cho đến nay, khai phỏ dữ liệu vẫn cũn là kỹ thuật mới chứa nhiều tiềm năng mà ngƣời ta vẫn chƣa khai thỏc hết.

4.8. ƢU THẾ VÀ KHể KHĂN CỦA KHAI PHÁ DỮ LIỆU. 4.8.1. Ƣu thế:

Nhƣ đó phõn tớch ở trờn, ta thấy khai phỏ dữ liệu hoàn toàn dựa trờn cỏc phƣơng phỏp cơ bản đó biết. Vậy khai phỏ dữ liệu cú gỡ khỏc so với cỏc phƣơng phỏp đú và cú ƣu thế gỡ hơn cỏc phƣơng phỏp cơ bản. Ta sẽ xem xột với từng phƣơng phỏp cơ bản :

Trong học mỏy, thuật ngữ cơ sở dữ liệu chủ yếu đề cập tới một tập cỏc mẫu đƣợc lƣu trong một tập. Cỏc mẫu thƣờng là cỏc vector đặc điểm cú độ dài cố định. Thụng tin về cỏc tờn đặc điểm, dóy giỏ trớ của chỳng đụi khi cũng đƣợc lƣu lại nhƣ trong từ điển dữ liệu. Một giải thuật học cũn sử dụng tập dữ liệu và cỏc thụng tin kốm theo tập dữ liệu đú làm đầu vào và đầu ra biểu thị kết quả của việc học.

Học mỏy chỉ cú khả năng dƣợc ỏp dụng trong cơ sở dữ liệu đầy đủ ớt biến động, tập dữ liệu khụng quỏ lớn. Thực tế, cơ sở dữ liệu thƣờng động, khụng đầy đủ, bị nhiễu, và lớn hơn nhiều so với cỏc tập dữ liệu học mỏy điển hỡnh. Cỏc yếu tố này làm cho hầu hết cỏc giải thuật học mỏy trở nờn khụng hiệu quả trong hầu hết cỏc trƣờng hợp.

Ngƣợc lại, Khai phỏ dữ liệu cú khả năng ỏp dụng trong những cơ sở dữ liệu lớn, cú nhiều biến động.

Hệ chuyờn gia

Phƣơng phỏp hệ chuyờn gia là phƣơng phỏp, kỹ thuật thu thập giỳp cho việc sử dụng trỡ thức từ cỏc chuyờn gia- con ngƣời. Mỗi phƣơng phỏp đú là một cỏch suy diễn cỏc luật từ cỏc tri thức và motor suy diễn. Phƣơng phỏp này khỏc với khai phỏ dữ liệu ở chỗ cỏc tri thức của chuyờn gia thƣờng ở mức chất lƣợng cao hơn rất nhiều so với cỏc dữ liệu trong cơ sở dữ liệu. Hơn nữa, cỏc chuyờn gia sẽ xỏc nhận tớnh giỏ trị và hữu dụng của cỏc mẫu phỏt hiện đƣợc.

Phỏt kiến khoa học

Khai phỏ dữ liệu rất khỏc với phỏt kiến khoa học ở chỗ là khai phỏ dữ liệu ớt cú chủ tõm và cú điều khiển hơn. Trong phỏt kiến khoa học: Cỏc nhà khoa học cú thể cú cỏc dữ liệu khoa học từ thực nghiệm và cú thể loại bỏ một số tỏc động của cỏc tham số để nhấn mạnh độ biến thiờn của một hay một số tham số chớnh. Hơn nữa, cỏc nhà khoa học cú thể tạo cỏc thớ nghiệm và cú thể tỡm ra rằng cỏc thiết kế ban đầu khụng thớch hợp.

Trong khi đú, thực tế đối với cơ sở dữ liệu điều này khụng thể dễ dàng thiết kế lại cơ sở dữ liệu hay thu thập lại dữ liệu

Mặc dự cỏc phƣơng phỏp thống kờ cung cấp một nền tảng lý thuyết vững chắc cho cỏc bài toỏn phõn tớch dữ liệu nhƣng phƣơng phỏp thống kờ cũng cú một số điểm yếu :

Cỏc phƣơng phỏp thống kờ chuẩn khụng phự hợp đối với cỏc kiểu dữ liệu cú cấu trỳc trong rất nhiều cỏc cơ sở dữ liệu.

Thống kờ hoàn toàn theo dữ liệu, nú khụng sử dụng tri thức sẵn cú về lĩnh vực.

Kết quả của phõn tớch thống kờ cú thể sẽ rất nhiều và khú cú thế làm rừ đƣợc. Phƣơng phỏp thống kờ cần cú sự hƣớng dẫn của ngƣời dựng đề xỏc định phõn tớch dữ liệu nhƣ thế nào và ở đõu.

Sự khỏc nhau cơ bản giữa khai phỏ dữ liệu và thống kờ :

Khai phỏ dữ liệu là một phƣơng tiện đƣợc dựng bởi ngƣời sử dụng đầu cuối chứ khụng phải là cỏc nhà thống kờ.

Khai phỏ dữ liờu tự động quỏ trỡnh thống kờ một cỏch cú hiệu quả.

Qua khai phỏ dữ liệu, việc dự đoỏn cú thể đƣợc đƣa lờn mỏy tớnh, dự đoỏn và kiểm tra một cỏc tự động.

4.8.2. Khú khăn.

Đầu vào chủ yếu của một hệ thống phỏt hiện tri thức là cỏc dữ liệu thụ trong cơ sở dữ liệu. Những vấn đề khú khăn phỏt sinh trong khai phỏ dữ liệu chớnh từ nguyờn nhõn là dữ liệu trong thực tế thƣờng động, khụng đầy đủ, lớn và bị nhiễu. Trong những trƣờng hợp khỏc, ngƣời ta khụng biết cơ sở dữ liệu cú chứa cỏc thụng tin cần thiết cho việc khai thỏc hay khụng và làm thế nào để giải quyết sự dƣ thừa thụng tin khụng thớch hợp này.

Dữ liệu lớn.

Cho đến nay, cỏc cơ sở dữ liệu với hàng trăm trƣờng và bảng, hàng triệu bản ghi và với kớch thƣớc gigabyte đó là chuyện bỡnh thƣờng. Hiện nay đó bắt đầu xuất hiện cỏc cơ sở dữ liệu cú kớch thƣớc tới tetrabyte. Cỏc phƣơng phỏp giải quyết hiện nay là đƣa ra một ngƣỡng cho cơ sở dữ liệu, lấy mẫu, cỏc phƣơng phỏp xấp xỉ, xử lý song song.

Kớch thƣớc lớn.

Khụng chỉ cú số lƣợng bản ghi mà số cỏc trƣờng trong cơ sở dữ liệu cũng nhiều, vỡ vậy mà kớch thƣớc của bài toỏn trở nờn lớn hơn. Một tập dữ liệu cú kớch thƣớc lớn sẽ làm tăng khụng gian tỡm kiếm. Hơn nữa, nú cũng làm tăng khả năng một thuật toỏn khai phỏ dữ liệu cú thể tỡm thấy cỏc mẫu giả. Biện phỏp khắc phục là làm giảm kớch thƣớc tỏc động của bài toỏn và sử dụng cỏc tri thức biết trƣớc để xỏc định cỏc biến khụng phự hợp.

Dữ liệu động

Đặc điểm cơ bản của hầu hết cỏc cơ sở dữ liệu là nội dung của chỳng thay đổi liờn tục, dữ liệu cú thể thay đổi theo thời gian và việc khai phỏ dữ liệu bị ảnh hƣởng bởi thời điểm quan sỏt dữ liệu. Việc thay đổi dữ liệu nhanh chúng cú thể làm cho cỏc mẫu khai thỏc đƣợc trƣớc đú mất giỏ trị. Hơn nữa, cỏc biến trong cơ sở dữ liệu của ứng dụng đó cho cũng cú thể bị thay đổi, bị xúa hoặc là tăng lờn theo thời gian. Vấn đề này đƣợc giải quyết bằng cỏc giải phỏp nõng cấp cỏc mẫu và coi những thay đổi nhƣ là cơ hội để khai thỏc bằng cỏch sử dụng nú để tỡm kiếm cỏc mẫu bị thay đổi.

Cỏc trƣờng hợp khụng phự hợp.

Một đặc điểm quan trọng khỏc là tớnh khụng thớch hợp của dữ liệu, nghĩa dữ liệu khụng thớch hợp với trọng tõm hiện tại của việc khai thỏc. Một khớa cạnh khỏc đụi khi cũng liờn quan đến tớnh phự hợp là sự cú giỏ trị của một thuộc tớnh đối với một tập con của cơ sở dữ liệu.

Cỏc giỏ trị bị thiếu.

Sự cú mặt hay vắng mặt của giỏ trị cỏc thuộc tớnh dữ liệu phự hợp cú thể ảnh hƣởng đến việc khai phỏ dữ liệu. Trong hệ thống tƣơng tỏc, sự thiếu vắng dữ liệu quan trọng cú thể dẫn tới yờu cầu cho giỏ trị của nú hoặc kiểm tra để xỏc định giỏ trị của nú. Hoặc cũng cú thể sự vắng mặt của dữ liệu đƣợc coi nhƣ một điều kiện, thuộc tớnh bị mất cú thể đƣợc coi nhƣ một giỏ trị trung gian và là giỏ trị khụng biết.

Cỏc trƣờng bị thiếu.

Một quan sỏt khụng đầy đủ cơ sở dữ liệu cú thể làm cho dữ liệu cú cỏc giỏ trị bị xem nhƣ cú lỗi. Việc quan sỏt cơ sở dữ liệu phải phỏt hiện đƣợc toàn bộ cỏc

thuộc tớnh cú thể dựng để thuật toỏn khai phỏ dữ liệu cú thể ỏp dụng để giải quyết bài toỏn. Giả sử ta cú cỏc thuộc tớnh để phõn biệt cỏc tỡnh huống đỏng quan tõm. Nếu chỳng khụng làm đƣợc điều đú thỡ cú nghĩa là đó cú lỗi trong dữ liệu. Đõy cũng là vấn đề thƣờng xảy ra trong cơ sở dữ liệu kinh doanh. Cỏc thuộc tớnh quan trọng cú thể sẽ bị thiếu dữ liệu khụng đƣợc chuẩn bị cho việc khai phỏ dữ liệu.

Độ nhiễu và khụng chắc chắn.

Đối với cỏc thuộc tớnh đó thớch hợp, độ nghiờm trọng của lỗi phụ thuộc vào kiểu dữ liệu của cỏc giỏ trị đƣợc phộp. Cỏc giỏ trị của cỏc thuộc tớnh khỏc nhau cú thể là cỏc số thực, số nguyờn, chuỗi, và cú thể thuộc vào tập cỏc giỏ trị định danh. Cỏc giỏ trị định danh này cú thể sắp xếp theo thứ tự bộ phận hoặc đầy đủ, thậm chớ cú thể cú cấu trỳc ngữ nghĩa.

Một yếu tố khỏc của độ khụng chắc chắn là tớnh kế thừa hoặc độ chớnh xỏc mà dữ liệu cần cú, núi cỏch khỏc là độ nhiễu của dữ liệu. Dựa trờn việc tớnh toỏn trờn cỏc phộp đo và phõn tớch cú ƣu tiờn, mụ hỡnh thống kờ mụ tả tớnh ngẫu nhiờn đƣợc tạo ra và đƣợc sử dụng để định nghĩa độ mong muốn và độ dung sai của dữ liệu. Thƣờng thỡ cỏc mụ hỡnh thống kờ đƣợc ỏp dụng theo cỏch đặc biệt để xỏc định một cỏch chủ quan cỏc thuộc tớnh để đạt đƣợc cỏc thống kờ và đỏnh giỏ khả năng chấp nhận của cỏc giỏ trị thuộc tớnh. Đặc biệt là với cỏc kiểu dữ liệu số, sự đỳng đắn của dữ liệu cú thể là một yếu tố trong việc khai phỏ. Vớ dụ nhƣ trong việc đo nhiệt độ cơ thể, ta thƣờng cho phộp chờnh lệch 0.1 độ. Nhƣng việc phõn tớch theo xu hƣớng nhạy cảm nhiệt độ của cơ thể lại yờu cầu độ chớnh xỏc cao hơn. Để một hệ thống khai thỏc cú thể liờn hệ đến xu hƣớng này để chuẩn đoỏn thỡ lại cần cú một độ nhiễu trong dữ liệu đầu vào.

Mối quan hệ phức tạp giữa cỏc trƣờng.

Cỏc thuộc tớnh hoặc cỏc giỏ trị cú cấu trỳc phõn cấp, cỏc mối quan hệ giữa cỏc thuộc tớnh và cỏc phƣơng tiện phức tạp để diễn tả tri thức về nội dung của cơ sở dữ liệu yờu cầu cỏc thuật toỏn phải cú khả năng sử dụng một cỏch hiệu quả cỏc thụng tin này. Ban đầu, kỹ thuật khai phỏ dữ liệu chỉ đƣợc phỏt triển cho cỏc bản ghi cú giỏ trị thuộc tớnh đơn giản. Tuy nhiờn, ngày nay ngƣời ta đang tỡm cỏch phỏt triển cỏc kỹ thuật nhằm rỳt ra mối quan hệ giữa cỏc biến này.

Khi một thuật toỏn tỡm kiếm cỏc tham số tốt nhất cho một mụ hỡnh nào đú sử dụng một tập dữ liệu hữu hạn, nú cú thể sẽ bị tỡnh trạng “quỏ độ” dữ liệu (nghĩa là tỡm kiếm quỏ mức cần thiết gõy ra hiện tƣợng chỉ phự hợp với cỏc dữ liệu đú mà khụng cú khả năng đỏp ứng cho cỏc dữ liệu lạ), làm cho mụ hỡnh hoạt động rất kộm đối với cỏc dữ liệu thử. Cỏc giải phỏp khắc phục bao gồm đỏnh giỏ chộo (cross- validation), thực hiện theo nguyờn tắc nào đú hoặc sử dụng cỏc biện phỏp thống kờ khỏc.

Khả năng biểu đạt của mẫu.

Trong rất nhiều ứng dụng, điều quan trọng là những điều khai thỏc đƣợc phải càng dễ hiểu với con ngƣời càng tốt. Vỡ vậy, cỏc giải phỏp thƣờng bao gồm việc diễn tả dƣới dạng đồ họa, xõy dựng cấu trỳc luật với cỏc đồ thị cú hƣớng, biểu diễn bằng ngụn ngữ tự nhiờn và cỏc kỹ thuật khỏc nhằm biểu diễn cỏc tri thức và dữ liệu.

Sự tƣơng tỏc với ngƣời sử dụng và cỏc tri thức sẵn cú.

Rất nhiều cụng cụ và phƣơng phỏp khai phỏ dữ liệu khụng thực sự tƣơng tỏc

Một phần của tài liệu MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG TRONG BÀI TOÁN LẬP THỜI KHOÁ BIỂU (Trang 64 -64 )

×