Thách thức trong ứng dụng và nghiên cứu kỹ thuật khai phá dữ liệu

Một phần của tài liệu khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị (Trang 25 - 62)

Ở đây, ta đƣa ra một số khó khăn trong việc nghiên cứu và ứng dụng kỹ thuật khai phá dữ liệu. Tuy nhiên, có khó khăn không có nghĩa là việc giải quyết là hoàn toàn bế tắc mà chỉ muốn nêu lên rằng để khai phá đƣợc dữ liệu không phải đơn giản, mà phải xem xét cũng nhƣ tìm cách giải quyết những vấn đề này.

a. Các vấn đề về CSDL

Đầu vào chủ yếu của một hệ thống khai thác tri thức là các dữ liệu thô cơ sở, phát sinh trong khai phá dữ liệu chính là từ đây. Do các dữ liệu trong thực tế thƣờng động, không đầy đủ, lớn và bị nhiễu. Trong những trƣờng hợp khác, ngƣời ta không biết CSDL có chứa các thông tin cần thiết cho việc khai thác hay không và làm thế nào để giải quyết với sự dƣ thừa những thông tin không thích hợp này.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

• Dữ liệu lớn: Cho đến nay, các CSDL với hàng trăm trƣờng và bảng, hàng triệu bản ghi và với kích thƣớc đến gigabytes đã là chuyện bình thƣờng. Hiện nay đã bắt đầu xuất hiện các CSDL có kích thƣớc tới terabytes. Các phƣơng pháp giải quyết hiện nay là đƣa ra một ngƣỡng cho CSDL, lấu mẫu, các phƣơng pháp xấp xỉ, xử lý song song (Agrawal et al, Holsheimer et al).

• Kích thước lớn: Không chỉ có số lƣợng bản ghi lớn mà số các trƣờng trong CSDL cũng nhiều. Vì vậy mà kích thƣớc của bài toán trở nên lớn hơn. Một tập dữ liệu có kích thƣớc lớn sinh ra vấn đề làm tăng không gian tìm kiếm mô hình suy diễn. Hơn nữa, nó cũng làm tăng khả năng một giải thuật khai phá dữ liệu có thể tìm thấy các mẫu giả. Biện pháp khắc phục là làm giảm kích thƣớc tác động của bài toán và sử dụng các tri thức biết trƣớc để xác định các biến không phù hợp.

• Dữ liệu động: Đặc điểm cơ bản của hầu hết các CSDL là nội dung của chúng thay đổi liên tục. Dữ liệu có thể thay đổi theo thời gian và việc khai phá dữ liệu cũng bị ảnh hƣởng bởi thời điểm quan sát dữ liệu. Ví dụ trong CSDL về tình trạng bệnh nhân, một số giá trị dữ liệu là hằng số, một số khác lại thay đổi liên tục theo thời gian (ví dụ cân nặng và chiều cao), một số khác lại thay đổi tùy thuộc vào tình huống và chỉ có giá trị đƣợc quan sát mới nhất là đủ (ví dụ nhịp đập của mạch). Vậy thay đổi dữ liệu nhanh chóng có thể làm cho các mẫu khai thác đƣợc trƣớc đó mất giá trị. Hơn nữa, các biến trong CSDL của ứng dụng đã cho cũng có thể bị thay đổi, bị xóa hoặc là tăng lên theo thời gian. Vấn đề này đƣợc giải quyết bằng các giải pháp tăng trƣởng để nâng cấp các mẫu và coi những thay đổi nhƣ là cơ hội để khai thác bằng cách sử dụng nó để tìm kiếm các mẫu bị thay đổi.

• Các trường không phù hợp: Một đặc điểm quan trọng khác là tính không thích hợp của dữ liệu, nghĩa là mục dữ liệu trở thành không thích hợp với trọng tâm hiện tại của việc khai thác. Một khía cạnh khác đôi khi cũng liên quan đến độ phù hợp là tính ứng dụng của một thuộc tính đối với một tập con của CSDL. Ví dụ trƣờng số tài khoản Nostro không áp dụng cho các tác nhân.

• Các giá trị bị thiếu: Sự có mặt hay vắng mặt của giá trị các thuộc tính dữ liệu phù hợp có thể ảnh hƣởng đến việc khai phá dữ liệu. Trong hệ thống tƣơng

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

tác, sự thiếu vắng dữ liệu quan trọng có thể dẫn đến việc yêu cầu cho giá trị của nó hoặc kiểm tra để xác định giá trị của nó. Hoặc cũng có thể sự vắng mặt của dữ liệu đƣợc coi nhƣ một điều kiện, thuộc tính bị mất có thể đƣợc coi nhƣ một giá trị trung gian và là giá trị không biết.

• Các trường bị thiếu: Một quan sát không đầy đủ CSDL có thể làm cho các dữ liệu có giá trị bị xem nhƣ có lỗi. Việc quan sát CSDL phải phát hiện đƣợc toàn bộ các thuộc tính có thể dùng để giải thuật khai phá dữ liệu có thể áp dụng nhằm giải quyết bài toán. Giả sử ta có các thuộc tính để phân biệt các tình huống đáng quan tâm. Nếu chúng không làm đƣợc điều đó thì có nghĩa là đã có lỗi trong dữ liệu. Đối với một hệ thống học để chuẩn đoán bệnh sốt rét từ một CSDL bệnh nhân thì trƣờng hợp các bản ghi của bệnh nhân có triệu chứng giống nhau nhƣng lại có các chẩn đoán khác nhau là do trong dữ liệu đã bị lỗi. Đây cũng là vấn đề thƣờng xảy ra trong CSDL kinh doanh. Các thuộc tính quan trọng có thể sẽ bị thiếu nếu dữ liệu không đƣợc chuẩn bị cho việc khai phá dữ liệu.

• Độ nhiễu và không chắc chắn: Đối với các thuộc tính đã thích hợp, độ nghiêm trọng của lỗi phụ thuộc vào kiểu dữ liệu của các giá trị cho phép. Các giá trị của các thuộc tính khác nhau có thể là các số thực, số nguyên, chuỗi và có thể thuộc vào tập các giá trị định danh. Các giá trị định danh này có thể sắp xếp theo thứ tự từng phần hoặc đầy đủ, thậm chí có thể có cấu trúc ngữ nghĩa.

Một yếu tố khác của độ không chắc chắn chính là tính kế thừa hoặc độ chính xác mà dữ liệu cần có, nói cách khác là độ nhiễu trên các phép đo và phân tích có ƣu tiên, mô hình thống kê mô tả tính ngẫu nhiên đƣợc tạo ra và đƣợc sử dụng để định nghĩa độ mong muốn và độ dung sai của dữ liệu. Thƣờng thì các mô hình thống kê đƣợc áp dụng theo cách đặc biệt để xác định một cách chủ quan các thuộc tính để đạt đƣợc các thống kê và đánh giá khả năng chấp nhận (hay tổ hợp) của các giá trị thuộc tính. Đặc biệt là với dữ liệu kiểu số, sự đúng đắn của dữ liệu có thể là một yếu tố trong việc khai phá. Ví dụ nhƣ trong việc đo nhiệt độ cơ thể, ta thƣờng cho phép chênh lệch 0,1 độ. Nhƣng việc phân tích theo xu hƣớng nhạy cảm nhiệt độ của cơ thể lại yêu cầu độ chính xác cao hơn.

Mối quan hệ phức tạp giữa các trường: Các thuộc tính hoặc các giá trị có cấu trúc phân cấp, các mối quan hệ giữa các thuộc tính và các phƣơng tiện phức

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

tạp để diễn tả tri thức về nội dung của CSDL yêu cầu các giải thuật phải có khả năng sử dụng hiệu quả các thông tin này. Ban đầu, kỹ thuật khai phá dữ liệu chỉ đƣợc phát triển cho các bản ghi có giá trị thuộc tính đơn giản. Tuy nhiên, ngày nay ngƣời ta đang tìm cách phát triển các kỹ thuật nhằm rút ra mối quan hệ giữa các biến này.

b. Một số vấn đề khác

• “Quá phù hợp” (Overfitting) Khi một giải thuật tìm kiếm các tham số tốt nhất sử dụng một tập dữ liệu hữu hạn, nó có thể sẽ bị tình trạng “quá độ” dữ liệu (nghĩa là tìm kiếm quá mức cần thiết gây ra hiện tƣợng chỉ phù hợp với các dữ liệu đó mà không có khả năng đáp ứng cho các dữ liệu lạ), làm cho mô hình hoạt động rất kém đối với dữ liệu thử. Có thể khắc phục điều này thông qua việc đánh giá chéo (cross-validation) theo nguyên tắc nào đó hoặc sử dụng các biện pháp thống kê khác.

Đánh giá tầm quan trọng thống kê: Vấn đề (liên quan đến overfitting) xảy ra khi một hệ thống tìm kiếm qua nhiều mô hình. Ví dụ nhƣ nếu một hệ thống kiểm tra N mô hình ở mức độ quan trọng 0,001 thì với dữ liệu ngẫu nhiên trung bình sẽ có N/1000 mô hình đƣợc chấp nhận là quan trọng. Để xử lý vấn đề này, ta có thể sử dụng phƣơng pháp điều chỉnh thống kê trong kiểm tra nhƣ một hàm tìm kiếm, ví dụ nhƣ điều chỉnh Bonferroni đối với các kiểm tra độc lập.

Khả năng biểu đạt của mẫu: Trong rất nhiều ứng dụng, điều quan trọng là những điều khai thác đƣợc phải càng dễ hiểu với con ngƣời càng tốt. Vì vậy, các giải pháp thƣờng bao gồm việc diễn tả dƣới dạng đồ họa, xây dựng cấu trúc luật với các đồ thị có hƣớng (Gaines), biểu diễn bằng ngôn ngữ tự nhiên (Matheus et al.) và các kỹ thuật khác nhằm biểu diễn tri thức và dữ liệu.

Sự tương tác với người sử dụng và các tri thức sẵn có: Rất nhiều công cụ và phƣơng pháp khai phá dữ liệu không thực sự tƣơng tác với ngƣời dùng và không dễ dàng kết hợp cùng với các tri thức đã biết trƣớc đó. Việc sử dụng tri thức miền là rất quan trọng trong khai phá dữ liệu. Đã có nhiều biện pháp nhằm khắc phục vấn đề này nhƣ sử dụng CSDL suy diễn để phát hiện tri thức, những tri thức này sau đó đƣợc sử dụng để hƣớng dẫn cho việc tìm kiếm khai phá dữ liệu hoặc sử dụng sự phân bố và xác suất dữ liệu trƣớc đó nhƣ một dạng mã hóa tri

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

thức có sẵn.

1.3 Kết luận cuối chƣơng

Trong hệ thống xử lý thông tin, dữ liệu tăng lên không ngừng, đòi hỏi phải có kỹ thuật lƣu trữ và khai thác thông tin một cách có hiệu quả. Từ đó có thể khai phá ra các tri thức phục vụ cho hoạt động sản xuất, kinh doanh và hỗ trợ ra quyết định. Giải pháp cho tất cả các vấn đề nêu trên chính là việc xây dựng một kho dữ liệu (Data Warehouse) và ph triển một khuynh hƣớng kỹ thuật mới đó là kỹ thuật phát hiện tri thức và khai phá dữ liệu (KDD-Knowledge Discovery and Data Mining).

Kho dữ liệu với những đặc tính nhƣ: Tính tích hợp, tính hƣớng chủ đề, tính ổn định, dữ liệu tổng hợp, … đã cho phép khai thác đƣợc những thông tin mới mà các CSDL tác nghiệp thông thƣờng không thể có đƣợc. Từ đó dẫn đến phải có kỹ thuật khai phá kho dữ liệu: sử dụng công cụ truy vấn, xây dựng cây quyết định, dựa theo khoảng cách (K-láng giềng gần), giá trị trung bình, phát hiện luật kết hợp, … Các phƣơng pháp trên có thể đƣợc phỏng theo và đƣợc tích hợp vào các hệ thống lai để khai phá dữ liệu theo thống kê trong nhiều năm nghiên cứu. Tuy nhiên, với dữ liệu rất lớn trong kho dữ liệu thì các phƣơng pháp này cũng đối diện với thách thức về mặt hiệu quả và quy mô.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

CHƢƠNG 2

KHAI PHÁ LUẬT KẾT HỢP 2.1 Vài nét về khai phá luật kết hợp

Khai phá luật kết hợp là một kỹ thuật quan trọng của khai phá dữ liệu. Vấn đề này đƣợc Rakesh Agrawal, Tomasz Imielinski, Arun Swami đề xuất lần đầu vào năm 1993. Sau đó năm 1996 đƣợc Rakesh Agrawal, Heikki Mannila, Ramakrishnan Srikant, Hannu Toivonen, A.Inkeri Verkamo tiếp tục cải tiến. Ngày nay bài toán khai thác luật kết hợp nhận đƣợc rất nhiều sự quan tâm của nhiều nhà khoa học. Việc khai thác các luật nhƣ thế vẫn là một trong những phƣơng pháp khai thác mẫu phổ biến nhất trong việc khám phá tri thức và khai thác dữ liệu (KDD - Knowledge Discovery and Data Mining).

Mục đích chính của khai phá dữ liệu là trích rút Tri thức một cách tự động, hiệu quả và “thông minh” từ kho dữ liệu.

Trong hoạt động sản xuất kinh doanh, ví dụ kinh doanh các mặt hàng tại siêu thị, các nhà quản lý rất thích có đƣợc các thông tin mang tính thống kê nhƣ: “90% phụ nữ có xe máy màu đỏ và đeo đồng hồ Thuỵ Sỹ thì dùng nƣớc hoa hiệu Chanel” hoặc “70% khách hàng là công nhân khi mua TV thƣờng mua loại TV 21 inches”. Những thông tin nhƣ vậy rất hữu ích trong việc định hƣớng kinh doanh. Vậy vấn đề đặt ra là liệu có tìm đƣợc các luật nhƣ vậy bằng các công cụ khai phá dữ liệu hay không? Câu trả lời là hoàn toàn có thể. Đó chính là nhiệm vụ khai phá luật kết hợp.

Giả sử chúng ta có một CSDL D. Luật kết hợp cho biết phạm vi mà trong đó sự xuất hiện của tập các thuộc tính S nào đó trong các bản ghi (records) của D sẽ kéo theo sự xuất hiện của một tập những thuộc tính khác U cũng trong những bản ghi đó. Mỗi luật kết hợp đƣợc đặc trƣng bởi một cặp tỉ lệ hỗ trợ (support ration). Mỗi tỉ lệ hỗ trợ đƣợc biểu diễn bằng tỉ lệ % những bản ghi trong D chứa cả S và U.

Vấn đề khám phá luật kết hợp đƣợc phát biểu nhƣ sau:

 Cho trƣớc tỉ lệ hỗ trợ (support ration)  và độ tin cậy (confidence) 

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

và  tƣơng ứng.  Ví dụ 2.1:

Gọi D là CSDL mua bán và với  = 40%,  = 90%. Vấn đề phát hiện luật kết hợp đƣợc thực hiện nhƣ sau:

 Liệt kê (đếm) tất cả những qui luật chỉ ra sự xuất hiện một số các mục sẽ kéo theo một số mục khác.

 Chỉ xét những qui luật mà tỉ lệ hỗ trợ lớn hơn 40% và độ tin cậy lớn hơn 90%.

Hay chúng ta hãy tƣởng tƣợng, một công ty bán hàng qua mạng Internet. Các khách hàng đƣợc yêu cầu điền vào các mẫu bán hàng để công ty có đƣợc một CSDL về các yêu cầu của khách hàng. Giả sử công ty quan tâm đến mối quan hệ "tuổi, giới tính, nghề nghiệp => sản phẩm". Khi đó có thể có rất nhiều câu hỏi tƣơng ứng với luật trên. Ví dụ: trong lứa tuổi nào thì những khách hàng nữ là công nhân đặt mua mặt hàng gì đó, ví dụ áo dài chẳng hạn là nhiều nhất (thoả mãn một ngƣỡng nào đó)?

2.2 Luật kết hợp

2.2.1. Mô hình hình thức

Kí hiệu I = {I1, I2, ..., Im} là tập m khoản mục (item), một giao dịch (transaction) T đƣợc định nghĩa nhƣ một tập con (subset) của các khoản mục trong I (T  I). Tƣơng tự nhƣ khái niệm tập hợp, các giao dịch không đƣợc trùng lặp, nhƣng có thể nới rộng tính chất này của tập hợp và trong các thuật toán sau này, ngƣời ta đều giả thiết rằng các khoản mục trong một giao dịch và trong tất cả các tập mục (item set) khác, có thể coi chúng đã đƣợc sắp xếp theo thứ tự từ điển của các mục.

Gọi D là CSDL của n giao dịch và mỗi giao dịch đƣợc đánh nhãn với một định danh duy nhất (Unique Transasction Identifier). Nói rằng, một giao dịch T  D hỗ trợ (support) cho một tập X  I nếu nó chứa tất cả các item của X, nghã là X  T, trong một số trƣờng hợp ngƣời ta dùng ký hiệu T(X) để chỉ tập các giao dịch hỗ trợ cho X. Kí hiệu support(X) (hoặc sup(X), s(X)) là tỷ lệ phần trăm của các giao dịch hỗ trợ X trên tổng các giao dịch trong D, nghĩa là:

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn sup( ) |{ | }| | | T D X T X D    (2.1)

Độ hỗ trợ tối thiểu (minimum support) minsup là một giá trị cho trƣớc bởi ngƣời sử dụng. Nếu tập mục X có sup(X)  minsup thì ta nói X là một tập các mục phổ biến (hoặc large itemset). Một tập phổ biến đƣợc sử dụng nhƣ một tập đáng quan tâm trong các thuật toán, ngƣợc lại, những tập không phải tập phổ biến là những tập không đáng quan tâm. Trong các trình bày sau này, ta sẽ sử dụng những cụm từ khác nhƣ “X có độ hỗ trợ tối thiểu”, hay “X không có độ hỗ trợ tối thiểu” cũng để nói lên rằng X thỏa mãn hay không thỏa mãn support(X)  minsup.

a. Định nghĩa luật kết hợp

Một luật kết hợp có dạng R: X => Y, trong đó X, Y là tập các mục, X, Y  I và X Y = . X đƣợc gọi là tiên đề và Y đƣợc gọi là hệ quả của luật.

Luật X => Y tồn tại một độ tin cậy c (confidence-conf). Độ tin cậy c đƣợc

Một phần của tài liệu khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị (Trang 25 - 62)

Tải bản đầy đủ (PDF)

(62 trang)