Mặc dù đặc điểm của dữ liệu liên quan tới tác vụ và các loại tri thức đƣợc khai phá cĩ thể làm giảm đáng kể số lƣợng mẫu đƣợc sinh ra. Một quy trinh khai phá dữ liệu cĩ lẽ vẫn sinh ra một số lƣợng lớn mẫu. Thơng thƣờng chỉ một phần nhỏ của các mẫu này là thực sự cho ngƣời dùng quan tâm. Vì vậy ngƣời dùng cần phải tiếp tục giới hạn số lƣợng mẫu khơng đƣợc quan tâm đƣợc quy trình trả về. Cĩ thể đạt đƣợc điều này bằng cách xác định các phƣơng pháp cần thiết để ƣớc lƣợng sự đơn giản, sự tiện ích, sự chắc chắn và sự mới mẻ của các mẫu.
Trong phần này ngƣời ta nghiên cứu một vài phƣơng pháp về lợi nhuận của của mẫu. Các phƣơng pháp dựa trên cấu trúc của mẫu và thống kê chúng. Nhìn
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
chung mỗi phƣơng pháp quan hệ tới một ngưỡng, là cái mà cĩ thể đƣợc kiểm sốt bởi ngƣời dùng. Các luật mà khơng phù hợp với ngƣỡng đƣợc xem nhƣ là khơng hấp dẫn và vì vậy là khơng đƣợc trình bày tới ngƣời dùng nhƣ là tri thức.
1. Tính đơn giản : Một nhân tố gĩp phần vào sự thú vị của một mẫu là sự đơn giản cho tồn bộ mẫu đối với sự nhận thức của con ngƣời. Mục tiêu đơn giản của các phƣơng pháp của các mẫu đƣợc xem nhƣ là chức năng của cấu trúc mẫu, xác định kích thƣớc của mẫu dạng bit hoặc số lƣợng thuộc tính hay thao tác xuất hiện trong mẫu. Thí dụ cấu trúc phức tạp của một luật là khĩ hơn để giải thích và do đĩ ít hấp dẫn hơn để quan tâm.
2. Độ dài của luật : Thí dụ là một phƣơng pháp đơn giản. Đối với các luật đƣợc thể hiện dƣới dạng liên kết thƣờng (nhƣ là một tập tính chất liên kết) độ dài luật là thơng thƣờng đƣợc định nghĩa nhƣ là số lƣợng các liên kết trong luật.
3. Các luật kết hợp, nhận thức, phân lớp cĩ chiều dài vƣợt ngƣỡng do ngƣời dùng định nghĩa đƣợc xem nhƣ là khơng thú vị. Đối với các mẫu đƣợc thể hiện dƣới dạng cây quyết định. Tính đơn giản cĩ thể là một chức năng của số lƣợng lá hoặc số nút của cây.
4. Chắc chắn :Mỗi mẫu đƣợc khám phá cĩ một phƣơng pháp chắc chắn liên quan tới sự đánh giá tính hợp lệ hoặc sự tin cậy của mẫu. Một phƣơng pháp chắc chắn cho sự kết hợp các luật với dạng “ A=>B” là tin cậy. Một tập dữ liệu liên quan tới tác vụ (hoặc các giao dịch trong một cơ sở dữ liệu giao dịch). Sự tự tin của “ A=>B” đƣợc định nghĩa là :
Thí dụ Giả sử rằng một tập dữ liệu liên quan tới tác vụ bao gồm các giao dịch từ phịng máy tính của AllElectronics. Một tin cậy của 85% cho luật kết hơp
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Cĩ nghĩa là 85% các khác hàng mua một máy tính cũng sẽ mua phần mềm. Một giá trị tin cậy của 100% hoặc 1 chỉ ra rằng luật luơn chính xác trên dữ liệu đƣợc phân tích. Những luật nhƣ vậy đƣợc gọi là Chính xác.
Đối với luật phân lớp, tin cậy cịn gọi là sự tin cậy hoặc chính xác. Các luật phân lớp đề xuất một mơ hình phân biệt các đối tƣợng, hoặc bộ của một lớp mục tiêu từ các đối tƣợng của lớp tƣơng phản. Một giá trị tin cậy thập chỉ ra rằng luật trong câu hỏi khơng chính xác phân loại một số lƣợng lớn các đối tƣợng lớp tƣơng phản nhƣ các đối tƣợng lớp đích. Các luật tin cậy cũng đƣợc biết nhƣ mức trải của luật, chất lƣợng luật, nhân tố chắc chắn, trọng số phân biệt.
5. Tiện ích :Sự hữu ích tiềm năng của một mẫu là một nhân tố xác định sự hấp dẫn của nĩ. Nĩ cĩ thể đƣợc đo bằng chức năng tiện ích nhƣ là hỗ trợ. Hỗ trợ của một kết hợp mẫu liên quan tới % của dữ liệu liên quan tới tác vụ, giao tác, cho mẫu là đúng. Đối với các luật quan hệ của dạng “ A=>B” nĩ đƣợc định nghĩa là:
Thí dụ Giả sử rằng một tập dữ liệu liên quan tới tác vụ bao gồm các giao dịch từ phịng máy tính của AllElectronics. Một hỗ trợ 30% cho luật kết hợp nghĩa là 30% của tất cả khách hàng trong phịng máy tính mua cả máy tính và phần mềm.
Các luật kết hợp thỏa mãn cả hai một là ngƣời dùng định nghĩa ngƣỡng tin cậy nhỏ nhất và ngƣỡng hỗ trợ nhỏ nhất do ngƣời dùng định nghĩa là đƣợc gọi là Các luật kết hợp mạnh, đƣợc xem là hấp dẫn. Các luật với hỗ trợ thấp thể hiện ở nhiễu hoặc là hiếm hoặc là ngoại lệ.
Tử số của phƣơng trình hỗ trợ đƣợc biết nhƣ là đếm luật. Khá thƣờng xuyên con số này đƣợc hiển thị thay vì hỗ trợ. Việc hỗ trợ cĩ thể dễ dàng bắt nguồn từ nĩ.
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Việc mơ tả đặc điểm và biệt số là bản chất, sinh ra bộ dữ liệu. Bất kỳ bộ đƣợc sinh ra thể hiện ít hơn Y% của tổng số bộ liên quan tới tác vụ đƣợc xem nhƣ là ồn. Bộ là khơng đƣợc hiển thị tới ngƣời dùng. Giá trị của Y là ngƣỡng ồn.
6. Tính mới : Mẫu mới là những đĩng gĩp thơng tin mới hoặc tăng hiệu suất cho tập mẫu đƣa ra. Thí dụ, một trƣờng hợp ngoại lệ dữ liệu cĩ thể đƣợc coi là novel mà trong đĩ nĩ khác biệt dựa trên trên mơ hình thống kê hoặc niềm tin của ngƣời dùng. Một chiến lƣợc khác cho việc phát hiện tính mới là loại bỏ các mẫu thừa. Nếu phát hiện ra một luật cĩ thể đƣợc ngụ ý bởi một luật khác là cĩ sẵn trong cơ sở tri thức hoặc trong tập các luật xuất phát sau đĩ hoặc là các luật cần đƣợc kiểm tra lại để loại bỏ sự thừa tiềm năng.
Khai phá với các phân lớp khái niệm cĩ thể đạt kết quả trong một số lƣợng lớn các luật thừa. Thí dụ giả sử rằng các luật quan hệ sau đây đƣợc khai phá từ cơ sở dữ liệu AllElectronic sử dụng phân lớp khái niệm trong hình cho vị trí:
Giả sử rằng luật (4. 6) cĩ 8% hỗ trợ và 70% tin cậy. Mong rằng độ tin cậy khoảng 70% là tốt vì tất cả các bộ đại diện cho các đối tƣợng dữ liệu cho Montreal cũng là các đối tƣợng dữ liệu cho Canada. Luật (4, 6) là tổng quát hơn là Luật (4, 7), và do đĩ, ngƣời ta mong muốn luật để xảy ra thƣờng xuyên hơn sau này. Do đĩ, hai luật khơng nên sự hỗ trợ nhƣ nhau. Giả sử rằng khoảng một phần tƣ của tất cả doanh số bán hàng ở Canada đến từ Montreal. Sau đĩ chúng tơi mong chờ sự hỗ trợ của các luật liên quan đến Montreal là một phần tƣ của sự hỗ trợ của các luật liên quan đến Canada. Nĩi cách khác, chúng tơi mong đợi. Nĩi cách khác, chúng tơi mong đợi sự hỗ trợ của luật (4, 7) là 8% x 1/ 4 = 2%. Nếu sự tin cậy và sự hỗ trợ thực tế của các luật (4, 7) đƣợc nhƣ mong đợi, sau đĩ các luật đƣợc xem là thừa vì nĩ khơng cung cấp bất kỳ thơng tin bổ sung và nĩi chung là ít hơn luật (4, 6).
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Thí dụ trên cũng minh hoạ rằng khi khai thác kiến thức ở nhiều cấp độ, đĩ là lý do để cĩ ngƣỡng hỗ trợ và độ tin cậy khác nhau, tùy thuộc vào mức độ hạt của kiến thức trong mẫu đƣợc khai phá. Thí dụ, khi mẫu là phân tán ở các cấp thấp hơn. Ngƣời ta cĩ thể thiết lập các ngƣỡng hỗ trợ tối thiểu đối với các luật cĩ chứa các khái niệm mức thấp là thấp hơn các luật chƣa các khái niệm ở mức độ cao hơn.
Dữ liệu khai phá dữ liệu cho phép ngƣời dùng các phƣơng pháp linh hoạt, tƣơng tác cụ thể, kiểm nghiệm và ngƣỡng tƣơng đƣơng của chúng. Cĩ rất nhiều biện pháp khách quan, ngồi những nghiên cứu cơ bản ở trên. Các biện pháp chủ quan tồn tại là tốt, mà hãy xem xét niềm tin ngƣời sử dụng về các mối quan hệ trong dữ liệu, ngồi các biện pháp khách quan thống kê. các biện pháp theo sở thích sẽ đƣợc thảo luận chi tiết hơn trong suốt cuốn sách, liên quan đến việc khai thác các đặc tính, kết hợp, và các luật phân lớp và mẫu lệch.
2.6. Thể hiện và trực quan của các mẫu được phát hiện
Đối với khai phá dữ liệu hiệu quả, hệ thống khai phá dữ liệu sẽ cĩ thể hiển thị các mẫu phát hiện ở nhiều hình thức, chẳng hạn nhƣ các luật, bảng biểu, bảng chéo, bánh hoặc các biểu đồ, cây quyết định, lập phƣơng, hoặc các thể hiện trực quan khác. Cho phép hình dung của mơ hình phát hiện dƣới nhiều hình thức cĩ thể giúp ngƣời sử dụng xác định mẫu mong muốn và tƣơng tác hoặc hƣớng dẫn các hệ thống phát hiện thêm. Một ngƣời sử dụng sẽ cĩ thể xác định các loại trình bày sẽ đƣợc sử dụng để hiển thị các mẫu phát hiện.
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Hình 2.3. Các mẫu thể hiện
Việc sử dụng phân cấp khái niệm đĩng vai trị quan trọng trong việc giúp đỡ ngƣời sử dụng hình ảnh về các mẫu phát hiện. Khai thác với phân cấp khái niệm cho phép các đại diện của kiến thức phát hiện trong các khái niệm cao cấp, cĩ thể đƣợc dễ hiểu hơn cho ngƣời dùng hơn so với các luật thể hiện trong điều kiện của dữ liệu nguyên thủy, dữ liệu thơ, chẳng hạn nhƣ phụ thuộc hàm hay phụ thuộc đa trị, hoặc ràng buộc tồn vẹn. Hơn nữa, hệ thống khai thác dữ liệu nên sử dụng phân cấp khái niệm thực hiện khoan xuống và hoạt động quay lại, do đĩ ngƣời dùng cĩ thể kiểm tra phát hiện các mơ hình ở nhiều cấp độ trừu tƣợng. Ngồi ra, xoay, cắt lát, khoan… trợ giúp ngƣời sử dụng xem dữ liệu tổng quát và kiến thức từ những quan điểm riêng. Một hệ thống khai thác dữ liệu cần cung cấp các hoạt động nhƣ tƣơng tác với kích thƣớc bất kỳ, cũng nhƣ cho các giá trị cá nhân của mỗi chiều.
Một số dạng đại diện cĩ thể đƣợc tốt hơn phù hợp hơn đối với các loại tri thức. Thí dụ, quan hệ tổng quát và bảng chéo tƣơng ứng hoặc hình khoanh, biểu đồ là tốt cho trình bày các mơ tả đặc tính, trong khi cây quyết định là một lựa chọn phổ biến cho các phân lớp. Các biện pháp theo sở thích sẽ đƣợc hiển thị cho mỗi mơ hình phát hiện ra, để giúp ngƣời dùng xác định các mẫu cho các kiến thức cĩ ích.
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
2.7. Phân tích thành phần chính
Phần này đề cập Phân tích thành phần chính (PCA - Principal Component Analysis). Nĩ là gì? Đĩ là một cách xác định các mẫu trong dữ liệu, và thể hiện dữ liệu theo cách nhƣ vậy là để làm nổi bật tƣơng đồng và khác biệt của họ. Kể từ khi mẫu trong dữ liệu cĩ thể đƣợc khĩ khăn để tìm thấy trong dữ liệu nhiều chiều, mà thể hiện đồ họa khơng cĩ sẵn, PCA là một cơng cụ mạnh để phân tích dữ liệu.
Trong lĩnh vực nghiên cứu về khai phá dữ liệu nĩi trung cũng nhƣ trong nghiên cứu về các thuật tốn phân lớp nĩi riêng, vấn đề xử lý dữ liệu lớn ngày càng trở nên cấp thiết và đĩng vai trị chủ đạo trong việc giải quyết các bài tốn thực tế. Phần lớn các thuật tốn phân lớp đã đƣợc phát triển chỉ cĩ thể giải quyết với lƣợng số liệu giới hạn cũng nhƣ với một độ phức tạp dữ liệu biết trƣớc. Trong khi đĩ lƣợng dữ liệu chúng ta thu thập đƣợc ngày càng phong phú đa dạng nhờ sự phát triển mạnh mẽ của khoa học kỹ thuật. Mặc dù rất nhiều kỹ thuật khai phá dữ liệu dựa trên các nền tảng lý thuyết khác nhau đã đƣợc phát triển và ứng dụng từ rất lâu nhƣng thực tế cho thấy kết quả phụ thuộc vào rất nhiều đặc tính của dữ liệu cũng nhƣ khả năng xử lý dữ liệu thơ của từng nhĩm nghiên cứu. Một điều hiển nhiên là mỗi phƣơng pháp chỉ cĩ thể đáp ứng và xử lý tốt trên một vài dữ liệu và ứng dụng cụ thể nào đĩ. Trong khai phá dữ liệu thì phƣơng pháp trích chọn đĩng vai trị quan trọng trong tiền xử lý dữ liệu. Hƣớng tiếp cận này làm tăng hiệu quả thu thập dữ liệu trong các ngành nhƣ tin sinh, xử lý dữ liệu web, xử lý tiếng nĩi, hình ảnh với đặc tính là cĩ rất nhiều thuộc tính (vài trăm cho đến vài nghìn thuộc tính) nhƣng thƣờng chỉ cĩ một số lƣợng tƣơng đối nhỏ các mẫu dung để huấn luyện (thƣờng là vài trăm). Phƣơng pháp trích chọn là giảm kích cỡ của khơng gian dữ liệu, loại bỏ các thuộc tính khơng liên quan và các thuộc tính gây nhiễu. Phƣơng pháp này cĩ ảnh hƣởng ngay trực tiếp đến các ứng dụng nhƣ làm tăng tốc độ của thuật tốn khai phá dữ liệu, cải thiện chất lƣợng dữ liệu và vì vậy làm tăng hiệu xuất khai phá dữ liệu, kiểm sốt kết quả của thuật tốn. Phân tích các thành phần cơ bản PCA là một phƣơng pháp khá nổi tiếng trong quá trình làm giảm thuộc tính của dữ liệu đầu vào gần đây phƣơng pháp hàm nhân đƣợc áp dụng để cĩ thể ứng dụng PCA giải quyết
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
các bài tốn phi tuyến tính. Về cơ bản việc trích chọn nội dung (bĩc tách thuộc tính) đặc trƣng gồm hai phần xây dựng thuộc tính và trích chọn đặc trƣng. Xây dựng các bộ thuộc tính là cơng việc quan trọng trong việc xử lý dữ liệu. Khi xây dựng số liệu phải đảm bảo khơng bị mất quá nhiều thơng tin cũng nhƣ khơng quá tốn kém về mặt chi phí. Phần thứ hai là mục tiêu tìm ra những thơng tin đại diện cho đối tƣợng, loại bỏ thơng tin thừa gây nhiễu nhằm tăng hiệu suất của thuật tốn khai phá dữ liệu. Cĩ nhiều phƣơng pháp và hƣớng tiếp cận khác nhau nhƣng chúng cĩ chung các yêu cầu sau:
+ Giảm dữ liệu cần lƣu trữ, tăng tốc độ thuật tốn (tính tốn trên dữ liệu đĩ). + Gảm bộ thuộc tính nhằm tiết kiệm khơng gian lƣu trữ.
+ Tăng cƣờng hiệu quả thuật tốn nhằm thu đƣợc tỉ lệ dự đốn cao hơn. + Cĩ tri thức về dữ liệu: thu đƣợc các tri thức về dữ liệu thơng qua phƣơng pháp bĩc tách dữ liệu để cĩ thể tạo ra hay biểu diễn dữ liệu dễ dàng hơn.
Để thực hiện đƣợc các thuật tốn trích chọn cần thực hiện một số cơng việc sau: + Phƣơng pháp để sinh ra thuộc tính đặc trƣng ( cĩ thể hiểu tƣơng ứng với các chiến lƣợc tìm kiếm)
+ Định nghĩa hàm đánh giá (đƣa ra các tiêu chí để xác định các thuộc tính hay nhĩm thuộc tính là tốt hay khơng tốt)
+ Ƣớc lƣợng hàm đánh giá đĩ (kiểm chứng lại xem hàm đánh giá cĩ thực sự phù hợp và cĩ hiệu quả với bộ dữ liệu khơng)
Các lợi thế chính khác của PCA là một khi ngƣời ta đã tìm thấy những mơ hình trong dữ liệu, và nén dữ liệu, tức là. bằng cách giảm số lƣợng kích thƣớc, mà khơng cần nhiều mất thơng tin. Kỹ thuật này đƣợc sử dụng trong nén hình ảnh, nhƣ chúng ta sẽ thấy sau.
Phần này sẽ qua các bƣớc ngƣời ta cần thực hiện Phân tích các thành phần trên một tập hợp các dữ liệu. Sẽ khơng để mơ tả chính xác lý do tại sao về kỹ thuật,
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
nhƣng sẽ cố gắng cung cấp một lời giải thích về những gì đang xảy ra tại mỗi điểm để cĩ thể đƣa ra quyết định thơng báo khi ngƣời ta cố gắng sử dụng kỹ thuật này.
Bƣớc 1: Nhận đƣợc một số dữ liệu
Trong ví dụ đơn giản, sẽ sử dụng đƣợc tập hợp dữ liệu của ta. Nĩ chỉ cĩ 2