Tri thức nền tảng là thơng tin về lĩnh vực đƣợc khai phá mà cĩ ích trong quá trình khai phá. Trong phần này ngƣời ta tập chung vào một tri thức cơ sở đơn giản nhƣng cĩ khả năng mạnh đĩ là phân cấp khái niệm. Phân cấp khái niệm cho phép khai phá tri thức ở nhiều mức độ trừu tƣợng.
Nhƣ đã mơ tả, một phân cấp khái niệm định nghĩa một luồng các ánh xạ từ một tập các khái niệm ở mức độ thấp tới mức độ cao, các khái niệm chung hơn. Một phân cấp khái niệm cho chiều vị trí đƣợc chỉ ra trong hình ánh xạ khái niệm mức độ thấp, nhƣ thành phố, tới những khái niệm tổng quát hơn nữa, nhƣ đất nƣớc.
Chú ý rằng phân cấp khái niệm này đƣợc thể hiện nhƣ là một tâp các nút tổ chức trong một cây mà mỗi nút thể hiện một khái niệm. Một nút đặc biệt là gốc của cây. Nĩ biểu thị giá trị tổng quát nhất của chiều đƣợc đƣa ra. Nếu nĩ khơng đƣợc hiển thị rõ ràng thì nĩ bị ẩn. Phân cấp khái niệm này bao gồm 4 mức độ. Theo quy ƣớc các mức độ trong phân cấp khái niệm này đƣợc đánh số từ cao xuống thấp bắt
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
đầu với mức độ ) cho tất cả các nút. Trong thí dụ của ngƣời ta mức độ 1 thể hiện khái niệm country trong khi mức độ 2 và 3 thể hiện các khái niệm
province_or_state và city. Các lá của hệ thống phân cấp tƣơng ứng với các giá trị dữ liệu thơ của chiều (cấp dữ liệu nguyên thủy). Những giá trị cụ thể nhất hoặc các khái niệm của các thuộc tính hoặc chiều đƣợc đƣa ra. Mặc dù một phân cấp khái niệm thƣờng định nghĩa một sự phân loại đƣợc thể hiện dƣới dạng một cây. Nĩ cũng cĩ thể cĩ dạng là một phần hoặc một lƣới.
Hình 2.2 . Thí dụ về phân phối hàng
Các phân cấp khái niệm là một dạng cĩ ích của kiến thức nền tảng mà trong đĩ chúng cho phép dữ liệu thơ đƣợc xử lý ở mức độ trừu tƣợng cao hơn, tổng quát hơn. Sự tổng quát của dữ liệu hoặc quay lại là đạt đƣợc bởi việc thay thế mức độ dữ liệu nguyên thủy (nhƣ là tên thành phố cho location hoặc giá trị số cho tuổi) bằng các khái niệm mức độ cao hơn (nhƣ là các lục địa cho vị trí hoặc trong phạm vi nhƣ “20-39”, “40-59", “60+" cho tuổi). Điều này cho phép ngƣời dùng nhìn thấy dữ liệu ý nghĩa hơn và trừu tƣợng, làm cho các mẫu khai phá dễ hiểu hơn. Nhìn chung cĩ
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
lợi thế của việc nén dữ liệu. Khai phá trên một tập dữ liệu nén sẽ yêu cầu các thao tác ra vào ít hơn và hiệu quả hơn khai phá trên một tập dữ liệu lớn và khơng nén.
Nếu kết quả dữ liệu xuất hiện chung chung, các phân cấp khái niệm cũng cho phép chuyên mơn hĩa hoặc đào sâu theo đĩ các giá trị khái niệm đƣợc thay thế bởi các khái niệm mức độ thấp hơn. Bằng quay lại và đào sâu ngƣời dùng cĩ thể soi dữ liệu từ quan điểm khác nhau, đạt đƣợc sự hiểu biết sâu hơn từ bên trong các mối quan hệ dữ liệu ẩn.
Các phân cấp khái niệm cĩ thể đƣợc cung cấp bởi ngƣời sử dụng hệ thống, các chuyên gia trong các lĩnh vực, hoặc các kỹ sƣ tri thức. Các ánh xạ dữ liệu thơng thƣờng hoặc các ứng dụng cụ thể. Các phân cấp khái niệm cĩ thể thƣờng đƣợc khai phá tự động hoặc định nghĩa động dựa trên việc phân tích thống kê của dữ liệu phân tán.
Cĩ thể cĩ nhiều hơn một phân cấp khái niệm cho một thuộc tính và chiều đƣợc đƣa ra dựa trên các quan điểm khác nhau của ngƣời dùng. Giả sử thí dụ ngƣời quản lý bán hàng của AllElectronics quan tâm nghiên cứu về thĩi quen mua hàng của khách hàng tại các địa điểm khác nhau. Phân cấp khái niệm cho vị trí của hình sẽ là cĩ ích nhiệm vụ khái phá nhƣ vậy. Giả sử rằng ngƣời quản lý tiếp thị phải nghĩ ra các chiến dịch quảng cáo cho AllElectronics. Ngƣời dùng sẽ muốn biết vị trí đƣợc tổ chức với khía cạnh ngơn ngữ, gồm tiếng Anh cho Vancouver, Montreal và New York; tiếng Pháp cho Montreal; Tiếng Tây ban nha cho New York và Miami, để thuận lợi cho việc quảng cáo. Hệ thống phân cấp theo vị trí này đƣợc thể hiện trong hình. Chú ý rằng phân cấp khái niệm này dạng lƣới, nút “New York” cĩ hai nút cha là “ English” và “ Spanish”.
Cĩ 4 kiểu chính của các phân cấp khái niệm. Ngƣời ta đã giới thiệu các kiểu phố biến nhất, phân cấp theo lƣợc đồ, và phân cấp theo nhĩm, cái mà ngƣời ta sẽ xem dƣới đây. Ngồi ra ngƣời ta cũng nghiên cứu phân cấp xuất phát từ thao tác và phân cấp dựa trên luật.
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
2.5.2. Phân cấp lược đồ
Là tồn bộ hay một phần thứ tự giữa các thuộc tính trong lƣợc đồ cơ sở dữ liệu. Phân cấp theo lƣợc đồ nhấn mạnh mối quan hệ ngữ nghĩa giữa các thuộc tính. Thơng thƣờng một phân cấp theo lƣợc đồ mơ tả một chiều của kho dữ liệu.
Thí dụ Lƣợc đồ quan hệ cho address bao gồm cac thuộc tính street, city, province_or_state và country. Ngƣời ta cĩ thể định nghĩa phân cấp lƣợc đồ location bởi thứ tự street < city < province hay state < country. Điều này cĩ nghĩa là street cĩ mức khái niệm thấp hơn city, city thấp hơn province_or_state, và
province_or_state thấp hơn country. Phân cấp theo lƣợc đồ cung cấp thơng tin dữ liệu meta, tức dữ liệu về dữ liệu. Sự đặc tả của nĩ trong thuật ngữ tồn bộ hay một phần thứ tứ giữa các thuộc tính là ngắn gọn hơn định nghĩa tƣơng đƣơng mà liệt kê các thí dụ nhƣ street, province, state và country.
Nhớ lại rằng khi xác định dữ liệu liên quan tới tác vụ ngƣời dùng đặc tả các thuộc tính thích hợp cho việc thăm dị khai thác. Nếu một ngƣời dùng chỉ đặc tả một thuộc tính liên quan tới bất kỳ phân cấp theo lƣợc đồ chứa city cĩ thể tự động đƣa ra các thuộc tính liên quan. Thí dụ các thuộc tính street, province_or_state và country
cũng cĩ thể đƣợc tự động bao gồm cho việc khai thác.
2.5.3. Phân cấp theo nhĩm
Tổ chức các giá trị cho thuộc tính hoặc chiều đƣa ra thành nhĩm của các hằng số hoặc phạm vi giá trị. Tồn bộ hoặc một phần thứ tứ cĩ thể đƣợc định nghĩa giữa các nhĩm. Phân cấp gom nhĩm cĩ thể đƣợc sử dụng để cải tiến hoặc làm phong phú hơn phân cấp theo lƣợc đồ khi hai kiểu này kết hợp với nhau. Chúng thƣờng đƣợc sử dụng để định nghĩa một tập nhỏ các quan hệ giữa các đối tƣợng.
Một phân cấp theo nhĩm của các thuộc tính tuổi cĩ thể đƣợc đặc tả trong phạm vị sau:
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Chú ý rằng việc đặc tả phạm vi giống nhau cũng cĩ thể đƣợc sinh ra tự động. Thí dụ phân cấp theo nhĩm cĩ thể tạo thành một phần của phân cấp theo lƣợc đồ và ngƣợc lại. Thí dụ xem xét phân cấp khái niệm cho vị trí trong hình định nghĩa city< province_or_state < country. Giả sử rằng các giá trị hằng cho country bao gồm “ canada”, “USA”, “ Germany”, “ England”, và “Brazil”. Nhĩm cĩ thể đƣợc sử dụng để cải tiến phân cấp này bằng cách thêm vào mức độ trên country nhƣ là continent và nhĩm theo giá trị country.
2.5.4. Phân cấp theo thao tác
Phân cấp này là dựa trên các thao tác đƣợc đặc tả bởi ngƣời dùng, các chuyên gia, hoặc hệ thống khai phá dữ liệu. Các thao tác bao gồm việc giải mã thơng tin từ chuỗi đƣợc mã hĩa, trích dẫn thơng tin từ các đối tƣợng dữ liệu phức tạp, và phân cụm dữ liệu.
Thí dụ Một địa chỉ email hoặc một URL của WWW chứa các thơng tin phân cấp sở, ngành, các trƣờng đại học (hoặc cơng ty) và các nƣớc. Các thao tác giải mã cĩ thể đƣợc định nghĩa để trích xuất thơng tin để tạo thành dạng phân cấp khái niệm. Thí dụ địa chỉ email dmbook@cs. sfu. ca đƣa ra thứ tự “ login – name < department < university< country” thể hiện một dạng phân cấp khái niệm cho địa chỉ email. Tƣơng tự địa chỉ URL “ http://www. cs. sfu. ca/research/DB/DBMiner” cĩ thể đƣợc giải mã để cung cấp một phần thứ tự cĩ dạng cơ sở của phân cấp khái niệm cho URLS.
Thí dụ Các thao tác cĩ thể đƣợc định nghĩa để trích rút thơng tin từ các đối tƣợng dữ liệu phức tạp. Thí dụ xâu “ Ph. D int Computer Science, UCLA, 1995” là một đối tƣợng phức tạp thể hiện bằng cấp đại học. Xâu này bao gồm các thơng tin về loại văn bằng học thuật, lĩnh vực, trƣờng đại học và năm tốt nghiệp. Các thao tác cĩ thể đƣợc định nghĩa để trích thơng tin nhƣ vậy là các dạng phân cấp khái niệm.
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Ngồi ra các thao tác thuộc tốn học và thống kê nhƣ là phân cụm dữ liệu và các thuật tốn phân tích dữ liệu phân tán cĩ thể đƣợc sử dụng để hình thành các phân cấp khái niệm.
2.5.5. Phân cấp theo luật
Hệ thống phân cấp dựa trên luật xảy ra khi tồn bộ phân cấp khái niệm hoặc một phần của nĩ đƣợc định nghĩa bởi một tập các luật, và đƣợc đánh giá động dựa trên cơ sở dữ liệu hiện tài và việc định nghĩa các luật.
Các luật sau đây cĩ thể đƣợc sử dụng để phân loại các mặt hàng AllElectronic nhƣ low_profit_margin, medium_profit_margin, high_profit_margin. Với điều kiện số dƣ lợi nhuận (profit margin) của mặt hàng X là đƣợc định nghĩa khi cĩ sự khác biệt giữa giá bán lẻ và chi phí thực tế của X. Mặt hàng cĩ số dƣ lợi nhuận ít hơn 50 đƣợc định nghĩa là mặt hàng low_profit_margin, các mặt hàng cĩ lợi nhậu từ 50 tới 250 đƣợc định nghĩa là mặt hàng medium_profit_margin, và mặt hàng cĩ lợi nhuận lớn hơn 250 đƣợc định nghĩa là mặt hàng high_profit_margin.
2.5.6. Độ đo về tiêu chí quan tâm
Mặc dù đặc điểm của dữ liệu liên quan tới tác vụ và các loại tri thức đƣợc khai phá cĩ thể làm giảm đáng kể số lƣợng mẫu đƣợc sinh ra. Một quy trinh khai phá dữ liệu cĩ lẽ vẫn sinh ra một số lƣợng lớn mẫu. Thơng thƣờng chỉ một phần nhỏ của các mẫu này là thực sự cho ngƣời dùng quan tâm. Vì vậy ngƣời dùng cần phải tiếp tục giới hạn số lƣợng mẫu khơng đƣợc quan tâm đƣợc quy trình trả về. Cĩ thể đạt đƣợc điều này bằng cách xác định các phƣơng pháp cần thiết để ƣớc lƣợng sự đơn giản, sự tiện ích, sự chắc chắn và sự mới mẻ của các mẫu.
Trong phần này ngƣời ta nghiên cứu một vài phƣơng pháp về lợi nhuận của của mẫu. Các phƣơng pháp dựa trên cấu trúc của mẫu và thống kê chúng. Nhìn
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
chung mỗi phƣơng pháp quan hệ tới một ngưỡng, là cái mà cĩ thể đƣợc kiểm sốt bởi ngƣời dùng. Các luật mà khơng phù hợp với ngƣỡng đƣợc xem nhƣ là khơng hấp dẫn và vì vậy là khơng đƣợc trình bày tới ngƣời dùng nhƣ là tri thức.
1. Tính đơn giản : Một nhân tố gĩp phần vào sự thú vị của một mẫu là sự đơn giản cho tồn bộ mẫu đối với sự nhận thức của con ngƣời. Mục tiêu đơn giản của các phƣơng pháp của các mẫu đƣợc xem nhƣ là chức năng của cấu trúc mẫu, xác định kích thƣớc của mẫu dạng bit hoặc số lƣợng thuộc tính hay thao tác xuất hiện trong mẫu. Thí dụ cấu trúc phức tạp của một luật là khĩ hơn để giải thích và do đĩ ít hấp dẫn hơn để quan tâm.
2. Độ dài của luật : Thí dụ là một phƣơng pháp đơn giản. Đối với các luật đƣợc thể hiện dƣới dạng liên kết thƣờng (nhƣ là một tập tính chất liên kết) độ dài luật là thơng thƣờng đƣợc định nghĩa nhƣ là số lƣợng các liên kết trong luật.
3. Các luật kết hợp, nhận thức, phân lớp cĩ chiều dài vƣợt ngƣỡng do ngƣời dùng định nghĩa đƣợc xem nhƣ là khơng thú vị. Đối với các mẫu đƣợc thể hiện dƣới dạng cây quyết định. Tính đơn giản cĩ thể là một chức năng của số lƣợng lá hoặc số nút của cây.
4. Chắc chắn :Mỗi mẫu đƣợc khám phá cĩ một phƣơng pháp chắc chắn liên quan tới sự đánh giá tính hợp lệ hoặc sự tin cậy của mẫu. Một phƣơng pháp chắc chắn cho sự kết hợp các luật với dạng “ A=>B” là tin cậy. Một tập dữ liệu liên quan tới tác vụ (hoặc các giao dịch trong một cơ sở dữ liệu giao dịch). Sự tự tin của “ A=>B” đƣợc định nghĩa là :
Thí dụ Giả sử rằng một tập dữ liệu liên quan tới tác vụ bao gồm các giao dịch từ phịng máy tính của AllElectronics. Một tin cậy của 85% cho luật kết hơp
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Cĩ nghĩa là 85% các khác hàng mua một máy tính cũng sẽ mua phần mềm. Một giá trị tin cậy của 100% hoặc 1 chỉ ra rằng luật luơn chính xác trên dữ liệu đƣợc phân tích. Những luật nhƣ vậy đƣợc gọi là Chính xác.
Đối với luật phân lớp, tin cậy cịn gọi là sự tin cậy hoặc chính xác. Các luật phân lớp đề xuất một mơ hình phân biệt các đối tƣợng, hoặc bộ của một lớp mục tiêu từ các đối tƣợng của lớp tƣơng phản. Một giá trị tin cậy thập chỉ ra rằng luật trong câu hỏi khơng chính xác phân loại một số lƣợng lớn các đối tƣợng lớp tƣơng phản nhƣ các đối tƣợng lớp đích. Các luật tin cậy cũng đƣợc biết nhƣ mức trải của luật, chất lƣợng luật, nhân tố chắc chắn, trọng số phân biệt.
5. Tiện ích :Sự hữu ích tiềm năng của một mẫu là một nhân tố xác định sự hấp dẫn của nĩ. Nĩ cĩ thể đƣợc đo bằng chức năng tiện ích nhƣ là hỗ trợ. Hỗ trợ của một kết hợp mẫu liên quan tới % của dữ liệu liên quan tới tác vụ, giao tác, cho mẫu là đúng. Đối với các luật quan hệ của dạng “ A=>B” nĩ đƣợc định nghĩa là:
Thí dụ Giả sử rằng một tập dữ liệu liên quan tới tác vụ bao gồm các giao dịch từ phịng máy tính của AllElectronics. Một hỗ trợ 30% cho luật kết hợp nghĩa là 30% của tất cả khách hàng trong phịng máy tính mua cả máy tính và phần mềm.
Các luật kết hợp thỏa mãn cả hai một là ngƣời dùng định nghĩa ngƣỡng tin cậy nhỏ nhất và ngƣỡng hỗ trợ nhỏ nhất do ngƣời dùng định nghĩa là đƣợc gọi là Các luật kết hợp mạnh, đƣợc xem là hấp dẫn. Các luật với hỗ trợ thấp thể hiện ở nhiễu hoặc là hiếm hoặc là ngoại lệ.
Tử số của phƣơng trình hỗ trợ đƣợc biết nhƣ là đếm luật. Khá thƣờng xuyên con số này đƣợc hiển thị thay vì hỗ trợ. Việc hỗ trợ cĩ thể dễ dàng bắt nguồn từ nĩ.
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Việc mơ tả đặc điểm và biệt số là bản chất, sinh ra bộ dữ liệu. Bất kỳ bộ đƣợc sinh ra thể hiện ít hơn Y% của tổng số bộ liên quan tới tác vụ đƣợc xem nhƣ là ồn. Bộ là khơng đƣợc hiển thị tới ngƣời dùng. Giá trị của Y là ngƣỡng ồn.
6. Tính mới : Mẫu mới là những đĩng gĩp thơng tin mới hoặc tăng hiệu suất cho tập mẫu đƣa ra. Thí dụ, một trƣờng hợp ngoại lệ dữ liệu cĩ thể đƣợc coi là novel mà trong đĩ nĩ khác biệt dựa trên trên mơ hình thống kê hoặc niềm tin của ngƣời dùng. Một chiến lƣợc khác cho việc phát hiện tính mới là loại bỏ các mẫu thừa. Nếu phát hiện ra một luật cĩ thể đƣợc ngụ ý bởi một luật khác là cĩ sẵn trong cơ sở tri thức hoặc trong tập các luật xuất phát sau đĩ hoặc là các luật cần