Cơ sở dữ liệu hoặc tên kho dữ liệu
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Các điều kiện cho sự lựa chọn dữ liệu Các chiều hoặc các thuộc tính thích hợp Các điều kiện gom nhĩm dữ liệu
2.4.2. Kiểu tri thức được khai phá
Đặc tính, tính chất Sự suy xét nhận thức Kết hợp, mối quan hệ Sự phân lớp, sự dự báo Sự phân nhĩm 2.4.3. Kiến thức nền tảng
Phân cấp khái niệm
Sự tin tƣởng của ngƣời sử dụng về các mối quan hệ trong dữ liệu
2.4.4. Các phép đo sự hấp dẫn của mẫu
Tính đơn giản Sự chắc chắn, tự tin Tiện ích
Sự mới lạ
2.4.5. Hình ảnh hĩa của các mẫu được khai phá
Trong một cơ sở dữ liệu quan hệ, tập dữ liệu liên quan tới chức năng cĩ thể đƣợc thu đƣợc nhờ câu hỏi quan hệ liên quan tới các thao tác nhƣ chọn, chiếu, nối và gộp. Việc truy xuất của dữ liệu cĩ thể đƣợc xem nhƣ một nhiện vụ con của nhiệm vụ khai phá dữ liệu. Kết quả của quá trình sƣu tập dữ liệu trong mối quan hệ dữ liệu mới đƣợc gọi là quan hệ dữ liệu khởi tạo. Quan hệ dữ liệu cĩ thể đƣợc sắp xếp hoặc gĩm nhĩm theo điều kiện đƣợc đặc tả trong câu hỏi. Dữ liệu cĩ thể đƣợc
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
làm sạch hoặc biến đổi (thí dụ : đƣợc kết hợp trên các thuộc tính nào đĩ) ƣu tiên để áp dụng cho việc phân tích khai phá dữ liệu. Quan hệ khởi tạo cĩ thể phù hợp hoặc khơng phù hợp với quan hệ vật lý trong cơ sơ dữ liệu. Vì vậy các quan hệ ảo đƣợc gọi là Khung nhìn trong trƣờng của cơ sở dữ liệu, tập dữ liệu thích hợp cho khai phá dữ liệu đƣợc gọi là Khung nhìn nhỏ.
Trong một kho dữ liệu, dữ liệu cĩ thể đƣợc lƣu trữ trong một cơ sở dữ liệu đa chiều, đƣợc biết nhƣ là một khối dữ liệu mà cĩ thể đƣợc cài đặt sử dụng cấu trúc mảng đa chiều, một cấu trúc quan hệ, hoặc kết hợp cả hai. Tập dữ liệu thích hợp cĩ thể đƣợc đặc tả bởi việc lọc dữ liệu dựa trên điều kiện, lát cắt (lấy dữ liệu cho một giá trị thuộc tính đƣợc đƣa ra hoặc lát cắt) hoặc là đào sâu (trích cái chung của một vài lát cắt) của khối dữ liệu.
Chú ý rằng trong một câu hỏi khai phá dữ liệu các điều kiện cung cấp cho việc lựa chọn dữ liệu cĩ thể ở mức độ khái niệm cao hơn dữ liệu trong cơ sở dữ liệu hoặc trong kho dữ liệu. Thí dụ: một ngƣời dùng cĩ thể đặc tả một lựa chọn sử dụng khái niệm “ type = home entertainment” mặc dù các mục tin cá nhân trong cơ sở dữ liệu cĩ thể khơng đƣợc lƣu trữ theo kiểu mà cịn ở mức khái niệm thấp hơn. Nhƣ là “ TV”, “ CD player” hoặc “VCD”. Một phân cấp khái niệm trên item mà đƣợc cụ thể “ home entertainment” là ở mức độ cao hơn, bao gồm các khái niệm ở mức thấp {“ TV”, “CD player”, “ VCR”} cĩ thể đƣợc sử dụng trong tập dữ liệu thích hợp với nhiệm vụ.
Một tập các thuộc tính thích hợp đƣa ra sẽ liên quan tới các thuộc tính khác mà khơng đƣợc đề cập một cách rõ ràng nhƣng mà nĩ nên đƣợc bao gồm bởi vì chúng đƣợc đƣa ra bởi phân cấp khái niệm hoặc chiều liên quan trong tập các thuộc tính thích hợp đƣa ra. Thí dụ tập các thuộc tính liên quan trong câu hỏi bao gồm city. Tuy nhiên thuộc tính này là một phần của các phân cấp khái niệm khác nhƣ là phân cấp khái niệm street < city< province_or_state<country cho chiều vị trí. Trong trƣờng hợp này các thuộc tính street, province_or_state and country cũng nên đƣợc bao gồm trong tập các thuộc tính liên quan bởi vì chúng thể hiện mức độ trừu
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
tƣợng cao hơn và thấp hơn của city. Điều này tạo điều kiện cho việc khai phá tri thức ở các mức độ trừu tƣợng nhờ đi sâu và quay lại.
Đặc điểm của các thuộc tính hoặc các chiều thích hợp cĩ thể là một chức năng khĩ đối với ngƣời dùng. Một ngƣời dùng cĩ thể chỉ cĩ một ý tƣởng thơ về các thuộc tính thích hợp cho việc thăm dị khai phá. Hơn nữa khi dữ liệu khai phá đƣợc chỉ rõ ngƣời dùng cĩ thể bỏ sĩt thêm vào các dữ liệu liên quan cĩ liên quan mạnh mẽ về ngữ nghĩa với chúng. Ví dù việc bán các mặt hàng liên quan chặt chẽ tới các sự kiện cụ thể nhƣ là ngày lễ hoặc giáng sinh hoặc hoặc tới các nhĩm ngƣời cụ thể, các nhân tố này khơng đƣợc bao gồm trong việc phân tích dữ liệu yêu cầu. Với những trƣờng hợp nhƣ vậy kỹ thuộc đƣợc sử dụng để giúp việc đặc tả tỉ mỉ của các dữ liệu liên quan. Các chức năng này để đánh giá và xếp hạng các thuộc tính theo sự phù hợp của nĩ với các thao tác. Ngồi ra kỹ thuật tìm kiếm các thuộc tính quan hệ mạnh mẽ về ngữ nghĩa đƣợc sử dụng để làm tăng tập dữ liệu khởi tạo đƣợc đƣa ra bởi ngƣời dùng.
2.5. Các loại tri thức được khai phá
Việc xác định các loại tri thức đƣợc khai phá là rất quan trọng. Vì điều này nĩ quyết định chức năng khai phá dữ liệu đƣợc thực hiện. Các loại tri thức bao gồm mơ tả khái niệm (đặc tính và sự mơ tả), sự kết hợp, sự phân lớp, sự phân nhĩm, dự báo và phân tích sự phát triển.
Ngồi ra việc xác định các kiểu tri thức đƣợc khai phá cho một nhiệm vụ khai phá dữ liệu đƣợc đƣa ra, ngƣời dùng cĩ thể đặc tả và đƣa ra các mẫu template mà các mẫu đƣợc khai phá phải phù hợp. Các khuơn mẫu hoặc các mẫu meta (cịn gọi là luật meta hay câu hỏi meta) cĩ thể đƣợc dùng để hƣớng dẫn quá trình khai phá. Việc sử dụng mẫu meta là đƣợc thể hiện trong thí dụ sau:
Một ngƣời dùng nghiên cứu thĩi quen mua hàng của các khách hàng AllElectronic cĩ thể chọn để khai phá các luật kết hợp của dạng sau:
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Điều kiện X là một khĩa của quan hệ customer, P và Q là biến vị từ, là các biến cĩ thể đƣợc khởi tạo bởi các thuộc tính thích hợp hoặc các chiều đƣa ra vì là một phần của chức năng dữ liệu liên quan. W, Y, Z là các biến đối tƣợng, là các biến cĩ thể lấy giá trị của các thuộc tính tƣơng ứng cho khác hàng X.
Việc tìm kiếm các luật quan hệ là bị ràng buộc bởi các luật meta đƣợc đƣa ra nhƣ:
age (X, “30 - ") ^ income (X, “40 - 50K") => buys (X, “V CR") [2.2%, 60%] occupation (X; “student") ^ age (X; “20 - 29") ) => buys (X; “computer") [1.4%, 70%]
Theo luật đầu thì các khách hàng ở độ tuổi 30 với mức lƣơng hàng năm là từ 40k tới 50k (với 60%) là sẽ mua VCR và các trƣờng hợp này chiếm vào khoảng 2. 2% trong tổng số giao dịch. Và luật thứ hai thì khách hàng là sinh viên và ở độ tuổi 20 là thích mua máy tính vào khoảng 70% và chiếm 1. 4% trong tổng số giao dịch.
2.5.1. Phân cấp khái niệm
Tri thức nền tảng là thơng tin về lĩnh vực đƣợc khai phá mà cĩ ích trong quá trình khai phá. Trong phần này ngƣời ta tập chung vào một tri thức cơ sở đơn giản nhƣng cĩ khả năng mạnh đĩ là phân cấp khái niệm. Phân cấp khái niệm cho phép khai phá tri thức ở nhiều mức độ trừu tƣợng.
Nhƣ đã mơ tả, một phân cấp khái niệm định nghĩa một luồng các ánh xạ từ một tập các khái niệm ở mức độ thấp tới mức độ cao, các khái niệm chung hơn. Một phân cấp khái niệm cho chiều vị trí đƣợc chỉ ra trong hình ánh xạ khái niệm mức độ thấp, nhƣ thành phố, tới những khái niệm tổng quát hơn nữa, nhƣ đất nƣớc.
Chú ý rằng phân cấp khái niệm này đƣợc thể hiện nhƣ là một tâp các nút tổ chức trong một cây mà mỗi nút thể hiện một khái niệm. Một nút đặc biệt là gốc của cây. Nĩ biểu thị giá trị tổng quát nhất của chiều đƣợc đƣa ra. Nếu nĩ khơng đƣợc hiển thị rõ ràng thì nĩ bị ẩn. Phân cấp khái niệm này bao gồm 4 mức độ. Theo quy ƣớc các mức độ trong phân cấp khái niệm này đƣợc đánh số từ cao xuống thấp bắt
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
đầu với mức độ ) cho tất cả các nút. Trong thí dụ của ngƣời ta mức độ 1 thể hiện khái niệm country trong khi mức độ 2 và 3 thể hiện các khái niệm
province_or_state và city. Các lá của hệ thống phân cấp tƣơng ứng với các giá trị dữ liệu thơ của chiều (cấp dữ liệu nguyên thủy). Những giá trị cụ thể nhất hoặc các khái niệm của các thuộc tính hoặc chiều đƣợc đƣa ra. Mặc dù một phân cấp khái niệm thƣờng định nghĩa một sự phân loại đƣợc thể hiện dƣới dạng một cây. Nĩ cũng cĩ thể cĩ dạng là một phần hoặc một lƣới.
Hình 2.2 . Thí dụ về phân phối hàng
Các phân cấp khái niệm là một dạng cĩ ích của kiến thức nền tảng mà trong đĩ chúng cho phép dữ liệu thơ đƣợc xử lý ở mức độ trừu tƣợng cao hơn, tổng quát hơn. Sự tổng quát của dữ liệu hoặc quay lại là đạt đƣợc bởi việc thay thế mức độ dữ liệu nguyên thủy (nhƣ là tên thành phố cho location hoặc giá trị số cho tuổi) bằng các khái niệm mức độ cao hơn (nhƣ là các lục địa cho vị trí hoặc trong phạm vi nhƣ “20-39”, “40-59", “60+" cho tuổi). Điều này cho phép ngƣời dùng nhìn thấy dữ liệu ý nghĩa hơn và trừu tƣợng, làm cho các mẫu khai phá dễ hiểu hơn. Nhìn chung cĩ
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
lợi thế của việc nén dữ liệu. Khai phá trên một tập dữ liệu nén sẽ yêu cầu các thao tác ra vào ít hơn và hiệu quả hơn khai phá trên một tập dữ liệu lớn và khơng nén.
Nếu kết quả dữ liệu xuất hiện chung chung, các phân cấp khái niệm cũng cho phép chuyên mơn hĩa hoặc đào sâu theo đĩ các giá trị khái niệm đƣợc thay thế bởi các khái niệm mức độ thấp hơn. Bằng quay lại và đào sâu ngƣời dùng cĩ thể soi dữ liệu từ quan điểm khác nhau, đạt đƣợc sự hiểu biết sâu hơn từ bên trong các mối quan hệ dữ liệu ẩn.
Các phân cấp khái niệm cĩ thể đƣợc cung cấp bởi ngƣời sử dụng hệ thống, các chuyên gia trong các lĩnh vực, hoặc các kỹ sƣ tri thức. Các ánh xạ dữ liệu thơng thƣờng hoặc các ứng dụng cụ thể. Các phân cấp khái niệm cĩ thể thƣờng đƣợc khai phá tự động hoặc định nghĩa động dựa trên việc phân tích thống kê của dữ liệu phân tán.
Cĩ thể cĩ nhiều hơn một phân cấp khái niệm cho một thuộc tính và chiều đƣợc đƣa ra dựa trên các quan điểm khác nhau của ngƣời dùng. Giả sử thí dụ ngƣời quản lý bán hàng của AllElectronics quan tâm nghiên cứu về thĩi quen mua hàng của khách hàng tại các địa điểm khác nhau. Phân cấp khái niệm cho vị trí của hình sẽ là cĩ ích nhiệm vụ khái phá nhƣ vậy. Giả sử rằng ngƣời quản lý tiếp thị phải nghĩ ra các chiến dịch quảng cáo cho AllElectronics. Ngƣời dùng sẽ muốn biết vị trí đƣợc tổ chức với khía cạnh ngơn ngữ, gồm tiếng Anh cho Vancouver, Montreal và New York; tiếng Pháp cho Montreal; Tiếng Tây ban nha cho New York và Miami, để thuận lợi cho việc quảng cáo. Hệ thống phân cấp theo vị trí này đƣợc thể hiện trong hình. Chú ý rằng phân cấp khái niệm này dạng lƣới, nút “New York” cĩ hai nút cha là “ English” và “ Spanish”.
Cĩ 4 kiểu chính của các phân cấp khái niệm. Ngƣời ta đã giới thiệu các kiểu phố biến nhất, phân cấp theo lƣợc đồ, và phân cấp theo nhĩm, cái mà ngƣời ta sẽ xem dƣới đây. Ngồi ra ngƣời ta cũng nghiên cứu phân cấp xuất phát từ thao tác và phân cấp dựa trên luật.
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
2.5.2. Phân cấp lược đồ
Là tồn bộ hay một phần thứ tự giữa các thuộc tính trong lƣợc đồ cơ sở dữ liệu. Phân cấp theo lƣợc đồ nhấn mạnh mối quan hệ ngữ nghĩa giữa các thuộc tính. Thơng thƣờng một phân cấp theo lƣợc đồ mơ tả một chiều của kho dữ liệu.
Thí dụ Lƣợc đồ quan hệ cho address bao gồm cac thuộc tính street, city, province_or_state và country. Ngƣời ta cĩ thể định nghĩa phân cấp lƣợc đồ location bởi thứ tự street < city < province hay state < country. Điều này cĩ nghĩa là street cĩ mức khái niệm thấp hơn city, city thấp hơn province_or_state, và
province_or_state thấp hơn country. Phân cấp theo lƣợc đồ cung cấp thơng tin dữ liệu meta, tức dữ liệu về dữ liệu. Sự đặc tả của nĩ trong thuật ngữ tồn bộ hay một phần thứ tứ giữa các thuộc tính là ngắn gọn hơn định nghĩa tƣơng đƣơng mà liệt kê các thí dụ nhƣ street, province, state và country.
Nhớ lại rằng khi xác định dữ liệu liên quan tới tác vụ ngƣời dùng đặc tả các thuộc tính thích hợp cho việc thăm dị khai thác. Nếu một ngƣời dùng chỉ đặc tả một thuộc tính liên quan tới bất kỳ phân cấp theo lƣợc đồ chứa city cĩ thể tự động đƣa ra các thuộc tính liên quan. Thí dụ các thuộc tính street, province_or_state và country
cũng cĩ thể đƣợc tự động bao gồm cho việc khai thác.
2.5.3. Phân cấp theo nhĩm
Tổ chức các giá trị cho thuộc tính hoặc chiều đƣa ra thành nhĩm của các hằng số hoặc phạm vi giá trị. Tồn bộ hoặc một phần thứ tứ cĩ thể đƣợc định nghĩa giữa các nhĩm. Phân cấp gom nhĩm cĩ thể đƣợc sử dụng để cải tiến hoặc làm phong phú hơn phân cấp theo lƣợc đồ khi hai kiểu này kết hợp với nhau. Chúng thƣờng đƣợc sử dụng để định nghĩa một tập nhỏ các quan hệ giữa các đối tƣợng.
Một phân cấp theo nhĩm của các thuộc tính tuổi cĩ thể đƣợc đặc tả trong phạm vị sau:
Số hĩa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Chú ý rằng việc đặc tả phạm vi giống nhau cũng cĩ thể đƣợc sinh ra tự động. Thí dụ phân cấp theo nhĩm cĩ thể tạo thành một phần của phân cấp theo lƣợc đồ và ngƣợc lại. Thí dụ xem xét phân cấp khái niệm cho vị trí trong hình định nghĩa city< province_or_state < country. Giả sử rằng các giá trị hằng cho country bao gồm “ canada”, “USA”, “ Germany”, “ England”, và “Brazil”. Nhĩm cĩ thể đƣợc sử dụng để cải tiến phân cấp này bằng cách thêm vào mức độ trên country nhƣ là continent và nhĩm theo giá trị country.
2.5.4. Phân cấp theo thao tác
Phân cấp này là dựa trên các thao tác đƣợc đặc tả bởi ngƣời dùng, các chuyên gia, hoặc hệ thống khai phá dữ liệu. Các thao tác bao gồm việc giải mã thơng tin từ chuỗi đƣợc mã hĩa, trích dẫn thơng tin từ các đối tƣợng dữ liệu phức tạp, và phân cụm dữ liệu.
Thí dụ Một địa chỉ email hoặc một URL của WWW chứa các thơng tin phân cấp sở, ngành, các trƣờng đại học (hoặc cơng ty) và các nƣớc. Các thao tác giải mã cĩ thể đƣợc định nghĩa để trích xuất thơng tin để tạo thành dạng phân cấp khái niệm. Thí dụ địa chỉ email dmbook@cs. sfu. ca đƣa ra thứ tự “ login – name < department < university< country” thể hiện một dạng phân cấp khái niệm cho địa chỉ email. Tƣơng tự địa chỉ URL “ http://www. cs. sfu. ca/research/DB/DBMiner” cĩ thể đƣợc giải mã để cung cấp một phần thứ tự cĩ dạng cơ sở của phân cấp khái niệm cho URLS.
Thí dụ Các thao tác cĩ thể đƣợc định nghĩa để trích rút thơng tin từ các đối tƣợng dữ liệu phức tạp. Thí dụ xâu “ Ph. D int Computer Science, UCLA, 1995” là một đối tƣợng phức tạp thể hiện bằng cấp đại học. Xâu này bao gồm các thơng tin