Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 25 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
25
Dung lượng
330,59 KB
Nội dung
Tạp chí Khoa học Cơng nghệ 50 (6) (2012) 679-703 MỘT SỐ VẤN ĐỀ TÍNH TỐN LIÊN QUAN ĐẾN CƠ SỞ DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU Vũ Đức Thi Viện Công nghệ thông tin, Viện KHCNVN, 18 Hoàng Quốc Việt, Cầu Giấy, Hà Nội Email: vdthi@ioit.ac.vn Đến Tịa soạn: 17/12/2012; Chấp nhận đăng: 23/12/2012 TĨM TẮT Cơ sở liệu khai phá liệu hướng phát triển quan trọng lĩnh vực công nghệ thơng tin (CNTT) Về thực chất liệu đóng vai trị tảng q trình xử lí thơng tin hệ thống máy tính Lí thuyết sở liệu việc ứng dụng lí thuyết vào thực tiễn phát triển đạt nhiều thành tựu từ năm 80 kỉ trước Về chất lí thuyết sở liệu cung cấp cho tri thức quan trọng liên quan đến vấn đề tổ chức, thiết kế xây dựng hệ thống quản trị sở liệu Trên tảng kết đạt lí thuyết này, hãng máy tính giới IBM, Microsoft, Oracle, Apple … xây dựng hệ thống quản trị sở liệu thương mại bán khắp nơi thị trường toàn cầu SQL, Oracle, IBM DB2 Về khía cạnh đó, nay, hoạt động nhân lọai tích lũy khối lượng khổng lồ liệu Tuy vậy, tri thức lại q nhỏ bé Chính thế, nay, hướng nghiên cứu phát tri thức từ liệu (Knowledge Discovery from Data) hướng phát triển rát mạnh mẽ Một khâu đặc biệt then chốt trình phát tri thức từ liệu khai phá liệu (Data Mining) để thu nhận tri thức Do đó, hướng nghiên cứu phương pháp khai phá liệu hướng lĩnh vực CNTT Trong báo này, chúng tơi trình bày số kết tảng vấn đề tính tốn, thực chất vấn đề thuật toán, lĩnh vực sở liệu khai phá liệu Từ khóa: sở liệu, khai phá liệu, hệ thống quản trị sở liệu, phát tri thức từ liệu, vấn đề tính tốn, thuật tốn MỞ ĐẦU Cơ sở liệu (CSDL) lĩnh vực tập trung nghiên cứu phát triển công nghệ thơng tin, nhằm giải tốn quản lí, tìm kiếm thơng tin hệ thống lớn, đa dạng, phức tạp cho nhiều người sử dụng máy tính điện tử Cùng với ứng dụng mạnh mẽ công nghệ thông tin vào đời sống xã hội, kinh tế, quốc phòng Việc nghiên cứu CSDL phát triển ngày phong phú hoàn thiện Từ năm 70, mơ hình liệu quan hệ E.F Codd đưa với cấu trúc hoàn chỉnh tạo lên sở tảng cho vấn đề nghiên cứu lí thuyết CSDL Với ưu điểm tính cấu trúc đơn giản khả hình thức hố phong phú, CSDL quan hệ dễ dàng mơ hệ thống thông tin đa dạng thưc tiễn, tạo điều kiện lưu trữ thông tin tiết kiệm, có tính độc lập liệu cao, dễ sửa đổi, bổ sung Vũ Đức Thi khai thác liệu Mặt khác, việc khai thác áp dụng kĩ thuật tổ chức sử dụng nhớ cho phép việc cài đặt CSDL quan hệ đưa lại hiệu cao làm cho CSDL quan hệ chiếm ưu hoàn toàn thị trường Nhiều hệ quản trị CSDL dựa mơ hình liệu quan hệ xây dựng đưa vào sử dụng rộng rãi như: DBASE, FOXBASE, FOXPRO, PARADOX, ORACLE, MEGA, IBM DB2, SQL Mơ hình liệu quan hệ đặt trọng điểm hàng đầu khai thác tiềm máy mà mô tả trực quan liệu theo quan điểm người dùng, cung cấp mơ hình liệu đơn giản, sáng, chặt chẽ, dễ hiểu tạo khả tự động hoá thiết kế CSDL quan hệ Có thể nói lí thuyết thiết kế cài đặt CSDL, mơ hình liệu quan hệ phát triển mức độ cao đạt kết sâu sắc Hàng loạt vấn đề nghiên cứu giải như: - Lí thuyết thiết kế CSDL, phương pháp tách tổng hợp sơ đồ quan hệ theo tiêu chuẩn khơng tổn thất thơng tin hay bảo tồn tính thể ràng buộc liệu - Các loại ràng buộc liệu, cấu trúc tính chất chúng, ngữ nghĩa khả áp dụng phụ thuộc liệu ví dụ phụ thuộc hàm, phụ thuộc đa trị, phụ thuộc kết nối, phụ thuộc lơgic - Các vấn đề tối ưu hố: mức vật lí việc tổ chức quản lí tệp; mức đường truy nhập với tệp số hay danh sách xếp; mức lôgic sở rút gọn biểu thức biểu diễn câu hỏi, vv Trong báo chúng tơi trình bày số vấn đề thuật tốn phục vụ việc thiết kế tổng thể hệ thống CSDL Sự phát triển nhanh chóng ứng dụng công nghệ thông tin Internet vào nhiều lĩnh vực đời sống xã hội, quản lí kinh tế, khoa học kĩ thuật, tạo nhiều sở liệu khổng lồ Để khai thác hiệu nguồn thông tin từ sở liệu lớn, hỗ trợ tiến trình định, bên cạnh phương pháp khai thác thông tin truyền thống, nhà nghiên cứu phát triển phương pháp tìm kiếm tri thức Theo đánh giá IBM, phương pháp khai thác thông tin truyền thống thu khoảng 80 % thơng tin từ sở liệu, phần cịn lại bao gồm thơng tin mang tính khái qt, thơng tin có tính quy luật cịn tiềm ẩn liệu Lượng thông tin nhỏ thông tin cốt lõi cần thiết cho tiến trình định Khai phá liệu (KPDL) lĩnh vực quan trọng ngành CNTT Đây lĩnh vực phát triển sôi động CNTT.Trên thực tế, có nhiều phương pháp KPDL phân cụm liệu, định, thống kê, mạng nơron, phân lớp liệu, phương pháp sinh luật kết hợp, phương pháp sử dụng lí thuyết tập thơ, Trong báo chúng tơi trình bày số vấn đề tính tóan liên quan đến hai phương pháp tảng KPDL phương pháp sinh luật kết hợp phương pháp sử dụng lí thuyết tập thơ Cho đến có nhiều tác giả nghiên cứu phát triển phương pháp sinh luật kết hợp Kể từ Agrawal [1] đề xuất lần đầu vào năm 1993 đến nay, khai phá tập mục thường xuyên có hàng trăm kết nghiên cứu cơng bố Trong q trình sinh luật kết hợp, khai phá tập mục thường xun đóng vai trị then chốt Khai phá tập mục thường xuyên có nhiều cách thức mở rộng ứng dụng, từ thay đổi phương pháp luận đến thay đổi đa dạng kiểu liệu, mở rộng nhiệm vụ khai phá đa dạng ứng dụng Năm 2003, Tao đồng đề xuất việc sinh luật kết hợp có trọng số [2] Trên sở thuật tóan Apriori họ đưa thuật tóan tìm tập mục thường xuyên có trọng số Năm 2008, Khan đồng mở rộng 680 Một số vấn đề tính tốn liên quan đến sở liệu khai phá liệu phương pháp để sinh luật kết hợp [3] Một số tác giả nghiên cứu sở liệu giao tác gia tăng [10,23], thực chất tập mục tập giao tác cho phép thay đổi Một hướng nghiên cứu khác ứng dụng lí thuyết tập mờ việc sinh luật kết kết hợp nhiều tác giả quan tâm [9,21] Mơ hình khai phá tập mục thường xuyên có nhiều ứng dụng thực tế có hạn chế, khơng đáp ứng đầy đủ yêu cầu người sử dụng Để đáp ứng yêu cầu thực tiễn, số hướng mở rộng toán quan tâm nghiên cứu Một hướng mở rộng tốn có nhiều ứng dụng quan tâm đến cấu trúc liệu mức độ quan trọng khác mục liệu, thuộc tính sở liệu Theo hướng này, từ toán khai phá tập mục thường xuyên ban đầu, nhiều nhà nghiên cứu đề xuất mơ hình mở rộng: khai phá tập mục cổ phần cao, đánh giá đóng góp tập mục liệu tổng số mục liệu sở liệu; khai phá tập mục lợi ích cao, đánh giá lợi ích mà tập mục liệu mang lại sở liệu [34, 35] Trên giới, kết nghiên cứu khai phá tập mục cổ phần cao, khai phá tập mục lợi ích cao cơng bố nhiều từ nhóm nghiên cứu số trường đại học Mỹ, Canada, Úc, Đài Loan, Singapore [19, 35] Đã có hội thảo quốc tế riêng khai phá liệu dựa lợi ích (Workshop on Utility-Based Data Mining): hội thảo lần thứ tổ chức Chicago, Illinois, Mỹ vào tháng năm 2005, lần thứ hai tổ chức với hội thảo khám phá tri thức Mỹ vào tháng năm 2006 [25, 35] Khai phá tập mục lợi ích cao khái quát khai phá cổ phần cao thực lĩnh vực thu hút nhiều nhà nghiên cứu tham gia Lí thuyết tập thơ Z Pawlak [27] đề xuất vào năm đầu thập niên tám mươi kỉ hai mươi - xem công cụ hữu hiệu để giải toán phân lớp, phát luật…chứa liệu mơ hồ không chắn Từ xuất hiện, lí thuyết tập thơ sử dụng hiệu bước trình khai phá liệu khám phá tri thức, bao gồm tiền xử lí số liệu, trích lọc tri thức tiềm ẩn liệu đánh giá kết thu Việc sử dụng lí thuyết tập thơ vào khai phá liệu thu hút nhiều nhà khoa học Một nhánh quan trọng hướng nghiên cứu nghiên cứu việc rút gọn thuộc tính bảng định Mục tiêu rút gọn thuộc tính bảng định tìm tập thuộc tính rút gọn (gọi tắt tập rút gọn) mà bảo toàn thông tin phân lớp bảng định Với bảng định cho trước, số lượng tập rút gọn hàm số mũ theo số thuộc tính điều kiện Tuy nhiên, thực hành khơng địi hỏi tìm tất tập rút gọn mà cần tìm tập rút gọn tốt theo tiêu chuẩn đánh giá đủ Vì vậy, phương pháp rút gọn thuộc tính đưa định nghĩa tập rút gọn xây dựng thuật toán heuristic tìm tập rút gọn tốt theo tiêu chuẩn đánh giá chất lượng phân lớp thuộc tính, cịn gọi độ quan trọng thuộc tính Một số phương pháp đáng ý là: phương pháp sử dụng miền dương [4, 27], phương pháp sử dụng entropy Shannon [36], phương pháp sử dụng entropy Liang [23, 26] MỘT SỐ KHÁI NIỆM CƠ BẢN 2.1 Một số khái niệm sở liệu Một sở liệu hệ thống file liệu, file có cấu trúc ghi khác nhau, mặt nội dung có quan hệ với Một hệ quản trị sở liệu hệ thống quản lí điều hành file liệu Trên thực tế có nhiều mơ hình liệu Song mơ hình liệu quan hệ E.F Codd đề xuât phát triển mạnh mẽ kể mặt lí thuyết lẫn ứng dụng thực tiễn 681 Vũ Đức Thi Mơ hình liệu quan hệ công cụ tiện lợi để mô tả cấu trúc lôgic sở liệu Như vậy, mức lơgic mơ hình bao gồm file biểu diễn dạng bảng Do đơn vị CSDL quan hệ bảng, dịng bảng ghi liệu cụ thể, tên cột thuộc tính Theo cách nhìn người sử dụng sở liệu quan hệ tập hợp bảng biến đổi theo thời gian Trong mục này, trình bày khái niệm mơ hình liệu quan hệ Những khái niệm tìm thấy [8,15,16,17,20] Định nghĩa (Quan hệ, bảng) Cho R = {a1, , an} tập hữu hạn khơng rỗng thuộc tính Mỗi thuộc tính có miền giá trị Dai Khi r tập {h1, , hm} gọi quan hệ R với hj (j = 1, m ) hàm: hj: R → ∪ Dai ∈ R cho: hj ( ai) ∈ Dai Chúng ta biểu diễn quan hệ r thành bảng sau: a1 a2 an h1 h1(a1) h1(a2) h1(an) h2 h2(a1) h2(a2) h2(an) hm hm(a1) hm(a2) hm(an) Định nghĩa ( Phụ thuộc hàm ) Cho R = {a1, ,an} tập thuộc tính, r = {h1, ,hm} quan hệ R, A, B ⊆ R Khi nói A xác định hàm cho B hay B phụ thuộc hàm vào A r (Kí pháp A f > B) r (∀ hi,hj ∈ r)(( ∀ a ∈ A)(hi(a)= hj(a)) ⇒ (∀ b ∈ B) (hi(b)=hj(b))) Đặt Fr = { (A,B): A,B ⊆ R, A f > B } Lúc Fr gọi họ đầy đủ phụ thuộc r hàm r Khái niệm phụ thuộc hàm miêu tả loại ràng buộc (phụ thuộc liệu) xảy tự nhiên tập thuộc tính Dù có nhiều loại phụ thuộc liệu nghiên cứu, song hệ quản trị sở liệu lớn sử dụng phụ thuộc hàm Định nghĩa Phụ thuộc hàm (PTH) tập thuộc tính R dãy kí tự có dạng A → B, A,B ⊆ R Chúng ta nói PTH A → B quan hệ r if A f > B r Định nghĩa (Hệ tiên đề Armstrong) Giả sử R tập thuộc tính kí pháp P(R) tập tập R Cho Y ⊆ P(R) x P(R) Chúng ta nói Y họ f R A, B, C, D ⊆ R 682 Một số vấn đề tính tốn liên quan đến sở liệu khai phá liệu (1) (A,A) ∈ Y, (2) (A,B) ∈ Y, (B,C) ∈ Y ⇒ (A,C) ∈ Y, (3) (A,B) ∈ Y, A ⊆ C, D ⊆ B → (C,D) ∈ Y, (4) (A,B) ∈ Y, (C,D) ∈ Y ⇒ (A ∪ C, B ∪ D) ∈ Y Rõ ràng, Fr họ f R Trong [7] A A Armstrong chứng minh kết quan trọng sau: Nếu Y họ f tồn quan hệ r R cho Fr = Y Kết với định nghĩa phụ thuộc hàm chứng tỏ hệ tiên đề Armstrong đắn đầy đủ Mặt khác, hệ tiên đề cho ta đặc trưng họ phụ thuộc hàm, mà đặc trưng không phụ thuộc vào quan hệ (bảng) cụ thể Nhờ có hệ tiên đề cơng cụ tốn học đựơc áp dụng để nghiên cứu làm sáng tỏ cấu trúc lơgic mơ hình liệu quan hệ Đặc biệt sử dụng cơng cụ thuật tốn để thiết kế cơng đoạn xây dựng hệ quản trị sở liệu Định nghĩa (Sơ đồ quan hệ) Chúng ta gọi sơ đồ quan hệ (SĐQH) s cặp , R tập thuộc tính F tập phụ thuộc hàm R Kí pháp F+ tập tất PTH dẫn xuất từ F việc áp dụng qui tắc Định nghĩa Đặt A+ = {a: A → {a} ∈ F+} A+ gọi bao đóng A s Có thể thấy A → B ∈ F+ B ⊆ A+ Tương tự đặt Ar+ = {a: A f > {a} } Ar+ gọi bao đóng A r r Theo [7] thấy s = sơ đồ quan hệ có quan hệ r R cho Fr = F+ Quan hệ r gọi quan hệ Armstrong s Trong trường hợp hiển nhiên PTH s r Định nghĩa (Khoá) Giả sử r quan hệ , s = sơ đồ quan hệ, A ⊆ R Khi A khố r (tương ứng khoá s, khoá Y) A f > R (A → R ∈ F+) r Chúng ta gọi A khoá tối tiểu r (tương ứng s) - A khố r (s ), - Bất kì tập thực A khơng khố r (s) Chúng ta kí pháp Kr, (Ks) tương ứng tập tất khoá tối tiểu r (s) Chúng ta gọi K ( K tập P(R) ) hệ Sperner R với A,B ∈ K kéo theo A ⊆ B) Có thể thấy Kr, Ks hệ Sperner R Định nghĩa 683 Vũ Đức Thi Giả sử K hệ Sperner R Chúng ta định nghĩa tập phản khoá K, kí pháp K-1, sau: K-1 = {A ⊂ R: (B ∈ K) ⇒ (B ⊆ A) and (A ⊂ C) ⇒ (∃B ∈ K)(B ⊆ C)} Dễ thấy K-1 hệ Sperner R Tập phản khố đóng vai trị quan trọng q trình nghiên cứu cấu trúc lơgic họ phụ thuộc hàm, khóa, dạng chuẩn, quan hệ Armstrong, đặc biệt tốn tổ hợp mơ hình liệu quan hệ Trong [14] người ta nêu s = sơ đồ quan hệ R, Ks hệ Sperner R Ngược lại, K hệ Sperner R, tồn sơ đồ quan hệ s cho Ks = K Định nghĩa Cho r quan hệ R Chúng ta đặt Er = {Eij: ≤ i ≤ j ≤ |r|}, Eij = {a ∈ R: hi(a) = hj(a)} Er gọi hệ r Đặt Mr = { A ∈ P(R): ∃ Eij = A, ∃ Epq: A ⊂ Epq} Khi gọi Mr hệ cực đại r Sau ta thấy hệ hệ cực đại dùng nhiều thuật toán thiết kế Mối quan hệ lớp quan hệ lớp phụ thuộc hàm đóng vai trị quan trọng q trình nghiên cứu cấu trúc lôgic lớp phụ thuộc hàm Định nghĩa Cho trước r quan hệ r F họ f R Chúng ta nói r thể họ F Fr = F Chúng ta nói r quan hệ Armstrong F 2.2 Một số khái niệm liên quan đến khai phá liệu 2.2.1 Một số khái niệm liên quan đến sinh luật kết hợp Khai phá tập mục thường xun tốn có vai trò quan trọng nhiều nhiệm vụ khai phá liệu Khai phá tập mục thường xuyên biết đến ban đầu tóan quan trọng khai phá luật kết hợp giới thiệu Agrawal vào năm 1993 phân tích sở liệu bán hàng siêu thị [8], phân tích sở thích mua khách hàng cách tìm mặt hàng khác khách hàng mua lần mua Những thông tin giúp người quản lí kinh doanh tiếp thị chọn lọc thu xếp khơng gian bày hàng hợp lí hơn, giúp cho kinh doanh hiệu Khai phá luật kết hợp phát mối quan hệ giá trị liệu sở liệu, mối quan hệ luật kết hợp Việc sinh luật kết hợp có hai bước: bước thứ nhất, tìm tập mục thường xuyên thỏa mãn ngưỡng độ hỗ trợ tối thiểu minsup cho trước, bước thứ hai, từ tập mục thường xuyên tìm được, sinh luật kết hợp thỏa mãn ngưỡng độ tin cậy minconf cho trước Mọi khó khăn tốn khai phá luật kết hợp tập trung bước thứ nhất, khai phá tất tập mục thường xuyên thỏa mãn ngưỡng độ hỗ trợ cho trước Sinh luật kết hợp kỹ thuật quan trọng khai phá liệu Mục tiêu phát mối quan hệ giá trị liệu sở liệu 684 Một số vấn đề tính tốn liên quan đến sở liệu khai phá liệu Sau chúng tơi trình bày số khái niệm liên quan toán khai phá tập mục thường xuyên Cơ sở liệu giao tác Định nghĩa Cho tập mục (item) I = {i1 , i2 , , in } Một giao tác (transaction) T tập I, T⊆I Cơ sở liệu giao tác tập giao tác DB = {T1 , T2 , , Tm } Mỗi giao tác gán định danh TID Một tập mục X ⊆ I , gồm k mục phân biệt gọi k-tập mục Giao tác T gọi chứa tập mục X X ⊆ T Ma trận giao tác: Cơ sở liệu giao tác DB = {T1 , T2 , , Tm } tập mục (item) I = {i1 , i2 , , in } biểu diễn ma trận nhị phân M = ( mpq ) m×n , đó: 1 iq ∈ Tp mpq = 0 iq ∉ Tp Tập mục thường xuyên luật kết hợp Định nghĩa Cho tập mục X ⊆ I Ta gọi độ hỗ trợ (Support) X sở liệu giao tác DB, kí hiệu sup(X), tỷ lệ phần trăm giao tác chứa X tổng số giao tác DB, tức là: sup( X ) = {T ∈ DB | T ⊇ X } DB Ta có: ≤ sup(X) ≤ với tập mục X ⊆ I Định nghĩa Cho tập mục X ⊆ I ngưỡng hỗ trợ tối thiểu (minimum support) minsup ∈ [ 0,1] (được xác định trước người sử dụng) X gọi tập mục thường xuyên (frequent itemset large itemset) với độ hỗ trợ tối thiểu minsup sup( X ) ≥ minsup , ngược lại X gọi tập mục không thường xuyên Định nghĩa Một luật kết hợp biểu thức dạng X → Y , X Y tập I, X ∩ Y= Ø ; X gọi tiền đề, Y gọi kết luận luật Luật kết hợp có hai thơng số quan trọng độ hỗ trợ độ tin cậy Định nghĩa Độ hỗ trợ (Support) luật kết hợp X → Y , kí hiệu sup( X → Y ) , độ hỗ trợ tập mục X ∪ Y , sup (X → Y) = sup (X ∪ Y) Như độ hỗ trợ luật kết hợp X → Y xác suất P(X∪Y) xuất đồng thời X Y giao tác Ta có: ≤ sup (X → Y) ≤ Định nghĩa Độ tin cậy (Confidence) luật X → Y , kí hiệu conf ( X → Y ) , tỷ lệ phần trăm số giao tác chứa X ∪ Y số giao tác chứa X sở liệu DB 685 Vũ Đức Thi sup(X ∪ Y ) sup(X ) Độ tin cậy luật kết hợp X → Y xác suất có điều kiện P(Y/X) : {T ∈ DB | X ⊆ T ∧ Y ⊆ T } {T ∈ DB | X ∪ Y ⊆ T } sup(X ∪ Y ) P(Y / X ) = = = {T ∈ DB | X ⊆ T } {T ∈ DB | X ⊆ T } sup(X ) ta có ≤ conf(X → Y ) ≤ conf(X → Y ) = Các luật thoả mãn hai ngưỡng độ hỗ trợ tối thiểu (minsup) độ tin cậy tối thiểu (minconf), tức thỏa mãn sup(X → Y ) ≥ minsup conf(X → Y ) ≥ minconf , gọi luật kết hợp mạnh Tính chất tập mục thường xuyên Cho sở liệu giao tác DB ngưỡng độ hỗ trợ tối thiểu minsup Các tập mục thường xun có tính chất sau : (1) Nếu X, Y tập mục X ⊆ Y sup( X ) ≥ sup(Y ) (2) Nếu tập mục không thường xuyên tập cha khơng thường xun (3) Nếu tập mục thường xuyên tập khác rỗng tập mục thường xuyên Tính chất (3) gọi tính chất Apriori, tính chất sở để rút gọn khơng gian tìm kiếm tập mục thường xun Cho sở liệu giao tác DB, ngưỡng độ hỗ trợ tối thiểu minsup ngưỡng độ tin cậy tối thiểu minconf Yêu cầu: Tìm tất luật kết hợp X → Y sở liệu DB cho sup (X → Y ) ≥ minsup conf (X → Y) ≥ minconf Bài toán khai phá luật kết hợp gọi toán hay tốn nhị phân, đây, giá trị mục liệu sở liệu (xuất hay không xuất hiện) Bài toán khai phá luật kết hợp chia thành hai toán Bài toán thứ tìm tất tập mục thỏa mãn độ hỗ trợ tối thiểu cho trước, tức tìm tất tập mục thường xuyên Bài toán thứ hai sinh luật kết hợp từ tập mục thường xuyên tìm thỏa mãn độ tin cậy tối thiểu cho trước Bài toán thứ hai giải sau : giả sử tìm X tập mục thường xuyên, ta sinh luật kết hợp cách tìm ∀Y ⊂ X , kiểm tra độ tin cậy luật X \ Y → Y có thỏa mãn độ tin cậy tối thiểu khơng Bài tốn thứ hai đơn giản, khó khăn nằm toán thứ nhất, hầu hết nghiên cứu luật kết hợp tập trung giải tốn thứ tìm tập mục thường xuyên 2.2.2 Một số khái niệm liên quan đến lí thuyết tập thô Hệ thông tin công cụ biểu diễn tri thức dạng bảng liệu gồm p cột ứng với p thuộc tính n hàng ứng với n đối tượng Một cách hình thức, hệ thông tin định nghĩa sau 686 Một số vấn đề tính tốn liên quan đến sở liệu khai phá liệu Định nghĩa Hệ thông tin tứ IS = (U , A,V , f ) U tập hữu hạn, khác rỗng đối tượng; A tập hữu hạn, khác rỗng thuộc tính; V = UV a với Va tập giá trị a∈ A thuộc tính a ∈ A ; f : U × A → Va hàm thông tin, ∀a ∈ A, u ∈ U f ( u , a ) ∈ Va Với u ∈ U , a ∈ A , ta kí hiệu giá trị thuộc tính a đối tượng u a ( u ) thay f ( u , a ) Nếu B = {b1 , b2 , , bk } ⊆ A tập thuộc tính ta kí hiệu giá trị bi ( u ) B ( u ) Như vậy, u v hai đối tượng, ta viết B ( u ) = B ( v ) bi ( u ) = bi ( v ) với i = 1, , k Cho hệ thông tin IS = (U , A,V , f ) , tồn u ∈ U a ∈ A cho a ( u ) thiếu giá trị (missing value) IS gọi hệ thông tin không đầy đủ, trái lại IS gọi hệ thông tin đầy đủ Xét hệ thông tin IS = (U , A,V , f ) Mỗi tập thuộc tính P ⊆ A xác định quan hệ hai U, kí hiệu IND ( P ) , xác định { } IND ( P ) = ( u , v ) ∈ U × U ∀a ∈ P, a ( u ) = a ( v ) IND ( P ) quan hệ P-không phân biệt Dễ thấy IND ( P ) quan hệ tương đương U Nếu ( u , v ) ∈ IND ( P ) hai đối tượng u v không phân biệt thuộc tính P Quan hệ tương đương IND ( P ) xác định phân hoạch U, kí hiệu U / IND ( P ) hay U / P Kí hiệu lớp tương đương phân hoạch U / P chứa đối tượng u [ u ]P , [u ]P = {v ∈U ( u, v ) ∈ IND ( P )} Định nghĩa [4,27] Cho hệ thông tin IS = (U , A,V , f ) P, Q ⊆ A Ta nói: 1) Phân hoạch U / P phân hoạch U / Q (viết U / P = U / Q ), ∀u ∈ U , [u ]P = [u ]Q 2) Phân hoạch U / P mịn phân hoạch U / Q (viết U / P p U / Q ) ∀u ∈ U , [u ]P ⊆ [u ]Q Cho hệ thông tin IS = (U , A,V , f ) tập đối tượng X ⊆ U Với tập thuộc tính B ⊆ A cho trước, có lớp tương đương phân hoạch U / B , tập đối tượng X biểu diễn thơng qua lớp tương đương nào? Trong lí thuyết tập thơ, để biểu diễn X thông qua lớp tương đương U / B (còn gọi biểu diễn X tri thức có sẵn B), người ta xấp xỉ X hợp số hữu hạn lớp tương đương U / B Có hai cách xấp xỉ tập đối tượng X thơng qua tập thuộc tính B , gọi B-xấp xỉ B-xấp xỉ X, kí hiệu lượt BX BX , xác định sau: 687 Vũ Đức Thi { } { } BX = u ∈ U [u ]B ⊆ X , BX = u ∈ U [u ]B ∩ X ≠ ∅ Tập BX bao gồm tất phần tử U chắn thuộc vào X, tập BX bao gồm phần tử U thuộc vào X dựa tập thuộc tính B Từ hai tập xấp xỉ nêu trên, ta định nghĩa tập BN B ( X ) = BX − BX : B-miền biên X , U − BX : B-miền X B-miền biên X tập chứa đối tượng thuộc khơng thuộc X, cịn B-miền ngồi X chứa đối tượng chắn không thuộc X Sử dụng lớp phân hoạch U/B, xấp xỉ X viết lại BX = U {Y ∈ U / B Y ⊆ X } , BX = U {Y ∈ U / B Y ∩ X ≠ ∅} Trong trường hợp BN B ( X ) = ∅ X gọi tập xác (exact set), ngược lại X gọi tập thô (rough set) Với B, D ⊆ A , ta gọi B-miền dương D tập xác định sau U ( BX ) POS B ( D ) = X ∈U / D Rõ ràng POS B ( D) tập tất đối tượng u cho với v ∈ U mà u ( B ) = v ( B ) ta { có u ( D ) = v ( D ) Nói cách khác, POS B ( D ) = u ∈ U [ u ]B ⊆ [ u ]D } Một lớp đặc biệt hệ thơng tin có vai trị quan trọng nhiều ứng dụng bảng định Bảng định hệ thông tin DS với tập thuộc tính A chia thành hai tập khác rỗng rời C D , gọi tập thuộc tính điều kiện tập thuộc tính định Tức DS = (U , C ∪ D, V , f ) với C ∩ D = ∅ Xét bảng định DS = (U , C ∪ D, V , f ) với giả thiết ∀u ∈ U , ∀d ∈ D , d ( u ) đầy đủ giá trị, tồn u ∈ U c ∈ C cho c ( u ) thiếu giá trị DS gọi bảng định không đầy đủ, trái lại DS gọi bảng định đầy đủ Trong báo này, bảng định đầy đủ gọi tắt bảng định Bảng định DS gọi quán D phụ thuộc hàm vào C, tức với u , v ∈ U , C ( u ) = C ( v ) kéo theo D ( u ) = D ( v ) Ngược lại gọi khơng qn hay mâu thuẫn Theo định nghĩa miền dương, bảng định quán POSC ( D ) = U Trong trường hợp bảng khơng qn POSC ( D ) tập cực đại U cho phụ thuộc hàm C → D KẾT QUẢ NGHIÊN CỨU 3.1 Cơ sở liệu Cho trước quan hệ r hệ Sperner K R Chúng ta nói r thể K Kr = K Những kết sau thấy [28, 14] Định lí Giả sử K hệ Sperner không rỗng, r một quan hệ R Khi r thể K K-1 = Mr, Mr hệ cực đại r 688 Một số vấn đề tính tốn liên quan đến sở liệu khai phá liệu Cho trước s = sơ đồ quan hệ R, Ks tập tất khoá tối tiểu s Kí pháp Ks-1 tập phản khố s Từ Định lí có kết sau Hệ Cho trước s = sơ đồ quan hệ r quan hệ R Khi Kr = Ks Ks-1 = Mr , Mr hệ cực đại r Định nghĩa Giả sử r quan hệ R Kr tập tất khoá tối tiểu r Chúng ta nói a thuộc tính r tồn khoá tối tiểu K (K ∈ Kr) để a phần tử K Nếu a không thoả mãn tính chất a thuộc tính thứ cấp Chúng ta thấy thuộc tính thứ cấp đóng vai trị quan trọng việc chuẩn hoá sơ đồ quan hệ quan hệ Người ta chứng minh kết sau Cho trước sơ đồ quan hệ s = thuộc tính a Bài tốn xác định a thuộc tính hay khơng tốn NP- đầy đủ Có nghĩa cho đén khơng có thuật tốn có độ phức tạp thời gian đa thức để giải toán Tuy vậy, quan hệ toán giải thuật toán thời gian đa thức Trước tiên chứng minh kết sau [1, 3] Định lí Giả sử K hệ Sperner R ∪K = R - ∩K-1 Trên sở Định lí Định lí quan hệ, vấn đề thuộc tính giải thuật tốn thời gian đa thức Đầu tiên xây dựng thuật tốn xác định tập thuộc tính quan hệ cho trước Thuật toán Vào: r = {h1, , hm }là quan hệ R Ra: V tập tất thuộc tính r Bước 1: Từ r xây dựng tập Er = {Ei j : m ≥ j > i ≥1} Ei j = { a ∈ R: hj(a) = hj(a) } Bước 2: Từ Er xây dựng tập M = {B ∈P(R): Tồn Ei j ∈Er: Ei j = B} Bước 3: Từ M xây dựng tập Mr = { B ∈ M: Với B' ∈ M: B ⊄ B'} Có thể thấy Mr tính thuật tốn thời gian đa thức Bước 4: Xây dựng tập V = R - ∩Mr Rõ ràng m.(m+1)/2 ≥ Er ≥ M ≥ Mr Bởi thời gian tính Thuật tốn đa thức theo số hàng số cột r Như tồn thuật toán quan hệ r cho trước, xác định thuộc tính hay khơng với thời gian tính đa thức theo số hàng cột r 689 Vũ Đức Thi Mối quan hệ quan hệ Armstrong sơ đồ quan hệ Việc xây dựng quan hệ Armstrong sơ đồ quan hệ cho trước ngược lại từ quan hệ cho trước ta xây dựng SĐQH cho quan hệ cho trước quan hệ Armstrong có vai trị quan trọng việc phân tích cấu trúc lơgic mơ hình liệu quan hệ thiết kế lẫn ứng dụng Đã có nhiều tác giả nghiên cứu vấn đề Trong mục chúng tơi trình bày hai thuật toán giải toán đưa việc đánh giá thuật toán đánh giá độ phức tạp toán Trong [13, 31] chúng tơi trình bày kết sau: Định lí Tồn thuật tốn để tìm SĐQH s = từ quan hệ r cho trước cho F+ = Fr Ngược lại Định lí Tồn thuật tóan để tìm quan hệ r từ SĐQH s = cho trước cho F+ = Fr Định lí Độ phức tạp thời gian cho việc tìm kiếm quan hệ Armstrong SĐQH cho trước hàm số mũ theo số lượng thuộc tính Định lí Độ phức tạp thời gian cho việc tìm kiếm SĐQH s = từ quan hệ r cho trước cho Fr = F+ hàm số mũ theo số lượng thuộc tính Về chuẩn hóa liệu Việc chuẩn hoá quan hệ sơ đồ quan hệ đóng vai trị quan trọng việc thiết kế hệ quản trị sở liệu mơ hình liệu Codd Nhờ có chuẩn hố quan hệ sơ đồ quan hệ tránh việc dư thừa liệu tăng tốc độ phép tốn xử lí quan hệ [15,17,29] Chúng ta định nghĩa dạng chuẩn sau Cho r = {h1, ,hm} quan hệ R = {a1 , an} Định nghĩa (Dạng chuẩn - 1NF): r dạng chuẩn phần tử sơ cấp Khái niệm sơ cấp hiểu giá trị hi(aj) (i=1, ,m; j=1, ,n) không phân chia Định nghĩa (Dạng chuẩn - 2NF) r dạng chuẩn nếu: - r dạng chuẩn - A → {a} ∉ Fr khoá tối thiểu K, A ⊂ K a thuộc tính thứ cấp Định nghĩa ( Dạng chuẩn - 3NF): r dạng chuẩn nếu: A → {a} ∉ Fr A mà A+ ≠ R, a ∉ A, a ∉∪ K 690 Một số vấn đề tính tốn liên quan đến sở liệu khai phá liệu Định nghĩa (Dạng chuẩn Boye-Codd - BCNF) r dạng chuẩn Boye-Codd nếu: A → {a} ∉ Fr A mà A+ ≠ R, a ∉ A Qua định nghĩa, ta thấy dạng chuẩn BCNF 3NF 3NF 2NF Tuy vậy, đưa ví dụ chứng tỏ có quan hệ 2NF khơng 3NF có quan hệ 3NF khơng BCNF Nói cách khác lớp quan hệ BCNF lớp thực lớp quan hệ 3NF lớp quan hệ 3NF lại lớp thực lớp quan hệ 2NF Đối với s = dạng chuẩn 2NF, 3NF, BCNF ta thay Fr F+ Dạng chuẩn 2NF Định lí Giả sử s = sơ đồ quan hệ Đặt Ms = {A - a; a ∈ A, A ∈ Ks}, Fn tập tất thuộc tính thứ cấp s Đặt ls = {B: B = C+ , C ∈ Ms} Khi ta có tương đương sau: (1) s 2NF (2) Với C ∈ Ms: C+ ∩ Fn = ∅; (3) Với B ∈ ls a ∈ Fn: (B - a)+ = B - a Từ định lí trực tiếp suy kết sau Hệ Giả sử s = (R, F) sơ đồ quan hệ Kí pháp Fn tập tất thuộc tính thứ cấp s, Gs = {B - Fn: B ∈ Ks-1 } Khi C ∈ Gs: C+ = C s 2NF Dạng chuẩn 3NF Định lí Cho s = sơ đồ quan hệ Đặt Fn tập tất thuộc tính thứ cấp s Khi s 3NF ∀ B ∈ Ks-1, a ∈ Fn: (B - a)+ = B - a Định lí Giả sử r quan hệ R Khi r 3NF với A ∈ Er , a ∈ A a thuộc tính thứ cấp {A- a }r+ = A- a, Er hệ r Từ Định lí ta có hệ sau Hệ Giả sử s sơ đồ quan hệ R Khi s 3NF với A: A+ = A , a ∈ A a thuộc tính thứ cấp {A - a }+ = A- a Dạng chuẩn BCNF Trong mục này, đưa số đặc trưng dạng chuẩn BCNF cho sơ đồ quan hệ quan hệ Định lí Cho s = sơ đồ quan hệ Đặt Fn tập tất thuộc tính thứ cấp s Khi s BCNF ∀ B ∈ Ks1, a ∈ B: (B - a)+ = B - a Định lí Giả sử r quan hệ R Khi r BCNF với A ∈ Mr , a ∈ A {A- a }r+ = A- a, Mr hệ cực đại r 691 Vũ Đức Thi Trên sở định lí trình bày mục trên, xây dựng thuật toán để xác định dạng chuẩn cho quan hệ sơ đồ quan hệ cho trước Đầu tiên xây dựng thuật toán xác định quan hệ cho trước có 3NF hay khơng Thuật toán Đầu vào: r = {h1, , hm }là quan hệ R Đầu ra: r 3NF ? Bước 1: Từ r xây dựng tập Er = {Ei j : m ≥ j > i ≥1}, Ei j = { a ∈ R: hj(a) = hj(a)} Bước 2: Từ Er xây dựng tập M = {B ∈P(R): Tồn Ei j ∈Er: Ei j = B} Bước 3: Từ M xây dựng tập Mr = { B ∈ M: Với B' ∈ M: B ⊄ B'} Có thể thấy Mr tính thuật tốn thời gian đa thức Bước 4: Xây dựng tập V = ∩Mr Bước 5: r 3NF với B ∈ Mr , a ∈ V: {B - a }r+ = B - a Ngược lại r không 3NF Trên sở Định lí xây dựng thuật toán Thuật toán Đầu vào: r = {h1, , hm }là quan hệ R Đầu ra: r BCNF ? Bước 1: Từ r xây dựng tập Er = {Ei j : m ≥ j > i ≥1} Ei j = {a ∈ R: hj(a) = hj(a)} Bước 2: Từ Er xây dựng tập M = {B ∈P(R): Tồn Ei j ∈Er: Ei j = B} Bước 3: Từ M xây dựng tập Mr = {B ∈ M: Với B' ∈ M: B ⊄ B'} Có thể thấy Mr tính thuật toán thời gian đa thức Bước 4: r BCNF với B ∈ Mr , a ∈ B: {B - a }r+ = B - a Ngược lại r khơng BCNF Chúng ta thấy thuật toán Thuật toán Đầu vào: s = sơ đồ quan hệ R, với F = { A1 → B1, , Am→ Bm } Đầu ra: s BCNF ? Bước 1: Nếu A1→ B1 phụ thuộc hàm không tầm thường A1+ # R dừng kết luận s khơng BCNF Ngược lại chuyển sang bước Bước m: Giống bước Am→ Bm Bước m+1: s BCNF 692 Một số vấn đề tính tốn liên quan đến sở liệu khai phá liệu Định lí Cho trước quan hệ r sơ đồ quan hệ s Khi tồn thuật tốn có độ phức tạp thời gian đa thức theo kích thước r (s) để kiểm tra r (s) có BCNF hay khơng Định lí Cho trước r quan hệ R Khi tồn thuật tốn có độ phức tạp thời gian đa thức để kiểm tra r có 3NF hay không Tuy vậy, đầu vào s lại tốn NP đầy đủ Có nghĩa nay, độ phức tạp thời gian tốn khơng đa thức Với trường hợp 2NF, câu hỏi tương tự cho r lẫn s cịn tốn mở (Chúng tơi đốn có độ phức tạp thời gian hàm mũ trở lên) 3.2 Về khai phá tập mục thường xuyên sinh luật kết hợp Bài toán khai phá luật kết hợp Agrawal đồng đề xuất Mục tiêu toán phát tập mục thường xuyên, từ tạo luật kết hợp Trong mơ hình tốn này, giá trị mục liệu giao tác 1, tức quan tâm mục liệu có xuất giao tác hay khơng Bài tốn có nhiều ứng dụng, vậy, tập mục thường xuyên mang ngữ nghĩa thống kê nên đáp ứng phần nhu cầu thực tiễn Nhằm khắc phục hạn chế toán khai phá luật kết hợp, nhiều nhà nghiên cứu mở rộng toán theo nhiều hướng khác Năm 1998, Hilderman cộng đề xuất toán khai phá tập mục cổ phần cao [19] Trong mơ hình này, giá trị mục liệu giao tác số, số số nguyên (như số lượng bán mặt hàng) Cổ phần (hay đóng góp) tập mục số đo tỷ lệ đóng góp tập mục sở liệu Khai phá tập mục cổ phần cao khám phá tất tập mục có cổ phần khơng nhỏ ngưỡng quy định người sử dụng Trong toán bản, thuật toán khám phá xây dựng theo phương pháp tìm kiếm bước Cơ sở thuật tốn tính chất Apriori tập mục thường xuyên (hay cịn gọi tính chất phản đơn điệu – Anti monotone) Trong mơ hình khai phá tập mục cổ phần cao, tính chất khơng cịn Vì việc rút gọn khơng gian tìm kiếm khơng thể thực khai phá tập mục thường xuyên Trong [22,25], tác giả đề nghị số thuật toán khai phá tập mục cổ phần cao thuật tốn ZP, ZSP, SIP, FSM, Trong đó, thuật toán FSM [22] thuật toán nhanh, cho phép khám phá tất tập mục cổ phần cao sở liệu giao tác cho trước Trong [6,32] đề xuất khái niệm “tập mục cổ phần theo giao tác cao” chứng minh có tính chất phản đơn điệu (anti monotone), ứng dụng vào nhiều thuật toán khai phá tập mục thường xun có để tìm tập mục cổ phần theo giao tác cao, từ tìm tập mục cổ phần cao Sử dụng ý tưởng này, chúng tơi đề xuất thuật tốn AFSM (Advanced FSM) dựa bước thuật toán FSM với phương pháp tỉa hiệu tập mục ứng viên Như phần trình bày, ràng buộc cổ phần khơng có tính chất phản đơn điệu tập mục thường xun, trở ngại tốn khai phá tập mục cổ phần cao Để khắc phục điều này, luận án đề xuất khái niệm “giá trị theo giao tác tập mục”, “tập mục cổ phần theo giao tác cao” chứng minh tập mục cổ phần theo giao tác cao có tính chất phản đơn điệu, sử dụng để tỉa tập mục ứng viên Định nghĩa 1: Cho tập mục X, dbX tập giao tác chứa X Giá trị theo giao tác (transaction 693 Vũ Đức Thi measure value) tập mục X, kí hiệu tmv(X), tổng giá trị tất giao tác chứa tập mục X , tức tmv ( X ) = Tmv ( dbX ) = tmv (Tq ) ∑ Tq ∈dbX Định nghĩa 2: Tập mục X gọi tập mục cổ phần theo giao tác cao tmv ( X ) ≥ _ lmv Trường hợp ngược lại, X gọi tập mục cổ phần theo giao tác thấp Mệnh đề 1: Tập mục cổ phần theo giao tác cao có tính chất phản đơn điệu (Anti Monotone) Chứng minh: Xét hai tập mục X, Y cho Y ⊂ X , ta chứng minh Y tập mục cổ phần theo giao tác thấp X tập mục cổ phần theo giao tác thấp Ta có Y ⊂ X nên dbY ⊇ dbX , tmv (Y ) = Tmv ( dbY ) ≥ Tmv ( dbX ) = tmv ( X ) Nếu Y tập mục cổ phần theo giao tác thấp, tức tmv (Y ) < _ lmv tmv ( X ) ≤ tmv (Y ) < _ lmv , X tập mục cổ phần theo giao tác thấp Mệnh đề cho biết tập mục cổ phần theo giao tác cao có tính chất phản đơn điệu tính chất tập mục thường xun, sử dụng tính chất để tỉa ứng viên khai phá Mệnh đề 2: Nếu tập mục X tập mục cổ phần cao X tập mục cổ phần theo giao tác cao Chứng minh: Kí hiệu dbX tập giao tác chứa tập mục X, ta có: lmv ( X ) = ∑ Tq∈dbX imv ( X , Tq ) = ∑ ∑ mv(i Tq ∈dbX i p ∈X p , Tq ) ≤ ∑ ∑ mv(i p , Tq ) = tmv ( X ) Tq ∈dbX i p ∈Tq Do đó, X tập mục cổ phần cao, tức lmx ( X ) ≥ _ lmv , X tập mục cổ phần theo giao tác cao tmv ( X ) ≥ lmx ( X ) ≥ _ lmv Từ Mệnh đề suy tập tập mục cổ phần cao chứa tập tập mục cổ phần theo giao tác cao Theo Mệnh đề 1, tập mục cổ phần theo giao tác cao có tính chất phản đơn điệu tập mục thường xuyên, ta áp dụng số thuật tốn khai phá tập mục thường xuyên có (như thuật tốn kiểu Apriori, thuật tốn tìm kiếm theo chiều sâu FPgrowth, ), thay số lần xuất tập mục giá trị theo giao tác tập mục nhận kết khai phá tập mục cổ phần theo giao tác cao Khi ta cần duyệt lại sở liệu để tính giá trị đóng góp thực tập mục cổ phần theo giao tác cao để nhận tập mục cổ phần cao Từ sở lí thuyết trình bày, chúng tơi đề xuất thuật tốn AFSM sau: Thuật toán AFSM( ) 694 Một số vấn đề tính tốn liên quan đến sở liệu khai phá liệu Input: Cơ sở liệu giao tác DB, ngưỡng cổ phần minShare (s%) Output: Tập HS gồm tập mục cổ phần cao Method: k:=1, HS1:=∅, C1:=I; for each T∈DB // duyệt sở liệu DB tính lmv(ip) tmv(i p ) cho ∀i p ∈ C1 ; for each ip∈C1 if tmv (i p ) < min_lmv then C1 := C1 \ {i p } else if lmv(ip) ≥min_lmv then HS1 := HS1 ∪ {i p } ; RC1 := C1 ; 10 repeat 11 k := k + 1; 12 for each Xp, Xq RCk-1 13 Ck :=Apriori-gen(Xp, Xq); 14 for each T∈DB // duyệt sở liệu DB 15 tính lmv(X) tmv( X ) cho ∀X ∈Ck ; ∈ 16 17 18 19 20 for each X∈Ck if tmv ( X ) < min_lmv then Ck := Ck \ { X } else if lmv(X)≥min_lmv then HSk := HSk ∪ { X } ; RCk := Ck ; 22 until Ck = ∅; 23 return HS = ∪ HSk ; 21 Khai phá tập mục lợi ích cao mở rộng, tổng quát hóa khai phá tập mục cổ phần cao Mơ hình khai phá tập mục lợi ích cao Yao cộng đề xuất [34, 35] Trong mơ hình khai phá tập mục lợi ích cao, giá trị mục liệu giao tác số (như số lượng bán mặt hàng, gọi giá trị khách quan), cịn có bảng lợi ích cho biết lợi ích mang lại bán đơn vị hàng (gọi giá trị chủ quan, người quản lí kinh doanh xác định) Lợi ích tập mục số đo lợi nhuận mà tập mục đóng góp sở liệu, tổng lợi nhuận, tổng chi phí tập mục Khai phá tập mục lợi ích cao khám phá tất tập mục có lợi ích khơng nhỏ ngưỡng lợi ích tối thiểu quy định người sử dụng Trong [34, 35], Hong Yao Howard Hamilton đề xuất phương pháp khai phá chiến lược tỉa dựa tính chất ràng buộc lợi ích, thể hai thuật toán Umining 695 Vũ Đức Thi Umining H Các thuật tỉa mà hai thuật toán áp dụng có khả thu gọn phần tập ứng viên, có nhược điểm nên hiệu không cao Trong [25], Liu đưa khái niệm lợi ích giao tác lợi ích tập mục tính theo lợi ích giao tác chứa gọi lợi ích TWU (Transaction-weighted Utilization) Lợi ích theo giao tác TWU có tính chất phản đơn điệu tính chất tập mục thường xuyên tập tất tập mục lợi ích cao chứa tập tất tập mục lợi ích TWU cao Y Liu đề xuất thuật toán hiệu gồm hai pha để khai phá tập mục lợi ích cao Thuật tốn rút gọn khơng gian tìm kiếm nhờ áp dụng tính chất phản đơn điệu lợi ích TWU Tuy nhiên, thuật toán thực hiệu khai phá tập liệu dày mẫu dài tốn nhiều thời gian cho việc sinh khối lượng khổng lồ tập mục ứng viên tính lợi ích TWU lần duyệt sở liệu Thuật toán phải duyệt sở liệu nhiều lần, số lần duyệt với chiều dài mẫu dài tìm được, đó, số mục liệu lớn khối lượng tính tốn vô lớn Trong [11], A Erwin đồng đề xuất thuật toán CTU-Mine CTU-PRO khai phá tập mục lợi ích cao theo cách phát triển mẫu cấu trúc Thuật toán CTU-Mine khai phá hiệu thuật toán Hai pha sở liệu dày với ngưỡng lợi ích thấp Thuật tốn CTU-PRO có cải tiến so với thuật tốn CTU-Mine nên khai phá hiệu thuật toán Hai pha thuật tốn CTU-Mine Trong [32] chúng tơi đề xuất ba thuật tốn khai phá tập mục lợi ích cao dựa cấu trúc đơn giản cách khai phá khơng đệ quy Các thuật tốn đề xuất sử dụng cấu trúc FP-tree Han, Wang Yin giới thiệu năm 2000 [18], cách khai phá FP-tree không đệ quy cấu trúc COFI-tree Mohammad El-Hajj Osmar R Zaiane đề xuất năm 2003 [12] Hai thuật toán đầu sử dụng cấu trúc FP-tree để xây dựng chứa thông tin giao tác, sau khai phá để tìm tập mục lợi ích cao Thuật tốn thứ ba chuyển đổi liệu thành dạng ma trận lưu nhớ ngoài, sau chuyển đổi sang dạng biểu diễn mới, khai phá với ngưỡng lợi ích khác Thuật tốn thứ ba khai phá tập liệu lớn tồn liệu đặt nhớ ngoài, đưa vào nhớ phần nhỏ liệu để khai phá Ba thuật toán đề xuất thực khai phá hiệu lí do: 1) Số lần duyệt sở liệu ít, 2) Khơng sinh khối lượng khổng lồ tập mục ứng viên, giảm chi phí tính tốn 3) Sử dụng tiết kiệm nhớ 3.3 Lí thuyết tập thơ Trong bảng định, nhiều phương pháp rút gọn thuộc tính cơng bố Mỗi phương pháp đưa định nghĩa tập rút gọn phương pháp dựa độ đo Ở đây, báo chúng tơi trình bày ba định nghĩa tập rút gọn Định nghĩa [27] Cho bảng định DS = (U , C ∪ D ) tập thuộc tính R ⊆ C Nếu 1) POS R ( D ) = POSC ( D) 2) ∀r ∈ R, POS R −{r} ( D) ≠ POSC ( D) R tập rút gọn C dựa miền dương, gọi tắt tập rút gọn miền dương Kí hiệu PRED ( C ) họ tất tập rút gọn miền dương Tập rút gọn dựa độ đo entropy Shannon có điều kiện G.Wang cộng [36] đề xuất Cho bảng định DS = (U , C ∪ D ) Giả sử U / C = {C1 , C2 , , Cm }, U / D = {D1 , D2 , , Dn } Entropy Shannon có điều kiện D biết C định nghĩa 696 Một số vấn đề tính tốn liên quan đến sở liệu khai phá liệu m H ( D C ) = −∑ i =1 Ci U n ∑ j =1 Ci ∩ D j Ci log Ci ∩ D j Ci X kí hiệu lực lượng tập X với quy ước log = Định nghĩa [36] Cho bảng định DS = (U , C ∪ D ) tập thuộc tính R ⊆ C Nếu ( ) ( 1) H D R = H D C ) 2) ∀r ∈ R, H ( D R − {r}) ≠ H ( D C ) R rút gọn C dựa entropy Shannon có điều kiện, gọi tắt tập rút gọn Entropy Shannon Kí hiệu HRED ( C ) họ tất tập rút gọn Entropy Shannon Trong [23], Jiye Liang cộng đưa định nghĩa entropy, gọi entropy Liang Định nghĩa [23] Cho bảng định DS = (U , C ∪ D ) Giả sử U / C = {C1 , C2 , , Cm }, U / D = {D1 , D2 , , Dn } Entropy Liang có điều kiện D biết C định nghĩa n m E ( D C ) = ∑∑ Di ∩ C j Dic − C cj i =1 j =1 với U U Dic = U − Di , Ccj = U − C j Dựa entropy Liang có điều kiện, Luo Ping cộng [26] định nghĩa tập rút gọn bảng định Định nghĩa [26] Cho bảng định DS = (U , C ∪ D ) tập thuộc tính R ⊆ C Nếu ( ) ( ) 2) ∀r ∈ R, E ( D ( R − {r} )) ≠ E ( D 1) E D R = E D C C) R rút gọn C dựa entropy Liang có điều kiện, gọi tắt tập rút gọn Entropy Liang Kí hiệu ERED ( C ) họ tất tập rút gọn Entropy Liang Ngoài ba định nghĩa tập rút gọn nêu trên, số định nghĩa khác tập rút gọn số tác giả đề xuất Thông thường, phương pháp rút gọn thuộc tính đưa định nghĩa tập rút gọn phương pháp Trong bảng định quán, tập rút gọn Trong bảng định không quán, có kết sau: Mối liên hệ ba tập rút gọn là: Nếu RE tập rút gọn Entropy Liang tồn tập rút gọn Entropy Shannon RH tập rút gọn miền dương RP cho RP ⊆ RH ⊆ RE Trong toán thực tế, bảng định thường chứa đối tượng không quán (là đối tượng tập thuộc tính điều kiện khác tập thuộc tính 697 Vũ Đức Thi định) Tuy nhiên, tùy thuộc vào lớp toán cần giải mà ta chuyển bảng định không quán bảng định quán qua bước tiền xử lí số liệu cách loại bỏ đối tượng không quán ( Như trình bày mục trên, bảng định DS = U , C ∪ {d } , V , f ) quán phụ thuộc hàm C → {d } B tập rút gọn C B tập tối thiểu thỏa mãn phụ thuộc hàm B → {d } Trong sở liệu quan hệ, với quan hệ r tập thuộc tính R B tập tối thiểu thuộc tính d ∈ R, d ∉ B B tập tối thiểu thỏa mãn phụ thuộc hàm B → {d } [17] Do đó, khái niệm tập rút gọn bảng định tương đương với khái niệm tập tối thiểu thuộc tính {d } quan hệ Với bảng định qn, chúng tơi trình bày số thuật toán liên quan đến tập rút gọn sử dụng số thuật toán số kết liên quan đến tập tối thiểu thuộc tính sở liệu quan hệ Bảng định tốn thực tế thường chứa số thuộc tính dư thừa thực sự, thuộc tính mà việc loại bỏ chúng khơng ảnh hưởng đến việc phân lớp tập đối tượng Sự có mặt thuộc tính làm cho độ phức tạp tính tốn toán khai phá liệu tăng lên lớn Việc loại bỏ thuộc tính trước thực nhiệm vụ khai phá liệu có ý nghĩa thực tiễn cao bối cảnh liệu ngày lớn, ngày đa dạng phức tạp Như trình bày, bảng định thuộc tính dư thừa thực thuộc tính khơng xuất tập rút gọn thuộc tính rút gọn thuộc tính xuất tập rút gọn Khi đó, tốn tìm tập tất thuộc tính dư thừa thực tương đương với tốn tìm tập tất thuộc tính rút gọn Để giải toán này, phương pháp tiếp cận thơng thường tìm họ tất tập rút gọn bảng định, sau tìm phép hợp tập rút gọn Tuy nhiên, cách tiếp cận không khả thi với bảng liệu kích thước lớn độ phức tạp thời gian thuật tốn tìm họ tất tập rút gọn bảng định hàm mũ số thuộc tính điều kiện Trong phần này, chúng tơi đề xuất thuật tốn tìm tập tất thuộc tính rút gọn bảng định qn có độ phức tạp thời gian đa thức Trong sở liệu quan hệ, [16] chứng minh bổ đề quan trọng sau Bổ đề [16] Giả sử K hệ Sperner R, U K = R− I K ∈K K ∈K K −1 Trên quan hệ r, K ar hệ Sperner R nên áp dụng Bổ đề ta có bổ đề sau Bổ đề Cho r quan hệ R a ∈ R , U K = R− K ∈K ar I ( ) K ∈ K ar ( K −1 Cho bảng định quán DS = U , C ∪ {d } , V , f ) với U = {u1 , u2 , , um } Xét quan hệ r = {u1 , u2 , , um } tập thuộc tính R = C ∪ {d } , từ khái niệm tập rút gọn bảng định quán tập tối thiểu thuộc tính quan hệ ta có 698 Một số vấn đề tính tốn liên quan đến sở liệu khai phá liệu PRED ( C ) = K dr − {d } , với PRED ( C ) họ tất tập rút gọn Pawlak C DS K dr họ tập tối thiểu thuộc tính d r Do đó, kí hiệu REAT ( C ) tập tất thuộc tính rút gọn C REAT ( C ) = R = R − d U RU { } R∈PRED ( C ) ∈K dr Thuật tốn Tìm tập tất thuộc tính rút gọn vào: Đầu Bảng DS = (U , C ∪ {d } , V , f ) với định POSC ({d }) = U , C = {c1 , c2 , , cn } , U = {u1 , u2 , , um } Đầu ra: REAT ( C ) tập tất thuộc tính rút gọn C Xét quan hệ r = {u1 , u2 , , um } tập thuộc tính R = C ∪ {d } Bước Từ ta r { tính hệ Er = { Eij :1 ≤ i < j ≤ m} với } Eij = a ∈ R : a ( ui ) = a ( u j ) Bước Từ Er ta xây dựng tập M Bước Xây dựng tập V = R − { I K ∈M } = A ∈ Er : d ∉ A ∃ B ∈ Er : d ∉ B , A ⊂ B d K d Bước Đặt REAT ( C ) = V − {d } Tập REAT ( C ) xây dựng tập tất thuộc tính rút gọn C Chứng minh Theo cách xây dựng M quan hệ, ∀A ∈ M d d Bước theo cơng thức tính bao đóng tập thuộc tính ta có Ar+ = A A không chứa d nên Ar+ không chứa d, suy A → {d } ∉ F + Mặt khác, tồn B cho A ⊂ B xảy hai trường hợp: (1) Nếu B khơng chứa d Br+ = R ; (2) Nếu B chứa d hiển nhiên Br+ chứa d Cả hai trường hợp ta Br+ chứa có d B → {d } ∈ F + hay Do M d ( = MAX F + , d ) với Theo [17], ( ) { } MAX ( F , d ) = ( K ) với K họ tập tối thiểu thuộc tính d quan hệ r Do M = ( K ) Tại Bước kết hợp với Bổ đề 5.2 ta có MAX F + , d = A ⊆ R : A → {d } ∉ F + , A ⊂ B ⇒ B → {d } ∈ F + r d + d r d −1 r d −1 V = R− I K ∈M K = R− d I ( ) K ∈ K dr K= −1 U K K ∈K dr K − {d } = U R U K∈K r R∈PRED ( C ) d Tại Bước ta có REAT ( C ) = V − {d } = 699 Vũ Đức Thi Do theo định nghĩa, REAT ( C ) tập tất thuộc tính rút gọn C Độ phức tạp thời gian Thuật toán Với m số đối tượng n số thuộc tính điều kiện, độ phức tạp thời gian để tính hệ ( ) Er Bước O m n Tại Bước 2, hệ Er có tối đa m phần tử Do đó, độ phức tạp thời gian để tính tập M ( d ( ) O m n Vì vậy, độ phức tạp thời gian Thuật ) toán O m n Độ phức tạp đa thức theo số hàng số cột bảng định DS Từ thuật toán ta thu hệ sau: ( Hệ Cho trước bảng định quán DS = U , C ∪ {d } , V , f ) thuộc tính a, tồn thuật tốn xác định thuộc tính a thuộc tính rút gọn hay khơng với thời gian đa thức theo số hàng số cột DS Về mặt lí thuyết, nhiều trường hợp cần tìm tất tập rút gọn bảng định quán Chúng xây dựng ba thuật tốn sau: - Thuật tốn tìm họ tất tập rút gọn bảng định quán với độ phức tạp thời gian hàm mũ - Thuật toán xây dựng phụ thuộc hàm từ bảng định quán với độ phức tạp thời gian hàm mũ Ý nghĩa thuật toán xây dựng cơng cụ hình thức để biểu diễn tất định dạng phụ thuộc hàm từ bảng định quán cho trước, không quan tâm đến liệu cụ thể - Thuật toán xây dựng bảng định thỏa mãn tập phụ thuộc hàm cho trước với độ phức tạp thời gian hàm mũ Ý nghĩa thuật toán khẳng định tính đắn việc suy diễn định phụ thuộc hàm Nghĩa thực suy diễn định tri thức biểu diễn dạng phụ thuộc hàm mà không quan tâm đến bảng liệu cụ thể Các kết công bố [5,33] Lời cám ơn Tôi xin chân thành cám ơn Ban Biên tập Tạp chí Khoa học Công nghệ mời viết báo Do khn khổ có hạn báo, tơi trình bày phần kết đạt lĩnh vực sở liệu khai phá liệu Một số kết trình bày báo kết làm việc nghiên cứu sinh tôi, TS Nguyễn Long Giang, TS Nguyễn Huy Đức, TS Nguyễn Hoàng Sơn nhóm nghiên cứu “Cơ sở liệu khai phá liệu “ Viện Công nghệ thông tin TÀI LIỆU THAM KHẢO 700 Agrawal R., Imielinski T., Swami A - Mining association rules between sets of items in large databases, Proceedings of the ACM SIGMOD conference, Washington DC, USA, 1993, pp 207-216 Tao F., Murtagh F., Farid M - Weighed Association Rule Mining Using Weighted Support and sighificance Framework, SIGKDD,2003, pp 61-666 Một số vấn đề tính toán liên quan đến sở liệu khai phá liệu 10 11 12 13 14 15 16 17 18 19 Khan M S., Muyeba M., Coenen F - A weighted utility framework for mining association rule, Proc IEEE European Modeling Symporium 2008, 2008, pp 87-92 Nguyễn Long Giang, Vũ Đức Thi - Một số phương pháp rút gọn thuộc tính bảng định dựa ENTROPY cải tiến, Tạp chí Tin học Điều khiển học 27 (2) (2011) 166-175 Nguyễn Long Giang, Vũ Đức Thi - Thuật toán tìm tất rút gọn bảng định, Tạp chí Tin học Điều khiển học 27 (3) (2011) 211-218 Vũ Đức Thi, Nguyễn Huy Đức - Một số kỹ thuật hiệu tỉa tập mục ứng viên khai phá tập mục lợi ích cao, Kỉ yếu Hội thảo quốc gia “Một số vấn đề chọn lọc Công nghệ thông tin truyền thông – Biên Hòa, 2010, tr 214-232 Armstrong W W - Dependency Structures of Database Relationships, Information Processing 74, Holland publ Co 1974, pp 580-583 Vũ Đức Thi - Cơ sở liệu - Kiến thức thực hành, Nhà xuất Thống kê, Hà Nội, 1997 Chen C H., Hong T P., Tseng V S - An improved approach to find membership funtions and multiple minimum supports in fuzzy data mining, Expert Systems with Application 36 (2009) 10016-10024 Chen H., Li T., Qiao S., Ruan D - A Rough set based dynamic maintenance approach for approximations in coarsening an refining attribue values, International Journal of intelligent systems 25 (2010) 1005-1026 Erwin A., Gopalan R P., and Achuthan N R - CTU-Mine: An Efficient High Utility Itemset Mining Algorithm Using the Pattern Growth Approach, Paper presented at the IEEE 7th International Conferences on Computer and Information Technology, Aizu Wakamatsu, Japan El-Hajj M and Zaiane Osmar R - Inverted matrix: Efficient discovery of frequent items in large datasets in the context of interactive mining, In Proc 2003 Int’l Conf on Data Mining and Knowledge Discovery (ACM SIGKDD) 2003, 2007, pp 109-118 Demetrovics J and Thi V D - Some remarks on generating Armstrong and inferring functional dependencies relation, Acta Cybernetica 12 (2003) 167-180 Demetrovics J, Thi V D - Some computational problems related to the functional dependency in the relational datamodel, Journal Acta Scien Mathematics, Hungary, 57 (1993) 627-638 Demetrovics J, Thi V D - Some results about normal forms for functional dependency in the relational datamodel, Journal of Discrete Applied Mathematics, North Holland 69 (1996) 61-74 Demetrovics J, Thi V D - Describing Candidate Keys by Hypergraphs, J Computers and Artificial Intelligence 18(2) (1999) 191-207 Demetrovics J, Thi V D - Some Computational problems related to Boyce-Codd nornal form , Ann Univ Sci Budapest Sect Comput Hungary 19 (2000) 19-130 Han J., Pei J., and Yin Y - Mining frequent patterns without candidate generation, In ACM SIGMOD Intl Conference on Management of Data, 2003, pp 1-12 Hilderman R J., Carter C L., Hamilton H J., and Cercone N - Mining association rules from market basket data using share measures and characterized itemsets, Intl Journal of Artificial Intelligence Tools (2003) 189-220 701 Vũ Đức Thi 20 Vũ Đức Thi - Giáo trình Cơ sở liệu nâng cao, Nhà xuất Đại học Thái Nguyên, 2010 21 Khan M S., M Muyeba M., Coenen F - Fuzzy Weighted Association Rule Mining with Weighted Support and Confidence Framework, Proc 1st In workshop on Algorithems for Large _ Scale Information Processing in knowledge Discovery (ALSIP 2008), Held in conjunction with PAKDD 2008 (Japan), 2008, pp 52-64 22 Li Y C., Yeh J S., Chang C C - A fast algorithm for mining share-frequent itemsets, Lecture Notes in Computer Science, Springer-Verlag, Germany 3399, 2005, pp 417-428 23 Liang J Y, Chin K S., Dang C Y., Richard C M YAM - New method for measuring uncertainty and fuzziness in rough set theory, International Journal of General Systems 31 (2002) 331-342 24 Liu D., Li T., Ruan D., Zou W - An incremental approach for inducing knowledge from dynamic information systems, Funda Inform 94 (2009) 245-260 25 Liu Y., W Liao K., and Choudhary A - A fast high utility itemsets mining algorithm”, in Proc 1st Intl Conf on Utility-Based Data Mining, Chicago Illinois, 2009, USA, pp 90-99, 26 Luo P., He Q and Shi Z Z -Theoretical study on a new information entropy and its use in attribute reduction, ICCI (2005) pp 73-79 27 Pawlak Z -Rough sets, International Journal of Computer and Information Sciences, 11 (5) (1982) 341-356 28 Vũ Đức Thi - Thuật toán tin học, Nhà xuất Khoa học kỹ thuật, Hà Nội, 1999 29 Thi V D Sơn N H - Some problems related to keys and Boyce-Codd normal form, Acta Cybernet, Hungary 16 (3) (2004) 473-483 30 Thi V.D., Son N.H - Some results related to dense families of database relations Acta Cybernet, Hungary 17 (1) (2005) 173-182 31 Thi V D., Son N H - On Armstrong relations for strong dependencies Acta Cybernet, Hungary 17 (3) (2006) 521-531 32 Thi V D., Duc N H - Mining High Utility Itemsets in Massive Transactional Database, Acta Cybernetica 20 (2011) 331-346 33 Thi V D., Giang N L - A Method to Construct a Decision Table from a relation scheme, Jounal of Cybernetics and Information Technology, Bugarian Academy of Sciences (2011) 32-41 34 Yao H., Hamilton H J - Mining Itemsets Utilities from Transaction Databases, Data and Knowledge Engeneering 59 (3) (2006) 35 Yao H., Hamilton H J., Geng L - A Unified Framework for Utility Based Measures for Mining Itemsets, UBDM’06 Philadelphia, Pennsylvania, USA, 2006 36 Wang G Y - Algebra view and information view of rough sets theory, In: Dasarathy BV,editor Data mining and knowledge discovery: Theory, tools, and technology III, Proceedings of SPIE, 2001, pp 200-207 702 Một số vấn đề tính tốn liên quan đến sở liệu khai phá liệu ABSTRACT SOME COMPUTATIONAL PROBLEMS RELATED TO DATABASE AND DATA MINING Vu Duc Thi Institute of Information Technology, VAST, 18 Hoang Quoc Viet, Cau Giay, Hanoi, Vietnam Email: vdthi@ioit.ac.vn Database and data mining are very important development in information technology (IT) In essence the data play a fundamental role in the processing of information on computer systems Database theory and the practical applications of this theory have been developed and achieved many accomplishments since the 80th of last century Essentially, database theory provides us with the most important knowledge related to organizational issues, design and construction of the database management system On the basis of the results obtained in this theory, computer companies such as IBM, Microsoft, Oracle, Apple has built the database management system trade all over the world market requirements, such as SQL, Oracle, IBM DB2 In some aspects, the present, in all activities of mankind has accumulated a huge amount of data However, knowledge is too small Therefore, the current research directions for knowledge discovery from data is a very powerful development A particularly critical stage in the process of knowledge discovery from data is data mining to acquire knowledge Hence, research on data mining methods is a very basic directions in IT In this paper, we present some main results related to the computational problems, in fact algorithmic problems, in the field of database and data mining Keywords: database, data mining, database management system, knowledge discovery from data, computational problem, algorithm 703 ... quan hệ giá trị liệu sở liệu 684 Một số vấn đề tính tốn liên quan đến sở liệu khai phá liệu Sau chúng tơi trình bày số khái niệm liên quan toán khai phá tập mục thường xuyên Cơ sở liệu giao tác... Chúng ta nói r quan hệ Armstrong F 2.2 Một số khái niệm liên quan đến khai phá liệu 2.2.1 Một số khái niệm liên quan đến sinh luật kết hợp Khai phá tập mục thường xun tốn có vai trị quan trọng nhiều... số Năm 2008, Khan đồng mở rộng 680 Một số vấn đề tính tốn liên quan đến sở liệu khai phá liệu phương pháp để sinh luật kết hợp [3] Một số tác giả nghiên cứu sở liệu giao tác gia tăng [10,23], thực