Trong chương đã trình bày các khái niệm cơ bản về các đối tượng cơ sở, phản cơ sở của hệ sinh ánh xạ đóng. Từ những khái niệm này, các định lý, bổ đề biểu diễn phản cơ sở của hệ sinh ánh xạ đóng với phép thu gọn hệ sinh cũng được trình bày một cách tóm tắt. Ngoài ra, trong chương cũng trình bày các điều kiện cần và đủ để phản cơ sở của hệ sinh ban đầu được bảo toàn thông qua phép thu gọn hệ sinh. Một minh họa ứng dụng hệ sinh ánh xạ đóng để giải các bài toán của hệ suy dẫn cũng được đề cập ở đây. Bên cạnh đó, chương này cũng trình bày khá chi tiết các dạng biểu diễn phản cơ sở của một hệ sinh AXĐ và đóng góp chính của luận án là phát biểu các bổ đề và định lý về một dạng biểu diễn phản cơ sở của hệ sinh theo vế phải tối đại của tập luật sinh. Một hệ suy dẫn đặc biệt là hệ sinh cân bằng cũng được trình bày một cách tóm tắt. Đây là cơ sở để xây dựng một thuật toán thu gọn hệ sinh bất kỳ về dạng hệ sinh cân bằng cùng với định lý chứng minh tính đúng của thuật toán. Tính ứng dụng của hệ sinh ánh xạ đóng trong cơ sở dữ liệu cũng được trình bày để kết thúc chương thứ ba này. Đây là các kết quả cơ bản nhằm mục tiêu nâng cao hiệu quả tính toán khi biểu diễn các đối tượng như cơ sở, phản cơ sở của một hệ suy dẫn theo kỹ thuật thu gọn hệ sinh.
106
PHẦN KẾT LUẬN
Luận án đã trình bày khái quát một số nội dung cơ bản về lược đồ quan hệ trong lý thuyết cơ sở dữ liệu. Từ đó, vận dụng ánh xạ đóng như một công cụ toán học trong việc biễu diễn các đối tượng của một hệ suy dẫn và ứng dụng công cụ này để biểu diễn lại các đối tượng trong cơ sở dữ liệu. Hơn thế nữa, luận án cũng chỉ ra việc áp dụng các lý thuyết về ánh xạ đóng trong lĩnh vực khai phá dữ liệu như áp dụng lý thuyết giàn giao ánh xạ đóng để ẩn các tập mục nhạy cảm và xác định các tập phổ biến tối đại đã trình bày ở chương 2.
Luận án cũng đã bàn luận về một hệ suy dẫn gọi là hệ sinh ánh xạ đóng cùng với kỹ thuật thu gọn hệ sinh cũng như trình bày các dạng biểu diễn ảnh, cơ sở, phản cơ sở và một số đóng góp trong việc biểu diễn phản cơ sở theo vế phải tối đại của tập luật sinh trong một hệ suy dẫn. Luận án cũng đã nêu được ý nghĩa của việc giản lược tập luật sinh trong một hệ suy dẫn, đồng thời đề xuất một số dạng giản lược tập luật sinh và xây dựng các thuật toán cho các dạng giản lược này. Cuối cùng trong luận án cũng đã trình bày một cách tóm tắt về một hệ suy dẫn đặc biệt gọi là hệ sinh cân bằng và đề xuất một thuật toán để thu gọn một hệ sinh bất kỳ về dạng hệ sinh cân bằng cùng với định lý chứng minh tính đúng của thuật toán.
Cụ thể, luận án đã tập trung nghiên cứu và đóng góp một số vấn đề qua các nội dung sau:
1. Ánh xạ đóng được xem là một công cụ toán học có nhiều ứng dụng khi giải quyết một số bài toán đối với các hệ suy dẫn. Luận án đã thu được một số kết quả khi nghiên cứu về phép toán hợp thành các AXĐ và lý thuyết giàn giao. Cụ thể, các kết quả đạt được là như sau:
+ Phát biểu và chứng minh một điều kiện đủ để phép hợp thành các AXĐ là một AXĐ, được trình bảy trong bổ đề 2.1, mục 2.2.2 của chương 2. + Phát biểu và chứng minh điều kiện để một họ con các AXĐ đóng với
107
+ Ứng dụng lý thuyết giàn giao để giải bài toán ẩn tập mục nhạy cảm khi khai thác luật kết hợp trong khai phá dữ liệu. Cụ thể, về bài toán này, luận án đã phát biểu và chứng minh họ các tập phổ biến tạo thành một giàn giao, đồng thời xây dựng thuật toán ItemHide để ẩn các tập mục nhạy cảm khi khai thác luật kết hợp trong một cơ sở dữ liệu giao tác. Kết quả này được trình bày trong mệnh đề 2.5, mục 2.5.3 và thuật toán
2.4 ở mục 2.5.4 trong chương 2.
+ Ứng dụng lý thuyết giàn giao để xác định tập phổ biến tối đại nhằm tiết kiệm không gian lưu trữ và thời gian trao đổi dữ liệu trong bài toán khai thác luật kết hợp. Kết quả này được trình bày qua thuật toán 2.5, mục
2.6.2 trong chương 2.
2. Mỗi ánh xạ đóng được mô tả thông qua một hệ suy dẫn gọi là hệ sinh AXĐ. Việc nghiên cứu về hệ sinh nói chung, biểu diễn các đối tượng trong hệ sinh nói riêng đòi hỏi phải có những thuật toán hiệu quả như thuật toán giản lược tập luật sinh, cùng với những kỹ thuật làm cho việc biểu diễn các đối tượng trở nên đơn giản hơn như kỹ thuật thu gọn hệ sinh, xây dựng các hệ sinh mới, đặc biệt như hệ sinh cân bằng,… Từ các nhận xét trên, luận án đã thu được một số kết quả khi nghiên cứu về các hệ sinh AXĐ như sau,
+ Xây dựng các khái niệm, thuật toán giản lược tập luật sinh của một hệ sinh AXĐ về dạng tập giản lược tự nhiên và tập giản lược không dư. Các kết quả này trong luận án được trình bày ở mục 3.2.2 và 3.2.3 trong chương 2.
+ Phát biểu các bổ đề và định lý để biểu diễn phản cơ sở hệ sinh theo vế phải tối đại của tập luật sinh. Kết quả được trình bày trong mục 3.4.3 ở chương 3.
+ Phát biểu định lý về sự tương quan giữa tập cơ sở và tập phản cơ sở của một hệ sinh AXĐ. Kết quả được trình bày trong mục 3.4.4 tại chương 3.
108
+ Xây dựng thuật toán và chứng minh tính đúng đắn của thuật toán khi thu gọn một hệ sinh bất kỳ về dạng hệ sinh cân bằng (HSCB). Kết quả được trình bày với thuật toán 3.6, định lý 3.7 ở mục 3.6.2 trong chương 3. Các kết quả trên có ý nghĩa về lý thuyết và thực tiển. Cụ thể là,
- Đóng góp cho việc phát triển các khái niệm và công cụ toán học bao gồm lý thuyết giàn giao, lý thuyết ánh xạ đóng, lý thuyết cơ sở dữ liệu quan hệ và các hệ suy dẫn.
- Cung cấp một số thuật toán tiện ích cho thiết kế cơ sở dữ liệu, các hệ sinh và các hệ suy dẫn. Cung cấp một số dạng thu gọn các hệ sinh và các dạng biểu diễn đối tượng trong hệ suy dẫn như cơ sở, phản cơ sở. Các thuật toán này cho phép thu gọn không gian lưu trữ các luật và tăng tốc độ xử lý các luật.
109
DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ
[I]
BUI DUC MINH, Closure mappings and the problem of determining maximal frequent itemsets in data mining, Journal Mathematics-Physics, VietNam National University HaNoi,Vol.29, No.2, 2013, 48-54
[II]
BÙI ĐỨC MINH, Hệ sinh ánh xạ đóng và bài toán biểu diễn phản cơ sở,
Chuyên san các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT, Tạp chí Công nghệ thông tin & Truyền thông, Tập V-1, Số 10 (30), tháng 12/2013, 34-39.
[III]
BÙI ĐỨC MINH, LƯƠNG NGUYỄN HOÀNG HOA, CAO TÙNG ANH, NGUYỄN GIA NHƯ, NGUYỄN XUÂN HUY, Biểu diễn cơ sở của hệ sinh ánh xạ đóng, Kỷ yếu Hội thảo Quốc gia "Một số vấn đề chọn lọc của Công nghệ thông tin", Hưng yên, 19-20/08/2010, NXB KHKT Hà Nội, 2011, 51- 58
[IV]
BÙI ĐỨC MINH, LƯƠNG NGUYỄN HOÀNG HOA, NGUYỄN MINH HIỆP, BÙI DUY TUẤN, NGUYỄN XUÂN HUY, Ánh xạ đóng và ứng dụng, Tạp chí Khoa học Đại học Đà Lạt, số 01, 2011, tr.65-72
[V]
BÙI ĐỨC MINH, LƯƠNG NGUYỄN HOÀNG HOA, Hệ sinh cân bằng và bài toán biểu diễn cơ sở hệ sinh ánh xạ đóng, Chuyên san các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT, Tạp chí Công nghệ thông tin & Truyền thông, Tập V-1, Số 5 (25), tháng 6/2011, 15-21.
[VI]
BÙI ĐỨC MINH, LƯƠNG NGUYỄN HOÀNG HOA, CAO TÙNG ANH,
NGUYỄN GIA NHƯ, Hệ sinh cân bằng và thuật toán cân bằng hệ sinh, Kỷ
yếu Hội thảo Khoa học Quốc gia “Một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông”, Cần Thơ, 07-08/10/2011, NXB KHKT, 2012, 575-586.
[VII]
NGUYỄN XUÂN HUY, LÊ THỊ MỸ HẠNH, LƯƠNG NGUYỄN HOÀNG HOA, BÙI ĐỨC MINH, NGUYỄN ĐỨC VŨ, Thiết kế cơ sở dữ liệu theo tiếp cận dịch chuyển lược đồ quan hệ, Kỷ yếu Hội thảo Khoa học Quốc gia “Một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông”, Đại lãi, 14-15/09/2007, NXB KHTN và CN, 2008, 499-506.
[VIII]
NGUYỄN XUÂN HUY, LÊ QUỐC HẢI, NGUYỄN GIA NHƯ, CAO TÙNG ANH, BÙI ĐỨC MINH, Lý thuyết giàn và ứng dụng trong thuật toán ẩn tập mục nhạy cảm, Kỷ yếu Hội thảo Khoa học Quốc gia “Một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông”, Biên hòa, 05- 06/08/2009, NXB KHKT, 2010, 161-170.
110
TÀI LIỆU THAM KHẢO
Tài liệu tiếng Việt
[1] DATE C. J., Nhập môn các hệ cơ sở dữ liệu, Những người dịch: Hồ Thuần,
Nguyễn Quang Vinh, Nguyễn Xuân Huy, NXB Thống Kê, Hà Nội, Tập I (1985), Tập II (1986).
[2] LƯƠNG NGUYỄN HOÀNG HOA, “Phát triển một số phụ thuộc logic
trong cơ sở dữ liệu”, Luận án Tiến sỹ Truyền dữ liệu và mạng máy tính, Học viện Công nghệ Bưu chính Viễn thông (2013).
[3] NGUYỄN XUÂN HUY, VŨ NGỌC LOÃN, “Về định lý tương đương
trong các phụ thuộc Boole dương đa trị”, Tạp chí Tin học và điều khiển học, 10(4), tr. 11-15, 1994.
[4] NGUYỄN XUÂN HUY, ĐOÀN VĂN BAN, ĐÀM GIA MẠNH,
NGUYỄN THẾ DŨNG, Về mối liên hệ giữa suy diễn phụ thuộc hàm và suy diễn logic, Tạp chí Tin học và điều khiển học, T. 17, S. 4 (2001), 11-16.
[5] NGUYỄN XUÂN HUY, LÊ THỊ MỸ HẠNH, Thu gọn hệ sinh ánh xạ đóng,
Chuyên san các công trình nghiên cứu - triển khai viễn thông và công nghệ thông tin, số 15,12-2005, 53-58.
[6] NGUYỄN XUÂN HUY, Các phụ thuộc logic trong cơ sở dữ liệu, Viện KH&CN VN, NXB Thống kê, 2006.
[7] NGUYỄN XUÂN HUY, ĐOÀN VĂN BAN, NGUYỄN HỮU TRỌNG,
Phát triển thuật toán khai thác dữ liệu dựa trên bao đóng của các thuộc tính,
Tạp chí Tin học và Điều khiển học, 23, No. 2, 2007, 132-140.
[8] NGUYỄN XUÂN HUY, CAO TÙNG ANH, TRẦN THỊ THU HÀ,
LƯƠNG NGUYỄN HOÀNG HOA, BÙI ĐỨC MINH, Các biến thể của phụ thuộc sai khác trong cơ sở dữ liệu quan hệ, Kỷ yếu Hội thảo Khoa học Quốc gia “Một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông”, Hà Nội, 03-04/12/2012, NXB KHKT, 2013, 37-41.
111
[9] VŨ ĐỨC THI, NGUYỄN HUY ĐỨC, Thuật toán hiệu quả khai phá tập
mục lợi ích cao trên cấu trúc dữ liệu cây, Tạp chí Tin học và Điều khiển học, 24, No. 3, 2008, 204-216.
Tài liệu tiếng Anh
[10] ARMSTRONG W.W., Dependency Structure of Data-base Relationship,
Information Processing 74, North Holland, Amsterdam, (1974), 580-583.
[11] ARMSTRONG W.W., DELOBEL C., Decomposition and Functional
Dependencies in Relations, ACM TODS 5, 4, Dec. 1980, 404-430.
[12] BEERI C., DOWD M., FAGIN R., and STATMAN R., On the Structure of
Armstrong Relations for Functional Dependencies, J.ACM, Vol. 31, No.1, 1984, 30-46.
[13] BERMAN J., BLOK W.J., Generalized Boolean dependencies, Abstracts of
AMS, 6(1985), 163
[14] BERMAN J., BLOK W.J., Positive Boolean dependencies, inf. Processing
Letters, 27(1988), 147-150
[15] BUROSCH G., DEMETROVICS J., and KATONA G.O.H., The Poset of
Closures as a Model of Changing Databases, Order4, 1987, 127-142. [16] CODD E. F., Further Normalization of the Database Relational Model,
Database Systems, Courant Comp. Sci., Symp. 6(1971), 65-98.
[17] CHRISTIAN BORGELT, Efficient implementations of Apriori and Eclat,
Proceedings of FIMI’03, ICDM Workshop, Florida, USA, 2003
[18] D. LIN, Z. KEDEM, Pincer-Search:A new algorithm for discovering the maximum frequent set, Technical Report TR1997-742, Dept. of Computer Science, NewYork University, 1997.
[19] DEMETROVICS J., HO THUAN, NGUYEN XUAN HUY, Balanced
Relation Schemes and Keys of Relation Schemes (in Russian). In book: Cybernetics and Computer Science, NAUKA, Moscow, 3, 1987, 296-316.
112
[20] DEMETROVICS J., HO THUAN, NGUYEN XUAN HUY, LE VAN
BAO, Translation of Relation Schemes, Balanced Relation Schemes and the Problem of Key Representation, J. Inf. Process. Cybern. EIK, 23(1987) 2/3, 81-97. MR 88e:68022 68P15.
[21] DEMETROVICS J., NGUYEN XUAN HUY, Representation of Closures
for Functional, Multivalued, and Join Dependencies, J. Computers and Artificial Intelligence, Vol. 11, 1992, No. 2, 143-154.
[22] DEMETROVICS J., THI V.D. Relations and minimal keys, Acta
Cybernetica 8, 279-285, 1988.
[23] DEMETROVICS J., THI V.D. Some Results about Normal Forms for
Functional Dependency in the Relational Datamodel, Discrete Applied Mathematics 69, 61-74, 1996.
[24]DIKRAN DIKRANJAN, ERALDO GIULI, Closure Operators, Topology
and its Applications, 27(2),129-143, 1987
[25] G. BIRKHOFF, Lattice Theory, Vol. XXV, 3rd ed., AMS, Colloquium Publications, AMS, Providence, RI, 1967
[26] GARCIA-MOLINA H., ULLMAN J., WIDOM J., Database System: The
Complete Book, Prentice Hall, 2002.
[27] GEORGE GRÄTZER, Lattice Theory: Foundation. Birkhäuser Verlag,
Basel, 2011. xxix+613 pp. ISBN: 978-3-0348-0017-4.
[28] GEORGE V. MOUSTAKIDES, VASSILIOS S. VERYKIOS, A MaxMin
Approach for Hiding Frequent Itemsets, Data & Knowledge Engineering 65, p.75-89, 2008.
[29] GINSBURG S., and HULL R., Characterizations for functional dependency
and Boyce-Codd Normal form families,Tech. Rep., Univ. of Southern California Los Angeles, Calif., Feb.1982.
[30] FAN-CHEN TSENG, An adaptive approach to mining frequent itemsets efficiently. Expert Syst. Appl. 39(18): 13166-13172, 2012
113
[31] JEFFREY D. ULLMAN, Principles of Database and Knowledge-Base
Systems, Vol.1&2, Computer Science Press, 1989-1990
[32] JIAWEI HAN, JIAN PEI, YIWEN YIN, Mining frequent patterns without
candidate generation. Proceedings of SIGMODKDD’00, Boston, MA, USA,
1-12, 2000
[33] JIE DONG, MIN HAN, BitTableFI: An efficient mining frequent itemsets algorithm, Knowledge Based Systems 20 (4), 329–335, 2007.
[34] KARAM GOUDA, MOHAMMED J.ZAKI, Genmax: An Efficient
Algorithm For Mining Maximal Frequent Itemsets, Data Mining and Knowledge Discovery, 11, 1-20, 2005 2005 Springer Science + Business Media, Inc. Manufactured in The Netherlands
[35] MAIER D., The Theory of Relational Databases,Computer Science Press, 1983.
[36] M.RAJALAKSHMI, T.PURUSOTHAMAN, R.NEDUNCHEZHIAN,
Maximal Frequent Itemset Generation Using Segmentation Approach,
International Journal of Database Management Systems (IJDMS), Vol.3, No.3, August 2011
[37] MOHAMMAD KARIM SOHRABI, AHMAD ABDOLLAHZADEH
BARFOROUSH, Parallel frequent itemset mining using systolic arrays.
Knowl.-Based Syst. 37: 462-471,2013
[38] MOHAMMED J. ZAKI, MITSUNORI OGIHARA, Theoretical
foundations of Associations Rules, Proceeding of 3rd SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery, Seattle, WA, USA 1998
[39] MOHAMMED JAVEED ZAKI, KARAM GOUDA, Fast vertical mining,
using diffsets, Proceedings of SIGKDD’03, Washington DC, USA, 326-335, 2003
114
[40] MOHAMMED J. ZAKI AND CHING-JUI HSIAO CHARM: Efficient
Algorithm for Mining Closed Itemsets and Their Lattice Structure. IEEE Transactions On Knowledge And Data Engineering Vol 17 No 4 April 2005
[41] NATHALIE CASPARD, BERNARD MONJARDET, The lattices of
closure systems, closure operators, and implicational systems on a finite set: a survey, Discrete Applied Mathematics, 127(2), 241-269, 2003
[42] NGUYEN XUAN HUY, LE THI THANH, Generalized Positive Boolean
Dependencies, J. Inf. Process. Cybern. EIK, 28 (1992), 6, 363-370
[43] NICOLAS PASQUIER, YVES BASTIDE, RAFIK TAOUIL, LOTFI
LAKHAL, Discovering frequent closed itemsets for association rules,
Proceecings of the 5th International Conference on Database Theory, LNCS, Springer-Verlag, Jerusalem, Israel, 398 – 416, 1999
[44] RAKESH AGRAWAL, TOMASZ IMIELINSKI, ARUN SWAMI,
Mining association rules between sets of items in large databases,
Proceedings of the 1993 ACM SIGMOD Conference Washington DC, USA, 207 – 216, 1993
[45] RAKESH AGRAWAL, RAMARKRISHNAN SRIKANT, Fast Algorithms
for Mining Association Rules, Proceedings of VLDB’94, Santiago, Chile, 487-499, 1994
[46] SAGIV Y., DELOBEL C., PARKER D.S., FAGIN R., An equivalence
between Relational Database Dependencies and a Fragment of Propositional Logic, J. ACM, 28 (1981), 435-453. Corrigendum J. ACM, 34 (1987), 1016-101
[47] SHAOSU AND LEI CHEN, Differential Dependencies: Reasoning and
Discovery, ACM Transactions on Database Systems, Vol. 9, No. 4, Article 39, 2011.
[48] S.S.MANTHA, MADHURI RAO, ASHWINI ANILMANE, ANIL S.
MANE, Mining Maximal Frequent Item Sets, International Journal of Computer Applications (0975-8887), Vol 10-No.3, November 2010
115
[49] THI V.D., Minimal keys and antikeys, Acta Cybernetica, 7 (4) (1986)
[50] XINGZHI SUN, PHILIP S.YU, Hiding Sensitive Frequent Itemsets by a Border-Based Approach, J. Computing and Engineering, Vol.1, No.1, p.74- 94, 2007.
[51] WEI SONG, BINGRU YANG, ZHANGYAN XU. Index-BitTableFI: An
improved algorithm for mining frequent itemsets, Knowledge Based Systems 21 (6), 507–513, 2008