Minh họa cho vớ dụ 4.6

Một phần của tài liệu (LUẬN án TIẾN sĩ) phát hiện phụ thuộc hàm và phụ thuộc hàm suy rộng trong cơ sở dữ liệu (Trang 119)

Như vậy, sau khi thực hiện phộp biến đổi tiền xử lý, ta thu được tập F' tương đương với F nhưng chứa ớt dư thừa hơn.

F' = {abce, bda, cdb}.

Vớ dụ 4.7. Áp dụng cỏc phộp thay thế đối với tập phụ thuộc hàm F = {ba, bgh, da, bih, abde, abfg, abcdj, abck}.

Quy tắc ỏp dụng F Quy tắc hợp: ba, bgh | Par Sbagh

bagh, da, bih, abde, abfg, abcdj, abck

Quy tắc hợp:

abde, abfg |

Par

S

abdefg

bagh, da, bih, abdefg, abcdj, abck Quy tắc hợp: abcdj, abck | Par Sabcdjkh

bagh, da, bih, abdefg, abcdjk Subst: bagh, bih | Par S bi

bagh, da, bi, abdefg, abcdjk

A1: |

Par

S

bi (sẽ được loại bỏ) bagh, da, abdefg, abcdjk

Subst:

bagh, abdefg |

Par

S

bdef bagh, da, bdef, abcdjk

Quy tắc hợp:

bagh, bdef |

Par

S

badefgh badefgh, da, abcdjk

Subst: badefgh, abcdjk | Par Sbcjk badefgh, da, bcjk rSubst: da, badefgh | Par S

bdefgh bdefgh, da, bcjk Bảng 4.2. Minh họa cho vớ dụ 4.7

Như vậy, cuối cựng ta thu được tập F' = {bdefgh, da, bcjk} tương đương với F nhưng chứa ớt dư thừa hơn.

4.4. Tổng kết chương 4

Sự dư thừa dữ liệu làm tăng kớch thước khụng cần thiết khi lưu trữ dữ liệu, là nguyờn nhõn dẫn đến sự khụng nhất quỏn dữ liệu và làm giảm hiệu quả trong quỏ trỡnh khai thỏc và sử dụng cỏc hệ cơ sở dữ liệu.

Phộp biến đổi tiền xử lý để loại bỏ dư thừa trong cỏc tập phụ thuộc hàm được trỡnh bày trong [24] và [55] là mới và tỏ ra rất hiệu quả. Cơ sở của phộp biến đổi tiền xử lý này là định lý 4.1.

Đỏng tiếc là chứng minh phần (b) của định lý 4.1 là sai và khụng chấp nhận được. Trong chương này, chỳng tụi đó đưa ra một chứng minh mới cho định lý 4.1, cũng như đưa ra một quy tắc thay thế đơn giản và dễ ỏp dụng trong thực hành. Điều này khiến cho định lý 4.1 đứng vững và ỏp dụng được.

Xõy dựng thờm cỏc quy tắc thay thế mới cho việc tiền xử lý cỏc tập phụ thuộc hàm cũng là một hướng nghiờn cứu đỏng quan tõm.

KẾT LUẬN

Luận ỏn đó trỡnh bày khỏi quỏt về FD và RFD trong mụ hỡnh dữ liệu quan hệ, nghiờn cứu về thuật toỏn tớnh bao đúng của một tập thuộc tớnh và vấn đề rỳt gọn cho bài toỏn xỏc định khúa của lược đồ quan hệ, nghiờn cứu về một phộp biến đổi tiền xử lý hiệu quả cỏc tập FD, nghiờn cứu về AFD và CFD. Cỏc kết quả đạt được của luận ỏn được túm tắt như sau:

- Một số kết quả liờn quan đến FD, AFD (chỉ rừ mối quan hệ giữa cỏc kết quả của hai cụng trỡnh [37] và [40], chứng minh một số bổ đề, xõy dựng thuật toỏn dựng ma trận để phỏt hiện FD, AFD; đưa ra được một số mối liờn hệ mới giữa cỏc độ đo xấp xỉ thường xuyờn được sử dụng cho AFD) và một vài kết quả bước đầu liờn quan đến một thứ tự phõn cấp giữa cỏc FD, CFD và AR như đó được trỡnh bày trong [51] (chỉnh sửa lại cho đỳng biểu thức xỏc định một quan hệ con (mảnh ngang), đề xuất cải tiến toỏn tử giao mẫu , chứng

minh được (X, r) =XF).

- Đề xuất một thuật toỏn cải tiến tớnh bao đúng của một tập thuộc tớnh đối với một tập FD. Thuật toỏn cải tiến thực sự cú hiệu quả hơn vỡ trong quỏ trỡnh tớnh bao đúng cú sự thay thế cỏc phụ thuộc hàm bởi cỏc phụ thuộc hàm đơn

giản hơn; và đặc biệt hơn là vỡ tất cả cỏc FD cú vế phải chứa trong Xnew đều bị

loại bỏ trước khi tớnh bao đúng.

- Với việc rỳt gọn bài toỏn tỡm khúa, dựa trờn ngữ nghĩa quen thuộc của FD trong mụ hỡnh dữ liệu quan hệ, chỳng tụi đó cải tiến được một điều kiện cần

và chứng minh được ba điều kiện cần (đó được cụng bố bởi cỏc nhúm tỏc giả khỏc nhau, ở những thời điểm khỏc nhau) thực chất chỉ là một. Đõy là những

điều kiện cần để một tập con của  là khúa tối tiểu của lược đồ quan hệ

S = <, F>.

- Phộp biến đổi tiền xử lý [24, 55] để loại bỏ dư thừa trong cỏc tập FD là mới và tỏ ra rất hiệu quả. Cơ sở của phộp biến đổi tiền xử lý này là định lý 4.1. Đỏng tiếc là chứng minh phần (b) của định lý 4.1 là sai và khụng chấp nhận được. Trong luận ỏn, chỳng tụi đó đưa ra một chứng minh mới, đơn giản hơn cho định lý 4.1, cũng như đưa ra một quy tắc thay thế đơn giản và dễ ỏp

dụng trong thực hành. Điều này khiến cho định lý 4.1 đứng vững và ỏp dụng được.

Chỳng tụi cho rằng cỏc kết quả nghiờn cứu đạt được trong luận ỏn là thiết thực và cú đúng gúp cụ thể, đạt được cỏc mục tiờu đề ra. Tuy nhiờn, cỏc kết quả này vẫn cũn khiờm tốn và cần được cải tiến cho sõu sắc hơn.

Cỏc hướng nghiờn cứu tiếp theo: tỡm mối liờn kết giữa eCFD với AR; mở rộng thứ tự phõn cấp đó được thiết lập trong [51] cho cỏc AFD và AR xấp

xỉ; thuật toỏn sinh tất cả cỏc bảng mẫu tương đương với bảng mẫu Tp của một

CFD cho trước; bằng thực nghiệm và cải tiến, tiến hành một nghiờn cứu so sỏnh cỏc thuật toỏn phỏt hiện CFD nổi tiếng hiện cú.

DANH MỤC CễNG TRèNH CỦA TÁC GIẢ

[CT1] Vũ Quốc Tuấn, Về một số kết quả liờn quan tới phụ thuộc hàm xấp xỉ trong cơ sở dữ liệu quan hệ, Kỷ yếu Hội thảo quốc gia lần thứ XVI:

Một số vấn đề chọn lọc của Cụng nghệ thụng tin và truyền thụng - Đà Nẵng, 11-2013, tr. 352-354.

[CT2] Vũ Quốc Tuấn, Vũ Chớnh Thỳy, Phương phỏp ma trận phỏt hiện phụ thuộc hàm trong cơ sở dữ liệu, Tạp chớ NCKH & CN Quõn sự, Số 34,

12-2014, tr. 73-80.

[CT3] Hồ Thuần, Vũ Quốc Tuấn, Một thuật toỏn mới tớnh bao đúng của tập thuộc tớnh đối với một tập phụ thuộc hàm, Tạp chớ NCKH & CN Quõn

sự, Số 45, 10-2016, tr. 109-117.

[CT4] Vũ Quốc Tuấn, Hồ Thuần, Một số kết quả về rỳt gọn bài toỏn tỡm khúa, Tạp chớ NCKH & CN Quõn sự, Số 47, 02-2017, tr. 102-107. [CT5] Vũ Quốc Tuấn, Hồ Thuần, Về một phộp biến đổi tiền xử lý hiệu quả

cỏc tập phụ thuộc hàm, Tạp chớ NCKH & CN Quõn sự, Số 50, 08-

2017, tr. 162-170.

[CT6] Vũ Quốc Tuấn, Hồ Thuần, Một số kết quả về thuật toỏn tớnh bao đúng và rỳt gọn bài toỏn tỡm khúa của lược đồ quan hệ, Journal of Research

and Development on Information and Communication Technology (Bộ Thụng tin và Truyền thụng), Tập V-2, Số 18 (38), 12-2017, tr. 12- 18.

[CT7] Vũ Quốc Tuấn, Hồ Thuần, Về một số kết quả liờn quan đến rỳt gọn bài toỏn tỡm khúa của lược đồ quan hệ, Tạp chớ NCKH & CN Quõn sự,

Số 54, 04-2018, tr. 157-162.

[CT8] Vu Quoc Tuan, Some results about relaxed functional dependencies,

Journal of Cybernetics and Information Technologies, Bulgarian (Submitted).

[CT9] Vu Quoc Tuan, Some improvements about a unified hierarchy for functional dependencies, conditional functional dependencies and association rules, Journal of Military Science and Technology,

TÀI LIỆU THAM KHẢO

[1] Abedjan. Z., Schulze. P., and Naumann. F., DFD: Efficient Functional Dependency Discovery, CIKM’14, November 3–7, pp.949-958, 2014.

[2] Abraham. J, and Priya. R., Mining Approximate Functional Dependencies from Large Databases Based on Concept Similarities to Answer Imprecise Queries, International Journal of Pure and Applied Mathematics, Volume

114 No. 7, 2017, 351-361.

[3] Al-Hamouz. S., and Biswas. R., Fuzzy Functional Dependencies in Relational Databases, International Journal of Computational Cognition,

Vol. 4, No. 1, 2006.

[4] Atzeni. P., and Antonellis. V. D., Relational Database Theory, The

Benjamin/Cummings Publishing Company Inc, 1993.

[5] Bahmani. A. H., Naghibzadeh. M., and Bahmani. B., Automatic database normalization and primary key generation, Electrical and Computer

Engineering, pages 000011-000016, 2008.

[6] Balu. V. S., and Verma. V. K., A Closure Set Based Approach for Identifying Data Dependency in Relation Database, International Journal of

Emerging Technologies in Engineering Research (IJETER) ,Volume 4, Issue 9, pp. 46-49, 2016.

[7] Balu. V. S., and Verma. V. K., Identify Data Dependency in Relational Database: A Recent Survey, International Journal for Innovative Research in

Science & Technology, Volume 3, Issue 03, pp.10-12, 2016.

[8] Beeri. C., and Bernstein. P. A., Computational Problems related to the design of normal form relational schemas. ACM Transactions on Database

Systems, 4 (1): 30-59, 1979.

[9] Beeri. C., Dowd. M., Fagin. R., and Statman. R., On the structure of Armstrong relations for functional dependencies, Journal of Association for

Computing Machinery, 31(1):30–46, 1984.

Independencies, Proc. Workshop. Knowledge Discovery in Databases

(KDD’ 95), pp. 27-32, 1995.

[11] Berti-ẫquille. L., Harmouch. H., and Naumann. F., Discovery of Genuine Functional Dependencies from Relational Data with Missing Values,

PVLDB, 11(8): 880-892, 2018.

[12] Bohannon. P., Fan. W., Geerts. F., Jia. X., and Kementsietsidis. A.,

Conditional functional dependencies for data cleaning, IEEE 23rd

International Conference on Data Engineering, pages 746–755, 2007.

[13] Bordoloi. S., and Kalita. B., A graph based approach to find candidate keys in a relational database scheme, International Journal of Computer

Engineering and Technology (IJCET), Volume 4, Issue 6, pp. 219-231, 2013.

[14] Bra. P. D., and Paredaens. J., An algorithm for horizontal decompositions,

Information Processing Letters, 17(2), pp. 91-95, 1983.

[15] Bravo. L., Fan. W., Geerts. F., and Ma. S., Increasing the Expressivity of Conditional Functional Dependencies without Extra Complexity, In ICDE,

pp. 516-525, 2008.

[16] Caruccio. L., Deufemia. V., and Polese. G., A genetic algorithm to discover relaxed functional dependencies from data, http://ceur-ws.org/Vol-

2037/paper_22.pdf, 2017.

[17] Caruccio. L., Deufemia. V., and Polese. G., On the Discovery of Relaxed Functional Dependencies, IDEAS ’16, July 11-13, 2016, Montreal, QC,

Canada.

[18] Caruccio. L., Deufemia. V., and Polese. G., Relaxed Functional Dependencies - A Survey of Approaches, IEEE Transactions on Knowledge

and Data Engineering, Vol. 28, No. 1, January 2016.

[19] Chen. W., Fan. W., and Ma. S., Analyses and Validation of Conditional Dependencies with Built-in Predicates, In Proc. 20th Int. Conf. Database

[20] Chen. W., Fan. W., and Ma. S., Incorporating cardinality constraints and synonym rules into conditional functional dependencies, nformation

Processing Letters 109 (2009) 783–789.

[21] Chiang. F., and Miller. R. J., Discovering data quality rules. VLDB

Conference, 1(1):1166–1177, 2008.

[22] Cordero. P., Enciso. M., and Mora. A., Automated Reasoning to Infer all Minimal Keys, In Proceedings of the Twenty-Third International Joint

Conference on Artificial Intelligence, (IJCAI13), F.Rossi ed.,pp.817-823, AAAI Press, 2013.

[23] Cordero. P., Enciso. M., Mora. A., and Guzmỏn. I. P., A tableaux-like method to infer all minimal keys, DOI:10.1093/jigpal/jzu025, Advance

Access published 24 September 2014.

[24] Cordero. P., Enciso. M., Mora. A., and Guzmỏn. I. P., SLFD Logic: Elimination of data redundancy in Knowledge Representation, Advances in

Artificial Intelligence, IBERAMIA 2002, LNAI 2527, pp.141-150, 2002. [25] Cordero. P., Mora. A., Guzmỏn. I. P., and Enciso. M., Non-deterministic

ideal operators: An adequate tool for formalization in Data Bases, Discrete

Applied Mathematics 156 (2008) 911-923.

[26] Cormode. G., Golab. L., Flip. K., McGregor. A., Srivastava. D., and Zhang.

X., Estimating the Confidence of Conditional Functional Dependencies,

Proc. SIGKDD Int’l Conf., pp. 469-482, 2009.

[27] Cosmadakis. S. S., Kanellakis. P. C., and Spyratos. N., Partition semantics for relations, PODS, pages 261–275, 1985.

[28] Diederich. J., and Milton. J., New methods and fast algorithms for database normalization, ACM Transactions on Database Systems, 13 (3):339-365,

1988.

[29] Eckerson. W. W., Data Quality and the Bottom Line: Achieving Business Success through a Commitment to High Quality Data. Technical report, The

http://www.tdwi.org/research/display.aspx?ID=6064.

[30] Fagin. R., Functional dependencies in a Relational Database and Propositional Logic, IBM Journal of Research and Development 21(6), pp.

534-544, 1977.

[31] Fan. W., and Geerts. F., Foundations of Data Quality Management, Morgan

& Claypool Publisher, 2012.

[32] Fan. W., Geerts. F., Li. J., and Xiong. M., Discovering conditional functional dependencies, IEEE Transactions on Knowledge and Data

Engineering, Volume 23, Issue 5, pp. 683-698, 2011.

[33] Flach. P. A., and Savnik. I., Database dependency discovery: a machine learning approach, AI Communications, 12(3):139–160, 1999.

[34] Giannella. C., and Robertson. E., On approximation measures for functional dependencies, Information Systems, 29(6):483–507, 2004.

[35] Golab. L., Karloff. H., Korn. F., Srivastava. D., and Yu. B., On generating near-optimal tableaux for conditional functional dependencies, VLDB

Conference, pages 376–390, 2008.

[36] Hồ Thuần, Hồ Cẩm Hà, Cỏc hệ cơ sở dữ liệu (lý thuyết và thực hành, T2),

Nhà xuất bản giỏo dục Việt Nam, 2004.

[37] Huhtala. Y., Karkkainen. J., Porkka. P., and Toivonen. H., TANE: An

efficient algorithm for discovering functional and approximate

dependencies, Computer Journal, 42(2):100–111, 1999.

[38] Ibaraki. T., Kogan. A., and Makino. K., Functional dependencies in Horn theories, Artificial Intelligence 108(1-2), pp. 1-30, 1999.

[39] Ilyas. I. F., Mark. V., Haas. P., Brown. P., and Aboulnaga. A., CORDS: Automatic discovery of correlations and soft functional dependencies,

SIGMOD Conference, 2004.

[40] King. R. S., and Oil. J., Discovery of functional and approximate functional dependencies in relational databases, Journal of Applied Mathematics and Decision Sciences, 7(1):49–59, 2003.

[41] Kivinen. J., and Mannila. H., Approximate dependency inference from relations, LNCS 646 - Database Theory ICDT ’92, pages 86–98, 1992.

[42] Koudas. N., Saha. A., and Srivastava. D., Metric Functional Dependencies,

ICDE '09 Proceedings of the IEEE International Conference on Data Engineering, Pages 1275-1278, 2009.

[43] Laxman. P. S., and Verma. V. K., Discovering of Data Dependencies in Relational DataBase: A Recent Overview, International Journal of

Computing and Technology, Volume 3, Issue 9, pp.440-442, 2016.

[44] Li. H., Li. J., Wong. L., Feng. M., and Tan. Y. P., Relative Risk and Odds Ratio: A Data Mining Perspective, Proc. 24th ACM SIGMOD-SIGACT-

SIGART Symp. Principles of Database Systems (PODS ’05), pp. 368-377, 2005.

[45] Liu. I., Li. J., Liu. C., and Chen. Y., Discover Dependencies from Data - A Review, IEEE Transactions on Knowledge and Data Engineering, Vol. 24,

No. 2, 2012.

[46] Lopes. S., Petit. J. M., and Lakhal. L., Effcient discovery of functional dependencies and Armstrong relations, LNCS 1777-7th International

Conference on Extending Database Technology (EDBT): Advances in Database Technology, 1777:350–364, 2000.

[47] Lopes. S., Petit. J. M., and Lakhal. L., Functional and approximate dependency mining: database and fca points of view, Journal of

Experimental and Theoretical Artificial Intelligence, 14(2):93–114, 2002. [48] Maier. D., The theory of relational database, Computer Science Press,

USA, 1983.

[49] Mannila. H., and Rih. K. J., Dependency inference, VLDB, pages 155–158,

1987.

[50] Marchi. F. D., and Petit. J. M., Semantic sampling of existing databases through informative Armstrong databases, Information Systems, 32(3):446–

[51] Medina. R., and Nourine. L., A Unified Hierarchy for Functional Dependencies, Conditional Functional Dependencies and Association Rules, ICFCA 2009, LNAI 5548, pp. 98–113, 2009.

[52] Mora. A, Guzmỏn. I. P., Enciso. M., and Cordero. P., Ideal non- deterministic operators as a formal framework to reduce the key finding problem, International Journal of Computer Mathematics, Vol. 88, No. 9,

1860–1868, June 2011.

[53] Mora. A., Aguilera. G., Enciso. M., Cordero. P., and Guzmỏn. I. P., A new closure algorithm based in logic: SLFD-Closure versus classical closures,

Inteligencia Artificial Vol. 10, No31, pp.31-40, 2006.

[54] Mora. A., Cordero. P., Enciso. M., Guzmỏn. I. P., and Aguilera. G., Closure via Functional Dependence Simplication - Special issue CMMSE 2010,

International Journal of Computer Mathematics Vol. 00, No. 00, January 2008, pp.1-13.

[55] Mora. A., Enciso. M., Cordero. P., and Guzmỏn. I. P., An Efficient

Preprocessing Transformation for Functional Dependencies Sets Based on the Substitution Paradigm, R. Conejo et al. (Eds.): CAEPIA - TTIA 2003,

LNAI 3040, pp.136-146, 2004.

[56] Nguyễn Đăng Khoa, Vũ Huy Hoàng, Một vài nhận xột về thuật toỏn QuickReduct tớnh tập rỳt gọn của một bảng quyết định, Tạp chớ Nghiờn cứu

KH & CN Quõn sự, Số 7, tr. 49 - 56, 2010.

[57] Nguyễn Đăng Khoa, Vũ Huy Hoàng, Phụ thuộc hàm suy rộng trờn cơ sở lý thuyết tập thụ, Tạp chớ Tin học và Điều khiển học, T. 20, S. 1, tr. 91 - 98,

2004.

[58] Nisha, Functional Dependency Based Data Distribution by Using Association Patterns, International Journal of Computer Science and

Information Technologies, Vol. 8 (1) , 2017, 68-72.

[59] Novelli. N., and Cicchetti. R., FUN: An effcient algorithm for mining functional and embedded dependencies, ICDT, pages 189–203, 2001.

inference: a data mining point of view, Information Systems, 26(7):477–

506, 2001.

[61] Papenbrock. T., and Naumann. F., A Hybrid Approach to Functional Dependency Discovery, SIGMOD’16, June 26-July 01, San Francisco, CA,

USA, pp.821-833, 2016.

[62] Papenbrock. T., Ehrlich. J., and Marten. J., Functional Dependency Discovery: An Experimental Evaluation of Seven Algorithms, Proceedings

of the VLDB Endowment, Vol. 8, No. 10, pp.1082-1093, 2015.

[63] Paredaens. J., Bra. P. D., Gyssens. M., and Gucht. D. V., The structure of the relational database model, EATCS Monographs on Theoretical

Computer Science. Ed. Springer-Verlag New York, Inc.,1989.

[64] Rushdi. A. M. A., and Ba-Rukab. O. M., Map Derivation of the Closures for Dependency and Attribute Sets and all Candidate Keys for a Relational Database, JKAU: Eng. Sci., Vol. 25 No.2, pp: 3- 33 (2014 A.D. / 1435

A.H.).

[65] Song. S., and Chen. L., Differential dependencies: Reasoning and

Một phần của tài liệu (LUẬN án TIẾN sĩ) phát hiện phụ thuộc hàm và phụ thuộc hàm suy rộng trong cơ sở dữ liệu (Trang 119)

Tải bản đầy đủ (PDF)

(132 trang)