5.1 Kết luận
Báo cáo đã giới thiệu một cách khái quát cơ sở dữ liệu phân tán, kiến trúc cơ sở dữ liệu phân tán đồng thời xem xét và trình bày các nguyên lý chung của tối ưu hóa câu truy vấn phân tán.
Báo cáo cũng đã trình bày một cách tổng quan nhất về xử lý truy vấn trong các hệ cơ sở dữ liệu quan hệ phân tán. Cụ thể phân tích các vấn đề liên quan trong 4 giai đoạn xử lý câu truy vấn: Phân rã câu truy vấn, định vị dữ liệu, tối ưu hóa tổng thể và tối ưu hóa tập trung.
Báo cáo tập trung trình bày về ý tưởng, các bước của một số các thuật toán trong tối ưu hóa truy vấn phân tán như thuật toán SDD-1, thuật toán INGRES phân tán, thuật toán System R* và cách thức thực hiện thuật toán.
Việc lựa chọn các giải pháp khả thi để thực hiện phân tán cơ sở dữ liệu sao cho phù hợp với yêu càu thực tế là một bước quan trọng khởi đầu khi xây dựng một hệ phân tán. Một giải pháp phân tán dữ liệu phù hợp sẽ làm tăng tốc độ xử lý dữ liệu và mang lại hiệu quả kinh tế cao.
Trên mô hình thực tế và các lý thuyết về cơ sở dữ liệu phân tán thì việc tìm hiểu các biện pháp tối ưu hóa các truy vấn là một vấn đề hết sức cần thiết. Các dự báo triển vọng về các vấn đề nghiên cứu
5.2 Hướng phát triển của đề tài
Từ những hạn chế trong nghiên cứu hiện tại, tác giả dự kiến sẽ thực hiện các hướng phát triển tiếp theo nhằm giúp cho kết quả nghiên cứu trở nên hoàn thiện hơn.
Tác giả sẽ sử dụng các cơ sở dữ liệu về mạng xã hội được phép trích xuất tự do để xây dựng môt hệ thống CSDLPT theo mô hình clients/servers. CSDLPT này sẽ được sử dụng để thực nghiệm các thuật toán tối ưu hóa truy vấn trong tương lai. Hệ thống CSDLPT này cũng sẽ được chia sẻ miễn phí cho giảng viên và sinh viên trong khoa HTTTKT&TMĐT.
Tác giả dự kiến xây dựng 3 thuật toán tối ưu hóa truy vấn với giao diện đồ họa ứng dụng trên CSDLPT ở trên. Điều này cho phép những người dùng thông thường có
55
thể sử dụng công cụ này như một trải nghiệm trong quá trình học tập và nghiên cứu về tối ưu hóa truy vấn trong CSDLPT.
Tác giả đồng thời sẽ thực hiện các phương pháp thử nghiệm khác để xây dựng một mô hình tổng hợp (hybrid model) để có kết tối ưu.
56
TÀI LIỆU THAM KHẢO
[1]. The Semi-join Query Optimization in Distributed Database System, Lin Zhou, Taoying Li, Yingying Yu, Yan Chen, National Conference on Information Technology and Computer Science (CITCS 2012).
[2]. Join Query Optimization in Distributed Databases, Pawandeep Kaur, Jaspreet Kaur Sahiwal, International Journal of Scientific and Research Publications, Volume 3, Issue 5, May 2013.
[3]. Query Optimization Strategies in Distributed Databases, Shyam Padia, Sushant Khulge, Akhilesh Gupta, Parth Khadilikar, Shyam Padia et al, International Journal of Computer Science and Information Technologies, Vol. 6 (5) , 2015. [4]. Nghiên cứu tối ưu hóa truy vấn hệ cơ sở dữ liệu phân tán, Đào Ngọc Sơn, 2012. [5]. Tối ưu hóa truy vấn trong cơ sở dữ liệu phân tán, Phạm Thị Thu Huyền, 2010 [6]. M. Tamer Özsu, Patrick Valduriez. Principles of Distributed Database Systems,
third edition, Springer, DOI 10.1007/978-1-4419-8834-8.
[7]. Saeed, K. Rahimi, S. Haug, Distributed database management system: a practical approach, A JOHN WILEY & SONS, INC., PUBLICATION.
[8]. Robert Taylor. Query Optimization for Distributed Database Systems, Hertford College, August 2010.
[9]. K. Karlapalem, S. B Navathe, M. Ammar, (1996). Optimal redesign policies to support dynamic processing of applications on a distributed relational database system.Inf. Syst., 21(4):353–367.
[10]. K. Karlapalem, S. B Navathe, M. A Morsi, (1994). Issues in distribution design
of object-oriented databases. In Ozsu et al. [1994a], pages 148–164.
[11]. L. Kazerouni, K. Karlapalem, (1997). Stepwise redesign of distributed relational
databases. Technical Report HKUST-CS97-12, Hong Kong University of Science and Technology, Department of Computer Science.
[12]. V. Martins, E. Pacitti, (2006). Dynamic and distributed reconciliation in p2p-dht
networks. Inuropean Conf. on Parallel Computing (Euro-Par), pages 337–349.
[13]. D. A Menasce, R. R Muntz, (1979). Locking and deadlock detection in
distributed databases.IEEE Trans. Softw. Eng., SE-5(3):195–202.
[14]. C. Mohan, B. Lindsay, R. Obermarck, (1986). Transaction management in the r*
distributed database management system. ACM Trans. Database Syst, 11(4):378–396.
[15]. Z.M Ozsoyoglu, N. Zhou, (1987). Distributed query processing in broadcasting
local area networks. In Proc. 20th Hawaii Int. Conf. on System Sciences, pages 419–429.
57
[16]. E. Pacitti, P. Minet, E. Simon, (1999). Fast algorithms for maintaining replica consistency in lazy master replicated databases. InProc. 25th Int. Conf. on Very Large Data Bases, pages 126–137.
[17]. T.W Page, G.J Popek, (1985). Distributed data management in local area
networks. InProc. ACM SIGACT–SIGMOD Symp. on Principles of Database Systems, pages 135–142.
[18]. W. Palma, R. Akbarinia, E. Pacitti, and P. Valduriez, (2009). Dhtjoin: processing
continuous join queries using dht networks. Distrib. Parall. Databases, 26(2– 3):291–317.
[19]. R. Ramakrishnan, J. Gehrke, (2003). Database Management Systems. McGraw-
Hill, 3 edition.
[20]. J.B Rothnie, N. Goodman, (1977). A survey of research and development in distributed database management. InProc. 3rd Int. Conf. on Very Data Bases, pages 48–62.
[21]. Ezeife, C. I. and Barker, K. (1995). A comprehensive approach to horizontal class fragmentation in a distributed object based system. Distrib. Parall. Databases, 3(3):247–272.
[22]. Elmagarmid, A. K., Soundararajan, N., and Liu, M. T. (1988). A distributed deadlock detection and resolution algorithm and its correctness proof.IEEE Trans. Softw. Eng., 14(10):1443–1452.
[23]. Carey, M. J. and Livny, M. (1988). Distributed concurrency control performance:
A study of algorithms, distribution and replication. InProc. 14th Int. Conf. on Very Large Data Bases, pages 13–25.
[24]. Giáo trình Hệ cơ sở dữ liệu phân tán và suy diễn, Nguyễn Văn Huân, Phạm Việt
Bình, Nhà xuất bản Khoa học và kỹ thuật, 2009.
[25]. Giáo trình “Hệ cơ sở dữ liệu phân tán”, Phạm Thế Quế, học viện Bưu chính viễn