Nghiên cứu ảnh hưởng của storage engine đến hiệu năng các ứng dụng kho dữ liệu Nguyễn Đức Hải Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ Thống Thông Tin; Mã số: 60 48 05 Người hướng dẫn: TS. Nguyễn Hải Châu Năm bảo vệ: 2011 Abstract: Tổng quan kiến trúc hệ quản trị cơ sở dữ liệu MySQL; Các kỹ thuật lưu trữ: trình bày một cách khái quát và chi tiết nhất về lịch sử hình thành và kiến trúc của MySQL; Các kỹ thuật lưu trữ hàng và lưu trữ theo cột; MySQL hỗ trợ rất nhiều loại kiểu lưu trữ khác nhau như InnoDB, MyISAM, còn kỹ thuật lưu trữ theo cột thì có InforBright; Trong lưu trữ theo hàng thì chúng ta sẽ đi tìm hiểu về đặc điểm, tính năng của mỗi loại kỹ thuật, từ đó rút ra các mặt hạn chế cũng như mặt tích cực của mỗi loại, đồng thời có đưa ra những kinh nghiệm cho việc sử dụng ứng dụng tương ứng với kỹ thuật lưu trữ nào; Còn về kỹ thuật lưu trữ theo cột, chúng ta sẽ tìm hiểu chi tiết về kiến trúc lưu trữ, các tính năng cũng như miền ứng dụng của kỹ thuật này. Giải pháp kho dữ liệu Pentaho; Tổng quan kiến trúc, cài đặt vận hành: trình bày về giải pháp kho dữ liệu, các ứng dụng trong bộ Pentaho; Tổng quan kiến trúc trong Pentaho và tìm hiểu cách cài đặt vận hành Pentaho BI server, đồng thời cũng chạy các ví dụ có sẵn của Pentaho. So sánh hiệu năng kho ứng dụng Pentaho với hai kỹ thuật lưu trữ hàng và cột: trình bày về hiệu năng của kho ứng dụng trên MySQL và so sánh với các hàm trong SQL mà các kho dữ liệu hay dùng như hàm MAX, MIN, AVG … Keywords: Công nghệ thông tin; Kho dữ liệu; Quản trị dữ liệu; Máy tính Content Trong quá trình phát triển của doanh nghiệp, các nhà quản lý doanh nghiệp thường có các chiến lực kinh doanh và đưa ra các sản phẩm mới. Trong bối cảnh thị trường phải cạnh tranh quyết liệt để dành thị phần thì mỗi một chiến lược kinh doanh tối ưu sẽ mang lại lợi thế rất lớn cho doanh nghiệp. Mặt khác, luôn đồng hành với sự phát triển của doanh nghiệp là các hệ thống thông tin lưu trữ của các doanh nghiệp, chẳng hạn như các hệ thống thanh toán ngân hàng, bưu chính, hay các công ty kinh doanh khác về tài chính, bảo hiểm, dịch vụ, du lịch …, một ngày có tới hàng triệu bản ghi được lưu trữ mới trong hệ thống. Câu hỏi đặt ra là làm gì với những dữ liệu ngày càng lớn kia. Kho dữ liệu khổng lồ đó có ích gì với doanh nghiệp, có ích gì với những chiến lược kinh doanh. Câu trả lời là kho dữ liệu ngày càng lớn đó là “nguồn tài nguyên vô cùng quý giá” bởi vì kho dữ liệu khổng lồ này rất hữu ích cho việc phân tích kinh doanh, giúp cho người quản lý doanh nghiệp có những định hướng kinh doanh trong tương lai. Mặt khác kho dữ liệu này cũng là tiền đề của hệ thống hỗ trợ ra quyết định. Hiện nay, khái niệm về Business Intelligence (BI, tạm dịch là Kinh doanh thông minh hay trí tuệ doanh nghiệp) ở Việt Nam còn khá mới mẻ và các doanh nghiệp lớn ở Việt Nam 2 Vẫn chưa triển khai BI vì rất nhiều lý do. BI có thể giúp gì cho việc trợ giúp ra quyết định hiệu quả trong kinh doanh của doanh nghiệp. Đặc điểm của một hệ thống kinh doanh thông minh là dữ liệu phục vụ cho các hoạt động kinh doanh rất lớn, nên yêu cầu về hiệu năng là vấn đề phải quan tâm. Mặt khác để xây dựng hệ thống đó phải cần đến những nhà thiết kế có kinh nghiệm và làm sao giảm thiểu tối đa chi phí cho doanh nghiệp nhưng vẫn đáp ứng được những yêu cầu mà người quản lý đề ra. Từ những yêu cầu thức tế trên, đề tài luận văn “Nghiên cứu ảnh hưởng của storage engine đến hiệu năng các ứng dụng kho dữ liệu” phần nào có một câu trả lời cho vấn đề đang gặp phải của các nhà thiết kế ứng dụng kho dữ liệu. Việc lưu trữ dữ liệu hiện tại trên các hệ quản trị CSDL như thế nào và kỹ thuật lưu trữ đó sẽ ảnh hưởng đến hiệu năng của các ứng dụng trên kho dữ liệu ra sao. Đây cũng là mục tiêu nghiên cứu của đề tài luận văn. Với sự kết hợp của các phần mềm mã nguồn mở là MySQL và Pentaho, các kỹ thuật lưu trữ hàng và cột trong MySQL là một giải pháp tốt nhất về mặt chi phí cũng như hiệu quả mang lại để xây dựng các ứng dụng kho dữ liệu phục vụ cho việc kinh doanh và ra quyết định trong doanh nghiệp. Mục tiêu và phạm vi của luận văn: Mục tiêu của đề tài luận văn hướng đến là - Tìm hiểu kiến trúc tổng quan của hệ quản trị cơ sở dữ liệu MySQL - Tìm hiểu các kỹ thuật lưu trữ khác nhau trong MySQL - So sánh các kỹ thuật lưu trữ trên MySQL - Tìm hiểu về kiến trúc tổng quan của hệ Pentaho BI - Cài đặt vận hành hệ Pentaho server - So sánh hiệu năng của các kỹ thuật lưu trữ trên Pentaho Đưa ra giải pháp kho dữ liệu tối ưu nhất sử dụng các ứng dụng mã nguồn mở, giúp cho doanh nghiệp có một lựa chọn tốt nhất cho việc xây dựng kho dữ liệu phục vụ cho quá trình kinh doanh và hỗ trợ ra quyết định cho người quản lý. Trong phạm vi nghiên cứu cửa mình, luận văn sẽ tìm hiểu các kỹ thuật lưu trữ và đánh giá hiệu năng của các kỹ thuật này lên kho dữ liệu. Tìm hiểu kiến trúc tổng quan của bộ mã nguồn mở Pentaho đồng thời hướng dẫn cài đặt bộ Pentaho BI server. Ngoài những kết quả đó luận văn còn đem lại một lựa chọn tốt nhất cho các doanh nghiệp muốn xây dựng kho dữ liệu với. Cấu trúc của luận văn: Luận văn được chia thành ba chương như sau. Chương 1: Tổng quan kiến trúc hệ quản trị cơ sở dữ liệu MySQL. Các kỹ thuật lưu trữ Trong chương này sẽ trình bày một cách khái quát và chi tiết nhất về lịch sử hình thành và kiến trúc của MySQL. Các kỹ thuật lưu trữ hàng và lưu trữ theo cột. MySQL hỗ trợ rất nhiều loại kiểu lưu trữ khác nhau như InnoDB, MyISAM, còn kỹ thuật lưu trữ theo cột thì có InforBright. Trong lưu trữ theo hàng thì chúng ta sẽ đi tìm hiểu về đặc điểm, tính năng của mỗi loại kỹ thuật, từ đó rút ra các mặt hạn chế cũng như mặt tích cực của mỗi loại, đồng thời có đưa ra những kinh nghiệm cho việc sử dụng ứng dụng tương ứng với kỹ thuật lưu trữ nào. Còn về kỹ thuật lưu trữ theo cột, chúng ta sẽ tìm hiểu chi tiết về kiến trúc lưu trữ, các tính năng cũng như miền ứng dụng của kỹ thuật này. Chương 2: Giải pháp kho dữ liệu Pentaho. Tổng quan kiến trúc, cài đặt vận hành Trong chương này sẽ trình bày về giải pháp kho dữ liệu, các ứng dụng trong bộ Pentaho. Tổng quan kiến trúc trong Pentaho và tìm hiểu cách cài đặt vận hành Pentaho BI server, đông thời cũng chạy các ví dụ có sẵn của Pentaho. Chương 3: So sánh hiệu năng kho ứng dụng Pentaho với hai kỹ thuật lưu trữ hàng và cột 3 Trong chương này sẽ trình bày về hiệu năng của kho ứng dụng trên MySQL và so sánh với các hàm trong SQL mà các kho dữ liệu hay dùng như hàm MAX, MIN, AVG… References TÀI LIỆU THAM KHẢO Tiếng Việt 1. http://www.ntis.vn/index.php/en/Pentaho/Pentaho.html Tiếng Anh 2. Baron Schwartz, Peter Zaitsev, Vadim Tkachenko, Jeremy D. Zawodny, Arjen Lentz, and Derek J. Balling (2008), “High Performance MySQL, Giayond Edition”, tr.1-14 3. Jeremy D. Zawodny and Derek J. Balling. O'Reilly & Associates (2004) , “High Performance MySQL: Optimization, Backups, Replication, Load-balancing, and More”,tr.22-35 4. Vikram Vaswani. McGraw-Hill, December (2003). “MySQL (TM): The Complete Reference”, tr.10-35 5. Arie Jones, Ryan K. Stephens, Ronald R. Plew,Robert F. Garrett, Alex Kriegel (2005), SQL Functions, tr 59-87 6. Roland Bouman and Jos van Dongen (10/2009), “Pentaho Solutions Business Intelligence and Data Warehousing with Pentaho and MySQL”, tr.1-90 7. María Carina Roldán(10/2010), “Pentaho 3.2 Data Integration”, tr.7-60 8. Roland Bouman and Jos van Dongen(2009). “Pentaho Solutions: Business Intelligence and Data Warehousing with Pentaho and MySQL”, tr1-55 9. Pulvirenti Adrián Sergio and Roldán María Carina (Jun 23, 2011), “Pentaho Data Integration 4 Cookbook”, tr 1-35 10. http://www.pentaho.com 11. http://www.mysql.com 12. http://www.infobright.org 13. http://en.wikipedia.org/wiki/Pentaho 14. infobright.org –A Guide To Infobright For Microsoft Windows® Developers 15. infobright.org –Data transfer MySQL to Infobright . luận văn Nghiên cứu ảnh hưởng của storage engine đến hiệu năng các ứng dụng kho dữ liệu phần nào có một câu trả lời cho vấn đề đang gặp phải của các nhà thiết kế ứng dụng kho dữ liệu. Việc. lưu trữ dữ liệu hiện tại trên các hệ quản trị CSDL như thế nào và kỹ thuật lưu trữ đó sẽ ảnh hưởng đến hiệu năng của các ứng dụng trên kho dữ liệu ra sao. Đây cũng là mục tiêu nghiên cứu của đề. Nghiên cứu ảnh hưởng của storage engine đến hiệu năng các ứng dụng kho dữ liệu Nguyễn Đức Hải Trường Đại học Công nghệ Luận văn