Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 68 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
68
Dung lượng
345,5 KB
Nội dung
MỤC LỤC Lời cảm ơn 1 PHẦN I. KHÁI NIỆM DATA WAREHOUSE 2 Chương 1. Lịch sử phát triển của data warehouse 4 4 1.1. Thời kì tiền sử - trước năm 1980 7 1.2. Thời kì trung đại - từ giữa những năm 80 đến cuối những năm 80 8 1.3. Cuộc cách mạng dữ liệu - những năm đầu thập kỉ 90 10 1.4. Kỉ nguyên của quản lý dựa trờn thông tin - tới những năm của thế kỉ 21 11 11 1.5. Kết luận 13 Chương 2. Những khái niệm về data warehouse 15 15 2.1. Data warehouse là gì 15 2.2. Kiến trúc của data warehouse 18 2.2.1. Kiến trúc cơ bản18 18 2.2.2. Kiến trúc data warehouse cú thờm líp data mart và bước đệm xử lý20 20 Chương 3. Kiến trúc dữ liệu của data warehouse 29 29 3.1. Hệ thống thông tin và hệ thống tác nghiệp 29 3.2. Kiến trúc dữ liệu của data warehouse 32 3.2.1 Mô hình dữ liệu đa chiều (multidimensional data)32 32 3.2.2. Mô hình dữ liệu thực tế của data warehouse35 35 PHẦN II. XÂY DỰNG DATA WAREHOUSE CHO CHỦ ĐỀ "HỢP ĐỒNG KHAI THÁC" CHO CÔNG TY BẢO VIỆT NHÂN THỌ 39 Chương 4. Tìm hiểu vấn đề 41 4.1. Đặc điểm của công ty Bảo Việt Nhân Thọ 41 4.2. Hệ thống dữ liệu hiện nay 45 Chương 5. Mô hình xây dựng Data Warehouse cho chủ đề "Hợp đồng khai thác" 47 5.1. Mô hình tổng quát 47 5.2. Mô hình chi tiết 48 Chương 6. Triển khai mô hình và kết quả 56 6.1. Mô hình dữ liệu 56 6.1.1. Mô hình dữ liệu data source57 57 6.1.2. Mô hình dữ liệu data warehouse58 58 6.1.3. Mô hình dữ liệu staging area61 61 6.2. Chương trình triển khai 63 6.3. Kết quả 69 Kết luận 71 Tài liệu tham khảo 72 LỜI CẢM ƠN Xin chân thành cảm ơn PSG-TS Nguyễn Việt Hương, cụ đó hướng dẫn em hoàn thành bản đồ án tốt nghiệp này. Xin chân thành cảm ơn TS Nguyễn Thành Quang, trưởng phòng tin học Tổng công ty Bảo hiểm Việt Nam đã hết sức tạo điều kiện làm việc cho em trong quá trình thực tập tại phòng tin học Tổng công ty Bảo hiểm Việt Nam. Xin chân thành cảm ơn anh Lê Minh, người đã giúp đỡ và hướng dẫn em trong quá trình thực tập tại phòng tin học Tổng công ty Bảo hiểm Việt Nam. Xin cảm ơn các anh, chị tại phòng tin học Tổng công ty Bảo hiểm Việt Nam đã giúp đỡ em trong quá trình thực tập. Cuối cùng, xin cảm ơn tất cả bạn bè, những người đó cú những ý kiến đúng góp quý báu đối với em trong quá trình thực hiện bản đồ án tốt nghiệp này. 1 PHẦN I. KHÁI NIỆM DATA WAREHOUSE Data warehouse là một công cụ hữu hiệu giúp cho doanh nghiệp có được cái nhìn đầy đủ và tổng quát về doanh nghiệp của mình, ngoài ra người dùng còn có thể dùa và data warehouse để chạy các ứng dụng nhằm thu được những thông tin rất hữu Ých cho việc phát triển công ty trong môi trường kinh doanh đầy cạnh tranh và biến động. Tuy nhiên, việc xây dựng data warehouse cho doanh nghiệp là một công việc không hề đơn giản. Để có thể xây dựng data warehouse thì trước tiên chúng ta cần phải biết được những khái niệm căn bản nhất về vấn đề này. Ba chương đầu tiên của bản đồ án này sẽ giỳp cỏc bạn điều đó. Chương 1. Lịch sử phát triển của data warehouse : chương này mô tả những lợi Ých mà data warehouse mang lại cho người dùng cuối, nhờ vậy ta có thể hiểu được điều gì đã khiến các doanh nghiệp tìm đến với công nghệ này. Chương này cũng sẽ điểm qua toàn bộ lịch sử phát triển của ngành công nghệ thông tin theo hướng xuất hiện data warehouse. Phần này sẽ nhìn ngược trở về lịch sử phát triển, như vậy ta có thể thấy được logic phát triển của công nghệ data warehouse. Mặc dù trong chương này chúng ta không đề cập chi tiết và đưa ra những định nghĩa chặt chẽ về bất cứ một khái niệm mới nào, tuy nhiên chúng ta sẽ được làm quen với hầu hết các khái niệm mới. 2 Chương 2. Những khái niệm về data warehouse : chương này sẽ trình bày định nghĩa và kiến trúc logic của data warehouse nhằm làm cho người đọc có được một cái nhìn tổng quan về data warehouse. Trong phần đầu chương ta sẽ tìm hiểu các khái niệm về data warehouse. Chóng ta sẽ thấy được phần nào sự phức tạp của data warehouse trong định nghĩa của nó. Việc hiểu rõ định nghĩa của data warehouse sẽ giúp chúng ta một định hướng rõ ràng hơn khi tìm hiểu về kiến trúc của hệ thống sử dụng data warehouse. Phần tiếp theo sẽ là kiến trúc logic của data warehouse. Phần này mô tả cho ta thấy các thành phần trong một hệ thống sử dụng data warehouse và các tiến trình cần có để tổ hợp dữ liệu vào data warehouse. Chương 3. Kiến trúc dữ liệu của data warehouse : chương này mô tả kiến trúc cụ thể của data warehouse và cho thấy sự khác biệt của nó với kiến trúc dữ liệu thông thường (kiến trúc dữ liệu quan hệ). Ta sẽ tìm hiểu sự khác nhau giữa hệ thống thông tin và hệ thống tác nghiệp, từ đó chúng ta sẽ hiểu được data warehouse cung cấp thông tin cho người dùng cuối như thế nào. Phần tiếp theo sẽ mô tả kiến trúc dữ liệu của data warehouse, nó sẽ giúp người đọc làm quen với 2 mô hình dữ liệu phổ biến nhất là dạng sao và dạng bông tuyết. 3 CHƯƠNG 1 LỊCH SỬ PHÁT TRIỂN CỦA DATA WAREHOUSE Trên thế giới có rất nhiều tổ chức hay công ty có những kho dữ liệu khổng lồ. Trong quá trình hoạt động, do yêu cầu của công việc nên những tổ chức hay công ty này phải lưu lại dữ liệu của khách hàng, sản phẩm, hóa đơn, Theo nghiên cứu thì cứ khoảng sau 5 năm khối lượng dữ liệu của doanh nghiệp lại tăng lên gấp đôi. Tuy nhiên việc làm thế nào để có thể khai thác được những kho dữ liệu khổng lồ này lại là một vấn đề nan giải bởi dữ liệu thường không nhất quán và không được thiết kế với mục đích hỗ trợ quyết định. Vì vậy cái mà các tổ chức và công ty này cần là một công cụ cho phép họ tổng hợp dữ liệu một cách hiệu quả. Sù ra đời của data warehouse bắt nguồn từ sự kết hợp của hai nhân tố kinh tế và kĩ thuật. Các công ty, đặc biệt là các công ty lớn có nhiều chi nhánh khác nhau, rất muốn có được những thông tin tổng quan trên phạm vi toàn công ty, từ đó có thể giúp cho lãnh đạo của công ty ra quyết định. Tuy nhiên, các hệ thống dữ liệu tác nghiệp trước đây không thể hoàn thành được công việc này vỡ chỳng được thiết kế với mục đích là phục vụ công việc nghiệp vụ hàng ngày, vì vậy cần phải có một công nghệ dữ liệu khác. Chính sự phát triển của công nghệ được sự thúc đẩy mạnh mẽ của nhu cầu của các doanh nghiệp trong môi trường kinh doanh đầy cạnh tranh đã tạo nên data warehouse. Data warehouse ra đời đã mang lại một số lợi Ých nhất định cho các nhà kinh doanh : • Cho phép các nhà kinh doanh theo dõi được sự biến động của môi trường kinh doanh : ở một khía cạnh nào đó, data warehouse có thể 4 xem như là những "ảnh chụp" liên tiếp tình trạng kinh doanh của công ty, vì vậy nó cho phép người dùng cuối thấy được môi trường kinh doanh của công ty qua các thời kì. • Câu trả lời cho các câu hỏi truy vấn dữ liệu có tính thương mại. Các nhà kinh doanh muốn rằng những câu hỏi họ đặt ra trong lĩnh vực kinh doanh sẽ được trả lời theo dạng mà họ có thể hiểu được. • Cung cấp công cụ truy xuất dữ liệu nhằm mục đích phân tích và hỗ trợ quyết định. Trong những hệ thống cơ sở dữ liệu tác nghiệp trước đây thì điều này rất khó thực hiện ngay cả khi dữ liệu là đầy đủ và sẵn sàng, lÝ do đơn giản là vì hệ thống cơ sở dữ liệu tác nghiệp được thiết kế ra với mục đích phục vụ công việc tác nghiệp thường ngày chứ không phải được thiết kế ra với mục đích hỗ trợ quyết định. • Thống nhất được dạng và cấu trúc dữ liệu phù hợp với yêu cầu của người dùng cuối. Đối với các công ty có nhiều chi nhánh khác nhau thì có thể dữ liệu được lưu trữ dưới các dạng khác nhau, ví dụ như cùng là đơn vị đo chiều dài nhưng có nơi dùng đơn vị là cm, có nơi dùng đơn vị là inch, do vậy gây khó khăn cho việc phân tích dữ liệu để hỗ trợ quyết định. • Quản trị dễ dàng. Sau khi được xây dựng, người quản trị có thể lên kế hoạch để hệ thống vận hành tự động. Người quản trị chỉ có nhiệm vụ theo dõi, chỉnh sửa và nâng cấp khi có yêu cầu hoặc sự cố. Lợi Ých của data warehouse đối với người dùng cuối và doanh nghiệp là khá rõ ràng. Data warehouse đã được chứng minh là công nghệ mang lại hiệu quả đầu tư cao. Một nghiên cứu của công ty Dữ liệu Quốc tế (IDC : International Data Corporation) trên 62 data warehouse cho biết tỉ lệ hiệu quả đầu tư trung bình cho data warehouse là 321% và kết quả thu được có thể thấy sau một vài năm. 5 Lý thuyết hoàn chỉnh về data warehouse được ra đời vào năm 1992 với sự xuất bản cuốn sách "Building the data warehouse" của W. H. Inmon và Inmon được coi là cha đẻ của data warehouse. Tuy nhiên trước đó data warehouse hay một phần của nó đã xuất hiện dưới dạng này hay dạng khác. Giữa thập kỉ 90 của thế kỉ 20, data warehouse đã trở thành một trong những từ thông dụng nhất được sử dụng trong công nghiệp máy tính. Tuy nhiên cần phải nhấn mạnh rằng data warehouse không thể phát triển theo hướng của các nhà sản xuất, trái lại nó phải được phát triển bởi các công ty nhằm thỏa mãn nhu cầu kinh doanh của các công ty đó. Vì vậy, data warehouse không phải là một sản phẩm hàng loạt, nó không phải được sản xuất ra một lần rồi đem bán hay áp dụng cho nhiều đơn vị khác nhau. Data warehouse là một sản phẩm đơn chiếc, nó được sáng tạo một lần và được phát triển liên tục theo thời gian nhằm đáp ứng đầy đủ những nhu cầu của người sử dụng. Nó chỉ thích hợp cho một đơn vị và phải bám sát đặc điểm kinh doanh hay sản xuất của đơn vị đó. Phần tiếp theo sẽ mô tả từng bước phát triển của ngành công nghệ thông tin theo chiều hướng tiến đến sự ra đời của data warehouse. 1.1. THỜI Kè TIỀN SỬ - TRƯỚC NĂM 1980 : Thời kì trước những năm giữa thập kỉ 70 được coi là thời kì của các máy tính. Sự phát triển của các máy vi tính (sau này được gọi là PC) và của các phần mềm đó giỳp cho người dùng cuối có thể thao tác, điều khiển trực tiếp với dữ liệu của họ. Mét trong những cột mốc quan trọng của giai đoạn này là sự ra đời của công nghệ dữ liệu quan hệ vào đầu thập kỉ 70 của Boyce/Codd. Theo sau nó là sự ra đời của hàng loạt các sản phẩm, công cụ quản lí và giao tiếp với cơ sở dữ liệu quan hệ. Đặc biệt sự ra đời của ngôn ngữ truy vấn dữ liệu có cấu trúc (SQL : Structured Query Language) rất gần gũi với con người đã cho phép người dùng cuối có thể thao tác với dữ liệu quan hệ một cách dễ dàng, vì vậy nó được chuẩn 6 hóa và sử dụng rất rộng rãi. Hiện nay tất cả cỏc hóng sản xuất phần mềm quản trị dữ liệu đều hỗ trợ ngôn ngữ này. Cho tới giữa những năm 70, do sự phức tạp của phần cứng và phần mềm máy tính ngày càng tăng, vì vậy số người dùng cuối có khả năng thao tác, điều khiển trực tiếp dữ liệu ngày càng giảm. Lúc này, họ cần phải tìm kiếm một chuyên gia xử lý dữ liệu (data processing expert) có thể thao tác với dữ liệu để cung cấp cho họ những thông tin cần thiết giúp họ ra quyết định. Những chuyên gia xử lý dữ liệu này, vì đòi hỏi của công việc, phải tập trung toàn bộ tâm trí và sức lực vào việc nắm bắt kĩ thuật thao tác với máy tính và dữ liệu. Điều này có nghĩa là đó cú một khoảng cách khá lớn giữa người dùng cuối và kĩ thuật lấy thông tin mà họ cần. Khoảng giữa thập kỉ 80, khoảng cách này đã giảm đi một cách đáng kể. Người dùng cuối vừa có khả năng kinh doanh vừa có thể tự mình khai thác dữ liệu. Điều này được thực hiện bởi sự đơn giản hóa các kĩ thuật xử lý dữ liệu. Thời kì này máy tính cá nhân (PC : Personal Computer) cũng phát triển mạnh mẽ và được sử dụng rộng rãi, nhờ nó mà công nghệ thông tin đã đạt được một bước tiến dài. 1.2. THỜI Kè TRUNG ĐẠI - TỪ GIỮA NHỮNG NĂM 80 ĐẾN CUỐI NHỮNG NĂM 80 : Nếu thời kì trước đặc trưng bởi những sự đổi mới về công nghệ dẫn tới sự ra đời của người dùng cuối thì tới thời kì này được coi là thời kì của những người dùng cuối. Người dùng cuối càng phát triển thì nhu cầu của người dùng cuối lại càng cao và càng phong phú. Những kiến trúc dữ liệu trước đây trở nên không thể đáp ứng nổi với nhu cầu của người dùng cuối trong việc hỗ trợ ra quyết định, vì vậy đã dẫn tới sự tiến triển lên một giai đoạn tiếp theo của công nghệ dữ liệu, đó là sự ra đời của data warehouse ứng dụng cho từng công ty riêng rẽ. 7 Khi người dùng cuối cần có những thông tin toàn cảnh về công ty thì một trong những vấn đề khó khăn nhất là tích hợp các phần dữ liệu lại với nhau. Do các phần dữ liệu này mang tính độc lập với nhau khá cao nên không thể tích hợp chúng một cách dễ dàng. Vì vậy các dữ liệu cần phải được tiền xử lý trước khi tích hợp lại. Data warehouse lần đầu tiên được nhắc tới trong giai đoạn những năm 1984 tới 1988. Nú cú sự tiến triển khác nhau trong các công ty. Các bước tiến quan trọng của data warehouse diễn ra khi người ta hiểu được tầm quan trọng của kiến trúc dữ liệu khi phải cung cấp dữ liệu tới người dùng cuối. Các công ty nhận ra sù quan trọng của việc mô hình hóa dữ liệu và xây dựng giao diện với người dùng cuối.Tuy nhiên trong thời kì này vẫn tồn tại nhiều sự hiểu sai về khái niệm data warehouse và những những lợi Ých mà data warehouse đem lại cũng như quy mô của các công ty nên triển khai data warehouse. Cùng với thời gian, những sự nhầm lẫn này cũng dần dần được xóa bỏ. Cho tới cuối thời kì này, những công ty đã thử nghiệm data warehouse nhận ra rằng data warehouse chính là chìa khóa phát triển và mở rộng ứng dụng cho người dùng cuối, vì vậy họ tiếp tục tìm kiếm những cách thức để triển khai data warehouse dựa trờn nền tảng lý thuyết đó cú. Cuối thời kì này cũng đánh dấu sự định nghĩa về kiến trúc data warehouse lần đầu tiên xuất hiện rộng rãi. Một trong những bài báo đầu tiên đã mô tả về kiến trúc của data warehouse là bài báo của Devlin và Murphy vào năm 1988. Bài báo này trình bày các công việc được thực hiện để thiết kế data warehouse cho công ty IBM châu Âu. Sau này IBM vẫn được coi là công ty đầu tiên đưa ra khái niệm data warehouse. Đặc biệt thời kì này người ta cũng đã phân biệt được rõ ràng hệ thống tác nghiệp và hệ thống thông tin. Hệ thống tác nghiệp là hệ thống phục vụ cho công việc kinh doanh hàng ngày, vì vậy nó cần có phản ứng gần như tức thì đối với các yêu cầu kinh doanh, các sự kiện trong hệ thống thường có phạm vi ảnh hưởng nhỏ. Hệ thống tác nghiệp được cấu trúc tối ưu sao cho nó có thể đạt được 8 [...]... data warehouse 13 CHƯƠNG 2 NHỮNG KHÁI NIỆM VỀ DATA WAREHOUSE Ở chương trước, chúng ta đã biết được rằng những nhu cầu của người dùng cuối kết hợp với sự phát triển của công nghệ dẫn tới sự ra đời của data warehouse và ta cũng đã định nghĩa thế nào là data warehouse Chương này ta sẽ đi sâu và giới thiệu kĩ hơn về data warehouse, đồng thời chương này cũng sẽ nêu lên kiến trúc tổng quát của một data warehouse. .. nhiều định nghĩa khác nhau về data warehouse Tuy nhiên những định nghĩa này cũng có một số điểm chung về những nhu cầu trong kinh doanh cũng như những hướng mà kĩ thuật cần phải hỗ trợ trong việc triển khai data warehouse, và mặc dù xuất hiện vào đầu những năm 80 nhưng cho tới giờ thỡ chỳng vẫn được nhìn nhận là những yếu tố cơ bản trong lý thuyết xây dựng data warehouse Mét trong những chiều hướng kinh... là một data warehouse Về mặt logic, dữ liệu trong líp data warehouse có cấu trúc và được tổ chức theo từng chủ đề Về nguyên tắc thì việc thiết kế một cơ sở dữ liệu quan hệ sao cho nó có tính hướng chủ đề là điều hoàn toàn có thể làm được Với data warehouse đó là điều sống còn Tính hướng chủ đề là đặc điểm nổi bật của dữ liệu trong data warehouse Chớnh vỡ thế khi được thiết kế dữ liệu cho data warehouse. .. kiến trúc của data warehouse thỡ lớp data mart nằm giữa líp người dùng và líp data warehouse thực chất là data mart phụ thuộc Data mart này đã được chuẩn bị sẵn để phục vụ một số nhu cầu đã được tính trước ở mức phòng ban Người sử dụng data mart này cũng là những người dùng có nhu cầu cụ thể trong một vài lĩnh vực nào đó Do vậy, data mart được xem là có cấu trúc ở mức phòng ban còn data warehouse có... dàng lấy được các thông tin trong data warehouse Kiến trúc của data warehouse được đề cập ở phần trên chỉ là một mô hình có cấu trúc tổng quát Về cơ bản nó có thể được áp dụng cho mọi mô hình data warehouse Tuy nhiên, mỗi một hãng làm data warehouse lại có những ý tưởng riêng và thường xây dựng mô hình riêng cho hãng của mình 25 CHƯƠNG 3 KIẾN TRÚC DỮ LIỆU CỦA DATA WAREHOUSE Trong chương này chúng ta... tiêu chí khác hẳn Có thể hình dung dữ liệu trong data warehouse là những bức ảnh chụp trạng thái của tổ chức tại một thời điểm Những bức ảnh này được lưu trữ liờn tục tạo ra hình ảnh về phát triển của cả tổ chức Mỗi một lần làm động tác "chụp ảnh" là một lần dữ liệu được cập nhật vào data warehouse Có nhiều cách để ghi lại sự thay đổi về dữ liệu trong data warehouse Dữ liệu có thể được : • Sao lưu toàn... vào các kĩ sư xây dựng data warehouse cũng như các phần mềm chuyên dụng để thực hiện các công việc này Lưu ý rằng chỉ có tiến trình tải dữ liệu vào data warehouse là cần phải lên kế hoạch trước để không ảnh hưởng tới sự phục vụ cho người dùng cuối, cũn cỏc tiến trình khác có thể thực hiện độc lập với sự vận hành của data warehouse c) Líp data warehouse : Về mặt vật lớ thỡ lớp Warehouse là nơi lưu trữ... được Nhờ những thành công bước đầu trong quá trình triển khai data warehouse ở giai đoạn trước, những người quản lý hệ thống thông tin đã cố gắng thuyết phục người dùng tin tưởng vào những lợi nhuận và cơ hội mà data warehouse sẽ mang lại cho họ trong tương lai Sự chấp nhận data warehouse chỉ lan rộng trong cộng đồng doanh nghiệp khi mà họ nhận ra rằng họ cần phải có một cái nhìn tổng quan hơn về doanh... Data mart được chia làm hai loại là data mart phục thuộc (dependent) và data mart độc lập (independent) Tính độc lập hay phụ thuộc ở đây ngụ ý rằng nó được xây dựng một cách độc lập hay được xây dựng từ data warehouse Nhiều doanh nghiệp chọn giải pháp xây dựng data mart độc lập rồi mới xây dựng data warehouse Điều này làm giảm đáng kể chi phí ban đầu cũng như độ phức tạp của dự án vì thông thường data. .. việc xây dựng nó cũng đó khỏ khó khăn Sau đây ta sẽ xem xét thêm kiến trúc của data warehouse khi cú thờm lớp Data mart và bước đệm xử lý 2.2.2 KIẾN TRÚC DATA WAREHOUSE Cể THấM LÍP DATA MART VÀ BƯỚC ĐỆM XỬ LÝ : Nhìn tổng thể kiến trúc mới của data warehouse cũng gồm 3 lớp chớnh như kiến trúc cơ bản 18 Việc thêm vào líp Data mart và bước đệm xử lý cũng không làm mất đi cấu trúc 3 líp ban đầu Mô hình . tiết và đưa ra những định nghĩa chặt chẽ về bất cứ một khái niệm mới nào, tuy nhiên chúng ta sẽ được làm quen với hầu hết các khái niệm mới. 2 Chương 2. Những khái niệm về data warehouse : chương. nhiều sự hiểu sai về khái niệm data warehouse và những những lợi Ých mà data warehouse đem lại cũng như quy mô của các công ty nên triển khai data warehouse. Cùng với thời gian, những sự nhầm. và kiến trúc logic của data warehouse nhằm làm cho người đọc có được một cái nhìn tổng quan về data warehouse. Trong phần đầu chương ta sẽ tìm hiểu các khái niệm về data warehouse. Chóng ta sẽ