1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu quy trình etl trong kho dữ liệu ứng dụng vào hệ thống dữ liệu kinh doanh trong doanh nghiệp viễn thông

24 1,1K 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 24
Dung lượng 704,68 KB

Nội dung

1 H Ọ C VI Ệ N CÔNG NGH Ệ BƯU CHÍNH VIỄ N THÔNG NGUY Ễ N ANH NGUYÊN ĐỀ TÀI: NGHIÊN C Ứ U QUY TRÌNH ETL TRONG KHO D Ữ LI Ệ U Ứ NG D Ụ NG VÀO H Ệ TH Ố NG D Ữ LI Ệ U KINH DOANH TRONG DOANH NGHI Ệ P VI Ễ N THÔNG Chuyên ngành: Khoa h ọ c máy tính Mã s ố : 60.48.01 TÓM T Ắ T LU ẬN VĂN THẠC SĨ HÀ NỘI -2012 2 Lu ận văn đượ c hoàn thành t ạ i: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: TS PHẠM THẾ QUẾ Phản biện 1:…………………………………………………………………………. …………………………………………………………………………. …………………………………………………………………………. Phản biện 2:………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Côngnghệ Bưu chính Viễn thông Vào lúc: giờ ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư việ n c ủ a H ọ c vi ệ n Công ngh ệ Bưu chính Viễ n thông 3 M Ở ĐẦ U 1. Lý do ch ọn đề tài Ngành công nghi ệ p vi ễ n thông sau nh ững năm phát triển đang lưu trữ m ộ t kh ối lượ ng d ữ li ệ u kh ổ ng l ồ , bao g ồ m các d ữ li ệu như thông tin về khách hàng, chi ti ế t cu ộ c g ọ i, các d ị ch v ụ thuê bao, thông tin c ả nh b ả o tình tr ạ ng h ệ th ố ng m ạ ng vi ễ n thông, d ữ li ệ u v ề h ệ th ố ng cáp vi ễn thông v.v Lượ ng d ữ li ệ u kh ổ ng l ồ này n ếu đượ c khai thác đúng cách sẽ là m ộ t l ợ i th ế cho các doanh nghi ệ p vi ễ n thông trong vi ệ c tung ra các d ị ch v ụ chăm sóc khách hàng hay các ứ ng d ụ ng mang tính th ự c ti ễn cao, đồng nghĩa vớ i vi ệc tăng cơ hộ i c ạnh tranh đố i v ớ i các doanh nghi ệ p khác. T ừ đó yêu cầu đặ t ra vi ệ c xây d ự ng kho d ữ li ệ u t ừ nh ữ ng ngu ồ n d ữ li ệ u trên ph ụ c v ụ cho vi ệ c phân tích kinh doanh t ại các đơn vị vi ễ n thông. Tuy nhiên vi ệ c xây d ự ng m ộ t h ệ th ố ng nh ư th ế v ấ p ph ả i m ộ t s ố h ạ n ch ế v ề m ặ t k ỹ thu ậ t, đặ c bi ệ t là khi kích th ướ c cũn g nh ư độ ph ứ c t ạ p c ủ a môi tr ườ ng thông tin tă ng lên. L ư u tr ữ phân tán ở nhi ề u d ạ ng không t ươ ng thích v ớ i nhau, th ậ m chí còn ở nh ữ ng d ạ ng phi c ấ u trúc. Nhi ề u h ệ CSDL đ ã đượ c xây d ự ng không t ươ ng thích v ớ i nhau và không t ươ ng thích v ớ i nh ữ ng h ệ thông tin m ớ i đượ c xây d ự ng. Nhi ề u khách hàng không tho ả mãn v ớ i nh ữ ng h ệ th ố ng thông tin hi ệ n th ờ i. Kho d ữ li ệu thườ ng bao g ồ m các thành ph ầ n khác nhau, m ỗ i thành ph ầ n có thi ế t k ế , kĩ thuậ t và công c ụ riêng [6]. Trong đó hệ th ố ng ETL là m ộ t thành ph ầ n chính ch ị u trách nhi ệ m cho quá trình ETL ( Extract, Transform, Load) trong kho kho d ữ li ệ u; cho phép trích rút các d ữ li ệ u t ừ nhi ề u ngu ồ n khác nhau, làm s ạ ch, tùy ch ỉ nh và chuy ển đổ i, và cu ố i cùng t ả i vào kho d ữ li ệ u[1]. Vi ệ c xây d ự ng ETL chi ếm đế n 80% phát tri ể n d ự án và 55% th ờ i gian c ủ a kho d ữ li ệ u [4]. Vì v ậ y vi ệc đánh giá đúng vai trò củ a quá trình ETL t ừ đó có thể th ể mô hình hóa, thi ế t k ế và t ối ưu ETL trong việ c xây d ự ng kho d ữ li ệ u s ẽ quy ết đị nh s ự thành b ạ i c ủ a kho d ữ li ệ u [6]. Với mục đích nghiên cứu về các quá trình ETL trong việc xây dựng kho dữ liệu, tôi chọn đề tài “Nghiên cứu qu y trình ETL trong kho dữ liệu ứng dụng vào hệ thống dữ liệu kinh doanh trong doanh nghiệp viễn thông ” . 1. Mụ c đ ích c ủ a đề tài: Ti ế p c ậ n các ph ươ ng pháp tìm hiểu các bước trong một quy trinh xây dựng một hệ thống ETL, các phương án xử lý trong từng trường hợp cụ thể để có thể áp dụng trong các bài toán thực tế. 2. Đố i t ượ ng và ph ạ m vi nghiên c ứ u: Vi ệ c nghiên c ứ u s ẽ t ậ p trung vào lý thuy ế t xây d ự ng h ệ th ố ng ETL, áp d ụ ng vào xây d ự ng ch ức năng trích xuấ t v ớ i ngu ồ n d ữ li ệ u t ừ h ệ 4 th ố ng d ữ li ệ u Vinaphone. 3. Ph ươ ng pháp nghiên c ứ u: Tìm hi ể u các tài li ệ u liên quan đế n các k ỹ thu ậ t ELT trong kho d ữ li ệu, các phương pháp xây dự ng h ệ th ố ng ETL. 4. K ế t c ấ u c ủ a lu ậ n v ă n Lu ận văn gồm 3 chương Chương 1: T ổ ng quan v ề ETL trong kho d ữ li ệ u Chương này trình bày các khái niệ m, các thành ph ầ n, ch ức năng trong kho dữ li ệ u, các ứ ng d ụng cũng như nhữ ng mô hình kho d ữ li ệ u. T ổ ng quan v ề ETL, các thành ph ầ n và vai trò ETL trong kho d ữ li ệ u Chương 2: Ki ế n trúc và các thành ph ầ n ETL Chương này tậ p trung vào chi ti ế t các thành ph ầ n c ủa ETL, các bướ c th ự c hi ệ n c ủ a m ộ t h ệ th ố ng ETL, nh ữ ng v ấn đề g ặ p ph ả i v ớ i m ỗ i thành ph ầ n c ụ th ể trong m ộ t h ệ th ố ng ETL. Các bi ệ n pháp gi ả i quy ế t v ớ i m ỗ i tình hu ố ng trong nh ữ ng bài toán c ụ th ể . Chương 3: Xây d ự ng modul trích xu ấ t d ữ li ệ u trong ETL. Chương cuố i cùng c ủ a lu ận văn trình bày mộ t th ử nghi ệ m nh ỏ áp d ụ ng ph ầ n lý thuy ết đã nêu ở 2 chương trước. Đó là áp dụ ng th ử nghi ệm phương pháp trích xuất đã nghiên c ứ u trong ph ầ n lý thuy ế t vào bài toán trích xu ấ t d ữ li ệ u t ừ h ệ th ố ng d ữ li ệ u chi ti ế t cướ c và d ữ li ệ u c ủ a h ệ th ố ng tr ả trướ c. 5 CHƯƠNG 1. TỔNG QUAN VỀ ETL TRONG KHO DỮ LIỆU 1. Kho d ữ li ệ u 1.1. Khái ni ệ m kho d ữ li ệ u Định nghĩa do W.H.Inmon đưa ra : Kho d ữ li ệ u (Data Warehouse) là t ậ p h ợ p d ữ li ệ u tích h ợp theo hướ ng ch ủ đề , tương đố i ổn đị nh,c ậ p nh ậ t đị nh k ỳ nh ằ m h ỗ tr ợ quá trình t ạ o quy ế t đị nh.[2] Như vậ y, có th ể th ấ y r ằng thông thườ ng m ộ t kho d ữ li ệu được xem như một cơ sở d ữ li ệ u đượ c duy trì riêng bi ệ t trên cơ sở d ữ li ệ u t ừ nhi ề u ngu ồ n cơ sở d ữ li ệ u tác nghi ệ p. 1.1.2. Các đặc trưng của kho dữ liệu M ộ t kho d ữ li ệ u đượ c xác đị nh là m ộ t c ơ s ở d ữ li ệ u trong đ ó có ch ứ a b ố n đặ c tính sau: h ướ ng ch ủ đề , tính ổ n đị nh, đượ c tích h ợ p, g ắ n v ớ i th ờ i gian. 1.1.3. Kiến trúc kho dữ liệu Mô hình ki ế n trúc c ủ a h ệ th ố ng kho d ữ li ệu cơ bả n g ồ m có ba thành ph ầ n: D ữ li ệ u ngu ồ n, vùng d ữ li ệ u trung gian và kho d ữ li ệ u . Hình 1.1. Ki ế n trúc kho d ữ li ệ u 1.1.3.1. Kho d ữ li ệ u ch ủ đề (Datamart) Kho d ữ li ệ u ch ủ đề (Data Mart) c ũ ng là m ộ t cơ s ở d ữ li ệ u có nh ữ ng đặ c đ i ể m gi ố ng v ớ i kho d ữ li ệ u nh ư ng quy mô c ủ a nó nh ỏ h ơ n và l ư u tr ữ d ữ li ệ u v ề m ộ t lĩn h v ự c, m ộ t chuyên ngành c ụ th ể . Có 2 lo ạ i - Datamart ph ụ thu ộ c. 6 - Datamart độ c l ậ p. 1.1.3.2. Siêu d ữ li ệ u (MetaData) Metadata là m ộ t lo ạ i “d ữ li ệ u v ề d ữ li ệ u”, nó đượ c xây d ự ng nh ằ m m ụ c đ ích mô t ả c ấ u trúc n ộ i dung v ề d ữ li ệ u bên trong c ơ s ở d ữ li ệ u. Metadata có ý ngh ĩ a đặ c bi ệ t quan tr ọ ng trong vi ệ c xây d ự ng và t ổ ch ứ c l ư u tr ữ d ữ li ệ u c ủ a Data Warehouse. 1.1.3.3. Cơ sở d ữ li ệ u kho d ữ li ệ u Cơ sở d ữ li ệ u t ậ p trung là m ộ t n ề n t ảng cơ bả n c ủa môi trườ ng kho d ữ li ệu. Cơ sở d ữ li ệ u này h ầ u h ết được cài đặ t d ự a trên công ngh ệ c ủ a H ệ th ố ng qu ả n tr ị cơ sở d ữ li ệ u quan h ệ (RDBMS). 1.1.4. Các ứng dụng của kho dữ liệu Kho d ữ li ệu đượ c s ử d ụ ng theo ba cách chính: Cách s ử d ụ ng truy ề n th ố ng Trong cách s ử d ụ ng này vi ệ c khai thác thông tin d ự a trên các công c ụ truy v ấ n và báo cáo. Nh ờ có vi ệ c trích l ọ c, tích h ợ p và chuy ể n đổ i các d ữ li ệ u thô sang d ạ ng d ữ li ệ u có ch ấ t l ượ ng cao và có tính ổ n đị nh. H ỗ tr ợ tr ự c tuy ế n (OLAP) N ế u ngôn ng ữ truy v ấ n chu ẩ n SQL và các công c ụ làm báo cáo truy ề n th ố ng ch ỉ có th ể miêu t ả nh ữ ng gì có trong c ơ s ở d ữ li ệ u thì phân tích tr ự c tuy ế n có kh ả nă ng phân tích d ữ li ệ u, xem xét xem gi ả thuy ế t là đún g hay sai. Tuy nhiên phân tích tr ự c tuy ế n l ạ i không có kh ả nă ng đư a ra gi ả thuy ế t. Do kích th ướ c quá l ớ n và có tính ch ấ t ph ứ c t ạ p nên khó có th ể s ử d ụ ng Data Warehouse cho m ụ c đ ích này. Công ngh ệ khai phá d ữ li ệ u (Data mining) Trong hoàn c ả nh hi ệ n nay s ự phát tri ể n c ủ a d ữ li ệ u đặ t ra yêu c ầ u ph ả i l ư u tr ữ d ữ li ệ u ph ứ c t ạ p và có kích th ướ c l ớ n. Vi ệ c khai phá d ữ li ệ u tr ở thành m ộ t nhu c ầ u khoa h ọ c và trong ho ạ t độ ng th ự c ti ễ n. 1.1.5. Thiết k ế CSDL cho kho dữ li ệ u 1.1.5.1. Gi ả n đồ hình sao 7 Gi ả n đồ hình sao đượ c đưa ra l ần đầ u tiên b ở i Raph Kimball như là m ộ t l ự a ch ọ n thi ế t k ế CSDL cho kho d ữ li ệ u. Trong gi ả n đồ hình sao, d ữ li ệ u đượ c xác đị nh và phân lo ạ i theo 2 ki ể u: s ự ki ệ n (b ả ng Fact) và chi ề u (các b ả ng Dimension: các b ả ng liên k ế t). 1.1.5.2. Gi ả n đồ hình tuy ế t r ơ i Gi ả n đồ hình tuy ế t r ơ i là m ộ t s ự m ở r ộ ng c ủ a gi ả n đồ hình sao, t ạ i đó m ỗ i cánh sao không ph ả i là m ộ t b ả ng Chi ề u mà là nhi ề u b ả ng. Trong d ạ ng gi ả n đồ này, m ỗ i b ả ng theo chi ề u c ủ a gi ả n đồ hình sao đượ c chu ẩ n hóa hơn. Gi ả n đồ hình tuy ế t r ơ i c ả i thi ệ n năng su ấ t truy v ấ n, t ố i thi ể u không gian đĩa c ầ n thi ế t để lưu tr ữ d ữ li ệ u và c ả i thi ệ n năng su ấ t nh ờ vi ệ c ch ỉ ph ả i k ế t h ợ p nh ữ ng b ả ng có kích th ướ c nh ỏ hơn thay vì ph ả i k ế t h ợ p nh ữ ng b ả ng có kích thướ c l ớ n l ạ i không chu ẩ n hóa. 1.1.5.3. Gi ả n đồ k ế t h ợ p Là k ế t h ợ p gi ữ a gi ả n đồ hình sao d ự a trên b ả ng S ự ki ệ n và nh ữ ng b ả ng Chi ề u không chu ẩ n hóa theo các chu ẩ n 1, 2, 3 và gi ả n đồ hình tuy ế t r ơ i trong đ ó t ấ t c ả các b ả ng Chi ề u đề u đã đượ c chu ẩ n hóa. 1.2. ETL và vai trò ETL trong kho dữ liệu 1.2.1. Khái niệm ETL H ệ th ố ng ETL (Extract-Transform-Load) là n ề n t ả ng c ủ a kho d ữ li ệ u. M ộ t h ệ th ố ng ETL đượ c thi ế t k ế cho vi ệ c trích xu ấ t d ữ li ệ u t ừ các h ệ th ố ng ngu ồ n, chuy ển đổ i d ữ li ệ u đả m b ả o các ngu ồn độ c l ậ p có th ể tích h ợ p, và cu ố i cùng d ữ li ệ u sau chuy ển đổi được đưa vào kho d ữ li ệ u ph ụ c v ụ m ục đích phát triể n ứ ng d ụ ng hay ph ụ c v ụ các m ục đích kho dữ li ệ u. [7, tr.xii] 1.2.1 Vai trò của ETL trong kho dữ liệu H ệ th ố ng ETL ph ải đ óng m ộ t vai trò quan tr ọ ng trong vi ệ c cung c ấ p cho các ứ ng d ụ ng ngườ i s ử d ụ ng m ộ t khuôn d ạ ng d ữ li ệ u phù h ợ p. B ả n ch ấ t Kho d ữ li ệ u là quá trình l ấ y d ữ li ệ u t ừ các h ệ th ố ng LS và h ệ th ống cơ sở d ữ li ệ u tác nghi ệ p và chuy ển đổ i thành thông tin có t ổ ch ứ c trong m ột đị nh d ạ ng thân thi ệ n v ới ngườ i s ử d ụng; trên cơ sở đó có thể phân tích d ữ li ệ u và h ỗ tr ợ quy ết đị nh kinh doanh. Quá b ắt đầ u t ừ các h ệ th ố ng ngu ồn đế n khi d ữ li ệ u được đưa vào các bả ng chi ề u hay b ả ng s ự ki ệ n s ẽ chi phí ít nh ấ t 70% th ờ i gian, n ỗ l ự c c ủ a h ầ u h ế t các d ự án kho d ữ li ệ u. Trong tài li ệu [7, tr.23] có đưa ra một định nghĩa về kho d ữ li ệ u nói lên vai trò c ủ a ETL trong kho d ữ li ệ u 8 1.2.2 Các thành phần của ETL . Trích xu ấ t: D ữ li ệ u ngu ồ n t ừ r ấ t nhi ề u ngu ồ n khác nhau và có th ể có r ấ t nhi ề u c ấ u trúc d ữ li ệu khác nhau như nhiề u lo ại cơ sở d ữ li ệ u, t ừ t ệ p d ữ li ệ u excel hay t ừ t ệ p d ữ li ệ u thô. Vì th ế nhi ệ m v ụ chính c ủa bướ c này là trích xu ấ t d ữ li ệ u t ừ h ệ th ố ng ngu ồn để x ử lý. Chuy ển đổ i : Đây là quá trình rấ t ph ứ c t ạp dùng để chuy ển đổ i d ữ li ệ u ngu ồ n m ộ t mô hình khác phù h ợ p và chuy ển vào cơ sở d ữ li ệu đích. T ả i d ữ li ệ u : Đây là quá trình đẩ y d ữ li ệu sau khi đã đượ c chuy ển đổ i vào kho d ữ li ệ u. D ữ li ệu sau khi đã đượ c chuy ển đổ i s ẽ đượ c t ả i vào kho d ữ li ệ u. 9 CHƯƠNG 2. KIẾN TRÚC VÀ CÁC THÀNH PHẦN CỦA ETL. 2.1. Tổng quan ETL 2.1.1. Những đặc điểm chính của ETL M ỗ i ch ức năng ETL thự c hi ệ n m ộ t m ục đích quan trọ ng. Khi mu ố n chuy ể n d ữ li ệ u t ừ h ệ th ố ng ngu ồ n vào h ệ th ống thông tin được lưu trữ trong kho d ữ li ệ u, vi ệ c th ự c hi ệ n các ch ức năng này đề u c ầ n thi ết. Để thay đổ i d ữ li ệu thành thông tin, trướ c tiên ph ả i xác đị nh các d ữ li ệ u. Sau khi xác đị nh d ữ li ệ u, không th ể đơn giản là đổ d ữ li ệ u vào kho. D ữ li ệ u ph ải đượ c trích xu ấ t và qua các bi ến đổ i phù h ợp để đượ c chuy ển đổ i thành thông tin. Sau khi đã c huy ển đổ i d ữ li ệ u, nó v ẫ n không h ữ u ích v ới ngườ i s ử d ụ ng cu ối cùng cho đế n khi nó đượ c chuy ể n vào kho d ữ li ệ u. T ả i d ữ li ệ u là m ộ t ch ức năng cu ố i cùng . Như vậ y ta ph ả i th ự c hi ệ n c ả 3 ch ức năng của ETL để chuy ển đổ i d ữ li ệ u thành thông tin. 2.1.2. Các chi phí cho h ệ th ố ng ETL Nói chung ta s ẽ tiêu t ố n kho ả ng 50-70% công s ứ c c ủ a d ự án vào các ch ức năng ETL. 2.1.3. Yêu cầu với ETL và các bước ETL Cho bảng sự kiện ETL cho bảng chiều Viết các thủ tục cho tải tất cả dữ liệu Tổ chức vùng xử lý dữ liệu và công cụ kiểm thử Kế hoạch cho các bảng tổng hợp Xác định các dữ liệu chuyển đổi và các luật làm sạch Thiết lập các luật trích xuất dữ liệu Chuẩn bị cho việc ánh xạ giữa các thành phần dữ liệu đích với dữ liệu nguồn Xác định nguồn dữ liệu, cả dữ liệu trong và ngoài Xác định các dữ liệu đích cần thiết trong kho dữ liệu Hình 2.1. Các bướ c chính c ủ a m ộ t quy trình ETL. 2.1.4. Các yếu tố quan trọng đối với ETL - Xác định được độ ph ứ c t ạp và đa dạ ng c ủ a các h ệ th ố ng ngu ồ n d ữ li ệu để có th ể xây d ự ng đượ c các ch ức năng trích xuấ t và chuy ển đổ i phù h ợ p. - Xác định đượ c các ki ể u t ả i và th ờ i gian t ả i cho các lo ạ i d ữ li ệu để có phương án phù hợ p. 10 2.2. Vùng dữ liệu trung gian Trong t ấ t c ả các ki ế n trúc kho d ữ li ệ u, luôn có m ộ t vùng ch ứ a d ữ li ệ u g ọ i là vùng trung gian hay còn g ọ i là vùng x ử lý. D ữ li ệ u đượ c chuy ể n t ừ nhi ề u ngu ồ n vào vùng x ử lí mà không thông qua (ho ặ c r ấ t ít) công đ o ạ n x ử lí nào. 2.3. Trích xuất dữ liệu 2.3.1. Xác định nguồn dữ liệu Xác đị nh ngu ồ n d ữ li ệ u bao g ồ m vi ệc xác đị nh t ấ t c ả các ngu ồ n d ữ li ệ u thích h ợ p, các d ữ li ệ u c ầ n thi ết để đưa vào kho dữ li ệ u. Hình 2.2. Các bước xác đị nh ngu ồ n d ữ li ệ u 2.3.2. Các k ỹ thuật trích xuất dữ liệu 2.3.2.1 Các lo ạ i k ỹ thu ậ t trích xu ấ t D ữ li ệ u trong h ệ th ố ng ngu ồ n có th ể rơi vào hai loạ i. Giá tr ị hi ệ n t ạ i. H ầ u h ế t các thu ộ c tính trong các h ệ th ố ng ngu ồn rơi vào loạ i này. Ở đây giá trị được lưu trữ c ủ a m ộ t thu ộ c tính mô t ả giá tr ị c ủ a thu ộ c tính ngay th ời điể m này c ủ a th ờ i gian. Các giá tr ị t ạ m th ờ i ho ặ c nh ấ t th ờ i. Khi các giao d ị ch x ả y ra, các giá tr ị thay đổi. Không có cách nào để bi ế t bao lâu giá tr ị hi ệ n t ạ i s ẽ gi ữ nguyên hay s ẽ thay đổ i. [...]... Mô hình kho dữ liệu chuyên đề DATA_CALL Hình 3.3 Kho dữ liệu chuyên đề DATA_CALL Chiều dữ liệu LAC_CELL_DIM: Chiều dữ liệu thông tin về vị trí của các cell BTS Chiều dữ liệu CALL_TYPE_DIM: Chiều dữ liệu thông tin về kiểu Chiều dữ liệu OWNER_DIM: Chiều dữ liệu thông tin về nhà mạng Chiều dữ liệu PROVINCE_DIM: Chiều dữ liệu thông tin về tỉnh thành Chiều dữ liệu ACTIVITY_TYPE_DIM: Chiều dữ liệu thông tin... thông tin kiểu giao dịch Chiều dữ liệu TIME_CALENDAR_DIM: Chiều dữ liệu thời gian Mô hình kho dữ liệu chuyên đề DATA_MTA Mô hình kho dữ liệu chuyên đề CDR 18 3.2.3.Nguồn dữ liệu 3.2.2.1 Dữ liệu từ hệ thống trả trước Nguồn dữ liệu: Dữ liệu được lưu trữ trong bảng dữ liệu DATA_CALL_HISTORY, DATA_MTA của hệ thống cơ sở dữ liệu của Vinaphone sử dụng hệ quản trị cơ sở dữ liệu ORACLE Tần xuất trích xuất:... Qua đó, có thể khẳng định xây dựng hệ thống ETL cho việc xây dựng hệ thống dữ liệu kinh doanh của doanh nghiệp là hết sức cần thiết đối với các doanh nghiệp Việc hiểu được tầm quan trọng và phương pháp xây dựng hệ thống ETL đóng vai trò quy t định trong việc xây dựng cho hệ thống kho dữ liệu nói riêng và các hệ thống dựa trên nền tảng kho dữ liệu nói chung 24 TÀI LIỆU THAM KHẢO [1] Arktos : towards... tươi dữ liệu và cập nhât dữ liệu Sau tải ban đầu, ta có thể duy trì kho dữ liệu và cập nhật nó với 2 phương thức: Cập nhật - ứng dụng cho dữ liệu thay đổi trong hệ thống nguồn Làm tươi – tải lại toàn bộ theo chu kỳ 2.5.3 Phương pháp tải với các bảng chiều Trong kho dữ liệu, ta sử dụng khóa sinh bởi hệ thống Bản ghi trong hệ thống nguồn có khóa của chúng Vì vậy, trước khi dữ liệu nguồn có thể đưa vào. .. việc trích rút dữ liệu - Ứng dụng phải đảm bảo tính mềm dẻo và linh động đối với các nguồn dữ liệu khác nhau - Cho phép theo dõi và cảnh báo về các thay đổi trong hệ thống dữ liệu nguồn cũng như vấn đề xảy ra trong quá trình khai thác 3.1.2 Phạm vi nguồn dữ liệu Hình 3.1 Mô hình hệ thố ng dữ liệu 16 - Dữ liệu tiêu thụ cuộc gọi và SMS - Dữ liệu tiêu thụ Data ( 3G+GPRS) - Dữ liệu CDR - Dữ liệu LACCELL... vào một tệp độc lập và sẽ được sử dụng để trích xuất dữ liệu cho kho dữ liệu việc tạo và duy trì trigger trong suốt các quá trình của hệ thống nguồn sẽ tăng thêm các chi phí tài nguyên và thời gian của hệ thống nguồn Nắm bắt trong các ứng dụng nguồn Kỹ thuật này được xem như nắm bắt dữ liệu ứng dụng hỗ trợ Nói cách khác, các ứng dụng nguồn được thực hiện để hỗ trợ cho việc nắm bắt dữ liệu cho kho dữ. .. các module chuyển đổi và tải dữ liệu để có thể tạo ra một bộ công cụ ETL hoàn chỉnh 23 KẾT LUẬN Luận văn nghiên cứu “NGHIÊN C ỨU QUY TRÌNH ETL TRONG KHO D Ữ LI Ệ U ỨNG D Ụ NG VÀO HỆ TH Ố NG D Ữ LI Ệ U KINH DOANH TRONG DOANH NGHIỆ P VI Ễ N THÔNG” đã được hoàn thành Phân tích công nghệ, cấu trúc, kiến trúc, và công cụ để xây dựng công cụ ETL phục vụ cho việc xây dựng kho dữ liệu Tìm hiểu các phương pháp,... trích xuất dữ liệu từ các nguồn dữ liệu với khuôn dạng khác nhau như Oracle, FoxPro, Excel Kết quả này cho thấy có thể áp dụng hệ thống cho hệ thống thực tế đang trong quá trình triển khai Trong tương tai học viên đề xuất phát triển tiếp các module chuyển đổi và module tải dữ liệu để tạo ra môt hệ thống ETL hoàn chỉnh phục vụ cho việc xây dựng kho dữ liệu không chỉ trong lĩnh vực viễn thôngtrong nhiều... trúc ứng dụng Hình 3.2 Kiến trúc ứng dụng Với yêu cầu cho phép mở rộng để đưa dữ liệu từ các nguồn khác nhau vào kho dữ liệu hệ thống trích xuất dữ liệu được thiết kế để việc mở rộng l thuận tiện nhất Ở đây các phương thức kết nối bao gồm - Kết nối dữ liệu từ hệ thống nguồn qua FTP, các tệp có định dạng Excel và FoxPro - Kết nối với dữ liệu Oracle qua kết nối cơ sở dữ liệu (ODBC, OCI) 17 3.2.2 Dữ liệu. .. trong dữ liệu gắn liền với thời gian như vậy đây là kiểu trích xuất định kỳ Nắm bắt thay đổi dữ liệu: Ở đây ta sử dụng phương pháp nắm bắt dữ liệu chậm sử dụng ngày tháng và nhãn thời gian Các luật trích xuất dữ liệu: *) Nguồn dữ liệu DATA_CALL_HISTORY - Chỉ lấy dữ liệu thuộc dạng thoại hay SMS - Các bản ghi dữ liệu lấy về phải có thông tin về dữ liệu trên các loại tài kho n khác rỗng *) Nguồn dữ liệu . cứu qu y trình ETL trong kho dữ liệu ứng dụng vào hệ thống dữ liệu kinh doanh trong doanh nghiệp viễn thông ” . . c ủ a kho d ữ li ệ u [6]. Với mục đích nghiên cứu về các quá trình ETL trong việc xây dựng kho dữ liệu, tôi chọn đề tài Nghiên cứu

Ngày đăng: 17/02/2014, 08:47

HÌNH ẢNH LIÊN QUAN

Mô hình kiến trúc của hệ thống kho dữ liệu cơ bản gồm có ba thành phần: Dữ liệu nguồn, vùng dữ liệu trunggianvàkho dữ liệu  - Nghiên cứu quy trình etl trong kho dữ liệu ứng dụng vào hệ thống dữ liệu kinh doanh trong doanh nghiệp viễn thông
h ình kiến trúc của hệ thống kho dữ liệu cơ bản gồm có ba thành phần: Dữ liệu nguồn, vùng dữ liệu trunggianvàkho dữ liệu (Trang 5)
ETL Cho bảng sự kiện - Nghiên cứu quy trình etl trong kho dữ liệu ứng dụng vào hệ thống dữ liệu kinh doanh trong doanh nghiệp viễn thông
ho bảng sự kiện (Trang 9)
Hình 2.2. Các bước xác định nguồn dữ liệu - Nghiên cứu quy trình etl trong kho dữ liệu ứng dụng vào hệ thống dữ liệu kinh doanh trong doanh nghiệp viễn thông
Hình 2.2. Các bước xác định nguồn dữ liệu (Trang 10)
2.5.4. Tải lịch sử và tải gia tăng cho bảng sự kiện - Nghiên cứu quy trình etl trong kho dữ liệu ứng dụng vào hệ thống dữ liệu kinh doanh trong doanh nghiệp viễn thông
2.5.4. Tải lịch sử và tải gia tăng cho bảng sự kiện (Trang 15)
Mô hình kho dữ liệu chuyên đề DATA_CALL - Nghiên cứu quy trình etl trong kho dữ liệu ứng dụng vào hệ thống dữ liệu kinh doanh trong doanh nghiệp viễn thông
h ình kho dữ liệu chuyên đề DATA_CALL (Trang 17)
Mô hình hóa ánh xạ giữa nguồn và đích - Nghiên cứu quy trình etl trong kho dữ liệu ứng dụng vào hệ thống dữ liệu kinh doanh trong doanh nghiệp viễn thông
h ình hóa ánh xạ giữa nguồn và đích (Trang 19)
3.3. Mô hình hóa module trích xuất dữ liệu với UML - Nghiên cứu quy trình etl trong kho dữ liệu ứng dụng vào hệ thống dữ liệu kinh doanh trong doanh nghiệp viễn thông
3.3. Mô hình hóa module trích xuất dữ liệu với UML (Trang 20)
3.4.2.1. Cấu hình ứng dụng - Nghiên cứu quy trình etl trong kho dữ liệu ứng dụng vào hệ thống dữ liệu kinh doanh trong doanh nghiệp viễn thông
3.4.2.1. Cấu hình ứng dụng (Trang 21)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN