Khai phá dữ liệu phát hiện luật kết hợp và ứng dụng đối với kho dữ liệu của ngân hàng

22 348 0
Khai phá dữ liệu phát hiện luật kết hợp và ứng dụng đối với kho dữ liệu của ngân hàng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ THU TRANG KHAI PHÁ DỮ LIỆU PHÁT HIỆN LUẬT KẾT HỢP VÀ ỨNG DỤNG ĐỐI VỚI KHO DỮ LIỆU CỦA NGÂN HÀNG Ngành: Công nghệ thông tin Chuyên ngành: Công nghệ phần mềm Mã số: 60 48 10 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS VŨ ĐỨC THI Hà Nội - 2008 MỤC LỤC MỞ ĐẦU Chương 1: KHO DỮ LIỆU VÀ PHÂN TÍCH DỮ LIỆU TRỰC TUYẾN 11 1.1 Hệ thống xử lý giao dịch trực tuyến (OLTP) 11 1.2 Kho liệu (Data warehouse) .11 1.3 Hệ thống phõn tớch liệu trực tuyến (OLAP) 14 1.3.1 Giới thiệu 14 1.3.2 Mụ hỡnh tổ chức liệu (Data model) 17 1.3.2.1 Lược đồ hỡnh (Star schema) .18 1.3.2.2 Lược đồ bụng tuyết (Snowflake schema) 19 Chương 2: KHAI PHÁ DỮ LIỆU PHÁT HIỆN LUẬT KẾT HỢPError! Bookmark not defined 2.1 Giới thiệu .Error! Bookmark not defined 2.1.1 Định nghĩa luật kết hợp Error! Bookmark not defined 2.1.1.1 Vớ dụ luật kết hợp .Error! Bookmark not defined 2.1.1.2 Cỏc định nghĩa .Error! Bookmark not defined 2.1.2 Luật kết hợp nhị phõn .Error! Bookmark not defined 2.1.3 Luật kết hợp định lượng Error! Bookmark not defined 2.1.4 Luật kết hợp đơn chiều Error! Bookmark not defined 2.1.5 Luật kết hợp đa chiều Error! Bookmark not defined 2.1.6 Luật kết hợp đa mức .Error! Bookmark not defined 2.1.6.1 Giới thiệu Error! Bookmark not defined 2.1.6.2 Khai phỏ luật kết hợp đa mức Error! Bookmark not defined 2.2 Thuật toỏn Apriori Error! Bookmark not defined 2.3 Đỏnh giỏ .Error! Bookmark not defined 2.4 Khai phỏ luật kết hợp với OLAP Error! Bookmark not defined 2.4.1 Xõy dựng Data-cube .Error! Bookmark not defined 2.4.2 Khai phỏ cỏc tập mục phổ biến dựa trờn Data-cubeError! Bookmark not defined 2.4.3 Đỏnh giỏ Error! Bookmark not defined 2.5 Sinh luật kết hợp từ tập mục phổ biến Error! Bookmark not defined 2.5.1 Thuật toỏn đơn giản sinh luật kết hợp từ tập mục phổ biếnError! Bookmark not def 2.5.2 Khai phỏ luật kết hợp dựa trờn Data-cubeError! Bookmark not defined 2.5.3 Đỏnh giỏ Error! Bookmark not defined Chương 3: XÂY DỰNG ỨNG DỤNG MINH HOẠError! Bookmark not defined 3.1 Giới thiệu .Error! Bookmark not defined 3.2 Xõy dựng khung ứng dụng (Framework) Error! Bookmark not defined 3.2.1 Tập hợp, làm chuẩn hoỏ liệu Error! Bookmark not defined 3.2.2 Xõy dựng Data-cube .Error! Bookmark not defined 3.2.3 Khai phỏ luật kết hợp từ Data-cube Error! Bookmark not defined 3.3 Đỏnh giỏ .Error! Bookmark not defined KẾT LUẬN .Error! Bookmark not defined TÀI LIỆU THAM KHẢO 19 Danh sỏch tài liệu tham khảo tiếng Việt 19 Danh sỏch tài liệu tham khảo tiếng Anh 20 Danh sỏch Websites tham khảo 21 DANH SÁCH CÁC BẢNG TRONG LUẬN VĂN Bảng 2.1: Ví dụ CSDL giao dịch Error! Bookmark not defined Bảng 2.2: Ví dụ tập mục phổ biến Error! Bookmark not defined Bảng 2.3: Các luật kết hợp sinh từ tập mục phổ biến ACW.Error! Bookmark not defined Bảng 2.4: Ví dụ CSDL giao dịch bán hàng Error! Bookmark not defined Bảng 2.5: Thuật toán Apriori .Error! Bookmark not defined Bảng 2.6: Cơ sở liệu minh hoạ thuật toán Apriori.Error! Bookmark not defined Bảng 2.7: Minh hoạ CSDL thống kê tài khoản giao dịch.Error! Bookmark not defined Bảng 2.8: Tiêu chí rời rạc hoá CSDL thống kê TKGD.Error! Bookmark not defined Bảng 2.9: CSDL thống kê TKGD sau rời rạc hoá.Error! Bookmark not defined Bảng 2.10: Pivot-table ứng với CSDL thống kê TKGD.Error! Bookmark not defined Bảng 2.11: Thuật toán tìm tập mục phổ biến từ Data-cube Hua Zhu.Error! Bookmark not d Bảng 2.12: Thuật toán DataCubeSimpleGenFrequentItemsets.Error! Bookmark not defined Bảng 2.13: Thuật toán sinh luật kết hợp từ tập mục phổ biến.Error! Bookmark not defined Bảng 2.14: Thủ tục GenRules Error! Bookmark not defined Bảng 2.15: Thuật toán DataCubeSimpleMining Error! Bookmark not defined Bảng 3.1: Đoạn mã thực chuẩn hoá liệu Error! Bookmark not defined Bảng 3.2: Đoạn mã thực xây dựng Data-cube .Error! Bookmark not defined Bảng 3.3: Đoạn mã thực khai phá luật kết hợp từ Data-cube.Error! Bookmark not defined DANH SÁCH CÁC HÌNH TRONG LUẬN VĂN Hình 1.1: Kiến trúc tiêu biểu Data warehouse 12 Hình 1.2: Minh hoạ Data-cube 15 Hình 1.3: Minh hoạ liệu tính toán lưu trữ OLAP-engine 16 Hình 1.4: Các thao tác OLAP 17 Hình 1.5: Lược đồ hình (Star schema) 18 Hình 1.6: Minh hoạ phân cấp thuộc tính lược đồ hình 19 Hình 1.7: Lược đồ tuyết (Snowflake schema) Error! Bookmark not defined Hình 2.1: Sự phân cấp mức độ trừu tượng liệu.Error! Bookmark not defined Hình 2.2: Khai phá luật kết hợp đa mức với minsup giống mức.Error! Bookmark n Hình 2.3: Khai phá luật kết hợp đa mức với minsup giảm dần.Error! Bookmark not defined Hình 2.4: Khai phá luật kết hợp đa mức với minsup giảm dần kết hợp lọc.Error! Bookmark not Hình 2.5: Khai phá luật kết hợp đa mức với minsup giảm dần kết hợp lọc k-mục.Error! Bookma Hình 2.6: Minh hoạ thuật toán Apriori Error! Bookmark not defined Hình 3.1: Minh hoạ liệu thô Error! Bookmark not defined Hình 3.2: Minh hoạ tiêu chí lọc rời rạc hoá liệu.Error! Bookmark not defined Hình 3.3: Dữ liệu sau chuẩn hoá (Xem dạng Grid).Error! Bookmark not defined Hình 3.4: Dữ liệu Data-cube (Dạng Grid Pivot) .Error! Bookmark not defined Hình 3.5: Luật kết hợp khai phá từ Data-cube Error! Bookmark not defined KÝ HIỆU VÀ TỪ VIẾT TẮT Stt Ký hiệu viết tắt Nghĩa tiếng Việt Nghĩa tiếng Anh CSDL Cơ sở liệu HQTCSDL Hệ quản trị sở liệu Database Management System KPDL Khai phá liệu Data Mining KDD Khai phá tri thức Knowledge Database Database Discovery in THUẬT NGỮ Stt Thuật ngữ Diễn giải Database Cơ sở liệu Database Management System Hệ quản trị sở liệu Data cube Khối liệu đa chiều Data mart CSDL chuyên đề Kho liệu chuyên đề Data Mining Khai phá liệu Data warehouse Kho liệu Decision-making support system Hệ hỗ trợ định Dimension table Bảng chiều liệu Fact table Bảng giá trị chi tiết 10 Frequent items set Tập mục phổ biến 11 KDD Knowledge Discovery in Database Khai phá tri thức 12 OLAP On-Line Analytical Processing Hệ thống Phân tích liệu trực tuyến 13 OLTP On-Line Transaction Processing Hệ thống xử lý giao dịch trực tuyến 14 Star schema Lược đồ hình 15 Snowflake schema Lược đồ tuyết 16 SQL Structured Query Language Ngôn ngữ truy vấn có cấu trúc MỞ ĐẦU Khai phá liệu năm gần ứng dụng rộng rãi nhiều lĩnh vực như: Ngân hàng, Tài thị trường chứng khoán, Thương mại, Giáo dục, Y tế, Sinh học, Bưu viễn thông, … với nhiều hướng tiếp cận khác như: Phân lớp/Dự đoán, Phân cụm, Luật kết hợp, … Các kỹ thuật áp dụng khai phá liệu phần lớn thừa kế từ lĩnh vực: Cơ sở liệu, Máy tự học (Machine learning), Trí tuệ nhân tạo, Lý thuyết thông tin, Xác suất thống kê, … trội phương pháp Khai phá liệu phát luật kết hợp với sở lý thuyết vững chãi đầy tính ứng dụng thực tiễn Mặc dù giới, Khai phá liệu luật kết hợp phương pháp phổ du ̣ng và hiệu quả, nhiều nhà khoa học và các tổ chức, doanh nghiê ̣p tìm hiểu, nghiên cứu, thử nghiệm, phát triển kết thu thành công lớn đặc biệt lĩnh vực Ngân hàng Tài Kho liệu khổng lồ Tuy nhiên nước ta, nhà quản trị chí chưa biết tổ chức liệu thành Kho liệu, họ dừng lại việc trích rút báo cáo đơn giản đáp ứng nghiệp vụ hàng ngày, chưa có khái niệm Kho liệu, phân tích OLAP, chưa nói đến Khai phá liệu từ Kho liệu Chính đề tài tập trung vào vấn đề thực tiễn này: Khai phá liệu phát luật kết hợp Ứng dụng Kho liệu ngân hàng Luận văn tổ chức thành chương: Chương 1: Kho liệu Phân tích liệu trực tuyến Trình bày nét khái quát Kho liệu (Data warehouse) Phân tích liệu trực tuyến (OLAP) Chương 2: Khai phá liệu phát luật kết hợp Trình bày vấn đề chung, Luật kết hợp, giải thuật kinh điển Apriori Khai phá luật kết hợp dựa OLAP Chương 3: Xây dựng ứng dụng minh hoạ Triển khai ứng dụng minh hoạ Kho liệu Ngân hàng KHO DỮ LIỆU VÀ PHÂN TÍCH DỮ LIỆU TRỰC TUYẾN Hệ thống xử lý giao dịch trực tuyến (OLTP) Hầu hết doanh nghiệp giới áp dụng công nghệ thông tin việc lưu trữ quản lý liệu Hệ thống OLTP (On-Line Transaction Processing: Hệ thống xử lý giao dịch trực tuyến) đời với khả lưu trữ liệu lâu dài, hướng giao dịch (Transaction-oriented) nên áp dụng phổ biến liệu mà doanh nghiệp thực tác nghiệp chủ yếu dạng giao dịch Cũng mà hầu hết hệ quản trị CSDL phổ biến như: Oracle, SQL Server, DB2, MySQL, hỗ trợ OLTP CSDL hệ OLTP thường thiết kế thoả mãn 3NF cao Đặc điểm hệ thống OLTP lưu toàn liệu giao dịch chi tiết hàng ngày, điều có nghĩa mức độ tổng quát, trừu tượng liệu thấp Với công cụ SQL, OLTP nhanh chóng trả lời câu hỏi dạng: Tổng doanh thu từ mặt hàng A tháng đầu năm bao nhiêu, hay Mặt hàng bán chạy tháng đầu năm, Tuy nhiên đứng góc độ nhà quản lý họ cần hệ thống trả lời câu hỏi dạng: Đưa danh sách 10 mặt hàng có doanh thu tốt quý từ trước nay, với mặt hàng, tháng quý mặt hàng có doanh thu lớn (1) Hay doanh thu mặt hàng A tăng dự đoán doanh thu mặt hàng B tăng hay giảm với xác suất (2) Với câu hỏi dạng (1) hệ thống OLTP gặp nhiều khó khăn trả lời, để trả lời chúng cách nhanh chóng cần phải sử dụng công cụ chuyên dụng cao cấp OLAP (xem 0) Còn với câu hỏi dạng (2) việc hệ thống OLTP trả lời điều viễn tưởng, muốn trả lời câu hỏi dạng cần phải sử dụng công cụ đặc biệt Data mining (xem Chương 2) Kho liệu (Data warehouse) Data warehouse (Kho liệu) đề xuất W.H.Inmon vào đầu năm 1990, nơi lưu trữ thông tin tích hợp từ nhiều nguồn (Multi-sources), hướng chủ đề (Subject-oriented), mang tính lịch sử (Time-variant), ổn định (Nonvolatile), hỗ trợ truy vấn (Query), phân tích (Analyse) thông tin trợ giúp định (Decision-making support) [105] Qua khái niệm ta thấy liệu thông tin trích rút từ nhiều nguồn khác với định dạng khác Nếu người sử dụng muốn thực truy vấn, hệ thống thực tìm kiếm liệu Data warehouse cách thống thay tìm kiếm CSDL (Cơ sở liệu) nguồn công cụ chuyên biệt tương ứng, từ tiết kiệm nhiều thời gian xử lý người sử dụng Hình 0.1: Kiến trúc tiêu biểu Data warehouse Hệ thống Data warehouse gồm có thành phần sau: Các CSDL nguồn: Dữ liệu thô tập hợp từ nhiều nơi: bên trong, bên ngoài, tự có, mua, liệu di sản lịch sử hay liệu hoạt động (Operational database), liệu thay đổi chúng quản lý phân hệ giám sát đặc biệt (Monitor / Wrapper modules) Ở đây, liệu tập hợp từ nhiều nguồn: thân doanh nghiệp, bên doanh nghiệp, chí mua, lưu trữ nhiều loại khuôn dạng: Oracle, DB2, SQL Server, Microsoft Access, , chí Microsoft Excel file hay Text file Tất liệu thay đổi chúng quản lý phân hệ Monitor / Wrapper Lõi Data warehouse: Tại đây, liệu tổng hợp từ nguồn liệu trên, thông thường từ khuôn dạng khác thành dạng thống trở thành trung tâm lưu trữ toàn hệ thống Ở đây, liệu thô Trích chọn (Extract), Làm (Clean), Chuyển đổi (Transform) trước Tải (Load) vào Data warehouse Phân hệ Monitor / Wrapper thực định kỳ cập nhật thay đổi (Refresh) cho đảm bảo quán liệu Các Data mart (CSDL chuyên đề) hình thành đây, xuất phát từ nhu cầu cụ thể tập trung phân tích lĩnh vực chuyên biệt mà người sử dụng quan tâm Dữ liệu trích rút từ Data warehouse hình thành nên Data mart giúp việc truy vấn phân tích nhanh chóng, tập trung tối ưu Các công cụ phân tích: Các công cụ hỗ trợ truy vấn, tạo báo cáo, OLAP, chí hỗ trợ khai phá liệu (phân tích xu hướng, dự đoán, đưa luật ) - Các công cụ cho phép người sử dụng dễ dàng, chủ động khai thác tạo câu truy vấn (query), tạo lập báo cáo, tạo lập phân tích cách nhanh chóng với độ xác cao mà không cần yêu cầu kiến thức CSDL - Cho phép xoay chiều tạo báo cáo theo nhiều dạng khác dạng bảng ngang (Horizontal), bảng dọc (Vertical), bảng chéo (Cross), dạng đồ thị khác - Cung cấp công cụ thao tác với liệu Drill (phân tích liệu theo chiều sâu), Roll up (tổng hợp), Slice (cắt lát liệu), Dice (cắt khối liệu) hay Pivot (xoay liệu) - Các công cụ đặc biệt giúp phân tích xu hướng, dự đoán, đưa luật, tri thức Hệ thống phân tích liệu trực tuyến (OLAP) Giới thiệu Mặc dù liệu lưu trữ Data warehouse trích chọn, làm chuyển đổi khuôn dạng chuẩn, xong việc truy vấn đặc biệt việc phân tích thông tin khối lượng liệu khổng lồ đòi hỏi phải có công cụ đặc biệt Kỹ thuật OLAP (OnLine Analytical Processing: Xử lý phân tích liệu trực tuyến) hiểu tập hợp những kỹ thuật phát triển để phân tích liệu Data warehouse [102] đáp ứng tiêu chí: Trực tuyến (Online), nhanh chóng, trực quan hiệu phân tích liệu đa chiều OLAP thực trình tạo quản lý liệu đa chiều phục vụ cho phân tích cách trực quan, cho phép truy vấn CSDL khổng lồ cách nhanh chóng hiệu đáng kể so với kỹ thuật truy vấn kinh điển SQL CSDL quan hệ Để thực điều đó, OLAP-engine (cơ chế OLAP) phải thực tính toán trước toán tử nhóm (Aggregation operator) đồng thời tổ chức lại liệu kết tính toán dạng Khối liệu đa chiều (Datacube) Việc thực OLAP bao gồm giai đoạn: - Truy vấn liệu từ Data warehouse - Xây dựng Data-cube - Phân tích trực tuyến dựa Data-cube Khái niệm Data-cube (Khối liệu đa chiều) lần đề xuất J Gray cộng [101], bao gồm chiều liệu thước đo, cho phép người sử dụng nhìn vào liệu lưu trữ Data warehouse qua nhiều góc độ nhiều chiều liệu Ví dụ, xem xét Data-cube có chiều liệu Product, Supplier, Customer thước đo SalesTotal qua hình sau: Hình 0.2: Minh hoạ Data-cube Data-cube thể qua biểu thức SQL sau: select Product, Supplier, Customer, Sum(SalesNumber) as SaleTotal from Sales group by Product, Supplier, Customer with cube ; OLAP-engine thực tính toán trước toán tử nhóm lưu trữ liệu tính toán vào trường bổ sung, ký hiệu “Any” “*” minh hoạ sau: * c1 c2 c3 p1 56 c1 c2p2 c311 *8 s2 p1 44 c1 c2 p2 c3 s1 50 110 20 4* 67 4812 51 130 * 1 49 p1 12 * 50 44 62 p2 11 19 23 50 81 * * Sales(*,*,*) Sales(p1,*,s2 ) Hình 0.3: Minh hoạ liệu tính toán lưu trữ OLAP-engine Sau xây dựng xong Data-cube, OLAP cung cấp số thao tác giúp người sử dụng phân tích liệu gồm: - Roll-up (Cuộn) thực tính toán gộp theo nhiều chiều liệu - Drill-down (Đào sâu) thao tác ngược lại với Roll-up, cung cấp liệu mức chi tiết theo chiều liệu - Slice (Cắt lát) thực “cắt” lấy “lát” liệu theo chiều Data-cube - Dice (Cắt khối) thực “cắt” lấy “khối con” liệu Data-cube - Pivot (Xoay) cho phép xoay Data-cube theo chiều liệu, từ cung cấp cho người sử dụng nhiều góc nhìn vào liệu Các thao tác Data-cube minh hoạ qua hình sau: Hình 0.4: Các thao tác OLAP Mô hình tổ chức liệu (Data model) Hầu hết hệ quản trị CSDL CSDL quan hệ dạng chuẩn hoá định (3NF cao hơn), nhiên sử dụng trực tiếp CSDL quan hệ để phân tích trực tuyến gặp nhiều khó khăn, đặc biệt tốc độ Để phân tích trực tuyến, liệu cần thiết phải tính toán trước (chấp nhận dư thừa) tổ chức lại dạng đặc biệt Hầu hết Data warehouse lưu trữ liệu theo mô hình liệu đa chiều (Multidimensional data model) dạng lược đồ hình (Star schema) dạng lược đồ tuyết (Snowflake schema) Lược đồ hình (Star schema) Mô hình Star schema (Lược đồ hình sao) đề xuất R Kimball [108], mô hình phổ biến Mỗi Star schema chứa bảng liệu chi tiết (Fact table) vài bảng chiều liệu (Dimension table) Cụ thể: - Fact table lưu trữ toàn liệu chi tiết danh sách khoá ngoại (Forein key) tương ứng với Dimension table - Dimension table chứa thuộc tính (Attribute), thuộc tính thường dạng duỗi phẳng phân cấp (Flatten) Lược đồ hình minh hoạ qua hình sau: Hình 0.5: Lược đồ hình (Star schema) Hình 0.6: Minh hoạ phân cấp thuộc tính lược đồ hình Lược đồ tuyết (Snowflake schema) Mô hình Snowflake schema mở rộng mô hình Star schema [109] ta thực chuẩn hoá số Dimension table Tức từ Dimension table ban đầu ta thực chuẩn hoá thành nhiều Dimension table có quan hệ phân cấp Lược đồ tuyết có dạng sau: TÀI LIỆU THAM KHẢO Danh sách tài liệu tham khảo tiếng Việt [001] Tạ Liên Dung (2003), Một số vấn đề khai phá liệu, Luận văn thạc sĩ CNTT, Đại học Quốc gia Hà Nội [002] Trần Vĩnh Hoàng (2007), Một số phương pháp khai phá liệu sinh luật kết hợp, Luận văn thạc sĩ CNTT, Đại học Quốc gia Hà Nội [003] Hoàng Kiếm (4/2005), Giải toán máy tính nào, Tập (tái lần thứ nhất) NXB Giáo dục [004] Nguyễn Hùng Sơn (2006), Bài giảng Tập thô Khai phá liệu [005] Vũ Đức Thi, Lê Hải Khôi (1999), Một số nguyên lý hoạt động kho liệu [006] Vũ Đức Thi (1997), Cơ sở liệu – Kiến thức thực hành NXB Thống Kê [007] Nguyễn Thanh Thuỷ (8/2001), Bài giảng Khai phá liệu - Kỹ thuật ứng dụng Danh sách tài liệu tham khảo tiếng Anh [101] (1995) J.Gray, S.Chaudhuri, A.Bosworth, A.Layman, D.Reichart, M.Venkatrao, F.Pellow and H.Pirahesh, Data-cube: a relational aggregation operator generalizing group-by, cross-tab and sub-totals, Microsoft Technical report [102] J.Han (1999), OLAP-Mining: An integration of OLAP with Data-Mining, Simon Fraser University [103] J.Han and M.Kamber (2001), Data Mining: Concepts and Techniques, Hacours Science and Technology Company, USA [104] W.H.Inmon (1996), Building the Data Warehouse, John Wiley & Sons, Chichester, second edition [105] W.H.Inmon (1995), "What is a Data Warehouse?", Prism, Volume [106] W.H.Inmon, C Kelly (1993), Rdb/VMS: Developing the Data Warehouse, QED Publishing Group, Boston, Massachussetts [107] Mehmed Kantardzic (2002), Data Mining: Concepts, Models, Methods and Algorithms, Wiley-IEEE Press [108] R.Kimball (1996), The Data Warehouse Toolkit: Practical Techniques for Building Dimensional Data Warehouses, John Wiley & Sons [109] M Levene, G Loizou (2000), “Why is the Snowflake Schema a Good Data Warehouse Design?”, Birkbeck College, University of London [110] M.J.Zaki and M.Ogihara (6/1998), Theoretical Foundations of Association Rules, In 3rd ACM SIGMOD Workshop on Research Issues in Data mining and Knowledge Discovery [111] Hua Zhu (1998), Online Analytical Mining of Association Rules, Master thesis, Simon Fraser University Danh sách Websites tham khảo [L01] http://citeseer.ist.psu.edu/ [L02] http://citeseer.ist.psu.edu/agrawal93mining.html [L03] http://citeseer.ist.psu.edu/han99mining.html [L04] http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.21.3808 [L05] http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.74.3044 [L06] http://www.cs.sfu.ca/ [L07] http://www.cse.ohio-state.edu/~agrawal/Research_new/mining.htm [L08] http://en.wikipedia.org/wiki/Data_mining [L09] http://en.wikipedia.org/wiki/Association_rule_mining [L10] http://www.filibeto.org/sun/lib/nonsun/oracle/11.1.0.6.0/B28359_01/datami ne.111/ b28129/intro_concepts.htm [L11] http://freedatawarehouse.com/tutorials/dmtutorial/Dimensional%20Modelin g%20 Tutorial.aspx [L12] http://freedatawarehouse.com/tutorials/dmtutorial/Star%20Schema.aspx [L13] http://freedatawarehouse.com/tutorials/dmtutorial/Snowflake%20Schema.as px [L14] http://www.intranetjournal.com/features/datawarehousing.html [L15] http://it.toolbox.com/blogs/enterprise-solutions/snowflake-schemamodelling-data-warehouse-20809 [...]... phương pháp khai phá dữ liệu sinh luật kết hợp, Luận văn thạc sĩ CNTT, Đại học Quốc gia Hà Nội [003] Hoàng Kiếm (4/2005), Giải một bài toán trên máy tính như thế nào, Tập 3 (tái bản lần thứ nhất) NXB Giáo dục [004] Nguyễn Hùng Sơn (2006), Bài giảng Tập thô và Khai phá dữ liệu [005] Vũ Đức Thi, Lê Hải Khôi (1999), Một số nguyên lý hoạt động của kho dữ liệu [006] Vũ Đức Thi (1997), Cơ sở dữ liệu – Kiến... trên Data-cube Khái niệm Data-cube (Khối dữ liệu đa chiều) lần đầu tiên được đề xuất bởi J Gray và các cộng sự [101], nó bao gồm các chiều dữ liệu và các thước đo, cho phép người sử dụng nhìn vào dữ liệu được lưu trữ trong Data warehouse qua nhiều góc độ và nhiều chiều dữ liệu Ví dụ, chúng ta cùng xem xét một Data-cube có 3 chiều dữ liệu Product, Supplier, Customer và 1 thước đo là SalesTotal qua hình... hoạ dữ liệu được tính toán và lưu trữ bởi OLAP-engine Sau khi xây dựng xong Data-cube, OLAP cung cấp một số thao tác giúp người sử dụng phân tích dữ liệu gồm: - Roll-up (Cuộn) thực hiện tính toán gộp theo một hoặc nhiều chiều dữ liệu - Drill-down (Đào sâu) thao tác này ngược lại với Roll-up, nó cung cấp các dữ liệu ở mức chi tiết theo các chiều dữ liệu - Slice (Cắt lát) thực hiện “cắt” lấy một “lát” dữ. .. là một tập hợp những những kỹ thuật được phát triển để phân tích dữ liệu trong Data warehouse [102] đáp ứng được các tiêu chí: Trực tuyến (Online), nhanh chóng, trực quan và hiệu quả đối với phân tích dữ liệu đa chiều OLAP thực hiện một quá trình tạo ra và quản lý dữ liệu đa chiều phục vụ cho phân tích một cách trực quan, nó cho phép truy vấn trên một CSDL khổng lồ một cách nhanh chóng và hiệu quả... dữ liệu và thông tin sẽ được trích rút từ nhiều nguồn khác nhau với các định dạng khác nhau Nếu người sử dụng muốn thực hiện các truy vấn, hệ thống sẽ chỉ thực hiện tìm kiếm dữ liệu tại Data warehouse một cách thống nhất thay vì tìm kiếm trên các CSDL (Cơ sở dữ liệu) nguồn bằng các công cụ chuyên biệt tương ứng, từ đó tiết kiệm nhiều thời gian xử lý của người sử dụng Hình 0.1: Kiến trúc tiêu biểu của. .. warehouse gồm có 3 thành phần chính sau: Các CSDL nguồn: Dữ liệu thô sẽ được tập hợp từ nhiều nơi: bên trong, bên ngoài, tự có, đi mua, dữ liệu di sản lịch sử hay dữ liệu hoạt động hiện tại (Operational database), các dữ liệu này và mọi sự thay đổi của chúng sẽ được quản lý bởi một phân hệ giám sát đặc biệt (Monitor / Wrapper modules) Ở đây, dữ liệu được tập hợp từ rất nhiều nguồn: bản thân doanh nghiệp, bên... liệu theo 1 chiều nào đó của Data-cube - Dice (Cắt khối) thực hiện “cắt” lấy một “khối con” dữ liệu của Data-cube - Pivot (Xoay) cho phép xoay Data-cube theo các chiều dữ liệu, từ đó cung cấp cho người sử dụng nhiều góc nhìn vào dữ liệu Các thao tác trên Data-cube được minh hoạ qua hình sau: Hình 0.4: Các thao tác cơ bản trong OLAP Mô hình tổ chức dữ liệu (Data model) Hầu hết các hệ quản trị CSDL hiện. . .KHO DỮ LIỆU VÀ PHÂN TÍCH DỮ LIỆU TRỰC TUYẾN Hệ thống xử lý giao dịch trực tuyến (OLTP) Hầu hết các doanh nghiệp trên thế giới đã và đang áp dụng công nghệ thông tin trong việc lưu trữ và quản lý dữ liệu Hệ thống OLTP (On-Line Transaction Processing: Hệ thống xử lý giao dịch trực tuyến) ra đời với khả năng lưu trữ dữ liệu lâu dài, hướng giao dịch (Transaction-oriented) nên được áp dụng rất... thậm chí là Microsoft Excel file hay Text file Tất cả dữ liệu này và mọi sự thay đổi của chúng sẽ được quản lý bởi phân hệ Monitor / Wrapper Lõi của Data warehouse: Tại đây, dữ liệu sẽ được tổng hợp từ các nguồn dữ liệu trên, thông thường từ các khuôn dạng khác nhau thành một dạng thống nhất và trở thành trung tâm lưu trữ của toàn bộ hệ thống Ở đây, dữ liệu thô được Trích chọn (Extract), Làm sạch (Clean),... Star schema (Lược đồ hình sao) được đề xuất bởi R Kimball [108], là mô hình phổ biến nhất hiện nay Mỗi Star schema chứa 1 bảng dữ liệu chi tiết (Fact table) và một vài bảng chiều dữ liệu (Dimension table) Cụ thể: - Fact table lưu trữ toàn bộ dữ liệu chi tiết và một danh sách các kho ngoại (Forein key) tương ứng với các Dimension table - Dimension table chỉ chứa các thuộc tính (Attribute), các thuộc

Ngày đăng: 13/11/2016, 22:18

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan