TỔNG QUAN VỀ KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU
Kho dữ liệu
1.1.1 Định nghĩa kho dữ liệu
Kho dữ liệu (Data Warehouse) là một hệ thống lưu trữ dữ liệu điện tử của tổ chức, được thiết kế để hỗ trợ phân tích và lập báo cáo Định nghĩa cổ điển tập trung vào lưu trữ dữ liệu, nhưng các thành phần như lấy, phân tích, trích xuất, biến đổi, nạp và quản lý dữ liệu cũng rất quan trọng Kho dữ liệu cung cấp dữ liệu lịch sử cho các ứng dụng hỗ trợ quyết định, bao gồm báo cáo, xử lý phân tích trực tuyến (OLAP), hệ thống thông tin điều hành (EIS) và khai thác dữ liệu Theo W.H Inmon, kho dữ liệu là tập hợp dữ liệu ổn định, được cập nhật theo thời gian và tích hợp theo chủ đề để hỗ trợ quyết định quản lý.
1.1.2 Đặc tính của kho dữ liệu
Dữ liệu trong kho được tổ chức theo các chủ đề, giúp tổ chức dễ dàng xác định thông tin cần thiết cho từng hoạt động Chẳng hạn, trong doanh nghiệp, kho dữ liệu có thể được phân loại thành các chủ đề như khách hàng, sản phẩm, và bán hàng Khác với các cơ sở dữ liệu thông thường, kho dữ liệu chỉ lưu trữ các dữ liệu tổng hợp, tập trung vào mô hình hóa và phân tích dữ liệu nhằm hỗ trợ quá trình ra quyết định.
Phạm Đức Dũng - HTTT.B - K12 Trang 2/92 tích và hỗ trợ ra quyết định chứ không tập trung vào các hoạt động hay các xử lý giao dịch hàng ngày
Kho dữ liệu cung cấp một khung nhìn đơn giản và súc tích xung quanh các sự kiện của các chủ đề
Tích hợp dữ liệu là quá trình thu thập thông tin từ nhiều nguồn khác nhau, bao gồm cơ sở dữ liệu quan hệ, tệp văn bản và bảng ghi giao dịch trực tuyến, để tạo thành một kho dữ liệu thống nhất.
Tích hợp dữ liệu giúp đảm bảo sự đồng nhất trong các quy ước như đặt tên, cấu trúc mã hóa, đơn vị đo và thuộc tính giữa các nguồn dữ liệu khác nhau.
Kho dữ liệu là một lưu trữ vật lý của dữ liệu được chuyển đổi từ môi trường tác nghiệp
Dữ liệu trong kho là dữ liệu chỉ đọc, không cho phép người dùng cuối sửa đổi Người dùng chỉ có thể nạp thêm dữ liệu và truy cập vào các vùng trong kho dữ liệu.
1.1.2.4 Gắn thời gian và có tính lịch sử
Dữ liệu trong kho dữ liệu được gọi là các ảnh chụp dữ liệu, với mỗi bản ghi phản ánh giá trị tại một thời điểm nhất định, thể hiện một khung nhìn của chủ điểm trong giai đoạn cụ thể Yếu tố thời gian là một phần của khóa chính, đảm bảo tính duy nhất cho mỗi bản ghi và cung cấp đặc trưng thời gian cho dữ liệu.
Dữ liệu trong cơ sở dữ liệu tác nghiệp cần phải chính xác tại thời điểm truy cập, trong khi dữ liệu trong kho dữ liệu chỉ cần có hiệu lực trong khoảng thời gian từ 5 đến 10 năm hoặc lâu hơn Sau một thời gian nhất định, dữ liệu trong cơ sở dữ liệu sẽ trở thành dữ liệu lịch sử và được chuyển vào kho dữ liệu.
Phạm Đức Dũng - HTTT.B - K12 Trang 3/92
Tính không biến động của kho dữ liệu được hiểu theo nghĩa: dữ liệu được lưu trữ lâu dài trong kho dữ liệu
Dữ liệu cũ trong kho vẫn được giữ lại mặc dù có thêm dữ liệu mới, điều này cho phép cung cấp thông tin trong một khoảng thời gian dài và cung cấp đủ số liệu cần thiết cho các mô hình phân tích và dự báo nghiệp vụ.
1.1.3 Mục tiêu của kho dữ liệu
Một kho dữ liệu phải đảm bảo được các mục tiêu sau:
Thông tin lưu trữ trong kho dữ liệu phải trực quan và dễ hiểu đối với người sử dụng
Dữ liệu nên được trình bày thông qua các tên gọi quen thuộc và gần gũi với nghiệp vụ của từng người dùng
Tốc độ truy cập kho dữ liệu cần phải nhanh chóng, vì phải xử lý một lượng lớn bản ghi đồng thời Đây là một trong những yêu cầu quan trọng nhất đối với hiệu suất của kho dữ liệu.
Dữ liệu trong kho dữ liệu thường được tổng hợp từ nhiều nguồn khác nhau, vì vậy cần phải làm sạch và đảm bảo chất lượng trước khi đưa vào kho Quá trình làm sạch dữ liệu giúp đồng nhất thông tin, tạo điều kiện thuận lợi cho việc sử dụng và phân tích sau này.
Nguyên tắc cơ bản trong quá trình này là dữ liệu có cùng tên phải trỏ đến cùng một địa chỉ Nếu dữ liệu chỉ đến các thực thể khác nhau, chúng cần được đặt tên khác nhau để tránh nhầm lẫn.
1.1.3.3 Thích nghi với sự thay đổi
Kho dữ liệu cần được thiết kế linh hoạt để có thể thích ứng với những thay đổi không thể tránh khỏi trong bất kỳ ứng dụng nào.
Khi có thay đổi mới dữ liệu cũ trong kho dữ liệu vẫn phải đảm bảo tính đúng đắn
Phạm Đức Dũng - HTTT.B - K12 Trang 4/92
1.1.3.4 Hỗ trợ ra quyết định
Mục tiêu hàng đầu của doanh nghiệp khi xây dựng kho dữ liệu là tối ưu hóa thông tin, từ đó phát triển các chiến lược hiệu quả nhằm nâng cao kết quả kinh doanh.
Việc đảm bảo các thông tin không bị lộ ra ngoài là một điều vô cùng quan trọng.
1.1.4 Mô hình của kho dữ liệu
Mô hình kho dữ liệu phát sinh từ một mô hình dữ liệu tổng thể, tạo ra bức tranh tổng thể cho các mô hình khác hoạt động Một thách thức trong việc thiết lập mô hình dữ liệu là không có câu trả lời đúng cho mọi tình huống Mô hình dữ liệu kho dữ liệu mang tính chủ đề, phụ thuộc vào công việc nghiệp vụ và các vấn đề phát sinh.
Mô hình dữ liệu của kho dữ liệu có thể thiết lập theo:
1.1.4.1 Lƣợc đồ dữ liệu hình sao
Lược đồ hình sao, do Dr Ralph Kimball giới thiệu, là một thiết kế cơ sở dữ liệu cho kho dữ liệu, trong đó các sự kiện nằm ở trung tâm và được bao quanh bởi các phạm vi liên quan, tương tự như hình dáng của một ngôi sao Mô hình này cho phép kết nối nhiều đối tượng khác nhau trong hệ thống, đồng thời phản ánh cách nhìn của người sử dụng về các vấn đề trong tác nghiệp.
Trong lược đồ hình sao, dữ liệu được xác định và phân loại theo 2 kiểu:
Khai phá dữ liệu
1.2.1 Định nghĩa khai phá dữ liệu
Khai phá dữ liệu là cần thiết trong bối cảnh lượng thông tin toàn cầu tăng gấp đôi mỗi 20 tháng, dẫn đến việc lưu trữ và quản lý dữ liệu trở nên khó khăn Khái niệm khủng hoảng phân tích dữ liệu tác nghiệp đã xuất hiện nhằm đáp ứng yêu cầu chất lượng thông tin ngày càng cao cho các nhà ra quyết định trong lĩnh vực tài chính, thương mại và khoa học Như John Naisbett đã cảnh báo, “Chúng ta đang chìm ngập trong dữ liệu mà vẫn đói tri thức.”
Với sự gia tăng nhanh chóng và khổng lồ của khối lượng dữ liệu, các phương pháp phân tích dữ liệu truyền thống trở nên kém hiệu quả, tốn kém và dễ dẫn đến sai lệch Vì vậy, việc áp dụng các phương pháp hiện đại để khai thác hiệu quả các cơ sở dữ liệu là cần thiết.
Phạm Đức Dũng - HTTT.B - K12 Trang 10/92 liệu lớn cần phải có những kỹ thuật mới, các kỹ thuật khai phá dữ liệu (Data Mining)
Vậy, khai phá dữ liệu là gì?
Khai phá dữ liệu là tập hợp các kỹ thuật tự động nhằm khám phá và phát hiện mối quan hệ trong tập dữ liệu lớn và phức tạp Quá trình này giúp tìm ra các mẫu tiềm ẩn, chưa được biết đến trước đây, có khả năng mang lại giá trị hữu ích dưới dạng quy luật, ràng buộc và quy tắc trong dữ liệu.
KPDL, xuất hiện vào cuối thập kỷ 80 của thế kỷ XX, là quá trình khai thác thông tin ẩn trong các cơ sở dữ liệu, đóng vai trò quan trọng trong việc khám phá tri thức Những tri thức này hỗ trợ ra quyết định trong nhiều lĩnh vực như khoa học và kinh doanh Tóm lại, KPDL có thể được xem như một quá trình học hỏi tri thức mới từ dữ liệu đã được thu thập.
1.2.2 Quá trình khai phá dữ liệu
Quá trình KPDL (Khai thác và Phân tích Dữ liệu) là một nhiệm vụ phức tạp liên quan đến nhiều vấn đề Khi lĩnh vực ứng dụng hoặc bài toán đã được xác định trên các tập dữ liệu lớn như kho dữ liệu và cơ sở dữ liệu, quá trình KPDL có thể được thực hiện theo 6 bước cụ thể.
Hình 1.4 Quá trình khai phá dữ liệu
Phạm Đức Dũng - HTTT.B - K12 Trang 11/92
Quá trình bắt đầu từ kho dữ liệu thô và kết thúc bằng việc chiết xuất tri thức là một thách thức lớn, đối mặt với nhiều khó khăn như quản lý tập dữ liệu và phải lặp lại toàn bộ quy trình nhiều lần.
Ta sẽ tìm hiểu các công việc cụ thể thực hiện trong từng bước như sau:
Tập hợp dữ liệu là bước đầu tiên quan trọng trong quá trình KPDL, nơi dữ liệu được khai thác từ các cơ sở dữ liệu, kho dữ liệu và các nguồn ứng dụng Web.
Lựa chọn dữ liệu Ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn nào đó
Ví dụ như việc chọn ra các sản phẩm có giá từ 30 $ đến 50 $ và được mua trong tháng 5
Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu
Giai đoạn thứ ba trong quá trình KPDL thường bị xem nhẹ nhưng lại rất quan trọng Nhiều lỗi thường gặp trong việc gom dữ liệu bao gồm tính không đủ chặt chẽ và thiếu logic, dẫn đến dữ liệu chứa các giá trị vô nghĩa và không thể kết nối Quá trình này sẽ xử lý các dạng dữ liệu không chặt chẽ, vì chúng được coi là thông tin dư thừa và không có giá trị Do đó, việc "làm sạch - tiền xử lý - chuẩn bị trước" dữ liệu là cực kỳ cần thiết để tránh những kết quả sai lệch nghiêm trọng.
Giai đoạn chuyển đổi dữ liệu là bước quan trọng, nơi dữ liệu được tổ chức lại để có thể sử dụng và điều khiển hiệu quả Quá trình này đảm bảo rằng dữ liệu đã được chuyển đổi phù hợp với mục đích khai thác, tối ưu hóa khả năng phân tích và ứng dụng.
Phát hiện và trích mẫu dữ liệu là bước quan trọng trong KPDL, nơi nhiều thuật toán được áp dụng để khai thác các mẫu từ dữ liệu Các thuật toán phổ biến bao gồm nguyên tắc phân loại, nguyên tắc kết hợp và các mô hình dữ liệu tuần tự, giúp tối ưu hóa quá trình phân tích dữ liệu.
Phạm Đức Dũng - HTTT.B - K12 Trang 12/92
Đánh giá kết quả mẫu là giai đoạn cuối trong quá trình KPDL, nơi các mẫu dữ liệu được chiết xuất bởi phần mềm Tuy nhiên, không phải tất cả các mẫu dữ liệu đều hữu ích và có thể bị sai lệch Do đó, cần ưu tiên các tiêu chuẩn đánh giá để trích xuất tri thức cần thiết.
1.2.3 Kiến trúc hệ thống khai phá dữ liệu
Cơ sở dữ liệu, kho dữ liệu và các nguồn thông tin khác như World Wide Web có thể bao gồm một hoặc nhiều hệ thống lưu trữ dữ liệu Việc áp dụng các kỹ thuật làm sạch và tích hợp dữ liệu sẽ giúp tối ưu hóa chất lượng và tính khả dụng của thông tin từ những nguồn này.
Máy chủ cơ sở dữ liệu hoặc kho dữ liệu đóng vai trò quan trọng trong việc cung cấp dữ liệu phù hợp theo yêu cầu khai thác của người dùng.
Cơ sở tri thức (Knowledge Base): Đây là miền tri thức được sử dụng để tìm kiếm hoặc đánh giá độ quan trọng của các mẫu tìm thấy
Máy khai phá dữ liệu là thành phần chính của hệ thống KPDL, bao gồm các module thực hiện nhiều tác vụ quan trọng như phân tích đặc trưng, quan hệ kết hợp, phân lớp, dự đoán và phân tích cụm.
Module đánh giá mẫu (Pattern Evaluation Module) tương tác với máy KPDL để xác định các mẫu quan trọng Module này có thể tích hợp với module khai phá, tùy thuộc vào phương pháp khai phá và cách cài đặt, nhằm tối ưu hóa hiệu quả khai thác dữ liệu.
Kết luận chương 1
Kết thúc chương 1, chúng ta đã hiểu rõ về kho dữ liệu và quá trình KPDL, nhận thấy tầm quan trọng của sự kết hợp này Việc tích hợp kho dữ liệu với KPDL mang lại lợi ích lớn, vì dữ liệu trong kho đã được tập hợp và làm sạch, rất phù hợp cho KPDL Cơ sở hạ tầng của kho dữ liệu hỗ trợ hiệu quả cho các thao tác xuất, nhập và xử lý dữ liệu Hơn nữa, dịch vụ OLAP cung cấp các tập lệnh hữu ích cho phân tích dữ liệu Qua quá trình KPDL, chúng ta có thể thu được tri thức tổng quát và quy luật, giúp hỗ trợ quyết định trong nhiều lĩnh vực của cuộc sống.
Phạm Đức Dũng - HTTT.B - K12 Trang 18/92
TÌM HIỂU DB2, INFOSPHERE WAREHOUSE & COGNOS
IBM DB2 Express-C
2.1.1 Tổng quan về IBM DB2 Express-C
Phần mềm máy chủ dữ liệu DB2 Express-C là sản phẩm miễn phí và dễ sử dụng thuộc dòng IBM DB2, hỗ trợ quản lý cả dữ liệu quan hệ và XML Chữ "C" trong tên gọi thể hiện khái niệm Cộng đồng, nơi người dùng DB2 Express-C có thể kết nối và hỗ trợ lẫn nhau, cả trực tuyến và ngoại tuyến.
Các nhà phát triển ứng dụng cần một phần mềm cơ sở dữ liệu chuẩn và mở để xây dựng các ứng dụng độc lập, bao gồm cả ứng dụng khách-chủ trên nền web và các chương trình ứng dụng kinh doanh.
Các nhà cung cấp phần mềm độc lập (ISVs) là những doanh nghiệp cung cấp phần mềm, phần cứng, cơ sở hạ tầng và các giải pháp khác, với mục tiêu đóng gói một máy chủ dữ liệu đầy đủ tính năng để tích hợp vào giải pháp của họ.
Các nhà cố vấn, quản trị cơ sở dữ liệu và kiến trúc sư công nghệ thông tin cần một máy chủ dữ liệu mạnh mẽ để nâng cao kỹ năng, phát triển chuyên môn, cũng như thực hiện các đánh giá và thử nghiệm hiệu quả.
Các công ty mới thành lập và doanh nghiệp vừa và nhỏ cần một máy chủ dữ liệu đáng tin cậy để hỗ trợ các ứng dụng và hoạt động kinh doanh của họ.
Những người đam mê cơ sở dữ liệu và công nghệ mới đang tìm kiếm một máy chủ dữ liệu thân thiện với người dùng để phát triển các ứng dụng Web 2.0 và thế hệ ứng dụng mới.
Sinh viên, giáo viên và người dùng trong lĩnh vực học tập, nghiên cứu cần một máy chủ dữ liệu linh hoạt để phục vụ cho việc giảng dạy, học tập và nghiên cứu hiệu quả.
Phạm Đức Dũng - HTTT.B - K12 Trang 19/92
DB2 Express-C là phiên bản miễn phí của DB2, cung cấp các tính năng cơ bản tương tự như các phiên bản thương mại trên nền tảng Linux, Unix và Windows Phần mềm này hỗ trợ cả hệ thống 32-bit và 64-bit, có thể hoạt động trên nhiều loại bộ vi xử lý và bộ nhớ mà không cần cài đặt hay bộ nhớ chuyên dụng Đặc biệt, DB2 Express-C tích hợp công nghệ pureXML, cho phép lưu trữ và xử lý trực tiếp các tài liệu XML, mang lại hiệu quả cao trong quản lý dữ liệu.
2.1.2 Những điểm mới nổi bật của DB2 Express-C
Tự do phát triển, triển khai và phân phối không có giới hạn Đó chính là ý tưởng chính của DB2 Express-C:
Tự do phát triển: Miễn phí khi phát triển các sản phẩm phần mềm trên hệ quản trị CSDL DB2 Express-C
Tự do triển khai: Miễn phí khi ứng dụng DB2 Express-C vào hoạt động sản xuất kinh doanh
Tự do phân phối: Miễn phí cả khi đóng gói vào một sản phẩm phần mềm khi phân phối
Không giới hạn: Không giới hạn về kích thước CSDL cũng như số lượng kết nối và người sử dụng
2.1.3 Các máy chủ của DB2
Tất cả các phiên bản máy chủ DB2 đều chia sẻ các thành phần cốt lõi, giúp người dùng dễ dàng lựa chọn tính năng phù hợp với nhu cầu của mình Các phiên bản này được đóng gói một cách tiện lợi, mang đến sự lựa chọn hợp lý về giá cả cho người sử dụng.
Hình 2.1 Các ấn bản máy chủ của DB2
Phạm Đức Dũng - HTTT.B - K12 Trang 20/92
Một máy khách DB2 bao gồm các chức năng cần thiết để kết nối với máy chủ DB2 Máy khách DB2 gồm những loại sau:
Máy khách DB2: Đầy đủ nhất, bao gồm các công cụ đồ họa, các trình điều khiển
Máy khách DB2 runtime client: Có các chức năng cơ bản để kết nối, cũng bao gồm các trình điều khiển
Máy khách DB2 runtime kết hợp Module cho Windows chủ yếu được sử dụng như một phần cài đặt cho các ứng dụng trên hệ điều hành Windows.
Hình 2.2 Các máy khách DB2 và trình điều khiển 2.1.5 Môi trường của DB2
Hình 2.3 Môi trường của DB2
Phạm Đức Dũng - HTTT.B - K12 Trang 21/92
Các thành phần môi trường của DB2 bao gồm:
DB2 Server (Linux/Windows): Máy chủ dữ liệu DB2 được tạo ra khi cài đặt
Trong quá trình cài đặt trên môi trường Windows, các thể hiện (Instances) được tạo ra, trong đó thể hiện mặc định là DB2 Đây là một môi trường độc lập cho phép chạy ứng dụng và tạo cơ sở dữ liệu (CSDL) Người dùng có thể tạo nhiều thể hiện trên cùng một máy chủ dữ liệu để phục vụ cho các mục đích khác nhau Mỗi thể hiện được phân biệt bằng một địa chỉ cổng (port) riêng, điều này giúp dễ dàng kết nối tới một CSDL cụ thể từ máy khách ở xa.
Cơ sở dữ liệu: Bên trong bất kì thể hiện nào, ta có thể tạo ra nhiều CSDL
Cơ sở dữ liệu (CSDL) là tập hợp các đối tượng như bảng, khung nhìn, chỉ mục và nhiều thành phần khác Mỗi CSDL hoạt động như một thực thể độc lập, do đó không thể chia sẻ các đối tượng giữa các CSDL khác nhau.
Khi một cơ sở dữ liệu (CSDL) được tạo ra, không gian bảng cùng với các đối tượng khác như bảng, vùng đệm dữ liệu và tập tin nhật ký cũng được tạo theo mặc định Không gian bảng hoạt động như các lớp logic giữa các bảng và là tài nguyên hệ thống như ổ đĩa và bộ nhớ Nó bao gồm các thành phần chính: SYSCATSPACE, nơi chứa các bảng danh mục không thể sửa đổi; TEMSPACE1, được sử dụng khi cần thêm không gian cho các thao tác như sắp xếp; và USERSPACE1, dùng để lưu trữ các bảng CSDL của người dùng khi không có không gian bảng riêng.
Vùng đệm IBMDEFAULTBP là một vùng nhớ quan trọng được sử dụng bởi cơ sở dữ liệu (CSDL), cho phép người dùng tạo ra nhiều vùng đệm khác nhau Các tệp nhật kí LOGS đóng vai trò thiết yếu trong quá trình phục hồi dữ liệu, vì chúng lưu trữ tất cả các thao tác xử lý trên dữ liệu, không chỉ trên các ổ đĩa của CSDL mà còn trong các tệp nhật kí để đảm bảo an toàn và khôi phục thông tin khi cần thiết.
Phạm Đức Dũng - HTTT.B - K12 Trang 22/92
2.1.6 Các công cụ của DB2
Hình 2.4 Các công cụ của DB2
Ta sẽ tìm hiểu một số công cụ chủ yếu của DB2:
2.1.6.1 Trung tâm điều khiển (Control Center) Đây là công cụ chính của DB2 dùng trong việc quản trị cơ sở dữ liệu, là một công cụ quản lý tập trung cho phép:
Xem xét hệ thống, các bản cài đặt DB2, các CSDL và các đối tượng tạo trong CSDL
Tạo, sửa và quản lý CSDL và các đối tượng trong CDSL
Khởi động các công cụ đồ họa khác của DB2
Phạm Đức Dũng - HTTT.B - K12 Trang 23/92
Trung tâm điều khiển có giao diện như hình:
Hình 2.5 Trung tâm điều khiển của DB2
IBM InfoSphere Warehouse
2.2.1 Tổng quan về InfoSphere Warehouse
InfoSphere Warehouse là một sản phẩm kết hợp sức mạnh của DB2 với hạ tầng lưu trữ dữ liệu của IBM, cung cấp nền tảng phân tích kinh doanh toàn diện Nó cho phép thiết kế, phát triển và triển khai ứng dụng phân tích trong doanh nghiệp, tạo ra giải pháp lưu trữ dữ liệu hoàn chỉnh với cơ sở dữ liệu quan hệ mở rộng InfoSphere Warehouse tích hợp các thành phần cốt lõi cho quản lý kho dữ liệu, khai thác dữ liệu, OLAP, phân tích nội tuyến, báo cáo và quản lý khối lượng công việc.
InfoSphere Warehouse sử dụng DB2 để lưu trữ dữ liệu, cung cấp tính năng phân vùng giúp tối ưu hiệu suất và bảo mật Nó có khả năng mở rộng lưu trữ trong kho dữ liệu, kết hợp ưu điểm của các cơ sở dữ liệu xử lý giao dịch trực tuyến (OLTP) với nhu cầu lưu trữ của các kho dữ liệu lớn.
IBM InfoSphere Warehouse là giải pháp kho dữ liệu lý tưởng cho doanh nghiệp vừa và lớn, mang lại lợi ích từ phân tích tiên tiến như khai thác dữ liệu, mô hình hóa, chấm điểm và phân tích văn bản Nền tảng này hỗ trợ xây dựng phân tích doanh nghiệp theo thời gian thực, cung cấp những phân tích chuyên sâu cho tất cả người dùng.
InfoSphere Warehouse là một kho dữ liệu mạnh mẽ, cung cấp môi trường thống nhất cho việc truy cập thông tin có cấu trúc và phi cấu trúc trong thời gian thực Với tính năng dịch vụ Cubing, nó cho phép người dùng có cái nhìn sâu sắc về dữ liệu thông qua một máy chủ phân tích đa chiều, hỗ trợ các ứng dụng OLAP truy cập lên đến một terabyte dữ liệu cơ sở mà không cần nhiều bản sao.
2.2.2 Các thành phần của InfoSphere Warehouse
InfoSphere Warehouse có kiến trúc gồm các thành phần máy khách và máy chủ, được tổ chức thành ba nhóm chính Mặc dù các nhóm này thường được cài đặt trên ba máy tính khác nhau, chúng cũng có thể hoạt động trên một hoặc hai máy, nhờ vào khả năng cấu hình đa tầng.
Phạm Đức Dũng - HTTT.B - K12 Trang 28/92
Thành phần máy chủ dữ liệu:
DB2 Enterprise Server Edition o Intelligent Miner o DB2 Query Patroller o InfoSphere Federation Server Relational Wrappers
Thành phần máy chủ ứng dụng:
Administration Console and Workload Manager o SQL Warehousing (SQW) administration o Cubing Services administration o Intelligent Mining administration o Workload Manager o Unstructured Text Analysis
Design Studio o SQL Warehousing (SQW) Tool o Cubing Services modeling o Intelligent Mining tools o Unstructured Text Analysis tools o Mining Blox tools
IBM Data Server client o DB2 Query Patroller Center
Administration Console Command Line Client
Phạm Đức Dũng - HTTT.B - K12 Trang 29/92
Hình 2.11 Kiến trúc thành phần chức năng của InfoSphere Warehouse
Các thành phần của InfoSphere Warehouse được tổ chức thành các loại sau:
Hệ quản trị cơ sở dữ liệu (Database management system):
Hệ quản trị cơ sở dữ liệu (CSDL) đóng vai trò quan trọng trong kho dữ liệu InfoSphere, với DB2 là lựa chọn hàng đầu được tin cậy toàn cầu DB2 không chỉ giúp quản lý khối lượng công việc lớn mà còn giảm thiểu chi phí cho việc quản lý, lưu trữ và phát triển hệ thống máy chủ.
Di chuyển và chuyển đổi dữ liệu (Data movement and transformation):
Với InfoSphere Warehouse, việc di chuyển và chuyển đổi dữ liệu trong kho được thực hiện dễ dàng thông qua kho công cụ SQL (SQW) SQW cung cấp giao diện kéo-và-thả, giúp người dùng xác định và thực hiện các chuyển đổi dữ liệu một cách trực quan và hiệu quả.
Tối ƣu hóa hiệu suất (Performance optimization):
InfoSphere Warehouse cung cấp nhiều tính năng giúp tối ưu hóa hiệu suất cho các ứng dụng phân tích dữ liệu, bao gồm phân vùng cơ sở dữ liệu, phân tích nội tuyến và nén dữ liệu Những tính năng này cho phép khai thác hiệu quả dữ liệu từ kho dữ liệu, nâng cao khả năng phân tích và xử lý thông tin.
Phạm Đức Dũng - HTTT.B - K12 Trang 30/92
Phân tích nhúng (Embedded analytics):
Khai thác dữ liệu và trực quan hóa là những yếu tố quan trọng trong phân tích nội tuyến sử dụng InfoSphere Warehouse Alphablox Dịch vụ tạo khối giúp cải thiện hiệu quả phân tích, trong khi phân tích văn bản phi cấu trúc cung cấp cái nhìn sâu sắc về dữ liệu không có cấu trúc.
Mô hình hóa và thiết kế (Modeling and design):
Tất cả các mô hình và thiết kế của InfoSphere Warehouse được thực hiện trong môi trường phát triển tích hợp dựa trên Eclipse (IDE) với giao diện Design Studio Môi trường này hỗ trợ thiết kế và phát triển các mô hình dữ liệu, mô hình OLAP, mô hình khai thác dữ liệu, cũng như các tác vụ chuyển dữ liệu trong kho dữ liệu.
Quản lý và kiểm soát (Administration and control):
Tất cả các ứng dụng dựa trên InfoSphere Warehouse được quản lý tập trung sử dụng giao diện web, đó là InfoSphere Warehouse Administration
Phạm Đức Dũng - HTTT.B - K12 Trang 31/92
Console Giao diện web này chạy trên ứng dụng WebSphere của máy chủ IBM được bao gồm trong bộ ứng dụng InfoSphere Warehouse
Hình 2.13 InfoSphere Warehouse Administration Console
Hình 2.14 Các chức năng của Administration Console 2.2.3 Kiến trúc cài đặt InfoSphere Warehouse trên nhiều máy tính
InfoSphere Warehouse features an architecture composed of three key components: the InfoSphere Warehouse data server, the InfoSphere Warehouse application server, and the InfoSphere Warehouse client Typically, each component is installed separately to optimize performance and functionality.
Phạm Đức Dũng - HTTT.B - K12 Trang 32/92 nhóm thành phần trên các máy tính khác nhau để tạo ra một giải pháp kho dữ liệu đầy đủ
Sơ đồ dưới đây minh họa kiến trúc thành phần của sản phẩm và cung cấp cơ sở cho việc lập kế hoạch cài đặt trên nhiều máy tính
Hình 2.15 Kiến trúc InfoSphere cài đặt trên nhiều máy tính
2.2.4 Khai phá dữ liệu trong InfoSphere Warehouse
InfoSphere Warehouse có sẵn một loạt các công cụ để quản lý và phân tích kho dữ liệu Các thành phần phân tích gồm:
Các dịch vụ tạo khối
InfoSphere Warehouse Design Studio là một nền tảng mạnh mẽ dựa trên Eclipse, cho phép người dùng thiết kế các quy tắc liên quan đến khối lượng công việc và các luồng biến đổi dữ liệu một cách hiệu quả.
Phạm Đức Dũng - HTTT.B - K12 Trang 33/92 đề cập đến việc khai phá dữ liệu và phân tích văn bản thông qua InfoSphere Warehouse Hệ thống này được xây dựng dựa trên các thủ tục lưu trữ của DB2 và các hàm do người dùng định nghĩa, nhằm tối ưu hóa hiệu suất trong cơ sở dữ liệu Người dùng có thể truy cập InfoSphere Warehouse qua giao diện SQL hoặc các luồng khai phá dữ liệu, mang lại khả năng phân tích mạnh mẽ và hiệu quả.
InfoSphere Warehouse cung cấp cài đặt cho hầu hết các thuật toán khai phá dữ liệu hiện nay Tất cả các hàm khai phá dữ liệu có thể được gọi như các lệnh SQL thông thường, giúp dễ dàng tích hợp vào nhiều thiết lập, bao gồm cả các dịch vụ Web.
Kỹ thuật khai phá dữ liệu trong InfoSphere Warehouse có thể được chia thành hai nhóm lớn:
Kỹ thuật phát hiện: Phân cụm, kết hợp, trình tự
Kỹ thuật dự đoán: Phân lớp, hồi quy, dự báo theo chuỗi thời gian
Các thành phần khai phá dữ liệu trong InfoSphere Warehouse:
Mô hình hóa đồ họa có thể được thực hiện qua InfoSphere Warehouse Design Studio, cho phép xây dựng các mô hình KPDL từ thông tin cư trú trong cơ sở dữ liệu DB2.
IBM Cognos Business Intelligence
Ngày nay, các tổ chức phải đối mặt với áp lực lớn trong việc nắm bắt và phản ứng nhanh chóng với thông tin Giải pháp kinh doanh thông minh giúp mọi cấp độ của tổ chức tiếp cận thông tin cần thiết mọi lúc, mọi nơi, từ đó đưa ra quyết định nhanh chóng và chính xác Nhiều tổ chức thường sử dụng các giải pháp tạm thời để đáp ứng nhu cầu đa dạng và phức tạp Tuy nhiên, với IBM Cognos Business Intelligence (BI), các tổ chức có thể đáp ứng nhu cầu của người sử dụng và đảm bảo sự hợp tác từ một nguồn dữ liệu chung Hơn nữa, công nghệ thông tin được đơn giản hóa với ít thành phần hơn trong việc triển khai, quản lý và bảo trì.
Trong bài viết này, chúng ta sẽ khám phá giải pháp kinh doanh IBM Cognos BI, đặc biệt nhấn mạnh vào khả năng tạo ra các báo cáo thông minh mà giải pháp này cung cấp.
2.3.1 Giới thiệu về IBM Cognos BI
Business Intelligence (BI) là quy trình trích xuất thông tin từ nhiều nguồn dữ liệu khác nhau, hỗ trợ quản lý và ra quyết định quan trọng cho doanh nghiệp Hệ thống BI thường bao gồm ba quy trình cơ bản trong việc xử lý dữ liệu.
Hợp nhất dữ liệu từ nhiều nguồn
Khám phá, khai thác dữ liệu
Chia sẻ dữ liệu với các bên liên quan
Phạm Đức Dũng - HTTT.B - K12 Trang 35/92
IBM Cognos BI là giải pháp hàng đầu thế giới trong lĩnh vực Business Intelligence, cung cấp các công cụ tạo báo cáo, dự báo và phân tích giả lập Nó hỗ trợ doanh nghiệp trong việc lập kế hoạch chiến lược, quản lý nguồn tài chính và điều hành các hoạt động kinh doanh hiệu quả.
IBM Cognos BI là một hệ thống báo cáo mạnh mẽ, cho phép khách hàng truy cập và phân tích dữ liệu từ nhiều nguồn khác nhau Hệ thống này giúp chuyển đổi dữ liệu thành thông tin có giá trị, hỗ trợ quá trình ra quyết định một cách chính xác và hiệu quả Nhờ đó, doanh nghiệp có thể tìm ra các giải pháp vượt trội hơn so với đối thủ cạnh tranh cho những vấn đề quan trọng trong kinh doanh.
IBM Cognos BI sẽ giúp khách hàng trả lời những câu hỏi chính trong hệ thống doanh nghiệp của mình như là:
Chúng ta đang làm việc như thế nào?
Tại sao chúng ta lại đạt hiểu quả hay không hiệu quả theo kế hoạch đã vạch ra?
Chúng ta nên có kế hoạch gì?
Việc này sẽ giúp khách hàng hiểu rõ hơn về các hoạt động trong quản lý của họ Liệu công tác quản lý có hiệu quả? Cần có những điều chỉnh nào để nâng cao hiệu quả quản lý?
Hình 2.16 Nền tảng duy nhất cho việc ra quyết định
Phạm Đức Dũng - HTTT.B - K12 Trang 36/92
Mỗi câu hỏi trên đã có sẵn những chức năng trong phần mềm Cognos:
“How are we doing?” - được thể hiện qua những bản báo cáo Dashboards và Scorecards
“Why?” - được thể hiện qua phần phân tích của Cognos - Analatics
“What should we be doing?” - được thể hiện qua phần Planning,
IBM Cognos BI là giải pháp quản lý doanh nghiệp thông minh (BI) duy nhất cung cấp đầy đủ chức năng BI trong một cấu trúc web thống nhất, giúp người dùng dễ dàng truy cập Phần mềm này bao gồm các module như báo cáo đa chiều, phân tích, quản lý sự kiện và kết nối dữ liệu từ nhiều nguồn khác nhau Người dùng có thể sử dụng các chức năng này trực tiếp trên trang web mà không cần cài đặt riêng lẻ trên từng máy Đặc biệt, với tính năng Cognos 8 Go!, người dùng còn có thể truy xuất báo cáo trên thiết bị di động một cách thuận tiện.
Mô hình kiến trúc của IBM Cognos BI tích hợp tất cả các chức năng cần thiết cho Business Intelligence trong một cấu trúc hiện đại và đồng nhất.
Hình 2.17 Mô hình kiến trúc của IBM Cognos BI
Phạm Đức Dũng - HTTT.B - K12 Trang 37/92
2.3.2 Công cụ OLAP của IBM Cognos BI
IBM Cognos BI là nền tảng và công cụ mạnh mẽ cho các ứng dụng Business Intelligence, hỗ trợ hiệu quả trong thiết kế, xây dựng và thực thi các ứng dụng OLAP Nhờ đó, nó nâng cao hiệu suất cho các ứng dụng phân tích và tạo lập báo cáo.
Với khả năng hỗ trợ OLAP có trong Cognos BI thì người dùng có thể khai thác dữ liệu trên cơ sở:
Xác định truy vấn là bước đầu tiên trong việc phân tích dữ liệu đa chiều, bao gồm việc xác định các chiều căn bản (Regular Dimensions), các chiều độ đo (Measure Dimensions), các phân cấp (Hierarchies) và các thuộc tính (Attributes) của khối dữ liệu.
Hỗ trợ đa phân cấp
Định nghĩa các thuộc tính của các chiều trong khối dữ liệu
Tập hợp các miền sự kiện
Mô hình Star-Schemas và Cross-Star Reporting
Cognos BI cung cấp cho người dùng hiệu quả tối ưu trong công việc nhờ vào tính linh hoạt trong thiết kế và xây dựng mô hình cho các chiều và quan hệ trong quá trình tạo ra các khối dữ liệu đa chiều.
Hình 2.18 Các giải pháp OLAP
Phạm Đức Dũng - HTTT.B - K12 Trang 38/92
Với Cognos, người dùng có thể tận dụng tối đa tài nguyên của mình trong một môi trường BI duy nhất, mang lại hiệu quả cao trong việc phân tích và quản lý dữ liệu.
Khai thác những các thể hiện khác nhau của dữ liệu theo cách thể hiện từ phía nghiệp vụ
Khả năng trực quan hóa thông tin mạnh mẽ với khả n ăng tương tác với người dùng dễ dàng và thân thiện
Một mô hình đặc tả dữ liệu cho tất cả, người dùng, ngôn ngữ, các hàm, các tính năng hay khả năng chuyên biệt của BI
2.3.3 Các chức năng của IBM Cognos BI
Chức năng này giúp người dùng lập báo cáo nhanh chóng và dễ dàng, đáp ứng nhu cầu với các đặc điểm nổi bật.
Một môi trường soạn thảo duy nhất, đáp ứng cho đầy đủ các loại báo cáo
Lập các báo cáo kinh doanh có quản lý, các báo cáo sản xuất, bảng điều khiển và truy vấn ngẫu hứng
Báo cáo được lập từ nhiều nguồn dữ liệu: OLAP, nguồn dữ liệu quan hệ
Xuất báo cáo sang mọi định dạng mong muốn: E -mail, HTML, PDF, MS Excel, CSV và XML
Giảm tải cho IT và giảm thời gian trễ khi lập báo cáo nhờ định dạng kiểu kéo thả và người dùng tự phục vụ
Có sẵn khả năng hỗ trợ lập báo cáo theo chiều sâu và chiều rộng
Hỗ trợ font chữ unicode, đáp ứng các nhu cầu lập báo cáo đã ngôn ngữ Lập báo cáo một lần và triển khai trên mọi ngôn ngữ
Người dùng có thể truy cập và tương tác với các báo cáo trên thiết bị di động mà không cần chờ đợi toàn bộ báo cáo tải về.
Chức năng này giúp các nhà quản lý nắm bắt sâu sắc hoạt động kinh doanh của họ Người dùng có khả năng thực hiện phân tích một cách nhanh chóng và dễ dàng, từ đó nâng cao hiệu quả kinh doanh Các đặc điểm nổi bật của chức năng phân tích này bao gồm khả năng cung cấp thông tin chi tiết và hỗ trợ ra quyết định.
Khám phá và phân tích khối lượng lớn dữ liệu với thời gian đáp ứng nhanh và khả năng dự đoán
Phạm Đức Dũng - HTTT.B - K12 Trang 39/92
Phân tích mọi dữ liệu, sử dụng OLAP hay các nguồn dữ liệu quan hệ
Thực hiện phân tích so sánh sâu về hiệu năng kinh doanh theo nhiều chiều (thời gian, sản phẩm, khách hàng v.v.)
Phân tích các nhóm dữ liệu lớn, phức tạp với một giao diện người dùng kéo thả, dễ sử dụng
2.3.3.3 Lập bảng điểm phân tích
Liên kết các dự án với chiến lược bằng các tiêu chí và bản đồ chiến lược
Đánh giá nhanh hiệu năng theo mục tiêu
Bảo đảm trách nhiệm liên đới bằng cách liên kết các tiêu chí với chủ sở hữu
Hiểu rõ các xu hướng hiệu năng với truy nhập trực tiếp tới các báo cáo và phân tích
Khả năng theo dõi dự án sẵn sàng để quản lý các hoạt động sửa chữa
Sử dụng các dữ liệu tiêu chí để thực hiện quy hoạch doanh nghiệp và tích hợp quản lý hiệu năng
Cung cấp thông tin từ nhiều nguồn khác nhau trong một báo cáo hình họa đơn nhất
Cung cấp hình ảnh tức thời về hiệu năng của doanh nghiệp
Tích hợp KPDL trong InfoSphere Warehouse và tạo báo cáo Cognos
Khai phá dữ liệu giúp chuyên gia và người dùng nắm bắt các mẫu trong bộ dữ liệu lớn, tích hợp vào quy trình nghiệp vụ hàng ngày Trước đây, chỉ các chuyên gia thống kê và phân tích dữ liệu mới thực hiện được việc này, nhưng kết quả từ khai phá dữ liệu lại ảnh hưởng đến nhiều người dùng trong tổ chức Do đó, việc giúp người dùng hiểu rõ kết quả khai phá dữ liệu là một bước quan trọng trong quá trình phân tích.
Để phân phối kết quả KPDL hiệu quả đến các nhà phân tích và nhân viên, cần trình bày chúng một cách phản ánh quy trình nghiệp vụ liên quan và đáp ứng yêu cầu an ninh, đảm bảo mỗi người dùng chỉ thấy thông tin được phép Điều này đòi hỏi phải thay đổi góc nhìn từ phân tích thống kê sang người dùng cuối và quy trình nghiệp vụ của họ InfoSphere Warehouse là nền tảng vững chắc cho việc xây dựng kho dữ liệu toàn công ty, cung cấp khả năng khai thác dữ liệu trực tiếp từ cơ sở dữ liệu DB2, nơi lưu trữ dữ liệu Người dùng có thể truy cập đầy đủ chức năng qua nền tảng công cụ dựa trên Eclipse, dễ sử dụng và cho phép kích hoạt các nhiệm vụ triển khai ngay trong công cụ.
IBM Cognos là một trong những giải pháp hàng đầu trong lĩnh vực tạo báo cáo, đóng vai trò quan trọng trong việc củng cố và trực quan hóa thông tin cho các doanh nghiệp Việc sử dụng công cụ này giúp các công ty trình bày dữ liệu một cách hiệu quả và dễ hiểu, nâng cao khả năng ra quyết định.
Phạm Đức Dũng - HTTT.B - K12 Trang 44/92 nhấn mạnh rằng các kết quả thường được rút ra từ phép tính số học cơ bản trên thông tin lưu trữ trong kho dữ liệu, như doanh thu trung bình hàng tháng Tuy nhiên, các phân tích nâng cao không nằm trong khả năng của khung báo cáo thông thường Để khắc phục điều này, việc kết hợp khả năng phân tích nâng cao của InfoSphere Warehouse với khả năng tạo báo cáo tinh vi của Cognos IBM là cần thiết Sự tích hợp này cho phép khai thác dữ liệu một cách linh hoạt mà không cần lập trình phức tạp, chỉ cần sử dụng SQL thuần của DB2.
Kết luận chương 2
Chương 2 đã trình bày tổng quan về hệ quản trị CSDL IBM DB2, kho dữ liệu IBM InfoSphere Warehouse và giải pháp IBM Cognos BI Đồng thời giới thiệu về khai phá dữ liệu trong InfoSphere kết hợp với tạo báo cáo của Cognos Việc kết hợp này thực sự hữu ích cho các nhà phân tích, nhà quản lý
Khả năng khai thác dữ liệu mạnh mẽ của InfoSphere Warehouse cho phép khám phá những tri thức ẩn giấu trong khối lượng dữ liệu khổng lồ Những tri thức này được nâng cao giá trị khi được trình bày dưới dạng báo cáo thông minh của Cognos, giúp người dùng dễ dàng quan sát và phân tích kết quả khai thác dữ liệu Nhờ đó, quá trình ra quyết định trở nên thuận lợi hơn.
Phạm Đức Dũng - HTTT.B - K12 Trang 45/92
ỨNG DỤNG LUẬT KẾT HỢP TRONG BÀI TOÁN PHÂN TÍCH GIỎ HÀNG HÓA
Mô tả bài toán
Khi làm việc với dữ liệu lớn, việc hiểu rõ các quy tắc liên quan đến các thực thể là rất quan trọng Phát hiện các quy tắc này thường phức tạp, nhưng các quy luật kết hợp lại rất đơn giản và có ảnh hưởng lớn đến các quy tắc mô tả tập dữ liệu, vì chúng thể hiện các thực thể có thể xuất hiện đồng thời Nhiệm vụ chính của khai phá luật kết hợp là phát hiện các tập con cùng xuất hiện trong một khối lượng giao dịch lớn của cơ sở dữ liệu.
Khai phá luật kết hợp có thể được ứng dụng trong nhiều lĩnh vực, đặc biệt là chăm sóc sức khỏe, giúp xác định các vấn đề sức khỏe thường xảy ra cùng nhau để cải thiện chẩn đoán Ngoài ra, trong thương mại điện tử, nó hỗ trợ bán hàng chéo bằng cách gợi ý sản phẩm phù hợp với nhu cầu của người tiêu dùng Các lĩnh vực khác như phát hiện xâm nhập, phân tích nhật ký web và mẫu truy cập cơ sở dữ liệu cũng có thể tận dụng phương pháp này Chương này sẽ trình bày một ví dụ điển hình về ứng dụng khai phá luật kết hợp trong cửa hàng bán lẻ.
Cửa hàng có nhiều mặt hàng như bánh mỳ, sữa, bia, rượu, và khách hàng thường chọn một số sản phẩm để đưa vào giỏ hàng Việc phân tích các mặt hàng mà khách hàng thường mua cùng nhau giúp nhà quản lý điều chỉnh việc nhập hàng và sắp xếp sản phẩm hợp lý Điều này không chỉ tối ưu hóa không gian cửa hàng mà còn tạo điều kiện thuận lợi cho khách hàng trong việc tìm kiếm và mua sắm, ví dụ như gộp các sản phẩm liên quan thành một gói hàng Mỗi lần mua sắm có thể được xem như một giao dịch, với tất cả các mặt hàng được chọn xuất hiện cùng nhau.
Phạm Đức Dũng - HTTT.B - K12 Trang 46/92 được coi là một “giỏ hàng” hoặc “giỏ thị trường” Tất cả các lần mua sắm của một khách hàng trong suốt một năm có thể được xem như một giao dịch, tùy thuộc vào loại quy tắc đang được xem xét.
Cơ sở dữ liệu của cửa hàng bán lẻ bao gồm 4 bảng với cấu trúc như sau:
Tên cột Kiểu dữ liệu Độ lớn Mô tả
CUSTOMER_ID Character 7 Mã khách hàng
TRANSDATE Date 4 Ngày giao dịch
ITEMID Character 3 Mã hàng hóa
STOREID Character 5 Mã kho hàng
TRANSID Character 5 Mã giao dịch
Bảng 3.2 Cấu trúc bảng RETAIL
Tên cột Kiểu dữ liệu Độ lớn Mô tả
ITEMID Character 3 Mã hàng hóa
Bảng 3.3 Cấu trúc bảng RETAIL_NAMES
Tên cột Kiểu dữ liệu Độ lớn Mô tả
CHILD Character 4 Mã hàng hóa
PARENT Character 4 Mã loại hàng hóa
Bảng 3.4 Cấu trúc bảng RETAIL_TAX
Tên cột Kiểu dữ liệu Độ lớn Mô tả
TAXID Character 4 Mã loại hàng hóa
Bảng 3.5 Cấu trúc bảng RETAIL_TAXNAMES
Phạm Đức Dũng - HTTT.B - K12 Trang 47/92 Để thực hiện khai phá dữ liệu sử dụng luật kết hợp, ta quan tâm đến hai bảng
Bảng RETAIL lưu trữ giao dịch của khách hàng, trong đó cột TRANSID giúp phân nhóm khách hàng theo từng lần mua Mã định danh CUSTOMER_ID được sử dụng để xác định nhóm khách hàng, từ đó tìm kiếm các cách kết hợp dựa trên toàn bộ lịch sử mua hàng của họ.
RETAIL_NAMES là bảng ánh xạ tên của các hàng hóa.
Luật kết hợp trong khai phá dữ liệu
3.1.1 Khái niệm luật kết hợp
Cho một tập I = {I 1 , I 2 , …, Im} là tập bao gồm m mục phân biệt, một giao dịch T được định nghĩa như một tập con của các khoản mục trong I (T ⊆ I)
Trong cơ sở dữ liệu D chứa n giao dịch, mỗi giao dịch được gán một định danh duy nhất Một giao dịch T ∈ D được coi là hỗ trợ cho một tập X ⊆ I nếu nó bao gồm tất cả các mục của X, tức là X ⊆ T Đôi khi, ký hiệu T(X) được sử dụng để chỉ tập hợp các giao dịch hỗ trợ cho X Độ hỗ trợ của X, ký hiệu là support(X) hoặc sup(X), được định nghĩa là tỷ lệ phần trăm của các giao dịch hỗ trợ X so với tổng số giao dịch trong D, được tính bằng công thức: sup(X) = |{T ∈ D | X ⊆ T}| / |D|.
Tập mục phổ biến được định nghĩa là một tập hợp các mục X thuộc I, trong đó độ hỗ trợ tối thiểu minsup được người sử dụng xác định Tập mục X được coi là phổ biến (hay Large Itemset) nếu độ hỗ trợ sup(X) của nó lớn hơn hoặc bằng minsup.
Một tập phổ biến là tập được coi là quan trọng trong các thuật toán, trong khi đó, tập không phổ biến lại không đáng quan tâm Để diễn đạt điều này, người ta thường sử dụng các cụm từ như “X có độ hỗ trợ tối thiểu” hoặc “X không có độ hỗ trợ tối thiểu”, nhằm chỉ ra rằng X thỏa mãn hoặc không thỏa mãn điều kiện support(X) minsup.
Một tập mục X được gọi là k-itemset nếu lực lượng của X bằng k (|X| = k) Định nghĩa 3.3: Một luật kết hợp có dạng R: X ⇒ Y, trong đó X, Y là tập các mục, X, Y ⊆ I và X Y =
X được gọi là tiên đề
Y được gọi là hệ quả của luật
Phạm Đức Dũng - HTTT.B - K12 Trang 48/92
Hai thông số quan trọng của luật kết hợp là độ hỗ trợ (support) và độ tin cậy (confidence) Độ hỗ trợ (support) của luật kết hợp X ⇒ Y được định nghĩa là tỷ lệ phần trăm giữa số lượng giao dịch chứa cả X và Y so với tổng số giao dịch trong cơ sở dữ liệu Công thức tính độ hỗ trợ được biểu diễn bằng: sup(X ⇒ Y) = P r (X ∪ Y) = T ϵ D, trong đó X ∪ Y ⊆ T.
Độ tin cậy (confidence) được định nghĩa là tỷ lệ phần trăm giữa số lượng giao dịch chứa cả X và Y so với tổng số giao dịch có chứa X Công thức tính độ tin cậy được biểu diễn như sau: conf(X ⇒ Y) = p(Y ⊆ I | X ⊆ I) = p(Y ⊆ T ∧ X ⊆ T) / p(X ⊆ T) = sup(X ∪ Y) / sup(X) Độ tin cậy là một chỉ số quan trọng trong phân tích dữ liệu, giúp đánh giá mối quan hệ giữa các yếu tố trong một tập hợp giao dịch.
Độ hỗ trợ của luật biểu diễn sức mạnh của luật và ảnh hưởng của chúng trong toàn bộ hệ thống Độ hỗ trợ mang ý nghĩa thống kê, cho thấy sự kết hợp của các luật trong việc xác định tính hiệu quả và giá trị của chúng.
Độ tin cậy biểu diễn mức độ “đúng” của quy tắc X ⇒ Y, cho biết mức độ tương quan trong tập dữ liệu giữa hai tập mục X và Y
Một vài tính chất liên quan đến tập phổ biến:
Tính chất 3.1: Nếu A ⊆ B, A, B là các tập mục thì sup(A) ≥ sup(B) vì tất cả các giao dịch của D hỗ trợ B thì cũng hỗ trợ cho A
Một tập mục A không đạt độ hỗ tối thiểu trên D khi sup(A) < minsup, điều này dẫn đến việc mọi tập cha B của A cũng không phải là tập mục phổ biến, vì sup(B) ≤ sup(A) < minsup.
Nếu tập mục B là một tập mục phổ biến trên D, nghĩa là sup(B) ≥ minsup thì mọi tập con A của B đều là tập phổ biến trên D vì support(A) ≥ sup(B) > minsup
Một số tính chất liên quan đến luật kết hợp:
Tính chất 3.4: (Không hợp luật kết hợp)
Nếu có X ⇒ Z và Y ⇒ Z trong D thì không nhất thiết X ∪ Y ⇒ Z là đúng
Tương tự : X ⇒ Y và X ⇒ Z thì không nhất thiết X ⇒ Y ∪ Z là đúng
Phạm Đức Dũng - HTTT.B - K12 Trang 49/92
Tính chất 3.5: (Không tách luật)
Nếu X ∪ Y ⇒ Z thì X ⇒ Z và Y ⇒ Z chưa chắc xảy ra
Tuy nhiên đảo lại: X ⇒ Y ∪ Z thì X⇒Y và X⇒Z, vì sup(XY) ≥ supp(XYZ) và sup(XZ) ≥ sup(XYZ)
Tính chất 3.6: (Các luật kết hợp không có tính bắc cầu)
Nếu X ⇒ Y và Y ⇒ Z, chúng ta không thể suy ra X ⇒ Z
Nếu luật X ⇒ (L - X) không thỏa mãn độ tin cậy tối thiểu thì không có luật nào trong các luật Y ⇒ (L – Y) có độ tin cậy tối thiểu, trong đó Y ⊆ X; X,Y ⊂ L
3.1.2 Khai phá luật kết hợp
- Cho một tập mục I = {I1, I2, , Im}
- Một cơ sở dữ liệu giao dịch D (n giao dịch)
- Độ hỗ trợ tối thiểu minsup và độ tin cậy tối thiểu mincof
- Tập các luật kết hợp R: X ⇒ Y sao cho support(X ⇒ Y) ≥ minsup và confidence(X ⇒ Y) ≥ mincof
Giải quyết bài toán: Bài toán khai phá luật kết hợp được chia thành hai bài toán nhỏ:
Tìm tất cả các tập mục thỏa mãn độ hỗ trợ tối thiểu minsup cho trước, hay tập mục phổ biến
Tìm tất cả những luật kết hợp từ những tập mục phổ biến thỏa độ tin cậy tối thiểu mincof cho trước
3.1.3 Một số thuật toán khai phá luật kết hợp
3.1.3.1 Tìm tập mục phổ biến (Bài toán 1)
Phát hiện tập mục phổ biến là một bước quan trọng và tốn nhiều thời gian trong quá trình khai phá luật kết hợp Để thực hiện điều này, chúng ta có thể áp dụng nhiều thuật toán khác nhau nhằm tối ưu hóa quá trình phát hiện.
Phạm Đức Dũng - HTTT.B - K12 Trang 50/92
Thuật toán Apriori, được giới thiệu bởi RaKesh Agrawal, Tomasz Imielinski và Anin Sawami vào năm 1993, là nền tảng cho các thuật toán khai phá luật kết hợp sau này Thuật toán này tạo ra các tập mục ứng cử từ những tập mục phổ biến ở bước trước, đồng thời sử dụng kỹ thuật “tỉa” để loại bỏ những tập mục ứng cử không đạt ngưỡng hỗ trợ đã định.
Kí hiệu Ý nghĩa k-itemset Tập mục có k mục
Tập các k-mục phổ biến (k-itemset) Mỗi phần tử của tập này có hai trường:
- Độ hỗ trợ tương ứng (support-count)
Tập các tập k-itemset ứng cử viên (các tập phổ biến tiềm năng) Mỗi phần tử của tập này có hai trường:
- Độ hỗ trợ tương ứng (support-count)
Bảng 3.1 Một số kí hiệu dùng trong thuật toán Apriori
Nội dung thuật toán: Đầu vào: Tập các giao dịch D, ngưỡng support tối thiểu minsup Đầu ra: L - tập mục phổ biến trong D
L 1 = {large l-itemset} // tìm tất cả các tập mục phổ biến: nhận được L 1 for (k = 2;L k-1 ≠ ; k++) do begin
C k = apriori-gen(L k-1 ); // sinh ra tập ứng cử viên từ L k-1 for (∀ giao dịch T ∈ D) do begin
C T = subset(C k , T); // lấy tập con của T là ứng cử viên trong C k for (∀ ứng cử viên c ∈ C T ) do
Phạm Đức Dũng - HTTT.B - K12 Trang 51/92 c.count++; // tăng bộ đếm tần xuất 1 đơn vị end
The `apriori_gen` function generates candidate itemsets from a given set of frequent itemsets, Lk-1, and a minimum support threshold, minsup It iterates through each pair of itemsets in Lk-1, checking if they share the same prefix up to the k-2 length If they do, it combines them to form a new candidate itemset, c The function then verifies if c has any infrequent subsets present in Lk-1; if it does, c is discarded Otherwise, c is added to the collection of candidate itemsets, Ck Finally, the function returns the set of candidate itemsets, Ck.
// Hàm has_infrequent_subset kiểm tra tập con (k-1)-item của ứng cử viên k- item không là tập phổ biến: void has_infrequent_subset(c, L k-1 ) begin
// sử dụng tập mục phổ biến trước for (∀ (k-1)-item s ∈ c) do if (s ∉ L k-1 ) then return TRUE;
Phạm Đức Dũng - HTTT.B - K12 Trang 52/92 else return FALSE; end
Lần duyệt đầu tiên, sẽ tính số lần xuất hiện của mỗi mục để xác định các l- itemset phổ biến Lần duyệt thứ k (k ≥ 2) sẽ bao gồm 2 giai đoạn:
Giai đoạn 1: Tập phổ biến L k-1 đã tìm thấy ở lần duyệt thứ k-1 được sử dụng để sinh ra các tập ứng cử viên C k bằng việc sử dụng hàm Apriori_gen
Giai đoạn 2: Dựa vào CSDL, tính độ hỗ trợ của các ứng của viên trong
Các ứng cử viên trong C k có thể được xác định hiệu quả thông qua cây băm Trong giai đoạn tỉa, cần xoá bỏ các tập c ∈ C k mà một vài (k-1)-tập con của c không nằm trong L k-1 Thủ tục này đảm bảo rằng đối với bất kỳ tập nào L k với độ hỗ trợ tối thiểu, các tập con kích cỡ (k-1) cũng sẽ được xem xét.
1) cũng có độ hỗ trợ tối thiểu, do đó nếu ta mở rộng mỗi tập trong L k-1 với tất cả các tập mục có thể và sau đó xoá tất cả các tập mà (k-1) - tập con của nó không nằm trong L k-1 , ta sẽ nhận được tấp các tập trong L k Việc kết nối là tương đương với việc mở rộng L k-1 với mỗi mục nằm trong cơ sở dữ liệu và sau đó xoá bỏ các tập này mà đối với nó (k-1) - itemset nhận được bằng việc xoá đi mục thứ (k-1) không nằm trong L k-1 Ở giai đoạn này C k ⊇ L k Với lập luận như vậy, giai đoạn tỉa là giai đoạn người ta xoá khỏi C k tất cả các tập mà các (k-1) tập con của nó không nằm trong L k-1 , cũng không xoá bất kỳ một tập nào có thể nằm trong L k
Hàm supset(C k , T) tìm tất cả các tập mục ứng viên trong C k có trong giao dịch T Bắt đầu từ nút gốc, nếu là nút lá, kiểm tra các tập mục trong nút lá đó có trong giao dịch T không Nếu là nút trong và là kết quả của hàm băm cho mục thứ i của giao dịch T, tiếp tục thực hiện hàm băm cho mục thứ i + 1 cho đến khi gặp nút lá Thủ tục này được thực hiện theo phương pháp đệ quy.
3.1.3.1.2 Các thuật toán thuộc họ Apriori
Thuật toán Apriori-TID khác biệt so với thuật toán Apriori ở chỗ nó không sử dụng cơ sở dữ liệu để tính toán độ hỗ trợ trong các giai đoạn k > 1 Thay vào đó, nó áp dụng phương pháp hiệu quả hơn để tối ưu hóa quá trình tìm kiếm các tập hợp mục tiêu.
Phạm Đức Dũng - HTTT.B - K12 Trang 53/92 đã sử dụng mã khóa của các tập mục ứng cử từ giai đoạn trước Nhiều thí nghiệm trên các cơ sở dữ liệu cho thấy thuật toán Apriori yêu cầu ít thời gian hơn so với thuật toán Apriori-TID ở các giai đoạn đầu, nhưng lại tốn nhiều thời gian hơn trong các giai đoạn sau.
Tạo cơ sở dữ liệu bằng IBM DB2
Ta sử dụng CSDL DWESAMP để thực hiện quá trình KPDL Thực hiện tạo CSDL này theo các bước sau:
Bước 1: Start\All Programs, chọn IBM DB2\DB2COPY1 (Default)\Command Line Tools và chọn công cụ Command Window - Administrator
Bước 2: Cửa sổ lệnh DB2 xuất hiện, ta thực hiện chuyển hướng đến thư mục con ISWarehouse\samples\data
Bước 3: Thực hiện câu lệnh setupdwesamp DWESAMP admin 12345 để tạo
Trong đó: DWESAMP là tên CSDL, admin là tài khoản của User, 12345 là password là mật khẩu của tài khoản
Bước 4: Ta vào hệ quản trị CSDL DB2 để xem CSDL vừa tạo thành công
Start\All Programs\IBM DB2\DB2COPY1 (Default)\General Administration Tools và chọn Control Center
Trong Control Center của DB2 đã xuất hiện CSDL DWESAMP
Phạm Đức Dũng - HTTT.B - K12 Trang 55/92
Hình 3.1 Cơ sở dữ liệu DWESAMP trong Control Center của DB2
Nhấn chuột phải vào CSDL DWESAMP và chọn Connect để kết nối tới CSDL
Một hộp thoại xuất hiện yêu cầu ta nhập User ID và Password Ở đây ta sử dụng User
ID là admin, Password là 12345
Ta có thể xem các thành phần có trong CSDL này
Hình 3.2 Danh sách các lƣợc đồ có trong cơ sở dữ liệu DWESAMP
Phạm Đức Dũng - HTTT.B - K12 Trang 56/92
Hình 3.3 Danh sách các bảng có trong cơ sở dữ liệu DWESAMP
Trong CSDL DWESAMP hiện chưa có các bảng cần thiết cho việc KPDL bằng luật kết hợp, vì vậy cần thực hiện các bước tiếp theo để tạo ra những bảng này.
In Step 5, open the Command Window as an Administrator and navigate to the directory SQLLIB\samples\dwe\ModelingDB2 Then, execute the command "db2 connect to DWESAMP" to establish a connection to the database.
Để nhập các bảng vào cơ sở dữ liệu, thực hiện câu lệnh db2 -tvf retailImport.db2 Tiếp theo, tạo một lược đồ mới có tên ASSOC để sử dụng trong quá trình KPDL bằng lệnh db2 create schema ASSOC.
Vào Control Center để kiểm tra, ta có 4 bảng mới được tạo ra
Hình 3.4 Các bảng mới đƣợc tạo ra
Phạm Đức Dũng - HTTT.B - K12 Trang 57/92
Hình 3.5 Dữ liệu thuộc bảng RETAIL
Hình 3.6 Dữ liệu thuộc các bảng RETAIL_NAMES, RETAIL_TAX và
Phạm Đức Dũng - HTTT.B - K12 Trang 58/92
Thực hiện khai phá dữ liệu bằng IBM InfoSphere Warehouse
After creating the necessary database with essential tables, we proceed to data analysis using the IBM InfoSphere Warehouse tool To start, navigate to Start > All Programs > IBM InfoSphere.
Warehouse\DB2COPY1 và chọn Design Studio Đây là màn hình làm việc của Design Studio:
Hình 3.7 Giao diện làm việc của Design Studio 3.4.1 Kết nối cơ sở dữ liệu Để thực hiện quá trình KPDL, trước tiên ta cần phải kết nối tới CSDL
Trong khung Data Soure Explorer, nhấn chuột phải vào Data Connections, chọn New Cửa sổ New Connection xuất hiện, ta điền các tham số kết nối như sau:
Select a database manager: Chọn DB2 for Linux, UNIX, and Windows
JDBC driver: Chọn IBM Data Server Driver for JDBC and SQLJ Default
Database: Điền tên CSDL muốn kết nối Ở đây ta kết nối tới CSDL
Phạm Đức Dũng - HTTT.B - K12 Trang 59/92
Sau đó ta nhấp chọn Test Connection để kiểm tra kết nối có thành công hay không, chọn Finish để hoàn thành việc kết nối
Hình 3.8 Cửa sổ New Connection
Trong khung Data Source Explorer đã xuất hiện CSDL DWESAMP
Phạm Đức Dũng - HTTT.B - K12 Trang 60/92
3.4.2 Kích hoạt cơ sở dữ liệu Để có thể khai phá được dữ liệu, trước tiên ta phải kích hoạt CSDL theo các bước sau:
Nhấn chuột phải vào biểu tượng CSDL màu xanh da trời
Chọn Enable the database for Data Mining
Hình 3.10 Enable the database for Data Mining
Sau khi kích hoạt thành công tính năng Data Mining trong cơ sở dữ liệu DWESAMP, hệ thống sẽ xuất hiện các thành phần mới hỗ trợ cho việc khai phá dữ liệu Các thành phần này bao gồm mô hình Data Mining và lược đồ IDMMX.
Thành phần Data Mining Models là nơi lưu trữ các biểu đồ được tạo ra trong quá trình KPDL, nó có cấu trúc như trong hình dưới đây
Phạm Đức Dũng - HTTT.B - K12 Trang 61/92
Lược đồ IDMMX bao gồm các bảng phục vụ cho các hàm khai phá tự động, chủ yếu là kho chứa thiết lập và thông số kỹ thuật cho các mô hình và hệ thống điểm Trong đó, bốn bảng quan trọng dùng để lưu trữ các mô hình PMML.
IDMMX.RULEMODELS: Các mô hình kết hợp và chuỗi (Associations and
IDMMX.CLUSTERMODELS: Các mô hình phân cụm (Clustering models)
IDMMX.CLASSIFMODELS: Các mô hình phân lớp (Classification models)
IDMMX.REGRESSIONMODELS: Các mô hình dự báo (Prediction models)
Hình 3.12 Các bảng đƣợc tạo ra thuộc lƣợc đồ IDMMX
Phạm Đức Dũng - HTTT.B - K12 Trang 62/92
3.4.3 Khai phá dữ liệu Để thực hiện KPDL, ta tạo một dự án mới với những luồng khai phá và lựa chọn kĩ thuật khai phá Các bước thực hiện như sau:
3.4.3.1 Tạo dự án Data Warehousing
Trong Data Project Explorer, nhấn chuột phải và chon New > Data Warehousing Project
Hình 3.13 Tạo một dự án Data Warehousing
Cửa sổ New Project xuất hiện, ta gõ vào tên dự án: “RetailAnalytics”
Nhấn Finish để hoàn tất
Phạm Đức Dũng - HTTT.B - K12 Trang 63/92
3.4.3.2 Tạo ra luồng khai phá rỗng
Luồng khai phá rỗng tạo ra trình soạn thảo mà tại đây, ta thực hiện các thao tác để tạo luồng KPDL Ta thực hiện như sau:
Mở rộng dự án vừa tạo ra
Nhấn chuột phải vào thư mục Mining Flow Chọn New > Mining Flow
Hình 3.14 Tạo một luồng khai phá rỗng
Trong cửa sổ NewDataFlow, nhập tên luồng khai phá là AssocFlow Vì chúng ta sẽ làm việc với cơ sở dữ liệu, nên giữ nguyên giá trị mặc định và nhấn Next để tiếp tục.
Chọn CSDL DWESAMP (nếu chưa có ta cần tạo một kết nối tới CSDL bằng cách nhấn New và nhập vào các tham số kết nối) Nhấn Finish
Trình soạn thảo luồng khai phá được mở ra với bảng toán tử nằm ở bên phải Người dùng có thể dễ dàng xây dựng luồng khai phá bằng cách kéo thả các toán tử từ bảng vào khung trình soạn thảo.
Phạm Đức Dũng - HTTT.B - K12 Trang 64/92
Hình 3.15 Bảng Palette chứa các toán tử khai phá
Phạm Đức Dũng - HTTT.B - K12 Trang 65/92
Trong phần này, chúng ta sẽ tạo luồng khai phá dữ liệu bằng cách sử dụng luật kết hợp để phân tích KPDL, sau đó lưu trữ kết quả vào bảng RETAIL trong cơ sở dữ liệu DWESAMP Các bước thực hiện bao gồm:
Chọn toán tử Table Source trong thành phần Sources and Targets và kéo nó vào trình soạn thảo
Trong hộp thoại chọn bảng, ta chọn bảng RETAIL, sau đó nhấn Finish
Tương tự tạo toán tử Table Source khác với bảng RETAIL_NAMES
Trong thành phần Data Mining > Mining - Model Creation Chọn một toán tử Associations và kéo nó vào trình soạn thảo để thực hiện luật kết hợp
Nối Ouput Port của bảng RETAIL tới Associations Input Port và Output Port của bảng RETAIL_NAMES với Associations Names Port
Để thiết lập các giá trị thuộc tính khai phá, chọn toán tử Associations Trong thẻ Properties, chọn thẻ Mining Settings
Trong danh sách chọn cột Group, hãy chọn TRANSID Tất cả các sản phẩm (ITEMID) có cùng một TRANSID đã được mua trong cùng một giỏ hàng duy nhất Chọn độ dài quy tắc tối đa là 2.
Hình 3.16 Thiết lập các giá trị cài đặt khai phá
+ Chọn trang đặc tính Name Maps (Các ánh xạ tên) và thiết lập
“Item Id Column” thành “ITEMID” và “Item Name Column”
Phạm Đức Dũng - HTTT.B - K12 Trang 66/92 thành “DESCRIPTION” Cả hai cột này đều đến từ bảng
RETAIL_NAMES biểu diễn một bảng tra cứu tên
Hình 3.17 Thiết lập các ánh xạ tên
+ Tiếp tục với trang Column Properties Thiết lập “Field Usage Type” của tất cả các cột đầu vào thành Inactive ngoại trừ cột ITEMID được thiết lập là Active
On the right side of "Field Usage Type," you can specify Name Mapping for the columns For the ITEMID column, the name mapping is designated as Names Names refer to the input gateway connected to the name mapping table RETAIL_NAMES.
Hình 3.18 Thiết lập thuộc tính của các cột
Phạm Đức Dũng - HTTT.B - K12 Trang 67/92
In the Data Mining operator table under the Model Introspection section, drag the Associations Extractor operator into the editor Connect the output port of the Associations operator to the input port of the Associations Extractor operator The Associations Extractor will extract the PMML (Predictive Model Markup Language) model of the generated association rules and store them in a relational table structure.
To store the extracted association rules in a physical table, right-click on the "rule" output port of the Associations Extractor and select "Create Suitable Table."
+ Hộp thoại Create Suitable Table xuất hiện, ta đặt tên bảng là
RETAIL_RULES, chọn lược đồ lưu trữ mặc định ở nơi mà bảng RETAIL thường trú Nhấn Finish
Trong luồng khai phá, một toán tử bảng đích cho “RETAIL_RULES” đã được thêm vào Để chỉ nhận các quy tắc hiện tại cho mỗi lần chạy, người dùng cần đánh dấu vào hộp Delete previous content để xóa nội dung trước đó.
Hình 3.19 Luồng khai phá hoàn chỉnh
Nhấn Ctrl+S để lưu luồng khai phá Bây giờ, luồng khai phá đã sẵn sàng để thực thi
Phạm Đức Dũng - HTTT.B - K12 Trang 68/92
3.4.3.4 Thực thi luồng khai phá
Luồng khai phá tạo ra mô hình chứa các luật kết hợp và lưu dưới dạng mô hình PMML trong cơ sở dữ liệu Sau đó, các quy tắc được trích xuất vào bảng trong cơ sở dữ liệu để có thể truy cập từ phần mềm IBM Cognos Để thực hiện luồng khai phá, nhấn chuột phải vào toán tử Table Target.
Toán tử này tạo ra bảng lưu trữ các quy tắc trích xuất, trong đó mỗi quy tắc được xác định bởi một thông tin ID, phần đầu, phần thân và các số liệu thống kê liên quan.
Hình 3.20 Luồng khai phá bên trong Design Studio
Hộp thoại Run to This Step… xuất hiện, ta giữ nguyên các lựa chọn mặc định Nhấn chọn Finish
Luồng khai phá đã thực thi thành công Ta có thể quan sát kết quả ở thẻ
Hình 3.21 Kết quả thực thi luồng khai phá
Phạm Đức Dũng - HTTT.B - K12 Trang 69/92
Để khám phá trực quan các luật kết hợp, bạn có thể nhấn chuột phải vào toán tử Associations và chọn Open Model Trong thẻ Rules, các quy luật kết hợp sẽ được hiển thị và sắp xếp theo thứ tự giảm dần dựa trên độ hỗ trợ (support) Ví dụ, luật kết hợp với ID 126 là một trong những quy luật đó.
Tạo báo cáo bằng IBM Cognos
Trước khi tạo báo cáo từ các kết quả khai phá, cần xác định các tài nguyên như CSDL, bảng biểu và thủ tục đã lưu trữ Framework Manager hỗ trợ định nghĩa siêu dữ liệu và làm giàu nguồn dữ liệu thông qua việc thiết lập các mối quan hệ.
3.5.1 Tạo siêu dữ liệu bằng Cognos Framework Manager Để khởi động IBM Cognos Framework Manager ta thực hiện các bước sau:
Bước 1: Start\All Program\IBM Cognos BI Developer Edition và chọn IBM Cognos Framework Manager
Bước 2: Tạo một dự án mới bằng cách nhấn chuột vào Create a new project
Hộp thoại New Project xuất hiện, ta gõ tên dự án vào ô Project name, nhấn
Cửa sổ Log on xuất hiện Ta cần nhập User ID và Password để có thể truy cập vào IBM Cognos Framework Manager
Lựa chọn ngôn ngữ hiển thị là English, nhấn OK
Khi muốn tạo ra siêu dữ liệu từ một CSDL DB2, ta chọn nguồn siêu dữ liệu là Data Sources Nhấn Next
Hình 3.31 Lựa chọn nguồn cho siêu dữ liệu
Chọn cơ sở dữ liệu DWESAMP đã sử dụng trong quá trình KPDL và nhấn Next Nếu chưa có kết nối đến cơ sở dữ liệu, hãy tạo kết nối mới bằng cách nhấn chọn New.
Tích chọn các đối tượng dữ liệu muốn nhập làm siêu dữ liệu
Phạm Đức Dũng - HTTT.B - K12 Trang 77/92
Mở rộng lược đồ chứa các bảng RETAIL và RETAIL_NAMES, sau đó truy cập thư mục Tables để chọn các bảng này Tiếp theo, mở rộng lược đồ ASSOC và thư mục Procedures, chọn thủ tục ASSOC_PROC mà chúng ta đã triển khai trước đó Nhấn Next để tiếp tục quá trình.
Hình 3.32 Lựa chọn các đối tƣợng làm siêu dữ liệu
Giữ nguyên các giá trị thiết lập, nhấn Import rồi Finish
Bước 3: Định nghĩa mối quan hệ giữa các bảng
Sau khi tạo dự án, Framework Manager sẽ hiển thị dự án ở bên trái của Project Viewer Tại đây, người dùng có thể khám phá dự án mới được tạo ra bằng cách mở rộng thư mục có tên của CSDL.
DWESAMP) để xem các bảng đã được nhập vào
Bây giờ ta tiến hành định nghĩa một mối quan hệ mới giữa bảng RETAIL và
RETAIL_NAMES Điều này làm cho việc định nghĩa báo cáo sau đó dễ dàng hơn Để tạo mối quan hệ, ta thực hiện:
Nhấn chuột phải vào thư mục CSDL Chọn Create > Relationship
The Relationship Definition dialog box appears, allowing users to define a query object on the left and another on the right On the left side, select the RETAIL table, and on the right side, choose the RETAIL_NAMES table.
Chọn cột ITEMID trên cả hai phía để kết hợp chúng
Phạm Đức Dũng - HTTT.B - K12 Trang 78/92
Thiết lập thông số Cardinality như trong hình vẽ
Nhấn OK để hoàn tất
Hình 3.33 Định nghĩa mối quan hệ giữa các bảng
Để định nghĩa các tham số của thủ tục đã lưu trữ, chúng ta cần xác định các đối số được báo cáo chuyển qua Các bước để tạo các đối số bao gồm việc thực hiện các quy trình cần thiết.
Double-click on the ASSOC_PROC procedure in the Project Viewer to open the Query Subject Definition dialog In the lower section, you will find two parameters of the stored procedure: support and length.
Nhấn vào nút “…” ở cuối bên phải của dòng đối số SUPPORT Trong hộp văn bản Value của hộp thoại Edit Argument, gõ #prompt(„support‟)# và nhấn OK
Làm tương tự với đối số LENGTH, sử dụng #prompt(„length‟)# làm giá trị đối số Nhấn OK để xác nhận các giá trị vừa thiết lập
Phạm Đức Dũng - HTTT.B - K12 Trang 79/92
Hộp thoại Prompt Values xuất hiện, yêu cầu người dùng nhập giá trị cho hai tham số nhằm cho phép Framework Manager thực hiện thủ tục và thu thập các cột kết quả Nhập giá trị 2 vào trường length và giá trị 3.0 vào trường support.
Hình 3.34 Định nghĩa tham số đầu vào của thủ tục
Sau khi nhập khẩu các bảng và điều chỉnh siêu dữ liệu cho các đối tượng trong cơ sở dữ liệu (CSDL), chúng ta có thể tạo một gói (Package) cho dự án và xuất bản nó lên nền tảng Cognos.
Content Store (Kho lưu trữ nội dung Cognos) Sau đó, nó sẵn sàng cho việc tạo báo cáo trong Cognos Report Studio (Xưởng báo cáo Cognos)
3.5.2 Đóng gói dữ liệu và xuất bản Để làm cho dữ liệu có sẵn và có thể tạo được các báo cáo từ những dữ liệu đó, ta cần đóng gói và xuất bản dữ liệu Ta thực hiện các bước sau:
Tại Project Viewer và nhấn chuột phải vào thư mục Packages Chọn Create >
Hộp thoại Create Package xuất hiện Trong trường Name, gõ vào RetailAssociationRulePackage Nhấn Next
Nhấn Next một lần nữa do không cần phải thay đổi gì cả
Phạm Đức Dũng - HTTT.B - K12 Trang 80/92
Nhấp chọn để chuyển DB2 sang danh sách “Available functions sets” (Các tập hàm có sẵn) Nhấn Finish
Hình 3.35 Lựa chọn các tập hàm có sẵn
Trong hộp thoại tiếp theo, nhấn Yes để tiếp tục quá trình xuất bản
Trong phần “Select publish location” của hộp thoại Publish Wizard, nhấn Next do không phải thay đổi gì cả
Không cần phải chỉ định các giá trị cài đặt bảo mật Do đó, nhấn Next
Nhấn Publish để tiến hành xuất bản gói phần mềm
Hình 3.36 Xuất bản gói phần mềm
Một hộp thoại hiện ra xác nhận đã xuất bản thành công gói phần mềm Ta nhấn
Phạm Đức Dũng - HTTT.B - K12 Trang 81/92
3.5.3 Tạo một báo cáo Cognos Để tạo một báo cáo Cognos, ta sử dụng Cognos Report Studio, đây là một ứng dụng hoàn toàn dựa trên web Ta sẽ tạo ra hai báo cáo, một báo cáo cho thấy một danh sách doanh thu được nhóm lại theo các sản phẩm, và một báo cáo hiển thị danh sách các luật kết hợp cho các sản phẩm từ bảng RETAIL Ta sẽ định nghĩa một truy vấn ngược (drill-through), bằng cách nhấn chuột vào một sản phẩm trong danh sách doanh thu, một báo cáo chứa các luật kết hợp của sản phẩm này sẽ hiện ra Việc này cho phép ta phân tích những sản phẩm nào làm tăng doanh thu của sản phẩm đã chọn
3.5.3.1 Tạo báo cáo doanh thu
Thực hiện các bước sau để tạo báo cáo doanh thu:
Khởi động Cognos Report Studio bằng cách: Start\All Program\IBM Cognos BI Developer Edition và chọn IBM Cognos BI Developer Edition
Nhấn vào Launch và chọn Report Studio
Trong màn hình Select a package (Navigate), ta nhấn chọn vào gói RetailAssociationRulePackage mà ta đã xuất bản trong Framework Manager
Hình 3.37 Lựa chọn gói phần mềm cần tạo báo cáo
Màn hình chương trình IBM Cognos Report Studio xuất hiện, ta nhấn chọn Create New để tạo một báo cáo mới
Chọn khuôn mẫu List và nhấn OK
Phạm Đức Dũng - HTTT.B - K12 Trang 82/92
Trong khung nhìn Insertable Objects, mở rộng bảng RETAIL và kéo
Để thêm cột ITEMID vào bảng danh sách trên trang soạn thảo, bạn có thể nhấn đúp chuột vào cột này Tương tự, hãy kéo cột ITEMPRICE đặt bên phải cột ITEMID trong danh sách để hoàn thiện việc sắp xếp.
Mở rộng bảng RETAIL_NAMES và kéo cột DESCRIPTION vào giữa cột ITEMID và cột ITEMPRICE
Nhấn vào cột ITEMPRICE Lưu ý: Không nhấn vào tiêu đề cột mà vào ba ô phía dưới tiêu đề cột) Trên thanh công cụ, nhấn nút Sort và chọn
Sort Descending để thực hiện sắp xếp giảm dần Ta cần danh sách doanh thu cho thấy nhóm sản phẩm có doanh thu lớn nhất ở trên đầu
Hình 3.38 Trang soạn thảo của Report Studio
Nhấn nút Run Report để xem trước báo cáo
Phạm Đức Dũng - HTTT.B - K12 Trang 83/92
Hình 3.39 Báo cáo doanh thu
Nhấn nút Save và lưu báo cáo là RevenueReport
3.5.3.2 Tạo báo cáo các luật kết hợp
Ta thực hiện các bước sau:
Trong Cognos Report Studio, chọn File > New, chọn khuôn mẫu List và nhấn OK
Trong khung nhìn Insertable Objects, mở rộng thủ tục ASSOC_PROC và kéo cột ID, BODYTEXT, HEADNAME, SUPPORT và CONFIDENCE vào danh sách trên trang soạn thảo
Phạm Đức Dũng - HTTT.B - K12 Trang 84/92
Hình 3.40 Trang soạn thảo của Report Studio
Để hiển thị các quy tắc chứa một sản phẩm cụ thể, bạn cần xác định một bộ lọc trong phần đầu của quy tắc Hãy chọn bất kỳ cột nào trong danh sách, sau đó nhấn vào nút Filters trên thanh công cụ và chọn Edit Filters.
Trong phần dưới bên trái của hộp thoại Filters, nhấn nút Add, chọn Advanced và nhấn OK
The Detail Filter Expression dialog opens, allowing you to expand the ASSOC_PROC procedure By double-clicking on the HEAD column, it is added to the Expression Definition section of the dialog You can then include the following expression: [DWESAMP].[ASSOC_PROC].[HEAD]=?product?.
Biểu thức ?product? định nghĩa một tham số mà sau này sẽ được báo cáo đầu tiên chuyển qua tùy thuộc vào sản phẩm mà ta nhấn chọn
Với việc chuyển qua tham số, ta cần thực hiện một điều chỉnh cuối cùng Chọn Query Explorer trong thanh chọn Explorer và sau đó chọn Query 1
Trong phần Properties ở phía dưới bên trái của Report Studio, chọn thuộc tính Processing và chọn Limited Local từ hộp thả xuống
Nhấn nút "Run Report" để xem trước báo cáo, bạn sẽ được yêu cầu nhập ba tham số: hai tham số từ thủ tục đã lưu trữ và mã định danh HEAD Trong ví dụ này, chọn mã định danh HEAD là 142, hỗ trợ (support) là 3.0 và chiều dài (length) là 2.
Phạm Đức Dũng - HTTT.B - K12 Trang 85/92
Hình 3.41 Chọn tham số đầu vào
Báo cáo được tạo ra, ta lưu báo cáo với tên AssocReport
Hình 3.42 Báo cáo các luật kết hợp
Phạm Đức Dũng - HTTT.B - K12 Trang 86/92
3.5.3.3 Định nghĩa một truy vấn ngƣợc
Bây giờ, ta phải mở báo cáo đầu tiên để gọi báo cáo thứ hai thông qua một định nghĩa truy vấn ngược Ta thực hiện các bước sau:
Mở lại RevenueReport đầu tiên bằng cách chọn File > Open
Trong danh sách vùng soạn thao, chọn cột ITEMID Lưu ý: chọn ba ô bên dưới tiêu đề
Nhấn chuột phải vào ô được chọn và chọn Drill-Through Definitions…
Hình 3.43 Thực hiện truy vấn ngƣợc
Trong phần bên dưới hộp thoại Drill-Through Definition, chọn nút Add
Nhấn vào “…” bên cạnh trường Report và chọn AssocReport
Đánh dấu chọn vào ô Open in new window
Hình 3.44 Định nghĩa truy vấn ngƣợc
Phạm Đức Dũng - HTTT.B - K12 Trang 87/92
Nhấn nút Edit bên dưới hộp Parameters
Kết luận chương 3
Trong chương 3, chúng ta đã khám phá quy tắc kết hợp trong phân tích giỏ hàng hóa và cách xác định các quy tắc này bằng InfoSphere Warehouse Khai phá quy tắc kết hợp là một nhiệm vụ tương tác cao, yêu cầu người dùng thử nghiệm với các thiết lập tham số khác nhau để đạt được kết quả mong muốn Cognos là công cụ lý tưởng hỗ trợ phân tích quy tắc tương tác, cho phép người dùng thiết lập tham số và hạn chế một cách linh hoạt mà không cần chuyển sang InfoSphere Warehouse Design Studio.
Các báo cáo từ Cognos bao gồm báo cáo doanh thu và báo cáo luật kết hợp, cho phép thực hiện truy vấn ngược theo mã sản phẩm Khi người dùng nhấp vào mã sản phẩm trong báo cáo doanh thu, báo cáo luật kết hợp sẽ hiển thị các luật liên quan đến sản phẩm đó Qua hai báo cáo này, quản lý có thể xác định mặt hàng chủ yếu và các mặt hàng hỗ trợ, từ đó đưa ra quyết định kinh doanh chính xác.
Khác với các phần mềm khai phá dữ liệu khác chỉ cung cấp các luật kết hợp mà không hỗ trợ phân tích, sự kết hợp giữa khai phá dữ liệu trong InfoSphere Warehouse và báo cáo “động” trong Cognos đã nâng cao hiệu quả của quá trình khai thác và ứng dụng tri thức trong nhiều lĩnh vực của đời sống.
Phạm Đức Dũng - HTTT.B - K12 Trang 90/92
Nhờ vào sự nỗ lực cá nhân và sự hướng dẫn tận tình của Ths Bùi Thị Hồng Nhung, giảng viên khoa Hệ thống thông tin quản lý, bài khóa luận đã đạt được những kết quả nghiên cứu đáng kể sau một thời gian thực hiện.
- Nghiên cứu tổng quan về kho dữ liệu, khai phá dữ liệu, đi sâu nghiên cứu về khai phá luật kết hợp
Khám phá các công cụ quản trị cơ sở dữ liệu, khai thác dữ liệu và lập báo cáo, bao gồm hệ quản trị cơ sở dữ liệu IBM DB2, kho dữ liệu IBM InfoSphere Warehouse và giải pháp kinh doanh thông minh IBM Cognos BI.
Ứng dụng khai thác dữ liệu sử dụng luật kết hợp để phân tích giỏ hàng hóa với InfoSphere Warehouse, đồng thời xuất kết quả khai thác để tạo ra các báo cáo thông minh bằng Cognos.
Mặc dù em đã nỗ lực trong việc viết bài khóa luận, nhưng do hạn chế về thời gian, kiến thức và kinh nghiệm, bài viết vẫn còn nhiều thiếu sót Em rất mong nhận được sự quan tâm và ý kiến đóng góp từ Thầy cô và các bạn để có thể hoàn thiện bài khóa luận của mình hơn nữa.
Em xin chân thành cảm ơn!
Phạm Đức Dũng - HTTT.B - K12 Trang 91/92
DANH MỤC TÀI LIỆU THAM KHẢO
1 Công ty IBM (11/2007), Nhập môn hệ quản trị cơ sở dữ liệu DB2
2 ThS Giang Thị Thu Huyền (2010), Nghiên cứu các luật kết hợp song song trong khai phá dữ liệu
3 ThS Nguyễn Thị Biên (2012), Khai phá Luật kết hợp trong cơ sở dữ liệu đa phương tiện
4 IBM Corp (2010), IBM Cognos Business Intelligence V10.1 Handbook
5 IBM Corp (2012), Solving Operational Business Intelligence with InfoSphere Warehouse Advanced Edition
6 IBM Corp (2010), InfoSphere Warehouse A Robust Infrastructure for Business Intelligence
7 IBM Corp (2010), IBM InfoSphere Warehouse White Paper
8 IBM Corp (2001), Mining Your Own Business in Retail Using DB2 Intelligent Miner for Data
9 IBM Corp (2008, 2010), IBM Cognos Business Intelligence Developer Edition Version 10.1.0
Danh mục các Website tham khảo:
10 Wikipedia: (Truy cập tháng 4/2013) http://vi.wikipedia.org/wiki/Kho_d%E1%BB%AF_li%E1%BB%87u http://vi.wikipedia.org/wiki/Khai_ph%C3%A1_d%E1%BB%AF_li%E1%BB%87u http://en.wikipedia.org/wiki/Star_schema http://en.wikipedia.org/wiki/Snowflake_schema
11 IBM: (Truy cập tháng 5/2013) http://www.ibm.com/developerworks/vn/library/dm-0810wurst/ http://www.ibm.com/developerworks/vn/library/dm-0811wurst/ http://www.ibm.com/developerworks/vn/library/dm-0812wurst/