Tích hợp khai phá dữ liệu trong InfoSphere Warehouse với việc tạo báo cáo Cognos của IBM Phần 1: Tổng quan về kiến trúc tích hợp InfoSphere Warehouse và Cognos pot
Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 17 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
17
Dung lượng
896,46 KB
Nội dung
TíchhợpkhaiphádữliệutrongInfoSphereWarehousevớiviệctạo
báo cáoCognoscủaIBMPhần1:TổngquanvềkiếntrúctíchhợpInfoSphereWarehousevà
Cognos
Mở đầu
Khai phádữliệu cho phép các chuyên gia, các nhà phântíchvà những người sử dụng có được
cái nhìn sâu sắc với các mẫu trong các bộ sưu tập dữliệu lớn và kết hợp chúng vào quy trình
nghiệp vụ hàng ngày. Về lịch sử, khaiphádữliệu là một nhiệm vụ mà chỉ các chuyên gia về
thống kê vàphântíchdữliệu mới có thể thực hiện được. Mặt khác, các kết quả củaviệckhaiphá
dữ liệu thường liên quan đến những người dùng khác nhau trên toàn công ty.
Hãy xem xét kịch bản sau đây. Bạn thu thập dữliệuvề khách hàng của mình bao gồm các khía
cạnh nhân khẩu học (như tuổi tác, nghề nghiệp và nơi cư trú) cũng như các giao dịch trong quá
khứ (như các mặt hàng đã bán và các hợp đồng). Bộ phận tiếp thị của bạn muốn phát triển các đề
xuất chào hàng mới được thiết kế riêng cho các nhóm khách hàng cụ thể với các đặc tính giống
nhau. Làm thế nào để tìm ra các nhóm người dùng điển hình như vậy? Phân cụm dữliệu cung
cấp một giải pháp cho vấn đề này. Nó tự động nhóm các tập dữliệu theo các đặc tính hoặc các
tính năng của chúng. Sau đó, một nhà phântích có thể rà soát lại các nhóm này và điều chỉnh
chúng dần dần cho đến khi chúng đáp ứng các yêu cầu của mình. Ví dụ, một chuyên gia tiếp thị
có thể thấy rằng có một nhóm khách hàng nhỏ nhưng là nhóm khách hàng quantrọngvề kinh tế
có độ tuổi trên trung bình và không sử dụng dịch vụ ngân hàng Internet. Dựa vào thông tin này,
các đề xuất chào hàng riêng biệt có thể được thực hiện cho những khách hàng này. Một bước
quan trọngtrong quá trình phântích là cho phép những người dùng hiểu các kết quả của bước
phân cụm dữliệu này. Các chuyên gia phântích thường không phải là các chuyên gia về lập
trình các cơ sở dữliệu mức thấp.
Làm thế nào có thể phân phối các kết quả khaiphádữliệu đến các nhà phântíchvà các nhân
viên cần dùng nó? Làm thế nào có thể trình bày các kết quả sao cho phản ánh quy trình nghiệp
vụ mà người dùng có dính líu đến? Làm thế nào có thể đáp ứng các yêu cầu an ninh, sao cho mỗi
người dùng chỉ thấy những gì mà người ấy được xem theo quy định? Để đưa ra các câu trả lời
thoả đáng cho những câu hỏi đó, cần di chuyển vị trí trong khung nhìn phối cảnh, rời xa các phân
tích thống kê và tiến gần đến phía người dùng cuối thực tế và các quy trình nghiệp vụ mà người
đó dính líu đến. InfoSphereWarehouse là nền móng vững mạnh cho việctạo kho dữliệu phạm
vi toàn công ty. InfoSphereWarehouse cung cấp chức năng khaiphádữliệutrực tiếp trong cơ sở
dữ liệu DB2 ở bên dưới, nơi dữliệu thường trú. Có thể truy cập các chức năng đầy đủ bằng một
nền tảng bộ công cụ dựa trên Eclipse, dễ sử dụng và các nhiệm vụ triển khai có thể được kích
hoạt trực tiếp ngay trong bộ công cụ này.
Cognos IBM là một trong những người dẫn đầu thị trường về các giải pháp tạobáo cáo. Việctạo
báo cáo đóng một vai trò quantrọngtrong nhiều công ty vì nó giúp củng cố vàtrựcquan hóa các
thông tin liên quan theo nhiều cách khác nhau cho những khán giả đích khác nhau. Các kết quả
được trình bày thường được rút ra bằng cách áp dụng các phép tính số học cơ bản đối với thông
tin được lưu trữ trong kho dữliệu (ví dụ, doanh thu trung bình mỗi tháng). Các phântích nâng
cao, như trong ví dụ trên, không thuộc phạm vi và khả năng của một khung công tác tạobáo cáo.
Điều này dẫn đến kết hợp cả hai, vừa sử dụng các khả năng phântích nâng cao, quy mô linh hoạt
của InfoSphereWarehouse vừa sử dụng các khả năng tạobáocáo tinh vi đã được khẳng định của
Cognos IBM. Các phần sau đây cho thấy cách có thể kết hợpkhaiphádữliệucủa Kho dữliệu
InfoSphere IBMvàCognosIBM theo một cách linh hoạt để đạt được mục tiêu này. Sự tíchhợp
này không đòi hỏi bất kỳ việc lập trình hoặc thiết lập khác thường nào; tất cả có thể được thực
hiện bằng cách chỉ sử dụng SQL thuần của DB2.
Các phần sau đây trình bày ngắn gọn kiếntrúc cơ bản củaInfoSphereWarehousevàIBM
Cognos. Tiếp theo là các ý tưởng mức caovề cách có thể tíchhợp cả hai. Cuối cùng, sự tíchhợp
này được trình diễn trong một ví dụvề lĩnh vực chăm sóc sức khỏe đơn giản, theo từng bước
một. Các bài viết sắp tới của loạt bài này mô tả các khía cạnh vềkhái niệm và kỹ thuật tiên tiến
hơn về sự tíchhợp này.
Về đầu trang
Các thành phần sản phẩm
IBM InfoSphereWarehouse
InfoSphere Warehouse (Kho dữliệu InfoSphere) dựa vào DB2 để lưu trữ dữ liệu. Cơ sở dữliệu
có sẵn một tính năng phân vùng (DPF) để lưu trữ với hiệu năng caovà an toàn, có khả năng mở
rộng dữliệutrong kho dữ liệu, kết hợp các lợi thế của các cơ sở dữliệu xử lý giao dịch trực
tuyến (OLTP) với các yêu cầu lưu trữ của các kho dữliệu lớn. InfoSphereWarehouse có sẵn với
một loạt các công cụ để quản lý vàphântích kho dữ liệu. Các thành phầnphântích gồm
Các dịch vụ tạo khối.
Khaiphádữ liệu.
Phântích văn bản.
InfoSphere Warehouse Design Studio (Xưởng thiết kế kho dữliệu InfoSphere) là nền tảng tạo
công cụ dựa trên Eclipse được sử dụng để thiết kế các quy tắc về khối lượng công việc, các
luồng biến đổi dữliệuvà các luồng phântích để khaiphádữliệuvàphântích văn bản. Sau đó,
các luồng này có thể được triển khai tới bàn điều khiển quản trị InfoSphereWarehouse để được
lập lịch biểu và chạy theo các yêu cầu. KhaiphádữliệuInfoSphereWarehouse được xây dựng
với các thủ tục đã lưu của DB2 và các hàm do người dùng định nghĩa để thực hiện trong cơ sở dữ
liệu với hiệu năng cao, lợi dụng DB2 làm một môi trường thực hiện. Có thể truy cập nó hoặc
thông qua giao diện SQL của nó hoặc thông qua các luồng khaiphádữliệucủaInfoSphere
Warehouse.
Khai phádữliệu là nhiệm vụ tìm kiếm thông tin có ích trong các tập dữliệu lớn. Một kịch bản
điển hình sẽ được sử dụng khi chạy ví dụtrong bài viết này là chăm sóc sức khỏe. Hiện nay có
thể thu thập một lượng lớn dữliệu chăm sóc sức khỏe, mô tả tình trạng của nhiều bệnh nhân
khác nhau qua nhiều năm. Một công dụng quantrọngcủadữliệu này là để sớm tìm ra các chỉ
báo cho các bệnh tiềm ẩn. Với mục đích này, bạn có thể thu thập dữliệucủa các bệnh nhân, ví
dụ, mắc bệnh tim vàphântích các tham số nào, chẳng hạn như huyết áp và cân nặng, có liên
quan với nó. Dữliệu này phải được thu gom và được chuyển đổi để có thể dùng nó cho việckhai
phá dữ liệu. Cụ thể hơn, bạn cần phải có được một bảng chứa đúng một hàng cho một bệnh nhân
và một số cột biểu diễn thông tin về bệnh nhân. Ngoài ra, cần có một cột riêng chỉ thị liệu bệnh
nhân này có thực sự bị mắc bệnh không. Lược đồ có thể sẽ giống như Hình 1:
Hình 1. Lược đồ của bảng cơ sở dữliệu bệnh tim (một phầncủa các ví dụInfoSphere
Warehouse)
Dựa trên dữliệu này, các thủ tục đã lưu trữ trongInfoSphereWarehouse có thể xây dựng một
mô hình dự báo, cho bất kỳ bệnh nhân mới nào, cho biết liệu người đó có thể mắc bệnh tim tiềm
ẩn hay không. Quá trình này được gọi là "mô hình hóa". Mô hình khaiphádữliệu XML được
lưu trữ trong cơ sở dữliệuvà có thể được truy cập thông qua SQL/XQuery. Nó có thể được sử
dụng cho hai mục đích. Trước tiên, bạn có thể trích xuất thông tin từ mô hình này để có được các
hiểu biết sâu sắc về những chỉ báoquantrọngcủa bệnh tim và thông tin thống kê khác. Thứ hai,
mô hình này có thể được áp dụng tự động cho các bản ghi dữliệu mới. Như vậy, đối với bất kỳ
các bản ghi nào còn chưa có giá trị nào trong cột bệnh tim, bạn có thể tự động điền thêm giá trị
này, cùng với một giá trị biểu thị mức tin cậy rằng dựbáo này là chính xác. Quá trình này được
gọi là "cho điểm". Hình 2 cho thấy điều này dưới dạng lược đồ:
Hình 2. Dựa vào dữliệu lịch sử, một mô hình dựbáo được xây dựng để sau đó có thể được
áp dụng cho dữliệu mới
InfoSphere Warehouse chứa các cài đặt hiệu quả caocủa hầu hết các thuật toán khaiphádữliệu
hiện tại. Khaiphádữliệu được gọi khi lần đầu tiên viết dữliệu vào một bảng. Sau đó, tạo ra một
mô hình, sau này có thể áp dụng mô hình đó cho các bản ghi vẫn chưa biết được giá trị đích,
cung cấp một dựbáovà một giá trị tin cậy cho dựbáo này. Tất cả các hàm khaiphádữliệu được
gọi chỉ như các lệnh SQL bình thường, như bạn sẽ thấy dưới đây. Điều này cho phép tíchhợp dễ
dàng trong hầu hết các thiết lập, chẳng hạn như các dịch vụ Web.
IBM Cognos 8 Business Intelligence
IBM Cognos 8 Business Intelligence (Tri thức nghiệp vụ Cognos 8 của IBM) cung cấp một tập
đầy đủvề các khả năng tri thức nghiệp vụ (BI) và được dựa trên một kiếntrúc hướng dịch vụ
(SOA) linh hoạt. Các khả năng chính là tạobáo cáo, phân tích, các bảng đồng hồ và bảng điểm.
Tạo báocáo được sử dụng để tổnghợpdữliệu liên quanvề các quy trình nghiệp vụ vàphân phối
nó cho những người khaiphá tốt nhất từ thông tin cụ thể này. Trong môi trường khaiphádữ liệu,
điều này có nghĩa là chuyển giao kết quả cho những người khaiphá tốt nhất từ những hiểu biết
nghiệp vụ được tạo ra.
Các thành phầncủaCognos 8 cần thiết để tạovà xuất bản các bản ghi nghiệp vụ là:
Cognos Connection (Kết nối Cognos): Cổng thông tin Web và điểm nhập vào chức năng
của Cognos 8. Từ đây người dùng có thể quản lý, tổ chức và xem nội dung hiện tại như
các bản ghi hay các bảng đồng hồ. Các studio (xưởng) thiết kế nội dung dựa trên web,
như Report Studio, có thể được bắt đầu từ kết nối Cognos để tạo ra tài nguyên mới hoặc
sửa đổi các tài nguyên hiện có. Nó cũng được sử dụng để quản lý máy chủ Cognos, ví dụ,
để thay đổi các hạn chế truy cập, nhập khẩu nội dung, hoặc thay đổi danh sách những
người cần gửi bản ghi đến.
Cognos Framework Manager (Nhà quản lý khung công tác Cognos): Công cụ mô hình
hóa cho các nguồn dữliệu được sử dụng trongCognos 8. Dữliệu từ hầu hết các cơ sở dữ
liệu và các nguồn khác, như các dịch vụ Web, ví dụ, có thể được truy cập vào các bản ghi
của Cognos bằng cách mô tả một tầng siêu dữliệutrong Framework Manager (Nhà quản
lý khung công tác). Các bảng, các khung nhìn cơ sở dữliệuvà các thủ tục đã lưu trữ có
thể được thêm vào một gói Cognos làm các chủ đề truy vấn. Framework Manager được
sử dụng để nhập khẩu vàhợp nhất thông tin có sẵn trong các nguồn dữliệu khác nhau
trong công ty để cho thông tin có thể được sử dụng theo cách chặt chẽ trong các công cụ
BI củaCognos 8 như Report Studio. Điều quantrọng cần lưu ý rằng chính dữliệu được
lưu giữ trong nguồn dữliệuvà được truy cập khi báocáo được tạo ra.
Cognos Report Studio (Xưởng tạobáocáo Cognos): Một trong các xưởng thiết kế nội
dung dựa trên Web củaCognos 8 BI. Nó được dùng để tạovà chỉnh sửa các bản ghi phức
tạp vềdữliệu đã được mô tả trong Framework Manager. Nó cung cấp chức năng mạnh
mẽ như truy vấn ngược (drill-down), nhắc nhở và một thư viện tạo biểu đồ toàn diện.
Để làm cho dữliệu có sẵn trong một báo cáo, cần thực hiện một vài bước:
Trong Framework Manager, Trình mô hình hóa dữliệutạo ra siêu dữliệuCognos để mô
tả dữliệutrong cơ sở dữliệu từ một khung nhìn phối cảnh nghiệp vụ (bao gồm cả quan
hệ giữa các bảng, các tên nghiệp vụ của các giá trị và v.v).
Sau khi siêu dữliệu đã được mô hình hóa, nó được triển khai như là một gói vào kho lưu
trữ nội dung Cognos 8. Từ đó, nó có thể được truy cập thông qua kết nối Cognosvà các
xưởng thiết kế nội dung.
Nhà thiết kế báocáo nhập Kết nối Cognosvàtạo ra một báocáo mới về gói đã triển khai.
Sau khi tạo ra báocáo này, có thể quản trị nhóm đích và dạng phân phối (như thư điện tử
hoặc cổng thông tin Web).
Khả năng tạo các báocáo từ các nguồn dữliệuquan hệ là chìa khóa cho sự tíchhợpkhaiphá
InfoSphere WarehousevàCognoscủa IBM.
Về đầu trang
Kiến trúctíchhợp
Nội dung của các báocáoCognosbao gồm một tập kết quả do một nguồn dữliệuquan hệ cung
cấp, như mô tả ở trên. Nội dung của một báocáo cụ thể được xác định bởi một truy vấn SQL
(động) cho một hoặc nhiều nguồn dữ liệu. Bạn có thể sử dụng mô hình giao tiếp cơ bản này để
tích hợpkhaiphádữliệuvàtạobáocáoCognos theo các cách sau:
Cognos có thể được sử dụng để hiển thị bảng cho điểm, có thể kèm theo thông tin về độ
tin cậy.
Cognos có thể được sử dụng để hiển thị thông tin mô hình. Thông tin này được trích xuất
từ các mô hình XML thực tế bằng các hàm của trình trích xuất bảng hoặc bằng các truy
vấn XQuery.
Cognos có thể gọi khaiphádữliệuvà cho điểm tự động bằng cách gọi các thủ tục SQL
đã lưu trữ. Điều này cho phép thực hiện như sau:
o Gọi khaiphádữliệuvới các giá trị cài đặt khác nhau do người dùng cung cấp
trong giao diện tạobáo cáo.
o Gọi khaiphádữliệu trên các tập con dữliệu khác nhau (ví dụ, để tạo ra các báo
cáo truy vấn ngược đệ quy).
o Các bản ghi cho điểm động dựa trên các đầu vào của người dùng.
Hình 3 tóm tắt lược đồ cuộc gọi được sử dụng trong tất cả các trường hợp này.
Hình 3. Kiếntrúctíchhợp cơ bản củakhaiphádữliệuIBMInfoSpherevàtạobáocáo
IBM Cognos
Khai phádữliệu được gọi bằng một cuộc gọi thủ tục đã lưu trữ vàtạo ra một mô hình khaiphá
XML trong cơ sở dữ liệu. Mô hình này có thể được ghi vào dữliệu mới hoặc thông tin mô hình
có thể được trích xuất vào một bảng. Các bảng này có thể được Cognos tiêu dùng. Người dùng
có thể gọi tương tác khaiphá bằng cách gọi một thủ tục đã lưu tương ứng trên cơ sở dữliệutrong
một báocáo Cognos.
Việc tíchhợp này cung cấp nhiều lợi ích:
Nó là rất đơn giản và chỉ cần kiến thức SQL và không cần lập trình bổ sung.
Các mô hình khaiphá được lưu trữ trong cơ sở dữliệuvà có thể được truy cập một cách
an toàn, hiệu quả từ Cognos.
Sử dụng các thủ tục đã lưu, toàn bộ quy trình khaiphá có thể được kích hoạt và được
điều khiển từ Cognos.
Phần tiếp theo là một ví dụ từng bước cho kiểu tíchhợp này, nó cũng là một ví dụ đơn giản nhất:
cho điểm các bản ghi trong cơ sở dữliệuvà hiển thị các kết quả trong một báocáo Cognos. Việc
trích xuất thông tin mô hình và gọi khaiphádữliệu động từ các báocáoCognos sẽ được trình
bày trong các bài viết tiếp theo của loạt bài này.
Về đầu trang
Sử dụng các kết quả khaiphádữliệutrong các báocáo Cognos: Một ví dụ từ lĩnh vực chăm sóc
sức khỏe
Ví dụ này phântíchdữliệu bệnh nhân trong bệnh viện. Khoa tim mạch của bệnh viện có toàn bộ
các hồ sơ chính về bệnh nhân của họ cùng với một số kết quả đo như nhịp tim, huyết áp,
cholesterol và v.v Các bệnh nhân được kiểm tra với bốn căn bệnh tim mạch khác nhau. Các bản
ghi bệnh nhân có một cột cho biết liệu họ có mắc một trong bốn căn bệnh tim mạch (y = có) hay
không (n = không). Bảng cơ sở dữliệucủa bệnh tim mạch tương ứng được mô tả trong Hình 1.
Bảng này có thể được tìm thấy trong các ví dụ đi kèm vớiInfoSphere Warehouse.
Mục tiêu phântích là để dựbáo cho các bệnh nhân mới về nguy cơ họ mắc phải bất kỳ một trong
bốn căn bệnh tim mạch. Nếu có nguy cơ cao, cần thực hiện ngay các cuộc khám sức khỏe toàn
bộ.
Ý tưởng là để cho phép quản lý nguy cơ mắc bệnh ngay cả khi không tiến hành khám chuyên
khoa cho một trong những người mắc các bệnh tim mạch, nhưng đã có sẵn các kết quả đo từ các
cuộc khám sức khỏe trước đó về các lĩnh vực khác.
Tạo mô hình dựbáo
Đầu tiên, tạo một mô hình dựbáo dựa vào bảng HEART cho phép bạn dựbáo các nguy cơ bệnh
tim cho các bệnh nhân.
Tạo một dự án Data Warehouse (Kho dữ liệu):
Nhấn chuột phải vào Project Explorer và chọn New > Data Warehouse Project (như trong
Hình 4 dưới đây).
Hình 4. Tạo một dự án Kho dữliệu
Trong trình thủ thuật sau đây, hãy gõ tên dự án, ví dụ là AdvancedAnalytics. Sau đó nhấn
Finish.
Tạo ra một luồng khaiphá rỗng:
1. Mở rộng dự án vừa mới được tạo ra.
2. Nhấn chuột phải vào thư mục Mining Flows (Các luồng khai phá) và chọn New >
Mining Flow.
3. Trong trình thủ thuật hiện lên, nhập vào tên luồng khaiphá là Heart Disease Risk (Có
nguy cơ bệnh tim mạch).
4. Trong ví dụ này, bạn sẽ làm dựa vào cơ sở dữliệu này. Vì vậy, hãy để mặc định và nhấn
Next.
5. Chọn cơ sở dữliệu DWESAMP, và nhấn Finish.
Tạo luồng khai phá:
Trình soạn thảo luồng khaiphá mở ra. Ở bên phải của trình soạn thảo luồng khaiphá bạn có thể
thấy một bảng (palette) có các toán tử (xem Hình 5). Với các toán tử này, bạn có thể xây dựng
một luồng khaiphá bằng cách kéo và thả chúng vào khung trình soạn thảo.
Hình 5. Luồng khaiphátrong Design Studio
Để tạo ra mô hình khaiphádựbáo nguy cơ mắc bệnh cho các bệnh nhân, hãy làm theo các bước
sau:
1. Trong bảng các toán tử, trongphần Sources and Targets (Các nguồn và các đích), chọn
một toán tử Table Source (Nguồn bảng) và kéo nó vào trình soạn thảo.
2. Tronghộp thoại chọn bảng, mở rộng lược đồ HEALTHCARE (Chăm sóc sức khỏe) và
chọn bảng HEART, sau đó nhấn Finish.
3. Trong bảng các toán tử, trongphần Preprocessing Operators (Các toán tử xử lý trước),
chọn toán tử Random Split (Phân chia ngẫu nhiên) và kéo nó vào trình soạn thảo.
4. Nối cổng Output (Đầu ra) của toán tử đầu tiên tới cổng Input (Đầu vào) của toán tử thứ
hai bằng một hành động kéo đơn giản.
5. Chọn toán tử Random Split.
6. Trên thẻ Properties (Các đặc tính) bên dưới trình soạn thảo khai phá, thiết lập Percentage
(Tỷ lệ phần trăm) của đặc tính dữliệu kiểm tra là 20. Điều này có nghĩa chúng ta sẽ sử
dụng 20 phần trăm dữliệu để xác nhận hợp lệ mô hình của chúng ta sau đó. Vì vậy, bạn
phải phân chia dữliệu trước khi xây dựng mô hình dự báo.
7. Trong bảng các toán tử, trongphần Mining Operators (Các toán tử khai phá), chọn một
toán tử Predictor (Trình dự báo) và kéo nó vào trình soạn thảo.
8. Nối cổng Training Output (Đầu ra đào tạo) của toán tử phân chia với Predictor Input
Port (Các đầu vào Trình dự báo).
9. Chọn toán tử Predictor.
10. Trên thẻ Properties bên dưới trình soạn thảo khai phá, chọn thẻ Mining Settings (Các giá
trị cài đặt khai phá) ở phía bên trái.
11. Trong danh sách chọn cột Target (Đích), chọn DISEASED (Mắc bệnh) làm cột bạn
muốn dự báo.
12. Design Studio tự động nhận ra rằng bạn muốn dựbáo một cột giá trị danh định và tự
động cung cấp cho bạn các giá trị thiết lập (trong cùng một thẻ này) có sẵn cho mục đích
này. Trong danh sách lựa chọn Algorithm (Thuật toán), chọn Naïve Bayes.
13. Trên thẻ các đặc tính Mining Settings (các giá trị cài đặt khai phá), chọn thẻ Model
Name (Tên mô hình). Để lại tiền tố như đã có nhưng thay đổi tên mô hình thành
HeartDiseasePrediction.
14. Ngoài ra, trongphần Mining của bảng các toán tử, chọn toán tử Tester (Trình kiểm tra)
và kéo nó vào trình soạn thảo.
15. Nối cổng đầu ra Predictor’s Model (Mô hình của Trình dự báo) với cổng đầu vào
Tester’s Model (Mô hình của Tester) và cổng kiểm tra đầu ra Random Split’s Test
(Phân chia ngẫu nhiên) với cổng đầu vào của Tester’s input port.
16. Lưu trữ luồng khai phá, ví dụ, bằng cách nhấn vào vùng soạn thảo và nhấn Ctrl+S.
Bây giờ, luồng khaiphá đã sẵn sàng chạy.
Chạy luồng khai phá:
Bạn có thể thực hiện toàn bộ một trình soạn thảo luồng khaiphá hoặc chỉ theo các đường dẫn
dành riêng cho luồng đó bằng cách nhấn chuột phải vào một toán tử và chọn Run to this step…
(Chạy đến bước này ). Trong kịch bản này, bạn nhấn chuột phải vào toán tử Tester, chọn Run
to this step… và nhấn Finish. Luồng khaiphá này tạo ra một mô hình dựbáo nguy cơ về bệnh
tim và lưu nó trong cơ sở dữ liệu. Nó được đào tạo trên 80 phần trăm dữliệuvà sau đó được
kiểm tra trên các điểm dữliệu còn lại. Điều này cho phép bạn đánh giá mô hình sẽ thực hiện trên
dữ liệu mới tốt như thế nào. Chỉ cần nhấn chuột phải vào cổng Test Result (Kết quả kiểm tra)
của toán tử Tester. Bạn cũng có thể xem xét chính mô hình đó. Cuối cùng, nhấn chuột phải vào
cổng Model của toán tử Predictor.
Cho điểm dữliệu mới bằng cách sử dụng mô hình khaiphá
Cho điểm có nghĩa là áp dụng một mô hình đã học trước đây vào dữliệu mới. Dữliệu mới chưa
có phân loại (trong trường hợp này, vẫn chưa thực hiện cuộc khám bệnh tim mạch nào) và quá
trình cho điểm sẽ gán một dựbáo cho mỗi bản ghi mới theo mô hình khai phá.
Tạo một luồng khaiphá mới để cho điểm:
Thực hiện các bước tương tự như trong Create a new mining flow (Tạo một luồng khaiphá
mới), trừ việc bạn nên cho nó một tên khác, như là Classify New Patients (Phân loại các bệnh
nhân mới) chẳng hạn.
Tạo một luồng cho điểm:
Để tạo luồng cho điểm để phân loại các bệnh nhân mới thực hiện như sau:
1. Trong bảng các toán tử, trongphần Sources and Targets, chọn một toán tử Model Source
và kéo nó vào trình soạn thảo.
2. Tronghộp thoại lựa chọn mô hình khai phá, mở rộng các mô hình phân loại và lựa chọn
mô hình AdvancedAnalytics.HeartDiseasePrediction của bạn.
3. Trongphần Sources and Targets của bảng các toán tử, kéo một toán tử Table Source vào
trình soạn thảo.
4. Tronghộp thoại chọn bảng, mở rộng lược đồ HEALTHCARE và chọn bảng HEART.
Bảng này có thể được nạp vào kho dữliệu hàng đêm hoặc theo thời gian thực, bất cứ khi
nào có một bệnh nhân mới đã vào viện và một khi các kết quả đo cần thiết đã có sẵn.
5. Trongphần Mining Operators của bảng các toán tử, kéo một toán tử Scorer (Trình cho
điểm) vào trình soạn thảo.
6. Nối toán tử mô hình và nguồn bảng vào trình cho điểm này.
7. Trình cho điểm này gắn thêm hai cột có phân loại (y và n) và cột khác chỉ rõ độ chắc
chắn củaphân loại này. Để lưu bảng đã cho điểm này, bạn phải tạo một bảng phù hợpvới
các cột ấy như là một toán tử Table Target.
Để thực hiện, nhấn chuột phải vào cổng đầu ra của trình cho điểm và chọn Create
Suitable Table… (Tạo bảng phù hợp ).
8. Tronghộp thoại hiện lên, chỉ cần chỉ rõ tên của bảng mới:
NEW_PATIENT_CLASSIFICATION và lược đồ ở nơi bảng sẽ được tạo:
HEALTHCARE. Nhấn Finish.
9. Lưu luồng cho điểm.
10. Cuối cùng, thực hiện luồng này bằng cách nhấn chuột vào toán tử đích của bảng và chạy
theo bước này.
Sau khi thực hiện luồng cho điểm này, trong khung nhìn phía dưới xuất hiện một mẫu từ bảng
cho điểm (xem Hình 6). Nếu bạn cuộn sang bên phải, bạn sẽ thấy hai cột đã được trình cho điểm
này nối thêm vào.
[...]... 21 Nhấn vào nút Run report (Chạy báo cáo) để xem báocáo kết quả Hình 11 cho thấy báocáo cuối cùng Cột cuối cùng bên cho thấy sự phân loại nguy cơ Hình 11 Báocáo nguy cơ bệnh tim trong lĩnh vực Chăm sóc sức khỏe Về đầu trang Kết luận và triển vọng Bài viết này mô tả kiếntrúc cơ bản cho phép tíchhợp đơn giản việc khai phádữliệu InfoSphere vào báocáoCognos Nó chỉ ra rằng một sự tíchhợp như... để tạo một báocáo khai phádữliệu đơn giản: 1 Trên màn hình Welcome, nhấn vào Create professional reports (Tạo các bản ghi chuyên nghiệp) 2 Trong Select a package explorer (Chọn một trình thám hiểm gói), hãy nhấn vào gói Heart mà bạn đã xuất bản trong Framework Manager 3 Tronghộp thoại Welcome, nhấn vào Create a new report or template (Tạo một bản ghi mới hoặc khuôn mẫu) 4 Chọn khuôn mẫu rỗng và. .. siêu dữliệutrongCognos Framework Manager Trước khi bạn có thể tạo một bản ghi bằng cách sử dụng các kết quả khai phá, bạn cần phải định nghĩa tài nguyên nào (các cơ sở dữ liệu, các bảng hoặc các khung nhìn) nên được sử dụng Framework Manager cũng cho phép bạn làm phong phú thêm các nguồn dữliệu bằng cách định nghĩa các kết nối và các cột mới (với các biểu thức) Ví dụ đơn giản này tạo ra một dự án Cognos. .. điểm và xuất bản siêu dữliệu Mở Framework Manager vàtạo một dự án mới: 1 2 3 4 Trên màn hình, bạn có thể khởi chạy Cognos Framework Manager Sau khi khởi động xong, nhấn vào Create a new project… Tronghộp thoại hiện lên, chỉ rõ tên là HeartMetaData, và nhấn OK Chọn English làm ngôn ngữ được dùng và nhấn OK 5 Khi bạn muốn tạo siêu dữliệu từ một bảng DB2, bạn chọn một Data Sources (Các nguồn dữ liệu) ... nhận khai phádữ liệu, khi người dùng các kết quả không cần phải biết tí gì về quá trình khaiphá Một ví dụ đang chạy trong lĩnh vực y tế đã chỉ ra cách tíchhợp đơn giản có thể đạt được chỉ với nỗ lực phát triển tối thiểu Tuy nhiên, có nhiều khả năng hơn thế Các bài viết tiếp theo sẽ thảo luận các chủ đề nâng cao hơn, chẳng hạn như truy vấn ngược (drill-through), việc sử dụng các số liệu thống kê trong. .. lý khung công tác Cognos 8 Ở phía bên trái trong Project Viewer, bạn có thể tìm hiểu dự án mới được tạo ra Bây giờ, hãy định nghĩa một cột bổ sung kết hợp các hiểu biết về hai cột dựbáo do luồng cho điểm tạo ra Ý tưởng là mang lại một cái nhìn sâu về khai phádữliệu theo cách dễ hiểu cho các bác sĩ Để làm điều này, thực hiện các bước sau: 1 Mở rộng DWESAMP Bạn thấy bảng được tạo ra trong luồng cho... thảo báocáo (xem Hình 10) 7 Tronghộp văn bản, nhập vào tên Patient checkup recommendation report (Báo cáo đề xuất khám sức khỏe bệnh nhân) 8 Tìm đến vị trí List item (Mục danh sách) tronghộp công cụ và kéo nó vào vùng trình soạn thảo 9 Chuyển về thẻ Source (Data sources) và kéo bảng NEW_PATIENT_CLASSIFICATION vào danh sách trong vùng trình soạn thảo 10 Bạn thấy bảng bệnh nhân đã phân loại và nếu bạn... Không xác định các giá trị thiết lập bảo mật trong ví dụ này Như vậy, nhấn Next 8 Sau đó nhấn “Publish" 9 Tronghộp thoại đang nói rằng bạn đã xuất bản thành công gói của bạn, nhấn Finish Tạo một một báocáo khai phádữliệu Cognos đơn giản Cognos Report Studio là một ứng dụng hoàn toàn dựa trên web Bạn có thể khởi động Report Studio bằng cách nhấn đúp vào biểu tượng Internet Explorer trên màn hình... (Các nguồn dữ liệu) chung và nhấn Next 6 Chọn cơ sở dữliệu DWESAMP và nhấn Next 7 Bây giờ bạn được yêu cầu chọn đối tượng dữliệu mà bạn muốn nhập khẩu làm siêu dữliệu Mở rộng lược đồ HEALTHCARE và thư mục bảng và kiểm tra bảng NEW_PATIENT_CLASSIFICATION mà bạn đã tạo ra trong quá trình thực hiện luồng cho điểm Nhấn Next 8 Các thiết lập trên trang này là OK, rồi nhấn Import và sau đó nhấn Finish Hình... với các kết quả mẫu Cột được nối đầu tiên, PREDICTED_CLASS, chứa kết quả dựbáo Nó nói rõ liệu mô hình khaipháphân loại các bệnh nhân đang xét là người sẽ bị bệnh (y) hay không bị bệnh (n) Cột được nối thứ hai, CLASS_CONFIDENCE, chứa các số giữa 0 và 1 và nói rõ độ chắc chắn đã dựbáocủa trình cho điểm (theo mô hình) Giá trị 1 tương ứng với "chắc chắn 100 phần trăm rằng phân loại này là đúng." Tạo . Tích hợp khai phá dữ liệu trong InfoSphere Warehouse với việc tạo
báo cáo Cognos của IBM
Phần 1: Tổng quan về kiến trúc tích hợp InfoSphere Warehouse. dụng trong tất cả các trường hợp này.
Hình 3. Kiến trúc tích hợp cơ bản của khai phá dữ liệu IBM InfoSphere và tạo báo cáo
IBM Cognos
Khai phá dữ liệu