1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu lý thuyết và phương pháp luận xây dựng csdl theo mô hình data ware house và metadata

285 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 285
Dung lượng 5,35 MB

Nội dung

BỘ CÔNG THƯƠNG TRUNG TÂM THÔNG TIN CÔNG NGHIỆP VÀ THƯƠNG MẠI BÁO CÁO TỔNG HỢP ĐỀ TÀI NGHIÊN CỨU NGHIÊN CỨU LÝ THUYẾT VÀ PHƯƠNG PHÁP LUẬN XÂY DỰNG CSDL THEO MƠ HÌNH DATA WARE HOUSE VÀ METADATA CNĐT : ĐỖ VĂN CHIẾN 9558 HÀ NỘI – 2012 Nghiên cứu lý thuyết phương pháp luận xây dựng CSDL theo mơ hình Data Ware House Metadata MỤC LỤC A MỤC TIÊU ĐỀ TÀI B TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGỒI NƯỚC C PHƯƠNG PHÁP NGHIÊN CỨU D NỘI DUNG NGHIÊN CỨU CHƯƠNG I Nghiên cứu lý thuyết phương pháp luận công tác khảo sát, nội dung nhiệm vụ khảo sát I.1 Nghiên cứu sở lý thuyết Khảo sát liệu nguồn 1. Khái niệm dữ liệu nguồn. Tại sao cần khảo sát dữ liệu nguồn 2. Xác định mục đích khảo sát 11 3. Xác định các yêu cầu cần đạt được của kết quả khảo sát 11 4. Xác định phương pháp khảo sát 11 5. Xác định qui mô và đối tượng khảo sát 13 6. Xây dựng qui trình và kế hoạch khảo sát 13 7. Thiết kế mẫu phiếu khảo sát 13 8. Báo cáo khảo sát 20 I.2 Nghiên cứu sở lý thuyết Khảo sát nhu cầu thông tin người sử dụng 21 1. Thông tin và nhu cầu thông tin 21 2. Mục đích của khảo sát nhu cầu sử dụng thơng tin 24 3.Phương pháp khảo sát 24 4.Xử lý và phân tích kết quả điều tra 26 I.3 Nghiên cứu sở lý thuyết khảo sát yêu cầu phương thức cung cấp thông tin 26 1.Nhu cầu thông tin và các đối tượng dùng tin 26 2.Các phương thức truyền và cung cấp thông tin 27 3.Phương pháp và mục tiêu khảo sát 28 I.4 Nghiên cứu sở lý thuyết tổng hợp viết tài liệu khảo sát 29 1. Cấu trúc của báo cáo nghiên cứu, khảo sát 29 2. Xây dựng các ngun tắc phân loại và biên tập thơng tin khảo sát 30 3. Xây dựng các tiêu chí trong kết quả khảo sát. Lập báo cáo khảo sát 35 CHƯƠNG II Nghiên cứu sở lý thuyết công nghệ thiết kế hệ thống kho liệu ứng dụng BI 36 II.1 Nghiên cứu sở lý thuyết công nghệ thiết kế kho liệu nguồn36 1.Giới thiệu 36 Nghiên cứu lý thuyết phương pháp luận xây dựng CSDL theo mơ hình Data Ware House Metadata 2.Định nghĩa kho dữ liệu nguồn 36 3.Cấu trúc của một kho dữ liệu nguồn 37 II.2 Nghiên cứu sở lý thuyết công nghệ thiết kế kho liệu datamart 39 1. Định nghĩa kho dữ liệu và Datamart 39 2.Tại sao cần thiết kế Data Mart 42 II.3 Nghiên cứu sở lý thuyết công nghệ thiết kế ETL - Extract Transformation - Load 42 1. Khái niệm ETL 42 2. Các kiểu kiến trúc ETL 44 II.4 Nghiên cứu sở lý thuyết công nghệ thiết kế tầng liệu đa chiều cho người dùng ( End - User) 46 1.Khái niệm dữ liệu đa chiều 46 2.Ngôn ngữ MDX 47 3. Công nghệ thiết kế tầng dữ liệu đa chiều 49 4. Giới thiệu sản phẩm MS. SQL Server – Analysis Services 49 II.5 Nghiên cứu sở lý thuyết công nghệ thiết kế khai thác phân tích thơng tin 58 1. Khai thác và phân tích thơng tin là gì 58 2. Hướng tiếp cận trong data ming 59 3. Ứng dụng của khai phá dữ liệu 60 4.Các bước  khai thác và phân tích thơng tin 61 5.Hạ tầng công nghệ 63 II.6 Nghiên cứu sở lý thuyết công nghệ thiết kế giải pháp tập trung tích hợp số liệu 63 1. Khái niệm tập trung dữ liệu 63 2. Tích hợp dữ liệu là gì 64 3. Kiến trúc logic tích hợp dữ liệu 65 4.Cơ chế tích hợp dữ liệu 65 5.Các bước triển khai tập trung và tích hợp dữ liệu 66 6.Giới thiệu bộ công cụ Oracle Warehouse Builder 66 II.7 Nghiên cứu sở lý thuyết công nghệ thiết kế giải pháp làm sạch, chuẩn hóa cung cấp số liệu 68 1. Khái niệm chuẩn hóa dữ liệu 68 2. Các dạng chuẩn hóa dữ liệu 68 3. Làm sạch dữ liệu 70 Nghiên cứu lý thuyết phương pháp luận xây dựng CSDL theo mơ hình Data Ware House Metadata II.8 Nghiên cứu sở lý thuyết công nghệ thiết kế Giải pháp xây dựng sở liệu đa chiều với OLAP .72 1. OLAP là gì? 72 2. Mơ hình dữ liệu đa chiều là gì 73 3. Giới thiệu dịch vụ OLAP (OLAP Services) của Microsoft SQL Server 74 4. So sánh OLAP với OLTP 75 5. Các mơ hình lưu trữ hỗ trợ OLAP 76 6. Kiến trúc khối (cube) của OLAP 79 7 Mơ hình kiến trúc dịch vụ OLAP 80 II.9 Nghiên cứu sở lý thuyết công nghệ thiết kế Giải pháp cung cấp thông tin đến đối tượng sử dụng .83 1. Các đối tượng người sử dụng 83 2. Các giải pháp cung cấp thông tin 84 II.10 Nghiên cứu sở lý thuyết công nghệ thiết kế Giải pháp để người sử dụng tự truy cập, khai thác, tìm kiếm phân tích dự báo thơng tin 89 1. Nhu cầu khai thác, tìm kiếm, phân tích và dự báo thơng tin 89 2. Các giải pháp cơng nghệ chung phục vụ phát hiện tri thức và khai phá dữ liệu 91 3. Một số nguyên tắc chung trong thiết kế giải pháp khai thác thông tin thuận tiện cho  người sử dụng 104 4. Giải pháp của một số hãng phần mềm lớn 107 CHƯƠNG III Nghiên cứu sở lý thuyết công nghệ thiết kế kho liệu tập trung liệu 108 III.1 Nghiên cứu sở lý thuyết công nghệ xây dựng kịch tạo CSDL trung chuyển 108 1  Nguồn dữ liệu 109 2. Khu vực xử lý 109 III.2 Nghiên cứu sở lý thuyết công nghệ xây dựng kịch tạo CSDL chứa chủ đề 112 III.3 Nghiên cứu sở lý thuyết công nghệ xây dựng kịch tạo module để load liệu từ DSA kho tập trung từ kho tập trung Data Mart 113 1. Các khái niệm chung 113 2. Xây dựng kịch bản cho khu vực DSA 116 3. Xây dựng kịch bản cho các Data Mart 118 4. Thực thi DM trong SQL 2008 124 III.4 Nghiên cứu sở lý thuyết công nghệ xây dựng kịch tạo JOB để chạy module theo lịch đặt sẵn 125 1. Lý do, mục đích nghiên cứu 125 Nghiên cứu lý thuyết phương pháp luận xây dựng CSDL theo mơ hình Data Ware House Metadata 2. Phương pháp nghiên cứu 126 3. Tìm hiểu chung về xây dựng kịch bản chạy các module theo lịch sẵn 129 4. Sự cần thiết của JOB trong hệ thống thông tin 130 5. Cơ sở công nghệ về cài đặt 131 6. Biện pháp triển khai, áp dụng vào thực tiễn 133 III.5 Nghiên cứu sở lý thuyết công nghệ xây dựng module để làm tích hợp liệu 137 1. Tìm hiểu chung về module để làm sạch và tích hợp dữ liệu 137 2. Sự cần thiết của làm sạch dữ liệu và tích hợp dữ liệu trong hệ thống thơng tin 139 3. Cơ sở cơng nghệ 140 CHƯƠNG IV Nghiên cứu sở lý thuyết công nghệ xây dựng CSDL đa chiều với OLAP 147 IV.1 Nghiên cứu sở lý thuyết công nghệ xác định chiều liệu từ thiết kế thi công 147 1. Khái niệm chung 147 2. Phân tích đa chiều 148 3. Định hướng công nghệ 150 4. Cách xác định chiều 151 IV.2 Nghiên cứu sở lý thuyết công nghệ xác định thông tin số liệu từ thiết kế thi công 151 1. Triển khai OLAP trong SQLSERVER 152 IV.3 Nghiên cứu sở lý thuyết công nghệ xác định nấc phân cấp thông tin sở thiết kế thi công 162 1. Xác định khối 162 2. Xử lý các khối 163 3. Khối ảo 163 4. Xác định các chiều 163 5. Chiều có phân cấp 164 6. Fact table (Fact) 164 7. Slice 164 Hình IV.23. Khối dữ liệu và các lát cắt 165 8. Các phân hoạch (Partitions) 165 IV.4 Nghiên cứu sở lý thuyết công nghệ tạo hierachy 166 1. Khái niệm về hierachy 166 2. Định nghĩa và tạo các phân cấp trong Oracle 11g 169 IV.5 Nghiên cứu sở lý thuyết công nghệ Dùng OLAP API để tạo CSDL đa chiều 170 Nghiên cứu lý thuyết phương pháp luận xây dựng CSDL theo mơ hình Data Ware House Metadata 1. Khái niệm CSDL đa chiều 170 2. Sử dụng dịch vụ SSAS để xây dựng các cơ sở dữ liệu nhiều chiều 171 CHƯƠNG V Nghiên cứu sở lý thuyết công nghệ xây dựng tầng ứng dụng để tìm khai phá thơng tin 174 V.1 Nghiên cứu sở công nghệ Cài đặt ứng dụng Web 174 1. Khái niệm ứng dụng web 174 2. Đặc điểm của Dịch vụ Web 175 3. Kiến trúc của Dịch vụ Web 175 4. Các thành phần của Dịch vụ Web 177 5. An toàn cho dịch vụ Web 180 6. Xây dựng một dịch vụ Web 181 7. Tích hợp dịch vụ Web theo chuẩn 181 V.2 Nghiên cứu sở công nghệ Cài đặt LDAP 182 1. Khái niệm về LDAP 182 2. Sự cần thiết của LDAP trong hệ thống thông tin 183 3. Cơ sở công nghệ về cài đặt LDAP 183 4. Triển khai, áp dụng vào thực tiễn 186 V.3 Nghiên cứu sở công nghệ cách dùng BI để Lập báo cáo tổng hợp 187 1. Business Intelligence (BI) là gì 187 2. Các hoạt động chính của BI 188 3. BI dành cho ai 190 4. Một số bước cơ bản để tạo lập báo cáo từ hệ thống BI 190 5. Tạo lập báo cáo trong một số hệ thống BI 192 V.4 Nghiên cứu sở công nghệ cách dùng BI để lập báo cáo phân tích 194 1.Khái niệm báo cáo phân tích 194 2. Kỹ thuật phân tích dữ liệu 196 3. Truy vấn và báo cáo 198 4. Cơng nghệ phân tích nhiều chiều 198 5. Mơ hình hóa các chiều với InfoSphere Data Architect của IBM ‐ Kỹ thuật xi chiều  trong InfoSphere Data Architect 199 V.5 Nghiên cứu sở công nghệ cách dùng BI để dự báo thông tin 205 1. BI và dự báo thông tin 205 2. Phân tích dự đốn 207 Nghiên cứu lý thuyết phương pháp luận xây dựng CSDL theo mơ hình Data Ware House Metadata 3. Phân tích dự đốn  (Predictive Analysis) và dự báo kinh doanh thơng minh (Business  Forecasting) 209 4. Dự báo và khai khoáng dữ liệu 212 5. Tham khảo một số thuật toán 215 V.6 Nghiên cứu sở công nghệ phương pháp nhúng ứng dụng BI vào Live Office 222 1. Khái niệm Live Office 222 2. Làm việc với nội dung Crystal Reports trong Live Office 223 3. Làm việc với nội dung Web Intelligence trong Live Office 226 4. Làm việc với các truy vấn trong Live Office 228 5. Thực hiện các tác nghiệp chung đối với đối tượng Live Ofice 230 6. Thực hiện các tác nghiệp nâng cao 232 V.7 Nghiên cứu sở công nghệ truy vấn khai thác thông tin dựa thơng tin có sẵn 232 1. Khái niệm chung 232 2. Các bước khai phá dữ liệu từ các thơng tin có sẵn dưới dạng văn bản 234 3. Các bộ máy tra cứu tìm tin trên Internet 248 V.8 Nghiên cứu sở công nghệ truy vấn khai thác thông tin theo báo cáo theo nhu cầu 249 1.Tìm hiểu chung về truy vấn và khai thác thơng tin theo báo cáo 249 2.Sự cần thiết của xây dựng báo cáo từ truy vấn và khai thác thông tin theo nhu cầu 251 3.Thiết kế báo cáo 252 4.Kết quả, đánh giá 253 V.9 Nghiên cứu sở công nghệ truy vấn khai thác thông tin để chia sẻ thông tin với người khác 256 1.Tìm hiểu chung về việc chia sẻ thơng tin 256 2.Sự cần thiết trong việc về  truy vấn và khai thác thông tin để chia sẻ thông tin với người  khác 259 Kết luận kiến nghị 259 Tài liệu tham khảo 261 Nghiên cứu lý thuyết phương pháp luận xây dựng CSDL theo mơ hình Data Ware House Metadata A MỤC TIÊU ĐỀ TÀI Với mục đích tạo lập hệ thống thơng tin thống, tảng, đầy đủ, chuyên ngành - hệ thống thông tin, tiêu, thông số chuyên sâu, đặc thù thực trạng loại sản phẩm, nguồn lực, hoạt động, tiềm lực phát triển yếu tố liên quan trực tiếp ngành khí Việt nam, phục vụ xây dựng chiến lược, hoạch định sách, điều hành, quản lý Nhà nước phát triển kinh tế công nghiệp, thương mại Việt nam, phục vụ chuyển dịch cấu kinh tế cơng nghiệp hố, đại hố đất nước, Trung tâm thông tin Công nghiệp Thương mại giao thực nhiệm vụ “Xây dựng sở liệu ngành khí Việt Nam” Có thể nói, khí ngành có mối liên quan với hầu hết tất ngành kinh tế Chính vậy, để thu thập, xử lý liệu ngành khí, liệu đến từ nhiều nguồn, với nhiều chủng loại thông số Hơn nữa, để đánh giá đúng, đủ ngành khí, cần có công cụ cho phép khai thác thông tin đa chiều, đa tầng nhanh chóng Để đáp ứng yêu cầu xử lý hệ thống thông tin trên, nhóm thực đề xuất nghiên cứu cơng nghệ nhà kho liệu (Data Ware House) với mơ hình BI (Business Intelligence), OLAP (Online Analytical Processing) đặt mục tiêu nghiên cứu vấn đề lý thuyết cơng nghệ liên quan trực tiếp đến mơ hình B TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGỒI NƯỚC Trên giới, đặc biệt nước có trình độ cơng nghệ phát triển, việc ứng dụng mơ hình Data Ware House tổ chức khai thác hệ thống thơng tin lớn với mục đích khai phá liệu, khám phá tri thức, hỗ trợ định việc khơng cịn xa lạ Để hỗ trợ, nhiều hãng phần mềm Oracle, Microsoft, SAP, …liên tục phát triển hoàn thiện sản phẩm để đáp ứng nhu cầu để sử dụng hết công suất sản phẩm phần cứng liên tục nâng cấp Tại Việt Nam, lý thuyết, năm gần đây, Data Ware House nhắc đến nhiều để triển khai thực tế, nói chưa ghi nhận thành cơng cụ thể Lý có nhiều chủ yếu nguồn liệu hệ thống thơng tin thường khó thu thập, khó qui chuẩn Điều số doanh nghiệp lớn, áp dụng hệ thống quản lý tồn cơng ty ERP, CRM … Đây khó khăn mà nhiệm vụ “Xây dựng CSDL ngành khí Việt Nam” cần khắc phục Trên thực tế, việc xây dựng hệ thống thơng tin lớn có vai trị quan trọng quản lý nhà nước cần có bước liệt để nâng cao lực quản lý tất cấp Data Ware House mơ hình tổ chức liệu dùng để xử lý liệu có đặc tính sau: Nghiên cứu lý thuyết phương pháp luận xây dựng CSDL theo mơ hình Data Ware House Metadata - Nguồn liệu đa dạng, phong phú, cần qui chuẩn, làm sạch, tích hợp - Dữ liệu cần phải tính tốn, xử lý để phục vụ q trình khai thác nhanh, nhiều đối tượng, với nhu cầu khác nhau, với góc nhìn khác nhiều tiêu chí Đây đặc điểm liệu ngành khí Việt Nam lý nhóm thực lựa chọn Data Ware House để tổ chức CSDL ngành khí Việt Nam C PHƯƠNG PHÁP NGHIÊN CỨU Đây đề tài có nội dung túy vấn đề lý thuyết nên phương pháp nghiên cứu sử dụng tham khảo tài liệu vấn đề liên quan để từ rút nội dung là: + Khái niệm vấn đề nghiên cứu + Ứng dụng vấn đề thực tế + Đề xuất việc áp dụng vấn đề thực nhiệm vụ xây dựng CSDL ngành khí Việt Nam D NỘI DUNG NGHIÊN CỨU CHƯƠNG I Nghiên cứu lý thuyết phương pháp luận công tác khảo sát, nội dung nhiệm vụ khảo sát I.1 Nghiên cứu sở lý thuyết Khảo sát liệu nguồn Khái niệm liệu nguồn Tại cần khảo sát liệu nguồn Dữ liệu đóng vai trị khơng thể thiếu điều tra nghiên cứu, khảo sát Từ liệu thu thập được, qua trình xử lý, rút kết quan trọng khảo sát Để phục vụ điều tra, khảo sát, người ta chia loại liệu thành hai loại: liệu thứ cấp liệu sơ cấp a Dữ liệu thứ cấp Dữ liệu thứ cấp liệu người khác thu thập, sử dụng cho mục đích khác với mục đích nghiên cứu Dữ liệu thứ cấp liệu chưa xử lý (cịn gọi liệu thô) liệu xử lý Như vậy, liệu thứ cấp người nghiên cứu trực tiếp thu thập Các liệu thứ cấp là: + Các báo cáo phủ, ngành, số liệu quan thống kê tình hình kinh tế xã hội, ngân sách quốc gia, xuất nhập khẩu, đầu tư nước ngoài, liệu công ty báo cáo kết tình hình hoạt động kinh doanh, nghiên cứu thị trường Nghiên cứu lý thuyết phương pháp luận xây dựng CSDL theo mơ hình Data Ware House Metadata + Các báo cáo nghiên cứu quan, viện, trường đại học + Các viết đăng báo tạp chí khoa học chuyên ngành tạp chí mang tính hàn lâm có liên quan + Tài liệu giáo trình xuất khoa học liên quan đến vấn đề nghiên cứu + Các báo cáo hay luận văn sinh viên trường đại học nước, luận văn thạc sĩ, tiến sĩ ngành khoa học liên quan Vì nguồn liệu xử lý, ưu điểm việc sử dụng liệu thứ cấp tiết kiệm tiền bạc, thời gian Tuy nhiên, việc sử dụng liệu thứ cấp có số nhược điểm là: + Số liệu thứ cấp thu thập cho nghiên cứu với mục đích khác hồn tồn khơng hợp với vấn đề chúng ta; khó phân loại liệu; biến số, đơn vị đo lường khác + Dữ liệu thứ cấp thường qua xử lý nên khó đánh giá mức độ xác, mức độ tin cậy nguồn liệu Do vậy, sử dụng liệu thứ cấp, để đảm bảo tính xác liệu, phải kiểm tra xem kết nghiên cứu người khác dựa vào liệu thứ cấp hay sơ cấp có điều kiện, nên kiểm tra liệu gốc b Các nguồn liệu thứ cấp Là tường trình không trực tiếp kiện Nguồn thứ cấp dựa nội dung nguồn nguồn thứ cấp khác nhằm tạo nhìn tổng quan, để đưa khẳng định có tính phân tích tổng hợp Các nguồn thứ cấp là: + Danh mục thư mục: Trên sở danh mục thư mục thư viện, tìm kiếm liệu cần thiết theo tác giả, chủ đề, thời gian + Tự điển: Dùng để xác định nghĩa từ chun mơn nghề Ngồi ra, dùng để xác định liện ngành, tên tuổi nhân vật tổ chức có tầm ảnh hưởng lĩnh vực quan tâm + Bách khoa tồn thư: Dùng để tìm hiểu thơng tin sở hay lịch sử tìm hiểu thời điểm quan trọng, kiện có ý nghĩa chuyên ngành quan tâm + Cẩm nang: Dùng để tìm hiểu kiện cá nhân liên quan, có tầm ảnh hưởng đến vấn đề quan tâm + Danh bạ: Dùng để xác định tổ chức nhân vật liên quan, qua xác định thơng tin địa chỉ, email để liên lạc + Internet: trang web + Các nguồn phủ: tổ chức phủ, văn luật, qui định từ cục, tổng cục thống kê c Đánh giá nguồn liệu thứ cấp công nghệ thông tin, cơng việc phức tạp hồn tồn hệ thống máy tính đảm nhận Đối với người sử dụng cuối cùng, việc khai phá liệu thuận tiện, dễ hiểu, dễ sử dụng Để làm điều này, hãng phần mềm dựa nguyên tắc chung, nghiên cứu giải pháp phù hợp để thiết kế phần mềm phù hợp với đối tượng sử dụng Điều quan trọng hệ thống BI thiết kế giải pháp cho tất người sử dụng để trả lời câu hỏi kinh doanh Người dùng doanh nghiệp với kinh nghiệm đơn giản trực quan, tham gia tìm câu trả lời cho câu hỏi Họ khơng cần phải chuyển sang mơi trường tìm hiểu ứng dụng họ mở rộng suy nghĩ họ Họ cần phần mềm bắt kịp với lối suy nghĩ, định đáp ứng Những điều mà người dùng doanh nghiệp cần hệ thống BI bao gồm: + Kết phân tích, họ sử dụng kết để trả lời câu hỏi kinh doanh quan trọng cung cấp tập trung nơi với thông tin có ý nghĩa họ + Chia sẻ thông tin thông minh thu thập từ cộng tác với người dùng doanh nghiệp khác mình, với loại khác người dùng doanh nghiệp, để đến thỏa thuận, định hành động +Cái nhìn sâu sắc có tính khả thi dành cho tất đối tượng người sử dụng, nơi lúc để đáp ứng lại điểm tác động Trong đó, với đối tượng người dùng, cần chia họ thành nhóm để phục vụ nhu cầu Các nhóm người dùng tin thường bao gồm: + Đối tượng giám đốc điều hành + Đối tượng quản lý kinh doanh + Đối tượng nhà phân tích kinh doanh Từng nhóm đối tượng có nhu cầu thông tin cách thức khai thác khác cần đáp ứng Chương III Nghiên cứu sở lý thuyết công nghệ thiết kế kho liệu tập trung liệu Chương III có mục lớn Mục 1: Nghiên cứu sở lý thuyết công nghệ xây dựng kịch tạo CSDL trung chuyển Mơ hình kiến trúc kho liệu gồm có ba thành phần: Dữ liệu nguồn, khu vực xử lý kho liệu Trong đó, nguồn liệu kho liệu bao gồm từ nhiều nguồn khác có cấu trúc liệu khác Dữ liệu từ hệ thống nguồn thường hỗn tạp chứa nhiều cấu trúc khác ví dụ: sở liệu, từ file excel, file thơ, hay dạng XML Vì trước đưa vào kho liệu cần phải chuyển đổi tích hợp liệu Ở khu vực xử lý, liệu sử dụng kỹ thuật làm chuyển đổi để đảm bảo tính quán liệu trước đưa vào kho liệu đích Thơng thường người ta sử dụng cơng cụ trích xuất, chuyển đổi nạp liệu (ETL) Cơng cụ thực thao tác trích xuất liệu, chuyển đổi liệu, tải liệu vào kho liệu Tiến trình ETL gồm có bước - Trích xuất: Dữ liệu nguồn từ nhiều nguồn khác có nhiều cấu trúc liệu khác nhiều loại sở liệu, từ file excel hay từ file thơ Vì nhiệm vụ bước trích xuất liệu từ hệ thống nguồn để xử lý - Chuyển đổi: Đây trình phức tạp dùng để chuyển đổi liệu nguồn mơ hình khác phù hợp chuyển vào sở liệu đích Ở bước phải sử dụng phép chuyển đổi như: ƒ Chọn cột liệu phù hợp (chỉ chọn cột cần thiết ) ƒ Chuyển đổi liệu ƒ Tạo cột tính tốn ƒ Lọc liệu ƒ Sắp xếp liệu ƒ Thực phép tổng hợp (tính tổng cột, đếm số dịng, tính trung bình) ƒ Tạo giá trị (tạo khóa tự tăng ) ƒ Tìm kiếm hay so sánh liệu Có thể nói bước quan trọng tiến trình ETL , thực hầu hết nhiệm vụ tiến trình ETL - Nạp liệu vào kho liệu: Đây trình đẩy liệu sau chuyển đổi vào kho liệu Dữ liệu sau chuyển đổi nạp vào kho liệu Mục 2: Nghiên cứu sở lý thuyết công nghệ xây dựng kịch tạo CSDL chứa chủ đề Kho liệu cục (Data Mart - DM) CSDL có đặc điểm giống với kho liệu với quy mô nhỏ lưu trữ liệu lĩnh vực, chuyên ngành Datamart kho liệu hướng chủ đề Các DM hình thành từ tập liệu kho liệu xây dựng độc lập sau xây dựng xong, DM kết nối tích hợp lại với tạo thành kho liệu Vì xây dựng kho liệu bắt đầu việc xây dựng DM hay ngược lại xây dựng kho liệu trước sau tạo DM Xây dựng kho liệu vừa tiến trình công việc đồng thời kiến trúc nhằm thực nội dung như: lựa chọn, chuyển đổi, lưu chuyển, bảo tồn tính tồn vẹn, tích hợp, làm liệu, đưa 10 liệu từ nhiều nguồn liệu tác nghiệp vào hệ thống quản lý sở liệu để phục vụ trình định Kho liệu gồm thành phần thiết yếu sau: • Các nguồn liệu tác nghiệp ODS (Operational Data Sources) • Chuyển đổi xuất liệu (Data Conversion and Extraction) • Tóm lược làm giầu liệu (Data Sumaization & Data Enrichment) • Hệ thống quản lý CSDL kho liệu (Database Management System - DBMS) • Quản lý siêu liệu • Các cơng cụ (Tools) truy nhập phân tích Mục 3: Nghiên cứu sở lý thuyết công nghệ xây dựng kịch tạo modun để load liệu từ DSA kho tập trung từ kho tập trung Data mart Khu vực xử lý liệu (DSA) có nhiệm vụ tiếp nhận liệu từ tất nguồn, có nghĩa liệu chuyển đổi hợp từ số lượng nguồn khác khơng đồng Ngồi nhiệm vụ thức nêu trên, DSA cần phải có yêu cầu sau: + Số lượng liệu nguồn nguyên phải giữ lại sau liệu xử lý ETL xong + Các máy chủ phục vụ DSA cần chia sẻ với ứng dụng khác + Qui định mức độ chấp nhận chất lượng liệu + Quyết định nguồn liệu liên kết + Thiết lập việc quản lý siêu liệu nguồn liệu đưa vào khu vực DSA + Qui định mức độ bảo mật vai trò xác định cho khu vực + Qui định nguyên tắc che chắn, trộn liệu nhạy cảm khu vực DSA Với loại yêu cầu, quy tắc định, việc thiết kế DSA tạo framework, tạo điều kiện thuận lợi cho giải pháp ETL DSA thực công việc sau: + Thu thập liệu + Hồ sơ liệu + Làm liệu + Tiêu chuẩn hóa phù hợp hóa liệu + Chuyển đổi liệu + Tải liệu + Thiết kế xây dựng Như vậy, để thực qui trình xử lý liệu từ nguồn DSA, đến kho liệu tập trung DM, cần có thành phần: - Dữ liệu nguồn (là ứng dụng tác nghiệp sở liệu tác nghiệp) công cụ chiết xuất, làm chuyển đổi liệu - Kho liệu liệu (Metadata) 11 - Các kỹ thuật xây kho - Kho liệu theo chủ đề (Data mart), nơi liệu khoanh vùng theo chủ đề tới giới hạn thay đổi cho phù hợp với nhu cầu phận người dùng Một kho liệu phân tích thành nhiều kho liệu chủ đề ngược lại tập hợp kho liệu theo chủ đề tạo thành kho liệu - Các công cụ truy vấn (query), báo cáo (reporting), phân tích trực tuyến (OLAP) khai phá liệu (data mining) Đây cách khai thác kho liệu để đem lại “tri thức” đem lại liệu thơ - Quản trị kho liệu - Hệ thống phân phối thông tin Mục 4: Nghiên cứu sở lý thuyết công nghệ xây dựng kịch tạo job để chạy modun theo lịch đặt sẵn Trong môi trường đa chương, tiến trình khơng đơn độc hệ thống, mà ảnh hưởng đến tiến trình khác, bị tiến trình khác tác động Nói cách khác, tiến trình thực thể độc lập, chúng có nhu cầu liên lạc với để: Chia sẻ thơng tin Hợp tác hồn thành tác vụ Tại thời điểm, tiến trình nhận trạng thái sau đây: - Mới tạo: tiến trình tạo lập - Running: thị tiến trình xử lý - Blocked: tiến trình chờ cấp phát tài nguyên, hay chờ kiện xảy - Ready: tiến trình chờ cấp phát CPU để xử lý - Kết thúc: tiến trình hồn tất xử lý Hệ điều hành cung cấp thao tác chủ yếu sau tiến trình : + Tạo lập tiến trình (create) + Kết thúc tiến trình (destroy) + Tạm dừng tiến trình (suspend) + Tái kích hoạt tiến trình (resume) + Thay đổi độ ưu tiên tiến trình Để xây dựng kịch tạo job chạy modun theo lịch đặt sẵn, người quản trị xây dựng chương trình để quản trị sử dụng cơng cụ có sẵn hệ điều hành Mục 5: Nghiên cứu sở lý thuyết công nghệ xây dựng modun để làm tích hợp liệu 12 Làm liệu trình bổ sung, hiệu chỉnh thống thông tin biến sở liệu đảm bảo kết xử lý, khai thác, kết nối liệu nhận kết Tích hợp liệu q trình hợp liệu thành kho liệu (data warehouses & data marts) sau làm tiền xử lý (datacleaning & preprocessing) Một số nội dung làm liệu là: + Kiểm tra hoàn chỉnh cấu trúc liệu + Kiểm tra logic đặc trưng mẫu + Kiểm tra độ tin cậy số liệu Sử dụng XML tích hợp liệu: XML làm cho việc trao đổi thông tin cách dễ dàng qua mạng Do XML tách biệt nội dung thể nên liệu không bị phụ thuộc vào thiết bị lưu trữ XML cho phép tìm kiếm thơng minh hơn, điều có nghĩa tích hợp hiệu Do vậy, XML nhiều hãng lơn giới chọn làm khn dạng liệu để tích hợp liệu từ nguồn khác nhau, có khn dạng khác Hỗ trợ cho công ngh XML ngôn ngữ truy vấn cho phép truy vấn liệu XML Sự tổ hợp XML XQuery tảng cho việc tích hợp liệu thơng tin Chương IV Nghiên cứu sở lý thuyết công nghệ xây dựng CSDL đa chiều với OLAP Chương IV có mục lớn: Mục 1: Nghiên cứu sở lý thuyết công nghệ xác địch chiều liệu từ thiết kế thi công Các chiều (dimension) cách mơ tả chủng loại mà theo liệu số khối phân chia để phân tích Ví dụ : đơn vị đo lường khối tổng số sản phẩm (Production Count) chiều thời gian, nơi sản xuất, sản phẩm (Time, Factory Location, Product) người dùng khối phân chia tổng số sản phẩm theo thời gian, nơi sản xuất, sản phẩm (Time, Factory Location, Product) Một chiều dùng nhiều khối khác gọi chiều dùng chung Mỗi chiều kết hợp với bảng chiều (dimension table) nhằm mô tả cho chiều Một mơ hình liệu đa chiều đặc thù tổ chức xung quanh chủ đề mà thể bảng kiện (fact table) nhiều độ đo số học (là đối tượng phân tích) Mỗi độ đo số học phụ thuộc vào tập chiều cung cấp ngữ cảnh cho độ đo Vì thế, chiều kết hợp với xem xác định độ đo, giá trị không gian đa chiều Khi xác định chiều, ta chọn nhiều cột bảng liên kết (bảng chiều) Nếu ta chọn cột phức tạp tất cần có 13 quan hệ với nhau, chẳng hạn giá trị chúng tổ chức theo hệ thống phân cấp đơn Để xác định hệ thống phân cấp, xếp cột từ chung tới cụ thể Các hãng phần mềm lớn quản trị CSDL có cơng cụ để thực thi việc tạo chiều Mục 2: Nghiên cứu sở lý thuyết công nghệ xác định thông tin số liệu từ thiết kế thi công Giới thiệu việc triển khai OLAP với SQL Server Mục 3: Nghiên cứu sở lý thuyết công nghệ xác định nấc phân cấp thông tin sở thiết kế thi cơng Với khối liệu có nhiều chiều, chiều có phân cấp để chi tiết hơn, giúp đào sâu mức liệu Ví dụ: lục địa chứa quốc gia, bang hay tỉnh chứa thành phố Tương tự, hệ thống chiều thời gian gồm có cấp độ năm, quý, tháng ngày Dựa phân cấp theo chiều, từ mức dưới, cuộn lên (Roll-Up) mức trên, thực phép gộp, để có kết qủa tổng hợp Và từ mức trên, khoan sâu xuống (Drill-Down) mức dưới, để có kết chi tiết Phân cấp kích thước tùy chọn phổ biến hệ thống OLAP Hệ thống phân cấp cấu hợp lý nhóm thành viên kích thước cho mục đích phân tích Việc thực thi xác định nấc phân cấp thực Oracle 11g Mục 4: Nghiên cứu sở lý thuyết công nghệ tạo hierarchy Trong chiều mô hình liệu OLAP, liệu xếp hệ phân bậc theo mức độ chi tiết liệu Mỗi cấp độ chiều lại chi tiết mức cha Các chiều cách mơ tả chủng loại mà theo liệu số khối phân chia để phân tích Khi xác định chiều, chọn nhiều cột bảng liên kết (bảng chiều) Nếu ta chọn cột phức tạp tất cần có quan hệ với nhau, chẳng hạn giá trị chúng tổ chức theo hệ thống phân cấp đơn Phần lớn chiều có cấu trúc đa mức hay phân cấp Nếu làm định giá sản phẩm để tối đa doanh thu cần quan sát liệu doanh thu sản phẩm gộp theo giá sản phẩm, tức thực cách gộp Khi cần làm định khác cần thực phép gộp tương ứng khác Như có nhiều tiến trình gộp Thế nên tiến trình gộp cần phải thực cách dễ dàng, linh hoạt để hỗ trợ phân tích khơng hoạch định trước Điều giải sở có trợ giúp phân cấp rộng sâu 14 Việc thực thi định nghĩa tạo phân cấp thực Oracle 11g Mục 5: Nghiên cứu sở lý thuyết công nghệ dùng OLAP API để tạo CSDL đa chiều Kho liệu ứng dụng OLAP dựa nhìn đa chiều liệu Dữ liệu đa chiều xác định từ thành phần sau: + Kích thước – chiều liệu + Đo lường + Hệ thống cấp bậc OLAP API ứng dụng giao diện lập trình (API) thơng qua ứng dụng truy cập liệu cho chế biến phân tích trực tuyến (OLAP) Có thể sử dụng Oracle OLAP để minh họa Mục đích OLAP API để tạo điều kiện thuận lợi cho việc phát triển ứng dụng OLAP , cho phép người sử dụng tự động lựa chọn, tổng hợp, tính tốn, thực nhiệm vụ phân tích liệu thông qua giao diện người dùng đồ họa Thông thường, giao diện người sử dụng ứng dụng OLAP hiển thị liệu định dạng đa chiều, chẳng hạn đồ thị crosstabs Với OLAP API, ứng dụng Java truy cập, thao tác hiển thị liệu đa chiều OLAP API làm cho xác định truy vấn trình bước theo cho phép hồn tác bước truy vấn cá nhân mà khơng cần tái tạo toàn truy vấn Truy vấn nhiều bước dễ dàng để sửa đổi tinh chỉnh tự động Thông qua OLAP API, ứng dụng làm thao tác sau: • Thiết lập kết nối đến kho liệu • Khám phá siêu liệu để khám phá liệu có sẵn để xem phân tích • Tạo truy vấn thao tác liệu theo nhu cầu người dùng ứng dụng (ví dụ, lựa chọn, tập hợp, tính tốn liệu) • Lấy kết truy vấn cấu trúc để hiển thị định dạng đa chiều Sửa đổi truy vấn có, khơng phải hồn toàn xác định lại, người sử dụng ứng dụng tinh chỉnh phân tích Chương V Nghiên cứu sở lý thuyết công nghệ xây dựng tầng ứng dụng để tìm khai phá thơng tin Chương V có mục Mục 1: Nghiên cứu sở công nghệ cài đặt ứng dụng web 15 Dịch vụ Web hệ thống phần mềm thiết kế để hỗ trợ khả tương tác ứng dụng máy tính khác thông qua mạng Internet, giao diện chung gắn kết mơ tả XML Chồng giao thức dịch vụ Web tập hợp giao thức mạng máy tính sử dụng để định nghĩa, xác định vị trí, thi hành tạo nên dịch vụ Web tương tác với ứng dụng hay dịch vụ khác Chồng giao thức có thành phần chính: - Dịch vụ vận chuyển (Service Transport): có nhiệm vụ truyền thông điệp ứng dụng mạng, bao gồm giao thức HTTP, SMTP, FTP, JSM gần giao thức thay đổi khổi mở rộng (Blocks Extensible Exchange Protocol- BEEP) - Thơng điệp XML: có nhiệm vụ giải mã thông điệp theo định dạng XML để hiểu mức ứng dụng tương tác với người dùng Hiện tại, giao thức thực nhiệm vụ XML-RPC, SOAP REST - Mô tả dịch vụ: sử dụng để miêu tả giao diện chung cho dịch vụ Web cụ thể WSDL thường sử dụng cho mục đích này, ngơn ngữ mơ tả giao tiếp thực thi dựa XML Dịch vụ Web sử dụng ngôn ngữ để truyền tham số loại liệu cho thao tác chức mà dịch vụ Web cung cấp - Khám phá dịch vụ: tập trung dịch vụ vào nơi đăng ký, từ giúp dịch vụ Web dễ dàng khám phá dịch vụ có mạng, tốt việc tìm kiếm dịch vụ khác để tương tác Một dịch vụ Web phải tiến hành đăng ký để dịch vụ khác truy cập giao tiếp Hiện tại, UDDI API thường sử dụng để thực cơng việc Qui trình xây dựng dịch vụ Web bao gồm bước sau: - Định nghĩa xây dựng chức năng, dịch vụ mà dịch vụ cung cấp (sử dụng ngôn ngữ Java chẳng hạn) - Tạo WSDL cho dịch vụ - Xây dựng SOAP server - Đăng ký WSDL với UDDI registry phép client tìm thấy truy xuất - Client nhận file WSDL từ xây dựng SOAP client để kết nối với SOAP server - Xây dựng ứng dụng phía client sau gọi thực dịch vụ thơng qua việc kết nối tới SOAP server Mục 2: Nghiên cứu sở công nghệ cài đặt LDAP LDAP viết tắt Lightweight Directory Access Protocol (giao thức truy cập nhanh dịch vụ thư mục) chuẩn mở rộng cho phương thức truy cập thư mục, ngôn ngữ để LDAP server client sử dụng để giao tiếp với 16 Vì LDAP tổ chức liệu theo thư mục phân cấp nên có tính mơ tả cao, tối ưu cho việc tìm kiếm LDAP so sánh với lightweight sử dụng gói tin overhead thấp, xác định xác lớp TCP (vì X.500 giao thức ứng dụng chứa nhiều thứ network header bao quanh gói tin layer trước chuyển mạng) Mặt khác LDAP coi lightweight lược bỏ nhiều phương thức dùng X.500 Một cách tổng quát, LDAP thường phân chia theo O (Organisation-tổ chức) OU (Organisation Unit - phân bộ) Trong OU có OU OU có CN (Common Name), nhóm giá trị thường gọi DN (Distinguished Name - tên gọi phân biệt) Mỗi giá trị chứa LDAP thuộc dạng tên: giá trị, thường gọi LDAP Attribute (viết tắt attr), attr nhận diện LDAP Object LDAP đóng vai trị quan trọng việc ứng dụng SSO (single sign on) Điều có nghĩa người đăng nhập vào hệ thống, người truy cập đến servers / services / tài nguyên cho phép mà khơng cần phải xác thực lại Ngồi ra, LDAP tạo đặc biệt cho hành động "đọc" Bởi thế, xác thực người dùng phương tiện "lookup" LDAP nhanh, hiệu suất, tốn tài nguyên, đơn giản query user account CSDL Mục 3: Nghiên cứu sở công nghệ cách dùng BI để lập báo cáo tổng hợp Business Intelligence (BI, tạm dịch kinh doanh thơng minh hay trí tuệ doanh nghiệp) đề cập đến kỹ năng, qui trình, cơng nghệ, ứng dụng sử dụng để hỗ trợ định BI giải pháp quản trị doanh nghiệp thông minh hệ thống báo cáo cho phép tổ chức/doanh nghiệp khai thác liệu từ nhiều nguồn khác khách hàng, thị trường, nhà cung cấp, đối tác, nhân sự…và phân tích/sử dụng liệu thành nguồn thơng tin có ý nghĩa nhằm hổ trợ việc định Vấn đề cốt lõi hệ thống BI kho liệu (Data Warehouse) khai phá liệu (Data Mining) Dữ liệu dùng BI liệu tổng hợp (nhiều nguồn, nhiều định dạng, phân tán có tính lịch sử) đặc trung kho liệu Việc phân tích liệu BI khơng phải phân tích đơn giản (query, filtering) mà kỹ thuật khai phá liệu (Data Mining) dùng để phân loại (classification) phân cụm (clustering), hay dự đốn (Prediction) Vì BI có mối quan hệ chặt chẽ với Data Warehouse Data mining Các bước để tạo báo cáo từ hệ thống BI: + Tạo nguồn liệu 17 + Tích hợp liệu + Tổ chức kho liệu + Tạo chiều phân tích + Tính tốn số liệu + Xác định cách thức tổng hợp liệu + Xác định mối quan hệ nguồn liệu với chiều phân tích + Xác định xây dựng KPI (Key Performance Indicator) + Xây dựng hiển thị báo cáo Mục 4: Nghiên cứu sở công nghệ cách dùng BI để lập báo cáo phân tích Báo cáo phân tích bắt nguồn từ nhu cầu đưa giải pháp cho thách thức chiến lược kinh doanh Các mơ hình cơng cụ báo cáo phân tích tổng hợp chuyển đổi thơng tin từ báo cáo có tài liệu kinh doanh toàn tổ chức, làm cho dễ dàng truy cập người sử dụng, trích xuất phân tích liệu mà không cần phải đầu tư vào giải pháp báo cáo Với chức “liên kết thiếu” (missing link), báo cáo phân tích thu thập liệu có cấu trúc bán cấu trúc từ tài liệu có Nó cho phép khả hiển thị nhanh sâu vào kinh doanh định kinh doanh tốt hơn, nhiều thông tin Truy vấn phân tích báo cáo trình đặt câu hỏi để nhận câu trả lời, liệu từ kho liệu (DWH), chuyển vào ngữ cảnh phù hợp, trình bày theo khuôn dạng dễ tiếp cận cho người sử dụng Khi việc truy vấn thực hiện, công cụ truy cập vào kho liệu để lấy tập hợp liệu để q trình phân tích liệu tính tốn xử lý để kết mong muốn Các kết sau đưa vào mẫu báo cáo để dễ hiểu người sử dụng Các mẫu báo cáo bao gồm nhiều dạng văn bản, hình ảnh, đồ thị, video, audio Người sử dụng quan tâm chủ yếu đến việc xử lý số, nhờ vào mà họ biết hành vi kinh doanh, doanh số bán hàng, số lượng lơ hàng Họ phân tích hiệu chuyển dịch kinh doanh, xu hướng dự đoán tương lai Ngày nay, phân tích nhiều chiều trở nên phổ biến rộng rãi truy vấn báo cáo Đây việc thực nhiều truy vấn, mà thực chất liệu tổ chức cho dễ dàng truy cập trả lời câu hỏi có dạng như: “Có sản phẩm loại, bán ngày xxxx người bán hàng yyyy, từ cửa hàng zzzzz?” Mỗi phần riêng biệt câu hỏi gọi chiều Để thực truye vấn nhiều chiều, liệu cần cấu trúc theo cách chuẩn bị trước câu trả lời Khi liệu phân loại theo 18 chiều vậy, người dùng dễ dang định hướng cách thức khám phá phân tích Phân tích nhiều chiều cho phép nhìn thấy lúc số lượng lớn yếu tố phụ thuộc lẫn sinh từ q trình kinh doanh góc nhìn liệu mối quan hệ phức tạp Khái niệm xoay quanh (pivoting) sử dụng phân tích liệu Đây q trình phân tích liệu người sử dụng nhìn kết phân tích góc nhìn khác cách xoay chiều khác Mục 5: Nghiên cứu sở công nghệ cách dùng BI để dự báo thông tin Trên thực tế, BI cần cho tổ chức/doanh nghiệp có nhu cầu tích hợp liệu phân tích thơng tin Đối với nhà quản lý, hệ thống phân tích hoạt động doanh nghiệp xác tồn diện thông tin tổng hợp từ nhiều nguồn Trong nhiều trường hợp, không sử dụng BI, tổ chức/doanh nghiệp khơng có kết ngay, chí tốn khoản chi phí cho việc khảo sát, nghiên cứu, tìm tịi có kết Mục đích việc phân tích để có kết tốt hơn, định thông minh khả hành động sâu sắc Có ba kiểu phân tích liệu: + Dự đốn + Mơ tả (khai thác, tìm kiếm thơng tin BI) + Tìm ngun tắc (tối ưu hóa mơ phỏng) Và vậy, phân tích dự đốn cho phép biến liệu thành thông tin có giá trị hành động Ba tảng phân tích dự đốn là: + Mơ hình dự đốn + Phân tích định tối ưu hóa + Hồ sơ giao dịch Mơ hình dự đốn xác định trình bày cách tốn học mối quan hệ liệu lịch sử để giải thích liệu đưa dự đoán, dự báo, phân loại kiện tương lai Phân tích định đề cập đến lĩnh vực lớn với mơ hình hóa, phân tích tối ưu hóa định cá nhân, nhóm tổ chức Trong mơ hình dự đốn phân tích nhiều khía cạnh hành vi cá nhân để dự đốn hành vi tương lai, phân tích định lại phân tích nhiều khía cạnh định đưa để xác định hành động hiệu nhằm đạt kết mong muốn Hồ sơ giao dịch kỹ thuật sử dụng để trích xuất thơng tin có ý nghĩa làm giảm phức tạp liệu giao dịch sử dụng mơ hình Nhiều giải pháp hoạt động cách sử dụng liệu giao dịch, chẳng hạn giao dịch trả tiền qua thẻ tín dụng, loại liệu thay đổi theo thời gian 19 Mục 6: Nghiên cứu sở công nghệ phương pháp nhúng ứng dụng BI vào Live Office Để tăng tính thuận lợi, dễ dàng sử dụng cho người dùng, hãng phần mềm liên tục cập nhật giải pháp cho hệ thống quản lý khai thác thông tin doanh nghiệp, đặc biệt nhúng ứng dụng BI vào ứng dụng văn phòng Microsoft Office, ứng dụng văn phòng quen thuộc phổ biến Chúng ta tham khảo giải pháp nhúng hãng SAP Live Office cho phép ai, từ nhân viên kinh doanh cho nhà phân tích liệu kinh nghiệm, dễ dàng lấy thông tin kinh doanh, tạo truy vấn, thực tính tốn, chia sẻ câu trả lời cho câu hỏi kinh doanh mà không cần phải hiểu ngôn ngữ sở liệu cấu trúc phức tạp Live Office giúp nhân viên kinh doanh dễ dàng nhúng Crystal Reports xác, đáng tin cậy, cập nhật hàng ngày thông tin Web Intelligence vào tài liệu Microsoft Office ®, bảng tính, email, trình bày Với SAP BusinessObjects Live Office, người sử dụng thực tác vụ kinh doanh môi trường ứng dụng Microsoft Office như: + Tạo truy vấn đơn giản báo cáo tóm tắt dựa kiểm chứng, upto-date thơng tin thời gian thực, phân tích liệu chẳng hạn số liệu doanh số bán hàng quý, trả lời câu hỏi kinh doanh quan trọng đưa định + Xem, sửa đổi, làm truy vấn có cách nhanh chóng để phù hợp với nhu cầu kinh doanh + Chia sẻ kết với đồng nghiệp an toàn web mạng nội hợp tác, định chiến lược Mục 7: Nghiên cứu sở công nghệ truy vấn khai thác thông tin dựa thơng tin có sẵn Tìm kiếm thơng tin (Information Retrieval – IR) việc tìm kiếm thơng tin dựa nguồn liệu có sẵn Các hệ thống tìm kiếm thơng tin nhận đầu vào từ khóa trả tập tài liệu có chứa từ khóa Kết trả máy tìm kiếm (một loại hệ thống tìm kiếm thơng tin) thường lớn có lên tới hàng nghìn trang tài liệu Người sử dụng muốn có thơng tin cần phải tự duyệt đọc qua trang tài liệu để xác định thông tin cần Điều tốn nhiều cơng sức thời gian cho việc tìm kiếm thơng tin u cầu đặt cần phải có hệ thống hỏi đáp tự động để xem công cụ khai thác thông tin cách trực tiếp hơn, tìm kiếm cho người dùng câu trả lời ngắn gọn, xác khơng phải tập 20 tài liệu, đồng thời đảm bảo mặt kinh tế thuận lợi cho việc sử dụng người dùng hồn cảnh Có hai kiểu hệ thống tìm kiếm: tìm kiếm dựa so khớp xác dựa xếp Trong hệ thống tìm kiếm dựa so khớp xác, miền giá trị giới hạn từ đến 1, chuyển sang nhị phân để định liệu tài liệu có thỏa biểu thức bool xác định câu truy vấn hay không? Các IR dựa so khớp xác thường cung cấp tài liệu khơng xếp thỏa câu truy vấn người dùng, hầu hết hệ thống tìm kiếm dùng cách Đối với hệ thống IR dựa xếp, tài liệu xếp theo thứ tự giảm dần mức độ liên quan Có loại hệ thống tìm kiếm dựa xếp: “ranked Boolean”, “probabilistic” “similarity based” Có nhiều giải thuật sử dụng để ứng dụng vào hệ thống tìm kiếm Các hệ thống tìm kiếm lớn sử dụng nhiều phải kể đến máy tìm kiếm Internet (Internet’s search engines) Đây chương trình điện tốn phức hợp thực với mục tiêu giúp người sử dụng tìm kiếm thơng tin cần thiết có mạng Internet Tuy khác chi tiết, SE thường bao gồm phận sau đây: + Bộ phận tìm trang web (crawler), gọi với nhiều tên gọi khác crawlers, robots, spiders, wanderers, walkers, knowbots + Bộ phận làm mục (indexer) phân tích nội dung trang Web crawlers tìm được, với mục tiêu tạo bảng mục (index) để chứa thông tin + Bộ phận nhận trả lời câu hỏi (query engine), với giao diện (interface) cần thiết cho người sử dụng “làm việc” (communicate) với SE; nhận câu hỏi phận vào tìm tin bảng mục để trả lời câu hỏi người sử dụng Mục 8: Nghiên cứu sở công nghệ truy vấn khai thác thông tin theo báo cáo theo nhu cầu Các văn ln truyền tải thơng tin giá trị Ví dụ, tài liệu y học chứa thơng tin phương pháp điều trị Tương tự vậy, nguồn tin từ trang tin điện tử chứa thơng tin có ích cho nhà phân tích tài chính, giúp họ theo dõi hoạt động, giao dịch tài chính, phát gian lận tài chính, dự đoán lên xuống thị trường chứng khoán thơng tin giúp cho ngành giám sát dịch bệnh trước chúng xảy ra…Tất thơng tin quản lý hay truy vấn cách dễ dàng chúng thể dạng bảng liệu Việc chuyển thơng tin khơng có cấu trúc văn thành thơng tin có cấu trúc dạng bảng liệu gọi trình trích rút thơng tin 21 Nói chung, đề cập đến trích rút thơng tin nói đến phương pháp tự động chuyển thông tin thể ngôn ngữ tự nhiên văn bản, từ chỗ khơng có cấu trúc dạng có cấu trúc, bảng liệu chẳng hạn Cụ thể hơn, hệ thống trích rút thơng tin nhận tên riêng (entites) (ví dụ tên loại thuốc) văn kiểu tên riêng, quan hệ chúng (relationships) (ví dụ quan hệ tương tác hai loại thuốc) chuyển vào sở liệu dạng có cấu trúc Một sở liệu tạo ra, ta sử dụng để trả lời cho câu hỏi cụ thể cách nhanh chóng xác thay cho việc phải qt tồn tài liệu để tìm kiếm câu trả lời, hay ta sử dụng sở liệu để xử lý truy vấn phức tạp, phục vụ cho việc tích hợp sở liệu thực khai phá liệu Một cơng nghệ trích rút thơng tin tốt cho phép ta nhanh chóng tạo hệ thống trích rút xuất nhiệm vụ mức độ mà người chấp nhận Thậm chí kể hệ thống khơng đạt độ xác mong muốn, có giá trị thực tế Trong trường hợp vậy, cần có mơi trường tương tác để người kiểm tra sửa lỗi nhằm làm tăng độ xác hệ thống Những hệ thống có giá trị, dùng thông tin nhiều, người khơng thể đọc tất chúng Nói chung hệ thống trích rút thơng tin có ích điều kiện sau: - Thông tin trích rút cụ thể rõ ràng, khơng cần phải có suy luận thêm - Hoặc trường hợp cần số lượng nhỏ mẫu cấu trúc để tóm tắt thơng tin văn - Hoặc thông tin phân bố tương đối cục văn Có thể xem trích rút thơng tin bước hệ thống khai phá văn bản, văn xử lý để tìm tên riêng (entities) mối quan hệ (relationships) chúng văn Quan hệ (relationships) hiểu mối liên quan thực tế (facts) ( yếu tố thời gian) kiện liên quan (events) (có yếu tố thời gian) tên riêng (entities) Mục 9: Nghiên cứu sở cơng nghệ truy vấn khai thác thông tin để chia sẻ thông tin với người khác Ngày nay, với phát triển kinh tế xã hội, đời sống vật chất nâng cao, nhu cầu tham khảo tìm kiếm thơng tin, nhu cầu mua sắm tăng theo Điều nhằm đáp ứng kịp thời mơi trường phát triển chung thay đổi nhu cầu thông tin phục vụ học tập nghiên cứu, giải trí, mua sắm … phù hợp với đối tượng cụ thể mà hỗ trợ người dùng tin trình xác định, tìm kiếm, 22 khai thác sử dụng nguồn tài nguyên dịch vụ thông tin cần thiết để phù hợp với nhu cầu nhóm đối tượng người dùng khác Cùng với trang bị hệ thống thông tin thiết bị hỗ trợ, phương thức hoạt động tham khảo, tra cứu khai thác thông tin hệ thống thông tin điện tử hồn thiện thơng qua ứng dụng cơng nghệ thơng tin Hiện nay, người dùng tìm kiếm thông tin chủ yếu cách sử dụng từ khóa tìm kiếm để truy vấn tới search engine, đơn giản duyệt qua link liên kết trang Web cụ thể Tuy nhiên việc duyệt qua link để tìm thơng tin cần thiết không hiệu tốn thời gian người phải đọc để tìm thơng tin cần lấy Sử dụng từ khóa tìm kiếm thường hiệu hơn, số lượng kết mà search engine trả nhiều, với số truy vấn phức tạp truy vấn theo khoảng giá trị khơng thực Để tìm kiếm Web hiệu hơn, ý tưởng sử dụng ngôn ngữ truy vấn dạng SQL đời Tuy nhiên, liệu Web hầu hết khơng có cấu trúc, khơng thể áp dụng trực tiếp truy vấn lên Vì cần phải chuyển liệu có văn dạng có cấu trúc, liệu CSDL Q trình gọi trích rút thơng tin Kết luận Với kết đề tài, thấy nghiên cứu “lý thuyết phương pháp luận xây dựng CSDL theo mơ hình Data Ware House Metadata” bao gồm nhiều vấn đề Để thực thi xây dựng CSDL theo mô hình data ware house, cần đầu tư nhiều cơng sức trí tuệ, từ bước khảo sát liệu nguồn, nhu cầu người dùng bước thiết kế thi công 23

Ngày đăng: 05/10/2023, 20:48

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w