Nhằm mục đích hổ trợ ra quyếtđịnh nhanh cho ban lãnh đạo, phân tích thống kê các số liệu có sẳn của hệ thốngvới nhiều nguồn dữ liệu khác nhau trong những môi trường khác nhau.. Trongquá
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT
Đề Tài : XÂY DỰNG DATA
WAREHOUSE & GIẢI PHÁP BUSSINESS INTELLIGENT DỰA TRÊN NỀN TẢNG
MÁY HỌC CHO CÁC DOANH NGHIỆP
TP.HCM 17/05/2012
Giảng viên hướng dẫn : GS TSKH Hoàng KiếmHọc viên thực hiện : Đoàn Vũ Ngọc Duy
MSSV : CH1101010
Trang 2Mục lục
I Giới thiệu 4
II Kho dữ liệu - Data Warehouse 6
1 Khái niệm kho dữ liệu 6
2 Mục đích của kho dữ liệu 6
3 Đặc tính của kho dữ liệu 7
4 Kho dữ liệu cục bộ (Data Mart - DM) 7
5 Data mart độc lập (Independent Data Marts) 8
6 Cấu trúc dữ liệu cho kho dữ liệu 9
7 Ngôn ngữ cho kho dữ liệu 9
8 Cấu trúc của một hệ thống kho dữ liệu 9
9 Giải pháp Data Warehouse 10
10 Những thành phần chính của giải pháp Data Warehouse: 11
11 Qui trình xây dựng kho dữ liệu 12
12 Mô hình kho dữ liệu 13
1) Kho dữ liệu phân tán thuần 13
2) Kho dữ liệu phân tán không thuần nhất 14
III BUSSINESS INTELLIGENT 16
1 Bussiness Intelligent là gì ? 16
2 Ứng dụng BI thế nào? 17
1) Khai thác dữ liệu tập trung 18
2) Báo cáo phân tích cao cấp 19
3) Giám sát và cảnh báo tự động 20
4) Dự đoán và lên kế hoạch 20
Trang 33 Thách thức của dữ liệu phân tán đối với việc ra quyết định 21
4 Dùng BI để tối ưu hóa lợi nhuận 22
5 Doanh nghiệp và BI 23
IV Cây quyết định 25
1 Các khái niệm cơ bản: 25
1) Học cây quyết định 25
2) Cây quyết định 26
3) Sự thể hiện của cây quyết định 26
4) Giải thuật học cây quyết định 26
5) Cây quyết định là một phương pháp học qui nạp hấp dẫn 27
2 Thuật toán ID3 28
1) Giới thiệu về giải thuật ID3 28
2) Trình bày giải thuật ID3: 29
3 Thuật toán Quilance: 35
1) Thuật toán: 35
2) Minh họa thuật toán: 35
4 Thuật toán ILA 43
1) Giới thiệu giải thuật 44
2) Minh họa thuật toán: 44
5 Tóm tắt và kết luận 48
V Xây dựng chương trình 50
1 Giới thiệu chương trình 50
2 Hướng dẫn sử dụng chương trình 51
Trang 5I Giới thiệu
Công nghệ tri thức (CNTT) là một lĩnh vực liên quan đến việc phát triển các kĩthuật cho phép các máy tính có thể "học" Cụ thể hơn, CNTT là một phươngpháp để tạo ra các chương trình máy tính bằng việc phân tích các tập dữ liệu cóliên quan lớn đến thống kê, vì cả hai lĩnh vực đều nghiên cứu việc phân tích dữliệu, nhưng khác với thống kê, CNTT tập trung vào sự phức tạp của các giảithuật trong việc thực thi tính toán Nhiều bài toán suy luận được xếp vào loại bàitoán khó, vì thế CNTT ngày nay là nghiên cứu sự phát triển các giải thuật suyluận xấp xỉ mà có thể xử lí được
CNTT có tính ứng dụng rất cao bao gồm truy tìm dữ liệu, chẩn đoán y khoa, pháthiện thẻ tín dụng giả, phân tích thị trường chứng khoán, phân loại các chuỗiDNA, nhận dạng tiếng nói và chữ viết, dịch tự động, chơi trò chơi và cử động rô-bốt Ngoài ra công nghệ giúp máy tương tác với con người một cách linh hoạt vàmềm dẻo hơn Một số hệ thống CNTT sau này đã loại bỏ nhu cầu trực giác củacon người trong việc phân tích dữ liệu, trong khi các hệ thống khác hướng đếnviệc tăng sự cộng tác giữa người và máy có thể xem đây như là một nỗ lực để tựđộng hóa một số phần của phương pháp khoa học CNTT có ứng dụng rộng khắptrong các ngành khoa học, sản xuất, đặc biệt những ngành cần phân tích khốilượng dữ liệu khổng lồ Một số ứng dụng mà ta thường thấy như :
Xử lý ngôn ngữ tự nhiên (Natural Language Processing): xử lý văn bản,giao tiếp người – máy, …
Nhận dạng (Pattern Recognition): nhận dạng tiếng nói, chữ viết tay, vântay, thị giác máy (Computer Vision) …
Tìm kiếm (Search Engine)
Chẩn đoán trong y tế: phân tích ảnh X-quang, các hệ chuyên gia chẩn
Trang 6 Tin sinh học: phân loại chuỗi gene, quá trình hình thành gene/protein
Vật lý: phân tích ảnh thiên văn, tác động giữa các hạt …
Phát hiện gian lận tài chính (financial fraud): gian lận thẻ tỉn dụng
Phân tích thị trường chứng khoán (stock market analysis)
Chơi trò chơi: tự động chơi cờ, hành động của các nhân vật ảo
Rôbốt: là tổng hợp của rất nhiều ngành khoa học, trong đó học máy tạo
nên hệ thần kinh/bộ não của người máy
Trước những yêu cầu cấp bách đó, em và cùng một số đồng nghiệp trong công ty
cổ phẩn tin học Lạc Việt đã xây dựng giải pháp BI (Business intelligent) trên nềntảng công nghệ sharepoint & Data Warehouse Nhằm mục đích hổ trợ ra quyếtđịnh nhanh cho ban lãnh đạo, phân tích thống kê các số liệu có sẳn của hệ thốngvới nhiều nguồn dữ liệu khác nhau trong những môi trường khác nhau Trongquá trình phát triển sản phẩm, ngoài việc nghiên cứu lựa chọn công nghệ phù hợp
để triển khai nhóm chúng em đã gặp thách thức rất nhiều về giải thuật, cách làmcho máy có thể phân tích khai phá dữ liệu một cách hiệu quả, mỗi ứng dụng phântích là một bài toán khác nhau với các giải thuật và công nghệ phù hợp cho mụctiêu đặt ra Một số ứng dụng mà em đã phát triển có sử dụng đến một số thuậtgiải như “Cây quyết định” “Mạng Neural”…, sau khi được học bài bản về môncông nghệ tri thức và ứng dụng, em vô tình được gặp lại các khái niệm này, mộtlần nữa giúp em hiểu rõ hơn về tầm quan trọng của máy học và khai phá dữ liệutrong thế giới công nghệ ngày nay Cho nên thông qua đề tài lần này em mongmuốn áp dụng những gì học được trên trường vào thực tiễn của cuộc sống, gópphần nâng cao sự phát triển của nghành tin học nói chung và sự phát triển CNTTtrong nước nói riêng, mang lại giá trị lợi nhuận cao cho các doanh nghiệp, tổchức
Trang 7II Kho dữ liệu - Data Warehouse
1 Khái niệm kho dữ liệu
Kho dữ liệu là tuyển tập các cơ sở dữ liệu tích hợp, hướng chủ đề, đượcthiết kế để hỗ trợ cho chức năng trợ giúp quyết định.Theo John Ladley, Côngnghệ kho dữ liệu (Data Warehouse Technology) là tập các phương pháp, kỹ thuật
và các công cụ có thể kết hợp, hỗ trợ nhau để cung cấp thông tin cho người sửdụng trên cơ sở tích hợp từ nhiều nguồn dữ liệu, nhiều môi trường khác nhau
Kho dữ liệu thường rất lớn tới hàng trăm GB hay thậm chí hàng Terabyte.
Trong quá trình hoạt động kinh doanh, các dữ liệu của doanh nghiệp phátsinh ngày càng nhiều Người ta muốn tận dụng nguồn dữ liệu này để sử dụng chonhững mục đích hỗ trợ cho công việc kinh doanh ví dụ như cho mục đích thống
kê hay phân tích Quá trình tập hợp và thao tác trên các dữ liệu này có những đặcđiểm sau :
Dữ liệu tích hợp (Atomicity):Dữ liệu tập hợp từ nhiều nguồn khác nhau.Điều này sẽ dẫn đến việc quá trình tập hợp phải thực hiện việc làm sạch,xắp xếp, rút gọn dữ liệu
Theo chủ đề (Consistency): Không phải tất cả các dữ liệu đều được tậphợp, người ta chỉ lấy những dữ liệu có ích
Biến thời gian (Isolation): Các dữ liệu truy suất không bị ảnh hưởng bởicác dữ liệu khác hoặc tác động lên nhau
Dữ liệu cố định (Durable): Khi một Transaction hoàn chỉnh, dữ liệu khôngthể tạo thêm hay sửa đổi
Kho dữ liệu là một tập các dữ liệu có những đặc điểm sau: tập trung vàomột chủ đề, tổng hợp từ nhiều nguồn dữ liệu khác nhau, từ nhiều thờigian, và không sửa đổi Được dùng trong việc hỗ trợ ra quyết định trongcông tác quản lý Kho dữ liệu DWH
Trang 82 Mục đích của kho dữ liệu
Mục tiêu chính của kho dữ liệu là nhằm đáp ứng các tiêu chuẩn cơ bản sau:
Phải có khả năng đáp ứng mọi yêu cầu về thông tin của NSD
Hỗ trợ để các nhân viên của tổ chức thực hiện tốt, hiệu quả công việc củamình, như có những quyết định hợp lý, nhanh và bán được nhiều hànghơn, năng suất cao hơn, thu được lợi nhuận cao hơn, v.v
Giúp cho tổ chức, xác định, quản lý và điều hành các dự án, các nghiệp vụmột cách hiệu quả và chính xác
Tích hợp dữ liệu và các siêu dữ liệu từ nhiều nguồn khác nhau
3 Đặc tính của kho dữ liệu
Những đặc điểm cơ bản của Kho dữ liệu (DW) là một tập hợp dữ liệu có tínhchất sau:
4 Kho dữ liệu cục bộ (Data Mart - DM)
Kho dữ liệu cục bộ (Data Mart - DM) là CSDL có những đặc điểm giốngvới kho dữ liệu nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực,một chuyên ngành Datamart là kho dữ liệu hướng chủ đề Các DM có thể đượchình thành từ một tập con dữ liệu của kho dữ liệu hoặc cũng có thể được xâydựng độc lập và sau khi xây dựng xong, các DM có thể được kết nối tích hợp lạivới nhau tạo thành kho dữ liệu Vì vậy có thể xây dựng kho dữ liệu bắt đầu bằngviệc xây dựng các DM hay ngược lại xây dựng kho dữ liệu trước sau đó tạo racác DM
Trang 9Data mart phụ thuộc (Dependent Data Mart): Chứa những dữ liệu được
lấy từ DW và những dữ liệu này sẽ được trích lọc và tinh chế, tích hợp lại ở mứccao hơn để phục vụ một chủ đề nhất định của Datamart
5 Data mart độc lập (Independent Data Marts)
Không giống như Data Mart phụ thuộc, Data mart độc lập được xây dựng trước
DW và dữ liệu được trực tiếp lấy từ các nguồn khác nhau
DATA WAREHOUSE
INDEPENDENT DATA MART
DATA WAREHUOSE
INDEPENDENT DATA MARTS
Trang 106 Cấu trúc dữ liệu cho kho dữ liệu
Vì dữ liệu trong kho dữ liệu rất lớn và không có những thao tác như sửađổi hay tạo mới nên nó được tối ưu cho việc phân tích và báo cáo Các thao tácvới dữ liệu của kho dữ liệu dựa trên cơ sở là Mô hình dữ liệu đachiều ( multidimensional data model), được mô hình vào đối tượng gọi là datacube Data cube là nơi trung tâm của vấn đề cần phân tích, nó bao gồm một haynhiều tập dữ kiện (fact) và các dữ kiện được tạo ra từ nhiều chiều dữ kiện khácnhau (dimention)
Ví dụ: Một thống kê doanh số bán hàng dựa trên ba yếu tố là: địa điểm, thời gian
và chủng loại hàng Data cube là vấn đề “Thống kê bán hàng” với ba chiều là bayếu tố: địa điểm, thời gian và chủng loại hàng Bảng fact là bảng tổng hợp dữliệu của mối liên quan của doanh số với 3 yếu tố
7 Ngôn ngữ cho kho dữ liệu
Ngôn ngữ xử lý phân tích trực tuyến (OLAP - On-Line AnalyticalProsessing), rất phù hợp với kho dữ liệu, ngôn ngữ này tương tự với ngôn ngữtruy vấn SQL và tập trung vào các câu lệnh sau
Thu nhỏ (roll-up) : ví dụ: nhóm dữ liệu theo năm thay vì theo quý
Mở rộng (drill-down) : ví dụ: mở rộng dữ liệu, nhìn theo tháng thay vìtheo quý
Cắt lát (slice) : nhìn theo từng lớp một Ví dụ: từ danh mục bán hàng củaQ1, Q2, Q3, Q4 chỉ xem của Q1
Thu nhỏ (dice) : bỏ bớt một phần của dữ liệu ( tương ứng thêm điều kiệnvào câu lệnh WHERE trong SQL)
8 Cấu trúc của một hệ thống kho dữ liệu
Bao gồm ba tầng :
Trang 11 Tầng đáy: Là nơi cung cấp dịch vụ lấy dữ liệu từ nhiều nguồn khác sau đóchuẩn hóa, làm sạch và lưu trữ dữ liệu đã tập tung
Tầng giữa: cung cấp các dịch vụ để thực hiện các thao tác với kho dữ liệugọi là dịch vụ OLAP (OLAP server) Có thể cài đặt bằng RelationalOLAP, Multidimensional OLAP hay kết hợp cả hai mô hình trên HybridOLAP
Tầng trên cùng: nơi chứa các câu truy vấn, báo cáo, phân tích
9 Giải pháp Data Warehouse
Ngày nay,với sự phát triển của công nghệ thông tin, lượng thông tin rấtphong phú và dồi dào được lấy từ nhiều nguồn dữ liệu khác nhau, dưới các địnhdạng khác nhau, phương thức tiếp cận nguồn thông tin cũng rất đa dạng Vớithực tế như vậy, các doanh nghiệp cần phải có giải pháp để quản lý nguồn thôngtin trong doanh nghiệp Bên cạnh đó, ngày càng nhiều những yêu cầu về kiểmtoán nội bộ hay tuân thủ quy chế được đặt ra khiến việc quản lý thông tin càngtrở nên quan trọng hơn
Giải pháp Data Warehouse của SAVIS là một lựa chọn tối ưu để doanhnghiệp có thể giải quyết vấn đề trên một cách hiệu quả nhất Với giải pháp củaSAVIS, các thông tin được sắp xếp hợp lý, dễ tìm, tạo điều kiện tối đa cho doanhnghiệp khách hàng quản lý nguồn tài nguyên thông tin
Trang 1210 Những thành phần chính của giải pháp Data Warehouse:
Các chương trình Java: Các chương trình vendor-specific Java sẽ tải và xử
lý thông tin trong khi các chương trình Java standard framework được sử dụng đểcập nhật
Trình bày, kiểm tra và phân bổ thông tin
Thiết kế Internet thân thiện: Thông tin có thể được truy cập, giám sát,phân tích, sử dụng bất kỳ trình duyệt web tiêu chuẩn nào Giao diện người
sử dụng hỗ trợ khách hàng trong việc giám sát vòng lưu chuyển của thôngtin và hỗ trợ việc cập nhật cũng như tạo ra những thông tin mới
Lập kế hoạch và điều khiển thông tin: Người quản lý warehouse có thểtoàn quyền kiểm soát hệ thống với những công cụ quản lý và phân tíchtoàn bộ quá trình xử lý thông tin, cũng như có thể tự động hóa các pha củamột vòng lưu chuyển thông tin
Trang 13 Đảm bảo chất lượng: Hàng ngày, một quy trình đảm bảo chất lượng sẽđược thực hiện để kiểm tra hàng triệu điểm thông tin, cung cấp một bộ lọcthông tin được thiết kế theo yêu cầu riêng của khách hàng.
Bộ nhớ dư: một chức năng off-site có chỗ trống dư, đảm bảo quy trình xử
lý thông tin được bảo vệ và có thể phục hồi khi có sự cố xảy ra
Hoạt động hiệu suất cao: công nghệ cơ sở dữ liệu cung cấp khả năng lưutrữ không giới hạn và tốc độ phục hồi thông tin rất nhanh và chính xác
Với một giải pháp quản lý Data Warehouse toàn diện như trên, kháchhàng có thể hoàn toàn an tâm về tính ổn định, linh hoạt và dễ dàng tìmkiếm của nguồn thông tin trong doanh nghiệp mình
Source
Load Archive
Target ( DW)
Trang 1412 Mô hình kho dữ liệu
Kiến trúc kho dữ liệu phân tán bao gồm sự kết hợp của hai khái niệm cơbản là sự tích hợp(Intergration) các thành phần dữ liệu và sự phân tán(Distribution) thông qua các thành phần của mạng như hình sau
1) Kho dữ liệu phân tán thuần
Đào tạo
Thư viện
Trang 15Kiến trúc phân tán thuần nhất có một số ưu điểm sau:
Do tất cả các DM đều dùng chung DBMS nên công tác quản trị dễ dànghơn Người quản trị không cần biết kỹ năng quản trị trong tất cả cácDBMS khác nhau như DB2, SQL SERVER,…
Công tác chuyển đổi dữ liệu không đòi hỏi cao vì tất tất cả các DM dùngchung cấu trúc dữ liệu và các ràng buộc dữ liệu
Nhiệm vụ tích hợp dữ liệu từ các nguồn trở nên đơn giản và dễ quản lý
Thời gian đáp ứng các truy vấn nhanh (rapid response times)
Tuy nhiên, kho dữ liệu phân tán thuần nhất thích hợp nhất đối với những
hệ thống xây dựng mới và có chiến lược từ trước, đối với các hệ thống kếthừa dữ liệu từ các nguồn đã có công việc chuyển đối và tích hợp dữ
2) Kho dữ liệu phân tán không thuần nhất
Kho dữ liệu phân tán không thuần nhất là kho dữ liệu mà trong đó các kho
dữ liệu cục bộ (DM) ở các nơi (Site) trong mạng có thể không cùng chung hệquản trị CSDL [11]
` Khoa
`
`
.
Thư viện
` .
Trang 16Kiến trúc phân tán không thuần nhất có một số ưu điểm sau:
Kế thừa được các nguồn dữ liệu từ các DM đã tồn tại
Thích hợp cho các hệ thống xây dựng trên cơ sở mở rộng hệ thống đã có
vì trên thực tế các đơn vị thường bắt đầu với các DM nhỏ cho các phòngban, sau đó phát triển thành kho dữ liệu lớn hơn cho toàn công ty
Tính tự trị CSDL cao
Tuy nhiên, hệ thống phân tán không thuần nhất gặp khó khăn trong việctích hợp, chuyển đổi dữ liệu cũng như công tác quản trị dữ liệu vì mỗi DBMS cócấu trúc dữ liệu, ràng buộc, cách thức truy vấn, bảo mật dữ liệu khác nhau
Chuyển đổi dữ liệu: Chuyển đổi dữ liệu giữa các định dạng MS Excel, MS
Access, SQL SERVER, XML, Oracle
Tích hợp dữ liệu: Trao đổi dữ liệu giữa các Data Mart
Đồng bộ dữ liệu: So sánh, làm sạch dữ liệu để dữ liệu giữa các Data
Mart thống nhất với nhau
Phân tán dữ liệu: Phân tán ngang, phân tán dọc
Hợp nhất dữ liệu: Hợp nhất dữ liệu sau khi đã phân tán dọc
Lọc dữ liệu: Trích xuất dữ liệu theo điều kiện
Trang 17III BUSSINESS INTELLIGENT
Business Inteligence – BI (tạm dịch là giải pháp quản trị doanh nghiệpthông minh) là một hệ thống báo cáo cho phép tổ chức/doanh nghiệp (TC/DN)khai thác dữ liệu từ nhiều nguồn khác nhau về khách hàng (KH), thị trường, nhàcung cấp, đối tác, nhân sự và phân tích/sử dụng các dữ liệu đó thành các nguồnthông tin có ý nghĩa nhằm hỗ trợ việc ra quyết định Thông thường cấu trúcmột bộ giải pháp BI đầy đủ gồm một kho dữ liệu , hiệu năng TC/DN (KeyPerfomance Indicators – KPIs), các dự báo và phân tích giả lập (BalanceScorecards, Simulation and Forecasting )
Thông thường, đầu ra trong mỗi hệ thống ERP, CRM, HCM là các dữliệu đã sẵn sàng phục vụ việc phân tích Tuy nhiên, đối với nhiều TC/DN, việckhai thác các dữ liệu này chưa được chú trọng nên chỉ dừng ở các yêu cầu kếtxuất báo cáo nghiệp vụ đơn thuần của các phòng ban Khá nhiều thông tin quantrọng cho người ra quyết định và lập kế hoạch chiến lược đã bị bỏ qua do thiếucông cụ tổng hợp, phân tích, “móc nối” các dữ liệu này, hoặc do người lãnh đạokhông nhìn nhận khả năng này nên không đặt ra yêu cầu với hệ thống CNTT Xét
ở góc độ đầu tư thì đây là sự lãng phí lớn
Trên thực tế, BI cần cho mọi TC/DN có nhu cầu tích hợp dữ liệu và phântích thông tin Đối với nhà quản lý, đây là hệ thống phân tích hoạt động DNchính xác và toàn diện nhất do thông tin được sử dụng BI, TC/DN sẽ không cóđược các kết quả ngay, thậm chí có thể tốn kém một khoản chi phí cho việc khảosát, nghiên cứu, tìm tòi mới có được kết quả Với BI, DN dễ dàng có ngay thôngtin phân tích quản lý, để trả lời các câu hỏi như: “KH quan trọng nhất của DNhiện nay là ai?”; “Thị trường nào đang mang lại tỷ trọng lợi nhuận chính?”
Trang 1813 Ứng dụng BI thế nào?
Ở mức hệ thống, BI là khâu cuối cùng của các giải pháp ERP, CRM,HCM Nghĩa là chỉ khi các hệ thống quản trị thông tin này đi vào vận hành, khaithác thì BI mới phát huy được công việc của mình Ở mức đơn giản, BI, là cácyêu cầu đặt ra của nhà lãnh đạo với mỗi hệ thống PM quản lý Ví dụ, nhiều công
ty hiện nay khai thác các báo cáo tài chính hoặc yêu cầu đơn vị triển khai xâydựng thêm phân hệ báo cáo cho hội đồng quản trị song song với hệ thống ERPtrong DN Vừa là đầu ra cuối cùng của các hệ thống ERP, CRM vừa là đầu vàocho chính các hệ thống này Vì nếu xây dựng DN từ các kết quả đánh giá của BI,tức là từ các chỉ số đánh giá hiệu năng DN thì DN sẽ có thông tin đầu vào phảnánh chính xác kết quả đầu ra đó” Ông Ngọc cho rằng: “Khi một TC/DN đã ứngdụng ERP thì việc áp dụng BI là phần liên kết rất nên phát triển và tận dụng.Điều đó sẽ giúp TC/DN hoàn thiện hệ thống ứng dụng CNTT của mình để thúcđẩy phát triển và nâng cao khả năng cạnh tranh”
Ví dụ như DN trong lĩnh vực viễn thông hoặc ngân hàng sử dụng hệ thốngcontact center Bình thường, hệ thống này chỉ kết nối và trả lời tự động yêu cầucủa KH Tuy nhiên, khi được khai thác cùng BI, BI sẽ đưa ra các chỉ số cho biết
tỷ lệ KH trung niên, KH trên đại học sử dụng hệ thống này trong tháng Đâychính là đầu vào cho hệ contact center , có tác động ngược lại cho contactcenter, khiến hệ thống này, từ chỗ chỉ là một trung tâm thông tin đa kênh Nhữngthông tin này sẽ được hệ BI chia sẻ tới nhiều bộ phận trong DN, giúp DNđảm bảo phương châm kinh doanh “lấy KH làm trọng tâm” của mình
Hiện ở Việt Nam, thị trường cung cấp giải pháp BI còn khá sơ khainhưng cũng đã quy tụ khá nhiều tên tuổi như: Business Objects, Cognos,Hyperion, SAP, Oracle Mỗi giải pháp đều có sự khác nhau về tính năng, khảnăng tích hợp, phân tích và xử lý thông tin Như bất cứ giải pháp/phần mềm nào,
BI chỉ là một công cụ, do vậy khi TC/DN lựa chọn và sử dụng, cần cân nhắc tớitính khả dụng và khả năng tích hợp của nó với các hệ thống khác trong
Trang 19DN Đồng thời luôn đảm bảo trong khi vận hành, thông tin đầu vào cho BI phảiluôn là thông tin xác thực.
Có câu “biết người biết ta trăm trận trăm thắng”, giải pháp BusinessIntelligence (BI) ra đời cũng nhằm đáp ứng phần nào nhu cầu “biết người biếtta” của doanh nghiệp
Khảo sát của Gartner đối với các CIO trong ba năm trở lại đây cho thấygiải pháp BI luôn đứng đầu trong thứ tự ưu tiên về nhu cầu đầu tư công nghệ củadoanh nghiệp (DN) Trải qua hai mươi năm phát triển, ngày nay hệ thống BI đãdần trở nên hoàn thiện và có xu hướng đáp ứng bốn nhu cầu quan trọng màngười quản trị luôn mong đợi đó là:
Data Warehouse - Khai thác dữ liệu tập trung
Analysis -Báo cáo phân tích cao cấp
Monitoring - Giám sát và cảnh báo tự động
Planning and Forecasting - Dự đoán và lên kế hoạch
Bài viết tập trung phân tích các tính năng quan trọng và giá trị nhấtcủa một số giải pháp BI hàng đầu hiện nay mà tác giả có dịp trải nghiệm
là SAP và Business Objects Một số hệ thống BI của các hãng có thể chỉtập trung giải quyết một hoặc một số nhu cầu dưới đây
1) Khai thác dữ liệu tập trung
Trang 20Khi DN hoạt động hiệu quả thì việc mở rộng phạm vi trên nhiềutỉnh thành, hay nhiều quốc gia là nhu cầu tất yếu Song song với việc pháttriển như thế, thì ban quản trị cũng vấp phải rất nhiều khó khăn trongquản lý Dữ liệu của công ty, tập đoàn nằm rải rác ở nhiều nơi và dướinhiều hình thức khác nhau Do đó, bất cứ nhu cầu truy vấn, phân tích hay
so sánh giữa các vùng với nhau đều tiêu tốn rất nhiều thời gian và côngsức Với Data Warehouse (Kho dữ liệu) của BI, những dữ liệu quan trọngnằm rải rác nhiều nơi, dưới nhiều định dạng khác nhau của DN sẽ đượctrích xuất đều đặn và được tập hợp lại thành một cấu trúc thống nhất Qua
đó những báo cáo từ chi tiết đến tổng quát của toàn DN đều luôn đảm bảođược tính chính xác và kịp thời “Kho dữ liệu” đã được rất nhiều tập đoànlớn nhìn nhận là một phần quan trọng trên bước đường toàn cầu hóa củahọ
3) Báo cáo phân tích cao cấp
Một trong những nỗi sợ hãi lớn nhất của quản trị DN là bị chìmngập trong một rừng dữ liệu Sắp xếp quản lý cánh rừng đó đã là quá khókhăn nói chi đến việc khai thác giá trị từ đó Nhưng thực tế trong quátrình đưa ra quyết định vẫn luôn đòi hỏi những nhu cầu truy vấn phức tạp.Hiện nay giải pháp báo cáo phân tích cao cấp của BI đã tương đối hoànthiện với những tính năng nổi bật như: Đào sâu dữ liệu đến mức tối đa:Giúp ta có thể giải quyết những yêu cầu phức tạp như “cung cấp thông tin
về doanh thu và số lượng mặt hàng bán được của 3 năm gần nhất, theo tất
cả các vùng, ứng với tất cả các nhóm sản phẩm và từng sản phẩm, vànhân viên thực hiện giao dịch” Với những dạng câu hỏi như trên ngườiquản trị chỉ mất vài giây tương tác với hệ thống OLAP là đã có được câutrả lời
K
h ả n ă ng t ùy b i ế n c h i ề u t h ô ng t in : Song song với tính năng đào sâu dữliệu là khả năng tùy chỉnh thứ tự của các chiều thông tin Ví dụ cũng với nhữngchiều thông tin như yêu cầu trên ta có góc nhìn khác như “cung cấp thông tin về
Trang 21doanh thu và số lượng mặt hàng bán được, ứng với các nhân viên bán hàng, củatoàn bộ các vùng, trên tất cả các nhóm sản phẩm và từng sản phẩm, trong 3 nămgần nhất”.
Ngoài chức năng cảnh báo tự động qua màu sắc, hình ảnh, hệ thống BIcòn có chức năng tự động gửi email thông báo đến người có thẩm quyền, giúpngười quản lý luôn có được thông tin về những gì đang xảy ra
( Bảng thứ tự ưu tiên về nhu cầu công nghệ của DN trên thế giới )
5) Dự đoán và lên kế hoạch
Trong môi trường thực tế, để tổng hợp được một bảng kế hoạch cho quítới, năm tới hay phương hướng của công ty trong nhiều năm tới sẽ rất phức tạp
Trang 22Hầu như các bảng kế hoạch và dự báo của DN đều phụ thuộc vào nhận định chủquan của một số người có kinh nghiệm Tất cả những người quản lý, chắc hẳn aicũng muốn có được sự hỗ trợ đáng tin cậy và mang tính khoa học nhằm giúp họđưa ra được những dự báo vững chắc hơn Nắm bắt nhu cầu này, các tên tuổihàng đầu về hệ thống BI như: Business Objects, Cognos, SAP BusinessIntelligence,BI, đều hỗ trợ khá tốt khả năng dự báo.và lên kế hoạch của DN Kếthợp với kinh nghiệm của người sử dụng những bảng kế hoạch cho tương laiđược tổng hợp khá nhanh và có độ chính xác cao Ngoài hai tính năng trên, hệthống BI còn giúp cho người sử dụng khả năng phân tích giả định - what-ifanalysis and simulation Chức năng này giúp cho người sử dụng có thể giả lậpmột số biến cố, qua đó đánh giá được xu thế thay đổi của các chỉ số KPIs mà họquan tâm.
Tuy là một giải pháp cao cấp nhưng BI không chỉ dành riêng cho các tậpđoàn lớn mà là giải pháp hỗ trợ quyết định cho tất cả các DN ở mọi qui mô vànhiều lĩnh vực hoạt động khác nhau Trong thực tế, BI mang lại lợi ích rõ nétnhất cho các DN ngành hàng tiêu dùng, giải khát, thực phẩm khi mà yếu tố vềthời gian được đặt lên hàng đầu Trên thế giới, BI đã trở thành công cụ quản trịquen thuộc của nhiều tên tuổi lớn như: BMW, Coca-Cola,Unilever Còn tạiViệt Nam, một số công ty lớn đã và đang triển khai BI và coi đó như vũ khí bímật của mình Hy vọng, trong thời gian tới, ngày càng nhiều DN VN sẽ sát cánhvới giải pháp BI
quyết định
Có nhiều yếu tố ảnh hưởng đến hoạt động kinh doanh của doanh nghiệp,trong đó yếu tố quan trọng nhất là việc "ra quyết định" bởi nó cần có ở mọi cấp,mọi bộ phận của doanh nghiệp Các chuyên gia biết rõ tầm quan trọng của việclên kế hoạch, dự báo, phân tích, đưa ra các đánh giá về tài chính và vận hành.Tuy nhiên, họ thiếu những công cụ có thể giúp đưa ra những phân tích và quyết
Trang 23định chính xác Theo một nghiên cứu về giám đốc tài chính (Chief FinancialOfficer - CFO) toàn cầu của IBM năm 2010, việc ra quyết định nhanh và tíchhợp thông tin trên toàn doanh nghiệp là thách thức lớn nhất đối với các CFO chứkhông phải áp lực giảm chi phí hoạt động cơ bản Các CFO cũng bị CEO "ép"phải cung cấp được dữ liệu chính xác nhanh hơn để kiểm soát rủi ro và dự báoquyết định Do vậy CFO cần đúng người và công cụ để thực hiện phân tích kinhdoanh.
Thông thường, với các tổ chức lớn, các thông tin sản xuất kinh doanhthường xuyên bị phân tán ở các hệ thống cũng như các ứng dụng riêng lẻ được sửdụng trong các phòng ban, bộ phận sản xuất kinh doanh khác nhau Nếu không
có một giải pháp phân tích hoạt động doanh nghiệp để thu thập, hợp nhất và địnhdạng dữ liệu - sau đó khai thác ,hỗ trợ việc lập kế hoạch và ra quyết định, thì banlãnh đạo doanh nghiệp sẽ khó khăn hơn để có được các thông tin mang tính sốngcòn cần thiết nhằm hỗ trợ phân tích các hoạt động sản xuất kinh doanh của doanhnghiệp
Ứng dụng BI cho phép các doanh nghiệp thực hiện các báo cáo và cácphân tích có chiều sâu dựa trên thông tin chi tiết về tất cả các hoạt động trên qui
mô toàn tổ chức Dữ liệu được chiết suất từ nhiều hệ thống, nhiều ứng dụng khácnhau, được chuẩn hóa, tổng hợp, phân tích, định dạng và đưa đến người dùngcuối nhanh hơn, thuận tiện và thân thiện hơn Bên cạnh đó, hệ thống cũng hỗ trợquản lý hiệu quả hơn việc ra quyết định bằng cách cung cấp cho lãnh đạo nhữngthống kê chính xác và mang tính sống còn
Giải pháp BI trở nến cấp thiết hơn bao giờ hết để các nhà quản trị có thểđưa ra những quyết định phù hợp và nhanh chóng dựa trên những báo cáo phântích tổng hợp với những chỉ tiêu đánh giá (KPI) liên quan Cụ thể hơn, BI có thểgiúp doanh nghiệp ở những điểm như sau nhằm đạt mục tiêu tối ưu hóa lợi nhuận
Trang 24 Tiết kiệm chi phí, nâng cao hiệu quả của các hoạt động hằng ngày
Loại bỏ những mặt hàng kém hiệu quả
Tập trung những khách hàng có giá trị cao
Phân tích hiệu quả của chương trình khuyến mãi, quảng cáo
Nâng cao năng lực của nhân viên kinh doanh
Cũng cố và làm tăng sự hài lòng, lòng trung thành của khách hàng
Đo lường và phân tích ảnh hưởng của các hoạt độngđến sự hài lòng củakhách hàng
Đánh giá đối thủ cạnh tranh trong ngành, mở rộng thị phần
Tính chính xác, quyết đoán và kịp thời là kết quả rõ rệt nhất mà hệ thống BI cungcấp Kết quả là doanh nghiệp sẽ dễ dàng có được ngay lập tức các thông tin phântích quản lý, để trả lời các câu hỏi như: "3 khách hàng quan trọng nhất của doanhnghiệp hiện nay là ai?" hoặc "Thị trường nào đang mang lại tỷ trọng lợi nhuậnchính" hoặc "Ngày x thu được bao nhiêu tiền?" Với các doanh nghiệp, tổ chức
đã triển khai các hệ thống ERP và các hệ quản lý thông tin tác nghiệp đặc thùkhác như Ngân hàng, Bảo hiểm, Chứng khoán, Bệnh viện thì BI sẽ tự độngmóc nối vào các hệ quản lý tác nghiệp nói trên để tự động cung cấp các báo cáothống kê phân tích phục vụ quá trình quản lý và ra quyết định tức thời
Ngoài ra, BI giúp còn giúp doanh nghiệp dễ dàng xác lập những báo cáo động(ad-hoc report) theo bất cứ chiều thông tin nào mà không cần kiến thức chuyênmôn cao về cơ sở dữ liệu BI giúp tích hợp các phương tiện phân tích, so sánh, vàđánh giá rõ ràng, tiện lợi như các khung quản lý chỉ tiêu (dashboard), hệ thốngcác biểu đồ động (graphical chart), bộ chỉ tiêu quản lý hiệu năng DN/tổ chức(key performance indicators - KPIs), hệ thống báo cáo phân tích giả lập(Simulation and Forecasting Reports)
Trong một nghiên cứu gần đây tại Anh của Trung tâm Máy tính Quốc gia (UKNational Computer Centre), 53% số công ty được hỏi phản hồi là mức độ khai
Trang 25thác và thể hiện dữ liệu BI chỉ ở mức trung bình, có 13% số lượng được hỏi chobiết hiệu quả hệ thống là tốt, và 6% đánh giá ở mức rất tốt Một tỉ lệ tương ứngvới 16% cho biết là hệ thống vận hành tồi và 6% đánh giá mức rất tồi.
Mặc dù có tới 61% doanh nghiệp muốn tăng cường ứng dụng các giải pháp DataWarehouse và BI, nhưng nhiều doanh nghiệp vẫn rất băn khoăn các giải pháp đóđáp ứng các mục tiêu kinh doanh ở mức nào.Trên thực tế, các nghiên cứu chỉ rarằng việc hoạt động không hiệu quả chủ yếu do tác động của các yếu tố như:Thông tin bị phân bố trên quá nhiều hệ thống và chưa tập hợp được đầy đủ dogặp khó khăn trong việc tìm kiếm và truy cập Việc này dẫn đến các số liệu,thông tin không được cập nhật đủ nhanh, Chất lượng dữ liệu đã được cải thiệntrong những năm gần đây nhưng việc quản lý dữ liệu cần được nâng cao
Quá tập trung vào yếu tố kỹ thuật dựa vào công nghệ trong khi thực tế chỉ ra rằngviệc kết hợp tốt nhất giữa công nghệ và con người mới đem lại hiệu quả Đối táctriển khai không có nhiều hiểu biết về các hoạt động nghiệp vụ của doanhnghiệp/công ty do đó không triển khai đúng như yêu cầu
Để lựa chọn việc phát triển mới hệ thống DW và BI, tổ chức/doanh nghiệp cầnchú trọng tới, Nguồn dữ liệu của mình có tốt không, tập hợp từ bao nhiêu nguồn,tần suất cập nhật dữ liệu, mức độ trùng lặp dữ liệu Nguồn dữ liệu cần luôn đượccập nhật và sàng lọc để đảm bảo tính chính xác
Mức độ phát triển và liên kết của dữ liệu, nên đầu tư một hệ thống phục vụ chonhu cầu doanh nghiệp (ví dụ như dễ thiết kế chỉnh sửa hay giao diện thânthiện ) thay vì đầu tư một hệ thống lớn mà không khai thác hết, Các quy trìnhdoanh nghiệp, các chiều thông tin cần phân tích/dự báo phải được xác định rõ từđầu để lựa chọn giải pháp thích hợp
Năng lực của con người trong hệ thống đối với việc sử dụng, khai thác và vậnhành, Cần xác định rõ nguồn vốn đầu tư (bao gồm cả các chi phí ban đầu, chi phí
Trang 26pháp một cách hợp lý Liên kết và làm việc với các đối tác nhiều kinh nghiệmtrong lĩnh vực của mình, tài chính, ERP và CRM để có thể triển khai giải phápthành công và bền vững, BI cũng như ERP khó để triển khai do đó việc lựa chọnđúng đối tác là một việc rất quan trọng
Ứng dụng công cụ BI sẽ là một bước phát triển tiếp theo của DN sau khi đã ứngdụng hiệu quả hệ thống quản trị doanh nghiệp ERP Trong khi nhu cầu ứng dụngERP đang ngày càng phát triển ở các doanh nghiệp trong và ngoài nước, dự báo
sẽ có thêm nhiều doanh nghiệp quan tâm đến mở rộng ứng dụng BI cho lãnh đạodoanh nghiệp, nhằm nâng cao hơn nữa năng lực cạnh tranh của doanh nghiệptrên thị trường
Cây quyết định là công cụ mạnh mẽ cho việc phân loại và tiên đoán.Sự hấp dẫncủa của phương pháp thiết lập cây này là vì nó thích hợp với một lượng lớn sựkiện , ngược lại với mạng Neutral cây quyết định thể hiện những luật.Những luậtnày có thể dễ dàng diễn tả mà con người có thể hiểu chúng.Việc tạo quyết định
có rất nhiều ứng dụng ví dụ như hệ thống thư tín của công ty chứa đựng một môhình mà có thể chính xát tiên đoán thành viên nào của nhóm trực sẽ trả lời chomột yêu cầu nhất định mà họ không cần quan tâm mô hình này hoạt động như thếnào.Trong một số những trường hợp khác khả năng giải thích cho việc đưa raquyết định là vấn đề chính yếu.Trong một số ứng dụng , sự phân loại hay sự tiênđoán là vấn đề hết sức quan trọng
1) Học cây quyết định
Là phương pháp xấp xỉ giá trị rời rạc bởi những hàm mục tiêu ( targetfunction), trong đó hàm được biểu diễn bởi một cây quyết định.Những cây học( learned trees) có thể cũng được biểu diễn như là tập hợp của những luật if then
Trang 27để tăng tính dễ đọc cho con người Những phương pháp học này thể hiện trongnhững giải thuật suy diễn quy nạp thông dụng nhất và được ứng dụng thành côngtrong những nhiệm vụ từ việc học để chuẩn đoán bệnh trong y học đến việc địnhgiá rủi ro trong tài chính về kinh tế
6) Cây quyết định
Cây quyết định là cây trong đó mỗi nút nhánh thể hiện một sự lựa chọntrong số nhiều sự lựa chọn và mỗi nút lá là sự thể hiện của một quyết định.Câyquyết định thông thường được sử dụng cho việc đạt được thông tin cho mục đínhtạo quyết định.Cây quyết định bắt đầu với một nút gốc từ đó user nhận đượcnhững hành động.Từ nút này , user chia ra mỗi nút theo cách đệ qui theo giảithuật học cây quyết định Kết quả cuối cùng là một cây quyết định trong đó mỗinhánh thể hiện một trường hợp có thể của quyết định và hệ quả của quyết địnhđó
7) Sự thể hiện của cây quyết định
Cây quyết định phân chia những trường hợp bằng việc xắp xếp từ nút gốcđến những nút lá Điều đó đã đưa ra sự phân loại cho từng trường hợp Mỗi núttrong cây diễn tả một sự kiểm tra cho một số thuộc tính của trường hợp và mỗinhánh đi xuống từ nút đó đại diện cho một trong những giá trị có thể cho thuộctính này Một trường hợp được phân loại bằng việc bắt đầu tại nút gốc của cây ,kiểm tra những thuộc tính xát định của nút này sau đó chuyển xuống nhữngnhánh tương ứng với việc đánh giá thuộc tính Quá trình này được lặp lại chonhững cây con lúc đó nút gốc mới được xát định
8) Giải thuật học cây quyết định
Cây quyết định là phương pháp xấp xỉ hóa bằng hàm mục tiêu những giátrị rời ,rạc trong đó những hàm được học được thể hiện bằng cây quyết định Học cây quyết định là một trong những phương pháp thực dụng và được sử dụngrộng rãi nhất cho phương pháp suy diễn qui nạp
Trang 28Giải thuật học cây quyết định được sử dụng thành công trong hệ chuyêngia trong việc nằm bắt kiến thức.Công việc chính sử dụng trong các hệ thốngnày là việc sử dụng phương pháp qui nạp cho những giá trị cho trước của nhữngthuộc tính của một đối tượng chưa biết để xát định sự phân loại xấp xỉ theonhững luật của cây quyết định.Cây quyết định sẽ phân loại các trường hợp bằngcách duyệt từ nút gốc đến những nút lá.Chúng ta sẽ bắt đầu từ nút gốc của câyquyết định , kiểm tra thuộc tính xát định bởi nút này sau đó chuyển xuống nhữngnhánh của cây theo giá trị thuộc tính trong tập hợp cho trước.Quá trình này đượclặp lại tại những cây con Giải thuật cây quyết định thích hợp cho những điềudưới đây:
Mỗi trường hợp được biểu diễn bởi cặp những giá trị thuộc tính.Ví dụthuộc tính “nhiệt độ“ có những giá trị “nóng”,”mát”, “lạnh”.Chúng cũngđồng thời liên quan đến thuộc tính mở rộng , giá trị tiếp theo, dữ liệuđược tính toán ( giá trị thuộc tính bằng số) trong dự án của chúng ta
Hàm mục tiêu có giá trị đầu ra là những giá trị rời rạc.Nó dễ dàng liên hệđến trường hợp mà được gán vào một quyết định đúng hoặc sai.Nó cũng
có thể mở rộng hàm mục tiêu đến giá trị đầu ra là những giá trị thực
Những dữ liệu đưa vào có thể chứa đựng nhiều lỗi điều này liên quan đến
kĩ thuật giản lược những dữ liệu thừa
9) Cây quyết định là một phương pháp học qui nạp hấp dẫn
Những phương pháp học qui nạp tạo thành những công thức cho khônggian giả thuyết tổng quát bằng việc tìm ra tính qui tắc bằng kinh nghiệm dựa trênnhững dữ liệu ví dụ
Với học qui nạp , học cây quyết định hấp dẫn vì 3 nguyên nhân:
Cây quyết định là một sự tổng quát tốt cho những trường hợp ta không để ý đến ,chỉ những trường hợp được mô tả trong những giới hạn của những đặc tính màliên quan đến những khái niệm mục tiêu
Trang 29Những phương pháp hiệu quả trong tính toán là số hạng của tỉ lệ thức đến số củanhững trường hợp của dữ liệu đưa vào tính toán.
Kết quả của cây quyết định đưa ra một sự biểu diễn của ý niệm mà dễ dàng chocon người bởi vì nó đưa ra quá trình phân loại hiển nhiên
1) Giới thiệu về giải thuật ID3
ID3 là một giải thuật học cây quyết định được phát triển bởi RossQuinlan (1983) Ý tưởng cơ bản của giải thuật ID3 là để xây dựng cây quyết địnhbằng việc sử dụng một cách tìm kiếm từ trên xuống trên những tập hợp cho trước
để kiểm tra mỗi thuộc tính tại mỗi nút của cây Để chọn ra thuộc tính mà hữu íchnhất cho sự phân loại trên những tập hợp cho trước , chúng ta sẽ đưa ra mộtmetric thu thập thông tin
Để tìm ra một cách tối ưu để phân loại một tập hợp thông tin , vấn đề đặt
ra là chúng ta cần phải làm tối thiểu hóa ( Chẳng hạn, tối thiểu chiều cao củacây) Như vậy chúng ta cần một số chức năng mà có thể đánh giá trường hợp nàonào cho ra một sự phân chia cân bằng nhất.Matric thu thập thông tin sẽ là hàmnhư vậy
Entropy-Đồng nhất định lượng của một tập hợp thông tin
Để định nghĩa thông tin tìm được một cách chính xát chúng ta cần phảitìm hiểu về hàm entropy trước tiên
Đầu tiên không mất tính tổng quát giả sử rằng kết quả việc phân loại nhữngtrường hợp của cây quyết định thuộc vào hai loại chúng ta gọi chúng là P ( dương) và N (âm).Cho trước một tập hợp S , bao hàm những mục tiêu dương và âm,hàm entropy của S liên quan đến sự phân loại là :
Entropy(S) = -P(positive)log 2 P(positive) – P(negative)log 2 P(negative)
Trang 30P(positive) : tỉ lệ thức của những trường hợp dương trong S.
P(negative): tỉ lệ thức của những trường hợp âm trong S.
Cho ví dụ , nếu S là (0.5+,0.5-) then Entropy(S) là 1, nếu S là(0.67+,0.33-) thì Entropy(S) là 0 Để ý rằng nếu khả năng phân bố ở nhiều dạngkhác nhau thì thông tin của nó sẽ lớn
Chúng ta cũng để ý rằng hàm entropy là một sự định lượng cho tính khôngthuần khiết trong tập hợp thông tin đưa vào.Nhưng làm thế nào nó liên quan đến
sự tối ưu hoá của việc tạo quyết định của chúng ta tạo ra bởi vịêc phân loại trongnhững trường trường hợp Những gì chúng ta thấy sau đây sẽ là câu trả lời chovấn đề này
Thu thập thông tin - định lượng thu giảm mong đợi trong hàm Entropy
Như chúng ta đề cập trước đây, để tối thiểu hóa chiều sâu của cây quyếtđịnh , khi chúng ta duyệt nhánh cây, chúng ta cần chọn những thuộc tính tối ưu
để chia nút cây, những cái mà chúng ta có thể dễ dàng cho là thuộc tính với sựthu giảm entropy là sự lựa chọn tốt nhất.Chúng ta định nghĩa thu thập thông tinnhư là việc thu giảm mong đợi của entropy liên quan đến thuộc tính xát định khiphân chia một node thuộc cây quyết định
Gain(S,A)=Entropy(S) - Sum for v from 1 to n of (|Sv|/|S|) * Entropy(Sv)
Chúng ta có thể sử dụng khái niệm của thu thập để đánh giá tầm quantrọng những thuộc tính và xây dựng những cây quyết định mà mỗi nút chứathuộc tính mà nhận được lớn nhất trong những thuộc tính chưa được xem xéttrong đường đi từ gốc
Mục đích của việc sắp thứ tự này là :
Để tạo ra cây quyết định nhỏ mà những record có thể được xát định sau chỉ mộtvài lần cây quyết định phân chia.Để kết nối một hi vọng đối với việc tối thiểucủa quá trình tạo quyết định