Đối với nhà quản lý, đây là hệ thống phân tích hoạt động doanh nghiệpchính xác và toàn diện nhất do thông tin được tổng hợp từ nhiều nguồn trong doanh nghiệp.Trong nhiều trường hợp, nếu
Trang 1M c l c ục lục ục lục
I Giới thiệu 2
II Business Intelligent 4
1 Khái niệm 4
2 Các thành phần chính của BI 4
3 Lợi ích của BI đối với doanh nghiệp 6
4 Những nhược điểm của BI 8
5 Cách ứng dụng BI 9
6 Kỹ thuật OLAP 10
6.1 Giới thiệu OLAP 10
6.2 Các thành phần trong hệ thống OLAP 10
7 Tương lai của BI 12
III Một số công cụ thực hiện BI 14
1 Định nghĩa phân lớp 14
1.1 Qui trình Train và Test một classifier 14
1.2 Cross Validation (CV) trong Training and Testing Phase 15
2 Phân lớp với công cụ Weka 16
3 Ứng dụng BIDS trong Text mining 18
3.1 Giới thiệu bộ công cụ BIDS 18
3.2 Chuẩn bị dữ liệu 19
3.3 Tạo một từ điển (Dictionary) cho Model 20
3.4 Tạo một term vectors 23
3.5 Chuẩn bị dữ liệu để train và Test Model 25
3.6 Xây dựng/Kiểm tra và tinh chỉnh mô hình 27
3.7 Kiểm tra độ chính xác của Mining Models 29
IV.Kết luận 31
V Tài liệu tham khảo 32
Trang 2Gi i thi u ới thiệu ệu
Các doanh nghiệp luôn nỗ lực thu thập khối lượng lớn các dữ liệu khác nhau từ sựbiến động, hành vi tiêu dùng và mức độ trung thành của khách hàng để phục vụ cho mụctiêu kinh doanh hiệu quả Điều đáng tiếc là thực tế dữ liệu thường rời rạc, phục vụ cho một
số ứng dụng nghiệp vụ cụ thể, không hỗ trợ nhiều cho việc ra quyết định và trình diễn thôngtin một cách có ý nghĩa
Để có thể biến dữ liệu thành thông tin hữu ích, các doanh nghiệp cần phải lựa chọncông cụ thích hợp để tập hợp, xử lí và trình diễn dữ liệu một cách có liên quan và đúng lúc.Với sự đa dạng các công cụ sẵn có trên thị trường hiện nay, rất dễ làm cho bạn khó lựa chọn
và đôi khi gây sự nhầm lẫn
Business Intelligence (BI) không chỉ là một khuynh hướng đang thu hút sự chú ý củanhiều doanh nghiệp khắp mọi nơi Đó là công nghê tiên tiến nhất giúp chúng ta quản lý vàvận hành doanh nghiệp của mình một cách có hiệu quả nhất thông qua hệ thống xử lý dữliệu thô thành thông tin chất lượng cao
Tại Việt Nam, BI không chỉ là xu thế của phát triển mà hơn nữa nó đã và đang trởthành nhân tố vô cùng quan trọng, ảnh hưởng đến sự thành công của doanh nghiệp
Bài tiểu luận này chủ yếu tập trung đi vào tìm hiểu về BI, các lợi ích cũng như khókhăn nó mang lại khi thực hiện và giới thiệu một vài công cụ BI hiệu quả hiện nay đangđược rất nhiều người sử dụng
Trang 3Danh m c hình nh ục lục ảnh
Hình 1.1 Các thành phần của hệ thống BI 5
Hình 1.2 3 thành phần cơ bản của BI 5
Hình 2.1 Quy trình xây dựng mô hình phân lớp 14
Hình 2.2 Quy trình Train và test một Classifier 15
Hình 2.3 CV với 3-fold 16
Trang 4I Business Intelligent
1 Khái ni m ệu
Business Intelligence (BI - giải pháp quản trị doanh nghiệp thông minh) là một quytrình, công nghệ cho phép tổ chức, doanh nghiệp khai thác dữ liệu từ nhiều nguồn khácnhau về khách hàng, thị trường, nhà cung cấp, đối tác, nhân sự và phân tích, sử dụng các
dữ liệu đó thành các nguồn thông tin có ý nghĩa nhằm hỗ trợ việc ra quyết định Công nghệ
BI cung cấp một cách nhìn toàn cảnh về hoạt động của doanh nghiệp từ quá khứ, hiện tại vàcác dự đoán tương lai Mục đích của BI là hỗ trợ cho doanh nghiệp ra quyết định tốt hơn, vìyậy một hệ thống BI còn có thể được coi là hệ thống hỗ trợ quyết đinh
Thông thường đầu ra trong mỗi hệ thống ERP, CRM… là các dữ liệu đã sẵn sàngphục vụ việc phân tích Tuy nhiên, đối với nhiều tổ chức/doanh nghiệp, việc khai thác các
dữ liệu này chưa được chú trọng nên chỉ cừng ở các yêu cầu kết xuất báo cáo nghiệp vụ đơnthuần của các phòng ban Khá nhiều thông tin quan trọng cho người ra quyết định và lập kếhoạch chiến lược đã bị bỏ qua do thiếu công cụ tổng hợp, phân tích,”móc nối” các dữ liệunày, hoặc do người lãnh đạo không nhìn nhận khả năng này nên không đặt ra yêu cầu với hệthống công nghệ thông tin Xét ở góc độ đầu tư thì đây là sự lãnh phí lớn
Trên thực tế, BI cần cho mọi tổ chức/doanh nghiệp có nhu cầu tích hợp dữ liệu vàphân tích thông tin Đối với nhà quản lý, đây là hệ thống phân tích hoạt động doanh nghiệpchính xác và toàn diện nhất do thông tin được tổng hợp từ nhiều nguồn trong doanh nghiệp.Trong nhiều trường hợp, nếu không sử dụng BI, tổ chức/doanh nghiệp sẽ không có được kếtquả ngay, thậm chí có thể tốn kém một khoản chi phí cho việc khảo sát, nghiên cứu, tìm tòimới có được kết quả Với BI, doanh nghiệp dễ dàng có ngay thông tin phân tích quản lý, đểtrả lời các câu hỏi như: “khách hàng quan trọng nhất của doanh nghiệp hiện nay là ai?; “Thịtrường nào đang mang lại tỷ trọng lợi nhuận chính?”
Khảo sát của Gartner đối với các CIO trong năm năm trở lại đây cho thấy giải pháp
BI luôn đứng đầu trong thứ tự ưu tiên về nhu cầu đầu tư công nghệ của doanh nghiệp Trảiqua hai mươi năm phát triển, ngày nay hệ thống BI đã dần trở nên hoàn thiện và có xuhướng đáp ứng bốn nhu cầu quan trọng mà người quản trị luôn mong đợi đó là:
Data Warehouse - Khai thác dữ liệu tập trung
Analysis -Báo cáo phân tích cao cấp
Monitoring - Giám sát và cảnh báo tự động
Planning and Forecasting - Dự đoán và lên kế hoạch
2 Các thành ph n chính c a BI ần chính của BI ủa BI
Các thành phần chính của hệ thống BI được mô tả như hình dưới đây
Trang 5Hình 1.1 Các thành phần của hệ thống BI
Vấn đề cốt lõi trong hệ thống BI là kho dữ liệu (Data Warehouse) và khai phá dữ liệu(Data Mining) vì dữ liệu dùng trong BI là dữ liệu tổng hợp (Nhiều nguồn, nhiều định dạng,phân tán và có tính lịch sử) đó là đặc trưng của kho dữ liệu Đồng thời việc phân tích dữ liệutrong BI không phải là những phân tích đơn giản (query, Filtering) mà là những kỹ thuậttrong khai phá dữ liệu (Data Mining) dùng để phân loại (classification) phân cụm(clustering), hay dự đoán (Prediction) Vì vậy BI có mối quan hệ rất chặt chẽ với DataWarehouse và Data mining
Về cơ bản, Hệ thống BI đơn giản có thể được xem là sự kết hợp của 3 thành phầnchính như sau:
Business Analyst
Data Mining Data
Warehouse
Maki ng Decisi ons
Maki ng Decisi ons Data Presentation
Statistical Analysis, Querying and Reporting
Data Warehouses/Data Marts
Trang 6 Data Mining (Khai phá dữ liệu): Các kỹ thuật dùng để khai phá dữ liệu và phát hiệntri thức như phân loại (Classification), phân nhóm (clustering), phát hiện luật kết hợp(Association Rule), Dự đoán (Predcition),…
Business Analyst (Phân tích kinh Doanh: Các nhà lãnh đạo Doanh nghiệp đưa ranhững quyết định chiến lược đối với hoạt động kinh doanh của doanh nghiệp
3 L i ích c a BI đ i v i doanh nghi p ợi ích của BI đối với doanh nghiệp ủa BI ối với doanh nghiệp ới thiệu ệu
Tiết kiệm chi phí: Thông thường để biết được lí do vì sao kết quả kinh doanh tháng
này giảm so với tháng trước, nhà quản lý thường phải tìm hiểu qua nhiều kênh thôngtin khác nhau từ phòng kế toán tới phòng kinh doanh , nhiều khi tiêu tốn khá nhiềuthời gian, nguồn lực Còn với giải pháp BI, tận dụng ưu thế có thể phân tích sâu theonhiều chiều, nhà quản lý có thể tìm ngay được nguyên nhân bị giảm doanh thu là dođâu, cụ thể vùng miền nào mà hầu như không cần nhờ đến bất cứ ai Trong bối cảnhhiện nay, việc giúp doanh nghiệp truy xuất nhanh gọn thông tin được coi như mộtgiải pháp giúp tiết kiệm chi phí, nâng cao hiệu quả hoạt động
Chọn lọc mặt hàng kinh doanh: Bằng cách đo lường các chỉ số đánh giá hiệu quả
hoạt động chủ chốt về số lần bảo hành, các mặt hàng bán chậm nhất hay số kháchhàng mua và tổng doanh thu bán được từ những mặt hàng đó, BI giúp nhà quản lýbiết được những mặt hàng kém hiệu quả, làm tiêu tốn nhiều chi phí cho các hoạtđộng hỗ trợ, tồn kho để từ đó ra quyết định loại bỏ hay cải tiến thành một sản phẩmmới
Phân tích hiệu quả của các chưong trình khuyến mãi, quảng cáo: Thông qua việc
thu thập thông tin về số lượng hàng bán, doanh thu, chi phí, số khách hàng mới, sốsản phẩm bán được của các chương trình khuyến mãi, quảng cáo hệ thống BI sẽđưa ra báo cáo phân tích về mức độ hiệu quả của chương trình, từ đó nhà quản lý sẽbiết được chương trình dạng nào mang lại hiệu quả cao nhất để áp dụng lại chonhững lần sau Ngoài ra, dựa trên những bảng khảo sát, dữ liệu về bán hàng, BI cóthể cho biết tác động của những hoạt động đó như thế nào sau mỗi kỳ quảng cáo,tung ra sản phẩm, dịch vụ mới
Nâng cao năng lực của nhân viên kinh doanh: Trong doanh nghiệp có nhiều kênh
phân phối, nhiều chi nhánh đại lý, nhân viên kinh doanh được tổ chức thành nhiềucấp nên việc đo lường và đánh giá hiệu quả làm việc của nhân viên một cách chínhxác thường khó khăn và tốn nhiều thời gian Đe đánh giá đúng phải dựa trên nhiềutiêu chí: doanh số, số khách hàng mới tìm được, và phải có trọng số riêng cho từngkênh bán hàng Với sự hỗ trợ của hệ thống BI, nhà quản lý có thể đo lường nhiềutiêu chí đánh giá, từ đó có những quyết định thưởng phạt, điều chỉnh nhân sự chínhxác
Nâng cao hiệu quả phục vụ khách hàng : Nắm bắt thông tin khách hàng ở nhiều
góc độ khác nhau sẽ giúp doanh nghiệp phục vụ khách hàng tốt hơn Hệ thống BIcung cấp cho doanh nghiệp cái nhìn tổng thể về khách hàng bằng cách phân loạikhách hàng theo nhiều tiêu chí khác nhau: độ tuổi, giới tính, nơi sinh sống, thu nhập,
Trang 7doanh thu để doanh nghiệp có thể cung cấp những sản phẩm phù hợp với nhu cầucủa họ hay có thể thiết kế những chương trình khuyến mãi, quảng cáo riêng chonhững khu vực mà những đối tượng đó tập trung đông nhất.
Đánh giá đối thủ cạnh tranh, mở rộng thị trường: Đối với thị trường cạnh tranh
gay gắt như hiện nay, nhà quản lý không những phải nắm rõ tình hình của doanhnghiệp mình mà cần phải đánh giá được tiềm lực của đối thủ cạnh tranh trong ngành,nắm được danh sách những khách hàng tiềm năng để mở rộng thị phần, tìm kiếmthêm khách hàng mới Thông qua việc thu thập thông tin từ bên ngoài doanh nghiệp,
BI có thể đưa ra báo cáo so sánh doanh thu, số lượng khách hàng của doanh nghiệp
so với các đối thủ khác trong ngành Hoặc khi đối thủ tung ra một chương trìnhkhuyến mãi nào đó, doanh nghiệp sử dụng hệ thống BI để đo lường doanh thu và sốkhách hàng của mình, từ đó đối chiếu với mức độ lôi cuốn của chương trình, nếu sốkhách hàng giảm đáng kể nhưng doanh thu vẫn không giảm nhiều chứng tỏ chươngtrình của đối thủ chỉ thu hút những khách hàng có giá trị thấp, và ngược lại là chươngtrình thành công Từ đó doanh nghiệp có thể học được ở đối thủ và có những hànhđộng để kéo những khách hàng có giá trị cao về phía mình
Khai thác dữ liệu tập trung: Khi doanh nghiệp hoạt động hiệu quả thì việc mở rộng
phạm vi trên nhiều tỉnh thành, hay nhiều quốc gia là nhu cầu tất yếu Song song vớiviệc phát triển như thế, thì ban quản trị cũng vấp phải rất nhiều khó khăn trong quản
lý Dữ liệu của công ty, tập đoàn nằm rải rác ở nhiều nơi và dưới nhiều hình thứckhác nhau Do đó, bất cứ nhu cầu truy vấn, phân tích hay so sánh giữa các vùng vớinhau đều tiêu tốn rất nhiều thời gian và công sức Với Data Warehouse (Kho dữ liệu)của BI, những dữ liệu quan trọng nằm rải rác nhiều nơi, dưới nhiều định dạng khácnhau của doanh nghiệp sẽ được trích xuất đều đặn và được tập hợp lại thành một cấutrúc thống nhất Qua đó những báo cáo từ chi tiết đến tổng quát của toàn doanhnghiệp đều luôn đảm bảo được tính chính xác và kịp thời “Kho dữ liệu” đã được rấtnhiều tập đoàn lớn nhìn nhận là một phần quan trọng trên bước đường toàn cầu hóacủa họ
Báo cáo phân tích cao cấp: Một trong những nỗi sợ hãi lớn nhất của quản trị doanh
nghiệp là bị chìm ngập trong một rừng dữ liệu Sắp xếp quản lý cánh rừng đó đã làquá khó khăn nói chi đến việc khai thác giá trị từ đó Nhưng thực tế trong quá trìnhđưa ra quyết định vẫn luôn đòi hỏi những nhu cầu truy vấn phức tạp Hiện nay giảipháp báo cáo phân tích cao cấp của BI đã tương đối hoàn thiện với những tính năngnổi bật như:
o Đào sâu dữ liệu đến mức tối đa: Giúp ta có thể giải quyết những yêu cầu
phức tạp như “cung cấp thông tin về doanh thu và số lượng mặt hàng bánđược của 3 năm gần nhất, theo tất cả các vùng, ứng với tất cả các nhóm sảnphẩm và từng sản phẩm, và nhân viên thực hiện giao dịch” Với những dạngcâu hỏi như trên người quản trị chỉ mất vài giây tương tác hệ thống OLAP là
Trang 8o Khả năng tùy biến chiều thông tin: Song song với tính năng đào sâu dữ liệu
là khả năng tùy chỉnh thứ tự của các chiều thông tin Ví dụ cũng với nhữngchiều thông tin như yêu cầu trên ta có góc nhìn khác như “cung cấp thông tin
về doanh thu và số lượng mặt hàng bán được, ứng với các nhân viên bán hàng,của toàn bộ các vùng, trên tất cả các nhóm sản phẩm và từng sản phẩm, trong
3 năm gần nhất”
Giám sát và cảnh báo tự động: Để khẳng định tên tuổi của mình hơn nữa trên thị
phần BI, các nhà cung cấp giải pháp lớn như BusinessObjects, Cognos, Hyperion,SAS liên tục đầu tư vào phần giao diện người dùng Các khái niệm về Dashboards
- bảng điều khiển, Scorecards - bảng chỉ số đã được áp dụng vào quản lý doanhnghiệp Nhờ vào bảng điều khiển mà các chỉ số thể hiện tình trạng phát triển củacông ty (KPIs) luôn được tự động tổng hợp và cập nhật thường xuyên Ngoài chứcnăng cảnh báo tự động qua màu sắc, hình ảnh, hệ thống BI còn có chức năng tự độnggửi email thông báo đến người có thẩm quyền, giúp người quản lý luôn có đượcthông tin về những gì đang xảy ra
Dự đoán và lên kế hoạch: Trong môi trường thực tế, để tổng hợp được một bảng kế
hoạch cho quí tới, năm tới hay phương hướng của công ty trong nhiều năm tới sẽ rấtphức tạp Hầu như các bảng kế hoạch và dự báo của DN đều phụ thuộc vào nhậnđịnh chủ quan của một số người có kinh nghiệm Tất cả những người quản lý chắchẳn ai cũng muốn có được sự hỗ trợ đáng tin cậy và mang tính khoa học nhằm giúp
họ đưa ra được những dự báo vững chắc hơn Nắm bắt nhu cầu này, các tên tuổi hàngđầu về hệ thống BI như: Business Objects, Cognos, SAP Business Intelligence, BI,đều hỗ trợ khá tốt khả năng dự báo và lên kế hoạch của doanh nghiệp Kết hợp vớikinh nghiệm của người sử dụng, những bảng kế hoạch cho tương lai được tổng hợpkhá nhanh và có độ chính xác cao Ngoài hai tính năng trên, hệ thống BI còn giúpcho người sử dụng khả năng phân tích giả định - what-if analysis and simulation.Chức năng này giúp cho người sử dụng có thể giả lập một số biến cố, qua đó đánhgiá được xu thế thay đổi của các chỉ số KPIs mà họ quan tâm
4 Nh ng nh ững nhược điểm của BI ượi ích của BI đối với doanh nghiệp c đi m c a BI ểm của BI ủa BI
Các lợi ích của BI đối với doanh nghiệp rất rõ ràng và không thể phủ nhận, BI giúpcác doanh nghiệp khẳng định vị thế của mình trên trường quốc tế Tuy nhiên khi xem xét ởnhiều góc độ ta có thể tìm ra được vài nhược điểm của BI như sau:
Sự chồng chất lịch sử dữ liệu: Mục đích chỉnh của BI là lưu trữ dữ liệu giao dịch
quá khứ của công ty và từ đó xuất báo cáo và giúp các chuyên gia quyết định đếnhướng đi tiếp theo của doanh nghiệp, xét theo khía cạnh này, các lịch sử này chỉchiếm một phần nhỏ những gì các công ty cần để hoạt động, nhưng theo khía cạnhkhác, người dùng có thể không quan tâm đến vấn đề lịch sử như trong thị trường cónhiều công ty thay đổi thường xuyên
Trang 9 Chi phí: Việc xử dụng BI trong một vài thời điểm có thể là quá tốn kém cho các
công ty vừa và nhỏ, chẳng hạn như việc sử dụng BI trong các giao dịch kinh doanh
cơ bản
Phức tạp: Một bất lợi nữa của BI là việc thực hiện các thao tác trên dữ liệu rất phức
tạp để đối phó với các kỹ thuật kinh doanh cứng nhắc theo quan điểm này, nhiềuchuyên gia dự đoán rằng sự phức tạp này là tiền để để tối ưu một vài hoạt động kinhdoanh nào đó
Bừa bộn: BI có thể là nguyên nhân gây ra nhiều sự lộn xộn trong các thiết lập về
kinh doanh
Hạn chế sử dụng: Cũng giống như các kỹ thuật đang được hoàn thiện, ban đầu BI
được tạo ra để đánh giá tình hình hoạt động của các doanh nghiệp lớn mặc dù ngàynay, hệ thống BI đã được phát triển để dùng trong các doanh nghiệp vừa và nhỏnhưng thực tế là có nhiều công ty không coi BI là cần thiết vì độ phức tạp của nó
Thời gian thực hiện: Để tương tác hoàn thiện với hệ thống kho dữ liệu thì phải mất
khoảng 18 tháng Nhiều công ty phải cạnh tranh gay gắt với đối thủ của họ, họ không
đủ kiên nhẫn để ngồi chờ quá trình phân tích hoàn chỉnh để xuất báo cáo tài chính
5 Cách ng d ng BI ứng dụng BI ục lục
Ở mức hệ thống, BI là khâu cuối cùng của các giải pháp ERP, CRM… nghĩa là chỉkhi các hệ thống quản trị thông tin này đi vào vận hành, khai thác thì BI mới pháthuy được công việc của mình Ở mức đơn giản, BI là các yêu cầu đặt ra của nhà lãnhđạo với mỗi hệ thống phần mềm quản lý
Ví dụ, nhiều công ty hiện nay khai thác báo cáo tài chính hoặc yêu cầu đơn vị triểnkhai xây dựng thêm phân hệ báo cáo tài chính hoặc yêu cầu đơn vị triển khai xâydựng thêm phân hệ báo cáo cho hội đồng quản trị song song với hệ thống ERP trongdoanh nghiệp
BI vừa là đầu ra cuối cùng của các hệ thống ERP, CRM… vừa là đầu vào cho chínhcác hệ thống này Vì nếu xây dựng doanh nghiệp từ các kết quả đánh giá của BI, tức
là từ các chỉ số đánh giá hiệu năng doanh nghiệp thì doanh nghiệp sẽ có thông tin đầuvào phản án chính xác kết quả đầu ra đó Khi một doanh nghiệp ứng dụng ERP thìviệc áp dụng BI là phần liên kết rất nên phát triển và tận dụng Điều đó sẽ giúp tổchức/doanh nghiệp hoàn thiện hệ thống ứng dụng công nghệ thông tin của mình đểthúc đẩy phát triển và nâng cao khả năng cạnh tranh
BI có thể triển khai trên những dữ liệu phi cấu trúc được tồn tại ở nhiều loại nhưnhững tờ trình, báo cáo tổng kết của một cá nhân , một bộ phận, các email chào hànghay phàn nàn của khách hàng… tích hợp chúng lại và gộp với dữ liệu có cấu trúc đểphân tích Đây là khả năng có thể đứng độc lập của BI, nghĩa là những doanh nghiệpchưa có điều kiện sử dụng hệ thống ERP hay phần mềm nào đó, chỉ sử dụng Excel,Access mà có nhu cầu phân tích thì BI là giải pháp tối ưu cho họ
Trang 106 Kỹ thu t OLAP ật OLAP
6.1 Gi i thi u OLAP ới thiệu ệu
Khi nói đến BI thì phải nhắc đến kỹ thuật OLAP (Online Analitical Proccessing) làphương pháp để trả lời những truy vấn đa chiều một cách nhanh chóng OLAP là một phầncủa hệ Business Intelligence, cùng với báo cáo quan hệ và khai phá dữ liệu Nó cho phépngười sử dụng phân tích dữ liệu qua việc cắt lát (slice) dữ liệu theo nhiều khía cạnh khácnhau, khoan xuống (drill down) mức chi tiết hơn hay cuộn lên (roll up) mức tổng hợp hơncủa dữ liệu Bản chất cốt lõi của OLAP là dữ liệu được lấy ra từ kho dữ liệu hoặc từ Datamart (kho dữ liệu chủ đề) sau đó được chuyển thành mô hình đa chiều và được lưu trữ trongmột kho dữ liệu đa chiều Đối tượng chính của OLAP là khối, một sự biểu diễn đa chiều của
dữ liệu chi tiết và tổng thể Một khối bao gồm một bảng sự kiện (Fact), một hoặc nhiềubảng chiều (Dimensions), các đơn vị đo (Measures) và các phân hoạch (Partitions) Nhữngứng dụng tiêu biểu của OLAP : báo cáo bán hàng, báo cáo marketing, báo cáo quản lý, dựthảo ngân sách, báo cáo tài chính, Thuật ngữ OLAP có thể coi là một biến thể nhỏ củathuật ngữ cơ sở dữ liệu truyền thống OLTP (Xử lý giao tác trực tuyến)
Trong khi Data warehouse và data mart lưu trữ dữ liệu cho phân tích, thì OLAP là kỹthuật cho phép các ứng dụng client truy xuất hiệu quả dữ liệu này OLAP cung cấp nhiều lợiích cho người phân tích, ví dụ:
Cung cấp mô hình dữ liệu đa chiều trực quan cho phép dễ dàng lựa chọn, định hướng
và khám phá dữ liệu
Cung cấp một ngôn ngữ truy vấn phân tích, cung cấp sức mạnh để khám phá các mốiquan hệ trong dữ liệu kinh doanh phức tạp Dữ liệu được tính toán trước đối với cáctruy vấn thường xuyên nhằm làm cho thời gian trả lời rất nhanh đối với các truy vấnđặc biệt
Cung cấp các công cụ mạnh giúp người dùng tạo các khung nhìn mới của dữ liệu dựatrên một tập các hàm tính toán đặc biệt
OLAP được đặt ra để xử lý các truy vấn liên quan đến lượng dữ liệu rất lớn mà nếucho thực thi các truy vấn này trong hệ thống OLTP sẽ không thể cho kết quả hoặc sẽ mất rấtnhiều thời gian
6.2 Các thành ph n trong h th ng OLAP ần chính của BI ệu ối với doanh nghiệp
Khối (Cube) : Khối là phần tử chính trong xử lý phân tích trực tuyến, là tập con dữ
liệu từ kho dữ liệu, được tổ chức và tống hợp trong các cấu trúc đa chiều Để xácđịnh một khối, ta chọn một bảng Fact và các đơn vị đo lường đồng nhất (các cột sốtheo sự quan tâm của người dùng khối) trong bảng Fact Sau đó chọn các chiều, mỗichiều gồm một hay nhiều cột từ bảng liên quan khác Các chiều cung cấp mô tả rõràng bởi các đơn vị đo lường được chia ra của người dùng khối
Chiều (Dimension): Các chiều là cách mô tả chủng loại mà theo đó các dừ liệu số
trong khối được phân chia để phân tích Khi xác định một chiều, chọn một hoặcnhiều cột của một trong các bảng liên kết (bảng chiều) Nếu ta chọn các cột phức tạpthì tất cả cần có quan hệ với nhau, chẳng hạn các giá trị của chúng có thể được tổchức theo hệ thống phân cấp đơn Để xác định hệ thống phân cấp, sắp xếp các cột từchung nhất tới cụ thể nhất Ví dụ: một chiều thời gian (Time) được tạo ra từ các cộtNăm, Qúy, Tháng, Ngày (Year, Quarter, Month và Day) Mỗi cột trong chiều gópphần vào một cấp độ cho chiều Các cấp độ được sắp đặt theo nét riêng biệt và được
Trang 11tổ chức trong hệ thống cấp bậc mà nó thừa nhận các con đường hợp logic cho việcđào sâu (drill down).
Chiều có phân cấp: Phân cấp là cột sống của việc gộp dữ liệu hay nói một cách khác
là dựa vào các phân cấp mà việc gộp dữ liệu mới có thể thực hiện được Phần lớn cácchiều đều có một cấu trúc đa mức hay phân cấp Nếu chúng ta làm những quyết định
về giá sản phẩm để tối đa doanh thu thì chúng ta cần quan sát ở những dữ liệu vềdoanh thu sản phẩm được gộp theo giá sản phẩm, tức là chúng ta đã thực hiện mộtcách gộp Khi cần làm những quyết định khác thì chúng ta cần thực hiện những phépgộp tương ứng khác Như vậy có thể có quá nhiều tiến trình gộp Thế nên các tiếntrình gộp này cần phải được thực hiện một cách rất dễ dàng, linh hoạt để có thể hỗtrợ những phân tích không hoạch định trước Điều này có thể được giải quyết trên cơ
sở có sự trợ giúp của những phân cấp rộng và sâu
Roll_up và Drill_down: Dựa trên phân cấp theo chiều, từ một mức dưới, chúng ta
có thể cuộn lên (Roll_up) các mức trên, thực hiện một phép gộp, để có được kết qủatổng hợp hơn Và từ một mức trên, có thể khoan sâu xuống (Drill_down) các mứcdưới, để có các kết quả chi tiết hơn
Các đơn vị đo lưòng (Measures): Các đơn vị đo của khối là các cột trong bảng Fact.
Các đơn vị đo lường xác định những giá trị số từ bảng Fact mà được tổng hợp phântích như định giá, trị giá, hoặc số lượng bán
Trang 127 T ương lai của BI ng lai c a BI ủa BI
BI đang thay đổi rất nhanh do sự phát triển của những công nghệ then chốt trong nó việc sử dụng các hệ thống phần mềm BI trên bộ nhớ chính (in-memory), sự phát triển củacác ứng dụng phân tích di động cũng như việc triển khai các phần cứng và phần mềm đónggói tương thích và tối ưu cho việc phân tích kinh doanh Tiến tới, chắc chắn sẽ có thêm các
-hệ thống phân tích dữ liệu dựa trên các ứng dụng điện toán đám mây
Theo đánh giá của Gartner, thị trường các trang thiết bị BI của thế giới đã tăngtrưởng hơn 10% và đạt hơn 10,8 tỷ USD Các nhà phân tích lưu ý rằng, thị trường BI đangphát triển năng động với sự khai phá công nghệ của các nhà phát triển phần mềm độc lậpnhư TIBCO, Sportfire và QlikTech Các đấu thủ chính của thị trường BI đang đáp lại sựbành trướng của các nhà sản xuất thiết bị khai thác dữ liệu bằng việc đưa ra các giải pháp
"dễ sử dụng" Chẳng hạn, đó là các hãng Microsoft PowerPivot, SAP BusinessObjectExplorer, IBM Cognos Express và Information Builders WebFocus Visual Discovery
Một thời gian dài, giải pháp BI được định hướng chủ yếu vào phục vụ các tổ chứclớn có đủ nguồn lực tài chính và con người để thực việc phân tích dữ liệu một cách có hệthống Chỉ có những phân tích viên chuyên tạo các báo cáo cần thiết mới tiếp cận được hệthống này Người đặt hàng các báo cáo đó là các nhà quản lý cấp cao
Gần đây, đã xuất hiện các giải pháp định hướng đến người dùng doanh nghiệp, đặcbiệt là các nhà quản lý trung và cao cấp Nhờ những giải pháp này mà họ đã có được cáccông cụ cho phép tự nhận báo cáo không cần qua các phân tích viên hay chuyên gia côngnghệ thông tin: Họ tự do lựa chọn các báo cáo, kể cả cách trình bày các báo cáo đó (theo đồthị, biểu đồ )
Những giải pháp BI hiện đại ngày càng hướng đến đáp ứng nhu cầu sử dụng đại tràtrong việc phân tích tác nghiệp, phục vụ lãnh đạo và chuyên gia ở nhiều cấp độ khác nhau
và phạm vi hoạt động rất rộng lớn Đặc điểm chính của những giải pháp này là dễ sử dụng,
có hàng loạt chức năng hướng tới các ứng dụng kinh doanh cụ thể cũng như hiệu suất cao,cùng khả năng triển khai trên các cấu hình máy tính không được cao cho lắm của ngườidùng phổ thông
Diện ứng dụng của BI thường xuyên được mở rộng: Hỗ trợ việc ra quyết định chiếnlược; phân tích hoạt động kinh doanh và quản lý hiệu suất; phân tích quản lý quan hệ kháchhàng (trước hết dùng cho khối ngân hàng thương mại và các đơn vị bán lẻ); quản lý rủi rotrong kinh doanh (chủ yếu trong mảng tài chính); phân tích thông tin doanh nghiệp trên cácmạng xã hội; BI di động; nhúng các hệ thống BI vào các trung tâm xử lý tình huống v.v
Hiện đã có hàng loạt ngành nghề tích cực ứng dụng các hệ thống BI hoặc ít nhất làchuẩn bị áp dụng, gồm mảng tài chính (trước hết là các ngân hàng và các quỹ đầu tư), các
Trang 13công ty truyền thông, các hệ thống bán lẻ, các cơ quan nhà nước, các cơ sở y tế, côngnghiệp năng lượng và tiện ích công cộng, giao thông vận tải và logistics
Khuynh hướng phát triển các hệ thống BI phần lớn được xác định không chỉ bởi nhucầu của các doanh nghiệp đặt hàng mà cả ở các khả năng của kiến trúc điện toán mà các hệthống BI xây dựng trên đó Trong vòng mười năm gần đây, các nhà phát triển BI đã cố gắngnối kết chúng với những sáng tạo lớn về công nghệ và kiến trúc, từ SOA, kiến trúc cổngthông tin và công nghệ ảo hoá, các giải pháp di động Hiện nay, các nhà sản xuất các hệthống BI đang cố gắng tích hợp chúng vào môi trường và kiến trúc đám mây Làm cho BItương thích với điện toán đám mây là vấn đề đang được nhiều nhà cung cấp thử sức Tuynhiên, những giải pháp đó sẽ chiếm vị trí nào trên "đám mây" thì mọi người chưa hình dunghết Hoạt động BI luôn đòi hỏi những lượng dữ liệu lớn nên việc truyền tải dữ liệu trên cácđám mây sẽ gây cho các nhà cung cấp dịch vụ không ít khó khăn
Có thể coi việc sử dụng tích cực năng lực tính toán trên bộ nhớ chính (in-memory) làphát hiện thành công của các nhà phát triển hệ thống BI Việc xử lý dữ liệu trong bộ nhớphân tích cho phép nâng cao năng suất của hệ thống BI rất nhiều, tới hàng trăm lần, nhờgiảm đến tối thiểu nhu cầu kết nối với dữ liệu được triển khai trên các ổ cứng (việc trao đổi
dữ liệu với các đĩa cứng chậm hơn rất nhiều so với trao đổi dữ liệu nằm trên bộ nhớ)
Cuối cùng, những giải pháp BI không cần đến các đĩa lưu trữ dữ liệu đang tỏ ra rẻhơn nhiều lần so với các hệ thống BI được xây dựng theo các sơ đồ cũ với kho lưu trữ dữliệu Nhờ có chi phí tổng sở hữu thấp, chúng đang trở nên dễ tiếp cận hơn và vì thế dễ triểnkhai đại trà hơn Việc triển khai BI dựa trên tính toán của bộ nhớ cho đến nay đã nằm trongtay hầu hết các đấu thủ chính của thị trường như IBM, Oracle, Microsoft, SAP Trong sốcác nhà cung cấp, QlikTech là công ty tập trung nhiều vào khả năng phân tích dữ liệu trên
bộ nhớ chính
Trang 14II M t s công c th c hi n BI ột số công cụ thực hiện BI ối với doanh nghiệp ục lục ực hiện BI ệu
Các công cụ hỗ trợ BI hiện nay đang có rất nhiều và hầu hết đều đáp ứng đủ những yêu cầucần thiết của các nhà quản lý Nội dung bài nảy chỉ đề cập đến công cụ của Microsoft làphần mềm Business Intelligence Development Studio (BIDS) và Weka để ứng dụng vào môhình phân lớp
1 Đ nh nghĩa phân l p ịnh nghĩa phân lớp ới thiệu
Trong lĩnh vực máy học (machine Learning) và nhận dạng (pattern recognition), bàitoán phân lớp (classification) đề cập đến các thuật toán (algorithms) nhằm xác định lớp(class) của đối tượng đã cho sẽ thuộc về lớp nào trong các lớp đã cho trước (GivenCategories) Một điều cần chú ý là khác với bài toán phân cụm (clustering), dữ liệu dùng đểxây dựng mô hình (Training Data) trong bài toán phân lớp phải được xác định lớp trước(pre-Labeled) Ví dụ, xác định một email thuộc “spam” hoặc “non-spam”, hay xác định loạibệnh của bệnh nhân dựa vào các triệu chứng của họ Một thuật toán thực hiện việc phân lớpđược gọi là bộ phân lớp (classifier) Hình sau mô tả qui trình xây dựng mô hình phân lớpcác đối tượng
Hình 2.1 Quy trình xây dựng mô hình phân lớp
1.1. Qui trình Train và Test m t classifier ột số công cụ thực hiện BI
Dữ liệu để xây dựng mô hình: dữ liệu gốc (original dataset), dữ liệu này phải cóthuộc tính phân lớp gọi là categorical attribute
Dữ liệu gốc sẽ được chia thành 2 phần là Training Set (để xây dựng model) vàTesting Set (để kiểm định Model)
Cuối cùng là tính toán lỗi để đánh giá Model
Training Set
Set
LearnClassifier
TestSet
Model
d
MaritalStatus
Taxableincome
Cheat
Trang 15Hình 2.2 Quy trình Train và test một Classifier
1.2. Cross Validation (CV) trong Training and Testing Phase
Đây là kỹ thuật chủ yếu được sử dụng trong xây dựng predictive Model Trong đó dữliệu gốc sẽ được chia thành n phần bằng nhau (n-fold), và quá trình Train/Test Model thựchiện lặp lại n lần Tại mỗi lần Train/Test Model, 1 phần dữ liệu dùng để Test và (n-1) phầncòn lại dùng để Train
Original Dataset
OriginalDataset
SplitDataset
TestSet
TrainingSet
TrainClassifier
TestClassifier
CalculateError Rate
~ 2/3
Original
Dataset
~ 1/3 Original Dataset
Trang 16Original Dataset
Cross Validation foldmaker
Train/Test Calculate
Error rate
Average Error rate
2 Phân l p v i công c Weka ới thiệu ới thiệu ục lục
Ví dụ dưới đây sử dụng cơ sở dữ liệu Iris dataset (là bộ dữ liệu về hoa dung để kiểmtra các classification models) Iris Dataset gồm 150 samples (instances), thuộc 3 lớp(classes| categories) là setosa, vesicolor và virginica, mỗi lớp có 50 samples
Cấu trúc của Iris dataset như sau:
o Attributes x Instances = 5 x150
o Number of classes : 3
o Distribution for each class : 50 (mỗi lớp có 50 instances)
o Số thuộc tính là 5, trong đó có 1 thuộc tính phân loại có tên class (categoricalAttribute)
o Sepallength: Độ dài đài hoa
o Sepalwidth: Độ rộng đài hoa
o Petallength: Độ dài cánh hoa
o Petalwidth: Độ rộng cánh hoa
o Class: thuộc tính phân loại hoa (setosa, vesicolor và virginica)
Iris dataset có thể download tại đây
Công cụ Weka có thể download tại đây: x86 x64
Sau khi download và cài đặt giao diện chương trình như sau, ta click nút Explorer đểbắt đầu