Nhiệm vụ của khai phá dữ liệu Sự phát triển của các công cụ thu thập dữ liệu cùng với sự bùng nổ của Internet đã giúpnhững nhà kinh doanh có thể thu được những dữ liệu khổng lồ về thị tr
Trang 1Mục lục
1.Các v n đ trong kinh doanh và nhi m v c a khai thác d li u ấ ề ệ ụ ủ ữ ệ
1.1 Các vấn đề trong kinh doanh
Tình hình kinh tế nhiều biến động, sự cạnh tranh gay gắt, những mục tiêu tối ưu hóa vàphát triển… đã đặt các tổ chức kinh tế/ doanh nghiệp trước không ít thách thức và đòi hỏi
sự nhạy bén, linh hoạt trong quản lý, đưa ra quyết định
Cùng với sự phát triển của CNTT, sự ra đời của các phần mềm nghiệp vụ quan trọng như:
• Hệ thống phần mềm Quản trị nguồn lực doanh nghiệp (ERP – Enterprise ResourcePlanning)
• Hệ thống Core Banking đối với lĩnh vực Ngân hàng Tài chính
• Quản trị Quan hệ khách hàng (CRM – Customer Relationship Management)
• Quản trị Nhà phân phối (DMS – Distribution Management System)
• Quản trị Chuỗi cung ứng (SCM - Supply Chain Management)
• Quản trị Nguồn nhân lực (HRM - Human Resource Management)
Các phần mềm trên đã giải quyết một phần những vấn đề cơ bản của doanh nghiệp trongcông tác quản lý hoạt động Tuy nhiên, thị trường cạnh tranh gay gắt với những biến độngnhanh chóng đòi hỏi doanh nghiệp phải giải quyết những bài toán khó hơn trong kinhdoanh, có những phân tích rõ hơn về khách hàng để đưa ra chiến lược phù hợp như:
Đưa ra các phân tích về thị trường: xác định thị trường tiềm năng, đưa ra nhữngthống kê – dự đoán về biến động thị trường
Phân loại khách hàng (Nhóm các khách hàng theo các biến dữ liệu khác nhau:theo sản phẩm, theo khu vực địa lý, thói quen mua sắm, sở thích, mức thu nhập,…)
Giúp nhận diện và giữ lại khách hàng tiềm năng (nhận diện những khách hàngtiềm năng, đưa ra các thống kê, gợi ý giúp doanh nghiệp có các chính sách nhằmđảm bảo duy trì mối quan hệ với khách hàng
Nghiên cứu những quan hệ giữa chất lượng sản phẩm và những vấn đề kháchhàng đề cập; đưa ra khuyến cáo về sản phẩm, dịch vụ,…
Nghiên cứu hiệu quả của các kênh quảng bá đối với từng nhóm khách hàng
Những yêu cầu về phân tích, thống kê trong thời gian thực
Trang 2 Phân tích rủi ro trước khi ra quyết định quan trọng đối với các hoạt động kinhdoanh, sản xuất.
1.2 Nhiệm vụ của khai phá dữ liệu
Sự phát triển của các công cụ thu thập dữ liệu cùng với sự bùng nổ của Internet đã giúpnhững nhà kinh doanh có thể thu được những dữ liệu khổng lồ về thị trường, khách hàng,
… Khai phá dữ liệu giúp khảo sát, phân tích khối dữ liệu của doanh nghiệp nhằm tìm ranhững dữ liệu giàu thông tin tiềm ẩn, trích xuất ra các thông tin quan trọng
Như đã nói ở trên, các quyết định trong kinh doanh phải dựa trên những thông tin, dữ liệukết hợp với kinh nghiệm, mục tiêu, khó khăn, và thậm chí cả tính cách của các nhà quản
lý Các nhà khoa học dữ liệu phân chia một vấn đề kinh doanh thành các nhiệm vụ nhỏ.Các giải pháp cho các nhiệm vụ nhỏ sau đó có thể được cấu trúc để giải quyết các vấn đềchung Một số nhiệm vụ giải quyết các vấn đề kinh doanh cụ thể, nhưng một số khác lànhững nhiệm vụ khai thác dữ liệu thông thường
Mặc dù một số lượng lớn các thuật toán khai thác dữ liệu cụ thể được phát triển trongnhững năm qua, nhưng trong đó chỉ có một số ít các thuật toán giải quyết được nhữngnhiệm vụ cơ bản Dưới đây, chúng ta cùng tìm hiểu một số kỹ thuật khai phá dữ liệu trongkinh doanh hiện nay
1.2.1 Phân loại và lớp xác suất ước tính (Classification and class probability estimation)
Phương pháp phân loại (Classification) là dự đoán xem đối với mỗi cá thể trong một tập
dữ liệu sẽ thuộc lớp nào Thông thường các lớp phân loại sẽ loại trừ lẫn nhau Ví dụ, câu
hỏi phân loại sẽ được đưa ra là “Trong một tập khách hàng, những khách hàng nào sẽ
hứng thú với sản phẩm mới?" Trong ví dụ này, hai lớp có thể được gọi là sẽ hứng thúvà
không hứng thú
Trang 3Một phương pháp tương tự với phân loại là đưa ra các lớp và xác suất ước tính của mỗi
lớp (Class probability estimation) Đưa ra xác suất một cá thể nhất định có thể thuộc về một loại nào đó Ví dụ, thay vì trả lời câu hỏi như trên, ta sẽ đi trả lời câu hỏi: “Đối với sản phẩm mới này thì xác suất bao nhiêu phần trăm khách hàng A sẽ cảm thấy hứng thú?“
Quá trình gồm hai bước:
Bước xây dựng bộ phân loại (classifier) bằng việc phân tích, ý kiến chuyêngia
Bước phân loại (classification): phân loại dữ liệu/đối tượng mới nếu độ chính xác của bộ phân loại được đánh giá là có thể chấp nhận được
Các giải thuật phân loại dữ liệu:
o Phân loại dữ liệu với cây quyết định (decision tree)
o Phân loại dữ liệu với mạng Bayesian
o Phân loại dữ liệu với mạng neural
o Phân loại dữ liệu với k phần tử gần nhất (k-nearest neighbor)
o Phân loại dữ liệu với suy diễn dữa trên tình huống (case-based reasoning)
o Phân loại dữ liệu dựa trên tiến hóa gen (genetic algorithms)
o Phân loại dữ liệu với lý thuyết tập thô (rough sets)
o Phân loại dữ liệu với lý thuyết tập mờ (fuzzy sets)
1.2.2 Hồi quy – “Ước tính giá trị” ( Regression - “value estimation”)
Hồi quy cũng giải quyết bài toán tương tự như đối với kỹ thuật phân loại, nhằm đưa ra
dự đoán về giá trị biến thuộc tính đối với một hay nhiều đối tượng Điểm khác biệt hồi
quy dự đoán cho các dự liệu liên tục Kỹ thuật phân loại dự đoán xem “điều gì sẽ xảy ra”, trong khi hồi quy dự đoán “bao nhiêu cái gì đó” sẽ xảy ra.
Ví dụ một câu hỏi hồi quy: "Bao nhiêu khách hàng nhất định sẽ sử dụng dịch vụ?" Cácthuộc tính (biến) được dự đoán ở đây là sử dụng dịch vụ, và một mô hình có thể được tạo
ra bằng cách nhìn vào các cá nhân khác tương tự trong cộng đồng và lịch sử dụng dịch vụcủa họ
1.2.3 Tìm điểm chung (Similarity matching)
Kỹ thuật tìm điểm chung nhằm đánh giá hoặc xác định xem với các đặc điểm của cá thể Athì có những cá thể nào tương tự với A Kỹ thuật tìm điểm chung là một trong những
Trang 4phương pháp cơ bản nhất trong việc xây dựng hệ thống gợi ý sản phẩm trên các trangthương mại điện tử (tìm những sản phẩm tương đồng với sản phẩn X bằng việc phân tíchlịch sử mua bán của những khách hàng đó để có thể gợi ý cho khách hàng Y những sảnphẩm mà anh ta có thể thích mua hoặc quan tâm đến.)
Kết quả tính toán của phương pháp này thường được sử dụng làm nền tảng để thực hiệncác phương pháp khác: classification, regression và clustering
1.2.4 Phân nhóm (Clustering)
Phân nhóm là kỹ thuật đánh giá các cá nhân trong một tập dữ liệu và gộp các cá nhân có
đặc tính tương tự vào một nhóm, nhưng không có mục đích cụ thể Kỹ thuật phân nhóm
sử dụng để trả lời các câu hỏi như “Các khách hàng mua sản phẩm X thuộc phân khúcngười dùng nào?”
Mặc dùng việc phân nhóm không không thực hiện tác vụ gì trên nhóm các cá thể được tạo
ra, nhưng nó có tác dụng trong việc thăm dò sơ bộ miền để xem những nhóm ngẫu nhiênnào tồn tại bởi vì từ nhóm này lần lượt có thể đề xuất các nhiệm vụ khai thác dữ liệu hoặccác phương pháp khác Phân nhóm cũng được sử dụng làm đầu vào cho quá trình ra quyếtđịnh, tập trung vào những câu hỏi như: Những sản phẩm nào doanh nghiệp nên cung cấphay phát triển? Làm thế nào nên các đội chăm sóc khách hàng của doanh nghiệp tiếp cậntốt với từng nhóm khách hàng?
Trang 51.2.5 Nhóm đồng thời (Co-occurrence grouping)
Nhóm đồng thời (còn được gọi là khai thác tập phổ biến, phát hiện luật kết hợp, và quyluật phân tích thị trường) cố gắng để tìm mối liên hệ giữa các thực thể dựa trên các giaodịch liên quan đến họ Một câu hỏi ví dụ ngẫu nhiên: Những sản phẩm thường được muacùng với nhau?
Trong khi phân nhóm tìm sự giống nhau giữa các đối tượng dựa trên các thuộc tính củacác đối tượng, nhóm đồng thời xem xét sự tương tự của các đối tượng dựa trên số lần xuấthiện cùng nhau trong các giao dịch Ví dụ, phân tích hồ sơ mua từ một siêu thị có thể pháthiện ra rằng thịt xay được mua cùng với nước sốt nóng thường xuyên hơn
Trang 6Kết quả của nhóm đồng thời là một mô tả của các thực thể thường xuất hiện cùng nhau.Những mô tả này thường bao gồm các số liệu thống kê về tần số xảy ra đồng thời và mộtước tính cách nó xảy ra.
Việc sử dụng các kết quả có được từ kỹ thuật phân nhóm đồng thời giúp đưa ra các gợi ýkhuyến mại đặc biệt, trưng bày sản phẩm, hoặc sự kết hợp phục vụ hoặc đưa vào các hệthống khuyến nghị sản phẩm cho khách hàng
1.2.6 Lập hồ sơ – mô tả hành vi (Profiling)
Lập hồ sơ (còn được gọi là mô tả hành vi) là kỹ thuật sử dụng để mô tả hành vi điển hìnhcủa một cá nhân, nhóm, hoặc cộng đồng Một ví dụ câu hỏi về hành vi người dùng sẽ là:
"Phân khúc khách hàng này sử dụng điện thoại di động như thế nào” Hành vi có thể là
một mô tả đơn giản; có thể yêu cầu một mô tả phức tạp như thời gian sử dụng vào buổitối, thời gian gọi trung bình trong tuần, sử dụng quốc tế, cước chuyển vùng, phút văn bản,
… Hành vi có thể được mô tả chung trong toàn bộ cộng đồng, cho các nhóm nhỏ hoặcthậm chí cá nhân
Lập hồ sơ thường được sử dụng để thiết lập các hành vi chuẩn mực cho các ứng dụngphát hiện bất thường như phát hiện gian lận và giám sát đối với sự xâm nhập vào hệ thốngmáy tính (chẳng hạn như ai đó đột nhập vào tài khoản iTunes của bạn) Ví dụ, nếu chúng
ta biết những sản phẩn, dịch vụ, thói quan mua sắm của người dùng trên một thẻ tín dụng,chúng ta có thể xác định liệu một khoản phí mới trên thẻ phù hợp mà hồ sơ hay không
Từ đó có thể sử dụng mức độ không phù hợp như một số điểm nghi ngờ và ban hành mộtcảnh báo nếu cần thiết
Phương pháp này cũng được sử dụng phổ biến trong các ứng dụng phát hiện các hành vihoặc hiện tượng bất bình thường như: truy cập trái phép (fraud detection), spam email Ví
dụ, hệ thống sẽ dựa vào hồ sơ để đưa ra một mẫu các hoạt động trên tài khoản Google củabạn, khi có một hành động hoặc truy cập lạ từ tài khoản của bạn, Google có thể phân tích
và dựa vào đó xác định rằng hoạt động này có thể là truy cập trái phép và thông báo chochủ tài khoản
1.2.7 Dự đoán liên kết (Link prediction)
Dự đoán liên kết là kỹ thuật tiên đoán các kết nối giữa các hạng mục dữ liệu, thườngbằng cách gợi ý rằng một liên kết nên tồn tại và có thể cũng ước lượng sức mạnh của liênkết Dự đoán liên kết là phổ biến trong các hệ thống mạng xã hội: "Bạn và Karen chia sẻ
10 người bạn, có thể bạn của bạn cũng là bạn của Karen?"
Trang 7Dự đoán liên kết cũng có thể ước lượng sức mạnh của một liên kết Ví dụ, để giới thiệuphim cho khách hàng có thể xây dựng một đồ thị giữa khách hàng và các bộ phim họ đãtheo dõi hoặc đánh giá Trong đồ thị, chúng tôi tìm kiếm các liên kết không tồn tại giữakhách hàng và phim ảnh, nhưng mà chúng ta dự đoán nên tồn tại và cần phải mạnh mẽ.Các liên kết này tạo thành cơ sở cho các khuyến nghị.
1.2.8 Cắt giảm dữ liệu (Data reduction)
Cắt giảm dữ liệu là kỹ thuật để từ một bộ dữ liệu lớn có thể thay thế nó bằng một tập hợpcác dữ liệu nhỏ có chứa nhiều thông tin quan trọng Các tập dữ liệu nhỏ hơn có thể được
xử lý, phân tính và đánh giá dễ dàng hơn trong các quy trình Hơn nữa, các tập dữ liệunhỏ hơn có thể tiết lộ thông tin tốt hơn Ví dụ, một tập dữ liệu lớn của người tiêu dùngthích phim xem có thể được giảm đến một tập dữ liệu nhỏ hơn nhiều tiết lộ sở thích hành
vi của người tiêu dùng mà là tiềm ẩn trong dữ liệu xem (ví dụ, sở thích người xem) Tuynhiên, cắt giảm dữ liệu thường bao gồm việc mất mát thông tin
1.2.9 Mô hình nhân quả (Causal modeling)
Mô hình quan hệ nhân quả giúp chúng tôi hiểu những sự kiện hoặc hành động thực sự ảnhhưởng đến những thực thể khác Ví dụ, sử dụng mô hình dự báo để nhắm mục tiêu quảngcáo đến người tiêu dùng, và chúng tôi nhận thấy rằng thực sự là tỷ lệ khách hàng mục tiêumua cao hơn so với dự đoán Được điều này bởi vì các quảng cáo ảnh hưởng đến ngườitiêu dùng? Hay các mô hình dự báo đã có hiệu quả trong việc xác định những người tiêudùng đã có thể mua hoặc không? Kỹ thuật cho mô hình nhân quả cần sự đầu tư đáng kểtrong dữ liệu, chẳng hạn như các thí nghiệm đối chứng ngẫu nhiên (ví dụ như, quá trình
"thử nghiệm A / B"), đưa dữ liệu ngẫu nhiên vào một hệ thống để kiểm thử và xem vớimỗi tập dữ liệu ngẫu nhiên sẽ có tác động thế nào tới kết quả, cũng như các phương pháptinh vi để rút ra kết luận nguyên nhân từ dữ liệu quan sát Cả hai phương pháp thí nghiệm
và quan sát cho mô hình nhân quả nói chung có thể được xem như là phân tích "đốichứng”
1.3 Phương pháp có giám sát và không giám sát
Xem xét hai câu hỏi tương tự mà chúng ta có thể hỏi về một tập hợp khách hàng Việcđầu tiên là: khách hàng của chúng tôi rơi vào các nhóm ngẫu nhiên khác nhau nào? Ở đâykhông có mục đích hoặc mục tiêu cụ thể đã được chỉ định cho các nhóm Khi không có
mục tiêu như vậy, vấn đề khai thác dữ liệu được gọi là không giám sát Ngược lại điều
này, với một câu hỏi khác: "Chúng ta có thể tìm thấy những nhóm khách hàng có khả
Trang 8năng xảy hủy bỏ dịch vụ của họ ngay sau khi hợp đồng hết hạn cao?" Ở đây có một mụctiêu cụ thể được xác định: khách hàng ngừng sử dụng khi hợp đồng hết hạn? Trongtrường hợp này, phân khúc đang được thực hiện cho một lý do cụ thể: để có hành độngdựa trên khả năng thay đổi Điều này được gọi là một vấn đề khai thác dữ liệu giám sát.
Các điều khoản giám sát và không giám sát được kế thừa từ các lĩnh vực học máy Theo
nghĩa ẩn dụ, một giáo viên "giám sát" người học bằng cách cung cấp thông tin mục tiêu
rõ ràng cùng với một tập hợp các ví dụ Một nhiệm vụ học không giám sát có thể liênquan đến cùng một tập các ví dụ nhưng sẽ không bao gồm các thông tin mục tiêu
Sự khác biệt giữa những câu hỏi trong phương pháp có giám sát và không giám sát là nhỏnhưng quan trọng Nếu một mục tiêu cụ thể được cung cấp, vấn đề có thể được đặt như làmột giám sát Nhiệm vụ giám sát yêu cầu kỹ thuật khác nhau hơn so với nhiệm vụ khôngđược giám sát, và kết quả thường là hữu ích hơn nhiều Một kỹ thuật giám sát có một mụcđích cụ thể cho các nhóm-dự đoán mục tiêu Trong kỹ thuật phân nhóm, một nhiệm vụkhông được giám sát, cung cấp các nhóm dựa trên sự tương tự, nhưng không có gì đảmbảo rằng những điểm tương đồng có ý nghĩa hoặc sẽ hữu ích cho bất kỳ mục đích cụ thể
Về mặt kỹ thuật, điều kiện cần được đáp ứng để khai thác dữ liệu giám sát: phải có dữliệu về mục tiêu Các thông tin mục tiêu tồn tại theo nguyên tắc, cũng phải tồn tại trong
dữ liệu Ví dụ, nó có thể là hữu ích để biết liệu một khách hàng sẽ sử dụng dịch vụ ít nhấttrong 6 tháng, nhưng nếu trong dữ liệu lịch sử thông tin lưu giữ này đã mất hoặc khôngđầy đủ (nếu, các dữ liệu chỉ được giữ lại trong hai tháng) thì các giá trị đích không thểcung cấp
Thu thập dữ liệu về các mục tiêu thường là một sự đầu tư quan trọng trong khoa học dữliệu Các giá trị cho các biến mục tiêu cho một cá nhân thường được gọi là nhãn của cánhân, nhấn mạnh rằng thường (không phải luôn luôn) người ta phải gánh chịu chi phí đểchủ động gắn nhãn cho dữ liệu
Phân loại, hồi quy, và mô hình nhân quả thường được giải quyết bằng các phương phápgiám sát Tìm điểm chung, dự đoán liên kết, và cắt giảm dữ liệu có thể là một trong haiphương pháp Phân nhóm, nhóm đồng thời và lập hồ sơ nói chung là phương pháp không
có giám sát
Hai phân lớp chính của khai thác dữ liệu giám sát, phân loại và hồi qui, được phân biệtbởi loại mục tiêu Hồi quy liên quan đến một số mục tiêu trong khi phân loại liên quan
Trang 9đến một mục tiêu phân loại (thường là nhị phân) Xem xét những câu hỏi tương tự nhưchúng tôi có thể giải quyết với khai thác dữ liệu giám sát
“Khách hàng này sẽ mua dịch vụ s1 nếu được tôi khuyến khích?” Đây là một vấn đề
phân loại bởi vì nó có một mục tiêu nhị phân (khách hàng mua hoặc không)
"Gói dịch vụ (s1, s2, hoặc không có) sẽ là một khả năng mua của khách hàng nếu được tôi khuyến khích?" Đây cũng là một vấn đề phân loại, với một mục tiêu ba giá trị.
“Có bao nhiêu khách hàng này sẽ sử dụng dịch vụ?” Đây là một vấn đề hồi quy vì nó có
một mục tiêu số Biến mục tiêu là lượng sử dụng (thực tế hoặc dự đoán) cho mỗi kháchhàng
Có sự tinh tế trong số những câu hỏi cần được đưa ra Đối với các ứng dụng kinh doanh,chúng ta thường muốn có một số dự đoán hơn một mục tiêu phân loại
Một phần quan trọng trong giai đoạn đầu của quá trình khai thác dữ liệu là để quyết địnhluồng dữ liệu sẽ được giám sát hoặc không có giám sát Nếu là phương pháp giám sát,cần cung cấp một định nghĩa chính xác biến mục tiêu Biến này phải có một số lượng cụthể, đó sẽ là trọng tâm của việc khai thác dữ liệu
1.4 Khai phá dữ liệu và việc sử dụng kết quả của khai phá dữ liệu
Có một khác biệt quan trọng liên quan đến khai thác dữ liệu: Sự khác nhau giữa (1) khai
phá dữ liệu để tìm mẫu và xây dựng mô hình, và (2) sử dụng kết quả của khai phá dữ liệu.
Thường có sự nhầm lẫn giữa hai quá trình này khi nghiên cứu khoa học dữ liệu, và cácnhà quản lý đôi khi nhầm lẫn giữa chúng khi thảo luận về phân tích kinh doanh
Ví dụ về xem xét kịch bản về việc dừng sử dụng sóng viễn thông của khác hàng Chúng
ta sử dụng các mô hình để dự đoán các khách hàng sẽ dừng sử dụng dịch vụ
Cụ thể, giả định rằng khai phá dữ liệu đã tạo ra một mô hình ước lượng xác suất lớp M.Với mỗi khách hàng hiện có, mô tả bằng một tập hợp các đặc điểm, M có những đặc điểmnhư đầu vào và tạo ra một số điểm hoặc xác suất ước tính hao mòn Đây là việc sử dụngcác kết quả của khai thác dữ liệu Việc khai thác dữ liệu sản xuất các mô hình M từ một
số khác, thường là lịch sử dữ liệu
Trang 10Hình 2-1 Khai thác dữ liệu so với việc sử dụng các kết quả khai phá dữ liệu Nửa trên của hình minh họa việc khai phá dữ liệu lịch sử để tạo ra một mô hình Quan trọng hơn, các dữ liệu lịch sử có mục tiêu ("class") giá trị quy định Nửa dưới cho thấy kết quả của việc khai phá dữ liệu sử dụng, nơi mà các mô hình được áp dụng cho dữ liệu mới mà chúng tôi không biết giá trị lớp Mô hình dự báo cả giá trị lớp và xác suất mà biến của lớp sẽ đưa vào giá trị đó.
Hình 2-1 minh họa hai giai đoạn này Khai phá dữ liệu cung cấp các mô hình dự toán xácsuất, như thể hiện trong nửa đầu của hình Trong giai đoạn sử dụng (nửa dưới), các môhình được áp dụng cho một trường hợp mới và nó tạo ra một ước tính xác suất cho nó
1.5 Một số ứng dụng khai phá dữ liệu trong kinh doanh
Việc sử dụng kết quả của khai phá dữ liệu đã cho ra đời các hệ thống kinh doanh thông
minh (Business Intelligence - BI)- hệ thống đề cập đến các kỹ năng, qui trình, công nghệ, ứng dụng được sử dụng để hỗ trợ ra quyết định , giúp chuyển đổi những dữ liệu thô thành
những thông tin có nghĩa và có ích cho mục mục phân tích kinh doanh
BI làm tăng khả năng kiểm soát thông tin của doanh nghiệp một cách chính xác, hiệu quả
từ đó có thể phân tích, khai phá tri thức giúp doanh nghiệp có thể dự đoán về xu hướngcủa giá cả dịch vụ, hành vi khách hàng, phát hiện khách hàng tiềm năng để đề ra cácchiến lược kinh doanh phù hợp nhằm tăng khả năng cạnh tranh doanh nghiệp
Trang 11Về cốt lõi trong hệ thống BI là kho dữ liệu (Data Warehouse) và khai phá dữ liệu (DataMining) vì dữ liệu dùng trong BI là dữ liệu tổng hợp (Nhiều nguồn, nhiều định dạng,phân tán và có tính lịch sử) đó là đặc trung của kho dữ liệu Đồng thời việc phân tích dữliệu trong BI không phải là những phân tích đơn giản (query, Filtering) mà là những kỹthuật trong khai phá dữ liệu (Data Mining) dùng để phân loại (classification) phân cụm(clustering), hay dự đoán (Prediction) Vì vậy BI có mối quan hệ rất chặt chẽ với DataWarehouse và Data mining.
Amazon: xây dựng hệ tư vấn, sử dụng thuật toán item – to – item collaborativefiltering match (Thuật toán xây dựng một ma trận các sản phẩm tương đồng bằngcách tìm kiếm những sản phẩm thường được mua cùng với nhau để tư vấn chongười dùng những sản phẩm đi kèm phù hợp nhất đối với sản phẩm họ lựa chọn)giúp doanh thu bán hàng của công ty tăng 29% từ USD 9.9 tỷ đô la (quý
2, 2011) lên $12.83 tỷ (quý 2, 2012)
Các hệ tư vấn cho doanh nghiệp, từ nhu cầu của Khách hàng để từ đó đưa ra các
Trang 12kiến nghị về bán chéo (Cross-selling: là một thuật ngữ để chỉ cách thức giới thiệunhững sản phẩm hoặc dịch vụ có liên quan đến sản phẩm khách hàng đang hoặc
đã mua Ví dụ, nếu khá ch hàng đã mua điện thoại, thì thuyết phục khách hàngmua thêm vỏ điện thoại.), bán thêm (Up-selling: là một thuật ngữ để chỉ cáchthức giới thiệu những sản phẩm hoặc dịch vụ có giá cao hơn, hay nâng cấp sảnphẩm, dịch vụ với những tính năng bổ sung) hoặc cung cấp các dịch vụ, tốthơn cho khách hàng Thông qua việc phân tích dữ liệu khách hàng ở cấp độ tinh
vi hơn, các tổ chức còn có thể tạo ra những cơ hội mới từ việc tạo ra những sảnphẩm mục tiêu mới
Các phân tích trên lượng dữ liệu lớn còn góp phần cải tiến và tối ưu hóa quá trình
ra quyết định, giảm thiểu rủi ro, tạo ra những giá trị gia tăng cho doanh nghiệp.Bằng việc khai thác nền tảng phân tích dữ liệu lớn, các doanh nghiệp có thể khámphá các giá trị tiềm ẩn to lớn, thông qua các khung nhìn tổng hợp về hành vi muahàng của khách hàng Chẳng hạn, các công ty kinh doanh qua mạng chẳng những
có thể theo dõi để biết được không chỉ những thông tin như khách hàng mua gì,
mà còn biết được họ xem những mặt hàng nào, họ xem những gì, làm gì mỗi lần
họ truy cập vào trang web, hay mức độ khách hàng bị tác động bởi những chínhsách khuyến mãi hay bình luận từ những khách hàng khác; từ đó phát hiện
ra được những điểm chung của những nhóm khách hàng
Trang 132 Quy trình khai phá dữ liệu
Khai thác dữ liệu được ví như một nghề thủ công Nó liên quan đến việc áp dụng khoahọc và công nghệ, nhưng cũng yêu cầu sự khéo léo, tỉ mỉ, cần phản hiểu rõ quá trình, đưa
ra một cấu trúc cho vấn đề một cách hợp lý nhất quán, lặp lại và khách quan
2.1 Mô hình quy trình CRISP-DM (Cross-Industry Standard Process for Data Mining)
Hình 2.1
Quy trình CRISP-DM là một quy trình lặp, có khả năng quay lui (backtracking) gồm 6giai đoạn Quy trình chỉ bắt đầu khi có sự hiểu biết về kinh doanh, hiểu được bài toántrong kinh doanh và đưa ra được đánh giá Các pha tiếp theo của quá trình CRISP – DM
là sự hiểu biết về dữ liệu, chuẩn bị dữ liệu, mô hình hóa, đánh giá và phát triển
Thường thì toàn bộ quá trình là một thăm dò của dữ liệu, và sau pha đầu tiên nhóm khoahọc dữ liệu sẽ nhận biết được các thông tin nhiều hơn Các pha kế tiếp có thể đưa ra đượcnhiều hơn những thông tin giá trị
2.1.1 Sự hiểu biết kinh doanh (Business Understanding)
Đây là bước đầu tiên và rất quan trọng trong quá trình khai phá dữ liệu phục vụ kinh