Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 19 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
19
Dung lượng
55,15 KB
Nội dung
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT QUA MẠNG BÀI THU HOẠCH MÔN KHAI PHÁ DỮ LIỆU ĐỀ TÀI: TÌM HIỂU CÁC ỨNG DỤNG CỦA DATAMINING TRONG KINH DOANH Giáo viên hướng dẫn: PGS. Ts. Đỗ Phúc Sinh viên thực hiện: Nguyễn Thị Thanh Thảo – MS: CH1101137 Tp HCM, tháng 11 năm 2012 Mục lục Lời nói đầu 3 Phần 1 4 I. Giới thiệu 4 II. Khái niệm về Datamining 4 III. Một vài ví dụ cho datamining 5 IV. Các thành phần cơ bản của datamining 6 V. Các chức năng chính của khai phá dữ liệu 7 VI. Các giải thuật/thuật toán của datamining 8 VII. Một số công nghệ dùng trong datamining 8 VIII. Phạm vi ứng dụng 9 Phần 2 11 1. Ứng dụng Datamining trong phân tich rủi ro ở ngân hàng ACB 12 2. Ứng dụng Datamining trong kinh doanh đồ chơi trẻ em 13 3. Ứng dụng trong kinh doanh siêu thị 13 4. Ứng dụng của datamining trong Viễn thông 13 Kết luận 18 Lời nói đầu. Ngày nay, với sự phát triển của khoa học kỹ thuật, các cơ quan, doanh nghiệp,…. ứng dụng công nghệ thông tin vào công tác quản lý điều hành, sản xuất kinh doanh ngày càng phổ biến. Đặc biệt là Datamining được sử dụng ngày càng nhiều và thành công vào các lĩnh vực khác nhau như: trong kinh doanh, trong chuẩn đoán y học, trong xã hội, trong công nghiệp,….Việc ứng dụng Datamining giúp cho các cơ quan, doanh nghiệp,… đưa ra các quyết định đúng đắn, kịp thời, dự đoán được những rủi ro, xác định khách hàng tiềm năng,… Như vậy, nắm bắt được những kyc thuật về Datamining là rất quan trọng. Nhận thức được tầm quan trọng và sự ảnh hưởng của Datamining, em tiến hành nghiên cứu một vài ứng dụng của Datamining trong kinh doanh, trong viễn thông,… Qua đây, em chân thành cảm ơn Phó Giáo sư – Ts. Đỗ Phúc đã truyền đạt cho em những kiến thức hữu ích này. Chân thành cảm ơn ! PHẦN 1: CƠ SỞ LÝ THUYẾT I. Giới thiệu. Khai phá dữ liệu (datamining) được định nghĩa như là một quá trình chắt lọc hay khai phá tri thức từ một lượng lớn dữ liệu. Một ví dụ hay được sử dụng là là việc khai thác vàng từ đá và cát, Dataming được ví như công việc "Đãi cát tìm vàng" trong một tập hợp lớn các dữ liệu cho trước. Thuật ngữ Dataming ám chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một số lượng lớn các dữ liệu thô. Có nhiều thuật ngữ hiện được dùng cũng có nghĩa tương tự với từ Datamining như Knowledge Mining (khai phá tri thức), knowledge extraction(chắt lọc tri thức), data/patern analysis(phân tích dữ liệu/mẫu), data archaeoloogy (khảo cổ dữ liệu), datadredging(nạo vét dữ liệu), II. Khái niệm về Datamining. Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó. Khai phá dữ liệu là một bước của quá trình khai thác tri thức ( Knowledge Discovery Process ) bao gồm: - Làm sạch dữ liệu (data cleaning & preprocessing)s: Loại bỏ nhiễu và các dữ liệu không cần thiết. - Tích hợp dữ liệu: (data integration): quá trình hợp nhất dữ liệu thành những kho dữ liệu (data warehouses & data marts) sau khi đã làm sạch và tiền xử lý (data cleaning & preprocessing). - Trích chọn dữ liệu (data selection): trích chọn dữ liệu từ những kho dữ liệu và sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức. Quá trình này bao gồm cả việc xử lý với dữ liệu nhiễu (noisy data), dữ liệu không đầy đủ (incomplete data), .v.v. - Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang các dạng phù hợp cho quá trình xử lý - Khai phá dữ liệu(data mining): Là một trong các bước quan trọng nhất, trong đó sử dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu. - Ước lượng mẫu (knowledge evaluation): Quá trình đánh giá các kết quả tìm được thông qua các độ đo nào đó. - Biểu diễn tri thức (knowledge presentation): Quá trình này sử dụng các kỹ thuật để biểu diễn và thể hiện trực quan cho người dùng. III. Một vài ví dụ cho quá trình dataming Đầu tiên là câu hỏi tại sao kết quả tìm kiếm của Google lại khác nhau khi đăng nhập và khi không đăng nhập? Tôi nghĩ đọc đến đây, có lẽ bạn đã có thể hình dung được câu trả lời. Câu trả lời ngắn gọn là: Khi bạn đăng nhập Google biết bạn là ai, biết hành vi trong quá khứ của bạn như thế nào (thông qua quá trình thu thập dữ liệu hành vi của bạn trên các site mà Google hiện diện), do đó nó dựa vào sự hiểu biết này nên kết quả trả về bao giờ cũng là kết quả có độ chính xác với nhu cầu của bạn cao nhất và ngược lại, khi không đăng nhập, Google chỉ trả về kết quả ranking bình thường mà không có kèm theo tham số ranking theo user. Và dĩ nhiên để biết được hành vi trong quá khứ của bạn, Google phải sử dụng đến các công nghệ data mining. Thứ hai, tại sao Facebook lại có thể gợi ý cho chúng ta toàn những người mà chúng ta đã quen biết? Để có thể đưa ra gợi ý này đòi hỏi Facebook kết hợp rất nhiều các tham số, cụ thể là những tham số gì thì là bí mật công nghệ riêng của FB. Tuy nhiên có thể giải thích tóm lược như sau: Khi bạn đăng ký tài khoản Facebook, thông thường bạn nhập thêm các thông tin khác như: quá trình làm việc ở các công ty, công ty bạn đang làm, trường/lớp bạn đã/đang học, các hội bạn tham gia, bạn gái/trai/vợ/chồng của bạn v.v Đây chính là các thông tin mà Facebook có thể dựa vào để xác định ai là bạn của bạn. Ở đây, Facebook đã mô hình hóa các tham số có độ liên quan nhất định để đưa ra những gợi ý mà có xác xuất đúng rất cao, và bạn thấy đó, thực sự là rất đúng :D. News stream của Facebook còn phức tạp và hay ho hơn nữa. Tất các điều đó Facebook làm được là quá trình thu thập dữ liệu hoạt động của người dùng trên site, sau đó sử dụng các công nghệ data mining để cung cấp nội dung, tính năng phù hợp nhất cho người dùng. Thứ ba, tại sao Amazon lại có thể đưa ra danh sách các quyển sách bán kèm có tỷ lệ bán được cao như vậy? Để làm được điều này Amazon đã đầu tư phát triển hệ thống recommendation trong hàng chục năm, thời gian dài đó không chỉ là phát triển thuần túy công nghệ mà còn là quãng thời gian thu thập và phân tích hành vi người sử dụng trên site của Amazon, thời gian càng dài, dữ liệu thu thập càng lớn, dẫn đến tập thông tin có độ tương quan càng nhiều và càng chính xác. Nôm na bạn có thể hiểu là 100 khách hàng mua quyển sách ABC thì có tới 40 khách hàng đồng thời mua quyển sách DEF, vì thế với khách hàng 101 xem quyển ABC, hệ thống nhận diện và đưa ra gợi ý mua them quên DEF, đơn giản là vậy, tuy nhiên bên dưới còn có nhiều tham số khác để tăng độ tương quan lên nữa. Và đây cũng là một quá trình mining dữ liệu. IV. Các thành phần cơ bản của Datamining. Công nghệ data mining là kết quả của quá trình lâu dài nghiên cứu và phát triển sản phẩm. Quá trình này bắt đầu từ khi những dữ liệu đầu tiên lưu vào máy tính, tiếp đến là quá trình cải tiến, nâng câp cách thức truy xuất dữ liệu và dần dần cho phép người dùng có thể duyệt dữ liệu theo thời gian thực. Kết quả của quá trình này cho phép truy xuất các nguồn dữ liệu quá khứ, tính toán và định vị lại việc truyền tải, cung cấp thông tin cho hiện tại, tương lai hay đưa ra các dự đoán tình huống có thể sắp diễn ra. Có ba kỹ thuật cơ bản nhưng rất tổng quát và đầy đủ trong công nghệ data mining: Thu thập dữ liệu lớn. (Massive data collective). Nền tảng sức mạnh tính toán. Đây chính là hạ tầng bao gồm cả phần cứng và phần mềm lõi. (Powerful computing) V. Các chức năng chính của khai phá dữ liệu. Data Mining được chia nhỏ thành một số hướng chính như sau: • Mô tả khái niệm (concept description): thiên về mô tả, tổng hợp và tóm tắt khái niệm. Ví dụ: tóm tắt văn bản. • Luật kết hợp (association rules): là dạng luật biểu diễn tri thứ ở dạng khá đơn giản. Ví dụ: “60 % nam giới vào siêu thị nếu mua bia thì có tới 80% trong số họ sẽ mua thêm thịt bò khô”. Luật kết hợp được ứng dụng nhiều trong lĩnh vực kính doanh, y học, tin- sinh, tài chính & thị trường chứng khoán, .v.v. • Phân lớp và dự đoán (classification & prediction): xếp một đối tượng vào một trong những lớp đã biết trước. Ví dụ: phân lớp vùng địa lý theo dữ liệu thời tiết. Hướng tiếp cận này thường sử dụng một số kỹ thuật của machine learning như cây quyết định (decision tree), mạng nơ ron nhân tạo (neural network), .v.v. Người ta còn gọi phân lớp là học có giám sát (học có thầy). • Phân cụm (clustering): xếp các đối tượng theo từng cụm (số lượng cũng như tên của cụm chưa được biết trước. Người ta còn gọi phân cụm là học không giám sát (học không thầy). • Khai phá chuỗi (sequential/temporal patterns): tương tự như khai phá luật kết hợp nhưng có thêm tính thứ tự và tính thời gian. Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán vì nó có tính dự báo cao. VI. Các giải thuật/thuật toán để khai thác dữ liệu. (Data mining Algorithms) Để có thể hiểu rõ hơn, tôi lấy ví dụ về hệ thống của VCC. Hệ thống thu thập dữ liệu: từ các site nội bộ của VCC, lượng dữ liệu thu thập hàng ngày trung bình khoảng gần 200GB data, số bản ghi dao động từ 200 đến 700 triệu, thời điểm cao nhất đạt 1.8 tỷ bản ghi được ghi nhận trong một ngày. Các dữ liệu thu thập bao gồm thông tin về ads item, user-agent, user id, url v.v… Nền tảng tính toán bao gồm hệ thống Hadoop Cluster, Datawarehouse và các application server. Hệ thống Hadoop ứng dụng để giải các bài toán đòi hỏi phải xử lý song song trên một khối lượng dữ liệu cực lớn (hàng TB data và chục tỷ bản ghi), hệ thống DW ứng dụng để tính toán nhanh các dữ liệu nằm ở các khoảng thời gian ngắn, lượng bản ghi tính toán khoảng dưới 1 tỷ, và cần tính nhanh. Nền tảng này kết hợp với thành phần thứ ba dưới đây để giải các bài toán phân tích về hành vi người dùng, target, re-targeting sản phẩm đúng đối tượng, xây dựng hệ thống recommendation v.v Các thuật toán/giải thuật ứng dụng để khai thác dữ liệu: Hệ thống của VCC ứng dụng khác nhiều các giải thuật/thuật toán khác nhau, tùy vào từng bài toán cụ thể. Ví dụ với bài toán chống spam thì ứng dụng thuật toán Cosine Similarity, Bayesian, Clustering… bài toán detect IP thì ứng dụng một số giải thuật tự nghiên cứu, hay bài toán tính lượng unique user theo khoảng thời gian bất kỳ ứng dụng giải thuật Bloom filter v.v… VII. Một số công nghệ thường áp dụng trong data mining: Mạng trí tuệ nhân tạo (Artificial neural networks): Đây là mô hình mà hệ thống có thể tự học thông qua đào tạo với tập dữ liệu ban đầu, từ đó suy đoán ra các tập kết quả từ tập dữ liệu mà nó khai thác. Cây quyết định (Decisions Trees): Một tập các decisions biểu diễn dưới dạng cây, các decisions này tạo ra các luật cho việc phân loại tập dữ liệu. Nôm na là, nếu tập thông tin A thõa mãn các luật B thì quyết định C. Giải thuật di truyền (Generic Algorithms): Kỹ thuật này sử dụng trong các quá trình phối hợp, biến đổi, chọn lọc tự nhiên kế thừa từ khái niệm tiến hóa. Phương pháp ông hàng xóm gần nhất (Nearest neighbor method): Đây là kỹ thuật phân loại từng bản ghi/thông tin trong tập dữ liệu dựa trên sự kết hợp của k records có độ giống nhau nhất trong tập dữ liệu quá khứ. Nguyên tắc suy diễn (Rule induction): Kỹ thuật bóc tác dữ liệu dựa trên nguyên tắc Nếu-Thì từ các tập dữ liệu thống kê. VIII. Phạm vi và ứng dụng. Phạm vi ứng dụng của data mining rất rộng, bao phủ hầu hết các lĩnh vực. Tuy vậy có thể tóm lược lại phạm vi ứng dụng của data ming trong các bài toán yêu cầu có cần có các chức năng/nghiệp vụ sau: Tự động hóa việc dự doán các xu thế và hành vi sẽ diễn ra trong tương lai: Data mining tự động hóa quá trình tìm kiếm và trích xuất các tập thông tin có mối quan hệ hoặc tương quan trong một tập dữ liệu cực lớn. Những vấn đề/câu hỏi đặt ra với các cách truyền thống đòi hỏi một quá trình rất phức tạp và tốn kém cả về tài chính và thời gian để giải đáp thì giờ có thể trả lời một cách nhanh chóng trong khi giá thành là thấp nhất. Một ví dụ đơn giản trong quảng cáo online là quá trình targeting, khi một người dùng click vào một banner quảng cáo bán giầy dành cho nữ giới, thì khả năng người đó là nữ và họ đang quan tâm đến đôi giầy đó, khi hệ thống nhận diện được điều này thì có thể target thêm các kiểu dáng giầy khác nhau, kích cỡ khác nhau, giá thành khác nhau với mục tiêu là người dùng sẽ kết thúc quá trình là mua một đôi giày, ngoài ra bởi vì hệ thống nhận diện người dùng là phụ nữ nên nó có thể quảng cáo thêm các sản phẩm khác như mỹ phẩm, quần áo v.v Tự động hóa việc khám phá/nhận diện ra những tập thông tin quá khứ mà hệ thống không/chưa biết: Công cụ data mining trong quá trình phân tích dữ liệu sẽ nhận diện ra nhưng tập thông tin/dữ liệu không có hoặc bị ẩn bởi những mối liên hệ mà được xác định trước. Ví dụ như trong việc bán hàng, có những sản phẩm không có mối liên hệ gì với nhau, nhưng lại hay bán được cùng nhau, từ đó đưa ra cơ chế recommendation. Hay cơ chế nhận diện giao dịch gian lận trong thanh toán điện tử dựa vào việc phân tích các giao dịch bất thường… Ngày nay, các công nghệ data mining được ứng dụng rộng rãi trong các công ty lấy khách hàng làm trung tâm như truyền thông, tài chính, marketing, bán hàng, các nghành công nghiệp sản xuất v.v… Nó cho phép các công ty xác định được các mối quan hệ giữa các yếu tố nội tại như giá thành, mẫu mã, cách thức quảng cáo, thậm chí là kỹ năng của nhân viên công ty… các yếu tố bên ngoài như đối thủ cạnh tranh, chính sách kinh tế hay nhu cầu thị trường v.v Và nó còn hỗ trợ việc xác định được sự tác động của các chính sách khuyến mại, giảm giá, độ hài lòng của khách hàng và lợi nhuận của doanh nghiệp… Bên cạnh những ứng dụng trong kinh doanh, Datamining còn được ứng dụng trong điều trị y học. PHẦN 2: ỨNG DỤNG CỦA DATAMINING. Ngày nay, hầu hết các cơ quan, doanh nghiệp,… đều ứng dụng CNTT phục vụ công tác quản lý điều hành, SX-KD. Mỗi đơn vị có thể tự xây dựng, trang bị cho mình các ứng dụng đặc thù, các hệ thống quản lý, lưu trữ dữ liệu riêng,…Tuy nhiên, các kho dữ liệu của các cơ quan, doanh nghiệp mới chỉ được sử dụng để lưu trữ, cập nhật, tra cứu thông tin. [...]... triển trong ngành viễn thông rất sớm Chúng ta sẽ xem xét một vài ứng dụng tiêu biểu, các ứng dụng này được chia thành 3 nhóm ứng dụng khác nhau : Phát hiện gian lận (fraud detection), các ứng dụng hỗ trợ tiếp thị và quản lý khách hàng, cuối cùng là các ứng dụng về phát hiện và xử lý lỗi hệ thống mạng a Phát hiện gian lận ( fraud detection ): Gian lận là một trong những vấn đề nghiêm trọng của các công... trữ để dùng cho các ứng dụng như tính cước, tiếp thị Thông tin về khách hàng bao gồm số điện thoại, họ tên, địa chỉ và các thuộc tính quan trọng khác như quá trình thanh toán nợ, quá trình sử dụng các dịch vụ, thu nhập Thông thường dữ liệu khách hàng phải được kết hợp với các dữ liệu khác, (ví dụ như dữ liệu chi tiết cuộc gọi) trong khi sử dụng uật data mining MỘT SỐ ỨNG DỤNG Các ứng dụng data mining... hàng tâm lý không ở đâu đáp ứng yêu cầu tốt bằng ở Big C 4 Ứng dụng của datamining trong Viễn thông Dữ liệu chính Trong ngành viễn thông có một số dữ liệu chính như sau: Dữ liệu chi tiết cuộc gọi ( call detail data ) Mỗi một cuộc gọi của khách hàng trên mạng viễn thông đều phát sinh một mẫu tin chi tiết cuộc gọi Các mẫu tin này bao gồm các thông tin đặc tả thuộc tính quan trọng của cuộc gọi như : số gọi,... các tiêu chí cần phân tích Các kỹ thuật data mining có thể cài đặt rất nhanh chóng trên các nền tảng phần mềm, phần cứng phổ thông mà không cần đòi hỏi quá phức tạp, tuy vậy data mining thường gắn liền với việc phân tích một khối lượng dữ liệu cực lớn trong thời gian rất ngắn nên cần ứng dụng các công nghệ high performance client/server hoặc xử lý song song (parallel programming) Phạm vi ứng dụng của. .. hàng, các ngành công nghiệp sản xuất v.v… Nó cho phép các công ty xác định được các mối quan hệ giữa các yếu tố nội tại như giá thành, mẫu mã, cách thức quảng cáo, thậm chí là kỹ năng của nhân viên công ty,… các yếu tố bên ngoài như đối thủ cạnh tranh, chính sách kinh tế hay nhu cầu thị trường v.v Và nó còn hỗ trợ việc xác định được sự tác động của các chính sách khuyến mại, giảm giá, độ hài lòng của. .. thác, khai phá các hệ thống dữ liệu hiện có nhằm phục vụ công tác dự báo, dự đoán các xu thế tương lai,… như ứng dụng hỗ trợ ra quyết định, nghiên cứu khoa học, … Các công cụ, kỹ thuật data mining có thể trả lời các câu hỏi mà các công cụ truyền thống đòi hỏi rất nhiều thời gian cần thiết để có thể giải đáp được (thậm chí các cách truyền thống không thể giải được) Để có thể data mining một cách hiệu quả,... vào bảng số liệu này, các thuật toán Data Mining sẽ phân tích dữ liệu và cho ra các dự đoán về những yếu tố chính ảnh hưởng đến việc người vay trả tiền hay không trả tiền, các thuật toán này còn cho ra được các mô hình phân tích rủi ro cho những người vay tiếp theo, những ai sẽ có xác suất trốn nợ cao để Ngân hàng xiết chặt điều kiện khi cho vay 2 Ứng dụng Datamining trong kinh doanh đồ chơi trẻ em... cho con 3 Ứng dụng trong kinh doanh siêu thị Trong siêu thị Big C, ngoài những đợt khuyến mãi giảm giá, siêu thị còn thành công khi đã khai thác triệt để tâm lý khách hàng về những phương diện khác nhau chứ không đơn thuần ở giá Có những khách hàng sẵn sàng mua với giá không rẻ vì cho rằng “ tiền nào của nấy ” Siêu thị tập trung quan tâm thỏa đáng đến trật tự các mặt hàng trong siêu thị trong phương... hợp của data mining để tìm ra tập các thành phố, tỉnh nào trong nước thường gọi điện thoại với nhau Ví dụ ta có thể tìm ra tập phổ biến ( Cần Thơ, HCM, Hà Nội ) chẳng hạn Điều này thật sự hữu dụng trong việc hoạch định chiến lược tiếp thị hoặc xây dựng các vùng cước phù hợp Một vấn đề khá phổ biến ở các công ty viễn thông hiện là sự thay đổi nhà cung cấp dịch vụ (customer churn) đặc biệt với các công... liệu trực tuyến www.etoys.com bán các đồ chơi trực tuyến Trên web site này, khách tham quan có thể chọn ''toy search'' (tìm đồ chơi) Bằng cách sử dụng một pull down menu, khách tham quan có thể chọn các tiêu chí cơ bản như tuổi của đứa bé, mức giá, và loại đồ chơi Site khảo hàng trực tuyến Etoys.com sau đó cung cấp cho khách hàng một danh sách các đồ chơi đáp ứng các tiêu chí này, tiết kiệm cho họ . dùng trong datamining 8 VIII. Phạm vi ứng dụng 9 Phần 2 11 1. Ứng dụng Datamining trong phân tich rủi ro ở ngân hàng ACB 12 2. Ứng dụng Datamining trong kinh doanh đồ chơi trẻ em 13 3. Ứng dụng trong. Bên cạnh những ứng dụng trong kinh doanh, Datamining còn được ứng dụng trong điều trị y học. PHẦN 2: ỨNG DỤNG CỦA DATAMINING. Ngày nay, hầu hết các cơ quan, doanh nghiệp,… đều ứng dụng CNTT phục. gọi) trong khi sử dụng uật data mining. MỘT SỐ ỨNG DỤNG Các ứng dụng data mining được phát triển trong ngành viễn thông rất sớm. Chúng ta sẽ xem xét một vài ứng dụng tiêu biểu, các ứng dụng này