Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 64 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
64
Dung lượng
832,82 KB
Nội dung
MỤC LỤC TÓM TẮT LỜI MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Mục tiêu khai phá liệu 1.2 Các trình khai phá liệu 10 1.3 Các công việc khai phá liệu 11 1.4 Kiến trúc hệ thống khai phá liệu 13 1.5 Các thành phần giải thuật khai phá liệu 14 1.6 Các hƣớng tiếp cận kỹ thuật áp dụng 15 1.7 Các ứng dụng khai phá liệu 16 1.8 Một số phƣơng pháp khai phá liệu phổ biến 17 1.8.1 Phƣơng pháp quy nạp (induction) 17 1.8.2 Cây định luật 17 1.8.3 Phát luật kết hợp 19 1.8.4 Phân nhóm phân đoạn (Clasterring and Segmentation) 20 1.8.5 Các phƣơng pháp dựa mẫu 21 1.8.6 Mơ hình phụ thuộc dựa đồ thị xác xuất 21 1.8.7 Mơ hình học quan hệ 21 1.8.8 Khai phá liệu văn 22 1.8.9 Mạng nơron 22 1.8.10 Giải thuật di truyền 23 1.9 Nhìn nhận đánh giá chung 24 CHƢƠNG KHAI PHÁ DỮ LIỆU SỬ DỤNG CÂY QUYẾT ĐỊNH 26 2.1 Hoạt động định 26 2.2 Xây dựng định 28 2.2.1 Thuật toán học định 28 2.2.2 Lựa chọn thuộc tính phân lớp tốt 30 2.3 Các vấn đề định 35 2.4.1 Tránh liệu khớp (over-fitting data) 36 2.4.2 Luật cắt nhánh sau 38 2.4.3 Kết hợp thuộc tính có giá trị liên tục 39 2.4.4 Xử lý ví dụ học mà thuộc tính khơng có giá trị 40 2.4 Ƣu nhƣợc điểm định 42 2.4.1 Những ƣu điểm phƣơng pháp định 42 2.4.2 Những nhƣợc điểm định 44 CHƢƠNG THỬ NGHIỆM KHAI PHÁ DỮ LIỆU SỬ DỤNG CÂY QUYẾT ĐỊNH 46 3.1 Chƣơng trình ứng dụng định C4.5 47 3.2 Sử dụng C4.5 để sinh định từ tập liệu huấn luyện 49 3.3 Sử dụng C4.5Rules để sinh luật từ tập hợp liệu huấn luyện 51 3.4 Sử dụng C.45 để khai phá liệu phục vụ dịch vụ khách hàng 53 3.4.1 Ứng dụng phân loại khách hàng cho dịch vụ điện thoại trả trƣớc 54 KẾT LUẬN 62 TÀI LIỆU THAM KHẢO 64 BẢNG CÁC KÝ HIỆU VIẾT TẮT Tên viết tắt Tên đầy đủ CSDL Cơ sở liệu DL Dữ liệu DM Data Mining HTTT Hệ thống thông tin KDD Knowledge Discovery in Database OLAP On-Line Analytical Processing BẢNG MỤC LỤC CÁC HÌNH VẼ Hình 1.1 Q trình khai phá liệu Hình 1.2 Mẫu kết với nhiệm vụ phân nhóm Hình 1.3 Kiến trúc hệ thống khai phá liệu Hình 1.4 Mơ tả định cho khái niệm chơi tennis (PlayTennis) Hình 2.1 Cây định cho thị trường chứng khốn Ln Đơn Hình 2.2 Đồ thị biểu diễn Entropy Hình 2.3 Một định cho khái niệm PlayTennis Hình 3.1 Kết chạy C4.5 với ứng dụng chơi Golf Hình 3.2 Kết chạy C.45Rules với ứng dụng chơi Golf Hình 3.3 File dulieu.names Hình 3.4 File dulieu.data 10 13 14 19 27 32 35 51 52 57 60 LỜI MỞ ĐẦU Sự bùng nổ thông tin yếu tố lớn cho phát triển xã hội Cùng với phát triển vượt bậc yêu cầu đòi hỏi ngày cao việc xử lý tìm kiếm thông tin cho nhanh đạt hiệu tối ưu Cùng với phát triển đó, cơng nghệ phần cứng với xử lý tốc độ cao, ổ cứng, thiết bị băng từ dung lượng lớn song hành với phát triển không ngừng thiết bị viễn thông hỗ trợ đắc lực cho công phát triển thông tin Tâm điểm hệ thống khai thác thông tin phục vụ việc tự động hóa lĩnh vực kinh doanh quản lý điều hành định Hiện tượng “bùng nổ thông tin” đời hàng loạt hệ quản trị sở liệu mạnh với công cụ phong phú thuận tiện đời giúp người khai thác hiệu nguồn tài nguyên liệu phức tạp Từ phát triển với tốc độ kinh ngạc HTTT, việc khai phá liệu phục vụ cho yêu cầu trợ giúp định cao hơn, xác nhanh chóng ngày nhiều, có ý nghĩa ngày quan trọng yếu tố định lĩnh vực hoạt động kinh doanh quản lý Những thơng tin bổ ích, “tri thức” thông minh hiệu rút từ nguồn liệu phức tạp rộng lớn trở thành yếu tố sống hoạt động thường ngày tổ chức kinh doanh, quản lý “Khai phá liệu” trở thành trung tâm hàng loạt nghiên cứu thảo luận sôi động nhằm tìm kiếm khám phá nhiều cách thức, phương pháp hiệu với mong muốn tìm ngày nhiều tri thức mới, quan trọng bổ ích Điểm qua tình hình phát triển thơng tin năm gần đây, ta có loạt lĩnh vực nghiên cứu tổ chức kho liệu (data warehouse, information warehouse), hệ hỗ trợ định (DSS), phương pháp phát tri thức phương pháp khai phá liệu (data mining) Xét khía cạnh nhu cầu mức trung bình hay phạm vi nhỏ hẹp, kho liệu giúp khai thác thơng tin cơng cụ truy vấn báo cáo dùng để hỗ trợ phân Phạm Hùng Thế, K10T3 Luận văn thạc sĩ tích trực tuyến, kiểm định giả thuyết Tuy nhiên điều người ta thấy thiếu vấn đề tri thức (thông tin thông minh), điều có nghĩa liệu kho liệu phân tích cách thơng minh chúng nguồn tài nguyên vô giá Việc tự động phân tích tìm kiếm thơng tin tiềm ẩn có giá trị, chưa phát hiện, xu hướng phát triển yếu tố tác động lên chúng từ liệu khổng lồ có sẵn việc thực trình phát tri thức sở liệu (Knowledge Discovery in Database - KDD) Là kết hợp nhiều thành tựu nghiên cứu lĩnh vực đời sống xã hội lý thuyết nhận dạng, hệ chuyên gia, trí tuệ nhân tạo, phát tri thức CSDL trình tìm tri thức tiềm ẩn, khơng biết trước tiềm có lợi từ liệu CSDL lớn Bằng cách thức này, KDD có tồn diện đầy đủ cách tìm kiếm xử lý thông tin cách tiên tiến hiệu Với nhiều giai đoạn nhiều phương pháp cụ thể, KDD tiến hành theo thứ tự có bổ xung hỗ trợ lẫn Vai trò KDD đưa vào hai mảng sau đây: - Xác định, định nghĩa vấn đề, tìm hiểu lĩnh vực ứng dụng, nhiệm vụ … - Tinh lọc tiền xử lý nhằm tìm mẫu, xu hướng có ý nghĩa từ tập liệu Chỉ có mẫu, xu hướng xem đáng quan tâm (xét theo khía cạnh đó) coi tri thức tri thức có ích giúp đạt mục đích hệ thống người dùng Khai phá liệu (Data mining - DM) coi giai đoạn quan trọng KDD Tiến trình KDD bao gồm bước sau đây: Phân lớp/phân cụm liệu Các luật kết hợp Khai phá chuỗi Đánh giá Phạm Hùng Thế, K10T3 Luận văn thạc sĩ Sử dụng tri thức có Luận văn trình bày khái quát số vấn đề phát tri thức, khai phá liệu tập trung làm rõ vấn đề khai phá liệu sử dụng kỹ thuật, phương pháp định để giải tốn có nhiệm vụ phân lớp Luận văn gồm chương: Chương 1: Tổng quan khai phá liệu: Giới thiệu tổng quan mục tiêu, nhiệm vụ trình khai phá liệu Nêu khái quát vấn đề khai phá liệu, phương pháp, kỹ thuật khai phá liệu chính, phổ biến Chương 2: Khai phá liệu sử dụng định: Chương trình bày chi tiết vấn đề yếu khai phá liệu sử dụng định, khái niệm định, thuật toán xây dựng định, giới hạn việc sử dụng định giải pháp khắc phục Chương 3: Thử nghiệm khai phá định Xây dựng ứng dụng “Phân lớp khách hàng sử dụng dịch vụ điện thoại đường dài quốc tế trả trước” dựa phần mềm mã nguồn mở C4.5 Phạm Hùng Thế, K10T3 Luận văn thạc sỹ CHƢƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Mục tiêu khai phá liệu Trong thập kỷ gần đây, thiết bị lưu trữ thông tin với dung lượng lớn không ngừng tăng lên Việc lưu trữ liệu lớn ngày phát triển bùng nổ với tốc độ lớn Với tình hình tại, khối lượng thơng tin tồn cầu dự đốn tăng gấp đơi sau năm theo đà lượng lưu trữ kích cỡ CSDL tăng lên cách ạt nhanh chóng Trong lĩnh vực kinh doanh, có tay lượng thông tin khổng lồ nhà quản lý thấy thiếu thông tin thông tin cần thiết hữu ích Vậy phải làm nào? Khai thác thơng tin tiềm ẩn mang tính dự đốn từ CSDL lớn mục tiêu khai phá liệu, sử dụng cách thức coi hướng tiếp cận giúp cho đơn vị, tổ chức trọng vào thơng tin có nhiều ý nghĩa từ tập liệu lớn hữu ích Những cơng cụ khai phá liệu dự đốn xu tương lai cho phép tổ chức doanh nghiệp đưa định kịp thời định hướng tri thức mà khai phá liệu đem lại Tính tự động phân tích liệu khiến chiếm ưu hẳn so với phân tích thơng thường dựa kinh nghiệm hay kiện khứ hệ thống hỗ trợ định trước Trên sở đồng thời trả lời nhiều vấn đề kinh doanh mà trước khó thực thi cần nhiều thời gian công sức để xử lý Với định hướng mục tiêu khai phá liệu kết xuất tri thức từ liệu Do ta coi mục đích q trình khai phá liệu mơ tả (description) dự đoán (prediction) Các mẫu mà khai phá liệu phát nhằm vào mục đích Phạm Hùng Thế, K10T3 Luận văn thạc sĩ 10 Dự đoán liên quan đến việc sử dụng biến trường sở liệu để kết xuất mẫu dự đoán giá trị chưa biết giá trị tương lai biến đáng quan tâm Mô tả tập trung vào việc tìm kiếm mẫu mơ tả liệu mà người hiểu 1.2 Các q trình khai phá liệu Các giải thuật khai phá liệu thường miêu tả chương trình hoạt động trực tiếp tệp liệu Với phương pháp học máy thống kê trước đây, thơng thường bước giải thuật nạp toàn liệu vào nhớ Khi chuyển sang ứng dụng công nghiệp liên quan đến việc khai phá kho liệu lớn mơ hình khơng đáp ứng Khơng khơng thể nạp hết tồn liệu vào nhớ mà khó kết xuất liệu tệp đơn giản để phân tích Q trình khai phá liệu thể qua mơ hình sau [3]: Thống kê tóm tắt Xác định nhiệm vụ Xác định liệu liên quan Thu thập tiền xử lý DL Giải thuật khai phá DL Mẫu Dữ liệu trực tiếp Hình 1.1 Quá trình khai phá liệu Xác định nhiệm vụ: Xác định xác vấn đề cần giải Xác định liệu liên quan dùng để xây dựng giải pháp Thu thập tiền xử lý liệu: Thu thập liệu liên quan tiền xử lý chúng thành dạng cho giải thuật khai phá liệu hiểu Ở Phạm Hùng Thế, K10T3 11 Luận văn thạc sĩ gặp phải số vấn đề: liệu phải nhiều (nếu chiết suất vào tệp), quản lý tệp liệu, phải lặp lặp lại nhiều lần tồn q trình (nếu mơ hình liệu thay đổi v.v…) Giải thuật khai phá liệu: Chọn thuật tốn khai phá liệu thích hợp thực việc khai phá liệu: nhằm tìm mẫu (pattern) có ý nghĩa dạng biểu diễn tương ứng với ý nghĩa 1.3 Các cơng việc khai phá liệu Để đạt hai mục đích trên, nhiệm vụ khai phá liệu bao gồm sau: Phân lớp (Classification): Phân lớp việc học hàm ánh xạ (hay phân loại) mẫu liệu vào số lớp xác định (Hand 1981; Weiss & Kulikowski 1991; MeLachLan 1992) Hồi qui (Regression): Hồi qui việc học hàm ánh xạ từ mẫu liệu thành biến có giá trị thực Phân nhóm (Clustering): Là việc mơ tả chung để tìm tập xác định nhóm hay loại để mơ tả liệu (Titerington, Smith & Makov 1985, Jain & Dubes 1988) Các nhóm tách riêng phân cấp gối lên Có nghĩa liệu vừa thuộc nhóm lại thuộc nhóm Các ứng dụng khai phá liệu có nhiệm vụ phân nhóm phát tập khách hàng có phản ứng giống sở liệu tiếp thị Tóm tắt (Summarization): Liên quan đến phương pháp tìm kiếm mô tả cho tập liệu Các kỹ thuật tóm tắt thường áp dụng cho phân tích liệu tương tác có tính thăm dò tạo báo cáo tự động Mơ hình hóa phụ thuộc (Dependency Modeling): Bao gồm việc tìm kiếm mơ hình mơ tả phụ thuộc đáng kể biến Các mơ hình phụ thuộc tồn hai mức Phạm Hùng Thế, K10T3 12 Luận văn thạc sĩ o Mức cấu trúc mơ hình xác định (thường dạng đồ họa) biến phụ thuộc cục vào o Mức định lượng mơ hình xác định độ mạnh phụ thuộc theo thước đo Phát thay đổi lạc hướng (Change and Deviation Detection): Tập trung vào khai thác thay đổi đáng kể liệu từ giá trị chuẩn đo trước (Berndt & Cliffort; Guyon et al Kloesgen; Mathéu et al., Basseville & Nikiforov 1993) Các nhiệm vụ áp dụng cho số loại kiểu liệu điển sau: CSDL quan hệ: Cơ sở liệu tác nghiệp tổ chức theo mơ hình liệu quan hệ Hầu hết hệ quản trị CSDL hỗ trợ dạng MS SQL Server, Oracle, IBM DB2 CSDL đa chiều (Multimensional structures, data warehouses, data mart) kho liệu tập hợp, chọn lọc từ nhiều nguồn liệu khác Dạng liệu mang tính lịch sử (tức có tính thời gian) chủ yếu phục vụ cho q trình phân tích khai phá tri thức nhằm hỗ trợ định CSDL dạng giao dịch: (Trasactional database): Là dạng CSDL tác nghiệp ghi thường giao dịch Dạng liệu thường phổ biến lĩnh vực thương mại ngân hàng CSDL quan hệ - hướng đối tượng (Object-relational database): Là dạng CSDL lai mơ hình quan hệ hướng đối tượng Dữ liệu không gian thời gian (spatial, temporal and time-series data): dạng liệu có tích hợp thuộc tính khơng gian (ví dụ liệu đồ), liệu thời gian (dữ liệu thị trường chứng khoán…) Phạm Hùng Thế, K10T3 52 Luận văn thạc sĩ trực quan phương pháp học định cho phép tạo ta luật từ định Điểm mạnh luật trực quan dễ hiểu người Con người vốn quen dễ nhận biết luật dạng “Nếu – Thì” việc khai phá liệu sử dụng định sinh luật điểm mạnh phương pháp mà nhắc đến phần luận văn Hình 3.2 Kết chạy C.45Rules với ứng dụng chơi Golf Lệnh C4.5rules chương trình C4.5 cho phép ta tạo luật từ định sinh lưu trữ bước Cụ thể với định sinh lệnh C4.5 file liệu Golf.names Golf.data, ta sử dụng C4.5rules để sinh luật hình Cụ thể, với định sinh C4.5 C4.5rules chuyển đổi thành luật tương ứng sau: Luật 2: outlook = overcast -> class Play [70.7%] Phạm Hùng Thế, K10T3 53 Luận văn thạc sĩ Luật 4: outlook = rain windy = false -> class Play [63.0%] Luật 1: outlook = sunny humidity > 75 -> class Don't Play [63.0%] Luật 3: outlook = rain windy = true -> class Don't Play [50.0%] Lớp mặc định: Play Như vậy, cách tổng quan ta rút số luật sau từ tập ví dụ huấn luyện: Luật 1: Nếu “Outlook = Sunny” “Humidity > 75” khơng chơi golf Luật 2: Nếu “Outlook = Overcast” chơi golf Luật 3: Nếu “Outlook = Rain” “Windy = True” khơng chơi golf Luật 4: Nếu “Outlook = Rain” “Windy = False” chơi golf Ngược lại chơi golf lớp ngầm định – tức trường hợp khơng nằm luật chơi golf 3.4 Sử dụng C.45 để khai phá liệu phục vụ dịch vụ khách hàng Công ty VITC doanh nghiệp Mỹ hoạt động lĩnh vực truyền thông Internet Một dịch vụ mà công ty cung cấp cho khách hàng thị trường Mỹ dịch vụ gọi điện đường dài quốc tế trả trước sử dụng công nghệ VoIP – Voice over IP Khách hàng muốn sử dụng dịch vụ VITC cần vào website công ty, tạo tài khoản nạp tiền vào tài khoản sử dụng dịch vụ gọi điện thoại đường dài quốc tế từ Mỹ đến tất Phạm Hùng Thế, K10T3 54 Luận văn thạc sĩ nước giới với mức giá cạnh tranh chất lượng dịch vụ tốt không thua điện thoại truyền thống bao Ngoài VITC có dịch vụ trung chuyển gọi quốc tế cho doanh nghiệp khác Cụ thể, VITC đơn vị trung gian cung cấp kết nối để chuyển gọi từ doanh nghiệp hoạt động lĩnh vực viễn thông nước đến với Ứng dụng luận văn nghiên cứu đề xuất toán cụ thể sau: 3.4.1 Ứng dụng phân loại khách hàng cho dịch vụ điện thoại trả trƣớc Với lượng khách hàng thương xuyên sử dụng dịch vụ điện thoại đường dài trả trước lên đến hàng chục ngàn người (chỉ tính riêng cho thị trường Mỹ tập trung chủ yếu tiểu bang California) việc nắm bắt phân loại nhu cầu, tần suất sử dụng dịch vụ khách hàng yếu tố định góp phần vào thành công doanh nghiệp Đặc biệt bối cảnh dịch vụ viễn thông Internet nở rộ có cạnh tranh khốc liệt doanh nghiệp việc nắm bắt dự đốn xu khách hàng góp phần giúp doanh nghiệp có sách chăm sóc khách hàng tốt để giữ khách hàng có khả chi trả nhu cầu sử dụng cao, tránh việc họ lựa chọn sử dụng dịch vụ doanh nghiệp khác Về mặt nghiệp vụ, khách hàng đăng ký sử dụng dịch vụ website VITC, họ cung cấp thông tin cá nhân họ bao gồm tên, tuổi, địa chỉ, nghề nghiệp … Sau hệ thống tạo tài khoản cho khách hàng khách hàng bắt đầu chuyển tiền từ tài khoản tín dụng sang tài khoản VITC để thực gọi Với thông tin cá nhân khách hàng cộng với thông tin gọi khách hàng tiến hành thực toán phân lớp khách hàng dựa số lần gọi, số phút gọi số số máy mà khách hàng gọi khoảng thời gian mà ta chọn để lấy tập ví dụ huấn luyện Về nguyên tắc, khoảng thời gian lớn liệu huấn luyện lớn kết phân lớp ứng dụng xác Tuy nhiên, với ngành công nghiệp Viễn thông việc lấy liệu cước khoảng thời gian dài khó ngày có hàng triệu gọi cần lấy liệu từ tháng, có đến hàng chục triệu ghi cần xử lý Ở ta qui ước việc phân loại khách hàng sau: Phạm Hùng Thế, K10T3 55 Luận văn thạc sĩ Loại 1: Những khách hàng gọi 50 phút/tháng đến số điện thoại khác tiêu tương đương 10$ tháng Loại 2: Những khách hàng gọi từ 50 – 100 phút/tháng đến từ – số điện thoại khác tiêu tương đương 10-20$ tháng Loại 3: Những khách hàng gọi từ 100-500 phút/tháng đến từ – 10 số điện thoại khác tiêu từ 20-50$ tháng Loại 4: Những khách hàng gọi 500 phút/tháng đến nhiều 10 số điện thoại tiêu từ 50$ trở lên tháng Bài toán đặt cho việc phân lớp khách hàng dựa vào thơng tin cá nhân khách hàng liệu gọi họ để từ tìm qui luật xác định khách hàng thuộc vào lớp đối tượng khách hàng để từ xây dựng chiến lược tiếp cận chăm sóc khách hàng theo lớp riêng biệt Để xây dựng ứng dụng khai phá liệu trước hết cần xây dựng tập liệu huấn luyện để làm sở cho việc khai phá tìm luật Cụ thể, thuộc tính tập liệu huấn luyện bao gồm trường sau: Thứ thông tin khách hàng bao gồm thuộc tính: Giới tính, tuổi, địa chỉ, nghề nghiệp Thứ hai thơng tin tổng hợp từ liệu tính cước khoảng thời gian định, liệu bao gồm: Số lượng số mà khách hàng gọi, độ dài trung bình gọi thời gian khách hàng thực gọi Sở dĩ thơng tin lựa chọn quan trọng nghiệp vụ phân loại khách hàng Ví dụ, khách hàng gọi lần tháng lần gọi 10 phút gọi đến số cố định chưa phải khách hàng tiềm người tháng gọi lần, lần phút gọi đến số khách Sở dĩ ta suy điều ta giả định người thứ doanh nhân hay người mà công việc họ cần trao đổi, liên lạc qua điện thoại nhiều khách hàng tiềm người thứ nhất, cho dù họ gọi nhiều, tiêu nhiều tiền hệ thống Phạm Hùng Thế, K10T3 56 Luận văn thạc sĩ khách hàng mà việc liên lạc điện thoại họ đơn trao đổi thơng tin, hỏi thăm, liên lạc với người thân họ mà Như vậy, ta xác định tập thuộc tính cho tập hợp ví dụ huấn luyện để tiến hành triển khai toán phân lớp khách hàng Cơng việc cần làm chuẩn bị liệu đầu vào để C4.5 chạy tìm luật Như trình bày xây dựng file liệu đầu vào File thứ mơ tả cấu trúc tập ví dụ huấn luyện, file có tên dulieu.names Cấu trúc file có phần mở rộng names mô tả phần trước luận văn, ta xét đến nội dung file mà thơi Như phân tích trên, thuộc tính liệu huấn luyện bao gồm: Các thông tin khách hàng Giới tính khách hàng: Male, Female Tuổi khách hàng: Giá trị liên tục (18 trở lên) Địa khách hàng: Tiểu bang mà khách hàng cư trú (California, Florida, …) Nghề nghiệp khách hàng: Kỹ sư, giáo viên, doanh nhân … Các thông tin tổng hợp từ liệu tính cước Số lượng số bị gọi Độ dài trung bình gọi Với thuộc tính xác định trên, cấu trúc file liệu sau: Phạm Hùng Thế, K10T3 57 Luận văn thạc sĩ Hình 3.3 File dulieu.names Tiếp theo phải chuẩn bị file liệu chứa tập ví dụ huấn luyện Để có liệu huấn luyện đủ lớn ta lấy liệu tính cước vòng tháng thực cơng việc sau: a Thứ nhất: Truy vấn thông tin cá nhân khách hàng sử dụng dịch vụ vòng tháng Thơng tin khách hàng bao gồm: Giới tính, tuổi, địa nghề nghiệp Trong thuộc tính thuộc tính giới tính địa trường liệu bắt buộc khách hàng đăng ký sử dụng dịch vụ phải điền vào nên giá trị ln xác định Hai thuộc tính lại tuổi nghề nghiệp thuộc tính tùy chọn nên khách hàng khơng đưa vào họ đăng ký sử dụng dịch vụ nên tuổi khách hàng không xác định truy vấn (trả giá trị NULL) ta thay giá trị dấu hỏi chấm “?” Nếu thuộc tính nghề nghiệp khơng xác định ta Phạm Hùng Thế, K10T3 58 Luận văn thạc sĩ gán nghề nghiệp “nghề khác” – others Tồn q trình trích dẫn lấy liệu mẫu thực thông qua ngôn ngữ truy vấn CSDL Ở hệ thống CSDL công ty triển khai hệ quản trị CSDL Microsoft SQL nên ta sử dụng Query analyzer Microsoft SQL để thực việc DECLARE DECLARE SET SET SELECT @FromDate AS DateTime @ToDate AS DateTime @FromDate = „05/01/2007 00:00:00.000‟ @ToDate = „05/31/2007 23:59.59.999‟ CustomerID, CustomerSex, CASE CustomerAge WHEN „‟ THEN „?‟ ELSE CustmerAge END AS CustomerAge, CustomerAddress, CustomerOccupation FROM CustomerAccount WHERE CustomerID IN ( SLECT DISTINCT CustomerID FROM BillingData WHERE TransactionTime BETWEEN @FromDate AND @ToDate) Ý nghĩa câu lệnh SQL sau: Lấy thông tin mã khách hàng, giới tính khách hàng, tuổi khách hàng, địa nghề nghiệp khách hàng có sử dụng dịch vụ khoảng thời gian xác định trước Ở tháng 5/2007 Nếu tuổi khách hàng không xác định (trong hệ thống tuổi khơng xác định hệ thống ghi vào giá trị rỗng „‟) trả giá trị dấu chấm hỏi “?” b Thứ hai: Truy vấn thông tin số lượng số điện thoại mà khách hàng gọi tháng độ dài trung bình gọi mà khách hàng thực Việc thực cách dễ dàng thông qua câu lệnh truy vấn CSDL tính cước DECLARE @FromDate AS DateTime DECLARE @ToDate AS DateTime SET @FromDate = „05/01/2007 00:00:00.000‟ SET @ToDate = „05/31/2007 23:59.59.999‟ Phạm Hùng Thế, K10T3 59 Luận văn thạc sĩ SELECT CustomerID, COUNT(DISTINCT Called_Station_ID) AS SoLuongSoGoi, SUM(Duration)/COUNT(DISTINCT Called_Station_ID) AS ThoiGianGoiTrungBinh FROM BillingData WHERE TransactionTime BETWEEN @FromDate AND @ToDate c Thứ ba: Thực việc thống kê phân lớp khách hàng “mẫu” – nghĩa ta dựa tiêu chí phân lớp khách hàng dựa số phút gọi, số số điện thoại gọi đến số tiền mà khách hàng chi tháng Với tiêu chí tạm thời có phân lớp tồn khách hàng “mẫu” Cụ thể ta cần viết hàm để xác định lớp khách hàng tập ví dụ huấn luyện dựa tiêu chuẩn nhắc đến Hàm có đối số truyền vào mã khách hàng kết trả phân lớp khách hàng với giá trị nằm tập hợp (1,2,3,4) Đến có “mảnh” liệu huấn luyện Để có file liệu hoàn chỉnh ta cần ghép “mảnh” liệu nhận từ thao tác truy vấn Sau tiến hành ghép lại ta có file liệu huấn luyện có phần mở rộng data sau (Dữ liệu có tính chất minh họa): Phạm Hùng Thế, K10T3 60 Luận văn thạc sĩ Hình 3.4 File dulieu.data Với file liệu chuẩn bị, bắt đầu chạy C4.5 để sinh định từ chạy C4.5Rules để sinh luật phân lớp khách hàng dựa tập ví dụ huấn luyện mà có Tuy nhiên, lý khách quan mà học viên chuyển công tác sang công ty khác trước luận văn hồn thành Vì học viên khơng thể có điều kiện tiếp cận với CSDL thực cơng ty VITC thông tin quan trọng doanh nghiệp bị tiết lộ ngồi ảnh hưởng đến hoạt động kinh doanh doanh nghiệp Do luận văn dừng lại mức đề xuất ý tưởng xây dựng giải pháp cơng cụ để tiến hành khai phá liệu CSDL tính cước cơng ty VITC với mục tiêu phân lớp đối tượng khách hàng họ đăng ký sử dụng dịch vụ dựa qui luật mà ta khai phá từ CSDL tính cước Những thơng tin phân lớp giúp doanh nghiệp xây dựng sách giá cạnh tranh cho lớp đối tượng khách hàng tiềm đồng thời có chương trình, kế Phạm Hùng Thế, K10T3 61 Luận văn thạc sĩ hoạch phát triển chương trình tiếp thị nhằm vào đối tượng khách hàng tiềm để từ quảng bá dịch vụ mà công ty triển khai để từ thúc đẩy hoạt động kinh doanh doanh nghiệp Phạm Hùng Thế, K10T3 62 Luận văn thạc sĩ KẾT LUẬN Khai phá liệu lĩnh vực mẻ hướng đắn có nhu cầu ngày lớn nhiều lĩnh vực xã hội Với phát triển mạnh mẽ hệ thống thông tin, sở liệu khổng lồ phát sinh với tốc độ lớn, tri thức thơng minh hữu ích tiềm tàng kho liệu đồ sộ cần tiếp cận khai phá cách đắn, khoa học hiệu Ở chương 1, luận văn trình bày cách tổng quan khai phá liệu trình, kỹ thuật kiến trúc hệ thống khai phá liệu nói chung Bên cạnh đó, luận văn vào tìm hiểu phân tích số phương pháp khai phá liệu phổ biến ứng dụng rộng rãi phương pháp quy nạp, định, phân nhóm … để từ có đánh giá nhìn nhận chung tồn vấn đề có liên quan đến lĩnh vực mẻ đầy tiềm Chương luận văn dành riêng cho việc nghiên cứu đánh giá phương pháp khai phá liệu tương đối phổ biến dễ sử dụng nhiều người phương pháp khai phá liệu sử dụng định luật Chương tập trung vào việc nghiên cứu trình bày vấn về định như: Hoạt động quyêt định, phương pháp xây dựng định, vấn đề nảy sinh làm việc với định Từ nghiên cứu trên, luận văn phân tích ưu nhược điểm phương pháp để từ tận dụng tối đa ưu điểm tránh nhược điểm triển khai ứng dụng thực tế Chương cuối dành để xây dựng ứng dụng “Phân lớp khách hàng sử dụng dịch vụ điện thoại quốc tế trả trước” sử dụng chương trình c4.5, chương trình mã nguồn mở chạy hệ điều hành Unix Ứng dụng phát triển với mục tiêu sở để phân lớp đối tượng khách hàng sử dụng dịch vụ điện thoại quốc tế trả Phạm Hùng Thế, K10T3 63 Luận văn thạc sĩ trước công ty viễn thông VITC Việc phân lớp đối tượng khách hàng sở để cơng ty có sách chăm sóc, tiếp cận lớp đối tượng khách hàng khác Luận văn trình bày số khía cạnh kỹ thuật khai phá liệu vào nghiên cứu chi tiết phương pháp khai phá liệu sử dụng định – phương pháp tỏ có hiệu tốn phân lớp liệu đồng thời tìm hiểu chi tiết điểm mạnh, yếu phương pháp Ứng dụng sử dụng luận văn chương trình khai phá liệu C4.5, chương trình mã nguồn mở phát triển dựa thuật toán ID3 để xây dựng định phát triển, cài đặt thêm số tính mà ID3 chưa thể xử lý cắt nhánh cây, xử lý giá trị thuộc tính rỗng, thuộc tính có giá trị liên tục … Tuy nhiên, yếu tố khách quan nên tác giả khơng thể có liệu huấn luyện cách đầy đủ luận văn bắt đầu thực tác giả chuyển công tác sang công ty khác, việc tiếp cận với nguồn liệu để thực khai phá dự kiến ban đầu khơng thể thực Vì vậy, ứng dụng dừng lại mức độ đề xuất ý tưởng xây dựng công cụ hỗ trợ chưa chạy liệu thức Hi vọng rằng, với cải tiến thêm giao diện đầu nhiều ứng dụng trở thành cơng cụ hữu ích cho phận tiếp thị chăm sóc khách hàng cơng ty VITC việc tiếp cận, phân loại, chăm sóc khách hàng quảng bá dịch vụ giá trị gia tăng doanh nghiệp đến với khách hàng Phạm Hùng Thế, K10T3 64 Luận văn thạc sĩ TÀI LIỆU THAM KHẢO Tiếng Việt [1] Vũ Đức Thi, Cơ sở liệu – Kiến trúc thực hành, Nhà xuất thống kê năm 1997 [2] Vũ Đức Thi, Lê Hải Khôi (1999), Một số nguyên lý hoạt động kho liệu, Tạp chí Tin học Điều khiển, Tr 27, 29-32 [3] Nguyễn Thanh Thủy, Khai phá liệu – Kĩ thuật ứng dụng tháng 82001 [4] Phan Đình Diệu, Logic hệ tri thức, Hà Nội 1999 Tiếng Anh [5] Alan Rea (1995), Data Mining-An Introduction, The Parallel Computer Centre, The Queen‟s University of Belfast [6] Ashoka Savasere, Edward Omiecinski, and Shamkant B Navathe: Algorithm for Mining Association Rules in Large Database, VLDB 1995: 432-444 [7] C.J.Matheus and P.K.Chan and G.Piatetsky-Shapiro, System for knowledge discovery in database, Ieee Trans On Knowledge and Data Engineering, vol 5, pp 903-913, 1993 url = http://eiteseer.nj.nec.com/177052.html [8] Jiawei Han and Yongjian Fu, Dynamic Generation and Refinement of Concept Hierachies for Knowledge Discovery in Database KDD Workshop, pp 157-158, 1994, url = http://eiteseer.nj.nec.com/han94dynamic.html [9] Jiawei Han and Micheline Kamber: Data mining: Concepts and Techniques Academic Press 2001 Phạm Hùng Thế, K10T3 65 Luận văn thạc sĩ [10] R.Agrawal and S.Srikant Fast algorithmsfor mining association rules In Proc 1994 int Conf VLDB, Santiago, Chile, Sept, 1994 url = http://eiteseer.nj.nec.com/article/agrawal94fast.html [11] R: Agrawal, T Imielinski, and A Swami Mining Association Rules Between Sets of Items in Large Databases In Proc 1993 ACM-SIGMOD Int Conf Management of Data, Washington, D.C., May 1993 [12] W.J Frawley and G.Piatetsky-Shapiro and C.J.Matheus, Knowledge discovery in databases – an overview, Ai Magazine, vol 13, 1992, url = http://eitetseer.nj.nec.com/frawley192knowledge.html [13] Zaki M., Pathasarathy S., Ogihara M.: New algorithms for fast discovery of association rules, KDDM 1998 [14] Mohammed J.Zaki and Ching-Jui Hsiao: CHARM – An Efficent Algorithm for Closed Association Rule Mining, 2000 [15] M.J.Zaki, S.Parthasarathy, M.Ogihara, and W.Li New Algorithms for fast discovery of association rules In Proceedings of 3rd International Conference on KDD and Data Mining (KDD ‟97), Newport Beach, California, August 1997 [16] R.Agrawal and R.Srikant: Mining quantitative Association Rules in Large Relationals Tables [17] Jochen Hipp, Ulrich Gauntzer, Gholamreze Nakhaeizadeh, Algorithms for Asscociation Rule Mining – Ageneral Survey and Comparision, ACM SGKDD, July 2000 Một số địa Internet [18] www.cs.waikato.ac.nz/ml/weka [19] www.sgi.com/tech/mlc/-25k [20] www.Dmoz.org/Computers/software/ [21] www.planet-source-code.com/vb/scripts/showcode.asp Phạm Hùng Thế, K10T3 66 [22] www.cs.concordia/db/dbdm/dm.html [23] http://citeser.nj.nec.com/agrawa193mining.html [24] http://www2.cs.uregina.ca [25] http://www.ics.uci.edu/~mlearn [26] http://mpt.gov.vn Luận văn thạc sĩ ... khai phá liệu Nêu khái quát vấn đề khai phá liệu, phương pháp, kỹ thuật khai phá liệu chính, phổ biến Chương 2: Khai phá liệu sử dụng định: Chương trình bày chi tiết vấn đề yếu khai phá liệu. .. người dùng khai phá liệu Giao diện người dùng đồ họa Đánh giá mẫu Cơ sở tri thức Máy khai phá liệu Máy chủ sở liệu máy chủ kho liệu Tinh chế liệu Lọc Tích hợp liệu Cơ sở liệu Kho liệu Hình 1.3... nhiệm vụ Xác định liệu liên quan Thu thập tiền xử lý DL Giải thuật khai phá DL Mẫu Dữ liệu trực tiếp Hình 1.1 Quá trình khai phá liệu Xác định nhiệm vụ: Xác định xác vấn đề cần giải Xác định liệu