Luận văn thạc sĩ: Khai phá tập mục thường xuyên đóng trên dòng dữ liệuLuận văn thạc sĩ: Khai phá tập mục thường xuyên đóng trên dòng dữ liệuLuận văn thạc sĩ: Khai phá tập mục thường xuyên đóng trên dòng dữ liệuLuận văn thạc sĩ: Khai phá tập mục thường xuyên đóng trên dòng dữ liệuLuận văn thạc sĩ: Khai phá tập mục thường xuyên đóng trên dòng dữ liệuLuận văn thạc sĩ: Khai phá tập mục thường xuyên đóng trên dòng dữ liệuLuận văn thạc sĩ: Khai phá tập mục thường xuyên đóng trên dòng dữ liệuLuận văn thạc sĩ: Khai phá tập mục thường xuyên đóng trên dòng dữ liệuLuận văn thạc sĩ: Khai phá tập mục thường xuyên đóng trên dòng dữ liệuLuận văn thạc sĩ: Khai phá tập mục thường xuyên đóng trên dòng dữ liệuLuận văn thạc sĩ: Khai phá tập mục thường xuyên đóng trên dòng dữ liệuLuận văn thạc sĩ: Khai phá tập mục thường xuyên đóng trên dòng dữ liệuLuận văn thạc sĩ: Khai phá tập mục thường xuyên đóng trên dòng dữ liệuLuận văn thạc sĩ: Khai phá tập mục thường xuyên đóng trên dòng dữ liệuLuận văn thạc sĩ: Khai phá tập mục thường xuyên đóng trên dòng dữ liệuLuận văn thạc sĩ: Khai phá tập mục thường xuyên đóng trên dòng dữ liệuLuận văn thạc sĩ: Khai phá tập mục thường xuyên đóng trên dòng dữ liệu
1 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG - PHẠM THỊ LÝ Tên đề tài: KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN ĐÓNG TRÊN DÕNG DỮ LIỆU Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số : 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Hƣớng dẫn khoa học: TS NGUYỄN HUY ĐỨC Thái Nguyên - 2014 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ MỞ ĐẦU Khai phá liệu (Data Mining), đƣợc nhiều ngƣời ý Nó thực đem lại lợi ích đáng kể việc cung cấp thông tin tiềm ẩn sở liệu lớn, giúp ngƣời sử dụng thu đƣợc tri thức hữu ích từ sở liệu kho liệu khổng lồ khác Những “tri thức” chiết xuất từ nguồn sở liệu phục vụ yêu cầu trợ giúp định ngày có ý nghĩa quan trọng nhu cầu to lớn lĩnh vực hoạt động kinh doanh, quản lý Tiến hành công việc nhƣ thực q trình phát triển tri thức sở liệu (Knowledge Discovery in Database) mà kỹ thuật khai phá liệu (Data Mining) cho phép phát tri thức tiềm ẩn Một nội dung khai phá liệu khai phá luật kết hợp Khai phá luật kết hợp gồm hai bƣớc: Bƣớc thứ nhất, tìm tất tập mục thƣờng xun, địi hỏi tính tốn lớn Bƣớc thứ hai, dựa vào tập mục thƣờng xuyên tìm luật kết hợp, địi hỏi tính tốn hơn, song gặp phải vấn đề sinh nhiều luật, vƣợt khỏi kiểm soát ngƣời khai phá ngƣời dùng, có nhiều luật khơng cần thiết Để giải vấn đề đó, bƣớc thứ nhất, không cần thiết khai phá tất tập mục thƣờng xuyên mà cần khai phá tập mục thƣờng xuyên đóng Khai phá luật kết hợp dựa tập mục thƣờng xuyên đóng cho hiệu cao hơn, đảm bảo khơng tìm tập mục thƣờng xuyên không cần thiết, không sinh luật dƣ thừa.Với ý nghĩa mục đích tìm hiểu tốn tìm tập mục thƣờng xun dịng liệu, em định lựa chọn đề tài “Khai phá tập mục thƣờng xun đóng dịng liệu” Nội dung luận văn gồm chƣơng: Chương 1: Tổng quan khai phá liệu Chương 2: Khai phá tập mục thường xun đóng dịng liệu Chương 3: Chương trình thực nghiệm ứng dụng Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ CHƢƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khái niệm khám phá tri thức khai phá liệu KPDL (Khai phá liệu) việc rút trích tri thức cách tự động hiệu từ khối liệu lớn Tri thức thƣờng dạng mẫu có tính chất khơng tầm thƣờng, khơng tƣờng minh (ẩn), chƣa đƣợc biết đến có tiềm mang lại lợi ích Có số nhà nghiên cứu cịn gọi khai phá liệu phát tri thức sở liệu (Knowledge Discovery in Database - KDD) Ở coi KPDL cốt lõi trình phát tri thức Quá trình phát tri thức gồm bƣớc sau : Bước 1: Trích chọn liệu (Data Selection) Là bƣớc trích chọn tập liệu cần đƣợc khai phá từ tập liệu lớn (databases, data warehouses) Bước 2: Tiền xử lý liệu ( Data preprocessing) bƣớc làm liệu (Xử lý liệu không đầy đủ, liệu nhiễu, liệu không quán…rút gọn liệu (Sử dụng phƣơng pháp thu gọn liệu, histograms, lấy mẫu, v v ) rời rạc hóa liệu (dựa vào histograms, entropy, phân khoảng.v v ) Sau bƣớc liệu quán, đầy đủ, đƣợc rút gọn đƣợc rời rạc hóa Bước 3: Biến đổi liệu (Data transformation) Là bƣớc chuẩn hóa làm mịn liệu để đƣa liệu dạng thuận lợi nhằm phục vụ cho kỹ thuật khai thác bƣớc sau Bước : Khai phá liệu (Data mining) Đây bƣớc quan trọng tốn nhiều thời gian trình khai phá tri thức, áp dụng kỹ thuật khai phá phần lớn kỹ thuật machine learning) để khai phá, trích chọn đƣợc mẫu (pattern) thơng tin, mối liên hệ đặc biệt liệu Bước 5: Đánh giá biểu diễn tri thức (Knowledge representation & evaluation) Dùng kỹ thuật hiển thị liệu để trình bày thơng tin (tri thức) mối liên hệ đặc biệt liệu đƣợc khai thác bƣớc biểu diễn dƣới dạng gần gũi với ngƣời sử dụng nhƣ đồ thị, cây, bảng biểu, luật…Đồng thời bƣớc đánh giá tri thức khám phá đƣợc theo tiêu chí định Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ Trong giai đoạn khai phá liệu, cần tƣơng tác ngƣời dung để điều chỉnh rút tri thức cần thiết Các tri thức nhận đƣợc đƣợc lƣu sử dụng lại Các tri thức Các mẫu Dữ liệu Dữ liệu chọn Đánh giá biểu diễn tri thức knowledge representation & evaluation Khai phá liệu Data mining Kho liệu Biến đổi liệu data transformation Tiền xử lý liệu data preprocessing Trích chọn liệu data selection Hình 1.1: Qúa trình phát tri thức Việc KPDL đƣợc tiến hành lƣợng lớn liệu có CSDL (Cơ sở liệu), kho liệu loại lƣu trữ thông tin khác Các mẫu đáng quan tâm đƣợc đƣa đến ngƣời dung đƣợc lƣu trữ số sở tri thức 1.2 Kiến trúc hệ thống khai phá liệu Kiến trúc hệ thống KPDL điển hình có thành phần nhƣ hình 1.2, [5], [9] CSDL, kho liệu lƣu trữ thông tin khác (Databases, Data warehouse, ) Đây hay tập CSDL, kho liệu, trang tính hay dạng lƣu trữ thơng tin khác Các kỹ thuật làm liệu tích hợp liệu đƣợc thực liệu Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ (Graphical interface) Giao diện đồ họa cho ngƣời dùng ( Pattern evaluation) Đánh giá mẫu Cơ sở tri thức (Data mining engine) Máy khai phá liệu (Knowledge-base) Máy chủ CSDL hay kho liệu (Database or Warehouse Server) Làm sạch, tích hợp liệu, lọc Cơ sở liệu Kho liệu Các lƣu trữ thông tin khác Hình 1.2: Kiến trúc hệ thống khai phá liệu - Máy chủ CSDL hay máy chủ kho liệu (Database or warehouse server) Máy chủ có trách nhiệm lấy liệu thích hợp dựa yêu cầu khai phá ngƣời dùng - Cơ sở tri thức (Knowledge base) Đây nhiều tri thức đƣợc dùng để hƣớng dẫn việc tìm kiếm hay đánh giá độ quan trọng hình mẫu kết - Máy KPDL (Data mining engine) Một hệ thống KPDL cần phải có tập modun chức để thực cơng việc nhƣ: đặc trƣng hóa, kết hợp, phân lớp, phân cụm, phân tích tiến hóa - Modun đánh giá mẫu (Pattern evaluation) Bộ phận tƣơng tác với modun KPDL để duyệt tìm mẫu đáng đƣợc quan tâm Nó dung ngƣỡng độ quan tâm để lọc mẫu khám phá đƣợc Cũng modun đánh giá mẫu đƣợc tích hợp vào modun khám phá, tùy theo cài đặt phƣơng pháp Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ khai phá đƣợc dùng - Giao diện người dung (Graphical user interface) Bộ phận cho phép ngƣời dùng giao tiếp với hệ thống KPDL Ngoài phận cho phép ngƣời dung xem lƣợc đồ CSDL, lƣợc đồ kho liệu (hay cấu trúc liệu), đánh giá mẫu hiển thị mẫu khuôn dạng khác 1.3 Các giai đoạn trình khai phá liệu Các giải thuật khai phá liệu thƣờng đƣợc miêu tả nhƣ chƣơng trình hoạt động trực tiếp tệp liệu Với phƣơng pháp học máy thống kê trƣớc đây, thƣờng bƣớc giải thuật nạp toàn tệp liệu vào nhớ Khi chuyển sang ứng dụng công nghiệp liên quan đến việc khai phá kho liệu, mô hình khơng thể đáp ứng đƣợc Khơng khơng thể nạp hết liệu vào nhớ mà cịn khó chiết xuất liệu tệp đơn giản để phân tích đƣợc Quá trình khai phá liệu đƣợc thể mơ hình sau [3]: Thống kê tóm tắt Xác định nhiệm vụ Xác định liệu liên quan Giải thuật khai phá liệu Thu thập tiền xử lý DL Mẫu Dữ liệu trực tiếp Hình 1.3 Quá trình khai phá liệu + Xác định nhiệm vụ: Xác định xác vấn đề cần giải + Xác định liệu liên quan: Dùng để xây dựng giải pháp + Thu thập liệu có liên quan xử lý chúng thành dạng cho giải thuật khai phá liệu hiểu đƣợc Ở gặp số vấn đề: liệu phải đƣợc nhiều (nếu đƣợc chiết xuất vào tệp), quản lý tập tệp Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ liệu, phải lặp lặp lại nhiều lần tồn q trình (nếu mơ hình liệu thay đổi v.v ) + Chọn thuật tốn khai phá liệu thích hợp thực việc khai phá liệu: nhằm tìm đƣợc mẫu (pattern) có ý nghĩa dƣới dạng biểu diễn tƣơng ứng với ý nghĩa 1.4 Một số kỹ thuật khai phá liệu Mục đích khai phá liệu chiết xuất tri thức có lợi cho kinh doanh hay cho nghiên cứu khoa học… Do đó, ta xem mục đích khai phá liệu mô tả kiện dự đoán Các mẫu khai phá liệu phát đƣợc nhằm vào mục đích Dự đốn liên quan đến việc sử dụng biến đối tƣợng (bản ghi) CSDL để chiết xuất mẫu, dự đoán đƣợc giá trị chƣa biết giá trị tƣơng lai biến đáng quan tâm Mơ tả tập trung vào việc tìm kiếm mẫu mơ tả liệu mà ngƣời hiểu đƣợc Một số kỹ thuật phổ biến thƣờng đƣợc sử dụng để KPDL : Phân lớp liệu Mục tiêu phân lớp liệu dự đoán nhãn lớp cho mẫu liệu Q trình gồm hai bƣớc: xây dựng mơ hình, sử dụng mơ hình để phân lớp liệu Mơ hình đƣợc sử dụng để dự đoán nhãn lớp mà độ xác mơ hình chấp nhận đƣợc Phân nhóm liệu Phân nhóm kỹ thuật khai phá liệu tƣơng tự nhƣ phân lớp liệu Tuy nhiên, phân nhóm liệu q trình học khơng đƣợc giám sát, q trình nhóm đối tƣợng vào lớp tƣơng đƣơng, đến đối tƣợng nhóm tƣơng đƣơng nhau, chúng phải khác với đối tƣợng nhóm khác Trong phân lớp liệu, ghi thuộc lớp phải xác định trƣớc, phân nhóm khơng xác định trƣớc Trong phân nhóm, đối tƣợng đƣợc nhóm lại dựa vào giống chúng Sự giống đối tƣợng đƣợc xác định Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ chức giống Thông thƣờng giống định lƣợng nhƣ khoảng cách độ đo khác đƣợc xác định chuyên gia lĩnh vực Đa số ứng dụng phân nhóm đƣợc sử dụng phân chia thị trƣờng Với phân nhóm khách hàng vào nhóm, doanh nghiệp cung cấp dịch vụ khác tới nhóm khách hàng cách thuận lợi Ví dụ: dựa vào chi tiêu, số tiền tài khoản việc rút tiền khách hàng, ngân hàng xếp khách hàng vào nhóm khác Với nhóm, ngân hàng cho vay khoản tiền tƣơng ứng cho việc mua nhà, mua xe, … Trong trƣờng hợp ngân hàng cung cấp dịch vụ tốt hơn, chắn tất khoản tiền cho vay thu hồi đƣợc Ta tham khảo khảo sát toàn diện kỹ thuật thuật tốn phân nhóm Khai phá luật kết hợp Mục tiêu phƣơng pháp phát đƣa mối liên hệ giá trị liệu sở liệu Đầu giải thuật luật kết hợp tập luật kết hợp tìm đƣợc Phƣơng pháp khai phá luật kết hợp gồm có hai bƣớc: -Bƣớc 1: Tìm tất tập mục thƣờng xuyên Một tập mục thƣờng xuyên đƣợc xác định thơng qua việc tính độ hỗ trợ thoả mãn độ hỗ trợ cực tiểu -Bƣớc 2: Sinh luật kết hợp mạnh từ tập mục thƣờng xuyên, luật phải thoả mãn độ hỗ trợ độ tin cậy cực tiểu Hồi quy Phƣơng pháp hồi quy tƣơng tự nhƣ phân lớp liệu Nhƣng khác chỗ dùng để dự đốn giá trị liên tục phân lớp liệu dùng để dự đoán giá trị rời rạc Phát thay đổi độ lệch (change and deviation dectection): Nhiệm vụ tập trung vào khám phá thay đổi có ý nghĩa liệu dựa vào giá trị chuẩn hay độ đo biết trƣớc, phát độ lệch đáng kể Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ nội dung tập liệu nội dung mong đợi Hai mơ hình độ lệch thƣờng dùng lệch theo thời gian lệch theo nhóm Độ lệch theo thời gian thay đổi có nghĩa liệu theo thời gian Độ lệch theo nhóm khác liệu hai tập liệu, tính trƣờng hợp tập đối tƣợng thuộc tập kia, nghĩa xác định liệu nhóm đối tƣợng có khác đáng kể so với tồn đối tƣợng 1.5 Các sở liệu phục vụ cho khai phá liệu Dựa vào kiểu liệu mà kỹ thuật khai phá áp dụng, chia liệu thành loại khác Cơ sở liệu quan hệ Đến nay, hầu hết liệu đƣợc lƣu giữ dƣới dạng sở liệu quan hệ Cơ sở liệu quan hệ nguồn tài nguyên lớn chứa đối tƣợng mà cần khai phá Cơ sở liệu quan hệ có cấu trúc cao, liệu đƣợc mơ tả tập thuộc tính lƣu bảng Khai phá liệu sở liệu quan hệ chủ yếu tập trung khai phá mẫu Ví dụ, sở liệu ngân hàng, ta tìm đƣợc khách hàng có mức chi tiêu cao, ta phân loại khách hàng dựa vào trình chi tiêu họ Cũng với việc phân tích mục chi tiêu khách hàng, cung cấp số thông tin khách hàng đến doanh nghiệp khác Giả sử khách hàng chi tháng 500 đô la cho thời trang, đƣợc phép, ngân hàng cung cấp thơng tin khách hàng cho cửa hàng thời trang Cơ sở liệu giao tác Cơ sở liệu giao tác tập hợp ghi giao dịch, đa số trƣờng hợp chúng ghi liệu hoạt động doanh nghiệp, tổ chức Với tính phổ biến máy tính thƣơng mại điện tử, ngày có nhiều sở liệu giao tác Khai phá liệu sở liệu giao tác tập trung vào khai phá lật kết hợp, tìm mối tƣơng quan mục liệu ghi giao dịch Nghiên cứu sâu sở liệu giao tác đƣợc mô tả chi tiết phần sau Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 10 Cơ sở liệu không gian Cơ sở liệu không gian bao gồm hai phần: Phần thứ liệu quan hệ hay giao tác, phần thứ hai thông tin định vị thông tin địa lý Những luật kết hợp sở liệu không gian mô tả mối quan hệ đặc trƣng sở liệu không gian Dạng luật kết hợp khơng gian có dạng X => Y, với X, Y tập hợp vị từ không gian Những thuật tốn khai phá luật kết hợp khơng gian tƣơng tự nhƣ khai phá luật kết hợp nhƣng thêm vị từ không gian Cơ sở liệu có yếu tố thời gian Giống nhƣ sở liệu khơng gian, sở liệu có yếu tố thời gian bao gồm hai phần: Phần thứ liệu quan hệ hay giao tác, phần thứ hai thông tin thời gian xuất liệu phần thứ Những luật kết hợp có yếu tố thời gian có nhiều thơng tin luật kết hợp Ví dụ, từ luật kết hợp {Bia} {Thuốc lá}, với liệu có yếu tố thời gian có nhiều luật: Độ hỗ trợ luật {Bia} {Thuốc lá} 20% từ đến 13 giờ, 50% thời gian 19 tới 22 Rõ ràng rằng, ngƣời bán lẻ xác định chiến lƣợc để buôn bán tốt Hầu hết nghiên cứu lĩnh vực ngày hình thành hƣớng khai phá liệu gọi khai phá mẫu lặp liên tục, khai phá tập mục liệu thƣờng xuyên sở liệu thời gian Cơ sở liệu đa phương tiện Số lƣợng trang web bùng nổ giới, web có mặt khắp nơi, duyệt web nhu cầu tầng lớp xã hội Thông tin web phát triển với tốc độ cao, khai phá thông tin web (web mining) trở thành lĩnh vực nghiên cứu khai phá liệu, đƣợc nhà nghiên cứu đặc biệt quan tâm Khai phá liệu web thơng thƣờng đƣợc chia thành ba phạm trù chính: Khai phá cách dùng web (web usage mining), khai phá c ấu trúc web (web structure mining) khai phá nội dung web (web content mining) Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ ... khơng cần thiết khai phá tất tập mục thƣờng xuyên mà cần khai phá tập mục thƣờng xuyên đóng Khai phá luật kết hợp dựa tập mục thƣờng xuyên đóng cho hiệu cao hơn, đảm bảo khơng tìm tập mục thƣờng xun... nghĩa mục đích tìm hiểu tốn tìm tập mục thƣờng xuyên dòng liệu, em định lựa chọn đề tài ? ?Khai phá tập mục thƣờng xun đóng dịng liệu? ?? Nội dung luận văn gồm chƣơng: Chương 1: Tổng quan khai phá liệu. .. thƣờng xuyên phải tập mục thƣờng xuyên Vì tập mục ứng viên gồm k mục đƣợc sinh cách kết nối tập mục thƣờng xuyên có (k-1) mục loại bỏ tập mục ứng viên có chứa tập khơng phải thƣờng xuyên Giả sử mục