Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 18 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
18
Dung lượng
1,32 MB
Nội dung
TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN KHAI PHÁ DỮ LIỆU ĐỀ TI: KHAI PHÁ DỮ LIỆU BẰNG THUẬT TOÁN APRIORI V DSA Sinh viên thực : LÊ MINH ĐẠT Giảng viên hướng dẫn : VŨ VĂN ĐỊNH Ngành : CÔNG NGHỆ THÔNG TIN Chuyên ngành : CNTT Lớp : D14CNPM3 Khóa : 2019-2024 Hà Nội, 14 tháng năm 2022 PHIẾU CHẤM ĐIỂM STT Họ tên Chữ ký Nhiệm vụ LÊ MINH ĐẠT Mã SV: 19810310083 LỜI CẢM ƠN Qua tập lớn này, chúng em xin gửi lời cảm ơn tới thầy cô khoa công nghệ thông tin, đặc biệt thầy Vũ Văn Định cho chúng em có hội tìm hiểu góc kiến thức mới, hay bổ ích với tận tâm dạy dỗ chúng em, giúp chúng em hồn thiện đề tài Trong q trình tìm hiểu hồn thiện, đề tài khơng thể tránh khỏi sai sót, khuyết điểm Vì vậy, nhóm thực chúng em hy vọng nhận đánh giá đóng góp nhiệt tình từ phía thầy bạn để nhóm chúng em hoàn thiện Qua tập lớn này, chúng em xin cảm ơn bạn bè lớp D14CNPM3 giúp đỡ chúng em trình học tập làm tập lớn, chia sẻ kinh nghiệm kiến thức bạn tạo nên tảng kiến thức cho chúng em Cuối cùng, chúng em xin gửi lời cảm ơn gia đình đặc biệt cha mẹ tạo điều kiện tốt cho có đủ khả thực tập lớn này, trang trải học phí, đơng viên tinh thần cho em để học tập môi trường đại học tuyệt vời Chúng em xin chân thành cảm ơn! MỞ ĐẦU Trong năm gần đây, việc nắm bắt thông tin đƣợc coi sở hoạt động sản xuất, kinh doanh Các nhân tổ chức thu thập hiểu đƣợc thông tin, hành động dựa thông tin đƣợc kết xuất từ thơng tin có đạt thành cơng hoạt động Sự tăng trưởng vượt bậc sở liệu (CSDL) sống như: thương mại, quản lý làm nảy sinh thúc đẩy phát triển kỹ thuật thu thập, lưu trữ, phân tích khai phá liệu… khơng phép tốn đơn giản thơng thường như: phép đếm, thống kê… mà địi hỏi cách xử lý thơng minh hơn, hiệu Các kỹ thuật cho phép ta khai thác tri thức hữu dụng từ CSDL (lớn) gọi kỹ thuật Khai phá liệu (datamining) Đồ án nghiên cứu khái niệm khai phá liệu, luật kết hợp ứng dụng thuật toán khai phá luật kết hợp CSDL lớn Cấu trúc đồ án trình bày sau: CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC Trình bày kiến thức tổng quan khai thác xử lý thông tin Khái niệm luật kết hợp phƣơng pháp khai phá luật kết hợp Trình bày thuật toán Apriori số thuật toán khai phá luật kết hợp CHƯƠNG 2: MƠ HÌNH TÌM KIẾM THƠNG TIN Trình bày thành phân search engine Trình bày nguyên lý hoạt động search engine số giải thuật tìm kiếm search engine CHƯƠNG 3: ỨNG DỤNG, THỬ NGHIỆM KHAI PHÁ DỮ LIỆU BẰNG THUẬT TOÁN APRIORI VÀ DSA Cuối kết luận lại kết đạt đề tài hướng phát triển tương lai Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU V PHÁT HIỆN TRI THỨC I Tổng quan khai phá liệu Tổ chức khai thác sở liệu truyền thống Việc dùng phương tiện tin học để tổ chức khai thác sở liệu (CSDL ) phát từ năm 60 kỷ trước Từ nay, nhiều CSDL tổ chức, phát triển khai thác quy mô lĩnh vực hoạt động người xã hội Theo đánh giá cho thấy, lượng thông tin giới sau 20 tháng lại tăng lên gấp đơi Kích thước số lượng CSDL chí cịn tăng nhanh Với phát triển công nghệ điện tử, phát triển mạnh mẽ công nghệ phần cứng tạo nhớ có dung lượng lớn, xử lý có tốc độ cao với phát triển hệ thống viễn thông, người ta xây dựng hệ thống thơng tin nhằm tự động hố hoạt động người Điều tạo dịng liệu tăng lên khơng ngừng hoạt động đơn giản nhƣ gọi điện thoại, tra cứu sách thư viện, thực thơng qua máy tính Cho đến nay, số lượng CSDL trở nên khổng lồ bao gồm CSDL cực lớn cỡ gigabytes chí terabytes lưu trữ liệu kinh doanh ví dụ liệu thông tin khác hàng , liệu bán hàng, liệu tài khoản, Nhiều hệ quản trị CSDL mạnh với công cụ phong phú thuận tiện giúp nguời khai thác có hiệu nguồn tài ngun liệu Mơ hình CSDL quan hệ ngơn ngữ vấn đáp chuẩn (SQL) có vai trị quan trọng việc tổ chức khai thác CSDL Cho đến nay, không tổ chức sử dụng tin học công việc mà không sử dụng hệ quản trị CSDL hệ công cụ báo cáo, ngôn ngữ hỏi đáp nhằm khai thác CSDL phục vụ cho hoạt động tác nghiệp Cùng với việc tăng khơng ngừng khối lượng liệu, hệ thống thông tin chuyên môn hoá, phân chia theo lĩnh vực ứng dụng sản xuất, tài chính, hoạt động kinh doanh, Như bên cạnh chức khai thác liệu có tính chất tác nghiệp, thành cơng cơng việc khơng cịn suất hệ thống thông tin mà tính linh hoạt sẵn sàng đáp lại yêu cầu thực tế, CSDL cần đem lại “tri thức” liệu Các định cần phải có nhanh tốt phải xác dựa liệu sẵn có khối lượng liệu sau 20 tháng lại tăng gấp đôi làm ảnh hưởng đến thời gian định nhƣ khả hiểu hết nội dung liệu Lúc này, mô hình CSDL truyền thống ngơn ngữ SQL cho thấy khơng có khả thực cơng việc Để lấy thơng tin có tính “tri thức” khối liệu khổng lồ này, người ta tìm kỹ thuật có khả hợp liệu từ hệ thống giao dịch khác nhau, chuyển đổi thành tập hợp CSDL ổn định, có chất lượng sử dụng cho riêng vài mục đích Các kỹ thuật gọi chung kỹ thuật tạo kho liệu (data warehousing) mơi trường liệu có gọi kho liệu (data warehouse) Nhưng có kho liệu thơi chưa đủ để có tri thức Các kho liệu sử dụng theo số cách như: Theo cách khai thác truyền thống: tức kho liệu sử dụng để khai thác thông tin công cụ truy vấn báo cáo Các kho liệu sử dụng để hỗ trợ cho phân tích trực tuyến (OLAPOnLine Analytical Processing): Việc phân tích trực tuyến có khả phân tích liệu, xác định xem giả thuyết hay sai Tuy nhiên, phân tích trực tuyến lại khơng có khả đưa giả thuyết Công nghệ khai phá liệu (data mining) đời đáp ứng đòi hỏi khoa học hoạt động thực tiễn Đây ứng dụng kho liệu Tổng quan kỹ thuật phát tri thức khai phá liệu (KDD -Knowledge Discovery and Data Mining) 2.1 Phát tri thức khai phá liệu gì? Nếu cho điện tử sóng điện tử chất cơng nghệ điện tử truyền thống liệu, thơng tin tri thức tiêu điểm lĩnh vực nghiên cứu ứng dụng phát tri thức (Knowledge Discovery) khai phá liệu (Data Mining) Thông thường coi liệu nhƣ dãy bit, số ký hiệu, “đối tượng” với ý nghĩa gửi cho chương trình dạng định Chúng ta sử dụng bit để đo lƣờng thơng tin xem liệu đƣợc lọc bỏ dư thừa, rút gọn tới mức tối thiểu để đặc trưng cách cho liệu Chúng ta xem tri thức thơng tin tích hợp, bao gồm kiện mối quan hệ chúng Các mối quan hệ đƣợc hiểu ra, phát hiện, học Nói cách khác, tri thức coi liệu có độ trừu tượng tổ chức cao Phát tri thức sở liệu qui trình nhận biết mẫu mơ hình liệu với tính năng: hợp thức, mới, khả ích, hiểu Còn khai thác liệu bước qui trình phát tri thức gồm có thuật toán khai thác liệu chuyên dùng số qui định hiệu tính tốn chấp nhận để tìm mẫu mơ hình liệu Nói cách khác, mục đích phát tri thức khai phá liệu tìm mẫu và/hoặc mơ hình tồn sở liệu bị che khuất hàng núi liệu Định nghĩa: “KDD q trình khơng tầm thường nhận mẫu có giá trị, mới, hữu ích tiềm hiểu liệu” Còn nhà thống kê xem Khai phá liệu qui trình phân tích thiết kế để thăm dị lượng cực lớn liệu nhằm phát mẫu thích hợp và/hoặc mối quan hệ mang tính hệ thống biến sau hợp thức hố kết tìm cách áp dụng mẫu phát cho tập liệu Qui trình bao gồm ba giai đoạn bản: thăm dò, xây dựng mơ hình định nghĩa mẫu, hợp thức/kiểm chứng 2.2 Quy trình phát tri thức Qui trình phát tri thức đƣợc mơ tả tóm tắt Hình 1: Hình 1: trình phát tri thức Bước thứ nhất: Hình thành, xác định định nghĩa tốn Là tìm hiểu lĩnh vực ứng dụng từ hình thành tốn, xác định nhiệm vụ cần phải hoàn thành Bước định cho việc rút tri thức hữu ích cho phép chọn phương pháp khai phá liệu thích hợp với mục đích ứng dụng chất liệu Bước thứ hai: Thu thập tiền xử lý liệu Là thu thập xử lý thô, đƣợc gọi tiền xử lý liệu nhằm loại bỏ nhiễu, xử lý việc thiếu liệu, biến đổi liệu rút gọn liệu cần thiết, bƣớc thường chiếm nhiều thời gian tồn qui trình phát tri thức Bước thứ ba: Khai phá liệu, rút tri thức Là khai phá liệu, hay nói cách khác trích mẫu mơ hình ẩn liệu Giai đoạn quan trọng, bao gồm công đoạn như: chức năng, nhiệm vụ mục đích khai phá liệu, dùng phương pháp khai phá Bước thứ tư: Sử dụng tri thức phát Là hiểu tri thức tìm được, đặc biệt làm sáng tỏ mơ tả dự đốn Các bước lặp lặp lại số lần, kết thu được lấy trung bình tất lần thực Tóm lại: KDD q trình chiết xuất tri thức từ kho liệu mà khai phá liệu cơng đoạn quan trọng 2.3 Các phương pháp khai phá liệu KDD bao gồm hai yếu tố quan trọng thiếu đƣợc Dự đốn (Prediction) Mơ tả (Description) Dự đốn: Địi hỏi sử dụng vài biến trƣờng để dự đốn thơng tin tiềm ẩn giá trị tương lai biến thuộc tính mà ta quan tâm đến Mô tả: Tập trung bật lên mơ hình kết mà ngƣời hiểu sâu thông tin liệu Với hai đích nêu trên, ngƣời ta thường sử dụng phương pháp sau cho khai phá liệu: - Phân lớp, phân loại (Classification): Là việc học hàm ánh xạ từ mẫu liệu vào số lớp đƣợc xác định trước - Hồi qui (Regression): Là việc học hàm ánh xạ từ mẫu liệu thành biến dự đốn có giá trị thực - Phân nhóm (Clustering): Là việc mơ tả chung để tìm tập hay nhóm, loại mơ tả liệu Các nhóm tách phân cấp - Tổng hợp (Summarization): Là cơng việc lên quan đến phương pháp tìm kiếm mô tả tập liệu, thường áp dụng việc phân tích liệu có tính thăm dị báo cáo tự động - Mơ hình ràng buộc (Dependency modeling): Là việc tìm kiếm mơ hình mơ tả phụ thuộc biến, thuộc tính theo hai mức: phụ thuộc cục vào cấu trúc mơ hình, phụ thuộc vào thước đo, ước lượng định lượng - Dị tìm biến đổi độ lệch (Change and Deviation Dectection): Chú ý vào thay đổi quan trọng liệu từ giá trị chuẩn đƣợc xác định trước - Biểu diễn mơ hình (Model Representation): Là việc dùng ngơn ngữ L_ Language để mơ tả mẫu mơ hình khai phá Mơ tả mơ hình rõ ràng học máy tạo mẫu có mơ hình xác cho liệu Tuy nhiên, mơ hình q lớn khả dự đoán học máy bị hạn chế Như làm cho việc tìm kiếm phức tạp hiểu mơ hình khơng đơn giản - Kiểm định mơ hình (Model Evaluation): Là việc đánh giá, ước lượng mơ hình chi tiết, chuẩn trình xử lý phát tri thức với ước lượng có dự báo xác hay khơng có thoả mãn sở logic hay khơng? Ước lượng phải đánh giá chéo (cross validation) với việc mơ tả đặc điểm bao gồm dự báo xác, tính lạ, tính hữu ích, tính hiểu phừ hợp với mơ hình Hai phương pháp logic thống kê chuẩn sử dụng mơ hình kiểm định - Phương pháp tìm kiếm (Search Method):Gồm có hai thành phần: (1) – Trong bảng tham biến (phạm vi tìm kiếm tham số) thuật tốn phải tìm kiếm tham số tronng phạm vi chuẩn mơ hình kiểm định tối ưu hố đưa tiêu chí (quan sát) liệu biểu diễn mơ hình định (2) – Mơ hình tìm kiếm, xuất đường vịng tồn phương pháp tìm kiếm, biểu diễn mơ hình phải thay đổi cho hệ mơ hình phải thay đổi cho hệ gia phả mơ hình phải thơng qua 2.4 Các lĩnh vực liên quan đến phát tri thức khai phá liệu Phát tri thức khai phá liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, sở liệu, thuật tốn học, tính tốn song song tốc độ cao, thu thập tri thức cho hệ chuyên gia, quan sát liệu Đặc biệt phát tri thức khai phá liệu gần gũi với lĩnh vực thống kê, sử dụng phương pháp thống kê để mơ hình liệu phát mẫu, luật Ngân hàng liệu (Data Warehousing) cơng cụ phân tích trực tuyến (OLAP) liên quan chặt chẽ với phát tri thức khai phá liệu Khai phá liệu có nhiều ứng dụng thực tế Một số ứng dụng điển hình như: - Bảo hiểm, tài thị trường chứng khốn: Phân tích tình hình tài dự báo giá loại cổ phiếu thị trường chứng khoán Danh mục vốn giá, lãi suất, liệu thẻ tín dụng, phát gian lận, - Phân tích liệu hỗ trợ định - Điều trị y học chăm sóc y tế: Một số thơng tin chuẩn đoán bệnh lưu hệ thống quản lý bệnh viện Phân tích mối liên hệ triệu chứng bệnh, chuẩn đoán phương pháp điều trị (chế độ dinh dưỡng, thuốc, ) - Sản xuất chế biến: Quy trình, phương pháp chế biến xử lý cố - Text mining Web mining: Phân lớp văn trang Web, tóm tắt văn bản, - Lĩnh vực khoa học: Quan sát thiên văn, liệu gene, liệu sinh vật học, tìm kiếm, so sánh hệ gene thông tin di truyền, mối liên hệ gene số bệnh di truyền, - Mạng viễn thơng: Phân tích gọi điện thoại hệ thống giám sát lỗi, cố, chất lượng dịch vụ, Chương 2: MƠ HÌNH TÌM KIẾM THƠNG TIN Tìm kiếm thơng tin Hãy tưởng tượng việc tìm kiếm sách thư viện mà khơng có bảng liệt kê mục lục Thật khơng phải cơng việc dễ dàng Cũng việc tìm kiếm thông tin Internet Để bắt đầu người dùng theo siêu liên kết đến trang web xác định tài liệu liên quan chứa thông tin cần Mỗi liên kết khơng rõ ràng đưa họ xa phạm vi tìm kiếm Trong hệ thống nhỏ cố định việc thiết kế tài liệu hướng dẫn việc tìm kiếm khơng thành vấn đề Nhưng môi trường world Wide Web môi trường thông tin không tập trung, gồm nhiều loại khác nhau, liên tục thay đổi phát triển nhanh chống việc tìm kiếm thơng tin nói thách thức địi hỏi nhiều thời gian Hiện có nhiều cơng cụ hay máy tìm kiếm thơng tin thơng minh cho phép giải vấn đề Nó cung cấp chế tìm kiếm nhanh chóng cách trì hệ thống mục trang web Công việc mục phân loại trang web thình nhóm thơng tin đánh mục full-text cho tất trang web Do môi trường web liên tục thay đổi nên việc đánh mục phải thực theo định kì Người dùng việc nhập vào từ khóa hay chủ đề cần, máy tìm kiếm liệt kê tất tài liệu liên quan theo thứ tự độ xác tìm Hiện có nhiều loại mơtơ tìm kiếm Cơ tìm kiếm tìm kiếm theo chủ đề hay loại thơng tin Ví dụ: tìm kiếm thơng tin phần mềm (www.softseek.com), âm nhạc ( www.mp3search.com), … Hay thơng tin tổng hợp Cùng với nhu cầu tìm kiếm thơng tin nhu cầu nắm bắt thay đổi web thay đổi bao gồm việc cập nhật thông tin nhu cầu việc làm internet, hay tin tức nóng bỏng … Nó giúp cho ứng viên tìm việc làm phù hợp hay doanh nghiệp tìm ứng viên phù hợp với yêu cầu doanh nghiệp, giúp cho người dùng biết diễn xung quanh Như nói việc trì hệ thống mục (bao gồm mục loại thông tin tài liệu lẫn mục full-text tài liệu) cho trang web định chất lượng search engine Để trì hệ thống mục chúng liên tục duyệt qua trang web cách theo siêu liên kết, qua định xem tài liệu thêm vào bảng mục Đặc điêm quan trọng world wide web mơ hình thơng tin khơng tập trung Bất thêm vào server, thông tin hay siêu liên kết môi trƣờng thay đổi nhƣ vậy, search engine với việc thu thập thông tin liên quan, việc phát thông tin quan trọng Các search engine nhận biết thông tin cần thiết người dùng thông qua địa url chúng Khi xét Url, search engine dựa vào mục đích tìm kiếm định xem có nên dùng để tìm kiếm tiếp hay khơng lưu nội dung lại thích hợp, sau lưu tài liệu, search engine tìm kiếm đánh dấu tài liệu xét tìm tất liên kết có tài liệu lại tiếp tục liên kết Tất bước ảnh hưởng đến việc lưu thông tin sở liệu Mơ hình Search engine Một Search engine bao gồm thành phần - Modul Search engine: điều khiển tất hoạt động hệ thống - Modul cập nhật thông tin Robots: chịu trách nhiệm tìm kiếm tái thơng tin tài liệu internet phù hợp với yêu cầu modul đưa - Phần sở liệu: lưu trữ thông tin tài liệu như: nội dung tài liệu, siêu liên kết chúng, … 2.1 Search engine Một search engine phát tài liệu cách bắt đầu với tập hợp tài liệu biết, kiểm tra siêu liên kết xuất đó, duyệt theo liên kết đến tài liệu mới, sau lặp lại tồn q trình Tưởng tƣợng web đồ thị có hướng việc tìm kiếm đơn giản duyệt qua đồ thị sử dụng với thuật tốn duyệt đồ thị Search engine không chịu trách nhiệm định xem tài liệu duyệt mà định xem kiểu tài liệu duyệt 2.2 Agents Để thực việc thu thập tài liệu từ web, search engine gọi đến “Agent” hay gọi Robot Đầu vào địa Url nhiệm vụ tái thông tin tài liệu địa Kết trả cho modul đối tượng nội dung tài liệu địa giải thích lý tài liệu không tái Các Agent phải có khả truy cập kiểu nội dung khác với giao thức phổ biến HTTP, FTP, … Việc chờ đợi trả lời từ server xa gây tốn tài nguyên hệ thống, Agent thường tổ chức thành tiến trình khác chạy song song với Modul làm chức quản lý tiến trình này, phát địa mới, tìm Agent rỗi giao nhiệm vụ cho Agent Khi thực xong trả lại kết cho modul thiết đặt trạng thái rỗi Quá trình tiếp tục hết thời gian quy định hay khơng cịn có địa Hoạt động Search engine Như nói Search Engine dùng robot để xây dựng bảng mục nội dung trang Web Đó chương trình tự động theo siêu liên kết trang Web, thu thập liệu trang Web cần thiết cho việc đánh mục Chúng gọi robot chúng hoạt động độc lập: chúng tự phân tách siêu liên kết theo siêu liên kết Một số tên khác cho chương trình kiểu này: spider, spider, worm, wanderer, gatherer, Việc rôbốt theo liên kết giống người duyệt Web xem trang tài liệu browser Bạn hỏi robot lại phải tạo bảng mục trang Web vậy, khơng tìm kiếm người dùng nhập vào u cầu tìm kiếm Đó việc tổ chức bảng mục tập trung cho phép giảm khối lượng liệu vào server, cho phép tìm kiếm số lượng lớn tài liệu nhiều ngƣời lúc Nó cịn cho phép liệt kê kết theo thứ tự liên quan tài liệu yêu cầu tìm kiếm Dưới tìm hiểu kĩ xem robot tập hợp liệu cho việc xây dựng bảng mục nào, cách chúng theo liên kết Internet, cách chúng đánh mục tài liệu cập nhật bảng mục 3.1 Hoạt động robot Các robot trang cho trước, thường thường trang chủ Web site đó, đọc nội dung trang giống trình duyệt Web, theo siêu liên kết đến trang khác Việc định có đến trang khác hay khơng tuỳ thuộc vào cấu hình hệ thống Các robot cho phép duyệt trang Web phạm vi server hay tên miền Một mơtơ tìm kiếm phát tài liệu cách bắt đầu với tập hợp tài liệu biết, kiểm tra siêu liên kết xuất đó, duyệt theo liên kết đến tài liệu mới, sau lặp lại tồn q trình Tưởng tượng Web đồ thị có hướng việc tìm kiếm đơn giản duyệt qua đồ thị sử dụng với thuật tốn duyệt đồ thị Hình ví dụ Giả sử để duyệt qua tài liệu A Server1 tài liệu E Server3 môtơ định xem tài liệu duyệt tiếp Tài liệu A có liên kết đến tài liệu B, C, tài liệu E có liên kết đến tài liệu D F Mơtơ tìm kiếm lựa chọn tài liệu B, C D để duyệt tiếp dựa yêu cầu tìm kiếm thực 3.2 Duyệt theo chiều rộng Ý tưởng duyệt theo chiều rộng mục đích tập hợp tất trang xung quanh điểm xuất phát trước theo liên kết xa điểm bắt đầu Đây cách thông thường mà robot hay làm Nếu việc thực đánh mục vài server khối lượng yêu cầu tới server phần phối nhau, làm tăng hiệu tìm kiếm Chiến lược giúp cho việc cài đặt chế xử lý song song cho hệ thống Trong đồ thị đây, trang bắt đầu tô màu đậm Các trang tiếp theo, tô màu đậm vừa đánh mục đầu tiên, sau đến trang tơ màu nhạt cuối đến trang màu trắng Ý tưởng duyệt theo chiều rộng mục đích tập hợp tất trang xung quanh điểm xuất phát trước theo liên kết xa điểm bắt đầu Đây cách thông thường mà robot hay làm Nếu việc thực đánh mục vài server khối lượng yêu cầu tới server phần phối nhau, làm tăng hiệu tìm kiếm Chiến lược giúp cho việc cài đặt chế xử lý song song cho hệ thống Trong đồ thị đây, trang bắt đầu tô màu đậm Các trang tiếp theo, tô màu đậm vừa đánh mục đầu tiên, sau đến trang tơ màu nhạt cuối đến trang màu trắng 3.3 Duyệt theo chiều sâu Theo cách duyệt này, robot theo liên kết từ liên kết thứ trang bắt đầu, sau đến liên kết thứ trang thứ hai tiếp tục Khi đánh mục liên kết trang, tiếp tục tới liên kết thứ hai Một số robot đơn giản dùng phương pháp dễ cài đặt Chương 3: ỨNG DỤNG THỬ NGHIỆM KHAI PHÁ DỮ LIỆU TÍCH HỢP TỪ CÁC WEBSITE TUYỂN DỤNG Bài toán: 1.1 Phát biểu toán: Bảo vệ chống lại suy luận khai thác liệu bắt đầu nhận ý Đặc biệt, vấn đề bảo đảm riêng tư chia sẻ liệu muốn che giấu số mẫu phổ biến đề cập tài liệukhác Các giải pháp đề xuất bao gồm việc chuyển đổi sở liệu giao dịchđể chia sẻ, mẫu phổ biếnkhông thể phát Quá trình nàyđược gọi chuyển đổi liệu Hiệu việc chuyển đổi liệu đo tỷ lệ ẩn hiệu mẫu phổ biến (giấu thất bại), tỷ lệ luật vơ tình ẩn (chi phí bỏ lỡ) số lượng luật tạo trình Giải vấn đề khác thực tế hơn, vấn đề loại bỏ luật Thay chia sẻ liệu, cộng tác viên thích khai thác liệu riêng họ chia sẻ mẫu phát Chúng ta xem xét ví dụ Giả sử có máy chủ nhiều khách hàng, khách hàng có số mặt hàng bán (ví dụ sách, phim ảnh, vv) Các khách hàng muốn máy chủ thu thập thông tin thống kê liên kết số mặt hàng để cung cấp khuyến cáo cho khách hàng Tuy nhiên, khách hàng không muốn máy chủ biết số luật kết hợp hạn chế Trong tình này, clients đại diện cho công ty server hệ thống khuyến cáo cho ứng dụng thương mại điện tử Khi khách hàng gửi tập phổ biến họ luật kết hợp tới máy chủ, loại bỏ số tập phổ biến hạn chế theo số sách cụ thể Sau máy chủ tập hợp thông tin thống kê từ tập phổ biến loại bỏ phục hồi chúng từ liên kết thực tế Các giải pháp đơn giản để giải ví dụ thực lọc sau giai đoạn khai thác để loại bỏ/ ẩn luật bị hạn chế phát Tuy nhiên, cho cắt tỉa số luật không đảm bảo việc bảo vệ đầy đủ Việc loại bỏ áp dụng cho tập luật không để lại dấu vết bị khai thác kẻ thù Chúng ta phải đảm bảo số kênh suy luận bị chặn tốt Bài giới thiệu khái niệm quy tắc loại bỏ Những đóng góp báo hướng để bảo vệ kiến thức nhạy cảm trước chia sẻ luật kết hợp Hướng bao gồm: (a) thuật toán gọi Downright Sanitizing Algorithm (DSA) Thuật toán loại bỏ tập luật hạn chế ngăn chặn số kênh suy luận; (b) tập số liệu để đánh giá công chống lại kiến thức nhạy cảm tác động việc loại bỏ Công việc liên quan Một số nỗ lực thực để giải vấn đề bảo vệ kiến thức nhạy cảm khai thác luật kết hợp việc làm liệu Các thuật tốn phân thành hai loại chính: phương pháp tiếp cận Data-Sharing cách tiếp cận Pattern-Sharing (trong hình 1A) Trước đây, trình lọc thực liệu để loại bỏ ẩn nhóm luật kết hợp hạn chế có chứa kiến thức nhạy cảm Để làm vậy, số nhỏ giao dịch có chứa luật hạn chế sửa đổi cách xóa nhiều mục từ chúng chí thêm số mục ban đầu khơng có mặt giao dịch Phần thứ hai, thuật toán chuyển đổi hoạt động quy tắc khai thác từ sở liệu, thay liệu Các thuật toán biết đến thể loại thuật tốn DSA chúng tơi trình bày Các thuật toán loại bỏ tất luật hạn chế trước chia sẻ.Trong số thuật toán phương pháp tiếp cận DataSharing, phân loại sau loại: Item Restriction-Based, Item AdditionBased Item Obfuscation-Based Item Restriction-Based: Các thuật toán loại bỏ nhiều mục từ nhóm giao dịch có chứa luật hạn chế Khi làm vậy, thuật toán giấu luật hạn chế cách giảm độ hỗ trợ ngưỡng riêng Các thuật toán khác nằm loại này, ẩn luật cách đáp ứng ngưỡng kiểm soát tiết lộ ψ chủ sở hữu sở liệu Khi ψ = 0%, khơng có luật kết hợp hạn chế phép phát Khi ψ = 100%, không giới hạn luật kết hợp hạn chế Item Addition-Based: Khơng giống thuật tốn trước đó, thuật tốn dựa mục sửa đổi thơng tin có sở liệu giao dịch cách thêm số mặt hàng ban đầu không diện số giao dịch Các mục thêm vào phần tiền đề X luật X → Y giao dịch bảo đảm phần hỗ trợ Khi làm vậy, độ tin cậy luật giảm Cách tiếp cận tạo luật kết hợp nhân tạo khơng tồn sở liệu ban đầu Item Obfuscation-Based: Các thuật toán quy tắc ẩn cách đặt dấu"?" (ẩn số) hạng mục số giao dịch có chứa luật hạn chế, thay xóa mục Khi làm vậy, thuật toán làm mờ tập hợp luật hạn chế cách thay giá trị biết đến với ẩn số Cũng giống thuật toán dựa giảm mục, thuật toán giảm tác động sở liệu làm bảo vệ khai thác từ việc học quy tắc lỗi Các cơng việc trình bày khác với cơng việc liên quan số khía cạnh sau: thuật tốn chúng tơi giải vấn đề Pattern-Sharing loại bỏ luật, không giao dịch Thứ hai, nghiên cứu công chống lại kiến thức nhạy cảm Hình ảnh minh họa KẾT LUẬN Báo cáo đề cập đến nội dung kho liệu ứng dụng lưu trữ khai phá tri thức kho liệu nhằm hỗ trợ định Về mặt lý thuyết, khai phá tri thức bao gồm bước: Hình thành, xác định định nghĩa tốn, thu thập tiền xử lý liệu, khai phá liệu, rút tri thức, sử dụng tri thức phát Phương pháp khai phá liệu là: phân lớp, định, suy diễn… Các phương pháp áp dụng liệu thơng thường Về thuật tốn khai phá tri thức, đồ án trình bày số thuật tốn minh họa thuật toán kinh điển phát tập báo phổ biến khai phá luật kết hợp là: Apriori Về mặt cài đặt thử nghiệm, đồ án giới thiệu kĩ thuật khai phá liệu theo thuật toán Apriori áp dụng vào toán dự báo xu hướng tìm việc ứng viên, xu hướng tuyển dụng doanh nghiệp Trong trình thực đồ án, em cố gắng tập trung tìm hiểu tham khảo tài liệu liên quan Tuy nhiên, với thời gian trình độ có hạn nên khơng tránh khỏi hạn chế thiếu sót Em mong nhận nhận xét góp ý thầy cô giáo bạn bè, người quan tâm để hoàn thiện kết nghiên cứu