Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 73 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
73
Dung lượng
0,91 MB
Nội dung
Đồ án tốt nghiệp: Khai phá liệu từ website việc làm LỜI CẢM ƠN Em xin chân thành cảm ơn thầy giáo, cô giáo ngành Công nghệ thơng tin – Đại Học Dân Lập Hải Phịng, tận tâm giảng dạy kiến thức năm học qua với động viên từ gia đình bạn bè chố gắng thân Đặc biệt em xin bày tỏ biết ơn sâu sắc đến thầy giáo Tiến sĩ Phùng Văn Ổn, người tận tình hướng dẫn, động viên em thực đồ án Rất mong đóng góp ý kiến từ tất thầy cô, bạn bè đồng nghiệp để đồ án phát triển hồn thiện đồ án Hải phòng, tháng năm 2019 Người thực Đồ án tốt nghiệp: Khai phá liệu từ website việc làm MỤC LỤC LỜI CẢM ƠN MỞ ĐẦU Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC I Tổng quan khai phá liệu Tổ chức khai thác sở liệu truyền thống .5 Tổng quan kỹ thuật phát tri thức khai phá liệu (KDD – Knowledge Discovery and Data Mining) II Ứng dụng luật kết hợp vào khai phá liệu 10 Lý thuyết luật kết hợp 10 Các đặc trưng luật kết hợp 19 Một số giải thuật khai phá tập phổ biến 22 Phát sinh luật từ tập phổ biến 43 Đánh giá, nhận xét 46 Chương 2: MƠ HÌNH TÌM KIẾM THƠNG TIN 47 Tìm kiếm thông tin 47 Mô hình Search engine 48 2.1 Search engine 48 2.2 Agents 49 Hoạt động Search engine 49 3.1 Hoạt động robot 50 3.2 Duyệt theo chiều rộng 50 3.3 Duyệt theo chiều sâu 51 3.4 Độ sâu giới hạn 52 3.5 Vấn đề tắc nghẽn đường chuyền 52 3.6 Hạn chế robot 53 3.7 Phân tích liên kết trang web 53 3.8 Nhận dạng mã tiếng việt 53 Chương 3: ỨNG DỤNG THỬ NGHIỆM KHAI PHÁ DỮ LIỆU TÍCH HỢP TỪ CÁC WEBSITE TUYỂN DỤNG 55 Bài toán: 55 1.1 Phát biểu toán: 55 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm 1.2 Một số website tìm việc làm tiểng việt nam: 55 1.3 Thiết kế sở liệu: 58 1.4 Đặc tả liệu: 61 1.5 Minh họa chương trình 67 1.6 Phân tích đánh giá 69 1.7 Hướng phát triển 69 KẾT LUẬN 70 TÀI LIỆU THAM KHẢO 71 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm MỞ ĐẦU Trong năm gần đây, việc nắm bắt thông tin coi sở hoạt động sản xuất, kinh doanh Các nhân tổ chức thu thập hiểu thông tin, hành động dựa thông tin kết xuất từ thông tin có đạt thành cơng hoạt động Sự tăng trưởng vượt bậc sở liệu (CSDL) sống như: thương mại, quản lý làm nảy sinh thúc đẩy phát triển kỹ thuật thu thập, lưu trữ, phân tích khai phá liệu… khơng phép tốn đơn giản thơng thường như: phép đếm, thống kê… mà địi hỏi cách xử lý thơng minh hơn, hiệu Các kỹ thuật cho phép ta khai thác tri thức hữu dụng từ CSDL (lớn) gọi kỹ thuật Khai phá liệu (datamining) Đồ án nghiên cứu khái niệm khai phá liệu, luật kết hợp ứng dụng thuật toán khai phá luật kết hợp CSDL lớn Cấu trúc đồ án trình bày sau: CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC Trình bày kiến thức tổng quan khai thác xử lý thông tin Khái niệm luật kết hợp phương pháp khai phá luật kết hợp Trình bày thuật tốn Apriori số thuật toán khai phá luật kết hợp CHƯƠNG 2: MƠ HÌNH TÌM KIẾM THƠNG TIN Trình bày thành phân search engine Trình bày nguyên lý hoạt động search engine số giải thuật tìm kiếm search engine CHƯƠNG 3: ỨNG DỤNG, THỬ NGHIỆM KHAI PHÁ DỮ LIỆU VIỆC LÀM TÍCH HỢP TỪ CÁC WEBSITE TUYỂN DỤNG Nội dung chương áp dụng kỹ thuật khai phá liệu vào tốn tìm xu hướng chọn ngành nghề ứng viên tuyển dụng của doanh nghiệp Cuối kết luận lại kết đạt đề tài hướng phát triển tương lai Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC I Tổng quan khai phá liệu Tổ chức khai thác sở liệu truyền thống Việc dùng phương tiện tin học để tổ chức khai thác sở liệu (CSDL ) phát từ năm 60 kỷ trước Từ nay, nhiều CSDL tổ chức, phát triển khai thác quy mô lĩnh vực hoạt động người xã hội Theo đánh giá cho thấy, lượng thông tin giới sau 20 tháng lại tăng lên gấp đơi Kích thước số lượng CSDL chí cịn tăng nhanh Với phát triển công nghệ điện tử, phát triển mạnh mẽ công nghệ phần cứng tạo nhớ có dung lượng lớn, xử lý có tốc độ cao với phát triển hệ thống viễn thông, người ta xây dựng hệ thống thơng tin nhằm tự động hố hoạt động người Điều tạo dịng liệu tăng lên khơng ngừng hoạt động đơn giản gọi điện thoại, tra cứu sách thư viện, thực thơng qua máy tính Cho đến nay, số lượng CSDL trở nên khổng lồ bao gồm CSDL cực lớn cỡ gigabytes chí terabytes lưu trữ liệu kinh doanh ví dụ liệu thơng tin khác hàng , liệu bán hàng, liệu tài khoản, Nhiều hệ quản trị CSDL mạnh với công cụ phong phú thuận tiện giúp người khai thác có hiệu nguồn tài ngun liệu Mơ hình CSDL quan hệ ngơn ngữ vấn đáp chuẩn (SQL) có vai trị quan trọng việc tổ chức khai thác CSDL Cho đến nay, không tổ chức sử dụng tin học công việc mà không sử dụng hệ quản trị CSDL hệ công cụ báo cáo, ngôn ngữ hỏi đáp nhằm khai thác CSDL phục vụ cho hoạt động tác nghiệp Cùng với việc tăng không ngừng khối lượng liệu, hệ thống thơng tin chun mơn hố, phân chia theo lĩnh vực ứng dụng sản xuất, tài chính, hoạt động kinh doanh, Như bên cạnh chức khai thác liệu có tính chất tác nghiệp, thành cơng cơng việc khơng cịn suất hệ thống thông tin mà tính linh hoạt sẵn sàng đáp lại yêu cầu thực tế, CSDL cần đem lại “tri thức” liệu Các định cần phải có nhanh tốt phải xác dựa liệu sẵn có khối lượng liệu sau 20 tháng lại tăng gấp đôi làm ảnh hưởng đến thời gian định khả hiểu hết nội dung liệu Lúc này, mơ hình CSDL truyền thống ngôn ngữ SQL cho thấy khơng có khả thực cơng việc Để lấy thơng tin có tính “tri thức” khối liệu khổng lồ này, người ta tìm Đồ án tốt nghiệp: Khai phá liệu từ website việc làm kỹ thuật có khả hợp liệu từ hệ thống giao dịch khác nhau, chuyển đổi thành tập hợp CSDL ổn định, có chất lượng sử dụng cho riêng vài mục đích Các kỹ thuật gọi chung kỹ thuật tạo kho liệu (data warehousing) mơi trường liệu có gọi kho liệu (data warehouse) Nhưng có kho liệu thơi chưa đủ để có tri thức Các kho liệu sử dụng theo số cách như: Theo cách khai thác truyền thống: tức kho liệu sử dụng để khai thác thông tin công cụ truy vấn báo cáo Các kho liệu sử dụng để hỗ trợ cho phân tích trực tuyến (OLAPOnLine Analytical Processing): Việc phân tích trực tuyến có khả phân tích liệu, xác định xem giả thuyết hay sai Tuy nhiên, phân tích trực tuyến lại khơng có khả đưa giả thuyết Công nghệ khai phá liệu (data mining) đời đáp ứng đòi hỏi khoa học hoạt động thực tiễn Đây ứng dụng kho liệu Tổng quan kỹ thuật phát tri thức khai phá liệu (KDD – Knowledge Discovery and Data Mining) 2.1 Phát tri thức khai phá liệu gì? Nếu cho điện tử sóng điện tử chất cơng nghệ điện tử truyền thống liệu, thông tin tri thức tiêu điểm lĩnh vực nghiên cứu ứng dụng phát tri thức (Knowledge Discovery) khai phá liệu (Data Mining) Thông thường coi liệu dãy bit, số ký hiệu, “đối tượng” với ý nghĩa gửi cho chương trình dạng định Chúng ta sử dụng bit để đo lường thông tin xem liệu lọc bỏ dư thừa, rút gọn tới mức tối thiểu để đặc trưng cách cho liệu Chúng ta xem tri thức thơng tin tích hợp, bao gồm kiện mối quan hệ chúng Các mối quan hệ hiểu ra, phát hiện, học Nói cách khác, tri thức coi liệu có độ trừu tượng tổ chức cao Phát tri thức sở liệu qui trình nhận biết mẫu mơ hình liệu với tính năng: hợp thức, mới, khả ích, hiểu Cịn khai thác liệu bước qui trình phát tri thức gồm có thuật tốn khai thác liệu chun dùng số qui định Đồ án tốt nghiệp: Khai phá liệu từ website việc làm hiệu tính tốn chấp nhận để tìm mẫu mơ hình liệu Nói cách khác, mục đích phát tri thức khai phá liệu tìm mẫu và/hoặc mơ hình tồn sở liệu bị che khuất hàng núi liệu Định nghĩa: “KDD trình khơng tầm thường nhận mẫu có giá trị, mới, hữu ích tiềm hiểu liệu” Cịn nhà thống kê xem Khai phá liệu qui trình phân tích thiết kế để thăm dò lượng cực lớn liệu nhằm phát mẫu thích hợp và/hoặc mối quan hệ mang tính hệ thống biến sau hợp thức hố kết tìm đưọc cách áp dụng mẫu phát cho tập liệu Qui trình bao gồm ba giai đoạn bản: thăm dị, xây dựng mơ hình định nghĩa mẫu, hợp thức/kiểm chứng 2.2 Quy trình phát tri thức Qui trình phát tri thức mơ tả tóm tắt Hình 1: Hình 1: q trình phát tri thức Bước thứ nhất: Hình thành, xác định định nghĩa tốn Là tìm hiểu lĩnh vực ứng dụng từ hình thành tốn, xác định nhiệm vụ cần phải hoàn thành Bước định cho việc rút tri thức hữu ích cho phép chọn phương pháp khai phá liệu thích hợp với mục đích ứng dụng chất liệu Bước thứ hai: Thu thập tiền xử lý liệu Là thu thập xử lý thơ, cịn gọi tiền xử lý liệu nhằm loại bỏ nhiễu, xử lý việc thiếu liệu, biến đổi liệu rút gọn liệu cần thiết, bước thường chiếm nhiều thời gian tồn qui trình phát tri thức Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Bước thứ ba: Khai phá liệu, rút tri thức Là khai phá liệu, hay nói cách khác trích mẫu và/hoặc mơ hình ẩn liệu Giai đoạn quan trọng, bao gồm công đoạn như: chức năng, nhiệm vụ mục đích khai phá liệu, dùng phương pháp khai phá nào? Bước thứ tư: Sử dụng tri thức phát Là hiểu tri thức tìm được, đặc biệt làm sáng tỏ mô tả dự đốn Các bước lặp lặp lại số lần, kết thu được lấy trung bình tất lần thực Tóm lại: KDD q trình chiết xuất tri thức từ kho liệu mà khai phá liệu công đoạn quan trọng 2.3 Các phương pháp khai phá liệu KDD bao gồm hai yếu tố quan trọng thiếu Dự đốn (Prediction) Mơ tả (Description) Dự đốn: Đòi hỏi sử dụng vài biến trường để dự đốn thơng tin tiềm ẩn giá trị tương lai biến thuộc tính mà ta quan tâm đến Mô tả: Tập trung bật lên mơ hình kết mà người hiểu sâu thơng tin liệu Với hai đích nêu trên, người ta thường sử dụng phương pháp sau cho khai phá liệu: - Phân lớp, phân loại (Classification): Là việc học hàm ánh xạ từ mẫu liệu vào số lớp xác định trước - Hồi qui (Regression): Là việc học hàm ánh xạ từ mẫu liệu thành biến dự đốn có giá trị thực - Phân nhóm (Clustering): Là việc mơ tả chung để tìm tập hay nhóm, loại mơ tả liệu Các nhóm tách phân cấp - Tổng hợp (Summarization): Là công việc lên quan đến phương pháp tìm kiếm mô tả tập liệu, thường áp dụng việc phân tích liệu có tính thăm dị báo cáo tự động - Mơ hình ràng buộc (Dependency modeling): Là việc tìm kiếm mơ hình mơ tả phụ thuộc biến, thuộc tính theo hai mức: phụ thuộc cục vào cấu trúc mô hình, phụ thuộc vào thước đo, ước lượng định lượng Đồ án tốt nghiệp: Khai phá liệu từ website việc làm - Dị tìm biến đổi độ lệch (Change and Deviation Dectection): Chú ý vào thay đổi quan trọng liệu từ giá trị chuẩn xác định trước - Biểu diễn mơ hình (Model Representation): Là việc dùng ngơn ngữ L_ Language để mơ tả mẫu mơ hình khai phá Mơ tả mơ hình rõ ràng học máy tạo mẫu có mơ hình xác cho liệu Tuy nhiên, mơ hình q lớn khả dự đoán học máy bị hạn chế Như làm cho việc tìm kiếm phức tạp hiểu mơ hình khơng đơn giản Kiểm định mơ hình (Model Evaluation): Là việc đánh giá, ước lượng mơ hình chi tiết, chuẩn trình xử lý phát tri thức với ước lượng có dự báo xác hay khơng có thoả mãn sở logic hay khơng? Ước lượng phải đánh giá chéo (cross validation) với việc mơ tả đặc điểm bao gồm dự báo xác, tính lạ, tính hữu ích, tính hiểu phừ hợp với mơ hình Hai phương pháp logic thống kê chuẩn sử dụng mơ hình kiểm định - Phương pháp tìm kiếm (Search Method):Gồm có hai thành phần: (1) – Trong bảng tham biến (phạm vi tìm kiếm tham số) thuật tốn phải tìm kiếm tham số tronng phạm vi chuẩn mơ hình kiểm định tối ưu hố đưa tiêu chí (quan sát) liệu biểu diễn mơ hình định (2) – Mơ hình tìm kiếm, xuất đường vịng tồn phương pháp tìm kiếm, biểu diễn mơ hình phải thay đổi cho hệ mơ hình phải thay đổi cho hệ gia phả mơ hình phải thơng qua - 2.4 Các lĩnh vực liên quan đến phát tri thức khai phá liệu Phát tri thức khai phá liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, sở liệu, thuật tốn học, tính tốn song song tốc độ cao, thu thập tri thức cho hệ chuyên gia, quan sát liệu Đặc biệt phát tri thức khai phá liệu gần gũi với lĩnh vực thống kê, sử dụng phương pháp thống kê để mơ hình liệu phát mẫu, luật Ngân hàng liệu (Data Warehousing) cơng cụ phân tích trực tuyến (OLAP) liên quan chặt chẽ với phát tri thức khai phá liệu Khai phá liệu có nhiều ứng dụng thực tế Một số ứng dụng điển hình như: - Bảo hiểm, tài thị trường chứng khốn: Phân tích tình hình tài dự báo giá loại cổ phiếu thị trường chứng khoán Danh mục vốn giá, lãi suất, liệu thẻ tín dụng, phát gian lận, Đồ án tốt nghiệp: Khai phá liệu từ website việc làm - Phân tích liệu hỗ trợ định - Điều trị y học chăm sóc y tế: Một số thơng tin chuẩn đốn bệnh lưu hệ thống quản lý bệnh viện Phân tích mối liên hệ triệu chứng bệnh, chuẩn đoán phương pháp điều trị (chế độ dinh dưỡng, thuốc, ) - Sản xuất chế biến: Quy trình, phương pháp chế biến xử lý cố - Text mining Web mining: Phân lớp văn trang Web, tóm tắt văn bản, - Lĩnh vực khoa học: Quan sát thiên văn, liệu gene, liệu sinh vật học, tìm kiếm, so sánh hệ gene thơng tin di truyền, mối liên hệ gene số bệnh di truyền, Mạng viễn thơng: Phân tích gọi điện thoại hệ thống giám sát lỗi, cố, chất lượng dịch vụ, AI Ứng dụng luật kết hợp vào khai phá liệu - Việc dự đốn thơng tin có giá trị cao dựa số lượng liệu lớn nghiệp vụ ngày trở lên quan trọng nhiều tổ chức, doanh nghiệp Chẳng hạn, vấn đề nhà quản lý kinh doanh cần biết kiểu mẫu hành vi mua hàng khách hàng, xu hướng kinh doanh, vv… Những thơng tin học từ liệu có sẵn Một vấn đề khó khăn việc khai phá liệu CSDL có số vơ lớn liệu cần xử lý Các tổ chức doanh nghiệp quy mơ vừa có từ hàng hàng trăm Megabyte đến vài Gigabyte liệu thu thập Các ứng dụng khai phá liệu thường thực phân tích liệu phức tạp, nhiều thời gian tồn CSDL Vì vậy, tìm thuật toán nhanh hiệu để xử lý khối lượng liệu lớn thách thức lớn Phần trình bày sở lý thuyết luật luật kết hợp, khai phá liệu dựa vào luật kết hợp, đồng thời trình bày số thuật tốn liên quan đến luật kết hợp Lý thuyết luật kết hợp Từ giới thiệu từ năm 1993, toán khai thác luật kết hợp nhận nhiều quan tâm nhiều nhà khoa học Ngày việc khai thác luật phương pháp khai thác mẫu phổ biến việc khám phá tri thức khai thác liệu (KDD: Knowledge Discovery and Data Mining) 10 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Ngành nghề Nơi làm việc Mức lương mong muốn Người tìm việc Tóm lược Họ tên Tuổi Địa Chức danh Yêu cầu Khả Yêu cầu kinh nghiệm Loại hình cơng việc Mức lương http://works.vn Việc tìm người Sơ lược Công ty Công việc mong muốn Loại hình cơng việc Nơi làm việc Ngành nghề Mức lương Trình độ học vấn Kĩ Sơ lược Quy mô Địa Chi tiết công việc Chức danh Mô tả cơng việc u cầu Loại hình cơng việc Nơi làm việc Ngành nghề Cấp bậc tối thiểu Mức lương Liên hệ Hạn nộp hồ sơ http://www.timviecnhanh.com Người tìm việc Việc tìm người Tóm lược Sơ lược Cơng ty Họ tên Cơng ty Ngày sinh Địa Giới tính Mơ tả Tình trạng nhân Điện thoại Địa Quy mơ Điện thoại Tiêu chí hoạt động Trình độ Website email Chi tiết cơng việc Chức danh/ vị trí Số lượng tuyển Lĩnh vực ngành nghề Công việc mong muốn Địa điểm làm việc Chức danh Kỹ tối thiểu Mơ tả cơng việc Trình độ tối thiểu Mức lương Kinh nghiệm yêu cầu 57 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Địa điểm Trình độ học vấn Kinh nghiệm u cầu giới tính Hình thức làm việc Mức lương 1.3 Thiết kế sở liệu: Hiện bùng nổ công nghệ thông tin, nhu cần tuyển dụng trực tuyến trở lên phù hợp với ứng viên nhà tuyển dụng so với cách tuyển dụng truyền thống Với cách tuyển dụng ứng viên hay nhà tuyển dụng cần truy cập vào website tuyển dụng tìm cơng việc, hay hồ sơ ứng viên phù hợp với khả ứng hay, nhà tuyển dụng ứng viên hộp hồ sơ trực tiếp qua email cho nhà tuyển dụng, cho ứng viên Với cách tuyển dụng giúp cho nhà quản lý đỡ thời gian việc thu thập thông tin việc làm quan quản lý nắm bắt nhu cầu việc làm xã hội từ thơng tin việc làm csdl việc làm rút tri thức hay xu hướng công việc nguồn thông tin giúp trường đại học dân lập hải phòng xác định xu hướng ngành nghề góp phần định hướng đào tạo trường Việc thu thập thông tin việc làm từ trang web cách tự động làm cho việc thu thập thơng tin cách nhanh chóng xác Do web site tổ chức dạng phân cấp, ta phải lưu lại đường dẫn(url) số thông tin quan trọng website Việc tạo sở liệu để lưu thông tin cần thiết phục vụ cho việc lấy liệu tự động từ web site giúp cho công việc lấy thông tin nhanh Thông tin cần lưu lại để phục vụ việc lấy thông tin tự động từ website bao gồm: tên website, liên kết có bên website, liệu liên kết website Ta có mơ hình sở liệu sau: Hình 10: mơ hình csdl lấy data từ website 58 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Qua tìm hiểu hồ sơ website tuyển dụng tiếng việt nam chia thành hai loại thơng tin sau: Thơng tin việc tìm người người tìm việc Các thơng tin việc tìm người bao gồm: Ngành tuyển, doanh nghiệp cần tuyển, cơng việc, mức lương, độ tuổi, giới tính Các thơng tin người tìm việc bao gồm: Ngành tuyển, người tuyển, độ tuổi, giới tính, cơng việc Bảng mơ hình người tìm việc MaNganh TenNganh Bảng Ngành Int Nvarchar(100) Bảng thơng tin tìm việc MaTTTim Int MaNganh Int TenUngVien Nvarchar(50) Dotuoi Int Gioitinh Boolean TenCv Nvarchar(30) Ta có mơ hình sở liệu quan hệ: Hình 11: mơ hình CSDL tìm việc Ta có sở liệu Việc tìm người sau: MaNganh TenNganh Bảng Ngành Int Nvarchar(100) 59 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Bảng thông tin tuyên dụng MaTTTuyen Int MaNganh Int TenDN Nvarchar(50) MucLuong Money Gioitinh Boolean TenCv Nvarchar(30) Dotuoi Int Ta có mơ hình sở liệu quan hệ: Hình 12: mơ hình CSDL tuyển dụng Từ việc phân tích trên, ta có sơ đồ quan hệ để lưu trữ liệu toán sau: 60 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Hình 13: mơ hình CSDL chương trình 1.4 Đặc tả liệu: Một đặc điểm mang tính thực tế item khơng đơn xét “Có” hay “Khơng” đếm Support mà item kèm theo trọng số mơ tả mức quan trọng item Các item ta xem xét thường dạng Boolean Chúng mang giá trị “1” item có mặt giao tác “0” ngược lại Các toán khai phá liệu người ta gọi khai phá kiểu nhị phân (Mining Boolean Association Rules) Nhưng thực tế, bảng số liệu thường xuất thuộc tính khơng đơn giản Các thuộc tính dạng số (quantitative) như: mức lương, độ tuổi, Các thuộc tính dạng Hạng mục (categorical) như: Tên Ngành, Tên Công Việc, Giới tính, … Ta phải rời rạc hóa đưa dạng toán phai phá kết hợp định lượng (Mining Quantitative Association Rules) Cũng toán khai phá luật kết hợp trước đây, mục tiêu toán khai phá luật kết hợp định lưỡng kết xuất luật kết hợp ngưỡng support tối thiểu ngưỡng confidence tối thiểu Với thuộc tính hạng mục ta phải thực phân đoạn cho thuộc tính làm dễ dàng ánh xạ thuộc tính tịnh lượng sang thuộc tính boonlean Nếu thuộc tính phân loại số lượng có vài giá trị riêng biệt( ví dụ: giới tính) ảnh xạ sau: Mỗi thuộc tính bảng 61 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm liệu có p giá trị riêng biệt lập thành p thuộc tính Boolean Mỗi thuộc tính Boolean tương ứng với cặp Nó có giá trị “1” value có mặt liệu gốc có giá trị “0” ngược lại Nếu số giá trị riêng biệt số thuộc tính lớn người ta thực việc phân đoạn thuộc tính thành khoảng ánh xạ cặp thành thuộc tính Sau ánh xạ, thực khai phá luật kết hợp CSDL thuật toán khai phá luật kết hợp kiểu Boolean Tổng quát, ta đưa số phương pháp rời rạc hoá sau: Trường hợp : Nếu A thuộc tính số rời rạc thuộc tính hạng mục có miền giá trị hữu hạng dạng {V1, V2, , Vk} k đủ nhỏ (