Khai phá dữ liệu từ website việc làm

72 0 0
Khai phá dữ liệu từ website việc làm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG…………… LUẬN VĂN Khai phá liệu từ website việc làm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ án tốt nghiệp: Khai phá liệu từ website việc làm LỜI CẢM ƠN Em xin chân thành cảm ơn thầy giáo, cô giáo ngành Công nghệ thông tin – Đại Học Dân Lập Hải Phòng, tận tâm giảng dạy kiến thức năm học qua với động viên từ gia đình bạn bè chố gắng thân Đặc biệt em xin bày tỏ biết ơn sâu sắc đến thầy giáo Tiến sĩ Phùng Văn Ổn, ngƣời tận tình hƣớng dẫn, động viên em thực đồ án Rất mong đóng góp ý kiến từ tất thầy cơ, bạn bè đồng nghiệp để đồ án phát triển hoàn thiện đồ án Hải phòng, tháng năm 2010 Ngƣời thực Nguyễn Ngọc Châu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ án tốt nghiệp: Khai phá liệu từ website việc làm MỤC LỤC LỜI CẢM ƠN MỞ ĐẦU Chƣơng 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC Tổng quan khai phá liệu I Tổ chức khai thác sở liệu truyền thống Tổng quan kỹ thuật phát tri thức khai phá liệu (KDD – Knowledge Discovery and Data Mining) Ứng dụng luật kết hợp vào khai phá liệu 10 II Lý thuyết luật kết hợp 10 Các đặc trƣng luật kết hợp 19 Một số giải thuật khai phá tập phổ biến 22 Phát sinh luật từ tập phổ biến 43 Đánh giá, nhận xét 46 Chƣơng 2: MƠ HÌNH TÌM KIẾM THƠNG TIN 47 Tìm kiếm thơng tin 47 Mơ hình Search engine 48 2.1 Search engine 48 2.2 Agents 49 Hoạt động Search engine 49 3.1 Hoạt động robot 50 3.2 Duyệt theo chiều rộng 50 3.3 Duyệt theo chiều sâu 51 3.4 Độ sâu giới hạn 52 3.5 Vấn đề tắc nghẽn đƣờng chuyền 52 3.6 Hạn chế robot 53 3.7 Phân tích liên kết trang web 53 3.8 Nhận dạng mã tiếng việt 53 Chƣơng 3: ỨNG DỤNG THỬ NGHIỆM KHAI PHÁ DỮ LIỆU TÍCH HỢP TỪ CÁC WEBSITE TUYỂN DỤNG 55 Bài toán: 55 1.1 Phát biểu toán: 55 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ án tốt nghiệp: Khai phá liệu từ website việc làm 1.2 Một số website tìm việc làm tiểng việt nam: 55 1.3 Thiết kế sở liệu: 58 1.4 Đặc tả liệu: 61 1.5 Minh họa chƣơng trình 67 1.6 Phân tích đánh giá 69 1.7 Hƣớng phát triển 69 KẾT LUẬN 70 TÀI LIỆU THAM KHẢO 71 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ án tốt nghiệp: Khai phá liệu từ website việc làm MỞ ĐẦU Trong năm gần đây, việc nắm bắt đƣợc thông tin đƣợc coi sở hoạt động sản xuất, kinh doanh Các nhân tổ chức thu thập hiểu đƣợc thông tin, hành động dựa thông tin đƣợc kết xuất từ thông tin có đạt đƣợc thành cơng hoạt động Sự tăng trƣởng vƣợt bậc sở liệu (CSDL) sống nhƣ: thƣơng mại, quản lý làm nảy sinh thúc đẩy phát triển kỹ thuật thu thập, lƣu trữ, phân tích khai phá liệu… khơng phép tốn đơn giản thơng thƣờng nhƣ: phép đếm, thống kê… mà địi hỏi cách xử lý thơng minh hơn, hiệu Các kỹ thuật cho phép ta khai thác đƣợc tri thức hữu dụng từ CSDL (lớn) đƣợc gọi kỹ thuật Khai phá liệu (datamining) Đồ án nghiên cứu khái niệm khai phá liệu, luật kết hợp ứng dụng thuật toán khai phá luật kết hợp CSDL lớn Cấu trúc đồ án đƣợc trình bày nhƣ sau: CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC Trình bày kiến thức tổng quan khai thác xử lý thông tin Khái niệm luật kết hợp phƣơng pháp khai phá luật kết hợp Trình bày thuật tốn Apriori số thuật toán khai phá luật kết hợp CHƢƠNG 2: MƠ HÌNH TÌM KIẾM THƠNG TIN Trình bày thành phân search engine Trình bày nguyên lý hoạt động search engine số giải thuật tìm kiếm search engine CHƢƠNG 3: ỨNG DỤNG, THỬ NGHIỆM KHAI PHÁ DỮ LIỆU VIỆC LÀM TÍCH HỢP TỪ CÁC WEBSITE TUYỂN DỤNG Nội dung chƣơng áp dụng kỹ thuật khai phá liệu vào tốn tìm xu hƣớng chọn ngành nghề ứng viên tuyển dụng của doanh nghiệp Cuối kết luận lại kết đạt đƣợc đề tài hƣớng phát triển tƣơng lai LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC I Tổng quan khai phá liệu Tổ chức khai thác sở liệu truyền thống Việc dùng phƣơng tiện tin học để tổ chức khai thác sở liệu (CSDL ) đƣợc phát từ năm 60 kỷ trƣớc Từ nay, nhiều CSDL đƣợc tổ chức, phát triển khai thác quy mô lĩnh vực hoạt động ngƣời xã hội Theo nhƣ đánh giá cho thấy, lƣợng thông tin giới sau 20 tháng lại tăng lên gấp đơi Kích thƣớc số lƣợng CSDL chí cịn tăng nhanh Với phát triển cơng nghệ điện tử, phát triển mạnh mẽ công nghệ phần cứng tạo nhớ có dung lƣợng lớn, xử lý có tốc độ cao với phát triển hệ thống viễn thông, ngƣời ta xây dựng hệ thống thơng tin nhằm tự động hố hoạt động ngƣời Điều tạo dòng liệu tăng lên khơng ngừng hoạt động đơn giản nhƣ gọi điện thoại, tra cứu sách thƣ viện, đƣợc thực thông qua máy tính Cho đến nay, số lƣợng CSDL trở nên khổng lồ bao gồm CSDL cực lớn cỡ gigabytes chí terabytes lƣu trữ liệu kinh doanh ví dụ nhƣ liệu thơng tin khác hàng , liệu bán hàng, liệu tài khoản, Nhiều hệ quản trị CSDL mạnh với công cụ phong phú thuận tiện giúp ngƣời khai thác có hiệu nguồn tài nguyên liệu Mơ hình CSDL quan hệ ngơn ngữ vấn đáp chuẩn (SQL) có vai trị quan trọng việc tổ chức khai thác CSDL Cho đến nay, không tổ chức sử dụng tin học công việc mà không sử dụng hệ quản trị CSDL hệ công cụ báo cáo, ngôn ngữ hỏi đáp nhằm khai thác CSDL phục vụ cho hoạt động tác nghiệp Cùng với việc tăng không ngừng khối lƣợng liệu, hệ thống thơng tin đƣợc chun mơn hố, phân chia theo lĩnh vực ứng dụng nhƣ sản xuất, tài chính, hoạt động kinh doanh, Nhƣ bên cạnh chức khai thác liệu có tính chất tác nghiệp, thành cơng cơng việc khơng cịn suất hệ thống thơng tin mà tính linh hoạt sẵn sàng đáp lại yêu cầu thực tế, CSDL cần đem lại “tri thức” liệu Các định cần phải có nhanh tốt phải xác dựa liệu sẵn có khối lƣợng liệu sau 20 tháng lại tăng gấp đôi làm ảnh hƣởng đến thời gian định nhƣ khả hiểu hết đƣợc nội dung liệu Lúc này, mơ hình CSDL truyền thống ngơn ngữ SQL cho thấy khơng có khả thực công việc Để lấy thông tin có tính “tri thức” khối liệu khổng lồ này, ngƣời ta tìm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ án tốt nghiệp: Khai phá liệu từ website việc làm kỹ thuật có khả hợp liệu từ hệ thống giao dịch khác nhau, chuyển đổi thành tập hợp CSDL ổn định, có chất lƣợng đƣợc sử dụng cho riêng vài mục đích Các kỹ thuật gọi chung kỹ thuật tạo kho liệu (data warehousing) môi trƣờng liệu có đƣợc gọi kho liệu (data warehouse) Nhƣng có kho liệu thơi chƣa đủ để có tri thức Các kho liệu đƣợc sử dụng theo số cách nhƣ: Theo cách khai thác truyền thống: tức kho liệu đƣợc sử dụng để khai thác thông tin công cụ truy vấn báo cáo Các kho liệu đƣợc sử dụng để hỗ trợ cho phân tích trực tuyến (OLAPOnLine Analytical Processing): Việc phân tích trực tuyến có khả phân tích liệu, xác định xem giả thuyết hay sai Tuy nhiên, phân tích trực tuyến lại khơng có khả đƣa giả thuyết Công nghệ khai phá liệu (data mining) đời đáp ứng đòi hỏi khoa học nhƣ hoạt động thực tiễn Đây ứng dụng kho liệu Tổng quan kỹ thuật phát tri thức khai phá liệu (KDD – Knowledge Discovery and Data Mining) 2.1 Phát tri thức khai phá liệu gì? Nếu cho điện tử sóng điện tử chất cơng nghệ điện tử truyền thống liệu, thơng tin tri thức tiêu điểm lĩnh vực nghiên cứu ứng dụng phát tri thức (Knowledge Discovery) khai phá liệu (Data Mining) Thông thƣờng coi liệu nhƣ dãy bit, số ký hiệu, “đối tƣợng” với ý nghĩa đƣợc gửi cho chƣơng trình dƣới dạng định Chúng ta sử dụng bit để đo lƣờng thơng tin xem nhƣ liệu đƣợc lọc bỏ dƣ thừa, đƣợc rút gọn tới mức tối thiểu để đặc trƣng cách cho liệu Chúng ta xem tri thức nhƣ thơng tin tích hợp, bao gồm kiện mối quan hệ chúng Các mối quan hệ đƣợc hiểu ra, đƣợc phát hiện, đƣợc học Nói cách khác, tri thức đƣợc coi liệu có độ trừu tƣợng tổ chức cao Phát tri thức sở liệu qui trình nhận biết mẫu mơ hình liệu với tính năng: hợp thức, mới, khả ích, hiểu đƣợc Còn khai thác liệu bƣớc qui trình phát tri thức gồm có thuật toán khai thác liệu chuyên dùng dƣới số qui định LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ án tốt nghiệp: Khai phá liệu từ website việc làm hiệu tính tốn chấp nhận đƣợc để tìm mẫu mơ hình liệu Nói cách khác, mục đích phát tri thức khai phá liệu tìm mẫu và/hoặc mơ hình tồn sở liệu nhƣng bị che khuất hàng núi liệu Định nghĩa: “KDD q trình khơng tầm thƣờng nhận mẫu có giá trị, mới, hữu ích tiềm hiểu đƣợc liệu” Còn nhà thống kê xem Khai phá liệu nhƣ qui trình phân tích đƣợc thiết kế để thăm dị lƣợng cực lớn liệu nhằm phát mẫu thích hợp và/hoặc mối quan hệ mang tính hệ thống biến sau hợp thức hố kết tìm đƣọc cách áp dụng mẫu phát đƣợc cho tập liệu Qui trình bao gồm ba giai đoạn bản: thăm dò, xây dựng mơ hình định nghĩa mẫu, hợp thức/kiểm chứng 2.2 Quy trình phát tri thức Qui trình phát tri thức đƣợc mơ tả tóm tắt Hình 1: Hình 1: trình phát tri thức Bƣớc thứ nhất: Hình thành, xác định định nghĩa tốn Là tìm hiểu lĩnh vực ứng dụng từ hình thành tốn, xác định nhiệm vụ cần phải hoàn thành Bƣớc định cho việc rút đƣợc tri thức hữu ích cho phép chọn phƣơng pháp khai phá liệu thích hợp với mục đích ứng dụng chất liệu Bƣớc thứ hai: Thu thập tiền xử lý liệu Là thu thập xử lý thô, đƣợc gọi tiền xử lý liệu nhằm loại bỏ nhiễu, xử lý việc thiếu liệu, biến đổi liệu rút gọn liệu cần thiết, bƣớc thƣờng chiếm nhiều thời gian tồn qui trình phát tri thức LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Bƣớc thứ ba: Khai phá liệu, rút tri thức Là khai phá liệu, hay nói cách khác trích mẫu và/hoặc mơ hình ẩn dƣới liệu Giai đoạn quan trọng, bao gồm công đoạn nhƣ: chức năng, nhiệm vụ mục đích khai phá liệu, dùng phƣơng pháp khai phá nào? Bƣớc thứ tƣ: Sử dụng tri thức phát đƣợc Là hiểu tri thức tìm đƣợc, đặc biệt làm sáng tỏ mơ tả dự đốn Các bƣớc lặp lặp lại số lần, kết thu đƣợc đƣợc lấy trung bình tất lần thực Tóm lại: KDD q trình chiết xuất tri thức từ kho liệu mà khai phá liệu cơng đoạn quan trọng 2.3 Các phương pháp khai phá liệu KDD bao gồm hai yếu tố quan trọng thiếu đƣợc Dự đốn (Prediction) Mơ tả (Description) Dự đốn: Địi hỏi sử dụng vài biến trƣờng để dự đốn thơng tin tiềm ẩn giá trị tƣơng lai biến thuộc tính mà ta quan tâm đến Mô tả: Tập trung bật lên mơ hình kết mà ngƣời hiểu sâu thông tin liệu Với hai đích nêu trên, ngƣời ta thƣờng sử dụng phƣơng pháp sau cho khai phá liệu: - Phân lớp, phân loại (Classification): Là việc học hàm ánh xạ từ mẫu liệu vào số lớp đƣợc xác định trƣớc - Hồi qui (Regression): Là việc học hàm ánh xạ từ mẫu liệu thành biến dự đốn có giá trị thực - Phân nhóm (Clustering): Là việc mơ tả chung để tìm tập hay nhóm, loại mơ tả liệu Các nhóm tách phân cấp - Tổng hợp (Summarization): Là cơng việc lên quan đến phƣơng pháp tìm kiếm mô tả tập liệu, thƣờng áp dụng việc phân tích liệu có tính thăm dị báo cáo tự động - Mơ hình ràng buộc (Dependency modeling): Là việc tìm kiếm mơ hình mơ tả phụ thuộc biến, thuộc tính theo hai mức: phụ thuộc cục vào cấu trúc mơ hình, phụ thuộc vào thƣớc đo, ƣớc lƣợng định lƣợng LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ án tốt nghiệp: Khai phá liệu từ website việc làm - Dị tìm biến đổi độ lệch (Change and Deviation Dectection): Chú ý vào thay đổi quan trọng liệu từ giá trị chuẩn đƣợc xác định trƣớc - Biểu diễn mơ hình (Model Representation): Là việc dùng ngơn ngữ L_ Language để mơ tả mẫu mơ hình khai phá đƣợc Mơ tả mơ hình rõ ràng học máy tạo mẫu có mơ hình xác cho liệu Tuy nhiên, mơ hình q lớn khả dự đoán học máy bị hạn chế Nhƣ làm cho việc tìm kiếm phức tạp nhƣ hiểu đƣợc mơ hình khơng đơn giản - Kiểm định mơ hình (Model Evaluation): Là việc đánh giá, ƣớc lƣợng mơ hình chi tiết, chuẩn trình xử lý phát tri thức với ƣớc lƣợng có dự báo xác hay khơng có thoả mãn sở logic hay không? Ƣớc lƣợng phải đƣợc đánh giá chéo (cross validation) với việc mô tả đặc điểm bao gồm dự báo xác, tính lạ, tính hữu ích, tính hiểu đƣợc phừ hợp với mơ hình Hai phƣơng pháp logic thống kê chuẩn sử dụng mơ hình kiểm định - Phƣơng pháp tìm kiếm (Search Method):Gồm có hai thành phần: (1) – Trong bảng tham biến (phạm vi tìm kiếm tham số) thuật tốn phải tìm kiếm tham số tronng phạm vi chuẩn mơ hình kiểm định tối ƣu hố đƣa tiêu chí (quan sát) liệu biểu diễn mơ hình định (2) – Mơ hình tìm kiếm, xuất nhƣ đƣờng vịng tồn phƣơng pháp tìm kiếm, biểu diễn mơ hình phải thay đổi cho hệ mơ hình phải thay đổi cho hệ gia phả mơ hình phải đƣợc thông qua 2.4 Các lĩnh vực liên quan đến phát tri thức khai phá liệu Phát tri thức khai phá liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, sở liệu, thuật tốn học, tính tốn song song tốc độ cao, thu thập tri thức cho hệ chuyên gia, quan sát liệu Đặc biệt phát tri thức khai phá liệu gần gũi với lĩnh vực thống kê, sử dụng phƣơng pháp thống kê để mơ hình liệu phát mẫu, luật Ngân hàng liệu (Data Warehousing) cơng cụ phân tích trực tuyến (OLAP) liên quan chặt chẽ với phát tri thức khai phá liệu Khai phá liệu có nhiều ứng dụng thực tế Một số ứng dụng điển hình nhƣ: - Bảo hiểm, tài thị trƣờng chứng khốn: Phân tích tình hình tài dự báo giá loại cổ phiếu thị trƣờng chứng khoán Danh mục vốn giá, lãi suất, liệu thẻ tín dụng, phát gian lận, LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Ngành nghề Nơi làm việc Mức lƣơng mong muốn Người tìm việc Tóm lược Họ tên Tuổi Địa Chức danh Yêu cầu Khả u cầu kinh nghiệm Loại hình cơng việc Mức lƣơng http://works.vn Việc tìm người Sơ lược Cơng ty Cơng việc mong muốn Loại hình cơng việc Nơi làm việc Ngành nghề Mức lƣơng Trình độ học vấn Kĩ Sơ lược Quy mô Địa Chi tiết công việc Chức danh Mơ tả cơng việc u cầu Loại hình công việc Nơi làm việc Ngành nghề Cấp bậc tối thiểu Mức lƣơng Liên hệ Hạn nộp hồ sơ http://www.timviecnhanh.com Người tìm việc Việc tìm người Tóm lược Sơ lược Công ty Công ty Họ tên Địa Ngày sinh Mơ tả Giới tính Điện thoại Tình trạng nhân Quy mơ Địa Tiêu chí hoạt động Điện thoại Website Trình độ email Chi tiết cơng việc Chức danh/ vị trí Số lƣợng tuyển Lĩnh vực ngành nghề Công việc mong muốn Địa điểm làm việc Chức danh Kỹ tối thiểu Mơ tả cơng việc Trình độ tối thiểu Mức lƣơng Kinh nghiệm yêu cầu 57 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Địa điểm Trình độ học vấn Kinh nghiệm Yêu cầu giới tính Hình thức làm việc Mức lƣơng 1.3 Thiết kế sở liệu: Hiện bùng nổ công nghệ thông tin, nhu cần tuyển dụng trực tuyến trở lên phù hợp với ứng viên nhà tuyển dụng so với cách tuyển dụng truyền thống Với cách tuyển dụng ứng viên hay nhà tuyển dụng cần truy cập vào website tuyển dụng tìm cơng việc, hay hồ sơ ứng viên phù hợp với khả ứng hay, nhà tuyển dụng ứng viên hộp hồ sơ trực tiếp qua email cho nhà tuyển dụng, cho ứng viên Với cách tuyển dụng giúp cho nhà quản lý đỡ thời gian việc thu thập thông tin việc làm quan quản lý nắm bắt đƣợc nhu cầu việc làm xã hội từ thơng tin việc làm csdl việc làm rút tri thức hay xu hƣớng công việc nguồn thông tin giúp trƣờng đại học dân lập hải phòng xác định xu hƣớng ngành nghề góp phần định hƣớng đào tạo trƣờng Việc thu thập thông tin việc làm từ trang web cách tự động làm cho việc thu thập thơng tin cách nhanh chóng xác Do web site đƣợc tổ chức dƣới dạng phân cấp, ta phải lƣu lại đƣờng dẫn(url) số thông tin quan trọng website Việc tạo sở liệu để lƣu thông tin cần thiết phục vụ cho việc lấy liệu tự động từ web site giúp cho công việc lấy thông tin đƣợc nhanh Thông tin cần lƣu lại để phục vụ việc lấy thông tin tự động từ website bao gồm: tên website, liên kết có bên website, liệu liên kết website Ta có mơ hình sở liệu nhƣ sau: Hình 10: mơ hình csdl lấy data từ website 58 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Qua tìm hiểu hồ sơ website tuyển dụng tiếng việt nam chia thành hai loại thơng tin nhƣ sau: Thơng tin việc tìm ngƣời ngƣời tìm việc Các thơng tin việc tìm ngƣời bao gồm: Ngành tuyển, doanh nghiệp cần tuyển, công việc, mức lƣơng, độ tuổi, giới tính Các thơng tin ngƣời tìm việc bao gồm: Ngành tuyển, ngƣời tuyển, độ tuổi, giới tính, cơng việc Bảng mơ hình ngƣời tìm việc MaNganh TenNganh Bảng Ngành Int Nvarchar(100) Bảng thơng tin tìm việc MaTTTim Int MaNganh Int TenUngVien Nvarchar(50) Dotuoi Int Gioitinh Boolean TenCv Nvarchar(30) Ta có mơ hình sở liệu quan hệ: Hình 11: mơ hình CSDL tìm việc Ta có sở liệu Việc tìm ngƣời nhƣ sau: MaNganh TenNganh Bảng Ngành Int Nvarchar(100) 59 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Bảng thông tin tuyên dụng MaTTTuyen Int MaNganh Int TenDN Nvarchar(50) MucLuong Money Gioitinh Boolean TenCv Nvarchar(30) Dotuoi Int Ta có mơ hình sở liệu quan hệ: Hình 12: mơ hình CSDL tuyển dụng Từ việc phân tích nhƣ trên, ta có sơ đồ quan hệ để lƣu trữ liệu toán nhƣ sau: 60 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Hình 13: mơ hình CSDL chƣơng trình 1.4 Đặc tả liệu: Một đặc điểm mang tính thực tế item không đơn đƣợc xét “Có” hay “Khơng” đếm Support mà item đƣợc kèm theo trọng số mô tả mức quan trọng item Các item ta xem xét thƣờng dạng Boolean Chúng mang giá trị “1” item có mặt giao tác “0” ngƣợc lại Các toán khai phá liệu nhƣ ngƣời ta gọi khai phá kiểu nhị phân (Mining Boolean Association Rules) Nhƣng thực tế, bảng số liệu thƣờng xuất thuộc tính khơng đơn giản nhƣ Các thuộc tính dạng số (quantitative) nhƣ: mức lƣơng, độ tuổi, Các thuộc tính dạng Hạng mục (categorical) nhƣ: Tên Ngành, Tên Cơng Việc, Giới tính, … Ta phải rời rạc hóa đƣa dạng tốn phai phá kết hợp định lƣợng (Mining Quantitative Association Rules) Cũng nhƣ toán khai phá luật kết hợp trƣớc đây, mục tiêu toán khai phá luật kết hợp định lƣỡng kết xuất luật kết hợp ngƣỡng support tối thiểu ngƣỡng confidence tối thiểu Với thuộc tính hạng mục ta phải thực phân đoạn cho thuộc tính làm nhƣ dễ dàng ánh xạ thuộc tính tịnh lƣợng sang thuộc tính boonlean Nếu thuộc tính phân loại số lƣợng có vài giá trị riêng biệt( ví dụ: giới tính) ảnh xạ nhƣ sau: Mỗi thuộc tính bảng 61 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ án tốt nghiệp: Khai phá liệu từ website việc làm liệu có p giá trị riêng biệt đƣợc lập thành p thuộc tính Boolean Mỗi thuộc tính Boolean tƣơng ứng với cặp Nó có giá trị “1” value có mặt liệu gốc có giá trị “0” ngƣợc lại Nếu số giá trị riêng biệt số thuộc tính lớn ngƣời ta thực việc phân đoạn thuộc tính thành khoảng ánh xạ cặp thành thuộc tính Sau ánh xạ, thực khai phá luật kết hợp CSDL thuật toán khai phá luật kết hợp kiểu Boolean Tổng quát, ta đƣa số phƣơng pháp rời rạc hoá nhƣ sau: Trường hợp : Nếu A thuộc tính số rời rạc thuộc tính hạng mục có miền giá trị hữu hạng dạng {V1, V2, , Vk} k đủ nhỏ (

Ngày đăng: 01/11/2022, 15:55

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan