Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 71 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
71
Dung lượng
0,98 MB
Nội dung
Đồ án tốt nghiệp: Khai phá liệu từ website việc làm LỜI CẢM ƠN Em xin chân thành cảm ơn thầy giáo, cô giáo ngành Công nghệ thông tin – Đại Học Dân Lập Hải Phòng, tận tâm giảng dạy kiến thức năm học qua với động viên từ gia đình bạn bè chố gắng thân Đặc biệt em xin bày tỏ biết ơn sâu sắc đến thầy giáo Tiến sĩ Phùng Văn Ổn, ngƣời tận tình hƣớng dẫn, động viên em thực đồ án Rất mong đóng góp ý kiến từ tất thầy cô, bạn bè đồng nghiệp để đồ án phát triển hoàn thiện đồ án Hải phòng, tháng năm 2010 Ngƣời thực Nguyễn Ngọc Châu Đồ án tốt nghiệp: Khai phá liệu từ website việc làm MỤC LỤC LỜI CẢM ƠN MỞ ĐẦU Chƣơng 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC Tổng quan khai phá liệu I Tổ chức khai thác sở liệu truyền thống Tổng quan kỹ thuật phát tri thức khai phá liệu (KDD – Knowledge Discovery and Data Mining) Ứng dụng luật kết hợp vào khai phá liệu 10 II Lý thuyết luật kết hợp 10 Các đặc trƣng luật kết hợp 19 Một số giải thuật khai phá tập phổ biến 22 Phát sinh luật từ tập phổ biến 43 Đánh giá, nhận xét 46 Chƣơng 2: MÔ HÌNH TÌM KIẾM THÔNG TIN 47 Tìm kiếm thông tin 47 Mô hình Search engine 48 2.1 Search engine 48 2.2 Agents 49 Hoạt động Search engine 49 3.1 Hoạt động robot 50 3.2 Duyệt theo chiều rộng 50 3.3 Duyệt theo chiều sâu 51 3.4 Độ sâu giới hạn 52 3.5 Vấn đề tắc nghẽn đƣờng chuyền 52 3.6 Hạn chế robot 53 3.7 Phân tích liên kết trang web 53 3.8 Nhận dạng mã tiếng việt 53 Chƣơng 3: ỨNG DỤNG THỬ NGHIỆM KHAI PHÁ DỮ LIỆU TÍCH HỢP TỪ CÁC WEBSITE TUYỂN DỤNG 55 Bài toán: 55 1.1 Phát biểu toán: 55 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm 1.2 Một số website tìm việc làm tiểng việt nam: 55 1.3 Thiết kế sở liệu: 58 1.4 Đặc tả liệu: 61 1.5 Minh họa chƣơng trình 67 1.6 Phân tích đánh giá 69 1.7 Hƣớng phát triển 69 KẾT LUẬN 70 TÀI LIỆU THAM KHẢO 71 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm MỞ ĐẦU Trong năm gần đây, việc nắm bắt đƣợc thông tin đƣợc coi sở hoạt động sản xuất, kinh doanh Các nhân tổ chức thu thập hiểu đƣợc thông tin, hành động dựa thông tin đƣợc kết xuất từ thông tin có đạt đƣợc thành công hoạt động Sự tăng trƣởng vƣợt bậc sở liệu (CSDL) sống nhƣ: thƣơng mại, quản lý làm nảy sinh thúc đẩy phát triển kỹ thuật thu thập, lƣu trữ, phân tích khai phá liệu… không phép toán đơn giản thông thƣờng nhƣ: phép đếm, thống kê… mà đòi hỏi cách xử lý thông minh hơn, hiệu Các kỹ thuật cho phép ta khai thác đƣợc tri thức hữu dụng từ CSDL (lớn) đƣợc gọi kỹ thuật Khai phá liệu (datamining) Đồ án nghiên cứu khái niệm khai phá liệu, luật kết hợp ứng dụng thuật toán khai phá luật kết hợp CSDL lớn Cấu trúc đồ án đƣợc trình bày nhƣ sau: CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC Trình bày kiến thức tổng quan khai thác xử lý thông tin Khái niệm luật kết hợp phƣơng pháp khai phá luật kết hợp Trình bày thuật toán Apriori số thuật toán khai phá luật kết hợp CHƢƠNG 2: MÔ HÌNH TÌM KIẾM THÔNG TIN Trình bày thành phân search engine Trình bày nguyên lý hoạt động search engine số giải thuật tìm kiếm search engine CHƢƠNG 3: ỨNG DỤNG, THỬ NGHIỆM KHAI PHÁ DỮ LIỆU VIỆC LÀM TÍCH HỢP TỪ CÁC WEBSITE TUYỂN DỤNG Nội dung chƣơng áp dụng kỹ thuật khai phá liệu vào toán tìm xu hƣớng chọn ngành nghề ứng viên tuyển dụng của doanh nghiệp Cuối kết luận lại kết đạt đƣợc đề tài hƣớng phát triển tƣơng lai Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC I Tổng quan khai phá liệu Tổ chức khai thác sở liệu truyền thống Việc dùng phƣơng tiện tin học để tổ chức khai thác sở liệu (CSDL ) đƣợc phát từ năm 60 kỷ trƣớc Từ nay, nhiều CSDL đƣợc tổ chức, phát triển khai thác quy mô lĩnh vực hoạt động ngƣời xã hội Theo nhƣ đánh giá cho thấy, lƣợng thông tin giới sau 20 tháng lại tăng lên gấp đôi Kích thƣớc số lƣợng CSDL chí tăng nhanh Với phát triển công nghệ điện tử, phát triển mạnh mẽ công nghệ phần cứng tạo nhớ có dung lƣợng lớn, xử lý có tốc độ cao với phát triển hệ thống viễn thông, ngƣời ta xây dựng hệ thống thông tin nhằm tự động hoá hoạt động ngƣời Điều tạo dòng liệu tăng lên không ngừng hoạt động đơn giản nhƣ gọi điện thoại, tra cứu sách thƣ viện, đƣợc thực thông qua máy tính Cho đến nay, số lƣợng CSDL trở nên khổng lồ bao gồm CSDL cực lớn cỡ gigabytes chí terabytes lƣu trữ liệu kinh doanh ví dụ nhƣ liệu thông tin khác hàng , liệu bán hàng, liệu tài khoản, Nhiều hệ quản trị CSDL mạnh với công cụ phong phú thuận tiện giúp ngƣời khai thác có hiệu nguồn tài nguyên liệu Mô hình CSDL quan hệ ngôn ngữ vấn đáp chuẩn (SQL) có vai trò quan trọng việc tổ chức khai thác CSDL Cho đến nay, không tổ chức sử dụng tin học công việc mà không sử dụng hệ quản trị CSDL hệ công cụ báo cáo, ngôn ngữ hỏi đáp nhằm khai thác CSDL phục vụ cho hoạt động tác nghiệp Cùng với việc tăng không ngừng khối lƣợng liệu, hệ thống thông tin đƣợc chuyên môn hoá, phân chia theo lĩnh vực ứng dụng nhƣ sản xuất, tài chính, hoạt động kinh doanh, Nhƣ bên cạnh chức khai thác liệu có tính chất tác nghiệp, thành công công việc không suất hệ thống thông tin mà tính linh hoạt sẵn sàng đáp lại yêu cầu thực tế, CSDL cần đem lại “tri thức” liệu Các định cần phải có nhanh tốt phải xác dựa liệu sẵn có khối lƣợng liệu sau 20 tháng lại tăng gấp đôi làm ảnh hƣởng đến thời gian định nhƣ khả hiểu hết đƣợc nội dung liệu Lúc này, mô hình CSDL truyền thống ngôn ngữ SQL cho thấy khả thực công việc Để lấy thông tin có tính “tri thức” khối liệu khổng lồ này, ngƣời ta tìm Đồ án tốt nghiệp: Khai phá liệu từ website việc làm kỹ thuật có khả hợp liệu từ hệ thống giao dịch khác nhau, chuyển đổi thành tập hợp CSDL ổn định, có chất lƣợng đƣợc sử dụng cho riêng vài mục đích Các kỹ thuật gọi chung kỹ thuật tạo kho liệu (data warehousing) môi trƣờng liệu có đƣợc gọi kho liệu (data warehouse) Nhƣng có kho liệu chƣa đủ để có tri thức Các kho liệu đƣợc sử dụng theo số cách nhƣ: Theo cách khai thác truyền thống: tức kho liệu đƣợc sử dụng để khai thác thông tin công cụ truy vấn báo cáo Các kho liệu đƣợc sử dụng để hỗ trợ cho phân tích trực tuyến (OLAPOnLine Analytical Processing): Việc phân tích trực tuyến có khả phân tích liệu, xác định xem giả thuyết hay sai Tuy nhiên, phân tích trực tuyến lại khả đƣa giả thuyết Công nghệ khai phá liệu (data mining) đời đáp ứng đòi hỏi khoa học nhƣ hoạt động thực tiễn Đây ứng dụng kho liệu Tổng quan kỹ thuật phát tri thức khai phá liệu (KDD – Knowledge Discovery and Data Mining) 2.1 Phát tri thức khai phá liệu gì? Nếu cho điện tử sóng điện tử chất công nghệ điện tử truyền thống liệu, thông tin tri thức tiêu điểm lĩnh vực nghiên cứu ứng dụng phát tri thức (Knowledge Discovery) khai phá liệu (Data Mining) Thông thƣờng coi liệu nhƣ dãy bit, số ký hiệu, “đối tƣợng” với ý nghĩa đƣợc gửi cho chƣơng trình dƣới dạng định Chúng ta sử dụng bit để đo lƣờng thông tin xem nhƣ liệu đƣợc lọc bỏ dƣ thừa, đƣợc rút gọn tới mức tối thiểu để đặc trƣng cách cho liệu Chúng ta xem tri thức nhƣ thông tin tích hợp, bao gồm kiện mối quan hệ chúng Các mối quan hệ đƣợc hiểu ra, đƣợc phát hiện, đƣợc học Nói cách khác, tri thức đƣợc coi liệu có độ trừu tƣợng tổ chức cao Phát tri thức sở liệu qui trình nhận biết mẫu mô hình liệu với tính năng: hợp thức, mới, khả ích, hiểu đƣợc Còn khai thác liệu bƣớc qui trình phát tri thức gồm có thuật toán khai thác liệu chuyên dùng dƣới số qui định Đồ án tốt nghiệp: Khai phá liệu từ website việc làm hiệu tính toán chấp nhận đƣợc để tìm mẫu mô hình liệu Nói cách khác, mục đích phát tri thức khai phá liệu tìm mẫu và/hoặc mô hình tồn sở liệu nhƣng bị che khuất hàng núi liệu Định nghĩa: “KDD trình không tầm thƣờng nhận mẫu có giá trị, mới, hữu ích tiềm hiểu đƣợc liệu” Còn nhà thống kê xem Khai phá liệu nhƣ qui trình phân tích đƣợc thiết kế để thăm dò lƣợng cực lớn liệu nhằm phát mẫu thích hợp và/hoặc mối quan hệ mang tính hệ thống biến sau hợp thức hoá kết tìm đƣọc cách áp dụng mẫu phát đƣợc cho tập liệu Qui trình bao gồm ba giai đoạn bản: thăm dò, xây dựng mô hình định nghĩa mẫu, hợp thức/kiểm chứng 2.2 Quy trình phát tri thức Qui trình phát tri thức đƣợc mô tả tóm tắt Hình 1: Hình 1: trình phát tri thức Bƣớc thứ nhất: Hình thành, xác định định nghĩa toán Là tìm hiểu lĩnh vực ứng dụng từ hình thành toán, xác định nhiệm vụ cần phải hoàn thành Bƣớc định cho việc rút đƣợc tri thức hữu ích cho phép chọn phƣơng pháp khai phá liệu thích hợp với mục đích ứng dụng chất liệu Bƣớc thứ hai: Thu thập tiền xử lý liệu Là thu thập xử lý thô, đƣợc gọi tiền xử lý liệu nhằm loại bỏ nhiễu, xử lý việc thiếu liệu, biến đổi liệu rút gọn liệu cần thiết, bƣớc thƣờng chiếm nhiều thời gian toàn qui trình phát tri thức Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Bƣớc thứ ba: Khai phá liệu, rút tri thức Là khai phá liệu, hay nói cách khác trích mẫu và/hoặc mô hình ẩn dƣới liệu Giai đoạn quan trọng, bao gồm công đoạn nhƣ: chức năng, nhiệm vụ mục đích khai phá liệu, dùng phƣơng pháp khai phá nào? Bƣớc thứ tƣ: Sử dụng tri thức phát đƣợc Là hiểu tri thức tìm đƣợc, đặc biệt làm sáng tỏ mô tả dự đoán Các bƣớc lặp lặp lại số lần, kết thu đƣợc đƣợc lấy trung bình tất lần thực Tóm lại: KDD trình chiết xuất tri thức từ kho liệu mà khai phá liệu công đoạn quan trọng 2.3 Các phương pháp khai phá liệu KDD bao gồm hai yếu tố quan trọng thiếu đƣợc Dự đoán (Prediction) Mô tả (Description) Dự đoán: Đòi hỏi sử dụng vài biến trƣờng để dự đoán thông tin tiềm ẩn giá trị tƣơng lai biến thuộc tính mà ta quan tâm đến Mô tả: Tập trung bật lên mô hình kết mà ngƣời hiểu sâu thông tin liệu Với hai đích nêu trên, ngƣời ta thƣờng sử dụng phƣơng pháp sau cho khai phá liệu: - Phân lớp, phân loại (Classification): Là việc học hàm ánh xạ từ mẫu liệu vào số lớp đƣợc xác định trƣớc - Hồi qui (Regression): Là việc học hàm ánh xạ từ mẫu liệu thành biến dự đoán có giá trị thực - Phân nhóm (Clustering): Là việc mô tả chung để tìm tập hay nhóm, loại mô tả liệu Các nhóm tách phân cấp - Tổng hợp (Summarization): Là công việc lên quan đến phƣơng pháp tìm kiếm mô tả tập liệu, thƣờng áp dụng việc phân tích liệu có tính thăm dò báo cáo tự động - Mô hình ràng buộc (Dependency modeling): Là việc tìm kiếm mô hình mô tả phụ thuộc biến, thuộc tính theo hai mức: phụ thuộc cục vào cấu trúc mô hình, phụ thuộc vào thƣớc đo, ƣớc lƣợng định lƣợng Đồ án tốt nghiệp: Khai phá liệu từ website việc làm - Dò tìm biến đổi độ lệch (Change and Deviation Dectection): Chú ý vào thay đổi quan trọng liệu từ giá trị chuẩn đƣợc xác định trƣớc - Biểu diễn mô hình (Model Representation): Là việc dùng ngôn ngữ L_ Language để mô tả mẫu mô hình khai phá đƣợc Mô tả mô hình rõ ràng học máy tạo mẫu có mô hình xác cho liệu Tuy nhiên, mô hình lớn khả dự đoán học máy bị hạn chế Nhƣ làm cho việc tìm kiếm phức tạp nhƣ hiểu đƣợc mô hình không đơn giản - Kiểm định mô hình (Model Evaluation): Là việc đánh giá, ƣớc lƣợng mô hình chi tiết, chuẩn trình xử lý phát tri thức với ƣớc lƣợng có dự báo xác hay không có thoả mãn sở logic hay không? Ƣớc lƣợng phải đƣợc đánh giá chéo (cross validation) với việc mô tả đặc điểm bao gồm dự báo xác, tính lạ, tính hữu ích, tính hiểu đƣợc phừ hợp với mô hình Hai phƣơng pháp logic thống kê chuẩn sử dụng mô hình kiểm định - Phƣơng pháp tìm kiếm (Search Method):Gồm có hai thành phần: (1) – Trong bảng tham biến (phạm vi tìm kiếm tham số) thuật toán phải tìm kiếm tham số tronng phạm vi chuẩn mô hình kiểm định tối ƣu hoá đƣa tiêu chí (quan sát) liệu biểu diễn mô hình định (2) – Mô hình tìm kiếm, xuất nhƣ đƣờng vòng toàn phƣơng pháp tìm kiếm, biểu diễn mô hình phải thay đổi cho hệ mô hình phải thay đổi cho hệ gia phả mô hình phải đƣợc thông qua 2.4 Các lĩnh vực liên quan đến phát tri thức khai phá liệu Phát tri thức khai phá liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, sở liệu, thuật toán học, tính toán song song tốc độ cao, thu thập tri thức cho hệ chuyên gia, quan sát liệu Đặc biệt phát tri thức khai phá liệu gần gũi với lĩnh vực thống kê, sử dụng phƣơng pháp thống kê để mô hình liệu phát mẫu, luật Ngân hàng liệu (Data Warehousing) công cụ phân tích trực tuyến (OLAP) liên quan chặt chẽ với phát tri thức khai phá liệu Khai phá liệu có nhiều ứng dụng thực tế Một số ứng dụng điển hình nhƣ: - Bảo hiểm, tài thị trƣờng chứng khoán: Phân tích tình hình tài dự báo giá loại cổ phiếu thị trƣờng chứng khoán Danh mục vốn giá, lãi suất, liệu thẻ tín dụng, phát gian lận, Đồ án tốt nghiệp: Khai phá liệu từ website việc làm - Phân tích liệu hỗ trợ định - Điều trị y học chăm sóc y tế: Một số thông tin chuẩn đoán bệnh lƣu hệ thống quản lý bệnh viện Phân tích mối liên hệ triệu chứng bệnh, chuẩn đoán phƣơng pháp điều trị (chế độ dinh dƣỡng, thuốc, ) - Sản xuất chế biến: Quy trình, phƣơng pháp chế biến xử lý cố - Text mining Web mining: Phân lớp văn trang Web, tóm tắt văn bản, - Lĩnh vực khoa học: Quan sát thiên văn, liệu gene, liệu sinh vật học, tìm kiếm, so sánh hệ gene thông tin di truyền, mối liên hệ gene số bệnh di truyền, - Mạng viễn thông: Phân tích gọi điện thoại hệ thống giám sát lỗi, cố, chất lƣợng dịch vụ, II Ứng dụng luật kết hợp vào khai phá liệu Việc dự đoán thông tin có giá trị cao dựa số lƣợng liệu lớn nghiệp vụ ngày trở lên quan trọng nhiều tổ chức, doanh nghiệp Chẳng hạn, vấn đề nhà quản lý kinh doanh cần biết kiểu mẫu hành vi mua hàng khách hàng, xu hƣớng kinh doanh, vv… Những thông tin học đƣợc từ liệu có sẵn Một vấn đề khó khăn việc khai phá liệu CSDL có số vô lớn liệu cần đƣợc xử lý Các tổ chức doanh nghiệp quy mô vừa có từ hàng hàng trăm Megabyte đến vài Gigabyte liệu thu thập đƣợc Các ứng dụng khai phá liệu thƣờng thực phân tích liệu phức tạp, nhiều thời gian toàn CSDL Vì vậy, tìm thuật toán nhanh hiệu để xử lý khối lƣợng liệu lớn thách thức lớn Phần trình bày sở lý thuyết luật luật kết hợp, khai phá liệu dựa vào luật kết hợp, đồng thời trình bày số thuật toán liên quan đến luật kết hợp Lý thuyết luật kết hợp Từ đƣợc giới thiệu từ năm 1993, toán khai thác luật kết hợp nhận đƣợc nhiều quan tâm nhiều nhà khoa học Ngày việc khai thác luật nhƣ phƣơng pháp khai thác mẫu phổ biến việc khám phá tri thức khai thác liệu (KDD: Knowledge Discovery and Data Mining) 10 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Ngành nghề Nơi làm việc Mức lƣơng mong muốn Người tìm việc Tóm lược Họ tên Tuổi Địa Chức danh Yêu cầu Khả Yêu cầu kinh nghiệm Loại hình công việc Mức lƣơng http://works.vn Việc tìm người Sơ lược Công ty Công việc mong muốn Loại hình công việc Nơi làm việc Ngành nghề Mức lƣơng Trình độ học vấn Kĩ Sơ lược Quy mô Địa Chi tiết công việc Chức danh Mô tả công việc Yêu cầu Loại hình công việc Nơi làm việc Ngành nghề Cấp bậc tối thiểu Mức lƣơng Liên hệ Hạn nộp hồ sơ http://www.timviecnhanh.com Người tìm việc Việc tìm người Tóm lược Sơ lược Công ty Công ty Họ tên Địa Ngày sinh Mô tả Giới tính Điện thoại Tình trạng hôn nhân Quy mô Địa Tiêu chí hoạt động Điện thoại Website Trình độ email Chi tiết công việc Chức danh/ vị trí Số lƣợng tuyển Lĩnh vực ngành nghề Công việc mong muốn Địa điểm làm việc Chức danh Kỹ tối thiểu Mô tả công việc Trình độ tối thiểu Mức lƣơng Kinh nghiệm yêu cầu 57 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Địa điểm Trình độ học vấn Kinh nghiệm Yêu cầu giới tính Hình thức làm việc Mức lƣơng 1.3 Thiết kế sở liệu: Hiện bùng nổ công nghệ thông tin, nhu cần tuyển dụng trực tuyến trở lên phù hợp với ứng viên nhà tuyển dụng so với cách tuyển dụng truyền thống Với cách tuyển dụng ứng viên hay nhà tuyển dụng cần truy cập vào website tuyển dụng tìm công việc, hay hồ sơ ứng viên phù hợp với khả ứng hay, nhà tuyển dụng ứng viên hộp hồ sơ trực tiếp qua email cho nhà tuyển dụng, cho ứng viên Với cách tuyển dụng giúp cho nhà quản lý đỡ thời gian việc thu thập thông tin việc làm quan quản lý nắm bắt đƣợc nhu cầu việc làm xã hội từ thông tin việc làm csdl việc làm rút tri thức hay xu hƣớng công việc nguồn thông tin giúp trƣờng đại học dân lập hải phòng xác định xu hƣớng ngành nghề góp phần định hƣớng đào tạo trƣờng Việc thu thập thông tin việc làm từ trang web cách tự động làm cho việc thu thập thông tin cách nhanh chóng xác Do web site đƣợc tổ chức dƣới dạng phân cấp, ta phải lƣu lại đƣờng dẫn(url) số thông tin quan trọng website Việc tạo sở liệu để lƣu thông tin cần thiết phục vụ cho việc lấy liệu tự động từ web site giúp cho công việc lấy thông tin đƣợc nhanh Thông tin cần lƣu lại để phục vụ việc lấy thông tin tự động từ website bao gồm: tên website, liên kết có bên website, liệu liên kết website Ta có mô hình sở liệu nhƣ sau: Hình 10: mô hình csdl lấy data từ website 58 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Qua tìm hiểu hồ sơ website tuyển dụng tiếng việt nam chia thành hai loại thông tin nhƣ sau: Thông tin việc tìm ngƣời ngƣời tìm việc Các thông tin việc tìm ngƣời bao gồm: Ngành tuyển, doanh nghiệp cần tuyển, công việc, mức lƣơng, độ tuổi, giới tính Các thông tin ngƣời tìm việc bao gồm: Ngành tuyển, ngƣời tuyển, độ tuổi, giới tính, công việc Bảng mô hình ngƣời tìm việc MaNganh TenNganh Bảng Ngành Int Nvarchar(100) Bảng thông tin tìm việc MaTTTim Int MaNganh Int TenUngVien Nvarchar(50) Dotuoi Int Gioitinh Boolean TenCv Nvarchar(30) Ta có mô hình sở liệu quan hệ: Hình 11: mô hình CSDL tìm việc Ta có sở liệu Việc tìm ngƣời nhƣ sau: MaNganh TenNganh Bảng Ngành Int Nvarchar(100) 59 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Bảng thông tin tuyên dụng MaTTTuyen Int MaNganh Int TenDN Nvarchar(50) MucLuong Money Gioitinh Boolean TenCv Nvarchar(30) Dotuoi Int Ta có mô hình sở liệu quan hệ: Hình 12: mô hình CSDL tuyển dụng Từ việc phân tích nhƣ trên, ta có sơ đồ quan hệ để lƣu trữ liệu toán nhƣ sau: 60 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Hình 13: mô hình CSDL chƣơng trình 1.4 Đặc tả liệu: Một đặc điểm mang tính thực tế item không đơn đƣợc xét “Có” hay “Không” đếm Support mà item đƣợc kèm theo trọng số mô tả mức quan trọng item Các item ta xem xét thƣờng dạng Boolean Chúng mang giá trị “1” item có mặt giao tác “0” ngƣợc lại Các toán khai phá liệu nhƣ ngƣời ta gọi khai phá kiểu nhị phân (Mining Boolean Association Rules) Nhƣng thực tế, bảng số liệu thƣờng xuất thuộc tính không đơn giản nhƣ Các thuộc tính dạng số (quantitative) nhƣ: mức lƣơng, độ tuổi, Các thuộc tính dạng Hạng mục (categorical) nhƣ: Tên Ngành, Tên Công Việc, Giới tính, … Ta phải rời rạc hóa đƣa dạng toán phai phá kết hợp định lƣợng (Mining Quantitative Association Rules) Cũng nhƣ toán khai phá luật kết hợp trƣớc đây, mục tiêu toán khai phá luật kết hợp định lƣỡng kết xuất luật kết hợp ngƣỡng support tối thiểu ngƣỡng confidence tối thiểu Với thuộc tính hạng mục ta phải thực phân đoạn cho thuộc tính làm nhƣ dễ dàng ánh xạ thuộc tính tịnh lƣợng sang thuộc tính boonlean Nếu thuộc tính phân loại số lƣợng có vài giá trị riêng biệt( ví dụ: giới tính) ảnh xạ nhƣ sau: Mỗi thuộc tính bảng 61 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm liệu có p giá trị riêng biệt đƣợc lập thành p thuộc tính Boolean Mỗi thuộc tính Boolean tƣơng ứng với cặp Nó có giá trị “1” value có mặt liệu gốc có giá trị “0” ngƣợc lại Nếu số giá trị riêng biệt số thuộc tính lớn ngƣời ta thực việc phân đoạn thuộc tính thành khoảng ánh xạ cặp thành thuộc tính Sau ánh xạ, thực khai phá luật kết hợp CSDL thuật toán khai phá luật kết hợp kiểu Boolean Tổng quát, ta đƣa số phƣơng pháp rời rạc hoá nhƣ sau: Trường hợp : Nếu A thuộc tính số rời rạc thuộc tính hạng mục có miền giá trị hữu hạng dạng {V1, V2, , Vk} k đủ nhỏ (