Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 71 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
71
Dung lượng
0,93 MB
Nội dung
Đồ án tốt nghiệp: Khai phá liệu từ website việc làm LỜI CẢM ƠN Em xin chân thành cảm ơn thầy giáo, cô giáo ngành Công nghệ thơng tin – Đại Học Dân Lập Hải Phịng, tận tâm giảng dạy kiến thức năm học qua với động viên từ gia đình bạn bè chố gắng thân Đặc biệt em xin bày tỏ biết ơn sâu sắc đến thầy giáo Tiến sĩ Phùng Văn Ổn, ngƣời tận tình hƣớng dẫn, động viên em thực đồ án Rất mong đóng góp ý kiến từ tất thầy cô, bạn bè đồng nghiệp để đồ án phát triển hồn thiện đồ án Hải phòng, tháng năm 2010 Ngƣời thực Nguyễn Ngọc Châu Đồ án tốt nghiệp: Khai phá liệu từ website việc làm MỤC LỤC LỜI CẢM ƠN MỞ ĐẦU Chƣơng 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC I Tổng quan khai phá liệu Tổ chức khai thác sở liệu truyền thống Tổng quan kỹ thuật phát tri thức khai phá liệu (KDD – Knowledge Discovery and Data Mining) Ứng dụng luật kết hợp vào khai phá liệu 10 II Lý thuyết luật kết hợp 10 Các đặc trƣng luật kết hợp 19 Một số giải thuật khai phá tập phổ biến 22 Phát sinh luật từ tập phổ biến 43 Đánh giá, nhận xét 46 Chƣơng 2: MƠ HÌNH TÌM KIẾM THƠNG TIN 47 Tìm kiếm thơng tin 47 Mơ hình Search engine 48 2.1 Search engine 48 2.2 Agents 49 Hoạt động Search engine 49 3.1 Hoạt động robot 50 3.2 Duyệt theo chiều rộng 50 3.3 Duyệt theo chiều sâu 51 3.4 Độ sâu giới hạn 52 3.5 Vấn đề tắc nghẽn đƣờng chuyền 52 3.6 Hạn chế robot 53 3.7 Phân tích liên kết trang web 53 3.8 Nhận dạng mã tiếng việt 53 Chƣơng 3: ỨNG DỤNG THỬ NGHIỆM KHAI PHÁ DỮ LIỆU TÍCH HỢP TỪ CÁC WEBSITE TUYỂN DỤNG 55 Bài toán: 55 1.1 Phát biểu toán: 55 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm 1.2 Một số website tìm việc làm tiểng việt nam: 55 1.3 Thiết kế sở liệu: 58 1.4 Đặc tả liệu: 61 1.5 Minh họa chƣơng trình 67 1.6 Phân tích đánh giá 69 1.7 Hƣớng phát triển 69 KẾT LUẬN 70 TÀI LIỆU THAM KHẢO 71 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm MỞ ĐẦU Trong năm gần đây, việc nắm bắt đƣợc thông tin đƣợc coi sở hoạt động sản xuất, kinh doanh Các nhân tổ chức thu thập hiểu đƣợc thông tin, hành động dựa thông tin đƣợc kết xuất từ thơng tin có đạt đƣợc thành cơng hoạt động Sự tăng trƣởng vƣợt bậc sở liệu (CSDL) sống nhƣ: thƣơng mại, quản lý làm nảy sinh thúc đẩy phát triển kỹ thuật thu thập, lƣu trữ, phân tích khai phá liệu… khơng phép tốn đơn giản thơng thƣờng nhƣ: phép đếm, thống kê… mà địi hỏi cách xử lý thơng minh hơn, hiệu Các kỹ thuật cho phép ta khai thác đƣợc tri thức hữu dụng từ CSDL (lớn) đƣợc gọi kỹ thuật Khai phá liệu (datamining) Đồ án nghiên cứu khái niệm khai phá liệu, luật kết hợp ứng dụng thuật toán khai phá luật kết hợp CSDL lớn Cấu trúc đồ án đƣợc trình bày nhƣ sau: CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC Trình bày kiến thức tổng quan khai thác xử lý thông tin Khái niệm luật kết hợp phƣơng pháp khai phá luật kết hợp Trình bày thuật toán Apriori số thuật toán khai phá luật kết hợp CHƢƠNG 2: MƠ HÌNH TÌM KIẾM THƠNG TIN Trình bày thành phân search engine Trình bày nguyên lý hoạt động search engine số giải thuật tìm kiếm search engine CHƢƠNG 3: ỨNG DỤNG, THỬ NGHIỆM KHAI PHÁ DỮ LIỆU VIỆC LÀM TÍCH HỢP TỪ CÁC WEBSITE TUYỂN DỤNG Nội dung chƣơng áp dụng kỹ thuật khai phá liệu vào tốn tìm xu hƣớng chọn ngành nghề ứng viên tuyển dụng của doanh nghiệp Cuối kết luận lại kết đạt đƣợc đề tài hƣớng phát triển tƣơng lai Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC I Tổng quan khai phá liệu Tổ chức khai thác sở liệu truyền thống Việc dùng phƣơng tiện tin học để tổ chức khai thác sở liệu (CSDL ) đƣợc phát từ năm 60 kỷ trƣớc Từ nay, nhiều CSDL đƣợc tổ chức, phát triển khai thác quy mô lĩnh vực hoạt động ngƣời xã hội Theo nhƣ đánh giá cho thấy, lƣợng thông tin giới sau 20 tháng lại tăng lên gấp đơi Kích thƣớc số lƣợng CSDL chí cịn tăng nhanh Với phát triển công nghệ điện tử, phát triển mạnh mẽ công nghệ phần cứng tạo nhớ có dung lƣợng lớn, xử lý có tốc độ cao với phát triển hệ thống viễn thông, ngƣời ta xây dựng hệ thống thơng tin nhằm tự động hố hoạt động ngƣời Điều tạo dịng liệu tăng lên khơng ngừng hoạt động đơn giản nhƣ gọi điện thoại, tra cứu sách thƣ viện, đƣợc thực thơng qua máy tính Cho đến nay, số lƣợng CSDL trở nên khổng lồ bao gồm CSDL cực lớn cỡ gigabytes chí terabytes lƣu trữ liệu kinh doanh ví dụ nhƣ liệu thông tin khác hàng , liệu bán hàng, liệu tài khoản, Nhiều hệ quản trị CSDL mạnh với công cụ phong phú thuận tiện giúp ngƣời khai thác có hiệu nguồn tài ngun liệu Mơ hình CSDL quan hệ ngơn ngữ vấn đáp chuẩn (SQL) có vai trị quan trọng việc tổ chức khai thác CSDL Cho đến nay, không tổ chức sử dụng tin học công việc mà không sử dụng hệ quản trị CSDL hệ công cụ báo cáo, ngôn ngữ hỏi đáp nhằm khai thác CSDL phục vụ cho hoạt động tác nghiệp Cùng với việc tăng khơng ngừng khối lƣợng liệu, hệ thống thông tin đƣợc chuyên môn hoá, phân chia theo lĩnh vực ứng dụng nhƣ sản xuất, tài chính, hoạt động kinh doanh, Nhƣ bên cạnh chức khai thác liệu có tính chất tác nghiệp, thành cơng cơng việc khơng cịn suất hệ thống thông tin mà tính linh hoạt sẵn sàng đáp lại yêu cầu thực tế, CSDL cần đem lại “tri thức” liệu Các định cần phải có nhanh tốt phải xác dựa liệu sẵn có khối lƣợng liệu sau 20 tháng lại tăng gấp đôi làm ảnh hƣởng đến thời gian định nhƣ khả hiểu hết đƣợc nội dung liệu Lúc này, mô hình CSDL truyền thống ngơn ngữ SQL cho thấy khơng có khả thực cơng việc Để lấy thơng tin có tính “tri thức” khối liệu khổng lồ này, ngƣời ta tìm Đồ án tốt nghiệp: Khai phá liệu từ website việc làm kỹ thuật có khả hợp liệu từ hệ thống giao dịch khác nhau, chuyển đổi thành tập hợp CSDL ổn định, có chất lƣợng đƣợc sử dụng cho riêng vài mục đích Các kỹ thuật gọi chung kỹ thuật tạo kho liệu (data warehousing) mơi trƣờng liệu có đƣợc gọi kho liệu (data warehouse) Nhƣng có kho liệu thơi chƣa đủ để có tri thức Các kho liệu đƣợc sử dụng theo số cách nhƣ: Theo cách khai thác truyền thống: tức kho liệu đƣợc sử dụng để khai thác thông tin công cụ truy vấn báo cáo Các kho liệu đƣợc sử dụng để hỗ trợ cho phân tích trực tuyến (OLAPOnLine Analytical Processing): Việc phân tích trực tuyến có khả phân tích liệu, xác định xem giả thuyết hay sai Tuy nhiên, phân tích trực tuyến lại khơng có khả đƣa giả thuyết Công nghệ khai phá liệu (data mining) đời đáp ứng đòi hỏi khoa học nhƣ hoạt động thực tiễn Đây ứng dụng kho liệu Tổng quan kỹ thuật phát tri thức khai phá liệu (KDD – Knowledge Discovery and Data Mining) 2.1 Phát tri thức khai phá liệu gì? Nếu cho điện tử sóng điện tử chất cơng nghệ điện tử truyền thống liệu, thông tin tri thức tiêu điểm lĩnh vực nghiên cứu ứng dụng phát tri thức (Knowledge Discovery) khai phá liệu (Data Mining) Thông thƣờng coi liệu nhƣ dãy bit, số ký hiệu, “đối tƣợng” với ý nghĩa đƣợc gửi cho chƣơng trình dƣới dạng định Chúng ta sử dụng bit để đo lƣờng thông tin xem nhƣ liệu đƣợc lọc bỏ dƣ thừa, đƣợc rút gọn tới mức tối thiểu để đặc trƣng cách cho liệu Chúng ta xem tri thức nhƣ thơng tin tích hợp, bao gồm kiện mối quan hệ chúng Các mối quan hệ đƣợc hiểu ra, đƣợc phát hiện, đƣợc học Nói cách khác, tri thức đƣợc coi liệu có độ trừu tƣợng tổ chức cao Phát tri thức sở liệu qui trình nhận biết mẫu mơ hình liệu với tính năng: hợp thức, mới, khả ích, hiểu đƣợc Cịn khai thác liệu bƣớc qui trình phát tri thức gồm có thuật tốn khai thác liệu chuyên dùng dƣới số qui định Đồ án tốt nghiệp: Khai phá liệu từ website việc làm hiệu tính tốn chấp nhận đƣợc để tìm mẫu mơ hình liệu Nói cách khác, mục đích phát tri thức khai phá liệu tìm mẫu và/hoặc mơ hình tồn sở liệu nhƣng bị che khuất hàng núi liệu Định nghĩa: “KDD q trình khơng tầm thƣờng nhận mẫu có giá trị, mới, hữu ích tiềm hiểu đƣợc liệu” Cịn nhà thống kê xem Khai phá liệu nhƣ qui trình phân tích đƣợc thiết kế để thăm dị lƣợng cực lớn liệu nhằm phát mẫu thích hợp và/hoặc mối quan hệ mang tính hệ thống biến sau hợp thức hố kết tìm đƣọc cách áp dụng mẫu phát đƣợc cho tập liệu Qui trình bao gồm ba giai đoạn bản: thăm dị, xây dựng mơ hình định nghĩa mẫu, hợp thức/kiểm chứng 2.2 Quy trình phát tri thức Qui trình phát tri thức đƣợc mơ tả tóm tắt Hình 1: Hình 1: trình phát tri thức Bƣớc thứ nhất: Hình thành, xác định định nghĩa tốn Là tìm hiểu lĩnh vực ứng dụng từ hình thành tốn, xác định nhiệm vụ cần phải hồn thành Bƣớc định cho việc rút đƣợc tri thức hữu ích cho phép chọn phƣơng pháp khai phá liệu thích hợp với mục đích ứng dụng chất liệu Bƣớc thứ hai: Thu thập tiền xử lý liệu Là thu thập xử lý thơ, cịn đƣợc gọi tiền xử lý liệu nhằm loại bỏ nhiễu, xử lý việc thiếu liệu, biến đổi liệu rút gọn liệu cần thiết, bƣớc thƣờng chiếm nhiều thời gian toàn qui trình phát tri thức Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Bƣớc thứ ba: Khai phá liệu, rút tri thức Là khai phá liệu, hay nói cách khác trích mẫu và/hoặc mơ hình ẩn dƣới liệu Giai đoạn quan trọng, bao gồm công đoạn nhƣ: chức năng, nhiệm vụ mục đích khai phá liệu, dùng phƣơng pháp khai phá nào? Bƣớc thứ tƣ: Sử dụng tri thức phát đƣợc Là hiểu tri thức tìm đƣợc, đặc biệt làm sáng tỏ mô tả dự đốn Các bƣớc lặp lặp lại số lần, kết thu đƣợc đƣợc lấy trung bình tất lần thực Tóm lại: KDD q trình chiết xuất tri thức từ kho liệu mà khai phá liệu cơng đoạn quan trọng 2.3 Các phương pháp khai phá liệu KDD bao gồm hai yếu tố quan trọng thiếu đƣợc Dự đốn (Prediction) Mơ tả (Description) Dự đốn: Địi hỏi sử dụng vài biến trƣờng để dự đốn thơng tin tiềm ẩn giá trị tƣơng lai biến thuộc tính mà ta quan tâm đến Mô tả: Tập trung bật lên mơ hình kết mà ngƣời hiểu sâu thơng tin liệu Với hai đích nêu trên, ngƣời ta thƣờng sử dụng phƣơng pháp sau cho khai phá liệu: - Phân lớp, phân loại (Classification): Là việc học hàm ánh xạ từ mẫu liệu vào số lớp đƣợc xác định trƣớc - Hồi qui (Regression): Là việc học hàm ánh xạ từ mẫu liệu thành biến dự đoán có giá trị thực - Phân nhóm (Clustering): Là việc mơ tả chung để tìm tập hay nhóm, loại mơ tả liệu Các nhóm tách phân cấp - Tổng hợp (Summarization): Là cơng việc lên quan đến phƣơng pháp tìm kiếm mô tả tập liệu, thƣờng áp dụng việc phân tích liệu có tính thăm dị báo cáo tự động - Mơ hình ràng buộc (Dependency modeling): Là việc tìm kiếm mơ hình mơ tả phụ thuộc biến, thuộc tính theo hai mức: phụ thuộc cục vào cấu trúc mơ hình, phụ thuộc vào thƣớc đo, ƣớc lƣợng định lƣợng Đồ án tốt nghiệp: Khai phá liệu từ website việc làm - Dò tìm biến đổi độ lệch (Change and Deviation Dectection): Chú ý vào thay đổi quan trọng liệu từ giá trị chuẩn đƣợc xác định trƣớc - Biểu diễn mơ hình (Model Representation): Là việc dùng ngơn ngữ L_ Language để mơ tả mẫu mơ hình khai phá đƣợc Mơ tả mơ hình rõ ràng học máy tạo mẫu có mơ hình xác cho liệu Tuy nhiên, mơ hình q lớn khả dự đốn học máy bị hạn chế Nhƣ làm cho việc tìm kiếm phức tạp nhƣ hiểu đƣợc mơ hình khơng đơn giản - Kiểm định mơ hình (Model Evaluation): Là việc đánh giá, ƣớc lƣợng mơ hình chi tiết, chuẩn trình xử lý phát tri thức với ƣớc lƣợng có dự báo xác hay khơng có thoả mãn sở logic hay không? Ƣớc lƣợng phải đƣợc đánh giá chéo (cross validation) với việc mô tả đặc điểm bao gồm dự báo xác, tính lạ, tính hữu ích, tính hiểu đƣợc phừ hợp với mơ hình Hai phƣơng pháp logic thống kê chuẩn sử dụng mơ hình kiểm định - Phƣơng pháp tìm kiếm (Search Method):Gồm có hai thành phần: (1) – Trong bảng tham biến (phạm vi tìm kiếm tham số) thuật tốn phải tìm kiếm tham số tronng phạm vi chuẩn mơ hình kiểm định tối ƣu hố đƣa tiêu chí (quan sát) liệu biểu diễn mơ hình định (2) – Mơ hình tìm kiếm, xuất nhƣ đƣờng vịng tồn phƣơng pháp tìm kiếm, biểu diễn mơ hình phải thay đổi cho hệ mơ hình phải thay đổi cho hệ gia phả mơ hình phải đƣợc thông qua 2.4 Các lĩnh vực liên quan đến phát tri thức khai phá liệu Phát tri thức khai phá liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, sở liệu, thuật tốn học, tính toán song song tốc độ cao, thu thập tri thức cho hệ chuyên gia, quan sát liệu Đặc biệt phát tri thức khai phá liệu gần gũi với lĩnh vực thống kê, sử dụng phƣơng pháp thống kê để mơ hình liệu phát mẫu, luật Ngân hàng liệu (Data Warehousing) công cụ phân tích trực tuyến (OLAP) liên quan chặt chẽ với phát tri thức khai phá liệu Khai phá liệu có nhiều ứng dụng thực tế Một số ứng dụng điển hình nhƣ: - Bảo hiểm, tài thị trƣờng chứng khốn: Phân tích tình hình tài dự báo giá loại cổ phiếu thị trƣờng chứng khoán Danh mục vốn giá, lãi suất, liệu thẻ tín dụng, phát gian lận, Đồ án tốt nghiệp: Khai phá liệu từ website việc làm - Phân tích liệu hỗ trợ định - Điều trị y học chăm sóc y tế: Một số thơng tin chuẩn đốn bệnh lƣu hệ thống quản lý bệnh viện Phân tích mối liên hệ triệu chứng bệnh, chuẩn đoán phƣơng pháp điều trị (chế độ dinh dƣỡng, thuốc, ) - Sản xuất chế biến: Quy trình, phƣơng pháp chế biến xử lý cố - Text mining Web mining: Phân lớp văn trang Web, tóm tắt văn bản, - Lĩnh vực khoa học: Quan sát thiên văn, liệu gene, liệu sinh vật học, tìm kiếm, so sánh hệ gene thông tin di truyền, mối liên hệ gene số bệnh di truyền, - Mạng viễn thông: Phân tích gọi điện thoại hệ thống giám sát lỗi, cố, chất lƣợng dịch vụ, II Ứng dụng luật kết hợp vào khai phá liệu Việc dự đốn thơng tin có giá trị cao dựa số lƣợng liệu lớn nghiệp vụ ngày trở lên quan trọng nhiều tổ chức, doanh nghiệp Chẳng hạn, vấn đề nhà quản lý kinh doanh cần biết kiểu mẫu hành vi mua hàng khách hàng, xu hƣớng kinh doanh, vv… Những thơng tin học đƣợc từ liệu có sẵn Một vấn đề khó khăn việc khai phá liệu CSDL có số vơ lớn liệu cần đƣợc xử lý Các tổ chức doanh nghiệp quy mơ vừa có từ hàng hàng trăm Megabyte đến vài Gigabyte liệu thu thập đƣợc Các ứng dụng khai phá liệu thƣờng thực phân tích liệu phức tạp, nhiều thời gian tồn CSDL Vì vậy, tìm thuật toán nhanh hiệu để xử lý khối lƣợng liệu lớn thách thức lớn Phần trình bày sở lý thuyết luật luật kết hợp, khai phá liệu dựa vào luật kết hợp, đồng thời trình bày số thuật toán liên quan đến luật kết hợp Lý thuyết luật kết hợp Từ đƣợc giới thiệu từ năm 1993, toán khai thác luật kết hợp nhận đƣợc nhiều quan tâm nhiều nhà khoa học Ngày việc khai thác luật nhƣ phƣơng pháp khai thác mẫu phổ biến việc khám phá tri thức khai thác liệu (KDD: Knowledge Discovery and Data Mining) 10 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Ngành nghề Nơi làm việc Mức lƣơng mong muốn Người tìm việc Tóm lược Họ tên Tuổi Địa Chức danh Yêu cầu Khả Yêu cầu kinh nghiệm Loại hình cơng việc Mức lƣơng http://works.vn Việc tìm người Sơ lược Cơng ty Cơng việc mong muốn Loại hình cơng việc Nơi làm việc Ngành nghề Mức lƣơng Trình độ học vấn Kĩ Sơ lược Quy mô Địa Chi tiết công việc Chức danh Mơ tả cơng việc u cầu Loại hình cơng việc Nơi làm việc Ngành nghề Cấp bậc tối thiểu Mức lƣơng Liên hệ Hạn nộp hồ sơ http://www.timviecnhanh.com Người tìm việc Việc tìm người Tóm lược Sơ lược Cơng ty Công ty Họ tên Địa Ngày sinh Mô tả Giới tính Điện thoại Tình trạng nhân Quy mơ Địa Tiêu chí hoạt động Điện thoại Website Trình độ email Chi tiết cơng việc Chức danh/ vị trí Số lƣợng tuyển Lĩnh vực ngành nghề Cơng việc mong muốn Địa điểm làm việc Chức danh Kỹ tối thiểu Mơ tả cơng việc Trình độ tối thiểu Mức lƣơng Kinh nghiệm yêu cầu 57 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Địa điểm Trình độ học vấn Kinh nghiệm 1.3 Thiết kế sở liệu: u cầu giới tính Hình thức làm việc Mức lƣơng Hiện bùng nổ công nghệ thông tin, nhu cần tuyển dụng trực tuyến trở lên phù hợp với ứng viên nhà tuyển dụng so với cách tuyển dụng truyền thống Với cách tuyển dụng ứng viên hay nhà tuyển dụng cần truy cập vào website tuyển dụng tìm cơng việc, hay hồ sơ ứng viên phù hợp với khả ứng hay, nhà tuyển dụng ứng viên hộp hồ sơ trực tiếp qua email cho nhà tuyển dụng, cho ứng viên Với cách tuyển dụng giúp cho nhà quản lý đỡ thời gian việc thu thập thông tin việc làm quan quản lý nắm bắt đƣợc nhu cầu việc làm xã hội từ thơng tin việc làm csdl việc làm rút tri thức hay xu hƣớng công việc nguồn thông tin giúp trƣờng đại học dân lập hải phòng xác định xu hƣớng ngành nghề góp phần định hƣớng đào tạo trƣờng Việc thu thập thông tin việc làm từ trang web cách tự động làm cho việc thu thập thơng tin cách nhanh chóng xác Do web site đƣợc tổ chức dƣới dạng phân cấp, ta phải lƣu lại đƣờng dẫn(url) số thông tin quan trọng website Việc tạo sở liệu để lƣu thông tin cần thiết phục vụ cho việc lấy liệu tự động từ web site giúp cho công việc lấy thông tin đƣợc nhanh Thông tin cần lƣu lại để phục vụ việc lấy thông tin tự động từ website bao gồm: tên website, liên kết có bên website, liệu liên kết website Ta có mơ hình sở liệu nhƣ sau: Hình 10: mơ hình csdl lấy data từ website 58 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Qua tìm hiểu hồ sơ website tuyển dụng tiếng việt nam chia thành hai loại thông tin nhƣ sau: Thông tin việc tìm ngƣời ngƣời tìm việc Các thơng tin việc tìm ngƣời bao gồm: Ngành tuyển, doanh nghiệp cần tuyển, cơng việc, mức lƣơng, độ tuổi, giới tính Các thơng tin ngƣời tìm việc bao gồm: Ngành tuyển, ngƣời tuyển, độ tuổi, giới tính, cơng việc Bảng mơ hình ngƣời tìm việc MaNganh TenNganh Bảng Ngành Int Nvarchar(100) Bảng thơng tin tìm việc MaTTTim Int MaNganh Int TenUngVien Nvarchar(50) Dotuoi Int Gioitinh Boolean TenCv Nvarchar(30) Ta có mơ hình sở liệu quan hệ: Hình 11: mơ hình CSDL tìm việc Ta có sở liệu Việc tìm ngƣời nhƣ sau: MaNganh TenNganh Bảng Ngành Int Nvarchar(100) 59 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Bảng thông tin tuyên dụng MaTTTuyen Int MaNganh Int TenDN Nvarchar(50) MucLuong Money Gioitinh Boolean TenCv Nvarchar(30) Dotuoi Int Ta có mơ hình sở liệu quan hệ: Hình 12: mơ hình CSDL tuyển dụng Từ việc phân tích nhƣ trên, ta có sơ đồ quan hệ để lƣu trữ liệu toán nhƣ sau: 60 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm Hình 13: mơ hình CSDL chƣơng trình 1.4 Đặc tả liệu: Một đặc điểm mang tính thực tế item khơng đơn đƣợc xét “Có” hay “Khơng” đếm Support mà item đƣợc kèm theo trọng số mơ tả mức quan trọng item Các item ta xem xét thƣờng dạng Boolean Chúng mang giá trị “1” item có mặt giao tác “0” ngƣợc lại Các toán khai phá liệu nhƣ ngƣời ta gọi khai phá kiểu nhị phân (Mining Boolean Association Rules) Nhƣng thực tế, bảng số liệu thƣờng xuất thuộc tính khơng đơn giản nhƣ Các thuộc tính dạng số (quantitative) nhƣ: mức lƣơng, độ tuổi, Các thuộc tính dạng Hạng mục (categorical) nhƣ: Tên Ngành, Tên Công Việc, Giới tính, … Ta phải rời rạc hóa đƣa dạng toán phai phá kết hợp định lƣợng (Mining Quantitative Association Rules) Cũng nhƣ toán khai phá luật kết hợp trƣớc đây, mục tiêu toán khai phá luật kết hợp định lƣỡng kết xuất luật kết hợp ngƣỡng support tối thiểu ngƣỡng confidence tối thiểu Với thuộc tính hạng mục ta phải thực phân đoạn cho thuộc tính làm nhƣ dễ dàng ánh xạ thuộc tính tịnh lƣợng sang thuộc tính boonlean Nếu thuộc tính phân loại số lƣợng có vài giá trị riêng biệt( ví dụ: giới tính) ảnh xạ nhƣ sau: Mỗi thuộc tính bảng 61 Đồ án tốt nghiệp: Khai phá liệu từ website việc làm liệu có p giá trị riêng biệt đƣợc lập thành p thuộc tính Boolean Mỗi thuộc tính Boolean tƣơng ứng với cặp Nó có giá trị “1” value có mặt liệu gốc có giá trị “0” ngƣợc lại Nếu số giá trị riêng biệt số thuộc tính lớn ngƣời ta thực việc phân đoạn thuộc tính thành khoảng ánh xạ cặp thành thuộc tính Sau ánh xạ, thực khai phá luật kết hợp CSDL thuật toán khai phá luật kết hợp kiểu Boolean Tổng quát, ta đƣa số phƣơng pháp rời rạc hoá nhƣ sau: Trường hợp : Nếu A thuộc tính số rời rạc thuộc tính hạng mục có miền giá trị hữu hạng dạng {V1, V2, , Vk} k đủ nhỏ (