Nghiên cứu độ đo tương tự hỗn hợp trong phát hiện tri thức từ dữ liệu

146 203 0
Nghiên cứu độ đo tương tự hỗn hợp trong phát hiện tri thức từ dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - NGUYỄN TRUNG TUẤN NGHIÊN CỨU ĐỘ ĐO TƯƠNG TỰ HỖN HỢP TRONG PHÁT HIỆN TRI THỨC TỪ DỮ LIỆU LUẬN ÁN TIẾN SĨ KỸ THUẬT HÀ NỘI - 2012 -1- BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - NGUYỄN TRUNG TUẤN NGHIÊN CỨU ĐỘ ĐO TƯƠNG TỰ HỖN HỢP TRONG PHÁT HIỆN TRI THỨC TỪ DỮ LIỆU Chuyên ngành: Đảm bảo toán học cho máy tính hệ thống tính tốn Mã số: 62.46.35.01 LUẬN ÁN TIẾN SĨ KỸ THUẬT Người hướng dẫn khoa học: PGS TS Nguyễn Ngọc Bình PGS TS Huỳnh Quyết Thắng HÀ NỘI - 2012 -2- LỜI CẢM ƠN Tác giả luận án xin chân thành cảm ơn đến tập thể hướng dẫn khoa học: PGS TS Nguyễn Ngọc Bình Trường Đại học Cơng nghệ, Đại học Quốc gia Hà Nội PGS TS Huỳnh Quyết Thắng Viện Công nghệ thông tin truyền thông, Trường Đại học Bách khoa Hà Nội Các thầy dành nhiều thời gian tâm huyết để hướng dẫn giúp đỡ tác giả hoàn thành luận án Tác giả xin cảm ơn Thầy, Cô Viện Công nghệ thông tin truyền thông, Viện Sau đại học, Trường Đại học Bách Khoa Hà Nội tạo điều kiện thuận lợi, giúp đỡ có đóng góp q báu thời gian nghiên cứu hồn thành luận án tác giả Tác giả xin chân thành cảm ơn TS Ngơ Văn Thứ - Trưởng khoa Tốn Kinh tế, Trường Đại học kinh tế Quốc dân giúp đỡ việc cung cấp liệu thử nghiệm góp ý phương pháp phân tích liệu mà nhà nghiên cứu kinh tế thường sử dụng Xin chân thành cảm ơn gia đình, bạn bè đồng nghiệp giúp đỡ, động viên tác giả suốt thời gian nghiên cứu luận án Hà Nội, Năm 2012 Nguyễn Trung Tuấn -3- Lời cam đoan Tơi xin cam đoan cơng trình nghiên cứu hướng dẫn khoa học PGS TS Nguyễn Ngọc Bình PGS TS Huỳnh Quyết Thắng Các số liệu kết nghiên cứu, công bố luận án trung thực chưa cơng bố cơng trình khác Nguyễn Trung Tuấn -4- MỤC LỤC DANH MỤC CÁC KÝ HIỆU, THUẬT NGỮ VÀ TỪ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ .10 DANH MỤC CÁC BẢNG BIỂU .12 MỞ ĐẦU 14 Chương NHỮNG VẤN ĐỀ LÝ LUẬN CHUNG 19 1.1 Giới thiệu chương 19 1.2 Phát tri thức khai phá liệu .19 1.2.1 Tổng quan phát tri thức khai phá liệu .19 1.2.2 Quá trình phát tri thức khai phá liệu .24 1.2.3 Các hệ thống phần mềm phát tri thức khai phá liệu 26 1.2.4 Các phương pháp khai phá liệu 28 1.2.5 Các vấn đề cần nghiên cứu phát tri thức khai phá liệu 31 1.3 Tổng quan Lý thuyết tập thô 34 1.3.1 Hệ thống thông tin Hệ định .34 1.3.2 Tính khơng phân biệt (Indiscernibility) 36 1.3.3 Xấp xỉ tập hợp (Set Approximation) .37 1.3.4 Rút gọn (Reducts) .41 1.3.5 Thành viên thô (Rough Membership) .41 1.3.6 Vùng dương phụ thuộc thuộc tính (Dependency of attributes) 42 1.4 Tổng quan độ đo tương tự độ đo tương tự hỗn hợp 44 1.4.1 Mơ hình độ đo tương tự 44 1.4.2 Vai trò độ đo tương tự .46 1.4.3 Khoảng cách hỗn hợp Độ đo tương tự hỗn hợp 48 1.5 Tổng quan nghiên cứu đề tài luận án 49 1.6 Tổng kết chương 52 Chương NGHIÊN CỨU ĐỘ ĐO TƯƠNG TỰ HỖN HỢP TRONG PHÁT HIỆN TRI THỨC TỪ DỮ LIỆU .53 -5- 2.1 Giới thiệu chương 53 2.2 Nghiên cứu độ đo tương tự hỗn hợp 53 2.2.1 Đo khoảng cách hỗn hợp theo phương pháp truyền thống 53 2.2.2 Độ đo tương tự hỗn hợp theo tiếp cận Goodall .54 2.3 Độ đo tương tự hỗn hợp có trọng số cho thuộc tính xác định tự động dựa tiếp cận lý thuyết tập thô [CT3, CT6] .64 2.3.1 Khoảng cách hai đối tượng 64 2.3.2 Tính trọng số cho thuộc tính 66 2.3.3 Độ đo tương tự hỗn hợp có trọng số dựa lý thuyết tập thô (Mixed Similarity Measure with weights based on Rough sets theory - MSM-R) .70 2.3.4 Thuật toán xác định trọng số cho thuộc tính độ đo tương tự hỗn hợp [CT6] 70 2.3.5 Thử nghiệm tính độ đo tương tự hỗn hợp với liệu ví dụ .72 2.3.6 Thử nghiệm thời gian tính tốn thuật tốn 74 2.3.7 Quy trình sử dụng độ đo MSM-R toán khai phá liệu dựa khoảng cách .76 2.4 Tổng kết chương 77 Chương THỬ NGHIỆM ĐỘ ĐO MSM-R TRONG BÀI TOÁN PHÂN LỚP VÀ PHÂN CỤM DỮ LIỆU .79 3.1 Giới thiệu chương 79 3.2 Thử nghiệm phân lớp liệu với thuật toán k-láng giềng gần .79 3.2.1 Thuật toán k-láng giềng gần 79 3.2.2 Phương pháp thử nghiệm phân lớp [CT6] .80 3.2.3 Kết thử nghiệm phân lớp với liệu mẫu [CT6] 81 3.2.4 Thử nghiệm đánh giá tác động loại thuộc tính đến độ đo tương tự hỗn hợp MSM-R 88 3.2.5 Thử nghiệm phân lớp với liệu chứa thuộc tính định danh có thứ tự [CT6] 90 -6- 3.2.6 Phân lớp liệu kinh tế - xã hội Việt Nam kỹ thuật láng giềng gần với độ đo tương tự hỗn hợp .91 3.2.6.1 Tổng quan liệu kinh tế - xã hội Việt Nam dùng thử nghiệm 91 3.2.6.2 Trích lọc liệu 93 3.2.6.3 Phân lớp với liệu Tiểu học 93 3.2.6.4 Phân lớp với liệu Ngân hàng 97 3.3 Bài toán phân cụm liệu với thuật toán k-medoids sử dụng độ đo tương tự hỗn hợp MSM-R 105 3.3.1 Thuật toán phân cụm liệu k-medoids 106 3.3.2 Phân cụm liệu kinh tế - xã hội Việt Nam với độ đo MSM-R .108 3.3.2.1 Phân cụm với liệu Tiểu học 108 3.3.2.2 Phân cụm với liệu Ngân hàng .108 3.4 Tổng kết chương 109 KẾT LUẬN .110 DANH MỤC TÀI LIỆU THAM KHẢO TIẾNG ANH 114 DANH MỤC TÀI LIỆU THAM KHẢO TIẾNG VIỆT 117 DANH MỤC WEBSITE THAM KHẢO .118 DANH MỤC CƠNG TRÌNH CÔNG BỐ CỦA TÁC GIẢ 119 PHỤ LỤC 120 Phụ lục Kết thử nghiệm tiên đề tam giác theo độ đo tương tự hỗn hợp Goodall 120 Phụ lục Cấu trúc file liệu hàm tính khoảng cách lập trình 122 Phụ lục Kết phân lớp liệu thử nghiệm sau rời rạc hóa thuộc tính số 123 Phụ lục Đặc điểm liệu kinh tế - xã hội toán phân lớp liệu 130 Phụ lục Cấu trúc số ghi ví dụ liệu điều tra khả đọc làm tốn học sinh tiểu học (trích phần mềm SPSS) 139 -7- Phụ lục Cấu trúc số ghi ví dụ liệu gốc khách hàng vay vốn ngân hàng (trích phần mềm SPSS) 142 INDEX 145 -8- DANH MỤC CÁC KÝ HIỆU, THUẬT NGỮ VÀ TỪ VIẾT TẮT Từ viết tắt BI Tiếng Anh Tiếng Việt Business Intelligence Kinh doanh thơng minh/trí tuệ doanh nghiệp DA/PA Data/Pattern analysis Phân tích liệu/mẫu DBMS Database Management System Hệ quản trị sở liệu IND Indiscernibility Quan hệ không phân biệt KDD Knowledge Discovery and Data Phát tri thức Khai Mining phá liệu KE Knowledge Extraction Trích chọn tri thức ML Machine Learning Học máy MSM Mixed Similarity Measure Độ đo tương tự hỗn hợp MSM-R Mixed Similarity Measure based Độ đo tương tự hỗn hợp có on Rough sets theory trọng số dựa lý thuyết tập thô PAM Partitioning Around Medoids Phân vùng quanh tâm RS Rough set Tập thô SPSS Statistical Package for the Social Phần mềm thống kê chuyên Sciences dụng SPSS Dẫn đến ⇒ -9- DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ Hình 1.1 Mối quan hệ KDD với lĩnh vực khác [42] 21 Hình 1.2 Mối quan hệ KDD kinh doanh thông minh [42] 22 Hình 1.3 Qui trình bước khai phá liệu 25 Hình 1.4 Mơ hình hệ thống khai phá liệu [42] 27 Hình 1.5 Phân lớp dựa theo mức chi tiêu thu nhập hộ gia đình .29 Hình 1.6 Mơ hình Polynominal cho dân số giới .30 Hình 1.7 Xấp xỉ xấp xỉ X .38 Hình 1.8 Xấp xỉ với phân lớp Tuyển dụng="Có" thuộc tính điều kiện Tiếng Anh 39 Hình 2.1 So sánh độ tương tự hỗn hợp đối tượng .74 Hình 2.2 Thời gian tính trọng số theo số thuộc tính .75 Hình 2.3 Thời gian tính trọng số trung bình cho thuộc tính .76 Hình 2.4 Quy trình sử dụng độ đo MSM-R 77 Hình 3.1 Độ xác phân lớp k-NN (%) với k=1 84 Hình 3.2 Độ xác phân lớp k-NN (%) với k=3 84 Hình 3.3 Độ xác phân lớp k-NN (%) với k=5 85 Hình 3.4 Độ xác phân lớp k-NN (%) với k=7 85 Hình 3.5 Độ xác phân lớp k-NN (%) với k=9 86 Hình 3.6 Độ xác phân lớp k-NN (%) với k=10 86 Hình 3.7 So sánh độ xác lớn phân lớp k-NN (%) phân lớp định 88 Hình 3.8 Độ xác phân lớp theo số lượng loại thuộc tính 89 Hình 3.9 Kết phân lớp với liệu có thuộc tính ordinal 91 Hình 3.10 Kết phân lớp liệu Ngân hàng 98 Hình 3.11 Kết phân lớp liệu Ngân hàng SPSS 103 Hình 3.12 Kết phân lớp liệu Ngân hàng SPSS 103 Hình 3.13 Kết phân lớp với phương pháp leave-one-out classification 104 - 10 - Điều cho thấy song song với tư thuật toán liệu kinh tế xã hội khơng thể bỏ qua, khơng nói cần thiết, tư kinh nghiệm tích lũy hệ, chuyên gia phân tích sở kết tư thuật toán Các liệu kinh tế - xã hội quan sát thực tế, ta xem xét kiểu cấu trúc liệu điển hình thường gặp, với cấu trúc, với loại liệu khác phải có cách phân tích thích hợp Người ta thường phân biệt chúng thành cấu trúc sau [35], [36], [38]: • Dữ liệu mặt cắt (Cross-section data): quan sát biến với đối tượng khác Ví dụ quan sát thu nhập đối tượng khác Với loại liệu này, thứ tự chúng không quan trọng • Dữ liệu theo thời gian (Time-series data): quan sát biến thời điểm khác Ví dụ quan sát thu nhập đối tượng thời điểm khác • Dữ liệu bảng (Panel data): quan sát biến với đối tượng khác thời điểm khác Do đặc điểm liệu kinh tế - xã hội liệu hỗn hợp, thu thập thông qua điều tra qua hoạt động kinh tế - xã hội, cần thiết phải có phép tiền xử lý liệu để loại bỏ điểm bất cập liệu, kết trình khai phá liệu đảm bảo yêu cầu Các khiếm khuyết liệu thường gặp [4], [16], [28]: • Dữ liệu khơng đầy đủ: thiếu giá trị thuộc tính liệu, thiếu thuộc tính có liệu tổng hợp Hiện tượng xảy liệu không xuất thời điểm thu thập, thời điểm thu thập liệu thời điểm phân tích khác lỗi người, phần cứng hay phần mềm sử dụng để thu thập liệu • Dữ liệu nhiễu: liệu có chứa lỗi chứa trường hợp đặc biệt Hiện tượng xảy có lỗi thiết bị thu thập liệu, lỗi đường truyền lỗi người hay máy tính với mục liệu - 132 - • Dữ liệu khơng thống nhất, ổn định: Dữ liệu không thống dạng biểu diễn hay mã hố, ví dụ: số trường hợp xếp hạng 1, 2, 3; trường hợp khác xếp hạng lại A, B, C Hiện tượng xảy thu thập liệu từ nguồn khác liên kết liệu bị phá vỡ Ngoài trường hợp liệu lặp trùng cần thiết phải loại bỏ Dưới số phép tiền xử lý thường sử dụng [8], [16]: • Làm liệu: Làm liệu tốn quan trọng khai phá liệu, bao gồm nhiệm vụ điền giá trị khuyết, xác định phần tách biệt làm trơn liệu nhiễu, sửa đổi liệu không thống nhất, giải vấn đề dư thừa liệu xảy q trình tích hợp liệu Với liệu khuyết, ta xử lý chúng theo cách sau: o Loại bỏ liệu này: thường thực nhãn phân lớp bị khuyết toán phân lớp, nhiên phương pháp không hiệu tỷ lệ giá trị khuyết giá trị thuộc tính đáng kể o Điền giá trị khuyết cách thủ cơng: cơng việc khó khăn, nhàm chán thường không thực o Điền giá trị khuyết cách tự động: sử dụng giá trị toàn cục để điền cho tất cả, lấy giá trị trung bình để điền, lấy giá trị trung bình cho tất mẫu lớp lấy theo khả lớn có giá trị - trường hợp thường sử dụng công thức Bayesian định Dữ liệu nhiễu lỗi ngẫu nhiên thay đổi biến đo Giá trị thuộc tính khơng lỗi thiết bị thu thập thông tin, lỗi nhập liệu, lỗi đường truyền, giới hạn công nghệ khơng đồng q trình đặt tên Người ta xử lý nhiễu cách sau: - 133 - o Phân vùng (Binning): xếp liệu phân chia chúng thành vùng, sau thực làm trơn vùng giá trị trung bình, trung vị biên vùng o Hồi qui: làm trơn liệu hàm hồi qui o Phân cụm: dị tìm loại bỏ vùng tách biệt o Kết hợp máy tính người: dị tìm giá trị nghi ngờ sau người kiểm tra lại • Tích hợp chuyển đổi liệu: Công việc bao gồm tích hợp liệu cách nối kết liệu từ nguồn liệu thành kho chặt chẽ, tích hợp lược đồ liệu là tích hợp liệu liệu metadata từ nguồn khác nhau, vấn đề xác định thực thể, dị tìm giải xung đột liệu: với thực thể giới thực, giá trị thuộc tính từ nguồn khác khác nhau, thể khác nhau, phép co giãn khác độ đo khác Khi tích hợp liệu xảy tượng dư thừa liệu: thuộc tính đối tượng có tên khác sở liệu khác nhau, thuộc tính suy dẫn từ bảng khác Thuộc tính dư thừa dị tìm việc phân tích tương quan Chuyển đổi liệu thường thực công việc làm trơn liệu, tổng hợp liệu, tổng quát hoá, chuẩn hoá liệu (có thể chuẩn vào vùng lớn nhất-nhỏ nhất, z-score thang đo thập phân), xây dựng thuộc tính đặc trưng • Rút gọn liệu: Các liệu có dung lượng hàng terabyte tốn nhiều thời gian phân tích khai phá toàn tập liệu Rút gọn liệu cho phép giảm tập liệu giữ kết phân tích Rút gọn liệu tập trung vào chiến lược: tổng hợp liệu khối, giảm số chiều, nén liệu, giảm số lượng rời rạc hoá phân cấp khái niệm • Rời rạc hố liệu: Có thể thực số phương pháp phân chia khoảng giá trị thuộc tính liên tục theo định khoảng sử - 134 - dụng thuật toán để rời rạc liệu cho không làm mát giá trị thông tin Các toán phân lớp, gom cụm kinh tế - xã hội Các toán phân lớp, gom cụm hình thành cách tự nhiên đời sống kinh tế, xã hội hình thành tự nhiên nghiên cứu kinh tế, xã hội Có lớp tốn phân lớp, gom cụm hình thành hệ tiên đề Kết tốn việc phân tổ theo nhiều cách khác tập cá thể lớn Khi nghiên cứu vấn đề kinh tế, xã hội, người ta thường quan tâm đến kết toán liệu phân thành tổ nào, tốn phân lớp tốn gom cụm thường gọi chung toán phân lớp tốn phân tổ Có thể nhắc đến phân tổ dễ thừa nhận sử dụng sau: - Phân tổ cộng đồng thành tộc người (theo nguồn gốc nhân thể học) - Phân chia vùng dân cư theo châu thổ dịng sơng, hay độ cao so với mực nước biển (điều điều kiện tự nhiên) - Phân chia cá nhân theo tuổi (trẻ, trung niên, già) - Phân chia doanh nghiệp theo qui mơ, hình thức sở hữu,… Bài tốn phân lớp mà thống kê thường đề cập đến là: Phân lớp tập cá thể theo mức giống nhờ độ đo Việc sử dụng độ đo phù hợp với tốn cụ thể ln vấn đề thảo luận khơng có hồi kết ứng dụng thống kê tốn học Cho dù khơng có hồi kết yêu cầu ứng dụng thuật tốn, mơ hình phân lớp ngày gia tăng nhiều lĩnh vực kinh tế xã hội Một số biến thể mơ hình dẫn đến mơ hình phân tích tương ứng, phân tích khác biệt, phân lớp tự động Các mơ hình coi ứng dụng phương pháp chung “Phân tích nhân tố” [36] Trên giác độ thuật tốn, giới thiệu sơ lược hai nhóm u cầu tốn phân lớp kinh tế xã hội sau: - Các toán phân lớp tập cá thể chưa có tiêu chí phân lớp: Bài toán đặt với tập cá thể xác định số lớp (k-clusters) - 135 - chưa có định số lớp Nhóm tốn thường xuất mơ hình thống kê khơng có thơng tin tiên nghiệm - Các toán phân lớp sở có tiêu chí phân lớp phân lớp khơng định lượng tiêu chí phân lớp chưa rõ ràng, thiếu chi tiết Một số mơ hình phổ biến thực tế: - Mơ hình phân lớp dự báo (chỉ định điều trị): Mơ hình giải toán phân lớp đối tượng, chẳng hạn phân lớp bệnh nhân nhóm bệnh theo vài số lâm sàng Mơ hình sử dụng cho nhóm bệnh: Tim mạch đột quỵ; Di chứng, biến chứng sau giải phẫu, thai sản, - Mơ hình phân tích rủi ro tài chính: Đây ứng dụng rộng rãi với mô hình phân tích khác biệt Altman, Mơ hình 6C, - Mơ hình phân lớp người tiêu dùng: Mơ hình hướng đến phân chia người tiêu dùng thành nhóm có hành vi tiêu dùng gần dựa ảnh hưởng yếu tố kinh tế xã hội - Mơ hình xếp hạng tiêu thức tài chính, tín dụng: Xếp hạng tín dụng khác hàng pháp nhân; thể nhân Xếp hạng tín nhiệm khoản ngân hàng; xếp hạng rủi ro tổ chức tín dụng,… - Các mơ hình phân lớp ứng dụng Marketing, bầu cử, phân tích sách Các tiếp cận chủ yếu: - Khai thác liệu phân lớp cá thể theo đặc trưng - Khai thác liệu phân lớp biến (các yếu tố) thông qua biểu chúng qua cá thể Ứng dụng mơ hình phân lớp cho đối tượng cụ thể nhằm hai mục đích chính: - Tạo nên mơ hình phân lớp có kết xác thơng qua tốn chọn nhân tố phân lớp phù hợp - 136 - - Liên tục hóa tiêu thức phân lớp tạo nên thang phân lớp mịn cho mục đích phân tích có mức chi tiết khác (Mơ hình Altman, mơ hình xác suất, mơ hình logit, ) Như hoạt động kinh tế xã hội đa dạng hơn, để nhận biết tính chất chung tính chất (đặc trưng) địa phương tác nhân kinh tế xã hội tốn phân lớp cách thức thuận tiện Khó khăn tốn sở liệu lựa chọn mục tiêu, nhân tố phân lớp phù hợp, dễ tính tốn sử dụng thực tế Sau lược lại phương pháp thông dụng kinh tế xã hội [32], [35], [36]: - Phương pháp số: Phương pháp số dựa kết tổng hợp theo kinh nghiệm kiểm chứng qua thực tế tạo thang điểm cho yếu tố hay nhóm yếu tố Trên sở tính tốn mức điểm chung theo cách tổ hợp nhiều người đồng thuận từ phân lớp cá thể Phương pháp dùng phổ biến với tên mơ hình 6C [32] xếp hạng doanh nghiệp Hiệp ước Basel tổ chức ngân hàng trở thành sở chung cho xếp hạng doanh nghiệp [32] Tuy vậy, áp dụng cách làm cho quốc gia phát triển (trong có Việt Nam) áp dụng diện hẹp mơ hình tỏ có nhiều bất lợi Ngun nhân tính qui luật thể rõ nét tổng thể lớn, ổn định Đối với tổng thể nhỏ, biến động nhiều thông tin không đầy đủ mô hình trở nên hiệu - Phương pháp phân lớp phân tích khác biệt: Lớp mơ hình phát triển mạnh lĩnh vực khác Lớp mơ hình tiếng mơ hình Z-score Altman xây dựng công ty, công ty đại chúng, công ty ngành [34], [36] Đặc điểm lớp mơ hình tính linh hoạt cấu trúc (cấu trúc xác nhận sau ước lượng, kiểm định mơ hình với liệu cụ thể) Đây vừa ưu điểm vừa nhược điểm cách tiếp cận này, Altman sử dụng mơ hình - 137 - cho thị trường tài Trung Quốc khơng tìm thấy kết có thị trường Âu, Mỹ, có kết khơng giải thích - 138 - Phụ lục Cấu trúc số ghi ví dụ liệu điều tra khả đọc làm toán học sinh tiểu học (trích phần mềm SPSS) Bảng PL5.1 Cấu trúc liệu Tiểu học Variable idregion idprovin iddistr idcomm idschool idteach idpupil teacher district commune pclass pviet pfamtime pmeal ptravel pabsent pgrep phwkdone phwkhelp phwkatt tsex tage groupt slocatio stinspe xpagemon xpbookhm xptotpos xpmother xpfather xpared xphavtxt xp0extut xttedu xtttr xtmeetpa xsrestot xspuptch prd500 pma500 Position 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 Label PROVINCE ID SCHOOL ID IDPUPIL TEACHER ID P/G5 CLASS P/SPEAK VIETNAMESE P/HELP FAMILY P/MEAL P/TRAVEL P/DAYS ABSENT P/REPEATED SCHOOL P/HOMEWORK- MAKE SURE P/HOMEWORK - HELP P/PAY ATTENTION T/SEX T/TEACHER AGE S/LOCATION S/ VISITED SINCE SEPT 1999 PUP AGE IN M ROUNDED TO THE NEAREST M THE NUMBER OF BOOKS AT HOME TOTAL POSSESSIONS AT PUPILS HOME [MAX18] THE NR OF YEARS OF MOTHER'S EDUCATION THE NR OF YEARS OF FATHER'S EDUCATION THE NR OF YEARS OF PARENTS' EDUCATION THE NR OF TEXTBOOKS THAT A PUPIL HAS TOT.H OF EXTR.TUITION P.WEEK (NO EX=0) THE YEAR OF TEACHER'S ACADEMIC EDUCATION YEAR O.TEACHERS PROFESSIONAL EDUCACATION FREQU TEACHER MEETING PARENTS P.WEEK TOTAL RESOURCES IN A SCHOOL [MAX=27] PUPIL-TEACHER RATIO PUPIL READING 500 SCOR.[MEAN=500/SD=100] PUPIL MATHEMATICS 500 SCORE - 139 - Measurement Level Ordinal Ordinal Scale Scale Scale Scale Scale Nominal Nominal Nominal Ordinal Ordinal Ordinal Ordinal Scale Scale Ordinal Ordinal Ordinal Ordinal Ordinal Scale Scale Ordinal Scale Scale Nominal Nominal Nominal Nominal Nominal Scale Nominal Scale Scale Ordinal Scale Scale Scale Scale Ví dụ giá trị thuộc tính: Bảng PL5.2 Giá trị số biến liệu Tiểu học Value pviet pfamtime Label NEVER SOMETIMES ALL OF THE TIME not admin omitted NEVER UP TO HOUR 1-2 HOURS 2-3 HOURS OR MORE not admin omitted Ví dụ 10 ghi liệu này: - 140 - Bảng PL5.3 Ví dụ số ghi liệu Tiểu học 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2 2 2 2 2 17 17 17 17 17 17 17 17 17 17 - 141 - 27.92 27.92 27.92 27.92 27.92 27.92 27.92 27.92 27.92 27.92 777.02 892.75 892.75 777.02 777.02 657.33 657.33 777.02 719.16 575.69 817.61 757.23 720.01 817.61 817.61 635.65 817.61 757.23 757.23 692.72 1 1 1 1 1 4 3 4 4 3 3 3 3 3 3 3 3 3 2 2 2 2 2 tage 16.00 16.00 16.00 16.00 16.00 12.00 12.00 12.00 12.00 12.00 tsex 0 0 0 0 0 pma500 23 23 26 23 26 21 17 19 19 23 prd500 #NULL! 32 24 24 28 24 18 24 18 25 xspuptch 16 12 12 16 12 12 9 xsrestot xpfather 16 16 12 12 12 12 12 16 xtmeetpa xpmother 11 14 14 13 18 13 13 16 15 13 xtttr xptotpos 250 30 30 30 30 30 30 30 250 xttedu xpbookhm 126 121 127 124 125 124 125 126 129 128 xp0extut xpagemon 2 2 2 2 2 xphavtxt stinspe 4 4 4 4 4 xpared slocatio groupt 4.00 4.00 4.00 4.00 4.00 3.00 3.00 3.00 3.00 3.00 0.00 3.00 0.00 4.00 0.00 0.00 0.00 0.00 0.00 0.00 phwkatt Các trường ghi 20.00 10.00 10.00 10.00 12.00 10.00 10.00 5.00 10.00 10.00 phwkhelp 3 3 3 3 3 phwkdone 2 2 3 3 pgrep 3 3 3 3 3 pabsent pmeal 1 1 2 2 ptravel pfamtime Nghia Do Hang Bun Dong Xuan Phuc Xa Hang Ma NguyenTrungTruc Phuc Xa Phuc Xa NguyenTrungTruc Phuc Xa pviet Cau Giay Ba Dinh Hoan Kiem Ba Dinh Hoan Kiem Ba Dinh Ba Dinh Ba Dinh Ba Dinh Ba Dinh pclass 1 1 2 2 commune 1,010,103,101.00 1,010,103,102.00 1,010,103,103.00 1,010,103,104.00 1,010,103,105.00 1,010,103,106.00 1,010,103,107.00 1,010,103,108.00 1,010,103,109.00 1,010,103,110.00 district 101,010,311 101,010,311 101,010,311 101,010,311 101,010,311 101,010,312 101,010,312 101,010,312 101,010,312 101,010,312 teacher 10,101,031 10,101,031 10,101,031 10,101,031 10,101,031 10,101,031 10,101,031 10,101,031 10,101,031 10,101,031 idpupil 1,010,103 1,010,103 1,010,103 1,010,103 1,010,103 1,010,103 1,010,103 1,010,103 1,010,103 1,010,103 idteach idschool idcomm iddistr 10,101 10,101 10,101 10,101 10,101 10,101 10,101 10,101 10,101 10,101 33.00 33.00 33.00 33.00 33.00 28.00 28.00 28.00 28.00 28.00 Phụ lục Cấu trúc số ghi ví dụ liệu gốc khách hàng vay vốn ngân hàng (trích phần mềm SPSS) Bảng PL6.1 Cấu trúc liệu Ngân hàng Variable madnghie Position Label Measurement Level Nominal Column Width nganh Scale 10 KNTT_Ngh KNTT_Nhan Kha nang khoan Kha nang khoan nhanh Scale Scale 10 10 LCHT_Kho KTTBQ Vong quay hang ton kho Ky thu tien binh quan Scale Scale 10 HSSD_TSan Doanh thu tn tong Tsan Scale NPT_TTSan No phai tra tren tong TS Scale NPT_VCSH No phai tra tren tong VCSH Scale TNTT_DT 10 Tong thu nhap truoc thue/dthu Scale TNTT_TSan 11 Tong thu nhap truoc thue/tai san Scale TNTT_VCSH 12 Tong thu nhap truoc thue/von chu Scale TTLC_TTe 13 Trang thai luan chuyen tien te Nominal 13 TGHDDN 14 Thoi gian hd cua dn Nominal KNoGD 15 Thoi gian lanh dao cua giam doc Nominal UTIN_DN 16 Uy tin giao dich Nominal VTHE_CTranh 17 Nominal SL_Gno HTS_Huu 18 19 So lan han qua khu So Huu Nominal Nominal 8 QMO_DN LOAI_DN MONVAY 20 21 22 1-lon,2-TB,2-nho 1.CTCP,2-TNHH,3-XN,4-Tunhan Nominal Nominal Nominal 8 LAISUAT 23 Scale CPI 24 Scale TYGIA 25 Scale quymo 26 Nominal nhomno_3 27 Nominal nhomno_2 28 Scale 10 - 142 - Bảng PL6.2 Giá trị số trường liệu Ngân hàng Value nganh TTLC_TTe UTIN_DN VTHE_CTranh HTS_Huu QMO_DN LOAI_DN MONVAY Label 1.00 Cong nghiep 2.00 Xay dung 3.00 Thuong mai, dich vu 4.00 Nong lam nghiep Lon hon loi nhuan Bang Loi nhuan thuan Nho hon loi nhuan thuan Gan diem hoa von Co tren toan cau Co nuoc Co o dia phuong It hoac khong duoc biet den Cao chiem uu the Binh thuong, Dang pt Bt, Suy giam kem va suy thoai Nha nuoc Tu nhan Lien doanh Lon Tbinh Nho CTCP TNHH Xi Nghiep Tu nhan Ngan Trung Dai Ví dụ 10 ghi liệu này: - 143 - Bảng PL6.3 Ví dụ số ghi liệu Ngân hàng C4 0.60 0.30 C4 1.60 0.10 B9 0.40 0.10 1.0 73.0 231 2.00 4.00 7.5 71.0 234 1.30 2.20 4.1 3 1.45 65.0 127 1.45 2.00 3.4 1.00 80.0 200 1.00 2.00 7.0 87 1.56 76.0 231 0.45 1.86 6.0 3 90.00 1.7 80 50.00 1.00 2.0 4 0.8 100 70.00 69.0 122 4.00 3.50 8.1 3 90.0 60 10.00 4.0 8.00 4.00 9.0 84 1.00 80.0 200 2.00 3.00 1.0 4 - 144 - 15.4 140.50 13.70 11.7 102.20 16.15 107 10.4 100.80 16.09 207 11.3 100.80 16.09 207 10.2 107.53 16.14 307 11.1 100.80 16.09 207 10.8 107.53 16.14 307 129.10 9.96 108 107.53 16.14 307 102.91 16.13 407 2 1 2 1 2 2 1 2 1 3 12.0 3 10.9 3 12.0 208 nhomno_2 2.0 nhomno_3 1.9 0.30 quymo 0.24 0.40 6.20 TYGIA 0.31 4 8.00 CPI LAISUAT 50 MONVAY 76 1.0 LOAI_DN 1.3 0.10 QMO_DN 0.30 0.50 HTS_Huu 0.39 SL_Gno 1.67 VTHE_CTranh C5 1.60 82 UTIN_DN C5 89 1.1 KNoGD 2.0 0.30 TGHDDN C6 0.20 7.0 TTLC_TTe C6 4.0 TNTT_VCSH 0.32 12.00 TNTT_TSan 0.40 70 TNTT_DT C6 1.0 NPT_VCSH C6 NPT_TTSan KNTT_Nhan 0.30 HSSD_TSan KNTT_Ngh 0.20 KTTBQ nganh LCHT_Kho madnghie D1 INDEX 10-fold cross validation, 26, 80, 94, 102 định, 16, 18, 81, 82, 87, 88, 91, 94, 98, 102, 109, 111, 112, 128, 133 công nghệ thông tin truyền thông, 14 độ đo tương tự hỗn hợp, 14, 15, 16, 17, 18, 19, 34, 49, 50, 52, 53, 62, 63, 64, 70, 72, 73, 74, 76, 77, 78, 79, 80, 81, 82, 88, 89, 90, 91, 95, 98, 102, 105, 106, 110, 111, 112, 113, 119, 120 liệu kinh tế - xã hội, 15, 17, 18, 79, 91, 92, 108, 109, 110, 112, 113, 130, 131, 132 Euclide, 45, 46, 64, 68, 105 Goodall, 16, 18, 49, 50, 53, 54, 62, 63, 73, 77, 80, 81, 82, 83, 87, 88, 89, 90, 91, 94, 95, 97, 98, 100, 101, 102, 104, 109, 111, 112, 115, 120, 124, 128 hệ định, 19, 35, 36, 64, 65, 66, 67 hệ thống thông tin, 19, 35, 36, 37, 41 khai phá liệu, 14, 15, 16, 17, 19, 20, 21, 22, 24, 25, 26, 27, 28, 29, 31, 32, 33, 46, 48, 49, 50, 51, 52, 53, 64, 76, 110, 111, 113, 119, 132, 133 khoảng cách hỗn hợp, 14, 49, 53, 64, 77, 106 không phân biệt được, 34, 35, 36, 37, 40 k-medoids, 47, 105, 106 k-NN, 79, 80, 83, 84, 85, 86, 87, 88, 94, 105, 124, 125, 126, 127, 128, 129 láng giềng gần nhất, 16, 18, 47, 51, 79, 80, 88, 90, 91, 94, 98, 102, 109, 112 lớp tương đương, 17, 37, 41, 67, 71 lý thuyết tập thô, 9, 16, 17, 18, 19, 34, 37, 43, 51, 52, 53, 64, 66, 70, 77, 79, 81, 88, 89, 98, 110, 111, 112, 113, 119 metric, 16, 45, 50, 53, 62, 63, 64, 68, 77, 111 MSM-R, 9, 18, 70, 76, 77, 78, 79, 80, 81, 82, 83, 87, 88, 89, 90, 91, 94, 95, 97, 98, 100, 101, 102, 105, 106, 108, 109, 112, 122, 124, 128 - 145 - phân cụm, 15, 16, 18, 24, 46, 47, 50, 52, 66, 76, 77, 78, 79, 92, 105, 106, 107, 108, 109, 110, 111, 112, 113, 122 phân lớp, 15, 16, 18, 24, 29, 35, 37, 38, 39, 41, 42, 43, 44, 46, 47, 51, 52, 64, 65, 66, 72, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 97, 98, 100, 101, 102, 103, 104, 105, 108, 109, 110, 111, 112, 119, 122, 123, 124, 125, 126, 127, 128, 129, 130, 133, 135, 136, 137 phát tri thức, 17, 25, 32, 49, 119 Phát tri thức khai phá liệu, 49 quan hệ thuộc tính, 16, 32, 43 Quan hệ không phân biệt được, 9, 34 SPSS, 9, 18, 99, 102, 103, 104, 108, 109, 112, 139, 142 thuộc tính định danh, 51, 54, 62, 65, 68, 69, 72, 77, 90, 106, 111, 113, 122 thuộc tính số, 50, 61, 62, 65, 68, 77, 88, 89, 90, 111, 123 trọng số, 9, 15, 16, 17, 18, 19, 24, 34, 51, 52, 53, 54, 64, 66, 67, 68, 70, 72, 73, 74, 75, 76, 77, 79, 80, 81, 88, 89, 95, 96, 98, 102, 106, 109, 111, 112, 113, 119, 122 UCI Machine Learning Repository, 62, 74, 81, 88 xấp xỉ tập hợp, 19, 37 - 146 - ... thuật phát tri thức khai phá liệu đồng thời với việc sử dụng độ đo tương tự hỗn hợp toán Chương Nghiên cứu độ đo tương tự hỗn hợp phát tri thức từ liệu - 17 - Chương trình bày độ đo tương tự hỗn hợp. .. tích liệu trực tuyến Trong nghiên cứu đó, có số nghiên cứu độ đo tương tự độ đo tương tự hỗn hợp toán phát tri thức khai phá liệu Dưới tác giả tóm lược nghiên cứu điển hình độ đo tương tự hỗn hợp. .. Tổng quan độ đo tương tự độ đo tương tự hỗn hợp 44 1.4.1 Mơ hình độ đo tương tự 44 1.4.2 Vai trò độ đo tương tự .46 1.4.3 Khoảng cách hỗn hợp Độ đo tương tự hỗn hợp 48

Ngày đăng: 09/07/2017, 20:25

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • DANH MỤC CÁC KÝ HIỆU, THUẬT NGỮ VÀ TỪ VIẾT TẮT

  • DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ

  • DANH MỤC CÁC BẢNG BIỂU

  • Chương 1. NHỮNG VẤN ĐỀ LÝ LUẬN CHUNG

  • Chương 2. NGHIÊN CỨU ĐỘ ĐO TƯƠNG TỰ HỖN HỢP TRONG PHÁT HIỆN TRI THỨC TỪ DỮ LIỆU

  • Chương 3. THỬ NGHIỆM ĐỘ ĐO MSM-R TRONG BÀI TOÁN PHÂN LỚP VÀ PHÂN CỤM DỮ LIỆU

  • KẾT LUẬN

  • DANH MỤC TÀI LIỆU THAM KHẢO TIẾNG ANH

  • DANH MỤC TÀI LIỆU THAM KHẢO TIẾNG VIỆT

  • DANH MỤC WEBSITE THAM KHẢO

  • DANH MỤC CÔNG TRÌNH CÔNG BỐ CỦA TÁC GIẢ

  • PHỤ LỤC

  • INDEX

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan