1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu ứng dụng lý thuyết tập thô trong trích chọn dữ liệu (tt)

27 25 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Vũ Thị Mai NGHIÊN CỨU ỨNG DỤNG LÝ THUYẾT TẬP THÔ TRONG TRÍCH CHỌN DỮ LIỆU Chun ngành: Khoa học máy tính Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2012 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS TS Nguyễn Hoàng Phương Phản biện 1: …………………………………………………… Phản biện 2: …………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng -1MỞ ĐẦU Ngày nay, phát tri thức (Knowledge Discovery) khai phá liệu (Data mining) lĩnh vực nghiên cứu phát triển mạnh mẽ Khai phá liệu sử dụng với tên thăm dị phân tích cách tự động bán tự động số lượng lớn liệu theo thứ tự để tìm kiếm mẫu có ích luật Mặc khác, mơi trường cạnh tranh khốc liệt nay, người ta ngày cần có nhiều thơng tin với tốc độ nhanh để trợ giúp việc định ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lượng liệu khổng lồ có Với lý dẫn tới phát triển khuynh hướng kỹ thuật kỹ thuật phát tri thức khai phá liệu (Knowledge Discovery and Data ming – KDD) Lý thuyết tập thô nhà logic học Balan Zdzislak Pawlak giới thiệu vào đầu năm 80 [20] xem cách tiếp cận để phát tri thức Nó cung cấp cơng cụ để phân tích, trích chọn liệu từ liệu khơng xác để phát mối quan hệ đối tượng tiềm ẩn liệu Nó cho ta cách nhìn đặc biệt mơ tả, phân tích thao tác liệu cách tiếp cận tính khơng chắn khơng xác liệu Mục đích lý thuyết tập thơ phân loại liệu dạng bảng biểu gọi hệ thông tin Mỗi hàng biểu diễn đối tượng (object), cột biểu diễn thuộc tính Nó cung cấp hệ thống trợ giúp phân loại tập liệu, rút trích thơng tin hữu ích từ tập liệu…Với việc áp dụng lý thuyết tập thô vào việc trích chọn liệu giúp làm giảm mức độ đồ sộ hệ thống liệu, giúp nhận biết trước loại liệu xử lý Ở Việt Nam lý thuyết tập thô ý vài năm gần Có nhiều đề tài nghiên cứu cho kết khả quan đưa vào ứng dụng xử lý ảnh y tế, khai phá liệu y tế, nhận dạng, trí tuệ nhân tạo,… Cho nên tơi chọn đề tài: “Nghiên cứu ứng dụng lý thuyết tập thô trích chọn liệu” kế thừa, phát triển, đóng góp vào nghiên cứu lý thuyết tập thơ -2CHƯƠNG 1: CÁC PHƯƠNG PHÁP DÙNG TRONG TRÍCH CHỌN DỮ LIỆU 1.1 Tổng quan khai phá liệu phát tri thức 1.1.1 Khái niệm phát tri thức khai phá liệu Phát tri thức lĩnh vực nghiên cứu ứng dụng tập trung vào liệu, thông tin tri thức Phát tri thức (Knowledge discovery) sở liệu trình phát mẫu hay mơ hình đắn, lạ, có lợi ích tiền tàng hiểu liệu [11] Khai phá liệu (Data mining) bước quan trọng trình phát tri thức bao gồm giải thuật khai phá liệu để tìm mẫu hay mơ hình liệu khả chấp nhận máy tính điện tử [11] 1.1.2 Q trình phát tri thức Các bước trình phát tri thức mơ tả hình 1.1 Bước khảo sát miền ứng dụng xác định, phát biểu vấn đề Bước thứ hai thu thập tiền xử lý liệu Bước thứ ba sử dụng phương pháp khai phá liệu để trích rút dạng mơ hình ẩn liệu Bước thứ tư giải thích tri thức phát hiện, sau lấy trung bình kết để đánh giá hiệu luật Bước cuối đưa tri thức phát sử dụng thực tế -31.1.3 Các nhiệm vụ phát tri thức khai phá liệu - Phát triển hiểu biết miền ứng dụng - Tạo liệu mục tiêu (dữ liệu đầu ra) - Làm liệu tiền xử lý - Rút gọn liệu dự báo - Chọn nhiệm vụ khai phá liệu - Chọn phương pháp khai phá liệu - Khai phá liệu để trích xuất mẫu/mơ hình - Giải thích đánh giá mẫu/mơ hình 1.1.4 Các thách thức phát tri thức - Các sở liệu lớn - Dữ liệu nhiều chiều - Hiện tượng phù hợp (over – fitting) - Đánh giá ý nghĩa thống kê - Dữ liệu động - Dữ liệu thiếu nhiễu - Các quan hệ phức tạp trường - Khả biểu đạt mẫu - Sự tương tác với người dùng tri thức có sẵn - Tích hợp với hệ thống khác 1.2 Các phương pháp trích chọn liệu Để minh họa cho q trình trích chọn liệu tơi xin trình bày ví dụ sau: Một tập liệu hai chiều gồm 23 điểm mẫu Mỗi điểm biểu thị cho khách hàng, trục hoành biểu thị thu nhập, trục tung biểu thị tổng dư nợ Dữ liệu chia thành hai lớp: dấu x biểu thị cho khách hàng bị vỡ nợ, dấu biểu thị cho khách hàng có khả trả nợ “Nếu thu nhập < t đồng khách hàng vay bị vỡ nợ” mơ tả hình 1.2 Nợ        Sẽ vỡ nợ 0   0  0 0 Có khả trả nợ t Hình 1.2 Tập liệu hai chiều Thu nhập -41.2.1 Cây định Cây định mô tả tri thức dạng đơn giản nhằm phân loại đối tượng liệu thành số lớp định Các nút gán nhãn tên thuộc tính, cạnh gán giá trị thuộc tính, mô tả lớp khác Các đối tượng phân lớp theo đường cây, qua cạnh tương ứng với giá trị thuộc tính đối tượng tới Nợ =n Thu nhập < t Không cho vay Thu nhập >= t Khơng cho vay Cho vay Hình 1.3 Cây định Hình 1.3 mơ tả mẫu đầu trình khai phá liệu dùng phương pháp định với tập liệu khách hàng xin vay vốn 1.2.2 Phân cụm (Clustering) Phân cụm hay nhóm việc tìm nhóm liệu Các phương pháp phân cụm phân thành hai loại: - Phân cụm có thứ bậc: Mỗi điểm liệu xem cụm riêng biệt kết hợp cách liên tiếp dựa vào quan hệ với dạng khác - Các phương pháp tối ưu hóa dựa hàm đối tượng: phương pháp sử dụng số hiệu để giúp cho việc phát triển phân chia tốt điểm liệu 1.2.3 Hồi quy (Regression) Hồi quy việc học hàm ánh xạ từ mẫu liệu thành biến dự đốn có giá trị thực Hình 1.4 mơ tả mẫu kết dự đoán tổng dư nợ khách hàng với phương pháp khai phá liệu hồi quy Đường hồi quy tuyến tính cho thấy khách hàng có thu nhập cao tổng dư nợ lớn Mẫu kết không phù hợp với quy luật -5Đường hồi quy Nợ X X X X X O X X X X O O X O O O O O O O Hình 1.4 Mẫu kết phân loại theo hồi quy Thu nhập 1.2.4 Mạng nơron (neural networks) Mạng nơron tiếp cận tính tốn liên quan đến việc phát triển cấu trúc toán học với khả học Phương pháp kết việc nghiên cứu mơ hình học hệ thống thần kinh người Một số ưu điểm phải kể đến mạng nơron khả tạo mơ hình dự đốn có độ xác cao, áp dụng cho nhiều loại toán khác nhau, đáp ứng nhiệm vụ đặt khai phá liệu phân loại, phân nhóm, mơ hình hóa, dự báo kiện phụ thuộc vào thời gian, v.v… Dữ liệu Mơ hình mạng Neuron Mẫu chiết xuất Hình 1.5 Sơ đồ trình khai phá liệu mạng nơron 1.2.5 Lý thuyết tập thơ Tập thơ có quan điểm hồn tồn khác với quan điểm truyền thống tập hợp, tập hợp định nghĩa phần tử mà khơng cần biết thông tin phần tử thuộc tập hợp Rõ ràng tồn số đối tượng giống số thơng tin đó, ta nói chúng có quan hệ khơng thể phân biệt Đây quan hệ mấu chốt điểm xuất phát lý thuyết tập thô; biên giới tập thô không rõ ràng, phải xấp xỉ tập hợp khác nhau, nhằm mục đích cuối trả lời đối tượng thuộc tập hợp hay không Lý thuyết tập thô với tiếp cận ứng dụng rộng rãi Ở chương sau trình bày lý thuyết tập thơ -6CHƯƠNG 2: LÝ THUYẾT TẬP THƠ ỨNG DỤNG TRONG KHAI PHÁ DỮ LIỆU Lý thuyết tập thô hiệu khai phá liệu, tìm kiếm thông tin, hỗ trợ định, máy học, hệ sở tri thức Lý thuyết tập thô phát huy tác dụng tính khơng chắn khơng xác liệu Trong lý thuyết tập thơ, khái niệm khơng xác thay cặp khái niệm xác gọi xấp xỉ (lower approximation) xấp xỉ (upper approximation) Xấp xỉ gồm tất đối tượng chắn thuộc khái niệm xấp xỉ bao gồm tất đối tượng thuộc khái niệm Hiệu xấp xỉ tạo thành khoảng ranh giới (boundary region) khái niệm không rõ ràng Lý thuyết tập thô (Pawlak, 1980) [20] lý thuyết tập mờ (Zadeh, 1965) [15] lý thuyết độc lập, có mối quan hệ khăng khít với bổ sung cho việc biểu diễn xử lý thơng tin khơng xác, khơng đầy đủ Trong lý thuyết tập mờ, tính khơng xác biểu hàm thuộc, cách tiếp cận tập thô lại dựa tính khơng phân biệt xấp xỉ 2.1 Các hệ thống thông tin 2.1.1 Hệ thông tin Hệ thông tin (information system) tập hợp liệu biểu diễn theo dạng bảng, dịng đối tượng, cột biểu diễn thuộc tính Xét hệ thông tin S bốn S= Trong đó: U={x1,x2,x3,…,xn} tập hữu hạn đối tượng Q: Tập hữu hạn thuộc tính, Q=CD C tập thuộc tính điều kiện, Q thuộc tính định V  Vq Vq vùng xác định thuộc tính q  qQ f: U x Q  V hàm tổng thể cho f(x,q)Vq với qQ xU f gọi hàm thông tin Ví dụ 2.1: Cho hệ thơng tin T1 Bảng 2.1 Bảng thông tin T1 -7Bệnh nhân Đau đầu Đau Sốt Cúm P1 Có Khơng Cao Có P2 Khơng Có Cao Có P3 Có Có Rất cao Có P4 Khơng Có Bình thường Khơng P5 Có Khơng Cao Khơng P6 Khơng Có Rất cao Có Tập đối tượng U={P1, P2, P3, P4, P5, P6} Tập thuộc tính Q={Đau đầu, đau cơ, sốt, cúm} Tập giá trị thuộc tính: Vđau đầu = Vđau = Vcúm ={có, khơng}; Vsốt ={bình thường, cao, cao} Hàm thông tin f: f(P1, đau đầu) = có; f(P1, đau cơ) = khơng; f(P2,đau đầu)=Khơng; f(P2, sốt) = Cao,… 2.1.2 Hệ định Hệ thông tin S= gọi định C  D; ngược lại, khơng Trong bảng thơng tin T1 xem hệ định có thuộc tính định cúm Ta rút luật sau: “Nếu đau đầu = có đau = khơng sốt = cao cúm = có” Trong q trình tạo tập luật sau thường trọng đến việc rút gọn vế trái luật 2.2 Tính bất khả phân 2.2.1 Quan hệ tương đương Quan hệ R tập X gọi quan hệ tương đương thỏa mãn tính chất: Tính phản xạ, tính đối xứng, tính bắc cầu 2.2.2 Lớp tương đương Với phần tử x  X, ta định nghĩa lớp tương đương chứa x, ký hiệu [x], tập hợp tất phần tử thuộc X có quan hệ R với x: [x]={yX: yRx} 2.2.3 Quan hệ bất khả phân Giả sử: S = hệ (bảng) thông tin P  Q, X  U x, y  U (x, y hai đối tượng tập vũ trụ U) -8Quan hệ phân biệt theo P (Indiscernibility relation), ký hiệu IND(P) định nghĩa sau: IND(P) = {(x, y)  U x U: f(x,q) = f(y,q)  qP} Quan hệ phân biệt quan hệ tương đương chia tập đối tượng U thành họ lớp tương đương Họ gọi phân loại (classification) ký hiệu U|IND(P) hay U|P Các đối tượng lớp tương đương bất khả phân biệt P Với xU, lớp tương đương (equivalence class) x quan hệ IND(P) biểu diễn Ip Ví dụ 2.2: Hệ thơng tin T1 bảng 2.1 ví dụ 2.1 có số quan hệ phân biệt sau: IND{(Sốt)} = {(P1,P2), (P1,P5), (P2,P5), (P3,P6)} U|IND({Sốt}) = {{P1, P2, P5}, {P3, P6}, {P4}} Với P = {Đau đầu, sốt} IND(P) = {(P1, P5)} U|IND(P) = {{P1, P5}, {P2}, {P3}, {P4}, {P6}} 2.3 Xấp xỉ tập hợp 2.3.1 Không gian xấp xỉ Cho hệ thông tin S = P  Q Một cặp có thứ tự PS = (U, IND(P)) gọi không gian xấp xỉ (approximation space) Mô tả tập P-cơ XU|P định nghĩa: Desp(X) = {(q,v): f(x,q) = v, xX, q  P} 2.3.2 Tập xấp xỉ Cho hệ thông tin S = PQ X  U P – xấp xỉ (P lower approximation) X PS, ký hiệu P( X ) : P( X ) = {xU; Ip (x)  X} Những phần tử P( X ) đối tượng xU thuộc vào lớp tương đương sinh từ quan hệ phân biệt Ip nằm X P – xấp xỉ (P upper approximation) X PS, ký hiệu P ( X ) : P ( X ) = I xX p ( x) -11Tập P’ P rút gọn P (kí hiệu Red(P)) P’ không phụ thuộc IP=IP’ U|IND(P) = U|IND(P’) Có thể có nhiều Y rút gọn P bảng thông tin Tập chứa tất thuộc tính khơng thể bỏ P gọi Y_lõi (Y_Core)  CoreY(P)= RedY(P) Ví dụ 2.4: Với bảng 2.1 (bảng thơng tin T1) ví dụ 2.1 ta tìm tập lõi tập rút gọn sau: RedY={{đau đầu, sốt},{đau cơ, sốt}}; CoreY={Sốt} 2.5.2 Ma trận khả phân (ma trận phân biệt) Cho hệ thông tin S= với n đối tượng U={x1, x2, …, xn}, ma trận phân biệt (discernibility matrix) S, ký hiệu M(S) ma trận đối xứng n x n với giá trị cij định nghĩa sau: (cij) = {pQ: p(xi)  p(xj)} i,j = 1, 2, …, n Lõi định nghĩa hợp tất tập phần tử ma trận phân biệt được: CORE(Q) = {pQ: cij={p} với i, j đó} Cho Q’Q dễ dàng thấy Q’ rút gọn Q, Q’ tập cực tiểu Q (đối với phép bao hàm) cho: Q’  c   với phần tử khác rỗng c M(S) Ví dụ 2.6: Cho hệ thông tin S = (U, {a, b, c, d}) bảng 2.3 từ xây dựng ma trận phân biệt, tìm tập rút gọn lõi Bảng 2.3 Bảng thông tin T2 U a b c d x1 x2 2 x3 1 x4 1 x5 1 Ma trận phân biệt đối xứng, ta cần xác định phần tử nằm đường chéo ma trận Ma trận phân biệt với bảng 2.3 sau: Bảng 2.4 Ma trận phân biệt biến đổi từ bảng 2.3 -12x1 x2 x3 x4 x5 x1 x2 a, b, c, d x3 a, b, c b, c, d x4 a, c, d a, b, d a, b, c, d x5 a, c, d b b, c, d a,d Từ bảng 2.4 theo định nghĩa ta xác định lõi chứa thuộc tính b (vì Core(Q) = {b}, b  Q c52 = {b}) có tập thuộc tính rút gọn {a, b} {b, d} hệ thông tin 2.5.3 Hàm khả phân (hàm phân biệt) Tất rút gọn hệ thơng tin tìm thơng qua hàm khả phân Với hệ thông tin S = (U, Q) có ma trận phân biệt M(S) = cij với (cij) = {pQ: p(xi)  p(xj)} i,j = 1, 2, …, n Hàm phân biệt fs hàm Boolean m biến Boolean a*1, a*2, …,a*m (ứng với thuộc tính a1, a2, …, am) xây dựng dạng chuẩn tắc tuyển sau: fs(a*1, a*2, …,a*m) =  {  cij |  j  i  n, cij  } Trong đó: c*ij = {a* | a  cij} Tập đơn thức fs xác định tập rút gọn S Ví dụ 2.7: Theo ví dụ 2.6, ta xây dựng ma trận phân biệt, từ ta xác định hàm phân biệt sau fs(a,b,c,d)=(abcd)(abc)(bcd)(acd)(abd) (abcd)(acd)b(bcd) (ad) Rút gọn hàm ta được: fs(a,b,c,d)= b(ad) = (a  b) (b  d) Hai tập thuộc tính rút gọn {a,b}; {b,d} 2.5.4 Hàm k-khả phân Định nghĩa: Hàm k-khả phân hàm số bool tạo từ việc xét mối kết hợp cột k ma trận khả phân (thay tất cột ma trận) 2.5.5 k-Reduct Định nghĩa: Từ hàm k-khả phân ta tìm Recduct hệ thơng tin S Mỗi k-Reduct tập thuộc tính tối tiểu để nhận -13được lớp tương đương U|IND(Pk) từ đối tượng khác không gian thông tin 2.5.6 Không gian định Định nghĩa: Cho hệ định S = (U, Q  {d}) Với d thuộc tính định Số lượng phần tử tập d(U) = {v | d(x) = v, x  U} gọi khơng gian định thuộc tính định d - Ký hiệu r(d) Gọi Vd miền giá trị d Vd xác định sau: Vd = { v1d , vd2 , , vdr ( d ) } 2.5.7 Lớp định Từ thuộc tính định d ta phân chia khơng gian thơng tin sau: CLASSQ(d) = { X S1 , X S2 , , X Sr ( d ) } Với X Sk ={x  U | d(x) = vdk }, k= 1, 2, …, r(d) Định nghĩa: - CLASSQ(d) gọi phân loại đối tượng hệ định S dựa thuộc tính định d - Tập X Si gọi lớp định thứ i hệ định S - XQ(u): lớp định {x  U | d(x) = d(u)} u  U 2.5.8 Reduct quan hệ định Cho hệ định quán S = (U, Q  {d}) Ma trận khả phân tương ứng M(S) = (cij) Có ma trận định khả phân tương ứng: Md(S) = ( cijd ) với cijd = d(xi) = d(xj), i,j = 1, 2, …, n Các reduct có từ hàm định khả phân fsMd ma trận định khả phân Md(S) gọi reduct quan hệ định S 2.5.9 Thuật tốn thu gọn khơng gian thuộc tính điều kiện Input: Hàm khả phân fs=fs1  fs2  …  fsn Output: Các tập thuộc tính thu gọn hệ thơng tin S Với phần hội, áp dụng luật hút để loại bỏ phần hội tập cha -142 Thay tất thuộc tính tương đương mạnh thuộc tính đại diện Với phần hội fsi, áp dụng luật mở rộng để tách thành hai hàm khả phân fsi = fsi1  fsi2 Quay lại thực (3), ta fsi dạng đơn giản Thay thuộc tính đại diện thuộc tính ban đầu Phân rã fsi theo luật phân phối ta Red(fsi) Các phần giao nhỏ Red(fsi) tập thuộc tính thu gọn hệ thông tin S 2.6 Sự phụ thuộc thuộc tính Cho D C tập thuộc tính Q Ta nói D phụ thuộc hoàn toàn vào C I(C)I(D) Ta nói D phụ thuộc C mức k (0  k  1; k gọi mức độ phụ thuộc), ký hiệu C kD, nếu: k = (C,D) = POS C D , POScD = U C ( X ) xU / D - Nếu k=1 ta nói D phụ thuộc hồn tồn vào C - Nếu k

Ngày đăng: 19/03/2021, 17:49

Xem thêm:

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w