Tuy nhiền, với số lượng dữ liệu được tập trung và lưu tr trong cơ sở đỡ liệu ngây cảng lớn thì việc tim kiểm các ngoại lai hoặc các phần tử ngoại lai trở nên cấp thiết hơn rất nhiều,
Trang 1LOICAM DOAN
Tôi in cam đoan luận văn nấy là công tình nghiên cổo thực sự cổa cá nhân
"mình thực hiện đo sự hướng dẫn tậníh của thấy giá TS, Lê Văn Phòng,
Các số ệu, kết quả do bẫ thân nghiên cốu và m hiễu được tỉnh bảy trong Thận văn này trung thực và chưa tồng được công bổ dưới ắt cũ tình thốc ào
Tôi xi chịu hoàn toàn trách nhiệm về nghiên cứu của mình
Học viên
Lê Long Giang
Trang 2LOTCAM ON Loi đầu tiền tôi sản được gi lời cảm ơn sâu sắc nhấ tối thầy giáo TS Lê
`Văn Phòng, người hẦy đã trọ tiếp dành nhiều thời gian tận tính hướng dẫn, cụng cấp những thông tủa, ôi li quỹ bầu giáp đ tối hoàn thành bản oận văn này
Tôi công xin gồi lời cảm ơn đến các giảng viên trường Đại Học Công nghệ Thông Tin và Truyền Thông - Đại học Thái Nguyên, các thấy Viện Công
"nghệ thông tỉa - Vign Hin lâm Khoa học Công nghệ Việt Nam da ging day, truyền đạt những kiến thức và gióp đỡ tôi trong suốt quá trình họ tip cba minh
Tôi công xin gửi lời cảm cn tới Ban Giám đắc - Sở Khoa học và Công nghệ tỉnh Lào Cai, Phòng Quản lý Công nghệ và Thị trường công nghệ đã tạo
“mọi điềo kiện thuận lợi cho em tham gia khôa học và trong suốt quả tình hoàn thành luận văn
Cuốt cùng, tôi in cảm ơn những người thân, bạn bè và gia đình đã luôn
cỗ võ động viên tối hoàn thành luận văn tốt nghiệp này
Mic i da hết sức cổ gắng hoàn thành luận văn với tất cả sự nd tye cia
‘ban thân, nhưng luận văn không tránh khỏi những thiểu sót Kính mong nhận
được những ý kiến đồng góp của quý thầy cô và bạn bê, đẳng nghiệp
Tôi xin chân thành cảm on!
Thái Nguyên, ngày 20 thing 04 năm 2016
Học viên
Lê Long Giang
Trang 3MỤC LỤC
DANH MỤC CÁC ĐỊNH NGHĨA, ĐỊNH LÝ, BỖ ĐẺ, THUẬT TOÁN vii
CHUONG 1: PHU THUOC HAM MANH VA PHAN TU'NGOAI LAI
1.1 Khối niệm về phụ thuộc mạnh
1.2 Phuong phập xác định phụ thuộc mạnh trong CSDL 5
13 Phần tờ ngoại li và mỗi quan hệ giữa chúng với khai phá đỡ iệu 13
1.32 Các phương pháp xác định phần tờ ngoại ai 4 1.3.3 Mỗi quan hệ giữa phần tờ ngoại lai và khai phá đỡ liệu 16
ân từ ngoại lai trong dữ liệu và trong cơ sở dữ liệu
CHƯƠNG 2: PHÁT HIỆN PHẢN TỬ NGOẠI LAI ĐỐI VỚI PHỤ THUỘC
2.1 Phần tử ngoại li đối với các dạng phụ thuộc hàm đặc biệt 24
3.1.1 Phẫn tử ngoại lại đối với phụ thuộc hàm dạng bằng nhau 24
Trang 42.1.2 Phin ti ngoai lai đối vớ phụ thuộc hàm dạn t lệ
222 Phần tờ ngoại li đối với hệ răng buộc đạng phụ thuộc hàm,
223 Thuật toán phát hiện các phần tỡ ngoại lai đối với các dạng chuẩn
2.31 Thoét toán phát hiện phần tờ ngoại lai đối với dạng chuẩn 2NE 2.3.2 Thoét toận phát hiện phần tờ ngoại lai đối với dạng chuẩn 3NE 34
2.33 Thuật toán phát hiện phẫn tờ ngoại la đối với dạng chuẩn BCNF 36 2.4 Phân tử ngoại li đối với phụ thuộc mạnh, 37 2.4.1 Thuật toần tìm các phụ thuộc hầm mạnh trong quan hệ và SĐQH 37 3.4.2 Xác định phụ thuộc bằm mạnh cực đại đối với một tập thuộc tính 38
2.4.3, Thuật toán tìm phần tử ngoại lai
'CSDL quan hệ
KET LUẬN CHƯƠNG 2
CHUONG 3: UNG DỤNG TÌM PHÂN TỬ NGOẠI LAI
3.1 Lựa chọn bài toán để cải đặt
3.2 Cải đặt chương trình,
3.2.1 Yêu cầu hệ thông,
3.2.2 Cấu trúc của chương trình
3.3.Chương trình mình hoa:
3.3.1, Demo 01:
3.3.2 Demo 02:
3.3.3 Một số đoạn mã lệnh sử đụng trong chương trình,
KET LUAN VA HUONG PHAT TREN
TÀI LIỆU THAM KHẢO
“ 65
Trang 5DANH MỤC HÌNH ẢNH
Tình 1.3.1 Phẫ tử ngoại lá trong tập điểm cổ tọa độ ác) tiên mặt phẳng có giá
trị tong độ y nhỗ hơn bẵn các phin tờ khác của tập hợp 1
"Hình 1.4.3 Sơ đỗ phát hiện phần từ ngoại lai đựa theo luật rong CSDL quan hệ 21
Trang 6CÁC KÍ HIỆU VIET TAT DUNG TRONG LU:
Trang 7
MOT SO QUI VGC VE Ki BIEU THUG
SỬ DỤNG TRONG LUẬN
- Các thuậc tính được kí hiệu bằng các chữ Lain hoa div bing chi A B,C
- Tập thuộc th được kỹ hiệu bằng các chờ Lain hoa coi bảng chờ X, Y, Z,
~ XY hoặc X U Y biễu diễn hợp của ai tập X và Y Phép trở bai tập X và
` được ký hiệu là X\Y, hoặc X.- Y
~ Một phân hoạch cña tập M (thành các tập con rồi nhau và cô hợp là M),
Xi, XG, Xe được ký hiệu là M Xu X5 Xe
Voi ÿ nghĩa M= XU XaU U Xe và Xin X;=Ø, 1< j< m,ï#j
- Kí hiệu R, U đŠ chỉ tập toần bộ các thuộc tính trong một sơ đỗ quan hệ
- Kí hiệu |r là lực lượng (số bộ) của quan hệ r
- Kí hiệu X —x Y đỄ chị phụ thuộc hàm giữa X và Y
- Kihiệu X — —> Y để chỉ phụ thuộc mạnh giữa X và Y; hoặc cô thể sử: dạng kí biệu Ä —+ Y để chỉ phụ thuộc mạnh với lời chỗ dẫn đi troớc
~ Kí hiệu X —+ ơ Y đề chỉ phụ thuậc hàm xắp xỉ mốc ơ giữa X va Y
- Kí hiệu = để chỉ sự kéo theo trong mệnh dé logic
Trang 8BANG CAC BINH VE DANH MỤC CÁC ĐỊNH NGHĨA, DINH LY, BODE, THUAT TOAN Định nghĩa 1.4.1 Định nghĩa mô tả
Định nghĩa 2.1.1.1 Phụ thuộc hàm dạng bằng nhau
"Định nghĩa 2.1.1.2 Phần tử ngoại lai đối với gồụ thuộc hâm dạng bằng nhan,
Định nghĩa 2.12.1 Phụ thuộc hàm dạng lệ
"Định nghĩa 2.1.22 Phẫn tử ngoại lai đổi với phụ thuộc hầm dạng lệ
"Định nghĩa 2.1.3.1 Phần tử ngoại lai đối với hệ răng buộc dạng PTH
"Định nghĩa 22.1 Phần tử ngoại la đối với dạng chuẫn
"Định nghĩa 22.3 Phụ thuộc mạnh cục đại
Định lý 1.21 Tinh ding và đây đủ của bệ TI-T3
"Định lý 1.22 Sự tên tại bọ phụ thuộc hàm sinh ra họ phụ thuộc mạnh,
Định lý 1.23 Họ phụ thuộc mạnh,
"Bổ đề 1.2.1 Tính bắc cầu hỗn họp
Bổ để L22:
Bồđề2141
"Mệnh đề 1.22 Phụ thuộc mạnh của các tập phụ thuộc bảm trơng đương,
"Mệnh đề 22.3 Sự tôn tại của phụ thuộc mạnh
“Thuật toần 2.1.1 (phát hiện phần tờ ngoại lai đối với PTH dạng bằng nhau)
“Thuật toần 2.1.2 (phát hiện phần tử ngoại la đối với phụ thuộc him dang tl) Thuật toần 2.1.3 (Thuật toần sắc định phần từ ngoại lạ đối với hé ing buge dang PTH) Thuật toán 221.1 (Thuật toán NL_2NF)
Thuật toán 22.12 (Thuật toán NL_3NF)
Thuậttoãn 22.13 (Thuật toán NL_ BCNE)
Thuậttoãn 222 (Tìm các PTM tong SĐQH)
Thuật oán 2.23.1 (Tìm phụ thuộc mạnh cục đạ),
Thuật oán 23.1.2 (Tim các phụ thuộc mạnh trong quan bệ
Trang 9MỠĐÁU Thé ki XXI duye xem là một kỹ nguyên cöa công nghệ thông tín Các công nghệ khám phá tr thức được ấp đọng rộng rãi trong nhiễu lĩnh vực và đem, Tại những thành to to ớn Nhơng các công nghệ khẩm phá tr thức thường nhẩm, mục đích tìm kiểm, khám phá các đạng và mẫu thường gặp Chủ yéo tip trong vào các hướng: Tim kiểm các luật kết hợp, nhận dạng và phân lớp mẫu Cần lĩnh vực khám phá phần tờ ngoại lai chưa cổ được sự quan tâm, đầu tơ và phất
triễn ở trong nước công nb ở nước ngoài
"Người ta nhận thấy răng cổ rất nhi trị thức còn tiềm ân trong đỡ liệu, vấn
đề đặt ra lã lầm thể nào để khai thắc được thông tin và khai thấc một cách có hiệu
quả Còn trong linh vực khẩm phá phần tử ngoại lai mới bước đầu được sự quan tâm nghiên cứu Mặc đồ nỗ được Ứng đọng trong nhiều nh vục cuộc sẵng nhơ: hất hiện những thể bất thường trong bệ thống ngân hàng, nhồng toyển đường bắt
đn không hợp lý tong giao thông, ứng đụng trong hệ thống an ninh, dự báo thời tiết trong thị trường ching khoán, trong lĩnh vực thể thao Tuy nhiền, với số lượng dữ liệu được tập trung và lưu tr trong cơ sở đỡ liệu ngây cảng lớn thì việc tim kiểm các ngoại lai hoặc các phần tử ngoại lai trở nên cấp thiết hơn rất nhiều,
Do ti hip
phần tờ ngoại lai trong co sé df ligu quan hi, t5i chon 68 ti: “Nigh cứu phần
tử ngoại lai đỐt với phụ thuộc manh: trong mô hùnh dữ iệu quan Hệ" ta ton vin cao học của mình Trong đồ nghiền cứu vận dụng kiến thức nghiễn ctu nly vào giải quyết bài toần tim phần tở ngoại lai đối với phụ thuộc mạnh trong mô hình:
dữ liệu quan hệ
và tính thời sự của khai phá đỡ liệu, đặc biệt là phát hiện,
ĐỀ ti đi sâu nghiên cứu một mảng kỹ thuật khai thắc đỡ liệu nhằm hỗ trợ che mục đích sử đọng khác nhau Có mục đích tìm các nhân tổ tích cc, cô mục đích tim các lỗi lưu trở trong tập dỡ iệo, cổ mục đích tìm kiểm nhận đạng tôi pham, gian lận tà chính hoặc cũng có thể làm dự báo, phân tích tị trường,
Trong pham vi, ứng dụng rộng rãi em đã nêu ở trên, việc nghién cứu phần
tổ ngoại lai đối với phụ thuộc mạnh tong mổ hình dỡ liệu quan hệ đã mang ý
"nghĩa khoa học rất lớn Luận văn sẽ thực hiện với hỉ vọng sẽ đồng góp một phần
Trang 10"nghiên cứu khoa học nhất định trong việc ting hợp, đảnh giá một nhiệm vụ khai phá dỡ liệu quan trọng nhằm phát hiện những tì thức cổ ý nghĩ lớn, đão bão cơ
sở toần học trong chuyên ngành khoa học mấy tính
Trọng tâm của Luận văn là giải quyết bài toán phát hiện phần tờ ngoại lai đối với phụ thuộc mạnh trong mô hình đỡ liệu quan hệ, song bên cạnh đô Luận văn cũng tiến hành nghiên cứu và đề xuất những vấn đề ý thuyết mới về phụ thuộc hàm, các dạng chuẫn của quan hệ cũng như một số thuật toân tìm loật kết
XMệt số mục tiêu cụ thể cũa Luận văn được đặt ra là:
1 Xây đựng mô hình phát hiện phần tổ ngoại lai đựatheoloật trong CSDL quan hệ, bao gầm,
- Xây dựng phương pháp xác định phần tờ ngoại lai đối với ph thuộc hằm và khôa
y đựng cây qu
- Xây dựng phương pháp xác định phần tử ngoại lai đối với hệ rằng buộc dang phụ thuộc hằm
- Xây dựng phương pháp xác định phần tờ ngoại lai đố với các dang choi
2 Xây đựng phương pháp xắc định phụ thuộc mạnh trong cơ sở đổ liệu quan
tệ và xá định phương pháp xác định phẫ tờ ngoại lai đối với phụ thuộc mạnh
3 Ứng đụng kết quả nghiên cứu vào giải quyết bài toán
`Với việc hoàn thành các mục tiêu đã đặt ra, luận văn đã đạt được mộ số
kết quả đóng góp một phần trong việc phát triển lý thuyết về phát hiện phần tử
"ngoại la đối với phụ thuộc mạnh trong mô bình dỡ liệu quan hệ
Tuận văn được bổ cục nh sau
"Ngoài phần mỡ đầu và kết luận luận văn được ch làm 3 chương:
+ Chương Phụ thuộc mạnh và phân tờ ngoạ lai
+ Chương 2: Phát hiện phần tử ngoại lai đối với phụ thuộc hằm mạnh trong cơ sở dỡ liệu quan hệ
+ Chương 3: Ứng dung tim phẫn tử ngoại la
trong mô hình dỡ liệu quan hệ
ối với phụ thuộc mạnh.
Trang 11CHƯƠNG L PHY THUQC HAM MẠNH VÀ PHẢN TỬ NGOẠI LAI
Trong nội dung cổa chương nay trình bày một số lý thuyết và công trình
"nghiên cứu của các tác iả đi trước làm cơ sở cho nghiên ci bao gém: Khai iệm, phụ thuậc mạnh, hệ tính chất xắ định phụ thuộc mạnh, phương pháp xác định php
thuộc mạnh trong Cơ sở dữ liệu, phần tử ngoại li và mối quan hệ giữa chúng với khai phá đỡ tiện Đẳng thi tình bày mô hình phát hiện phần tờ ngoại li trong đế lig trong cơ ở đỡ liệu quan hệ và ông đụng của các phần tử ngoại li
1.1 Khái niệm về phụ thuộc mạnh
Đụ thuộc mạnh (StưongDependencie:) là khái niệm: mới được một số ác giả đề xuất và nghiên cứu [2], [1], 17], nổ c nhiều ứng đụng quan trọng trong
thực tin, đặc biệt khi chồng ta cần phân tích mỗi quan hệ giữa ahi
ảnh hưởng mạnh mang tỉnh quyết định đẫn nhau Phụ thuộc mạnh (PTM) liên quan nhiều đến phụ thuộc bảm: (PTE) thông thường, và các PTMM trên R cũng là các phụ thuộc hàm theo nghĩa thống thường trên R Tuy nhiền các kết quả về
TM của các tác gi đi trước mới chỉ được đ xuất trong phạm vỉ họ các PTM trên một tập thuộc tính R Nội dung dưới đây em tránh bày một số kết quả nghiên
giữa họ S°các PTM và họ F“ các PTH trên R; phương pháp
đễ xắc định các họ phụ thuộc mạnh S” trên một sơ đỗ quan hệ công như phương cứu về mối quan hệ pháp xắc định các PTM trên một quan hệ, đồng thoi em cũng tình bày phương pháp sắc định phần tở ngoại lai đối với các phụ thuộc mạnh
Các khái niệm về phụ thuộc mạnh và các kết quả sau cổ thể tim thy trong BỊ.) ]
Cho R là một tập hồu hạn không rỗng các thuộc tính, r — (t, t te) là một quan hệ trên R và À, BC R Ta nói rằng B phụ thuộc mạnh vào À trên r ki
biệu là A —”—>B nếu:
Yt, tre r nấu với mỗi s € À mã tía) = tía) thi véi mei be B: tí) = 20)
Trang 12Dit S= (AB): A+B) Sr duge goi là một họ đầy đũ các phụ thuộc,
“mạnh của r Một phụ thuộc mạnh trên R là một mệnh đề dạng ÀT—^->B, với ABGR
‘Mét phy thege manh A—2>B ding tn mét quan hi rnév A298 Chúng ta cồng nói rằng r thoả phụ thuộc manh A+B Cho R là một tập
‘chong rng hữu hạn các thuộc tính và P(R) la các tép con cba R Cho Y SP(R) x
PQ) Ching ta néi rằng Y là một họ strên R nếu và chỉ néu véi moi A, B,C, D
ER va aeRtacé
(S) (8), (e)) eY,
(S2) (AB) € Y, Œ,C) £ Y;B# ZS (A, C) € Y,
(S3) (A.B)<Y,CCA,D€B = (C,D) Y,
(S9 (AB) Y,(C,D)€ Y=(AUC,BnD)e Y,
($5) (,B) Y,(C,D) £ Y = (A n€,B UD) «Y:
Dé thay rằng S,là một họ strên RL
‘Néu Y là một họ s trên R th sẽ có một quan hệ r để sao cho Ý = S,
Đặt S” à họ tắt c các PTM mmà có thể suy dẫn logic tờ s theo các qui tắc
(S1)-(S5) Gọi S° là bao đồng của S
Goi cặp (RS) véi R là tập không rễng các thuộc tính và S là tập các PTM trên R là một sơ đỗ mạnh (SĐM) (SưongScheme)
Giả sử: G = (, S) là một SĐM trên R và X € R khi đó đặc
Xi =[aeRIX— >aeS)
Goi Xs" la bao déng cia X trên G
Voi X,Y GR 13 rang A> Be S* thi va chi thi Y OX
"ĐỂ thuận tiên ta sẽ kế hiệu X—+Y đã chỉ phụ thuộc hàm thông thường và
ký hiệu: X—?—>Y là phụ thuộc mạnh (hoặc có thé viết X—»Y e S9
Trens [2], (11], 17], các tác giả mới chỉ nghiền cứu các tính chất cña cấc
Trang 13TM trên một sơ đồ mạnh (SPM) ¢ = Œk, S) mà chưa đề cập đến mỗi quan hệ giữa một tập các phụ thuộc mạnh trên R với tập các phụ thuộc hàm F trên RL
Trong nội dung dưới
tối tinh bay một số kết quả nghiên cứu về mỗi quan hệ giữa tập PTM vả tập các PTH thông thường trên một tập thuộc tính E- Đẳng thôi công tỉnh bây phương phấp xắ định các PTMM trên một sơ đồ quan bệ cũng nh trên một quan hệ cho trước
12 Phương pháp xác định phụ thuộc mạnh trong CSDL
Vi ng các PTM được nh ra từ họ cấc phụ thuộc hằm nào đồ rên tập thuộc tính R, Vi vậy tong kết quả nghiên cứu của tôi dưới đầy, tối xết mỗi quan
hệ giữa họ các PTM và họ các PTH thông thường trên một SĐQH,
Ta kí hiệu một phụ thuộc mạnh giữa X, Y C R là X—Ễ > Y € S° hoặc kỉ hiệu: X —vY € S (với S”à một tập các phụ thuộc mạnh) là trơng đương [1], D]
* Hệ tính chất xác định phụ thuộc mạnh
Giả sử cho (R, F) là một sơ đỏ quan hệ Ta kí hiệu F” là bao đồng của F,
S”à tập các phụ thuộc mạnh được sinh ra từ” theo ệ tính chất sau:
TỊ Với a ER, Y € Rinếu (a)—5Y € F” khi và chỉ khi (a)—sY € S”;
T2.V A, B, CCR ta có AB ——>C 6 SỶ khi và chỉ khi A—“—>C và B
Từ hệ các tính chất trên ta cũng sẽ dE ching minh các hệ quả sau của họ
các phụ thuộc mạnh S” được sinh ra từ F”
HH XL Y CR ải đồ XS” >Y € S bhiva chili VaeeXta0d (JY
«F
HD S"eE
Ta chứng minh HL
Trang 14Nếu VX, Y €R, giả sở X= xuo e mã ta cổ (K) —x Y € F” với stk thì theo TÍ ta có: {xi} = Y € S” Ấp dụng k lẫn T2 đối với các PTM:
fx} 3 Ye Swe X acd: XS Yes
Nguge lai: VX, Y GR ta cd XY e S* gid sb w6i bất kỹ a € X ta cổ:
X= {a} UX- {a} abe vay {a} U(K- {a}) 3 Yes*
Theo T2 ta có: {a} + Y € S” Theo TÍ thì ta có {a} —+ Ý € F” Điều phải
chứng mảnh,
Chứng mình HO:
Giả sở X —: Y € S”, Ta sẽ chúng mính X —+ Y € F” Thật vậy theo Hệ
quả H1 đã được chứng minh ở trên thì V a E XÃ ta có {a} —+ Y € F* Do F* là
“một họ £ trên R đo vậy áp đụng nhiễo lẫn tính cộng tính cña họ fta cố X — Ye
Tˆ Suy ra S*C E-[I], 2} Điễo phải chứng mình
Dinh lý 1.2.1 (Tinh ding va déy đủ của hệ T1-T3)
Cho (R, F) la mbt SDQH, F* la bao ding cila F Tập các phụ thuộc manh Saige sinh rate tap F theo ede tink chdt T1-T3 la ding va dy ai
Chứng minh
++Ta sé ching minh tinh ding din cia hé tinh chit T1-T3
C6 nghĩa là S"duge sinh ra theo Tl - T3 là một họ s trên R Tức là nổ sẽ thoả mãn các tính chất (S1) - (S5) của một họ s rên RỊ2]
Thật vậy: tờ A—-> B € S” suy ra Va Atacd (a) B EF (Theo
HI), Ciing vay ti B+ Ce S*suy a Vb eB ta cd (b}— C E F”,
Theo tinh chất của họ các phụ thuậc hàm thì ta cổ:
Trang 15{a)} — {b} EF, vac AvavbeB
{b} — fo} EF, VbeBva VeeC
Suy ra {a}— {c} € F* uy ra 2} Ce Fvae Ava Vc €C Theo
tính
TI ta có {a}—->C e S* Ấp dụng tính chất T2 nhiều lần ta sẽ thú được À—”->C £ S”, Điều phải chứng mình
- Tính chất (S3):
Gi sử t À—”->B € S” và C € A, D € B, ta sẽ chống mình C—— >D €
Thật vậy, ta có A = C U (A - C); B = DU Œ - D); A——>B e SỲ, theo tinh chit T2 ta c6: CB € S” Theo tinh chit T3 tac A 9B £ S” Điều phải chống mình
- Tính chất (S3):
Gid sb A298 eS, C90 eS" ta ching mink: An COED
S” Thật vậy, đặt Q = A ñ C Ta có: A = Q U (A - Q) từ A——+B € S” và theo
Trang 16ten,
+ Ta ching minh tinh day 43 oa S", có nghĩa là với một phụ thuộc mạnh biti XY €F” ta sẽ chứng mình X——->Y € S°
Giả sở X = xu xe Vì X——>Y € E” là phụ thuộc mạnh nên dễ dâng
suy ra các phụ thuộc hằm {Xj—› Y € S* với ¡ =1L k-
Theo TI ta cỗ (x) ——> Y € F” với ¡ =L k Vĩ các phụ thuộc mạnh nãy: thuộc SỲ nên ta có thể áp dụng k lần tính chất T2 và suy ra X15 € S”, Điều phải chứng mình
"Định lý đưới đây sẽ chỉ ra rằng với một họ cc phụ thuộc mạnh cho trước
cổ thể xác định một họ các phụ thuộc hằm sinh ran
Yt:berr nếu với mỗi a € X mà tía) = bá) thị b€ Y: bí) = bí)
Do YZ la met phe thuậc hàm nên ta cổ:
Ytber nấu V b€ Y: b(B) = B) th suy rẻ Y z € Z: tí) =3)
Từ đây ta suy r
ti b€r: nếu với mỗi a e X ma ti(a) = ta) thi Vz € Z: (2) =H)
Theo định nghĩa phụ thuộc mạnh ta có X— > Z là một phụ thuộc mạnh đồng trên r
Vi X—P+ Y €FTY—T¬ Z €E” Theo tính chất bắc cầu suy ra: XÃ
Trang 17—>zeF-
De X—” >Z là một phụ thuộc mạnh thuộc F” nên theo Định lý 1.2.1 suy
ra X—1> Ze S”.Bé dé duge ching minh
"Định lý 1.2.2 (Sự tên tai ho phy thugc ham sink ra ho phy thuge mạnh) Cho R la mét tap cdc thubc tink, S*1a mét ho s các phụ thuéc mank trén R C6 thé tim được một họ Fˆ các phụ thuộc hàm trên R mà S” sẽ được sinh: ra từ
FF theo các tính chit T1-T3
Chứng mình
Ta xây dựng một họ các phụ thuộc hàm F” từ họ S theo các qui tắc nh san: Quy tic: VEER ASX IX AEF:
Quy téc 2: VER, Y ER nbn {a} GY € S*thi fa} Y €F”
Quy tic 3: VX GY eF, VZGR th XZ + YZEF:
Quy tie 4: VX V,ZERmASX Y EF”, và Y —sZ €F thì X — Z€
Ho S” sé ding vai td như tập phụ thuc bằm E ban đầu để xây dựng E" Trước hết ta chứng mình rằng họ Fˆ được sinh ra tờ họ phụ thuộc mạnh S” theo các qui tắc 1, quy tắc 4 như trên là một họ ftrên R
(Khái niệm về họ f én R duce tinh bay trong [1], 2, [5] [6)
Thật vậy:
Với mọi A, B,C, D € Ra có,
- DoAGAnén AA €F theo Qui tic 1
- Giả sỡ có A— B EF”, và CS D €E thì A — C CF the Qui tắc 4
- Giả sử có A—sB €F”, A € C, D € B ta có đo À € Cnên C— Á €F"
(Qui tic 1) Theo Qui tắc 4 (bắc cầu) thì C— B £ E*,
Do D © B nén BD € F* (Qui téc 1), két hop voi CB € F ta có
G—DEF” (Qui tắc 4)
- Giả sử A— B €F”, C—D € F”, Ấp đụng Qui ắc 3 với À—:C € F” ta
số ÁC— BC E F”; với CS D € Fˆta có BC—: BD € F” Theo Qui tắc 4 (bắc
Trang 1810
civ), uy ra AC + BD EF
"Như vậy E là một họ £ên R (Theo [2] (5)
Tây giờ chúng ta sẽ chúng mình rằng S” cũng thoả các tính chất T1 - T3 với Fˆ được xây đợng như trên
Tin chit TL
Giả sử vớia €R, YGRA (a) Y eS thi dé theo qui tie 2 thi (2) SY
eF
Ngược lại, giả sử a €R, Y CR nếu {a} SY € F* (gid sé Y # {a} vì nếu Y'
= (a) thi hidn uhién (a) Y € S” theo tính chất của họ 3) Ta sẽ chứng minh ring (4)—Y & S” Thật vậy, Fˆ là một họ tiên R nên suy rà Y y € Ý tá có (a)—+(}
© F* Do moi phụ thuộc hàm thuộc F* được suy dẫn theo các qui tắc 1, 2, 3, 4
theo cách xây đựng trên {a}—>{y} € E” chỉ có thể được suy dẫn từ qui tắc 2 hoặc
quitắc4
~ Nếu nó được suy dẫn từ Qui tắc 2 thì hiễn nhiên {a}—+{(y} € S*
“No nô được suy dẫn tờ Qui ắc 4, tỉ sẽ phải cô một phụ thuộc mạnh dạng(a)—+(z} € S” (cũng đồng thời thuộc E”) và một phụ thuộc hàm {Z}—+{y}
EF Gi (a) fy) € F” với zlà một thuộc tính nào đô thuộc R Theo BS để 2.1
thì (a}—+(y} e S” Tờ đó Vy € Y ta có(a}—+(y} € S” Theo tính chất (S5) của
họ s,ta đễ đằng suy ra (a}—+Y € S”, Điều phải chống mình,
của họ PTM ta có A—+ C S” Tương tự A—+ D € S”
Ngược lại nếu A—+ C e S” và A—+ D e S” thì theo tính chất SS của họ
PIMtacsA— CD ES
Trang 19u
Ta được điều phải chứng mninh
"Mệnh đề 1.2.2 (Phụ thuộc mạnh của các tập phụ thuộc hàm tương
ương)
Giá sử G và Ƒ là hai tập phụ thuộc hàm tương đương (Fˆ= G) Khi a6
các họ phụ thuộc mạnh sinh ra từ F* và G"(theo T-T3) là như nhau
Chứng mình
Giả sử SỈ, Sở là các họ phụ thuộc mạnh sinh ra tờ E* và Gˆ Ta có:
SỬ CE” suy ra SỬ C Gˆ Do Sz” là họ các phụ thuộc mạnh sinh ra từ Gˆ nên Si” Œ S+” (tính đầy đỏ của ho PTM, xem Dinh lý 2.3)
Tương tự ta cũng có S2” © Sy* vay S¡”~ S2” Điều phải chứng minh,
Bay giờ ta xét tập các phụ thuộc mạnh S sinh ra từ tập F các phụ thuộc
‘ham theo các qui tắc sau:
0": {a}—{a} € Sr
TI’: Voia € R, YS Rthi {a}Y € F khi va chi khi {a} +Y € Sr
T2: VA, B,CERtacé AB—>CEC thi va chi thi A—>C € Sp
Trang 20Sp va CLE € Sr Ap dung T3' ta được: AC—“—>E e Ss, hay viết lại: A U C 5D Sr ie phi ching minh
Trang 21TM sinh ra từ Fˆtheo TỊ - T3 Khi đồ Sẽ = S” Thật vậy
Giả sở có một phụ thuộc mạnh X—+Y € S° ta chúng mình nổ cũng thuậc S>
~ Név XY E S” có dang xi, x2 my, yah (Oi X=, Xe
và Y ~yi, ya ) được suy dẫn theo TỊ- 73 DE th
ing (x} (y} € S*va
‘theo T1 thi {xi} {yi} © F* va dé dang chimg mink ring {x1} — {yi} € Sr
‘Ap đọng k lên tính chất TP và lẫn tính chất T3! cho các phụ thuộc him
tỷ — (vỦ) € Srta sẽ nhận được XY € Sr Co nghia la SE Se,
"Ngược lạ, ỉ tập S= công là tập các phụ thuộc mạnh trong E” Theo Định
lý 1.2.1 về tính đẩy đỗ của họ các phụ thuộc mạnh S* trong F* nén ta c6 SPE S~
Từ đây ta suy ra: Sr= S” Điễu phải chứng mình
Từ Định lý 12.1, Mệnh đề L2, và Định lý
4 ta thấy rằng để tìm tập tắt cả các phụ thuộc mạnh trên SDQH (R, F) thủ ta có thể thực hiện các bước
~ Xây dợng tập phụ thuộc hàm tối tiêu G trơng đương với E
~ Tờ tập phụ thuộc hàm tối tiễu này xây dựng tập các phụ thuộc mạnh theo cde qui tie TƠ - T,
1.3 Phin tử ngoại lai và mối quan hệ giữa chúng với khai phá đỡ liệu
1.3.1 Khải niệm vi phn nl ngoat lai
XMMột cách hình thức người ta có thể định nghĩa phần từ ngoại lai (Cutters) cia mét tip đỡ iệu là các phần tờ mã theo một cách nhữa nào đó cô các đặc tính không giống với tập hợp đa số còn ii cia tip dé liu Ching han trong hành 13.1 cho thấy mộtphần Sẽ ngoại li theo vị trí hình học,
inh 13.1 ~ Phần từngoại lai trong tập điễn có toa độ Œ x) trên mặt phẳng cô
giá trì tung độ y nhỏ hơn hẳn các phần tử khác của tập hợp
Trang 22con các quan trắc mã sợ xuất hiện của chữ
lại, (em (10) Phần ử ngoại lai cũng cĩ hễ được hiểu nh một quan trắc mà giá
trì của nỗ khác biệt quả nhiễu so với những quan trắc khác gây cho người ta nghĩ
"ngờ rằng nỗ được thc hiện bằng một kỹ thuật khác
Cả nhiễu phương pháp định nghĩa và hiễo khác nhau về phần tờ ngoại la Tuy nhiên chúng cĩ chung là: phần tờ ngoại lai của một le dỡ liệ là những phần từ của file đờ liệu cĩ sự khác biệt đăng kể đối với những phần tờ cơn lại Và khi tiễn hành xác định phần tử ngoại lai troớc hết người ta đưa ra định nghĩa, sau
đồ xây dựng phương pháp đễ xác định
tui
1.3.2, Cie phacong phép xéc dink phin tt mg
Cả nhiều cơng tỉnh nghiền cứu về phát hiện phần tờ ngoại lai Các phương phập chính để xá định phần tử ngoại lai bao gém:
13.21 Xác định phần tờ ngoại lai theo khoảng cách (Dietance-Bassd):
Theo hướng tiếp cận này phải xác định một hàm đo khoảng cách (metic) giữa các phẫn từ trong tập dỡ liêu Các phẫn tờ ngoại lá là những phẫn tờ nằm, khả xa với tập các phần tử cịn lạ Điễn hình cho hướng tiếp cận này là Kacrr (xem [18], (19)
.Mệt trong những định nghĩa của Knerr đưa ra như sa:
Cho một tập hợp dé lige dataset) T; O là một phần tổ thuộc T Xác định một hàm khoảng cảch tong T (khoảng cách giữa 2 điểm trong T) Gọi D ~ lăn căn của O là một tập hợp các điểm Q E T sao cho khoảng cách tới O nhỏ hơn D
.Mết phẫn tử O trong tập dỡ liệu T là một (M, D) - cudier nấu số phẫn từ của T nằm trong D - lân cận của O khơng vượt quá M
‘Vi du: Ola G, 5) - outier trong T, néu trong lin cin khoảng cách 5 cia O
khơng cĩ quá 3 phẫn ti cia T
(Lan cận khộng cách của O là các điểm cách O khơng quá 5 đơn vị đo khoảng cách)
Trang 2313.2.2 Xie dink theo théng i (Stistcal Based)
Tướng nghiên cứu này đựa trên việc xác định các mô hình phân phối thống kê mà các phẫn tờ phải tuân theo (phân phối chuẫn, phân phối xÊ Phần
tổ ngoại li là những phẫn tử không tuân theo các loật này Điễn hình cho hướng tiếp cận này là các tác giả Bamnet and Lewis (nem [10)
`Vi du về một định nghĩa phần tử ngoại lai heo thống kê: Cho một tập đỡ
liệu T sau khi xác định các phân tử tuân theo luật chuẩn N(u, ø?) với kỳ vọng uw
"và phương sai ø, các phẩn tử t € T được gọi là phần tử ngoại lai nếu:
(&g)/øi>=3 Các phần tờ ngoại lai được xắc định là các phần tờ cổ giá trị lệch v
Đình vượt quá 3ø (quy tắc 3ø)
13.23 Xác định theo độ khác biệt (Deviation Based)
Hướng nghiên cứu này dựa trên việc xác định những đặc trơng cơ bản cổa
các phẫn tử trong một tập các phần tố Các phần tử có những đặc trơng khác biệt quả lớn so với các phân từ côn lại thả là các phần tử ngoại la Điễn hình cho
"hướng tiếp cận này là các tác giã Arning, Agroval,Raghavan (xem|S))
Ding thời với các hướng nghiên cứu này, các tác giả cũng dua ra cic phương pháp và thuật toán xác định phần tờ ngoại li: phương pháp đựa theo đỗ thi (Graphical methods), phuong pháp dợa theo phân phối (Distibution-based methods), prong php da theo 46 sau (Depth Based methods), thuéttoén phn cum (Clustering Algorithm) và đặc biệt phương phip dia theo khoảng cách (Distance Based methods) duge Knorr phittrién trong các công tình cũa mình
Các phương pháp nôi trên mối nghiền cu phát hiện phần tờ ngoại lai trên tập các phần tờ dữ iệu nói chung, cha di sâu vào các loại dỡ liệu cụ thể Mặt khác vai trồ của các răng buộc, luật biết trước chưa được đặt ra Các tác giả nghiên cứu thường giải quyết vấn đề phát hiện phần tử ngoại lai đẳng thời với
Trang 2416
tập hợp các luật được cho trước
.Lã Mỗt quan hệ giữa phẫn ngoại li và khai phá dữ liệu
Trước khi các kỹ thuật khai thác dữ iệu ra đồi, thông tấn hồu ích chỉ được
khai thác hiệu quả tiên các tập dỡ liệu với cỡ và số chiều đỡ iu là nhỏ, Do đó,
đỗ có thể khai hắc đỡ liệu một cách hiệu quả với khối ượng thông in lớn tỉ cần thiết phải cổ các công cụ khai thác đỡ liệu tốt, các thuật toán khai thác dỡ liệu ty động, thời gian thực hiện nhanh Trong thực tẾ các chương trình ống dụng khai thác đỡ liệu thường phải khai thác dỡ liệu trên các ấp dỡ liệ rất lồn không phù hợp với bộ nhớ chính [4]
Dỡ liệu đô được gọi là dỡ liệu nằm trong bộ nhớ ngoài Disk — sesidentDat)
Mét vin 48 duge quan tim trong fudn vin nly là tim hiéo cde thodt toin khai thé, tim kiểm các phần tử ngoại lai trong các tập đỡ iệu lớn, nhiễu chiều THiện nay, một số các kỹ thuật phát hiện phân tờ ngoại lai nhằm các mục đích sa:
3) Cong cấp một số giải thích hoặc mô tả về không gian dỡ liệu mã trong
đồ xuất hiện phẫn tờ ngoại lá
Ð) Cong cấp một số thông ti về mỗi quan hệ giða các phẫn tờ ngoại lai
(ví đo đối với cường độ của hai phần tử ngoại lai)
.Mết số vấn để khác cần quan tâm liên quan tới "Ý nghĩa " của các phần từ
"goai lại Cho đến nay, chưa có một đình nghĩa nào định nghĩa một cách đầy đ
và chỉnh xác về phần tử ngoại la Việc xác định các phần tử ngoại lai trong mỗi lãnh vực là khác nhau Bồi vì" ý nghũa * ngoại ai cöa các phần tờ ngoại la mang tính chất và đặc trơng của tồng lĩnh vục áp đọng, nên rất khô để đưa ra được một định nghĩa hoàn chỉnh về phần tờ ngoại ai
Trang 251
trúc cụ thể Mặt khác vai trò của các rằng buộc, luật biết trước chưa được đặt ra
Điều này làm hạn chế đến hiệu quả khi áp dụng vào những trường hợp loại CSDL cụ thể hoặc khi chúng ta quan tâm nhiều đẫn sợ vỉ phạm của cc phẫn từ
đỡ liệu đối với một tập họp các luật được cho trrớc1], [2] Nội đụng dưới
ti tình bay hướng nghiên cứu mới về phất hiện các phần tử ngoại lai đối với CSDL quan hệ đợa theo các luật (Rule Base) Hướng tiếp cận này mang lại hiệu quả hơn đối với nhiễu trường hợp thực tế
1.441 Định nghĩa mô tã
Cho một sơ đỗ quan hệ (Œ, ), với ập thuộc tính R = (Ai, As As} vd tập các phụ thuộc hàm F đóng trên R Gọi F” là bao đồng của F (heo Hệ tiên đề -Amstrong) Giả sở là một bằng dỡ liệu cô các trường (thuộc tính) và miễn giá
trị trùng với quan hệ trên sơ để quan hệ GEƑ) Ta gọi r là bảng đỡ liệu tiên Đăng đỡ liệu này có thể chứa những bộ trồng nhau Ki hiệu T là tập các răng bude va qui tic ma ede phi ti ea phi thoả mẫn
‘Vi du: Cho bing df lige trên sơ đỗ quan hệ (R, E) được giả thấết là một
quan hệ có dạng chuẩn 3NE Khi đó các phần tử của r (các bộ của z) cần phải
thoả mãn điều kiện: không cổ các bộ trồng nhan (điều kiện của một quan hộ), và điều kiện r ở đạng chuẩn ÔNE, tóc là không tốn tại một phụ thuộc hàm dạng X
Trang 2618
a ding trén r với a là một thuộc tính thứ cấp và x
trình cập nhật đờ liệu, cổ sự sai sót dẫn đến r không là một quan hệ hoặc thoả
kiện của ẨNF đo có những bộ bị cập nhật sai(ảng buộc ở đây là điều kiện về điều kiện khoá của quan hệ, và dạng chuẩn 3NF cia +) Khi đó những bộ của r có giá trị trùng nhau hoặc vỉ phạm vào điều kiện của đạng chuẫn äNF sẽ được gọi là các phân tử ngoại la [1], [7]
R Tuy nhiên trong quá
ân một phụ thuậc hàm mà ví phạm đến dié
1.4.Ä Phân loại các phân tế ngoại tri trong CSDL quan hệ
Tuỷ theo các loại rằng buộc đối với các phần tử trong một quan hệ cña CSDL quan hệ ta cũng có những loại phần tử ngoại lai đối với từng troờng hợp,
46 (phin tờ vi pham các ràng buộc tương ing) Tu} theo ngỡ cảnh và yêu cầu của bài toán thực tế mà các khái iệm, định nghĩa, phương pháp xác định phần từ
"ngoại lai sẽ được đưa ra Trong phạm vỉ nghiên cứu của Luận vẫn tôi chỉ đề cập tối một số dang phần tử ngoại lai phổ biến đối với CSDL quan hệ và có Ý nghĩa
trong việc ứng dụng vào một số bài toán kiểm toán và quản lý tài chính Chỉ tiết
vi khái niệm và phương pháp xác định các phẫn tờ ngoại la cho từng trường hợp
sẽ được trnh bày ở các nội dong sav Các loi phần tử ngoại li trong CSDL, quan hệ được đề cập tới trong luận văn bao gêm [1], [2}
1) Phần tử ngoại lá đối với phụ thuộc hàm, trong đổ được chỉa ra
a Phẫn tờ ngoại lai đối với phụ thuộc hằm nói chong
b Phần tỡ ngoại la đối với khoá
e Phẫn tử ngoạ lai đối với các dạng phụ thuộc hàm đặc biệt khác (dạng bing nha, dang tl)
2) Phin ti ngoai ii iwi hệ luật kếthợp các ràng buộc dạng phụ thuộc hằm); 3) Phẫn tờ ngoại lai đối với các đạng chuẫn, trong 46 chia ra:
a Phẫn tờ ngoại lai đối với dang chon 2NF
b Phần tỡ ngoại li đối với dạng chuẫn 3NF
e- Phẫn tờ ngoại la đối với dạng chuẫn BCNE
4) Phin tờ ngoại lai đối với phụ thuộc hàm xắp x loại 2
5) Phin tờ ngoại lai đối với phụ thuộc hàm xắp xỉ dạng hồi qui
Trang 2719
.1-4-1 A6 hình phát hiện phẫn tử ngoại li dựa theo luật đối rói CSDE quan hệ Mê hình được tình bay 6 day đồng cho việc phát hiện các phân tờ ngoại lại theo nghĩa chúng vỉ phạm cdc qu tie, ring bude (leit) cho trade trong CSDL dang quan hệ Các luật được đề cập ở đầy mang tính chủ quan của người đồng và
đã bit trước (đợa trên các qui định tong thực tẾ đổi với tờng loại đỡ liệu) có Ý
"nghĩa như hệ thống giám cất trong
Trens trường hợp bài toần phát hiện phần tử ngoi la theo nghĩa xc định các phần tờ trong tập dỡ liệu có sự khác biệt đáng kỄ so với đa số các phần từ
) Phân tích bãi toán thực tổ: trong bước này cần xắc định các dỡ liệu đầu
‘vio (cic bing đỡ liệu đầu vào), các yêu cầ đặt ra vã các uật (các rằng buộc, qui tắc) mà các phần từ của dỡ liệu đầu vào phải tuân theo Xác định các bộ vĩ phạm, các luật qui định (đầu ra)
2) Xi if trade: trong bước này cần phân tích bài toán để nấu cn thiết thì
sẽ sử đọng các thuật toần phân loại dỡ liệu hoặc lấy mẫu kiểm tra
3) Dựa vào các mô hình (phương pháp) phát hiện phần tờ ngoại ai đã biết
để phân loại bài toán
4) Sở dụng phương pháp được lya chọn để xở ý bài toần
Sơ đồ được mô tả nh trong Hình 1.44
* So sánh với các mô hình phát hign pl
.Mê hình phát hiện phần tử ngoại li đợa theo luật được tnh by ở trên so với các mô bình của các ác giã đi trước có những điểm khác biệt sa:
Trang 28pháp, thuật toần phất hiện thuộc loại phát hiện không có giảm sất (tương tự nh phương phập học máy không có giám sáo Trong mô hình mới được đưa ra trong Luận vấn, các luật được biết tr”ớc Các phương phập, thuật toán được đưa ra thuộc loại phát hiện cổ giám sắt (tương t như phương pháp học mấy cổ iim sit)
~ Mô hình mới tập rung vào việc phát hiện phần tờ ngoại lai trong tập đỡ liệu mà mỗi phẫn tờ là một bản ghỉ (bộ gid tri của nhiễu thuc tính - phần từ trong không gian nhiều chiễ) Tập dỡ liệu trong các mô hình trước đồ là tập dữ
Tiệu nói chung và các phần tử thuộc không gian một chi
- Các phân tử ngoại lại rong CSDL quan hệ được đề cập ở
Trang 29Tinxily c ~ Phin loai di ligu @—)
Trang 30Ghi chic
(4) Phân loại đỡ tiệo [3], [5]
(®) Lắy mẫu phát hiện phân tờ ngoại la [6]
Các thuật toán được trình bày trong Lu
(1) Phát hiện phẫn tờ ngoại la đi với phụ thuộc hàm dang chong [2] (C) Phát hiện phần tử ngoạ la đối với [2]
(6) Phát hiện phân tử ngoại la đi với PTH dạng bằng nhau [2]
(4) Phát hiện phân tử ngoại la đối với PTH dang t 18 [2]
(6) Phát hiện phẫn tử ngoạ la đi với hệ luật kết hợp [2]
(6) Phát hiện phần tử ngoạ la đi với dạng chuẫn 2NE [2]
(Œ) Phát hiện phẫn tử ngoại la đi với dạng chuẫn 3NF [2]
(6) Phát hiện phẫn tờ ngoại la đối với dạng chuẫn BCNF [2]
(6) Phát hiện phẫn tờ ngoại lai đối với phụ thuộc hàm xắp x loi 2 [2] (d0) Phát hiện phần tử ngoại lai bằng phương phấp hỗi qui (đối với các
phụ thuộc hàm sắp x loại 2 cổ đạng tương quan toyển tính [2]
Treng các nội dung tiếp theo tôi sẽ mô tả chỉ tit Khai niệm và phương php sac định phần tở ngoại lai cho tồng trường hợp
1.3 Ung dụng cũa các phần tờ ngoại lai
Đi với một số ứng dụng khẩm phá trì thức, các sự kiện hiểm cổ thường
được quan tâm hơn các sự kiên thông thường, chẳng hạn việc phát hiện các thể
tín dụng giả, theo dõi các hoạt động tội phạm trong thương mại điện tỡ [4]
Sau sự tấn cổng các trang mạng năm 2000 và đặc biệt sự kiện khủng bổ tấn công nước Mỹ ngày 11/9/2001, người ta quan tâm nhiều đến việc bảo mật mấy tinh, bao gém cả pt
Trang 31nhập, sử đọng CPU va troy xuất dỡ tiện)
Đi với các hệ thẳng thanh toán điệ tờ bao gém các ứng dụng th tín dụng, thể điện hoại và thẻ thông mình, chống ta quan tim ti vige phat ién thé gi
XMết ứng dụng nữa của iệc phát hiện phần tử ngoại lai là nghiên cứu cỗ phiếu Các công ty và các cá nhân đã tong thử dự đoán giá t các cổ phiếu được tiêm yết
KÉT LUẬN CHƯƠNG 1 Chương 1 đã thu được một số
tệ tính chất của phụ thuộc mạnh, phương pháp xác định phụ thuộc mạnh trong
lồa chúng, mô bình phát hiện phần tử
‘ngoai lai trong dé liéu va trong CSDL quan hệ và ứng dung cba phi tử ngoại lại
Trang 32CHUONG 2: PHAT HIEN PHAN TU NGOSILAI BOI VOI PHY THUQC
HAM MẠNH TRONG CƠ $6 DU LIEU QUAN HE
2.1 Phần tử ngoại lai đối với các dạng phụ thuộc hàm đặc biệt
Chúng ta thấy rằng trong trường hợp đối với một phụ thuộc hàm nối
chung thi các thuật tốn nêu trên chỉ cổ th tìm được các cặp phần tờ mã trong đơ
cĩ ít nhất một phân tổ là ngoại lai đối với phụ thuộc hàm Trong một số troờng hợp đặc biệt của phụ thuộc hằm trong các CSDL, thục tễ như phụ thuộc hàm dang
‘bing nhau, phụ thude him dang tỉ lệ chúng ta cĩ thể cĩ thuật tốn riêng để xác
định chính xác phần tử ngoại lai đối với các phụ thuộc hàm loại này Phẫn đưới đây tình bây một số troờng hợp đề [3] (4) 5]
2.4 Phẫn nề ngoại lai đốt với phụ thuộc him dang bằng nhau
“Định nghia 2.1.1.1(Phu thuge ham dang bing nhan):
Cho bảng đữ liêu r trên R = (Ái, Ái As) Gia sit v6i Ap, Aq no a thuộc R, mà với mot thr ta 6: ty) = thy) Khi đố ta dễ thấy cơ phụ thuộc
ham: Ap 4; (cũng:
dang néy la cée phụ thuộc làm đang
Các phụ thuộc him dang này cĩ trong các bảng dữ liệu được sinh ra trong
ng Đời cĩ Ag — Áp) Chúng ta gọi các phụ thuộc hàm
nhau
trường hop chúng ta kết nối (ois) hai hoặc nhiều bảng dỡ liệu với nhau (giỡa
"bảng định mức, tiêu chuẩn với bảng thực tế phát sinh được cập nhật (Ví dụ: Giữa
bảng kê khai lệ thuế phải nộp của doanh nghiệp với bảng qui định về thuế suất của Nhà nước ban hãnh ) [2]
Trens trường họp này, để ắc định các cấp phần tờ ngoại la , ta cổ thế
so sánh: t(Âg) với (A) (hoặc t(Ây) với t(A) Nếu t(Ay) * t(AQ) (hoặc (Áp) + (A2) thì khi đồ mọi cấp , b) (hộc (, ) với tr r đều là cấp phẫn tờ ngoại
lai Trong trường hợp này ta cĩ thể xác định chính xác phần tử ngoại lai như sau:
“Định nghia 21.1.2 (Phin ni ngoại lại đối sới phụ thuộc hàm dạng bing nha):
Trang 33mời 1) Phd tt mgoat lat bt véi Ayo li phn tte md tle) + de)
ys trén định nghĩ ta cũng dễ đơa ra thuật toần để phát hiện những phần
tổ ngoại lai đối với phụ thuộc bảm dạng này Thuật tần dựa trên việc kiểm tra
giả trị thuộc tính của về trải và về phải phụ thuộc hàm,
Thuật toán 2.1.1 (Phát hiện phân 8 ngoại lai đối với PTH dạng bằng
Treg để cột TỈ THƯE là thuế suất được công ty kế Hằai,
TL _THUE_QĐ là thuế suất do Nhà nước qui định theo từng loại hàng hoá
Trang 34Ta thấy có phụ thuge him TLTHUE — THUE_QD oé dang bi
“Ấp dụng thuật toần trên chồng ta sẽ thấy các hoá đơn ứng với loại hàng cô mã số: AMi020, M1002, M1005, M1006, M1007 cô sự kê khai thuế suất thấp hơn thuế suất qui định
2.1.2, Phẫn nề ngoại lai đốt với phụ thuộc hàm dạng lệ
Dink nghia 2.1.2.1 (Phụ thuộc hàm dạng t lộ)
Cho + là một bàng dữ liêu trên sơ đồ quan hệ (R, Z) Giả sử có các uộc
: thực: pị, pt phvới gj < Ì:Jj = 1 về:
8 (As) = pi *t/ÁO)
Trong trường lợp này ta có phụ tuậc hằm
-A¿ Ta gọi phụ tuậc hàm dạng này là phụ tuậc hẻm dạng tỉ
lê Gọi py là t lệ đối von thu tinh Ag
Trong thực tế chủng ta ấp loại phụ thuộc hàm loại này trong các trường
hợp tạo các bảng kê về khối lượng một loại sẵn phẩm được sẵn xuất ra cùng với
các thành phần đồng để tạo nén sin phim 45 (theo định mức qui định) Đẳng thời trong thực tế các lệ nay có thể được chấp nhận với một giá tị sai số nào đổ
xi vậy đối với trường hợp này ta đưa ra định nghĩa về phẫn ử ngoại lai như sau
“Định nghĩa 2.1.2.2 (Phân từ ngoại lai đỗi với phu thuộc hàm dạng tỉ lộ)
1ã ngoại lai đỗi với phụ thuộc lãm đọng tỉ lệ Á—>
E (14 A2, 4a) để sao cho
Axe nbu tin tai mbt Ag
Trang 35Đối với mỗi 6€ và đối với mỗi Ay € (Au, As Au), kiểm tra điều
“Nếu đồng lưu t vào OTL,
Trang 36tàng 4 là ngoại lai (có tỉ lệ giữa gid tri Aa voi À; và giữa As voi À; sai khác với tỉ
lệ qui định vượt quá 199)
22.71 tử ngoại lai đối với hệ ràng buộc dang phụ thuộc hàm
Trong thực tễchúng ta cũng thường gặp tập dỡ liệu mã các phần tử của nổ được qui định phải tuần theo một hệ các rằng buộc nào đó, Các phẫn tử không tuân theo các răng buộc này được coi là ngoại lai Ta sẽ xết một trường hợp các xăng buộc cô dạng phụ thuộc hàm được trình bày ở đưới đây [1] [2]
Cho một tập các thoge tinh R= (Al, À2, A3, An) và một bảng dỡ liệu r trên R Giả sỡ miễn iát của Àilã Di (= 1 a), Gi thiết có dạng chuẫn Ì trở nên Giả sử mọi bộ thuộc r phải thoả tập các qui tắc E (f, .l) có dạng: E: (Em 9} j~ Lam: mờ
Cac my, §à các mệnh để logic
bp) A.A (Ate bs) voin2ke 21;n242 1; An An ASL At AYER:
Trang 37Cũng cần lưu ÿ rằng chúng ta có thể loại khôi hệ răng buộc nhŨng ring
buộc cổ thể suy ra từ các rầng buộc khác theo các luật suy diễn của logic mệnh
đề để biển đổi hệ qui tắc thành một hệ gui tắc tố thiệu (rong đồ không cổ các
“mệnh đề có thể suy diễn từ các mệnh đề khác)
“Định nghĩa 3.2 (Phân tế ngoại lai đi với hệ rằng bude dang PTH) _Một phần từ tuộc bông dữ liêu r được gọi là phần tử ngoại lai đốt với hệ rang buộc dơng phụ thuộc làm nếu thông thod min mét trong các rùng Suộc ong hệ
Dudi day chúng ta sẽ xét mối quan hệ giữa hệ các ràng buộc dang phụ thuộc hàm và phụ thuộc hàm trên r
"Nếu ký hiệu:B, ~ (Ân, Ap An)
Q=(A*, A*2 A8)
Giả sử S,theả mãn qui tắc 6, Xết phụ thuộc hàm gị€ G
Giả sử ta có 2 phần tờ bất kỹ t, tr thuộc S, do các phần tờ cũa S đều chứa
bộ thuộc tính (Ân, Âp Ag) với, nào đồ va (Ay
ay, Ap= ap AB= ap), Khi đồ ta có ti(Â, Ag Au) = (An, Ag Aa), do tr, ta thod bộ qui tie
§ nên ta cổ: