1. Trang chủ
  2. » Công Nghệ Thông Tin

Phân mảnh dữ liệu trong thiết kế cơ sở dữ liệu phân tán dựa vào kỹ thuật phân cụm hướng tri thức

5 3 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 5
Dung lượng 1,76 MB

Nội dung

Bài viết Phân mảnh dữ liệu trong thiết kế cơ sở dữ liệu phân tán dựa vào kỹ thuật phân cụm hướng tri thức trình bày sử dụng kỹ thuật phân cụm hướng tri thức cho cả hai bài toán phân mảnh ngang và phân mảnh dọc dữ liệu.

Lê Văn Sơn, Lương Văn Nghĩa PHÂN MẢNH DỮ LIỆU TRONG THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN DỰA VÀO KỸ THUẬT PHÂN CỤM HƯỚNG TRI THỨC FRAGMENTATION IN DISTRIBUTED DATABASE DESIGN BASED ON KNOWLEDGE-ORIENTED CLUSTERING TECHNIQUE Lê Văn Sơn1 , Lương Văn Nghĩa2 Trường Đại học Sư phạm, Đại học Đà Nẵng; Email: levansupham2004@yahoo.com Trường Đại học Phạm Văn Đồng; Email: nghia.itq@gmail.com Tóm tắt – Bài tốn tối ưu hóa sở liệu phân tán bao gồm toán: phân mảnh định vị liệu Có nhiều phương pháp tiếp cận khác nhiều thuật toán đề xuất để giải toán Tuy nhiên, độ phức tạp thuật tốn cịn thách thức Trong báo này, sử dụng kỹ thuật phân cụm hướng tri thức cho hai toán phân mảnh ngang phân mảnh dọc liệu Độ đo tương tự sử dụng hai thuật toán độ đo phát triển từ độ đo cổ điển Kết thử nghiệm tập liệu nhỏ hoàn toàn trùng khớp với kết phân mảnh dựa vào thuật toán cổ điển Thời gian thực hiên phân mảnh liệu giảm đáng kể (mặc dù độ phức tạp thuật toán trường hợp tổng quát chưa thay đổi) Abstract – The optimization problem of data fragmentation is requiring to several interrelated problems including: Data fragmentation and Data allocation Although we had many different algorithms to approach solving problems, the complexity of algorithm is always a big challenge to solve In this paper, we presented a knowledge-oriented clustering technique that is applying both of vertical fragmentation and horizontal fragmentation problems Similarity measures are used in both of algorithms which were built in the traditional measures The experimental result of small data files and the fragmentation result based-on traditional algorithm are similar The execution time of fragmented data is significantly reduced (Although, the complexity of algorithm in the general case is still un-changed) Từ khóa – sở liệu phân tán; phân mảnh; định vị; độ đo tương tự, phân cụm; kỹ thuật phân cụm hướng tri thức Key words – distributed database; fragmentation; allocation; similarity measures; clustering; knowledge-oriented clustering technique Đặt vấn đề điển khai phá liệu [2] Nội dung báo tổ chức sau: Các khái niệm sở trình bày Mục Mục 3, trình bày thuật tốn phân cụm hướng tri thức Mục 4, trình bày thuật tốn phân mảnh dọc, phân mảnh ngang đề xuất Mục phần kết luận Trong môi trường phân tán, đơn vị liệu (item) truy xuất trạm (site) thường quan hệ mà phận quan hệ Vì vậy, để tối ưu hóa q trình thực truy vấn, quan hệ lược đồ toàn cục (global scheme) phân mảnh thành đơn vị liệu Các loại phân mảnh liệu bao gồm phân mảnh dọc, phân mảnh ngang, phân mảnh hỗn hợp (mixed) phân mảnh suy dẫn (derivate) Hai thuật toán cổ điển gắn liền với phân mảnh ngang phân mảnh dọc thuật toán PHORIZONTAL thuật toán BEA [5] Nhiều tác giả đề xuất thuật toán cải biên hai thuật toán Navathe đồng (1984), Cornell Yu (1987), Chakravarthy đồng (1994), Bellatreche (2000), Schewe (2002), Tuy nhiên, độ phức tạp thuật toán lớn, phân mảnh dọc O(n2 ) với n số lượng thuộc tính, phân mảnh ngang O(2m ) với m số ghi [5][8] Trong thời gian gần đây, số tác giả kết hợp giải toán phân mảnh toán định vị thuật toán tối ưu [9][14] hay sử dụng thuật toán heuristic [1][9], thời gian thực thuật toán giảm đáng kể so với thuật toán cổ điển độ phức tạp giải thuật trường hợp tổng quát chưa cải thiện Sử dụng kỹ thuật luật kết hợp khai phá liệu để phân mảnh dọc liệu đề cập [10], kỹ thuật khai phá liệu khác chưa tác giả quan tâm ứng dụng Trong báo này, đề xuất sử dụng thuật toán phân cụm hướng tri thức cho toán phân mảnh dọc phân mảnh ngang Các độ đo tương đồng (similarity) phát triển dựa độ đo có thuật tốn cổ Một số khái niệm sở 2.1 Phân mảnh dọc Phân mảnh dọc phân rã tập thuộc tính lược đồ quan hệ R thành lược đồ R1 , R2 , , Rm , cho thuộc tính lược đồ thường truy vấn Để thể mức độ hay truy vấn nhau, Hoffer Severance đưa khái niệm lực thuộc tính (attribute affinity) [13] Nếu Q = q1 , q2 , , qm tập ứng dụng, R(A1 , A2 , , An ) lược đồ quan hệ Mối quan hệ ứng dụng qi thuộc tính Aj xác định giá trị sử dụng [2]: use (qi , Aj ) = 1, Aj có tham gia qi 0, Aj khơng có tham gia qi (1) Đặt Q(A, B) = q ∈ Q|use(q, A).use(q, B) = Ái lực thuộc tính Ai , Aj : refl (q) ∗ accl (q) Aff(Ai , Aj ) = q∈Q(Ai ,Aj ) (2) ∀Sl Trong đó, refl (q): số lần cặp thuộc tính (Ai , Aj ) tham chiếu ứng dụng q trạm Sl; accl(q): tần số truy xuất ứng dụng q đến thuộc tính (Ai , Aj ) trạm Sl Thuật toán BEA thực gồm giai đoạn chính: 59 dù át ợp ệu ng án ng ] tính sinh ma trận lực tụ thuộc tính CA (Cluster TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 1(74).2014.QUYỂN II Affintity matrix) có số đo lực chung AM (global (1) measure) Hoán vị hàng, cộtnhất ma Một quan hệ tương đương (quan hệ ngơi thỏa tính affinity lớn [5].trân lực thuộc tính sinh ma trận lực tụ thuộc tính CA (Cluster Affintity matrix) (2).áiTìm điểm AM phân(global hoạchaffinity tập thuộc tính từ lớn ma có số đo lực chung measure) trận tụ thuộc tính CA phương pháp vét cạn, [5] cho (2) [8]: Tìm điểm phân hoạch tập thuộc tính từ ma trận tụ thuộc tính CA phương pháp vét cạn, cho [8]: Z= CTQ *CBQ – COQ2 đạt cực đại, với: Z = CTQ ∗ CBQ − COQ2 đạt cực đại, với: CTQ   ref j (q j )acc j (qi ) qTQ Sj CTQ = refj (qj )accj (qi ) q∈TQ ∀Sj  CBQ  ref j (q j )acc j (q i ) CBQ = refj (qj )accj (qi ) qBQ Sj hư c c, q∈BQ ∀Sj   ref = COQ COQ  refj (qj (j )acc q i ) j (qi ) j (q j )acc q∈OQ ∀Sj qOQ Sj A1 Aj) ác ực Ai A i+1 An TA Ai Ai+1 BA An Hình Matrận trận tụ tụ thuộc CACA Hình 1:Ma thuộctính tính Trong đó, đó, Trong g, hệ ởi 2) A1 m, độ te Ái A2 AQ(qii)= ) ={A {A |use(qi,A AQ(q TQ={qi | AQ(qi) TA} j| juse(q j)=1}; i, A j ) = 1}; TQ = {qi |AQ(qi ) ⊆ TA}; BQ= i | AQ(qi)  BA}; OQ=Q\ {TQBQ} BQ ={q{q |AQ(q ) ⊆ BA}; i i OQ Q{TQ ∪ BQ} Độ=phức tạpcủa thuật toán tỉ lệ với n2 phức tạp thuật toán tỉ lệ với n2 2.2 Độ Phân mảnh ngang 2.2 Phân Phânmảnh mảnhngang ngang phân chia tập ghi Phân mảnh ngang phânhơn chia tập cácmảnh ghingang thành thành tập ghilà nhỏ Phân dựa tập ghi nhỏ Phân mảnh ngang dựa vào vị điều vào điều kiện truy vấn thể qua từ kiện truy vấn thể qua vị từ đơn giản có dạng: đơn giản có dạng: P : Aj θ j  ĐặtP:PA r = {p1 , p2 , , pk } tập vị từ đơn giản trích raĐặt từ tập Một hộitập vị từ xâyđơn dựng từ Pr = {pứng cácđược vị từ giản 1, pdụng 2, , p k} Pr có dạng: trích từ tập ứng dụng Một hội vị từ p1 ∗ ∧p2 ∗ ∧ ∧ pn ∗ (3) xây dựng từ Pr có dạng: Trong pi ∗là vị từ mang giá trị pi hay ¬pi p1*  p2*  pn* (2.3) Thuật tốn PHORIZONTAL sử dụng hội vị từ ptừi*Plàr , vị pi có thểTrong xây dựng để từ tìmmang điều kiện giá phântrịmảnh ngang liệu [11] Quan hệ r(R) phân mảnh thành {r1 (R), r2 (R), , rk (R)}, với ri (R) = σFi (r(R)), ≤ i ≤ k; Fi vị từ hội sơ cấp (mj ) 2.3 Hệ thống thông tin quan hệ không phân biệt Hệ thống thông tin cặp SI=(U, A), U tập hữu hạn đối tượng U={t1 , t2 , , tn }, A tập hữu hạn khác rỗng thuộc tính 60 chất phản xạ, đối xứng bắc cầu) xác định U gọi quan hệ không phân biệt U Thuật toán phân cụm hướng tri thức Thuật toán phân cụm hướng tri thức KO-KnowledgeOriented Clustering dựa vào lý thuyết tập thơ đề xuất nhóm tác giả Shoji Hirano and Shusaku Tsumoto (2001) [12] Đây thuật toán phân cụm tự động xác định số cụm dựa vào liệu khảo sát Ý tưởng thuật tốn phân cụm gồm giai đoạn [3]: Xây dựng quan hệ tương đương ban đầu tập đối tượng cần phân cụm Hiệu chỉnh quan hệ tương đương cách sử dụng ngưỡng Tk dựa độ không phân biệt Quá trình lặp cập nhật lại Tk thu phân cụm tốt Thuật toán nhóm tác giả C.L Bean, C.Kambhampati hiệu chỉnh thử nghiêm (2008) [4] (bài báo nhóm tác giả xây dựng lại quan hệ tương đương ban đầu dựa vào ý tưởng đường “đẳng trọng” so với cách xây dựng dựa gradient nhóm tác giả Shoji Hiran, Shusaku Tsumoto) Các kết thử nghiệm nhóm tác giả nhằm minh họa cho thuật tốn, chưa đưa ứng dụng thực tế Sử dụng thuật toán để phân mảnh liệu, đề xuất quan hệ tương đương ban đầu dựa khoảng cách trung bình đối tượng Thuật tốn phân cụm hướng tri thức chúng tơi sử dụng cụ thể sau: Input: U= Tập đối tượng cần phân cụm (Mỗi đối tượng phải mô tả thông tin cần thiết để xây dựng độ tương tự) Output: Các phân cụm (tương ứng với phân mảnh liệu) Method: Bước 1: Xây dựng ma trận độ tương tự S=S(ti , tj ) tất cặp đối tượng(ti , tj ) Bước 2: Chỉ định quan hệ không phân biệt ban đầu Ri cho đối tượng Tổng hợp để có phân cụm ban đầu Bước 3: Xây dựng ma trận bất khả phân biệt Γ = ν(ti , tj ) để đánh giá chất lượng phân cụm Bước 4: Sửa đổi phân cụm theo quan hệ bất khả phân biệt Rimod cho đối tượng để đạt phân cụm sửa đổi Bước 5: Lặp lại bước thu phân cụm ổn định Chi tiết thuật tốn tham khảo [4][12] Điểm cần lưu ý đề xuất cách xây dựng quan hệ không phân biệt ban đầu khác với nhóm tác giả Shoji Hirano, Shusaku Tsumoto C.L Bean, C.Kambhampati sau: Quan hệ khơng phân biệt ứng với thuộc tính thứ i: Ri = {(ti , tj ) ∈ U × U : d(ti , tj ) ≤ Thi với j = 1, 2, , n} Văn Sơn, Lương Văn Nghĩa Định nghĩa Độ đo tham chiếu giao tác qi {q1, q2, q3, q4}, F = {f1, fLê 2, f3, f4} = {45, 5, 75, 3} với thuộcTrong tính Aj d(t ký i hiệu ) haygiữa Mij2làđốitần suấttham i, Ajcách , tj ) làM(q khoảng tượng - Tập với đặc tập giao tác Từtần giảsuất thiếtthực ta có cácứng vector trưng tham gia qphân cụm {q , q , q , q }, F = {f , f , f , f } = {45, 5, 75, 3} 4 giao tác tham chiếu đến thuộc tính A xác định i j chiếu: Từ giả thiết ta có vector đặc trưng tham chiếu: Ngưỡng Thi xác định sau: giá trị: q q q q q1 q2 q3 q4 VA1= 45 Aj )* fi  M(qi, Aj) = Mij= nuse(qi ,TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ ……………… − s(t )) /(n i =suất thực(1 i , tjgiao Với: fi làThtần tác − qi 1)   VA12== 045 75 0 VA23== 450 5 75 = 045 = {f 1,3f2,3f3, f4} = {45, 5, 75, 3} 4= {qVA 1, q3 2, q3, q4}, F75 VA4 = 0 75 (4) j=1,j=i use(qi, Aj) xácĐịnh định nghĩa công thứcđo(2.1) Độ tham chiếu giao tác qi Với s(t , t ) độ tương tự 2M(q đối tượng ti , tj M [2].là tần suất i j với thuộc tính A ký hiệu Aj) hay j Định nghĩa Vector đặc trưngi, tham chiếu ijVA Từ giả thiết ta có vector đặc trưng tham j trận độ tương tự S4x4 (s(A tác tham chiếu thuộc tính Ajtán k , Akl )) k=1,4;l=1,4 giao Phân mảnh dọc hệtham đến sởchiếu liệu phân dựa vàođịnh MaMa thuộc tính Aqji ứng với giao tácxác trận độ tự = S4x4 = (s(A ,A chiếu: tương l)) k=1,4;l=1,4 thuật toán phân cụm hướng tri thức giá trị: (q1, q2, ,qm) xác định sau: A1 A2 A3 q1 qA2 q3 q4 Để chuyển mảnh A1 0VA1=0.9918 45 00 (qi ,dọc A j )trọng * f i hệ sở M(qiq, Aj) toán = Mphân ij = use q … q liệu phân tán, giả thiết2 toán mchuyển đổi sang giả thiết toán phân vàohiện kháigiao niệmtác sau:qi Với: fi tầncụm suấtdựa thực VAj= M1j A2 A3 A4 … Mmj M2j 4.1 Thuộc Vector trưng tham chiếu use(q ) xácvàđịnh bởiđặc công thức (2.1) i, Ajtính 1VA2=0.0073 50.9970 75 VA3= 45 50.0026 VA4= 01 75 3 Kết phân mảnh thuật toán phân cụm Định 1.đồng Độ đo tham chiếu tính giao qi vớichiếu thuộcVAj Kết phân mảnh thuật toán phân cụm hướng tri 4.2 Độ đo nghĩa tương thuộc Định nghĩa 2.2Vector đặc trưngtáctham hướng tri thức được: thức thu được:thu tính ký hiệu M(qi, Aj) hay tham Mij làchiếu tần suất giao qi tác củaAjthuộc cáctác giao Ma trận độ tương tự S4x4= (s(Ak, Al)) k=1,4;l=1,4 j ứng Định nghĩatính A Độ đo với tương đồng của thuộc tham chiếu đến thuộc tính Aj xác định giá trị Cụm Tập thuộc tính Cụm ATập thuộc tính , ql 2có , ,q xác sau:chiếu tương A2 A A4 tính A(q m)vector đặc định trưngnhư tham k, 1A 1 {A1, {A A3} } M(q , A ) = M = use(q , A ) ∗ fi A1 {A ,A 0}1 , A30.9918 2 ,A } qm {A Với: fi tần suất thực giao tác q… A22 12 40.0073 0.9970 i use(qi , Aj ) VAđịnh , M2kthức , , (1) Mmk) Nhận xét: k = (M xác bởi1kcông A3 0.0026 Nhận xét: VA M M … M j=, , M 1j 2j mj A kết VAl = (M1l2 , MVector ) Định nghĩa đặc trưng tham chiếu VAj thuộc Kết nàytrùng trùngkhớp khớp 2l ml Kếtquả quảphân phân mảnh mảnh với với kết phân tính Aj ứng với tham chiếu giao tác (q1 , q2 , , qm ) phân Kết phân mảnh thuật toán phân cụm mảnh dọc theo thuật toán BEA mảnh dọc theo thuật toán BEA xácđo định độ đo cosin: 4.2.xác Độ định tương sau:đồng thuộc tính hướng tri thức thu được: m 5.Phân cơsởsởdữ dữliệu liệu phân Phânmảnh mảnhngang ngang hệ hệ phân tántán dựadựa vào Định nghĩa Độ đo tương đồng thuộc q1 qM2 ik * q M il m Cụm Tập thuộc tính thuật toán phân cụm hướng tri thức vào thuật toán phân cụm hướng tri thức tính VA Akk, *A Mvector chiếu tương l có VA VA Mđặc trưng Mtham jl= mj {A1, A3} s(Ak, Aứng  1j i 1 2j l) = Tương phân phân mảnh dọc hệ hệ cơ sở (4.1) với Tươngtự mảnh dọc2trong sở liệu m (q1, q2, ,q m m):: VAkbộ* VAl giao tác {A ,Atrong 4} 4.2 Độ đo tương đồng M thuộc tínhM phân tán, việc chuyển đổi giả thiết phân mảnh ngang [2] từ * il liệu phân tán,xét: việc chuyển đổi giả thiết phân mảnh VAk = (M1k, M2k, ,ikMmk) Nhận thuật toán PHORIZONTAL dựa khái niệm sở i  i  Định nghĩa Độ đo tương đồng thuộc tính Ak , Al ngang [2] từ thuật toán PHORIZONTAL dựa VA l = (M1l, M2l, , Mml) Kết phân mảnh trùng khớp với kết có vector đặc trưng tham chiếu tương ứng với giao sau: i j i i ứng với giao tácij(qq1,1 q2, ,q m): q:2    khái niệm sở sau: 5.1 Vector hóa cácdọc bảntheo ghi thuật quan hệ[A9] phân mảnh toán BEA 5.1 Vector hóa ghi quan hệcác vị từ Xét quan mảnh hệ r(R)={T , Tsở tậpliệu 1, T , l }, VAk = (M1k , M2k , , Mmk ) m Phân ngang hệ phân tán dựa Để minh họa mảnh dọc dựa vào M ik *thuật M il toán đơn giản rút trích từ ứng dụng r(R) VAl = (Mphân 1l , M2l , , Mml ) Xét quan hệtoán r(R)={T1,cụm T2, hướng ,Tl}, tập vị từ tri thức VAk *VA 1 thiết ví dụ Pr = vào {Pr1thuật , Pr2 , , Prmphân } Vector hóa nhị phân ghi phân cụm tri thức, sử ldụng s(Ahướng  lại igiả k, Al) = đơn giản rút trích từ ứng dụng r(R) Pr={Pr (4.1) 1, xác định độ đo cosin: m m VA * VA theo qui tắc: Tương phân mảnh dọc hệ sở l toán phân mảnh dọc kdựa vào thuật toán BEA 2 M ikm * M il Pr2, ,Prliệu m} Vector hóa nhị phân ghi theo qui phânPrtán, việc chuyển trình bày [2]: Pr Prj đổi giả Prmthiết phân mảnh Miki ∗ i 1 1Mil tắc: VAk ∗ VAl i=1 ngang dựa T1[2] PrPHORIZONTAL a1j Pr a1m 11 thuật = ,A ,A ,A } (5) k , Athuộc l) = Pra1từ Pr2a12 tốn - Tậps(Acác tính: Att = {A j m m m VA k ∗ VAl sau: ∗ toán M 4.3 Phân mảnh dọc dựa vào thuật phân cụm khái niệm sở M T1 a11 a12 a1j a1m il - Tập giao tác: Q = {q1, q2, q3i=1 , q4}ik i=1 T ai1 a aij aim hướngMa tri trận thứcsừ dụng: i i2 .hóa ghi quan hệ 5.1.TiVector a a a a i1 i2 ij im 4.3 Phân mảnh dọc dựa vào thuật toán phân cụm hướng Để minh họa phân mảnh dọc dựa vào thuật toán T a a a a l l1 l2 lj lm A1 A2 A3 A4 Xét quan hệ r(R)={T1, T 2, ,Tl}, tập vị từ tri thức phân cụmqhướng tri0 thức, sử 0dụng lại giả thiết ví dụ Tl al1 al2 alj alm 1, từ khicác Ti[Pr truetrên r(R) Pr={Pr1, đơn giản rút trích ứng dụng j] = Để minh vào thuật phân 0phândọc 1mảnh dọcvào 0dựathuật 2mảnh toán phânqhọa dựa toántoán BEA ∀aij = 1, Tinhị [Pr ] true [2]: 0lại giả1 thiết ví dụ tốn phân Pr2, ,Prm} Vector hóa ghi theo qui cụm hướng sử 1dụng Ti[Pr false  3thức, j ]phân j= 0, trình bàytriqtrong [A8] aij   q4vào0thuật0 tốn1BEA1được trình bày [2]: mảnh dọc dựa tắc: 0, Ti [Pr j ]  false thuộc tính: Att, A = {A 1, A2, A3, A4} nhị Prj phân Prm 5.2 Độ đo tương đồngPrcủa 2Prvector - -Tập Tập thuộc tính Att = {A , A3 , A4 } giao = {q q , q , q 1,, q 2} 3giao 4}tác: T a a a a1m - Tập tầnTập suấtgiao thực hiên với tập 11 12 1j - -Tập tác Q tác: = ứng {qQ , q , q Xétđo vector , biểu diễn biến nhị 5.2 Độ tươngxđồng vector nhịbằng phân i xjcủa Ma trận sử Ma dụng: trận sừ dụng: phân Giả sử biến nhị phân có trọng số Ta có bảng 4.3 Phân mảnh dọc): dựa vào thuật toán phân cụm tác (q1 , qđược xác định độ đo cosin: , , qm hướng tri thức   q1 q2 q3 q4 - A1 0 A2 1  A3 1 A4 0 1 Ti ai1 ai2 aij aim kiện Bảng Trong q số biến nhị phân vector xi xj , s số biến nhị phân Tl al1 al2 alj alm xi xj , r số biến nhị phân xi đối t số Tivới [Prxj ]j ,  true  1, avới  biến nhị phân đối vector x x [2]  ij i j  0, Ti [Pr j ]  false Tập tần suất thực hiên ứng với tập giao tác: 61 xj, t số biến nhị phân VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 1(74).2014.QUYỂN II 0TẠP đốiCHÍ vớiKHOA HỌC vector xi xj [2] Bảng 1: Bảngsự sựkiện kiện cho nhịnhị phân Bảng Bảng chobiến biến phân Đối tượng i Đối tương j Tổng q r q+r s t s+t Tổng q+s r+t p Sự khác vector xi xj dựa Sự khác vector xi xj dựa biến nhị biến nhị phân đối xứng (symmetric phân đối xứng (symmetric binary dissimilarity) là: binary dissimilarity) là: d(xi , xj ) = d ( xi , x j ) r q r r+s sq + r + s + t s t (6) (5.1) Sự khác vector xi xj dựa biến nhị phân bất xứng (asymmetric binaryxidissimilarity) Sựđối khác vector xj dựa biến nhị phân bất đối xứng r + s(asymmetric binary d(xi , xj ) = (7) dissimilarity) là: q+r+s r s Độdđo xi xj , ( xitương , x j ) đồng (similarity) vector (5.2) xác định hệ số Jaccard: q r s sim(xđồng − d(xi , xjgiữa ) Độ đo tương (similarity) vector(8)xi i , xj ) = xj, xác định hệ số Jaccard: 5.3 Phân mảnh ngang dựa vào thuật toán phân cụm (5.3) sim hướng tri( xthức i , x j )   d ( xi , x j ) Sử dụng lại giả thiết ví dụ tốn phân mảnh ngang dựa 5.3 mảnh ngang dựa vào thuật phân[2]: cụm vào Phân thuật toán PHORIZONTAL trìnhtốn bày hướng Giảtri sử thức có quan hệ Emp Sử dụng lại giả thiết ví dụ toán phân mảnh ENO ENAME TITLE ngang dựa vào PHORIZONTAL T1 thuật E1 tốnJjoe Elect-Eng trình T E M.Smith Syst-Analyst 2 bày [2]: T3 E3 A.Lee Mech-Eng Giả sử hệ EmpProgrammer T4có E4 quan J.Smith B.Casey BảngT2 DữE5liệu mẫu để T6 E6 L.Chu TENO E7 ENAME R.David T1 Jjoe T8E1 E8 J.Jone Syst-Analyst phân đoạn ngang Elect-Eng TITLE Mech-Eng Elect-Eng Syst-Analyst T2 E2 M.Smith Syst-Analyst Xét T32 vị từE3đơn giản:A.Lee Mech-Eng - Tp41 =(TITLE>“Programmer”) Programmer E4 J.Smith - Tp52 =(TITLE

Ngày đăng: 01/10/2022, 13:13

HÌNH ẢNH LIÊN QUAN

Hình 1. Matrận tụ thuộctính CA - Phân mảnh dữ liệu trong thiết kế cơ sở dữ liệu phân tán dựa vào kỹ thuật phân cụm hướng tri thức
Hình 1. Matrận tụ thuộctính CA (Trang 2)
Bảng 1: Bảngsự kiện chobiến nhị phân - Phân mảnh dữ liệu trong thiết kế cơ sở dữ liệu phân tán dựa vào kỹ thuật phân cụm hướng tri thức
Bảng 1 Bảngsự kiện chobiến nhị phân (Trang 4)
Bảng 1. Bảngsự kiện chobiến nhị phân - Phân mảnh dữ liệu trong thiết kế cơ sở dữ liệu phân tán dựa vào kỹ thuật phân cụm hướng tri thức
Bảng 1. Bảngsự kiện chobiến nhị phân (Trang 4)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w