Kỹ thuật tự động phân hạng trong kết quả truy vấn

MỤC LỤC A Kỹ thuật tự động phân hạng kết truy vấn I Giới thiệu Tự động xếp hạng kết truy vấn lĩnh vực phổ biến IR (Information Retrieval - trích rút thông tin) Trong sở liệu, hệ thống hỗ trợ mô hình truy vấn logic (mỗi câu truy vấn trả kết xác) Do đó, hệ thống SQL xử lý hai vấn đề Empty Answer Many Answer  Empty Answer: câu truy vấn chọn lọc kết thỏa mãn Khi có danh sách xếp hạng tương đối phù hợp với liệu mà không cần phải xác định hàm phân hạng mà bắt mật thiết với truy vấn  Many Answer: câu truy vấn rộng kết trả nhiều Trong trường hợp này, có tùy chọn theo thứ tự phù hợp cách tự động mà xếp hạng liệu"có tầm quan trọng toàn cầu" cao trả phù hợp Một khách hàng duyệt danh mục sản phẩm thấy chức hấp dẫn Tự động xếp hạng kết truy vấn phải xử lý câu truy vấn người dùng (một truy vấn lựa chọn tiếp tục), mapping với Top-K query với hàm ranking phụ thuộc vào điều kiện người dùng Vậy làm để làm cho cho sở liệu quan hệ để tương thích với chức xếp hạng từ IR để xử lý vấn đề phân hạng sở liệu Khi thuộc tính mối quan hệ thuộc tính phân loại, "bắt chước" giải pháp IR cách áp dụng ý tưởng TF-IDF (term-Frequency- inverse document frequency) dựa tần số xảy giá trị thuộc tính sở liệu Tuy nhiên, không giống tài liệu văn bản, sở liệu chứa thông tin số phân loại II Các hàm ranking cho trường hợp Empty Answer IDF Similarity IDF Similarity (Inverse Document Frequency Similarity) chức phân hạng sở liệu dựa kỹ thuật truy xuất thông tin.IDF Similarity sử dụng tần số xuất giá trị thuộc tính sở liệu IDF mở rộng ý tưởng TF-IDF.TF-IDF cho thuộc tính phân loại IDF cho thuộc tính phân loại thuộc tính số Dựa vào khái niệm chuẩn TF-IDF, có kế thừa cải tiến để phù hợp cho liệu hỗn tạp, không đồng IDF Similarity hoạt động tốt cho số ứng dụng phân hạng sở liệu, hiệu hạn chế IDF Similarity lúc trả lại kết mong muốn Ví dụ: "Trong sở liệu nhà môi giới bất động sản, nhà cửa xây dựng năm gần năm 2000 2001 so với năm trước năm 1980 1981 Vì vậy,  • • •  • • • • • năm gần có IDF nhỏ Tuy nhiên, nhu cầu nhà thường nhiều so với nhà cũ " a IDF Similarity ho liệu phân loại Nếu sở liệu có thuộc tính phân loại, giải pháp đơn giản sử dụng mô kỹ thuật rút trích thông tin cosine tiếng Kĩ thuật rút trích thông tin: Q = tập từ khóa Đối với giá trị w miền thuộc tính “A k”, IDF(w) xác định sau: IDF(w)=log (N/F(w)) với điều kiện “N” số liệu sở liệu.F(w) tần số liệu sở liệu với điệu kiện “Ak”=”w” TF (w, d) = Tần suất xuất w d Cosine Similarity tài liệu câu truy vấn chuẩn hóa tích vô hướng véc – tơ tương ứng Cosine Similarity cải thiện cách mở rộng quy mô thành phần với nghịch đảo tần số tài liệu (IDF) từ tương ứng (IDF (w) từ w xác định đăng nhập (N / F (w)) N sốtài liệu, F (w) số lượng tài liệu w xuất hiện) Cơ sở liệu (chỉ thuộc tính minh bạch) Tập từ T= Câu truy vấn Q= với điều kiện “WHERE A1=q1 AND … AND Am=qm “, Ai thuộc tính IDFk(t)=log(n/Fk(t)) (N số lượng tài liệu CSDL) Fk (t) tần suất tài liệu CSDL mà Ak =t Với cặp thuộc tính ‘u’ and ‘v’ Ak m SIM (T , Q) = ∑ S k (t k , q ) • k =1 k Sự giống T truy vấn Q tổng hệ số tương tự tương ứng tất thuộc tính IDF Similarity hiệu ứng dụng định xếp hạng sở liệu Ví dụ: FirstName LastName City John Das Paris Steven Goldfish London Paula Brown Athens James Smith London James Brown London Maria Das Athens QUERRY: SELECT * FROM R WHERE FirstName = James and LastName = Goldfish and City = London • • • • • • • • • • • • IDF1(FirstName) IDF2(LastName) IDF3(City) 0.78 0.48 0.78 0.78 0.78 0.30 0.78 0.48 0.48 0.48 0.78 0.30 0.48 0.48 0.30 0.78 0.48 0.48 F1(FirstName1) = F1(John) = IDF1(FirstName1) = log(N/F1(John)) = log(6/1) = 0.78 IDF1(FirstName4) = log(N/F1(James)) = log(6/2) = 0.48  Chúng ta thấy tên James - xuất thường xuyên (hơn John) sở liệu – có IDF nhỏ Similarity T = với truy vấn Q: SIM(T,Q) = = S1(t1,q1) + S2(t2,q2) + S3(t3,q3)= 0.48 + + 0.30= 0.78 Similarity K = với truy vấn Q: SIM(K,Q)= S1(k1,q1) + S2(k2,q2) +S3(k3,q3)= 0.48 + + 0.30 = 0.78 Similarity L = với truy vấn Q: SIM(L,Q)= S1(l1,q1) + S2(l2,q2) + S3(l3,q3) = + 0.78 + 0.30 =1.08 -> Similarity lớn b IDF Similarity cho liệu số  Vấn đề: Nếu u v (giá trị thuộc tính số A) gần nhau, riêng biệt, S(u, v) không xác nhận giá trị  Giải pháp: Hệ số tương tự S(u, v) hàm tỷ lệ nghịch với khoảng cách u v (khoảng cách nhỏ -> S(u, v) lớn) Xét câu truy vấn: Select nhanvien from nhanvien_db where luong=8000000 and sonamcongtac =4 Một giải pháp phân chia miền thuộc tính A thành cụm (buckets), thuộc tính phân loại theo cụm.Tuy nhiên lại gặp phải vấn đề như: Những giá trị sát biên hai bucket cạnh gần giống không cụm Bao nhiêu buckets hợp lý? Giá trị bucket khác hoàn toàn không giống nhau, bất chấp khoảng cách Ví dụ: Câu truy vấn: Select nhanvien from nhanvien_db where sonamcongtac = Attribute b1 B1 Sonamcongtac (u) Diff (|u-v|+1) Sim= 1/Diff Output Attr 0.5 B3 B2 11 0.125 B1 B3 0.166667 B2 B4 1 B4 Phân cụm với liệu kiểu số không tốt => Cần giải pháp {t1, t2… tn} giá trị thuộc tính A CSDL Với giá trị t: Định nghĩa similarity t q: • • • • • • H tham số bandwidth, độ lệch chuẩn c Các kế thừa IDF similarity Hãy xem xét kịch mà liệu số tương tự liệu phân loại: Có n1 sở liệu với giá trị t n-n1 lại có giá trị khác t Nếu q thuộc tập có giá trị khác t dễ dàng nhận thấy S (t, q) gần Nếu q có t giá trị, S (t, q) tiến gần tới log (n/n1) liệu phân loại Cho đến mô hình truy vấn có dạng Ak = qk Cho câu truy vấn q có C điều kiện dạng “Ak IN Qk” Q tập giá trị khoảng [lb, ub].Khi đó: Gọi T = Similarity tk Qk hàm Similarity tối đa: Cho đến ta sử dụng mô hình query mà giá trị tất thuộc tính xác định Để giải vấn đề “Many Answers” ta phải sử dụng thuộc tính bị bỏ quên (missing attributes) để tháo gỡ vấn đề QF Similarity Dù IDF similarity có hữu ích nhiều ứng dụng phân hạng sở liệu, có khuyết điểm QF Similarity (Query frequencies) chức phân hạng khai thác khối lượng thông tin để khắc phục khuyết điểm QF Similarity sử dụng tần số xuất giá trị thuộc tính khối lượng công việc Tầm quan trọng giá trị thuộc tính có liên quan đến tần số xuất khối lượng công việc Các bước tiến hành:  Ghi lại tần số giá trị thuộc tính xuất workload  Hãy để hệ số tương tự phụ thuộc vào tần số Với liệu không điều kiện Query frequency QF (q) = RQF (q) RQFMax Trong RQF (q) tần suất xuất giá trị q thuộc tính A câu truy vấn workload RQFMax tần suất xuất lớn workload Định nghĩa S (t, q) = QG (q) q=t q=0 ngược lại Ví dụ: • Cho workload với thuộc tính xuất hiện: • • • • A={1,1,2,3,4,5,5,5,5,2} Nếu câu query cho A=1 QF(1) = RQF(1)/RQFMax = 2/4 Nếu câu truy vấn cho giá trị thuộc tính không nằm workload QF=0 a QF Similarity thuộc tính khác Vấn đề: CSDL ô tô, HONDA ACCORD TOYOTA CAMRY khác đo hàm tương đồng trước đây, hệ số S(TOYOTA, HONDA) S(ACCORD, CAMRY) Tuy nhiên trực quan ta thấy chúng giống nhau: dòng sedans, giá ngang nhau, thị phần thị trường giống Để giải vấn đề, ta cần cặp hệ số tương đồng khác chí chúng hai nhóm khác Ví dụ: S (TOYOTA, HONDA) = 0.8 S(TOYOTA, FERRARI)=0.1 Về trực quan cặp giá trị tu thường xuất workload chúng có tương đồng Ví dụ: phân tích mệnh đề IN câu truy vấn: Nếu cặp giá trị thường suất workload chúng tương đồng: “MFR IN {TOYOTA, HONDA, NISSAN}” Những truy vấn gần người thường xuyên có TOYOTA HONDA  SIM=0.8 Similarity hai cặp giá trị thuộc tính khác lấy từ workload.Ví dụ: S (TOYOTA CAMRY, HONDA ACCORD) Similarity tài liệu câu query định nghĩa hệ số jaccard tỷ lệ với QF(q): S(t,q)=J(W(t),W(q))QF(q) J (W (t ), W (q ) ) = W (t ) ∩ W ( q) W (t ) ∪ W ( q) Trong đó: W (t) tập query workload W mà giá trị t có mệnh đề IN d QF Similarity cho kiểu liệu phân loại RQF (q) -> Nguyên tần số xuất giá trị q thuộc tính A khối lượng công việc QF (q) = RQF (q) RQF(Max) RQFMax -> Nguyên tần số giá trị thường xuyên xảy khối lượng công việc QF (q) -> tần số truy vấn S (t, q) -> hệ số Similarity.S (t, q) = QF (q) q = t ngược lại Ví dụ FirstName LastName City John Smith Paris Steven Goldfish London  • • •     • Paula Brown Athens James Smith London James Brown London Maria Das Athens Câu truy vấn Q: select * from R where FirstName = Jame and LastName = Brown and City = London Truy vấn theo yêu cầu người sử dụng khứ RQF(q) FirstName John -> RQF (John) = Paula -> RQF (Paula) = James -> RQF (James) = RQFMax: RQFMax= (QF(John)>QF(James)) QF (John) = RQF(John) / RQFMax = / = 0.625 QF (James) = RQF(James) / RQFMax = / = 0.5 e QF Similarity liệu số Giá trị số hưởng lợi từ phân tích tần số truy vấn Giống IDF() phải tính toán hàm FQ() truy vấn tần số để xử lý giá trị gần giá trị quan trọng QF-IDF Similarity QF hoàn toàn dựa khối lượng công việc (workload), không hoàn toàn sử dụng liệu Điều bất lợi trường hợp mà khối lượng công việc không đầy đủ không đáng tin cậy QF-IDF Similarity biện pháp khắc phục trường hợp Đây kết hợp QF Similarity IDF Similarity QFIDF similarity: S (t,q)=QF(q) *IDF(q) t=q QF(q) = (RQF(q) + 1) (RQFMax + 1) • • Thu giá trị nhỏ, khác giá trị chưa tham chiếu workload Kết cải thiện đáng kể số trường hợp III Các hàm xếp hạng trường hợp “Many Answers” Để xếp hạng kết truy vấn tạo Many Answer, IDF Similarity QF Similarity gặp phải vấn đề sau đây: liệu có số điểm giống có thự tự tùy tiện Ví dụ, xem xét truy vấn Q với điều kiện lựa chọn hình thức "A = q1 Ai = qi", mà i [...]... sẽ được nhắc nhở để hoàn thiện câu truy vấn để làm cho câu truy vấn thêm chọn lọc) đến tự động xếp hạng kết quả truy vấn theo mức độ thích hợp để truy vấn (mặc dù người dùng có thể không có quy định rõ ràng nào) và chỉ trả về các tập hợp con Bất kỳ hàm phân hạng nào cho vấn đề “Many Answer” phải nhìn vào các thuộc tính quy định trong truy vấn vì tất cả bộ dữ liệu kết quả đều đáp ứng những điều kiện quy... dụng các kỹ thuật Hơn nữa, các chỉ số trên các bảng cơ sở có thể là đòn bẩy nhưng đánh đổi trong xử lý truy vấn và tối ưu hóa ngày càng phức tạp hơn B Kỹ thuật phân hạng theo xác suất kết quả truy vấn I Giới thiệu Hệ thống cơ sở dữ liệu hỗ trợ một mô hình truy vấn đơn giản kiểu lô-gic, một truy vấn lựa chọn trên một cơ sở dữ liệu SQL trả về tất cả các bộ dữ liệu đáp ứng các điều kiện trong truy vấn Điều... workload để xác định các hàm phân hạng thích hợp Các hàm phân hạng được trích ra thì được cụ thể hóa trong một lớp kiến trúc trung gian được sử dụng bởi các thành phần xử lý truy vấn để xếp hạng kết quả các truy vấn Các hàm phân hạng được mã hóa trong lớp trung gian trực quan hơn I Xác định vấn đề và kiến trúc 1 Xác định vấn đề Chúng ta bắt đầu bằng cách xác định các trường hợp vấn đề đơn giản.Hãy xem xét... bộ trả về cho truy vấn Q: Vấn đề Many-Answer xảy ra khi truy vấn không phải là quá chọn lọc, kết quả S lớn Trường hợp trên trên chỉ đại diện cho vấn đề đơn giản Lấy ví dụ, loại của các truy vấn được mô tả ở trên là khá hạn chế, chúng ta xem chúng như các truy vấn điểm bởi vì chúng chỉ định điều kiện bằng các giá trị đơn trên mỗi thuộc tính cụ thể Trong trường hợp tổng quát hơn, các truy vấn có thể chứa... AttVal, GlobScore) tương ứng Điều này cho phép hoạt động hiệu quả của cả hai phép toán truy cập Thông tin chi tiết của các cấu trúc dữ liệu và phương pháp truy cập của chúng được sử dụng trong xử lý truy vấn sẽ được thảo luận tại thành phần xử lý truy vấn b Thành phần xử lý truy vấn Trong tiểu mục này, chúng ta mô tả các thành phần xử lý truy vấn Các thuật toán Scan đơn giản đã được mô tả ở trên, do... tục Tương tự như vậy, cơ sở dữ liệu có thể được đa trình, có thể chứa một tập hợp dữ liệu phân loại và dữ liệu số, cũng như giá trị NULL hoặc giá trị thiếu Trọng tâm chính của bài này là xếp hạng các kết quả của các truy vấn điểm liên tục trên một bảng phân loại duy nhất (không có giá trị NULL) 2 Kiến trúc tổng quan Hình 1 cho thấy kiến trúc của hệ thống cho phép xếp hạng các kết quả truy vấn trên cơ... điều kiện dạng số trong một truy vấn bằng cách sử dụng Top-K SQL truy n thống là đơn giản Các khái quát khác: ITA có thể được mở rộng để xử lý các trường hợp suy rộng khác, chẳng hạn như IN và điều kiện trong khoảng trong truy vấn, hệ số tương tự khác không theo cặp (mục 4.2), và giải quyết khó khăn giữa các bộ dữ liệu Khi thứ tự xếp hạng trên kết quả của một truy vấn quan hệ, được xác định trên một... biệt trong bảng định nghĩa một Qx truy vấn nguyên tử có quy định cụ thể giá trị duy nhất {x} Sau đó, thời gian truy vấn, đưa ra một truy vấn thực tế mà xác định một tập hợp các giá trị X, chúng ta "hợp nhất" danh sách xếp hạng tương ứng với mỗi x trong X để tính toán Top-K bộ dữ liệu thức Thay vì tính toán trước các bộ Top-K cho tất cả các truy vấn có thể, chúng ta tính toán trước danh sách xếp hạng. .. tính toán hiệu quả số điểm của một bộ t cho bất kỳ truy vấn như sau: cho truy vấn Q mô tả cụ thể điều kiện cho một tập hợp các giá trị thuộc tính, X = {x 1, , xs}, tại thời điểm truy vân chúng ta lấy và nhân điểm số của t trong CX1 danh sách, , Cxs với một trong GX1, , GXS.Điều này đòi hỏi chỉ s+1 phép nhân và kết quả trong score tính được bằng với score thực sự Rõ ràng là điều này hiệu quả hơn so với... truy vấn Điều này thường dẫn đến vấn đề “Many Answer” khi truy vấn không được chọn lọc kỹ, kết quả có quá nhiều bộ dữ liệu 12 Vấn đề “Many Answer” đã được nghiên cứu bên ngoài cơ sở dữ liệu đặc biệt là rút trích thông tin với nhiều tài liệu thường đáp ứng cho từ khóa dựa trên câu truy vấn Phương pháp tiếp cận để khắc phục vấn đề này trải dài từ tái định dạng câu truy vấn (ví dụ như là người dùng sẽ ... đánh đổi xử lý truy vấn tối ưu hóa ngày phức tạp B Kỹ thuật phân hạng theo xác suất kết truy vấn I Giới thiệu Hệ thống sở liệu hỗ trợ mô hình truy vấn đơn giản kiểu lô-gic, truy vấn lựa chọn sở... câu truy vấn Phương pháp tiếp cận để khắc phục vấn đề trải dài từ tái định dạng câu truy vấn (ví dụ người dùng nhắc nhở để hoàn thiện câu truy vấn để làm cho câu truy vấn thêm chọn lọc) đến tự động. .. hạng kết truy vấn theo mức độ thích hợp để truy vấn (mặc dù người dùng quy định rõ ràng nào) trả tập hợp Bất kỳ hàm phân hạng cho vấn đề “Many Answer” phải nhìn vào thuộc tính quy định truy vấn

Định dạng
Số trang	22
Dung lượng	713,4 KB