1. Trang chủ
  2. » Luận Văn - Báo Cáo

LẬP CHỈ MỤC VÀ TRUY VẤN DỮ LIỆU QUAN ĐIỂM CỦA CƠ SỞ DỮ LIỆU SEMISTRUCTURED

26 729 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 1 MB

Nội dung

LẬP CHỈ MỤC VÀ TRUY VẤN DỮ LIỆU QUAN ĐIỂM CỦA CƠ SỞ DỮ LIỆU SEMISTRUCTURED

Trang 1

IJCNS tạp chí quốc tế về khoa học máy tính và an ninh Network ,VOL Ngày 10 tháng 06 năm 2010

LẬP CHỈ MỤC VÀ TRUY VẤN DỮ LIỆU QUAN ĐIỂM CỦA CƠ

SỞ DỮ LIỆU SEMISTRUCTUREDB.M.Monjurul Alom,Frans Henskens and Michael Hannaford

Trường kỹ thuật và máy tính.Khoa học đại học Newcastle,AUSTRALIA

dữ liệu XML

Một tùy chọn để quản lý semistructured cũng như XML ,dữ liệu xây dựng một nhà quản lý chuyên ngành có chứa một kho dữ liệu XML vào lõi [22] của nó Thật khó để đạt được hiệu suất truy vấn cao,sử lý dữ liệu XML khó,kể từ khi truy vấn được trả lời bằng cách vượt qua các liên kết nhiều element-to- element ,cá nhân yêu cầu tra cứu chỉ số nhiều [23].Trong trường hợp dữ liệu XML các truy vấn phức tạp hơn bởi vì chúng có thể chứa các biểu thức đường dẫn xuyên [24].Do có sự linh hoạt bổ sung là cần thiết để đi qua các dữ liệu có cấu trúc

là một phần không thường xuyên hoặc chưa biết đến ngày sử dụng Tùy chọn để quản lý dữ liệu semistructured là để lưu trữ Và truy vấn với một cơ sở dữ liệu quan hệ [22].Trong cộng đồng cơ sở dữ liệu nhiều nhà quản lý cho rằng quan hệ (và đối tượng quan hệ ) model dục

1

Trang 2

đến hạn thanh toán và sử dụng rộng rãi,vẫn là tốt lựa chọn [25].Sử lý truy vấn XML là phức tạp hơn nhiêu so với phương pháp truyền thống truy vấn về cấu trúc lựa chọn trên nhiều yếu

tố liên quan mật thiết của một cấu trúc cây có tên là mô hình cây truy vấn (QTP) do đó trong QTP cần phân biệt thứ tự trong tài liệu XML, đây là một nhiệm vụ tốn kém khi các tài liệu rất lớn XML được tham.Các truy vấn được biết đến phương pháp chế biến gọi là structura tham gia được mô tả trong [2] trong truy vấn cơ cấu tham gia, được chia ra thành một số nhị phân tham gia hoạt động.Do đó, một khối lượng hhuge kết quả trung gian được sản xuất trong cành phương pháp tiếp cận toàn diện method.the tham gia [3] không phân hủy các truy vấn vào nhị phân của nó, cha mẹ trẻ em (cp) hoặc tổ tiên con cháu-(quảng cáo) các mối quan hệ mà họ cần đến phương pháp chế biến gọi là các lá của qtp thay vì chế biến thuộc các lá của qtp thay

vì xử lý tất cả các nút trong các tài liệu xml nhưng phương pháp này sử dụng một cấu trúc có tên là hữu hạn nhà nước có bộ chuyển đổi (FST) để giải mã các mã của các nút vào tên lành mạnh của con đường đi qua từ gốc mỗi nút, do đó, FST lãng phí rất nhiều thời gian.

Sự đóng góp của bài này là truy vấn dữ liệu bằng cách sử dụng semistructured bitmap

để đại diện cho con đường có giá trị mối quan hệ và nén các bitmap để tiết kiệm không gian các BIQS trình hỗ trợ các cơ cấu tham gia truy vấn, truy vấn Phath, và cây BIQS kỹ thuật cũng

hỗ trợ các loại truy vấn mà chỉ có một portin của tên đường dẫn được đề cập trong câu truy vấn Bài viết trình bày những so sánh thời gian thực hiện truy vấn của BIQS đến XML thời gian xử lý truy vấn khác (Kết cấu Tham gia và TwigStack) và truy vấn quan hệ (Oracle, MySQL) thời gian xử lý.

Thử nghiệm kết quả cho thấy rằng kỹ thuật đề xuất các truy vấn dữ liệu semistructhred trong một thời gian cách hiệu quả hơn được cung cấp bởi một số các XML hiện tại khác và xử lý truy vấn quan hệ techniques.the giấy trình bày các thời gian "và không gian 'phức tạp của các vấn đề quan hệ (dữ liệu Semistructured ) truy vấn bằng cách sử dụng cấu trúc bitmap nén, từ

đó, con đường, và từ điển thuộc tính

Cơ cấu bitmap cung cấp các thiết bị lưu trữ thông tin khổng lồ của các từ và các đường dẫn vào từng tế bào thu hồi các dữ liệu có thể được thực hiện có hiệu quả với độ trễ thấp Để hiểu được chức năng của các kỹ thuật được đề xuất, thuật toán cho thấy việc lưu trữ các từ mười sáu và thông tin đường dẫn vào mỗi ô nhớ của một khối duy nhất bởi một giá trị thập phân cho các dữ liệu compression.But nén là có thể cho tối đa cấu trúc trình bày các thông tin của ba mươi hai chữ và các đường dẫn imto mỗi ô nhớ của một loe block.No duy nhất của bất

kỳ thông tin xml luôn luôn duy trì các kỹ thuật đề xuất.

Phần còn lại của bài này là tổ chức như sau: công việc liên quan trong phần 2, một frameword của phương pháp đề xuất được mô tả trong thuật toán 3.Thầu phần cho cấu trúc bitmap được trình bày trong 4 tìm kiếm và truy vấn tài liệu được mô tả trong 5.section 6 thí nghiệm kết quả, bài báo kết luận với một cuộc thảo luận và nhận xét cuối cùng trong phần 7

Trang 3

2.Công việc liên quan

Nhiều kĩ thuật xử lý truy vấn như phương pháp Holistic Twig Join đã được trình bày trong [6, 8, 13, 18] để quá trình truy vấn càng có hiệu quả, tuy nhiên họ vẫn còn bị số lượng lớnchức năng không cần thiết Một cách tiếp cận mới có tên là Twig Stack + được trình bày trong [19] để giải quyết vấn đề này cái mà dựa trên các thuật toán tổng thể tham gia rất nhiều để cải thiện đáng kể hiệu suất xử lý truy vấn Twig Stack+ được sử dụng để giảm chi phí truy vấn đơn giản bởi vì nó có thể kiểm tra xem các yếu tố khác có thể được xử lý cùng với hiện hành Kỹ thuật đề xuất cũng được sử dụng để kiểm tra tính hữu ích của một phần tử từ hai phía trước và sau Kỹ thuật xỷ lý truy vấn XML khác được xây dựng trong [7, 9, 11, 15]

TSGeneric+[6] thực hiện các cải tiến về TwigStack bằng cách sử dụng XR-Tree để bỏ bớt một số thành phần vô ích đã mở rộng để giải pháp nhưng không tham gia vào bất kỳ giải pháp nào TwigStackList [8] xử lý các vấn đề phụ tối ưu bằng cách gắn một danh sách các thành phần với mỗi nút truy vấn đến bộ nhớ catche của một số thành phần, TJFast [12] cải thiệnhiệu suất xử ký truy vấn bằng cách quét các thành phần của các nút lá trong truy vấn để giảm chi phí I/O Mặc dù các phương pháp hiện tại [6] có thể đảm bảo tối ưu hoá thời gian của CPU

và I/O khi chỉ có cạnh AD tham gia vào các mô hình cây con, họ đều bị lớn số chức năng dự phòng (có gốc tiếp theo) yêu cầu

Một xử lý truy vấn và cập nhật thuật ngữ kỹ thuật xử lý gọi là EXEL (mã hoá và hiệu quả ghi nhãn XML) được trình bày trong [10]

SIGOPT (lược đồ thông tin đồ thị) để tối ưu hoá sự xử lý truy vấn XML được mô tả trong [17] Các trình bày kĩ thuật khảo sát những cơ hội cho các lược đồ thông tin ảnh hưởng đến việc đánh giá xử lý truy vấn Đa cấp điều hành kết hợp xử lý truy vấn trong XML được mô

tả trong [16], cái mà làm trau chuốt các tầm quan trọng để xem xét sự hoạt động ở từng cấp Cụ thể, kĩ thuật xem xét ảnh hưởng của dự báo và các hoạt động đặt trên các lựa chọn dựa trên mô hình và ngăn chặn gia nhập

Hệ thống quản lý cơ sở dữ liệu hỗ trợ lập chỉ mục (hiệu năng) truy vấn tốt hơn thực hiện truy vấn Lập chỉ mục cung cấp linh hoạt, thống nhất và hiệu quả cơ chế đẻ truy nhập dữ liệu [22] Có một số chỉ số đường dẫn như Strong DataGuide[26], Fabric Index, ToXin[27],

APEX[28], Index [24], A(k) Index, và Fix[29] cái mà được lập chỉ mục con đường của các nút của tài liệu để tạo điều kiện tiếp nhận với các nút yêu cầu trong kỹ thuật xử lý truy vấn XML Đây là chỉ số là các loại phương pháp xử lý truy vấn đó là chống lại các cơ cấu tham gia [2], cây con tham gia [3] và phương pháp TJFast[12]

Hầu hết các sơ đồ chỉ có thể lập chỉ mục áp dụng cho một số công đoạn xử lý truy vấn hạn chế hoặc giới hạn lớp của các truy vấn Để khắc phục nhữn hạn chế này mọôt sơ đồ lập chỉ mục gọi là ToXin [27] đã được phát triển ToXin phá toàn bộ cấu trúc đường dẫn chung của cơ

sở dữ liệu trong tất cả các giai đạn xử lý truy vấn bao gồm các chỉ số đường dẫn và chỉ số giá trị Một biitmap ba chiều sơ đồ lập chỉ mục được đặt tên Bitcube [30] xem xet một bảng tần số phức tạp hơn đại diện cho một tậo hợp tài liệu kèm theo, đặt cả hai yếu tố đường dẫn và một bộ

từ cho mỗi đường dẫn Một hệ thống mới để lập chỉ mục và lưu trữ dữ liệu XML dựa trên một

kế hoạch đánh số cho các phần tử được đề xuất trong [1]

Khả năng truy vấn được cung cấp qua cơ cấu qua cơ cấu tham gia và cây con truy vấn,

đó là các thành phần cốt lõi tiêu chuẩn của ngôn ngx truy vấn XML, ví dụ XPath[13] và

XQuery[32] Kỹ thuật cũng tồn tại truy vấn dữ liệu XML như Lorel[21], XML-QL[33],

XQL[34], UnQL[35], XML-GL[34], XSL[34],Quilt[25], tuy nhiên những ngôn ngữ truy vấn này sử dụng phức tạp và có một số hạn chế Một lỗ lực đã được thựchiện trên lưu trữ và truy vấn dữ liệu XML bằng cách sử dụng quan hệ dơ sở dữ liệu được mô tả trong [4, 7, 9, 15, 36-40]

3

Trang 4

[23, 36-48] cũng là một lỗ lực toàn diện đã được thực hiện trên cơ sở dữ liệu XML nên được trinh bày trong [22].

3.Khuôn khổ của đề xuất kỹ thuật.

mã thông báo cho mỗi từ biệt Con đường từ điển các cửa hàng tất cả các khác biệt con đường yếu tố bao gồm số con đường của mình

Nhiều cửa hàng cung cấp khối nén tất cả các thông tin nguyên liệu ở dạng nén Mã thông báo và cơ cấu đường dẫn (TP) được sử dụng để đại diện cho các thẻ và đường dẫn Thứ cáp chỉ mục được sử dụng để tìm kiếm các mã thẻ và số con đường từ cấu trúc mã thông báo và

và đường dẫn để giảm thời gian tìm kiếm Cơ cấu nén với từ điển và TP (mã thông báo đường dẫn cấu trúc) được duy trì trên bộ nhớ chính Nhập truy vấn thông qua người quản lý truy vấn được áp dụng cho cấu trúc nén để có được những truy vấn đầu ra

Cơ cấu phát triển không phải luôn luôn giống nhau nếu toàn bộ các tài liệu được coi là toàn bộ nhưng trật tự khác nhau Trật tự khác nhau của các tài liệu cung cấp sự khác biệt của cấu trúc đó không có nghĩa là cơ cấu mất moọt số thông tin XML Cấu trúc luôn duy trì các thông tin chính xác của các cơ sở dữ liệu ban đầu cho dù các thiết lập của các tài liệu xẽmét theo thứ tự khác nhau hoặc cùng một thứ tự Đối với bất kì thứ tự của các tài liệu, dữ liệu được lưu trữ trong một cấu trúc đa khối nén dẫn hiệu quả kém Ngoài ra việc sử dụng các cấu trúc matrận còn là hiệu quả của việc cập nhật không bị suy thoái

3.2 Xây dựng cấu trúc bitmap.

BIQS tạo ra một cấu trúc ma trận hai chiều đại diện cho dự tồn tại của các từ và các

yếu tố đường dẫn trong các tài liệu tương ứng Các hàng đầu tiên của cấu trúc ma trận ghi lại tất

cả các mã thông báo số lượng cho các từ tương ứng và các đường dẫn liên quan đến số lượng cho các từ Tất cả các thẻ tồn tại (được giới hạn) trong số đường dẫn tương ứng cuẩ họ trong hàn đầu tiên của cấu trúc BIQS

Chúng tôi sử dụng một dấu hiệu phủ nhận (-) trước tất các số đường dẫn để phân biệt với mã thông báo Cột đầu tiên của ma trận số tài liệu Các mục của việc sử dụng ma trận một giá trị bit (1/10) để đại diện cho tài liệu số sự tồn tại hay không của từ và các phần tử trong phạm vi số tài liệu, yếu tố bên trong tài liệu số để đại diện cho một đường dẫn mới từ một tài liệu XML, phương pháp này bước đầu tạo ra một cấu trúc mới trong cấu trúc ma trận Các dòngđầu tiên (entry) của cột cửa hàng số đường dẫn (từ đường dẫn từ điển) và một giá trị 1 được đưasang hàng tiếp theo của cột tạo ra các giá trị 1 biểu thị một sự tồn tại của đường dẫn trong tài liệu Các thẻ (từ từ điển) của tất cả các từ trong số đường dẫn đã chọn được lưu trữ tương tự bằng cách tạo ra các cột mới trong cấu trúc ma trận

Một giá trị 1 được đưa vào các mục tiếp theotừng cột tạo ra cho các thẻ Mỗi dòng của

cơ cấu ma trận ghi lại tất cả các thông tin của từn tài liệu XML Hệ thống này tương tự hoàn tất việc tạo ra ma trận cho tất cả các dữ liệu XML BIQS không tạo ra các cột mới trong một đường dẫn hiện có cho cùng một từ, ngay cả các tài liệu khác nhau Kĩ thuật này luôn tạo ra các cột mới cho cùng một từ nhưng số đường dẫn khác nhau, bất kể số tài liệu nào Chúng tôi xem xét các tài liệu XML được đưa trong hình 2, hình 3, hình 4 và hình 5 để sử dụng trong chứng minh đề xuất của chúng tôi thực hiện xây dựng bitmap

Trang 5

3.2 Xây dựng từ điển và BIQS với ví dụ

Từ điển, đường dẫn từ điển và thuộc tính từ điển (bao gồm các bảng I, II, và III) đã được tạo ra từ các tài liệu XML hình 2, hình 3, hình 4 và hình 5 Các thuộc tính điền được đưa

ra trong bảng III, cho thấy một khoá có tên thuộc tính có 4 giá trị khác nhau trong tài liệu khác

nhau như 2 và 4 Trong đường dẫn từ điển, nasa.datasets.dataset.title và dblp.msthesis.title đại

diện cho hai con đường số khác nhau

Hệ thống này tạo ra một cột mơi trong cấu trúc ma trận (đưa ra trong bảng IV) để ghi

tên con đường “nasa.datasets.dataset” từ dữ liệu (đưa ra trong hình 2) và số lượng đường dẫn

(-1) được giao hàng đầu tiên cột được tạo ra, và giá trị 1 được giao cho các hàng tiếp theo của cột được tạo ra để chỉ sự tồn tại của tài lệu Không có từ ngữ trong số con đường này ngoại trừ một số thuộc tính Do đó khồng có mã thông báo được cập nhật trong số đường dẫn này Tương

tự như vậy cho con đường số 2 một cột mới được tạo ra trong cấu trúc Đối với tất cả các từ trong số đường dẫn này, một cột mới được tạo ra riêng biệt và giá trị 1 được giao cho hàng tiếp theo của cột được tạo ra cho thấy srj tồn tại của mình tương ứng với dữ liệu Vì vậy các mã thông báo 1 đối với các chuyển động từ thích hợp được ghi lạ trong đường dẫn số 2 Giá trị mộtđược giao hàng tiếp theo của cột được tạo ra chỉ sự tồn tại của chúng với tài liruj tương ứng Trong bảng IV 1 là mã thông báo trong vòng 2 số đường dẫn việc tạo ra ma trận cấu trúc sau khi giải nén tất cả các từ và các đường dẫn từ dữ liệu để dữ liệu được đưa ra trong bảng V

3.4 Phương pháp giải nén các bitmap Cơ cấu tổ chức.

Hệ thông cấu trúc BIQS chia thành hai cấu trúc để nén dữ kiệu XML Hàng đầu tiên là

một cấu trúc có tên là Path Token sử dụng để đại diện cho các số thẻ và đường dẫn Hàng này được lập chỉ mục bắt đầu tuần tự từ 0 Sau đó, các chỉ số được sử dụng để tìm kiếm số thẻ và đường dẫn từ các số thẻ và đường dẫn cơ cấu Một cấu trúc có tên là nén Bitmap Index (BIQS)

Cơ cấu tổ chức bao gồm tất cả các hàng còn lại của ma trận (ngoại trừ hàng đầu tiên)

Trong cấu trúc này mỗi hàng được chia thành các khối Trong mỗi khối thông tin của 16

tế bào bit (từ và đường dẫn) được nén Vì mỗi hàng đại diện cho thông tin của mỗi tài liệu XML, có thể có một số khác nhau của khối cho mỗi tài liệu và mỗi khối bao gồm các giá trị khác nhau cho các tài liệu khác nhau Nén cũng có thể sử dụng kcác tế bào 32 bit Các cấu trúc

mã thông báo và đường dẫn được trinh bày trong bảng VI Các nén cấu trúc bitmap được trình bày trong bảng IX Các giá trị của mỗi tế bào 16 bit được ghi ở dạng thập phân Nếu không có

đủ dữ liệu để hình thành một khối với tế bào 16 bit chung tôi thục hiện với số 0

Cơ cấu BIQS nén được đưa ra trong bảng VIII, cột đầu tiên của cấu trúc đại diện cho số tài liệu và ba cột còn lại đại diện cho các khối Giá trị của mỗi khối được tạo ra từ cấu trúc BIQS được đưa ra trong bảng V Giá trị của các khối là 65472, 57, 0 và 39 Những giá trị này đại diện cho các thông tin nén dữ liệu cho các tài liệu XML lhác nhau Nén này không bị mất bất kì thông tin Chúng tôi sử dụng cấu trúc BIQS nén dữ liệu Thực tế chúng ta không chuyển đổi giá trị nhị phân (từ bảng V) thành giá trị thập phân (vào bảng VIII) thay vì chúng ta lưu trữ thông tin cho 16 từ và đường dẫn vào một tế bào đơn lẻ của môt khối

5

Trang 6

Hình 1.: Cấu trúc của các phương pháp xử lý truy vấn

Trang 7

<title> ProperMotions </title>

<altname type="ADC">I/1005 </altname>

<altname type="CDS">I/5 </altname>

Trang 8

Bảng 1 T ừ điển Bảng 2: từ điển đường dẫn

Word TokenPath number

Path

1 nasa.dat ase t s.dat aset

2 nasa.datasets.dat aset t it le

3 nasa.dat aset s.dat aset altname

4 n asa.dat aset s.dat ase t author.firstname

5 nasa.dataset s.dataset author lastname

11 Yahoo.list ing.seller _info.seller_name

12 Yahoo.listing.seller _info.seller_rat ing

13 Yahoo list ing.item_info.m emory

14 Yahoo.list ing item_info.HD

15 Yahoo.list ing item_info.cpu

Trang 9

Document number to corresponding document

Bảng 5: Cơ cấu tổ chức BIQS

-1

1

-2

2 3

-3

4 -4

5 -5

-6

6 1 1

2 3

2 7

-7

7 8 1 2

2 4

2 8

-8

9 1 3

2 5

2 9

-9

10 24 26 30

-10

15 -11

16 -12

17 20

-13

1821 -14

19 22

-15

Bảng 6: Chỉ số và cơ cấu tổ chức đương dẫn.

Ind

ex

0 1 2 3 4 5 6 7 8 9 1

0

1 1

1 2

1 3

1 4

1 5

1 6

1 7

1 8

1 9

2 0

2 1

2 2

2 3

2 4

2 5

2 6

-1

1

-2

2 3 -3

4 -4

5 -5

-6

6 1 1

2 3

2 7

-7

7 8 1

2

2 4

2 8

-8

9 1 3

2 5

2 9

-9

10 14 26 30

-10 15 -11 16 -12 17 20 -13 18 21 -14 19 22 -15

dẫn

Secondary Index Path No Toke n_Path_I ndex 1 -1 0 2 -2 2 5

7

9

10

15

21

26

31

33

35

38

41

9

Trang 10

Bảng 8: Mã thông báo tìm kiếm giữa hai con đường.

K be the number of tokens between any

Two paths in Token and Path Structure

4.Thuật toán của các kĩ thuật.

Chúng tôi đã phát triển mộtthuật toán trong hình 6 Để hiểu được các thuật toán cấu trúc

dữ liệu sau đây cần thiết:

DPath: Đường dẫn riêng biệt; DPNumbe: Số dường dẫn riêng biệt;

PDic[][]:Từ điển đường dẫn; DocNumber: số tài liệu; DWord: Từ khác biệt; WDic[][]:từ điển từ; ADic[][]: thuôc tính từ điển; Att: thuộc tính;

NPath: Đường dẫn mới; BMS: Cấu trúc ma trận BIQS; NC: Cột mới; PIndex: Đường dẫn chỉ mục; NPIndex: Đường dẫn chỉ mục mới;

FR:Dòng đầu tiên; TNumber: số chỉ số; WNPIndex:

Từ đường dẫn chỉ mục mới; CBS:Khối cấu trúc nén; CIndex:Nén chỉ mục; TNDC: Tổng số cột tạo ra trong BMS; WPIndex: Từ đường dẫn chỉ mục; BIndex: Khối chỉ mục; BinDec():Nhị phân

Dynamic_Matrix_Structure(): Chức năng này xây dựng các cơ cấu ma trận bao gồm tất cả các

thẻ, đường dẫn và các thuộc tính với các tài liệu liên quan của họ

Searching_Structure(): Chức năng này mô tả nén của thông tin XML chia thành khối và lưu trữ

dữ liệu XML vào nén cấu trúc bitmap

Index: Được sử dụng để lưu trữ các số chỉ mục của các mã thông báo tìm kiếm từ mã thông báo

và cấu trúc đường dẫn.

//Block_no:.Mỗi hàng có nhiều block_no mỗi khối bao gồm một tế bào thông tin 16 bit

//Offset position: Xác định vị trí cho sự tồn tại của từ hoặc đường dẫn hoặc thuộc tính trong tài liệu

Algorithm BIQS()

Begin

Trang 11

//store the path number in the first

row of the created column;

//Store the negative sign before the

path number;

//Insert 1 to the next row of the

created path number;

(hàng tiếp theo của cột tạo ra) để tạo ra thẻ;

Create a NC in BMS within PNumber;

11

Trang 12

// Đối với tất cả các hàng khac từ BMS

TPS=First Row of the BMS;

For CIndex=i+1 to DocNumber do

// Sử dụng chỉ số chung vào số những đường dẫn này

// Áp dụng tìm kiếm hệ nhị phân để tìm số đường dẫn từ cấu trúc

này;

// Áp dụng tìm kiếm hệ nhị phân trong số con đường này (hiện

hành) đến số con đường trước mắt đế tìm chỉ số của các mã thông

báo từ mã thông báo và cấu trúc đường dẫn;

Search the TNumber of input query

(word) from Wdic;

Apply BS to find PNumber from SIndex;

Apply BS to find IToken within

CPnumber to IPCPath from TP;

BN=IToken/ 16;

OPos=IToken % 16;

// Đối vớ với mỗi khối từ cấu trúc nén chỉ số Bitnap làm

// Nếu là 1 được tìm thấy ở vị trí tiếp theo, từ tìm kiến được

tìm thấy

// Để trả lại số hàng đó là số tài liệu;

For each Block of CBS do

Trang 13

5.Tìm kiếm và truy vấn các tài liệu.

Kĩ thuật BIQS hỗ trợ các loại truy vấn và áp dụng tìm kiếm cho các cấu trúc nén của dữliệu Người dùng tìm kiếm các tè điển để tìm thấy những dấu hiệu cho từ tương ứng sau khi hệ thống phát hiện có các dấu hiệu (bằng cách sử dụng thuụât toán tìm kiếm nhị phân) các chỉ số

vị trí của mã thông báo từ mã thông báo và cấu trúc đường dẫn, và số đường dẫn trong đó các

mã thông báo là bị chặn Bởi vì thông tin cho 16 ô nhớ được nén trong mỗi khối, các block_no được tính toán, phân chia các chỉ số 16 Các Offset_position này cũng được tính như số chỉ số modulo 16 Từ các dữ liệu nén cấu trúc (bảng IV), các giá trị tương ứng của mỗi khối được chuyển đổi thành các dạng nhị phân để kiểm tra các giá trị tồn tại trong tài liệu Cách tiếp cận này sẽ kiểm tra sự tồn tại của giá trị 1 ở vị trí bù đắp tương ứng trong mỗi giá trị khối Sự hiện diện của các giá trị 1 trong vị trí bù đắp tương ứng cho thấy sự tồn tại của số liệu từ tài liệu tương ứng Các hệ thống có thể tìm kiếm một từ hoặc nhiều từ

Để tìm kiếm một yếu tố con đường (và nội dung đường dẫn) ban đầu hệ thống tìm kiếm

số đường dẫn trong đường dẫn từ điển và sau đó tìm kiếm tất cả số thẻ trong số đường dẫn này

từ mã số thẻ cấu trúc đường dẫn Trong khi tìm kiếm số đường dẫn từ cấu trúc mã số thẻ, chúngtôi luôn luôn sử dụng kĩ thuật tìm kiếm nhị phân Để có được chỉ số của số thẻ, từ mã thông báo

và cấu trúc đường dẫn chúng tôi cũng áp dụng tìm kiếm nhị phân trong con đường này

(thu được) số lượng và số đường dẫn ngay trước đó Điêuù này là do tất csr các từ đó là dấu hiệu cho một đường dẫn cụ thểđược ghi lại, từ số đường dẫn với số lượng từ thu được (hiện tại).Khi hệ thống sử dụng các dấu hiệu (-) trước số đường dẫn, nó dễ dàng để tìm thấy nhiều những phạm vi tìm kiếm trong các đường dẫn số Sau khi có số thẻ những từ ngữ tương ứng được tìm kiếm trong từ điển

Nếu tìm kiếm một thuộc tính (từ một tài liệu XML) kĩ thuật cố thể tìm kiếm trực tiếp từ

từ điển thuộc tính Trong thuộc tính của từ điển, mỗi thuộc tính có tên nội dung và số tài liệu tương ứng ghi lại Tổng thể (yếu tố là nội dung) từ cơ cấu tìm kiếm được hiển thị trong hình 7

Các chức năng của chương trình tìm kiếm thể hiện trong các ví dụ sau đây:

Truy vấn 1: Tìm tất cả họ tên tác giả từ tất cả các tài liệu.

Các truy vấn trên là đại diện trong XPath là như sau:

/nasa/datasets/dataset/author/firstname

Cây cấu trúc của các truy vấn ở trên là như sau:

Theo BIQS truy vấn được biễu diễn như sau:

Ngày đăng: 15/03/2014, 16:20

HÌNH ẢNH LIÊN QUAN

Bảng 1. . T  ừ điển. Bảng 2: từ điển đường dẫn - LẬP CHỈ MỤC VÀ TRUY VẤN DỮ LIỆU QUAN ĐIỂM CỦA CƠ SỞ DỮ LIỆU SEMISTRUCTURED
Bảng 1. T ừ điển. Bảng 2: từ điển đường dẫn (Trang 8)
Hình 7: Thời gian thực hiện truy vấn (và - LẬP CHỈ MỤC VÀ TRUY VẤN DỮ LIỆU QUAN ĐIỂM CỦA CƠ SỞ DỮ LIỆU SEMISTRUCTURED
Hình 7 Thời gian thực hiện truy vấn (và (Trang 18)
Hình 10: Thời gian thực hiện truy vấn bằng - LẬP CHỈ MỤC VÀ TRUY VẤN DỮ LIỆU QUAN ĐIỂM CỦA CƠ SỞ DỮ LIỆU SEMISTRUCTURED
Hình 10 Thời gian thực hiện truy vấn bằng (Trang 18)
Hình 8: Thời gian thực hiện XQuery cho  kích thước file khác nhau. - LẬP CHỈ MỤC VÀ TRUY VẤN DỮ LIỆU QUAN ĐIỂM CỦA CƠ SỞ DỮ LIỆU SEMISTRUCTURED
Hình 8 Thời gian thực hiện XQuery cho kích thước file khác nhau (Trang 18)
Hình 12: Thời gian thực hiện truy vấn sử dụng BIQS (điều kiện wrt OR) - LẬP CHỈ MỤC VÀ TRUY VẤN DỮ LIỆU QUAN ĐIỂM CỦA CƠ SỞ DỮ LIỆU SEMISTRUCTURED
Hình 12 Thời gian thực hiện truy vấn sử dụng BIQS (điều kiện wrt OR) (Trang 19)
Hình 13: So  sánh thời  gian thực  hiện truy  vấn. - LẬP CHỈ MỤC VÀ TRUY VẤN DỮ LIỆU QUAN ĐIỂM CỦA CƠ SỞ DỮ LIỆU SEMISTRUCTURED
Hình 13 So sánh thời gian thực hiện truy vấn (Trang 19)
Bảng 10: Truy vấn được thực hiện trong truy vấn của chúng tôi. - LẬP CHỈ MỤC VÀ TRUY VẤN DỮ LIỆU QUAN ĐIỂM CỦA CƠ SỞ DỮ LIỆU SEMISTRUCTURED
Bảng 10 Truy vấn được thực hiện trong truy vấn của chúng tôi (Trang 20)
Hình 15: So sánh thời gian thực hiện thực hiện truy vấn trên kích thước dữ liệu khác nhau sử  dụng Q-7 (bảng 10). - LẬP CHỈ MỤC VÀ TRUY VẤN DỮ LIỆU QUAN ĐIỂM CỦA CƠ SỞ DỮ LIỆU SEMISTRUCTURED
Hình 15 So sánh thời gian thực hiện thực hiện truy vấn trên kích thước dữ liệu khác nhau sử dụng Q-7 (bảng 10) (Trang 20)
Hình 16: Tiền xử lí truy vấn thờ gian thực hiện cho BIQS. - LẬP CHỈ MỤC VÀ TRUY VẤN DỮ LIỆU QUAN ĐIỂM CỦA CƠ SỞ DỮ LIỆU SEMISTRUCTURED
Hình 16 Tiền xử lí truy vấn thờ gian thực hiện cho BIQS (Trang 20)
Hình 7: Không nén để nén file XML bằng cách sử dụng cấu trúc BIQS. - LẬP CHỈ MỤC VÀ TRUY VẤN DỮ LIỆU QUAN ĐIỂM CỦA CƠ SỞ DỮ LIỆU SEMISTRUCTURED
Hình 7 Không nén để nén file XML bằng cách sử dụng cấu trúc BIQS (Trang 21)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w