1. Ta gọi o 1 ở phía nam của o 2 nếu B[o 1 [y], o 2 [y]) và một trong D(o 1 [x], o 2 [x]) hay D(o 2 [x], o 1 [x]) hoặc S(o 1 [x], o 2 [x]) hay S(o 2 [x], o 1 [x]) hoặc F(o 1 [x], o 2 [x]) hay F(o 2 [x], o 1 [x]) hoặc EQ(o 1 [x], o 2 [x]) là đúng. 2. Mặt khác, ta nói rằng o 1 ở bên trái o 2 nếu B[o 1 [x], o 2 [x]) hay M[o 1ã ], o 2 [x]) là đúng. o 1 o 2 Mô tả Ký hiệu Error! o 1 before o 2 B(o 1 ,o 2 ) o 1 meets o 2 M(o 1 ,o 2 ) o 1 overlaps o 2 OV(o 1 ,o 2 ) o 1 during o 2 D(o 1 ,o 2 ) o 1 starts o 2 S(o 1 ,o 2 ) o 1 finishes o 2 F(o 1 ,o 2 ) o 1 equals o 2 EQ(o 1 ,o 2 ) Các định nghĩa tương tự có thể dành cho các đặc tính như North, West, East, Northwest, Southwest, Northest, Southest, Right, Below, Above, Equal, Inside, Cover, Overlap, Disjoint. Ta nhận thấy rằng các cấu trúc dữ liệu nhiều chiều đã khảo sát trong chương trước có thể dễ dàng hỗ trợ các thao tác không gian như mô tả trong chương này. 3.9 Cài đặt Hệ thống quản trị CSDL (DBMS) hiện nay hỗ trợ CSDL ảnh là hệ thống được cài đặt trên quan điểm hướng đối tượng. Nó giả sử rằng ảnh là các đối tượng, các lớp của đối tượng ảnh có sẵn một số phương pháp sau đây: 1. rotate(ImageId, dir, angle) thực hiện quay ảnh đi một góc nào đó theo chiều kim đồng hồ hay ngược chiều kim đồng hồ, cho lại ảnh kết quả. 2. segment(ImageId, H_Pred) lấy ảnh và tính chất đồng nhất làm đầu vào, cho lại các vùng khi phân đoạn ảnh tuân thủ tính chất đồng nhất H_Pred ở đầu ra. Kết quả ở đây là tập vùng, không chỉ một vùng. 3. edit(image, editop) thực hiện thao tác sửa đổi trên ảnh và cho lại ảnh sau khi sửa đổi. Các thí dụ của thao tác edit bao gồm thay đổi màu nền, thay đổi kết cấu ảnh, thay thế 1 vài mầu bằng vài màu khác, đảo ảnh Phần lớn CSDL ảnh hiện nay làm việc như sau: 1. Giả sử rằng toàn bộ ảnh đang được so sánh (tránh việc phân đoạn hoá). 2. Nó giả sửa rằng cho ảnh bất kỳ, nó có thể kết hợp một vài đặc tính nổi trội (như màu ảnh, kết cấu và hình dạng ) với ảnh. Các đặc tính này được lưu như vécto n trường. 3. Với CSDL ảnh, chỉ số được tạo lập, bao gồm các vécto n chiều này. Như vậy, mỗi ảnh I được biểu diễn như một điểm v 1 trong không gian n. Chỉ số như vậy thường là mở rộng đa chiều của cây tứ phân điểm hay cây R. 4. Khi người sử dụng hỏi câu truy vấn theo dạng “Hãy tìm mọi ảnh tương tự với ảnh truy vấn Q” nó xử lý bằng cách tìm mọi vécto v 1 sao cho khoảng cách Euclidean giữa vécto v 1 và v Q nhỏ hơn một ngưỡng xác định. Mọi I như vậy sẽ cho lại tại đầu ra kết quả. Chương 4 CƠ SỞ DỮ LIỆU VĂN BẢN/TÀI LIỆU Chương này sẽ trình bày về CSDL văn bản (text). Các câu hỏi sẽ được trả lời ở đây bao gồm CSDL văn bản là gì? Vấn đề của truy vấn trong CSDL văn bản là gì? Hai khái niệm – chính xác (precision) và triệu hồi (recall) - cho biết đo hiệu năng các giải thuật truy vấn văn bản như thế nào? Tài liệu được đặc trưng bởi các từ trong nó. Tuy nhiên, một từ có thể có nhiều nghĩa khác nhau khi được sử dụng trong các ngữ cảnh khác nhau (gọi là polysemy - đa nghĩa). Mặt khác, nhiều từ khác nhau có thể có cùng nghĩa (gọi là synonymy- đồng nghĩa). Chúng ta sẽ khảo sát kỹ thuật phân cụm các tài liệu “tương tự”. Truy vấn có đầu vào là tập tài liệu nhỏ, kết quả của truy vấn là tập các tài liệu tương tự với nó. Kỹ thuật sẽ được sử dụng để thực hiện truy vấn văn bản là Chỉ số hoá ngữ nghĩa tiềm tàng (LSI - Latent Sematic Indexing). Nền tảng toán học của LSI là tách các giá trị nổi bật (SVD-Singular-valued Decomposition). Từ khi ra đời, một ứng dụng cơ bản của máy tính là lưu trữ văn bản, thường dưới dạng tệp (có cấu trúc hay phi cấu trúc). Ý tưởng đơn giản ban đầu là: tài liệu D được biểu diễn bởi xâu ký tự. Thí dụ, xâu có thể là toàn bộ tài liệu, hay chỉ là tiêu đề hay tóm tắt tài liệu. CSDL tài liệu chỉ đơn thuần là tập hợp các xâu như vậy được chỉ số hóa theo cách phù hợp nào đó. Thí dụ, nếu biểu diễn tài liệu sử dụng tên tài liệu để chỉ số hóa tài liệu (hình 4.1) thì một phương pháp phù hợp được sử dụng để chỉ số hóa tập hợp các xâu này. Khi người sử dụng muốn tìm tài liệu liên quan đến chủ điểm T, trình tìm kiếm sẽ tìm tài liệu trong CSDL tài liệu chứa T. Điều này dẫn tới ý tưởng nghiên cứu về các thuật toán hiệu quả về khớp (matching) xâu hay tìm các xâu ký tự con. Hai vấn đề chính liên quan, đó là: 1. Đồng nghĩa (synonymy): Đó là trường hợp cho trước chủ điểm T, từ T không xuất hiện bất kỳ đâu trong tài liệu D, mặc dù sự thật là D quan hệ chặt chẽ với chủ điểm T trong câu hỏi. Thí dụ, giả sử ta chỉ xem xét tên tài liệu liệt kê trên hình 4.1. Giả sử chỉ số được xây dựng từ các tiêu đề này, thay cho từ toàn bộ tài liệu, và người sử dụng hỏi câu truy vấn sau: a. “Tìm mọi tài liệu liên quan đến chủ điểm money laundering”. Các từ này không thấy xuất hiện trong tiêu đề của tài liệu d 2 , thuật toán match xâu ký tự bỏ qua tài liệu này. b. “Hãy tìm mọi tài liệu liên quan đến chủ điểm drugs”. Tình này còn tồi tệ hơn bởi vì tài liệu d 6 có thể bị bỏ qua (từ dope ít nhiều có cùng nghĩa với drugs, có thể bị bỏ qua bởi vì không khớp xâu cùng cú pháp). Tương tự các tài liệu d 2 và d 3 cũng có thể bị bỏ qua – đáng lẽ nó phải được cho lại vì cả hai đều là sự phối hợp hành động chung chống ma tuý (drug cartel). Trong trường hợp này, vấn đề là ở chỗ chỉ số có thể chứa 1 hay nhiều từ được sử dụng để mô tả từng tài liệu, nhưng nó không thể đoán trước, và chỉ số mức ưu tiên, người sử dụng đều muốn tìm mọi từ truy vấn có thể. Document ID String d 1 Jose Orojuelo’s Operations in Bosnia d 2 The Medellin cartel’s Financial Organization d 3 The cali Cartel’s Distribution Network d 4 Banking Operation ang Money Laundering d 5 Profile of Hector Gomez d 6 Connection between Terrorism and Asian Dope Operations d 7 Hector Gomez: Hoe He Gave Agents the Slip in Cali d 8 Sex, Drugs, and Videotape d 9 The Iranian Connection d 10 Boating and Drugs: Slips Owned by thw Cali Cartel Hình 4.1 2. Đa nghĩa (Polysemy): Vấn đề cơ bản khác là cùng một từ có nhiều ý nghĩa khác nhau trong ngữ cảnh khác nhau. Thí dụ, từ bank có các ý nghĩa như sau: cơ quan tài chính, bờ sông, dựa vào Khi hỏi câu truy vấn tài liệu liên quan đến tài chính thì ta sẽ không quan tâm đến các bài báo có tiêu đề “Otters on the Banks of the Colorado River” hay tiêu đề “Divorce: Don’t Bank on Your Spouse” như là kết quả cho lại mặc dù từ bank là yếu tố của các tiêu đề này. Tiếp theo hai thước đo cơ bản để đánh giá hiệu năng hệ thống khai thác văn bản được trình bày, đó là chính xác (precision) và triệu hồi (recall). Một tiệm cận mới gọi là Chỉ số hóa ngữ nghĩa tiềm tàng (LSI) được mô tả để xâm nhập CSDL văn bản kích thước lớn trên cơ sở “nội dung ngữ nghĩa”. LSI đã chứng tỏ là một trong các phương pháp thành công nhất trong việc chỉ số hoá kho văn bản lớn. Kỹ thuật này cho phép hạn chế các từ và câu mà nó không cho ta khả năng phân biệt giữa các tài liệu khác nhau, nó còn cho phép nhận biết các từ có ý nghĩa khác nhau trong các tài liệu khác nhau. Nó cũng nhận ra các từ tương đương. Kỹ thuật LSI kết hợp hiệu quả véctơ vec(d) tần số với bất kỳ tài liệu d nào. Véctơ này được sử dụng cho mọi truy vấn. Vì tài liệu d bây giờ được biểu diễn bởi véctơ vec(d), vấn đề lưu trữ CSDL tài liệu (trong mô hình LSI) tương đương với việc lưu trữ tập véctơ có số chiều khá lớn (thông thường véctơ có khoảng 200 trường). Tiếp theo, một cấu trúc dữ liệu đặc biệt được mô tả, gọi chúng là cây véctơ thu gọn (telescoping vector tree – TV-tree), được sử dụng cho LSI. Khi người sử dụng khai thác mọi tài liệu về chủ đề nhất định (họ chỉ ra tập từ khóa), thì truy vấn Q được xem như tài liệu d Q , tài liệu này có véctơ kết hợp vec(d Q ). Sau đó ta tìm cấu trúc dữ liệu TV-tree để tìm n láng giềng gần nhất của véctơ tài liệu truy vấn vec(d Q ) có lưu tâm đến thước đo khoảng cách cụ thể. 4.1 Chính xác (precision) và triệu hồi (recall) Giả sử D là tập hữu hạn các tài liệu, A là thuật toán bất kỳ lấy xâu chủ điểm t làm đầu vào và cho lại tập A(t) của tài liệu làm đầu ra, ta có A(t) Í D. Trực quan thì, ta có thể suy nghĩ về A như mã hóa một thuật toán hay kỹ thuật khai thác tài liệu. Giả sử rằng, chúng ta có tính chất thích hợp (relevant) với hai đối số: chủ điểm t và tài liệu d. Trực quan thì, nếu relevant(t,d) là true, thì có nghĩa rằng tài liệu d được xem như thích hợp với chủ điểm t. Chúng ta không quan tâm cụ thể đến việc tính chất thích hợp này được cài đặt như thế nào. Thí dụ, tính chất thích hợp có thể được thực hiện bằng tay trên tập thử cụ thể D test Í D của các tài liệu và tập thử tương tự T test của các chủ điểm. Error! Hình 4.2 mô tả tình huống này. Vòng tròn trắng trên hình chỉ ra mọi tài liệu thích hợp với chủ điểm truy vấn t, trong khi vòng tròn tô chỉ ra các tài liệu do thuật toán truy vấn tài liệu cho lại khi đòi hỏi truy vấn tài liệu liên quan đến chủ điểm t. Error! Ta nói rằng độ chính xác của thuật toán A liên quan đến tính chất relevant và tập kiểm thử D test là P t % cho chủ điểm tÎ T test nếu Error! Để tránh chia cho 0 cho nên đã cộng thêm 1 vào tử số và mẫu số. Ta nói rằng độ chính xác của thuật toán A với sự thừa nhận tính chất relevant, tập thử tài liệu D test , và tập thử chủ điểm T test là P% nếu Nói cách khác, độ chính xác của thuật toán A của truy vấn thông tin với thừa nhận các tập thử phù hợp và định nghĩa liên quan, được đo bởi việc quyết định bao nhiêu câu trả lời thuật toán cho lại là thực sự đúng. Do đó, ta có thể đếm tổng số đối tượng trong phần giao đường tròn (hình 4.2), sau đó chia số này cho tổng đối tượng trong vòng tròn tô (các số này đều được cộng thêm 1). . là Chỉ số hoá ngữ nghĩa tiềm tàng (LSI - Latent Sematic Indexing). Nền tảng toán học của LSI là tách các giá trị nổi bật (SVD-Singular-valued Decomposition). Từ khi ra đời, một ứng dụng cơ. là tập vùng, không chỉ một vùng. 3. edit(image, editop) thực hiện thao tác sửa đổi trên ảnh và cho lại ảnh sau khi sửa đổi. Các thí dụ của thao tác edit bao gồm thay đổi màu nền, thay đổi kết. thuần là tập hợp các xâu như vậy được chỉ số hóa theo cách phù hợp nào đó. Thí dụ, nếu biểu diễn tài liệu sử dụng tên tài liệu để chỉ số hóa tài liệu (hình 4.1) thì một phương pháp phù hợp được