- Các loại dữ liệu ĐPT bao gồm: + Dữ liệu văn bản có hoặc không có cấu trúc + Dữ liệu âm thanh + Dữ liệu ảnh + Dữ liệu video - Một số cách phân loại dữ liệu: + Dựa trên định dạng vật lý
Trang 1Câu 1: Các loại dữ liệu ĐPT và cách phân loại ?
- Các loại dữ liệu ĐPT bao gồm:
+ Dữ liệu văn bản (có hoặc không có cấu trúc)
+ Dữ liệu âm thanh
+ Dữ liệu ảnh
+ Dữ liệu video
- Một số cách phân loại dữ liệu:
+ Dựa trên định dạng vật lý
+ Dựa trên mối quan hệ giữa các dữ liệu ĐPT với chiều thời gian hay không gian
Câu 2: Các đặc tính chính của dữ liệu ĐPT?
- Các đặc tính chính của dữ liệu ĐPT gồm có:
+ Dung lượng lớn (video, audio)
+ Dữ liệu video và audio có chiều thời gian nên phải được trình bày ở tốc độ xác định
+ Dữ liệu số audio, images, video được biểu diễn bằng chuỗi các giá trị mẫu riêng biệt, thiếu cấu trúc ngữ nghĩa để máy tính có thể tự động nhận dạng nội dung
+ Nhiều ứng dụng ĐPT đòi hỏi biểu diễn đồng thời nhiều loại dữ liệu ĐPT theo chiều thời gian và không gian phù hợp
+ Dữ liệu ĐPT mang nhiều thông tin Do đó cần nhiều tham số để biểu diễn nội dung một cách đúng đắn
Câu 3: So sánh DBMS với IR?
- Một DBMS chứa các bản ghi được cấu trúc
đồng nhất:
+ Mỗi bản ghi được đặc trưng bởi các thuộc tính
+ Giá trị của thuộc tính miêu tả rõ ràng và đầy
đủ các bản ghi
- Trong DBMS, việc truy vấn thông tin dựa
trên sự trùng lặp tuyệt đối giữa câu truy vấn và giá
trị các thuộc tính của bản ghi
- Trong IR, các bản ghi không có cấu trúc, không
có thuộc tính cố định:
+ Để đánh chỉ mục: keywords, index terms, doc descriptor
+ Tạo từ khóa và chỉ mục đóng vai trò quan trọng
- Trong IR, không đòi hỏi trùng lặp tuyệ đối
- Sự truy vấn dựa trên độ trùng khớp giữa các tập thuật ngữ
- Sử dụng các phương pháp trùng lặp xấp xỉ hoặc từng phần
- Cùng 1 term có thể có nghĩa khác
Câu 4: Vai trò của DBMS và IR trong truy vấn thông tin ĐPT?
Vai trò của DBMS (Hệ quản trị cơ sở dữ liệu) trong truy vấn thông tin ĐPT:
- Các hệ quản trị CSDL đã được phát triển và sử dụng rộng rãi đối với dữ liệu có cấu trúc
- Trong hệ quản trị CSDL quan hệ, thông tin được tổ chức dưới dạng các bảng và quan hệ Các hàng của bảng tương ứng với các đơn vị thông tin hoặc bản ghi Các cột tương ứng với các thuộc tính
- SQL được sử dụng để thao tác trên CSDL
+ Ví dụ: create table STUDENT(
Student_id integer,
Name varchar(50), Address varchar(100))
- Các thuộc tính trong hệ quản trị CSDL quan hệ có kiểu cố định và có kích cỡ cố định Hệ quản trị CSDL quan
hệ phù hợp với việc xử lý các dữ liệu kiểu chữ số và các xâu ký tự ngắn
Trang 2- Loại dữ liệu lớn có độ dài biến đổi được hỗ trợ trong hệ quản trị CSDL quan hệ là đối tượng rộng hoặc nhị phân (BLOB)
+ Ví dụ: create table STUDENT(
Student_id integer, Name varchar(50), Address varchar(100), Picture BLOB)
- Hệ quản trị CSDL hướng đối tượng
+ Kết nối các đặc điểm hướng đối tượng với CSDL quan hệ
+ Các đối tượng được định nghĩa theo kiểu hướng đối tượng Mỗi đối tượng chứa các thuộc tính và phương thức + Ví dụ: Create type Image(
Private Size integer, Resolution integer, Content float[], Public
…)
create table STUDENT(
Student_id integer, Name varchar(50), Address varchar(100), Picture IMAGE)
- BLOBs và các đối tượng là một bước tiếp cận đến xử lý dữ liệu ĐPT
- BLOBs chỉ lưu trữ dữ liệu có khối lượng lớn, còn đối tượng chứa các thuộc tính đơn giản dẫn đến một số yêu cầu để xử lý truy vấn dữ liệu ĐPT như sau:
+ Các công cụ tự động hoặc bán tự động trích chọn các nội dung và đặc trưng chứa trong dữ liệu ĐPT
+ Cấu trúc đánh chỉ mục đa chiều để xử lý các vector đặc trưng
+ Các độ đo tương đồng để truy vấn thông tin ĐPT thay vì sử dụng trùng lặp chính xác
+ Các hệ thống con lưu trữ dữ liệu kích cỡ lớn, băng tần rộng, thời gian thực
+ Giao diện người dùng cho phép tạo câu truy vấn linh hoạt trên các loại dữ liệu ĐPT khác nhau, biễu diễn dữ liệu ĐPT
Vai trò của IR trong truy vấn thông tin ĐPT
- IR tập trung vào truy vấn tài liệu văn bản
- Các kỹ thuật IR đóng vai trò quan trọng trong quản lý thông tin ĐPT bởi:
+ Tồn tại một lượng lớn các tài liệu văn bản ở các dạng tổ chức, ví dụ như thư viện
+ Văn bản được dùng để chú giải các loại dữ liệu ĐPT khác
- Tuy nhiên, việc dùng các kỹ thuật IR trong xử lý thông tin ĐPT có hạn chế:
+ Việc chú giải là quá trình thủ công, tốn thời gian
+ Việc chú giải là không đầy đủ và mang tính chủ quan
+ Các kỹ thuật IR không thể xử lý các câu truy vấn dạng khác văn bản
+ Một vài đặc điểm ĐPT khó mô tả bằng văn bản (kết cấu ảnh, hình thù đối tượng )
Câu 5: Các kiến trúc hệ thống CSDL ĐPT?
a Kiến trúc cặp lỏng
- Thế nào là kiến trúc cặp lỏng
+ Hệ quản trị CSDL là 1 hệ thống gồm 1 CSDL và các thao tác trên CSDL đó, được thiết kế trên nền tảng phần cứng, phần mềm với một kiên trúc nhất định
Trang 3+ Hệ quản trị CSDL ở đây quản lý dữ liệu metadata
+ Thành phần quản lý tệp tin đa phương tiện, quản lý dữ liệu đa phương tiện
+ Module tích hợp hệ quản trị CSDL và thành phần quản lý tệp tin đa phương tiện
- Ưu điểm: Tận dụng các hệ thống quản lý tệp tin đa phương tiện khác nhau để quản lý dữ liệu
b Kiến trúc cặp chặt
- Kiến trúc cặp chặt
+ Hệ quản trị CSDL ở đây quản lý dữ liệu đa phương tiện và metadata
+ Hệ quản trị CSDL là một MM-DBMS
- Ưu điểm: Các chức năng của DBMS có thể được áp dụng trên CSDL đa phương tiện
+ Quản lý truy vấn
+ Quản lý giao dịch
+ Quản lý lưu trữ
+ Quản lý bảo mật toàn vẹn
c Kiến trúc lược đồ
Trang 4- Lược đồ là metadata mô tả dữ liệu dpt trong CSDL
- Mô hình 3 mức lươc đồ
- Lược đồ ngoài định nghĩa các cách nhìn của người dùng đối với CSDL (video view, audio view…)
- Lược đồ khái niệm được xây dựng dựa trên các mô hình dữ liệu
- Lược đồ trong: cấu trúc dữ liệu bên trong
- Mỗi lược đồ có các cách biểu diễn khác nhau
- Mappings thực hiện chuyển đổi từ biểu diễn
d Kiến trúc chức năng
e Kiến trúc hệ thống mở rộng
f Kiến trúc phân tán
- Cách mà các đối tượng được phân tán và kết hợp
Trang 5+ Truy vấn
+ Giao dịch
+ Metadata
+ Bảo mật
+ Toàn vẹn dữ liệu
g Kiến trúc liên động
- Client/server (CORBA)
- Ba tầng (three tier)
- Hướng thành phần
h Kiến trúc siêu phương tiện: hỗ trợ duyệt CSDL theo các liên kết
Trang 6Câu 6: Dữ liệu meta cho CSDL đa phương tiện?
1 Định nghĩa Metadata
- Là dạng dữ liệu mô tả về dữ liệu Trong cơ sở dữ liệu, metadata là các dạng biểu diễn khác nhau của các đối tượng trong cơ sở dữ liệu Trong cơ sở dữ liệu quan hệ, metadata là các định nghĩa của bảng, cột, cơ sở dữ liệu, view
và nhiều đối tượng khác Trong kho dữ liệu, metadata là dạng định nghĩa dữ liệu như: bảng, cột, một báo cáo, các luật doanh nghiệp hay những quy tắc biến đổi Metadata bao quát tất cả các phương tiện của kho dữ liệu
- Metadata phải chứa những thông tin: cấu trúc của dữ liệu, thuật toán sử dụng để tổng hợp dữ liệu, ánh xạ xác định sự tương ứng dữ liệu từ môi trường tác nghiệp sang kho dữ liệu
2 Vai trò Metadata
- Thông tin metadata được cung cấp cho phép người dùng cuối hiểu rõ hơn bản chất về dữ liệu mà họ đang có
và quyết định sử dụng một cách đúng đắn và phù hợp dữ liệu
- Cấu trúc và nội dung dữ liệu bao gồm một số loại thông tin cơ bản: Thông tin mô tả về bản thân dữ liệu metadata; thông tin về dữ liệu mà metadata mô tả; thông tin về cá nhân, tổ chức liên quan đến dữ liệu metadata và dữ liệu
3 Các loại metadata
- Metadata cho các loại phương tiện khác nhau
- Đặc trưng bằng mối quan hệ với nội dung dữ liệu đa phương tiện
- Metadata có thể được trích chọn trực tiếp từ dữ liệu đa phương tiện
Metadata cho dữ liệu văn bản
- Chứa đựng thông tin về dữ liệu văn bản
- Metadata độc lập nội dung:
+ Loại dữ liệu văn bản
+ Số trang
+ Định dạng
+ Số chương, số paragraph mỗi chương
- Metadata phụ thuộc nội dung: Nội dung câu chuyện, từ khóa, tiêu đề, tóm tắt
- SGML (standard generalized markup language), XML được sử dụng để gán thẻ cho các loại dữ liệu văn bản
có thể trích chọn
- Các thẻ có thể được lưu trong DBs
- Dữ liệu text có thể được chú giải
Metadata cho dữ liệu ảnh
- Sử dụng dữ liệu text để mô tả ảnh
- Metadata có thể được lưu trong DBs
- Metadata độc lập/phụ thuộc nội dung
- Ví dụ: Bức ảnh X mô tả đại dương với rừng cọ và những ngôi nhà trên bãi biển
Metadata cho dữ liệu âm thanh
Trang 7- Mô hình hóa cho dữ liệu âm thanh
- Gán thẻ metadata
- Trích chọn từ khóa trong thẻ
- Dữ liệu âm thanh có thể được chú giải
- Metadata độc lập/phụ thuộc nội dung
Metadata cho dữ liệu video
- Mô hình hóa cho dữ liệu video
- Gán thẻ metadata
- Trích chọn từ khóa trong thẻ
- Dữ liệu video có thể được chú giải
- Metadata độc lập/phụ thuộc nội dung
Metadata cho dữ liệu kết hợp
- Metadata dùng để đồng bộ hiển thị các loại phương tiện
4 Các khía cạnh liên quan đến Metadata
- Ontology cho dữ liệu đa phương tiện
+ Ontology là đặc tả về sự khái niệm hóa
+ Dùng để biểu diễn tri thức chung cho quá trình cộng tác
- Chú giải
+ Quản lý chú giải: trích chọn, truy vấn, cập nhật, tương quan giữa các chú giải và dữ liệu đa phương tiện
- Chất lượng dịch vụ và nguồn gốc dữ liệu
+ Độ chính xách của dữ liệu
+ Nguồn gốc của dữ liệu
5 Quản lý Metadata
- Truy vấn
- Cập nhật
- Bảo mật
- Trích chọn
Câu 7: Kĩ thuật đánh chỉ mục cho các loại dữ liệu khác nhau?
- Dữ liệu văn bản: dựa trên từ khóa Một văn bản luôn mang cùng lúc nhiều yếu tố, do vậy phải chọn một từ khóa có ý nghĩa rộng nhưng phải ít ký tự Không nên chọn từ khóa quá dài hay quá ngắn Lựa chọn từ khóa cần phải trả lời được câu hỏi: văn bản thuộc loại nào? Đối tượng hướng đến là ai? Người dùng dùng loại công cụ nào để tìm kiếm?
- Dữ liệu ảnh: dựa trên từ khóa, ảnh
- Dữ liệu video: dựa trên từ khóa, các ảnh trích trọn từ ảnh
- Audio: từ khóa
- Chú giải
Câu 8: Các kỹ thuật lưu trữ trong cơ sở dữ liệu đa phương tiện?
- Dùng mảng các đĩa rẻ tiền
- Kiến trúc lưu trữ phân cấp
+ Dùng băng từ và đĩa quan để lưu trữ dài hạn, đĩa từ lưu đoạn bắt đầu của phương tiện (trễ ban đầu thấp)
+ Di chuyển files từ băng từ ra đĩa từ khi có yêu cầu (trễ ban đầu dài giải pháp dựa trên mẫu sử dụng, tần số sử dụng)
- Lưu trữ dữ liệu trên thiết bị
+ Các tệp tin được phân thành các blocks
+ Các blocks được lưu ở đĩa theo các phương pháp khác nhau
Lưu liên tục: Các block của file định vị liên tiếp trên các block của đĩa
Ưu điểm:dễ cài đặt
Trang 8 Nhược điểm: Tốn thời gian khi chèn và xóa, phân mảnh đĩa
Thích hợp cho ứng dụng ghi một lần, đọc nhiều lần
Lưu có ràng buộc: Từng block của file chứa con trỏ trỏ tới block kế tiếp
Ưu điểm: dễ mở rộng file
Nhược điểm: đọc file chậm
Lưu rải rác
Danh sách liên kết, FAT, I-nodes
- Lưu trữ dữ liệu trên mảng đĩa
+ Lưu toàn bộ file đa phương tiện trên một đĩa
+ Lưu file trên các đĩa khác nhau
+ Lưu toàn bộ file đa phương tiện trên một đĩa
+ Lưu toàn bộ file đa phương tiện trên một đĩa
+ Lưu file trên các đĩa khác nhau
+ Các kỹ thuật phân tán các blocks trên các đĩa:
Data Striping: Blocks được tổ chức thành các nhóm truy cập, các đĩa được truy cập đồng bộ
Data interleaving: Các đĩa không được truy cập đồng bộ
Mong muốn có kích thước của blocks bằng với kích thước của các đơn vị dữ liệu phương tiện logic
- Điều độ đĩa và điều khiển tiếp nhận
+ Thiết bị lưu trữ cần truyền dữ liệu bằng với tốc độ phương tiện được biểu thị phía client
+ Hoạt động đĩa là không tất định nên cần có cơ chế điều độ đĩa để duy trì sự liên tục của dữ liệu
+ Cần cơ chế điều khiển tiếp nhận để tránh quá tải hệ thống
Dải tần tổng của các luồng yêu cầu phải nhỏ hơn tốc độ truyền của đĩa
+ Điều độ đĩa và điều khiển tiếp nhận nhằm nâng cao hiệu suất sử dụng tài nguyên đầu đọc đĩa
+ Mục tiêu của điều độ đĩa: làm giảm thời gian tìm kiếm, giảm trễ quay vòng, tăng dung lượng đĩa
Câu 9: Mô hình hoạt động QoS và các mức đảm bảo QoS trong CSDL ĐPT?
a Mô hình hoạt động QoS
- Ứng dụng gửi yêu cầu về QoS
- Hệ thống ĐPT:
+ Chấp nhận yêu cầu nếu đủ tài nguyên
+ Từ chối hoặc đề xuất QoS thấp hơn nếu không đủ tài nguyên
- Các phần từ cần thiết để đảm bảo QoS:
+ Cơ chế đặc tả QoS để ứng dung chỉ rõ yêu cầu QoS
+ Điều khiển chấp nhận dịch vụ
+ Quá trình thỏa hiệp QoS
+ Cung cấp và điều độ tài nguyên
+ Giám sát lưu lượng từ các ứng dụng
b Các mức đảm bảo QoS
- Đảm bảo tất định (cứng): Đắt, kém hiệu quả trong sử dụng tài nguyên, worse case
- Đảm bảo thống kê (mềm): QoS được đáp ứng đến tỷ lệ phần trăm nhất định, hiệu quả trong sử dụng tài nguyên, khó cài đặt
- Đảm bảo best-effort: không có đảm bảo QoS, hệ thống cung cấp tài nguyên hiện có
Câu 10: Các thuật toán điều độ đĩa?
Điều độ đĩa để giảm thời gian tìm kiếm, giảm trễ quay vòng, tăng thông lượng đĩa, cun
Các thuật toán điều độ đĩa truyền thống:
- FCFS (First Come First Served): Không xem xét các yếu tố như vị trí đầu đọc và hướng di chuyển
- SSTF (Shortest Seek Time First): Xem xét các vị trí đầu đọc
- Scan: Xem xét chuyển động của đầu đọc
Trang 9 Nhược điểm chính của các phương pháp truyền thống là không xem xét yếu tố thời gian của các luồng (stream) Không phù hợp cho điều độ các máy chủ đa phương tiện
Ngoài ra có các thuật toán điều độ đĩa khác:
- EDF (Earleast Dealine First):
+ Ưu điểm: Đảm bảo được yếu tố thời gian cho các luồng
+ Nhược điểm: Không xem xét yếu tố vị trí đầu đọc
- Scan-Earleast Deadline First: Kết hợp thuật toán Scan với EDF:
+ Khi nhiều yêu cầu có cùng deadline thì áp dụng scan
+ Khi tất cả các yêu cầu có cùng deadline thì thuật toán trở thành Scan và ngược lại
+ Thuật toán hiệu quả khi có nhiều yêu cầu có cùng deadline Cần kỹ thuật để tăng số yêu cầu có cùng deadline
- Thuật toán Round-Robin:
+ Các luồng được phục vụ tại các lượt riêng biệt
+ Trình tự phục vụ cho mỗi luồng là cố định ở mỗi lượt
+ Khoảng thời gian giữa các lần phục vụ liên tiếp của các luồng phụ thuộc vào khoảng thời gian của lượt
+ Thuật toán thích hợp với cơ chế lưu dữ liệu lên đĩa kiểu liên tục ràng buộc
- Điều độ quét nhóm:
+ Mỗi lượt được phân thành các nhóm và thực hiện round-robin cho các nhóm
+ Trong các nhóm thực hiện Scan
Câu 11: Các bước của quá trình đánh chỉ mục tự động dữ liệu text?
- Mục đích của đánh chỉ mục là tìm ra các thuật ngữ biểu diễn mỗi tài liệu một cách tốt nhất
- Quá trình đánh chỉ mục tự động bao gồm các bước:
1 Xác định các từ trong tiêu đề, tóm tắt và/hoặc tài liệu
2 Loại bỏ stop words
3 Nhận dạng từ đồng nghĩa nhử từ điển
4 Stemming để có gốc từ
5 Đếm tần số của gốc từ trong mỗi tài liệu
6 Tính toán trọng số cho gốc từ
7 Tạo file chỉ số dựa trên các từ và trọng số