Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 148 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
148
Dung lượng
2,63 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TRẦN ĐỨC HIẾU MỘT MƠ HÌNH CƠ SỞ DỮ LIỆU QUAN HỆ XÁC SUẤT CHUYÊN NGÀNH: Khoa học máy tính MÃ SỐ: 60.48.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 06 năm 2014 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM Cán hướng dẫn khoa học : TS Nguyễn Hòa Cán chấm nhận xét : PGS TS Dương Tuấn Anh Cán chấm nhận xét : TS Võ Thị Ngọc Châu Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG TP.HCM ngày 14 tháng 07 năm 2014 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: TS Nguyễn Văn Minh Mẫn PGS TS Dương Tuấn Anh TS Võ Thị Ngọc Châu TS Lê Thanh Vân TS Nguyễn Hòa Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Trần Đức Hiếu MSHV: Ngày, tháng, năm sinh: 25/07/1988 Chuyên ngành: I 11076116 Nơi sinh: Tp Hồ Chí Minh Khoa học máy tính Mã số: 60.48.01 TÊN ĐỀ TÀI: MỘT MƠ HÌNH CƠ SỞ DỮ LIỆU QUAN HỆ XÁC SUẤT II NHIỆM VỤ VÀ NỘI DUNG: - Đề xuất mơ hình sở liệu quan hệ xác suất có khả biểu diễn truy vấn liệu không chắn - Hiện thực hệ quản trị sở liệu khởi đầu mơ hình đề xuất III NGÀY GIAO NHIỆM VỤ: 19/08/2013 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 20/06/2014 V CÁN BỘ HƯỚNG DẪN: TS Nguyễn Hòa Tp HCM, ngày 13 tháng 09 năm 2014 CÁN BỘ HƯỚNG DẪN TRƯỞNG KHOA (Họ tên chữ ký) (Họ tên chữ ký) LỜI CẢM ƠN Để hồn thành tốt luận văn này, trước tiên xin gửi lời cảm ơn chân thành sâu sắc tới TS Nguyễn Hịa – người thầy tận tình bảo, hướng dẫn, truyền đạt kinh nghiệm kiến thức quí báu cho tơi suốt q trình nghiên cứu thực luận văn Trong trình học tập, triển khai nghiên cứu luận văn đạt ngày hôm nay, quên công lao giảng dạy hướng dẫn thầy, cô trường Đại học Bách Khoa TPHCM, đặc biệt thầy, cô khoa Khoa học Kỹ thuật Máy tính trường Đại học Bách Khoa TPHCM Tơi xin gửi lời cảm ơn chân thành đến gia đình, bạn bè đồng nghiệp, người quan tâm giúp đỡ tạo điều kiện để tơi hồn thành tốt luận văn Mặc dù cố gắng nhiều trình thực luận văn, song với thời gian hạn chế kinh nghiệm thân nên khơng thể khơng có thiếu sót Kính mong nhận cảm thơng, đóng góp chia sẻ kinh nghiệm quí báu thầy cô bạn học viên TP.HCM, ngày 20 tháng 05 năm 2014 Người thực đề tài Trần Đức Hiếu iii TÓM TẮT Thực tế cho thấy, sở liệu (CSDL) quan hệ truyền thống hiệu để mơ hình hóa, thiết kế thực hệ thống lớn Tuy nhiên, mơ hình CSDL quan hệ truyền thống biểu diễn xử lý thông tin không chắn không đầy đủ đối tượng thực tế Điều đòi hỏi thúc đẩy việc nghiên cứu phát triển mơ hình CSDL quan hệ xác suất để biểu diễn xử lý thơng tin khơng chắn Tuy nhiên, khó có mơ hình biểu diễn xử lý hết khía cạnh khơng chắn khơng xác thông tin đối tượng giới thực Điều độ phức tạp lý thuyết phát triển mơ hình khơng hiệu ứng dụng có mơ Do đó, mơ hình CSDL quan hệ xác suất tiếp tục nghiên cứu phát triển để đáp ứng mục tiêu ứng dụng khác Luận văn mở rộng mơ hình CSDL quan hệ truyền thống Codd đề nghị năm 1970 thành mơ hình CSDL quan hệ xác śt (Probabilistic Relational Data Base-PRDB) cho phép biểu diễn truy vấn thông tin không chắn không đầy đủ đối tượng thực tế Để phát triển mơ hình PRDB, trước hết, chúng tơi biểu diễn giá trị thuộc tính quan hệ cặp phân bố xác suất tập để mơ hình hóa cho khả thuộc tính nhận giá trị tập với xác suất thuộc khoảng suy dẫn từ cặp phân bố xác suất Kế đến, dựa sở biểu diễn giá trị thuộc tính đề xuất, chúng tơi mở rộng cách quán khái niệm lược đồ, quan hệ, phụ thuộc hàm phép toán đại số CSDL quan hệ truyền thống thành lược đồ, quan hệ, phụ thuộc hàm phép toán đại số CSDL quan hệ xác suất PRDB Cuối cùng, hệ quản trị với giao diện quản lý cho PRDB bước đầu thực với ngôn ngữ truy vấn tựa SQL hệ quản trị SQLite, gọi PRDB Visual Management, cho thấy triển vọng ứng dụng PRDB để mơ hình hóa liệu khơng chắn giải toán thực tế iv ABSTRACT It is witnessed that the conventional relational database has been useful for modeling real world problems and constructing large-scale systems However, the conventional relational database model could not represent and handle imperfect and uncertain information of objects in the real world That has attracted and motivated research and development of probabilistic relational database models to be able to represent and handle imperfect and uncertain information However, there is hardly any model that can represent and handle every uncertain and imperfect aspect of information of real world objects This is because of the complexity of theoretical foundation or the ineffectiveness of practical implementation if there were such a model Therefore, probabilistic relational database models have still been researched for different application purposes This thesis extends the conventional relational database proposed by Codd (1970) to a probabilistic relational data base model, called PRDB, for representing and querying uncertain and imperfect information of objects in practice To develop the model PRDB, first, we represent the relational attribute value as a pair of probabilistic distributions on a set for modeling the possibility that the attribute can take one of the values of the set with a probability belonging to interval which is inferred from the pair of probabilistic distributions Next, on the basis representing attribute values proposed, we extend consistently notions as schemes, relations, functional dependencies and algebraic operations in the conventional relational database to schemes, relations, functional dependencies and algebraic operations respectively in the probabilistic relational data base PRDB Finally, a simple management system for PRDB has been implemented with the query language like SQL running on top of SQLite, called PRDB Visual Management, illustrating for the prospect that PRDB is able to represent uncertain data and resolve real world problems v LỜI CAM ĐOAN Tôi cam đoan nội dung luận văn kết nghiên cứu thân Tất tham khảo từ nghiên cứu liên quan nêu rõ nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo đề cập phần sau luận văn Những đóng góp luận văn kết nghiên cứu tác giả mà phần công bố báo tác giả phần sau luận văn, chưa cơng bố cơng trình khoa học khác TP.HCM, ngày 20 tháng 05 năm 2014 Người thực đề tài Trần Đức Hiếu vi MỤC LỤC MỤC LỤC .vii DANH MỤC BẢNG xi DANH MỤC HÌNH xii Chương GIỚI THIỆU ĐỀ TÀI 1.1 Phạm vi mục tiêu 1.2 Những đóng góp luận văn .4 1.3 Cấu trúc nội dung luận văn .5 1.4 Qui ước ký hiệu viết tắt Chương TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU QUAN HỆ XÁC SUẤT 2.1 Giới thiệu .8 2.2 Dữ liệu không chắn .9 2.3 Các mơ hình CSDL quan hệ xác suất 10 2.4 Mơ hình CSDL quan hệ truyền thống 13 2.4.1 Mơ hình liệu 13 2.4.2 Các phép toán đại số 15 2.4.3 Tính chất phép toán đại số 17 2.5 Kết luận .19 Chương CƠ SỞ TỐN HỌC MƠ HÌNH CSDL QUAN HỆ XÁC SUẤT 20 3.1 Giới thiệu .20 3.2 Các chiến lược kết hợp khoảng xác suất .22 3.3 Các hàm phân bố ba xác suất 24 3.4 Các chiến lược kết hợp ba xác suất 25 3.5 Kết luận .27 Chương LƯỢC ĐỒ VÀ QUAN HỆ 28 4.1 Giới thiệu .28 4.2 Mơ hình ý niệm 28 4.3 Thuộc tính quan hệ 30 4.4 Kiểu giá trị 31 vii 4.5 Lược đồ quan hệ .33 4.6 Kết luận .39 Chương CÁC PHÉP TOÁN ĐẠI SỐ 40 5.1 Giới thiệu .40 5.2 Phép chọn 41 5.3 Phép chiếu 46 5.4 Phép tích Descartes .46 5.5 Phép kết .48 5.6 Phép giao, hợp trừ 50 5.7 Tính chất phép toán đại số 55 5.8 Kết luận .61 Chương XÂY DỰNG NGÔN NGỮ TRUY VẤN DỮ LIỆU TRÊN PRDB 63 6.1 Giới thiệu .63 6.2 Các đặc điểm chung ngôn ngữ ProbSQL .64 6.3 Cú pháp chung ngôn ngữ ProbSQL 65 6.3.1 Các mệnh đề thường dùng lệnh SELECT 65 6.3.2 Mệnh đề SELECT FROM 66 6.3.3 Mệnh đề WHERE 67 6.3.4 Điều kiện chọn với truy vấn mệnh đề WHERE 69 6.4 Các quan hệ hai phép tốn sử dụng ngơn ngữ ProbSQL 71 6.4.1 Các quan hệ hai ba xác suất với giá trị 71 6.4.2 Các quan hệ hai ba xác suất .72 6.4.3 Các phép toán luận lý kết hợp điều kiện chọn 74 6.4.4 Phép kết tự nhiên 74 6.4.5 Phép giao, hợp, trừ 75 6.5 Kết luận .77 Chương HIỆN THỰC MƠ HÌNH CSDL QUAN HỆ XÁC SUẤT 78 7.1 Giới thiệu .78 7.2 Tổng quan hệ quản trị PRDB Visual Management 79 viii 7.2.1 Các thành phần hệ thống .79 7.2.2 Kiến trúc hệ quản trị PRDB Visual Management .81 7.3 Hệ quản trị CSDL SQLite 83 7.3.1 Các tính đặc trưng SQLite 84 7.3.2 Các lớp phương thức System.Data.SQLite 86 7.3.3 Hiện thực tầng liệu kết nối PRDB Visual Management với SQLite 86 7.3.3.1 Tạo sở liệu 87 7.3.3.2 Lưu trữ cập nhật sở liệu 87 7.3.3.3 Mở sở liệu có sẵn .88 7.4 Hiện thực khối biểu diễn mơ hình PRDB 89 7.4.1 Biểu diễn sở liệu PRDB 89 7.4.2 Biểu diễn lược đồ PRDB .90 7.4.3 Biểu diễn quan hệ PRDB 91 7.4.4 Biểu diễn thuộc tính quan hệ PRDB 92 7.4.5 Biểu diễn kiểu liệu PRDB 92 7.4.6 Biểu diễn ba xác suất PRDB 94 7.4.7 Biểu diễn giá trị xác suất 94 7.5 Hiện thực khối xử lý truy vấn PRDB 95 7.5.1 Xây dựng trình biên dịch cho ngơn ngữ ProbSQL 96 7.5.2 Phân tích thực thi truy vấn 104 7.5.3 Hiện thực chiến lược kết hợp khoảng xác suất .105 7.5.4 Hiện thực chiến lược kết hợp ba xác suất 105 7.5.5 Hiện thực hàm diễn dịch quan hệ xác suất 107 7.5.6 Hiện thực phép kết 108 7.5.7 Hiện thực phép chọn 109 7.5.8 Hiện thực phép chiếu 110 7.5.9 Hiện thực phép hợp 111 7.5.10 Hiện thực phép giao 112 7.5.11 Hiện thực phép trừ .112 ix Một mơ hình sở liệu quan hệ xác śt Navigator bar: điều hướng cung cấp tác vụ thêm dịng để nhập giá trị, xóa dòng lưới, reset lại giá trị lưới cập nhật giá trị vào ba xác suất Gridview Relation Hình 7.10 Giao diện nhập ba xác suất không theo phân bố Uniform Distribution: Textbox Value: điều khiển dạng trình soạn thảo (richtextbox) cho phép người dùng nhập vào tập giá trị, giá trị dòng, thuộc tính Sum of MinProb: điều khiển dạng nhập liệu (textbox) cho phép người dùng nhập tổng xác suất cận Sum of MaxProb: điều khiển dạng nhập liệu (textbox) cho phép người dùng nhập tổng xác suất cận Navigator bar: điều hướng, cung cấp tác vụ reset lại điều khiển nhập liệu cập nhật giá trị nhập vào ba xác suất Gridview Relation Trang 120 Một mơ hình sở liệu quan hệ xác suất Hình 7.11 7.6.4 Giao diện nhập ba xác suất theo phân bố Giao diện tạo truy vấn Giao diện tạo truy vấn hệ quản trị thiết kế Hình 7.13 Hình 7.12 Giao diện tạo truy vấn hệ quản trị PRDB Visual Management Giao diện tạo truy vấn hệ quản trị chia làm hai cửa sổ: 1/ Cửa sổ truy vấn (Query Pane): có chứa trình soạn thảo (RichTextBox) để người dùng nhập câu truy vấn chèn phép toán đặc trưng mơ hình PRDB theo cú pháp ngơn ngữ truy vấn ProbSQL 2/ Cửa sổ kết (Result Pane): cửa sổ kết chứa hai tab Page: Trang 121 Một mơ hình sở liệu quan hệ xác śt Tab Query Result: có chứa điều khiển dạng lưới (grid) để nhận kết truy vấn quan hệ Tab Message: có chứa điều khiển dạng trình soạn thảo (textbox) để đưa thơng báo lỗi trường hợp truy vấn khơng thành cơng Hình 7.13 Hình 7.14 Giao diện nhận kết truy vấn trả Giao diện nhận thông báo lỗi truy vấn khơng thành cơng Trang 122 Một mơ hình sở liệu quan hệ xác suất 7.7 Kết luận Trong Chương này, chúng tơi trình bày tất bước để thiết kế, xây dựng thực hệ quản trị PRDB Visual Management – hệ quản trị khởi đầu cho mơ hình PRDB với ngơn ngữ truy vấn tựa SQL Trong đó, nội dung trình thực chia làm hai phần: thực khối biểu diễn liệu thực khối xử lý truy vấn ProbSQL dựa tảng lý thuyết mơ hình PRDB trình bày chương trước Trong phần cuối chương này, chúng tơi trình bày giao diện thành phần giao diện hệ quản trị PRDB Visual Management, nhấn mạnh đến việc thực thi câu truy vấn quan hệ CSDL PRDB Việc thực thành công hệ quản trị PRDB Visual Management cho mơ hình PRDB chứng tỏ tính triển vọng khả áp dụng mơ hình vào thực tế Trang 123 Một mơ hình sở liệu quan hệ xác śt Chương KẾT LUẬN 8.1 Tổng kết Như trình bày Chương 1, thông tin đối tượng giới thực thường không chắn, không đầy đủ thiếu xác Tuy nhiên, hạn chế sở tốn học, mơ hình CSDL truyền thống nói chung CSDL quan hệ truyền thống nói riêng khơng thể biểu diễn, thao tác xử lý thông tin không chắn khơng đầy đủ Đối với mơ hình CSDL quan hệ, giá trị NULL sử dụng giải pháp, khả đáp ứng mô hình để biểu diễn thơng tin khơng chắn thực tế hạn chế Hệ lý thuyết xác suất ứng dụng để xây dựng mơ hình CSDL (quan hệ) xác suất nhằm đáp ứng nhu cầu giải toán giới thực Nhiều mơ hình CSDL quan hệ xác suất đề nghị Các mơ hình sử dụng cách thức phương pháp vận dụng lý thuyết xác suất khác để nâng cao khả mơ hình hóa xử lý thơng tin liệu Tuy nhiên, khơng có mơ hình có khả mơ hình hóa hết khía cạnh thơng tin khơng chắn thực tế Vì vậy, mơ hình CSDL xác suất tiếp tục nghiên cứu phát triển Mơ hình PRDB xây dựng luận văn đóng góp cách tích hợp ba xác suất (vào mơ hình CSDL quan hệ truyền thống) Trang 124 Một mơ hình sở liệu quan hệ xác śt cách biểu diễn giá trị thuộc tính quan hệ Từ hệ thống phép tốn đại số quan hệ xây dựng ngôn ngữ truy vấn liệu tương ứng Một tập tính chất phép tốn đại số đề nghị chứng minh chặt chẽ chứng tỏ mô hình xây dựng Như trình bày phần cuối Chương 5, phép toán đại số hiệu (với độ phức tạp đa thức) Mơ hình xây dựng đóng góp cho trình nghiên cứu phát triển hệ thống CSDL nói chung CSDL xác suất nói riêng Quá trình phát triển mơ hình PRDB tóm lược sau: Đầu tiên, khái niệm thuộc tính khơng chắn, kiểu, giá trị giá trị xác suất đề nghị dựa khái niệm ba xác suất Sau khái quát, mở rộng định nghĩa lược đồ quan hệ CSDL truyền thống thành lược đồ quan hệ xác suất dựa thuộc tính khơng chắn giá trị xác suất Kế đến, phép toán đại số PRDB xây dựng cách mở rộng cách logic phép toán CSDL quan hệ truyền thống dựa sở toán học Chương Cuối cùng, tính chất phép tốn đại số PRDB chứng minh cho thấy trình mở rộng CSDL quan hệ thành PRDB đắn Để chứng tỏ khả triển vọng ứng dụng mơ hình PRDB vào thực tế, phần mềm PRDB Visual Mangement hệ quản trị (CSDL) khởi đầu với ngôn ngữ thao tác truy vấn liệu khơng chắn mơ hình PRDB phát triển Bước đầu cho thấy hệ thống biểu diễn thực thi cách hiệu truy vấn quan hệ có giá trị thuộc tính khơng chắn Đó động lực cho hướng nghiên cứu tương lai 8.2 Hướng phát triển Từ nghiên cứu liên quan đề cập từ kết luận văn này, đề nghị số vấn đề hướng nghiên cứu sau: Trang 125 Một mơ hình sở liệu quan hệ xác suất Hệ quản trị PRDB Visual Mangement chưa thực đầy đủ (như thực chức ràng buộc liệu (Data Constraints), điều khiển liệu (DCL),…) Do đó, đề nghị thực đầy đủ cho PRDB Visual Mangement để làm sở cho ứng dụng thực tế Phép kết PRDB định nghĩa cách kết nối tương ứng hai quan hệ, đồng thời hợp giá trị thuộc tính tên chúng quan hệ kết Như vậy, coi phép kết PRDB mở rộng phép kết tự nhiên (natural join) CSDL truyền thống Tuy nhiên, phép kết PRDB định nghĩa theo quan hệ thuộc tính quan hệ mơ hình CSDL quan hệ truyền thống Để mở rộng theo hướng này, cần phải nghiên cứu định nghĩa độ đo xác suất quan hệ V1, 1, 1 V2, 2, 2 ba xác suất làm sở để tính tốn mức độ xác suất thỏa mãn quan hệ kết Phát triển tập phép toán kết gộp (aggregate operator) min, max, average (trung bình) v.v thuộc tính quan hệ xác suất để hỗ trợ cho ứng dụng tính tốn CSDL Trong vấn đề thiết kế sở liệu, việc xây dựng dạng chuẩn cho PRDB để tránh dư thừa liệu bất thường cập nhật liệu cần thiết Đặc biệt giá trị thuộc tính quan hệ PRDB biểu diễn ba xác suất giá trị đơn thông thường CSDL quan hệ truyền thống Các vấn đề phụ thuộc liệu, tối ưu hóa liệu tối ưu hóa truy vấn CSDL truyền thống toán cần nghiên cứu PRDB Trang 126 Một mơ hình sở liệu quan hệ xác suất BÀI BÁO CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN VĂN A Probabilistic Relational Data Model for Uncertain Information [37] Tác giả: Nguyen Hoa and Tran Duc Hieu Hội nghị: The 3rd IEEE International Conference on Information Science and Technology Thời gian địa điểm: Mar 23-25th, Yangzhou, China Mar 27-28th, Phuket, Thailand Ngày trình bày: 28/03/2013 Được đăng kỉ yếu hội nghị từ trang 607 – 613 ISBN: 978-1-4673-5137-9 DOI: 10.1109/ICIST.2013.6747622 Nhà xuất bản: IEEE Thư viện điện tử: IEEE Xplore Trang 127 Một mơ hình sở liệu quan hệ xác suất TÀI LIỆU THAM KHẢO [1] E F Codd “A relational model of data for large shared data banks”, Communications of the ACM, vol 13, iss 6, pp 377-387, Jun 1970 [2] J Grant “Null Values in a Relational Data Base”, Information Processing Letters, vol 6, no 5, pp 156-157, Oct 1977 [3] E F Codd “Extending the Database Relational Model to Capture More Meaning”, ACM Transactions on Database Systems (TODS), vol 4, iss 4, pp 397-434, Dec 1979 [4] T Imielinski and W J Lipski “Incomplete Information in Relational Databases”, Journal of the Associationfor Computing Machinery (ACM), vol 31, iss 4, pp 761-791, Oct 1984 [5] R Cavallo and M Pittarelli “The Theory of Probabilistic Databases”, in Proceedings of the 13th International Conference on Very Large Data Bases (VLDB ’87), Brighton, England, 1987, pp 71-81 [6] E F Codd The Relational Model for Database Management: Version Boston, MA, USA: Addison-Wesley Longman Publishing Co., Inc., 1990 [7] M Pittarelli “Probabilistic Databases for Decision Analysis”, International Journal of Intelligent Systems, vol 5, iss 2, pp 209–236, Jun 1990 [8] D Barbará et al “A probabilistic relational data model”, in Proceedings of International Conference on Extending Database Technology Venice, Italy, 1990, pp 60-74 [9] D Barbará et al “The Management of Probabilistic Data”, Journal IEEE Transactions on Knowledge and Data Engineering, vol 4, iss 5, pp 487502, Oct 1992 [10] D Dey and S Sarkar “A probabilistic relational model and algebra”, Journal ACM Transactions on Database Systems (TODS), vol 21, iss 3, pp 339-369, Sep 1996 Trang 128 Một mơ hình sở liệu quan hệ xác suất [11] N Fuhr and T Rolleke “A probabilistic relational algebra for the integration of information retrieval and database systems”, Journal ACM Transaction on Information Systems (TOIS), vol 15, iss 1, pp 32-66, Jan.1997 [12] L V S Lakshmanan et al “Probview: a flexible probabilistic database system”, Journal ACM Transactions on Database Systems (TODS), vol 22, iss 3, pp 419-469, Sep 1997 [13] N Friedman et al “Learning Probabilistic Relational Models”, in Proceedings of the 16th international joint conference on Artificial intelligence (IJCAI ’99), Stockholm, Sweden, 1999, pp 1300-1309 [14] T Eiter et al “Extension of the Relational Algebra to Probabilistic Complex Values”, in Proceedings of the First International Symposium on Foundations of Information and Knowledge Systems (FoIKS ’00), Burg, Germany, 2000, pp 94-115 [15] L V S Lakshmanan and N Shiri “A Parametric Approach to Deductive Databases with Uncertainty”, Journal IEEE Transactions on Knowledge Data Engineering, vol 13, iss 4, pp 554-570, Jul 2001 [16] T Eiter et al “Probabilistic object bases”, Journal ACM Transactions on Database Systems (TODS), vol 26, iss 3, pp 264–312, Sep 2001 [17] V Biazzo et al “A General Probabilistic Database Model”, in Proceedings of Information Processing and Management of Uncertainty in Knowledge-based Systems (IPMU2000), Madrid, Spain, 2000, pp 11071114 [18] H Garcia-Molina et al.Database systems: the complete book Upper Saddle River, New Jersey, USA: Prentice Hall Press, 2002 [19] R Cheng et al “Evaluating probabilistic queries over imprecise data”, in Proceedings of the 2003 ACM SIGMOD international conference on Management of data (SIGMOD ’03), San Diego, California, 2003, pp 551– 562 Trang 129 Một mơ hình sở liệu quan hệ xác suất [20] S Zhang and C Zhang “A Probabilistic Data Model and Its Semantics”, Journal of Research and Practice in Information Technology, vol 35, no 4, pp 237-256, Nov 2003 [21] W Zhao et al “Query algebra operations for interval probabilities”, in Proceedings of14th International Conference on Database and Expert Systems Applications (DEXA 2003), Prague, Czech Republic, 2003, pp 527-536 [22] B Hamilton and M MacDonald ADO.NET in a Nutshell California, USA: O’Reilly, Apr 2003 [23] N Dalvi and D Suciu “Efficient query evaluation on probabilistic databases”, The VLDB Journal — The International Journal on Very Large Data Base, vol 16, iss 4, pp 523-544, Oct 2004 [24] W Zhao et al “Databases for interval probabilities”, International Journal of Intelligent Systems, vol 19, iss 9, pp 789-815, Sep 2004 [25] R Cheng et al “Efficient indexing methods for probabilistic threshold queries over uncertain data”, in Proceedings of International Conference on Very Large Data Bases (VLDB ‘04), Toronto, Canada, 2004, pp 876887 [26] C J Date An introduction to Database Systems USA: Pearson Education, 2004, pp 173-209 [27] A D Sarma et al “Working Models for Uncertain Data”, in Proceedings of the 22nd International Conference on Data Engineering (ICDE ’06), Atlanta, Georgia, USA, 2006, pp [28] M Owens The Definitive Guide to SQLite New York, USA: Apress, May 2006 [29] D T Anh N T Trực Hệ Cơ Sở Dữ Liệu TP.HCM, Việt Nam: Nhà xuất Đại Học Quốc Gia TP Hồ Chí Minh, 2006, pp 227-300 [30] P Sen and A Deshpande “Representing and Querying Correlated Tuples in Probabilistic Databases”, in Proceedings of IEEE 23rd Trang 130 Một mơ hình sở liệu quan hệ xác suất International Conference on Data Engineering (ICDE ’07), Istanbul, Turkey, 2007, pp 596-605 [31] J Albahari and B Albahari C# 3.0 in a Nutshell California, USA: O’Reilly, Sep 2007 [32] P Sen et al “Representing Tuple and Attribute Uncertainty in Probabilistic Databases”, in Proceedings of the 7th IEEE International Conference on Data Mining Workshops (ICDMW ’07), Omaha, NE, USA, 2007, pp 507-512 [33] S Singh et al “Database Support for Probabilistic Attributes and Tuples”, in Proceedings of the 24th International Conference on Data Engineering (ICDE ’08), Cancun, Mexico, 2008, pp 1053-1061 [34] C Koch “MayBMS: A System for Managing Large Uncertain and Probabilistic Databases”, in Managing and Mining Uncertain Data, vol 35 C C Aggarwal, Ed New York: Springer US, 2009, pp 149-181 [35] P Agrawal et al “Trio: A System for Data Uncertainty and Lineage”, in Managing and Mining Uncertain Data, vol 35 C C Aggarwal, Ed New York: Springer US, 2009, pp 113-147 [36] T Parr The Definitive ANTLR Reference USA: The Pragmatic Book, 2012 [37] N Hoa and T D Hieu “A Probabilistic Relational Data Model for Uncertain Information”, in Proceedings of the 3rd IEEE International Conference on Information Science and Technology (ICIST ’13), Yangzhou, China, 2013, pp 607-613 [38] G J Klir T A and Folger Fuzzy Sets, Uncertainty, and Information Englewood Cliffs, New Jersey: Prentice Hall, 1988 Trang 131 Phụ lục PHỤ LỤC A BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH-VIỆT Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Relational Database Model Mơ hình sở liệu quan hệ Ternary Logic Logic bậc ba Four-valued Logic Logic bậc bốn Representation system Hệ thống biểu diễn Probabilistic relational data base model Mơ hình sở liệu quan hệ xác suất Probabilistic triple Bộ ba xác suất Instance Thể Domain Miền giá trị Tuple type value Giá trị kiểu Relational schema/scheme Lược đồ quan hệ Relational Database Cơ sở liệu quan hệ Functional Dependency Phụ thuộc hàm Relational Algebra Đại số quan hệ Selection Phép chọn Join Phép kết Union Phép hợp Intersection Phép giao Minus Phép trừ Cartesian Product Tích Descartes Projection Phép chiếu Probabilistic combination strategy Chiến lược kết hợp xác suất Conjunction strategy Chiến lược hội Disjunction strategy Chiến lược tuyển Difference strategy Chiến lược hiệu Probability distribution function Hàm phân bố xác suất Ignorance Bỏ qua (mối quan hệ hai kiện) Independence Độc lập (mối quan hệ hai kiện) Positive correlation Tương quan thuận (mối quan hệ Phụ lục A Viết tắt RDB PRDB Phụ lục hai kiện) Mutual exclusion Loại trừ (mối quan hệ hai kiện) Uncertain attribute Thuộc tính khơng chắn Query Truy vấn Attribute Thuộc tính Atomic type Kiểu sở Set type Kiểu tập hợp Tuple type Kiểu Probabilistic tuple value Giá trị xác suất Probabilistic relation Quan hệ xác suất Probabilistic functional dependency Phụ thuộc hàm xác suất Probabilistic relational database Cơ sở liệu quan hệ xác suất Descartes-product-compatible Tương thích Tích Descartes Natural join Phép kết tự nhiên Join-compatible Tương thích kết Probabilistic Structured Query Language Ngơn ngữ truy vấn xác suất có cấu trúc Subquery Truy vấn Binary relation Quan hệ hai Probabilistic binary relation Quan hệ hai xác suất PRDB Visual Management Phần mềm quản lý trực quan sở liệu PRDB Presentation Layer Tầng giao diện Business Logic Layer Tầng xử lý Data Access Layer Tầng liệu Relational Database Management System Hệ quản trị sở liệu quan hệ Lexical rule Luật từ vựng Grammatical rule Luật ngữ pháp (luật văn phạm) ANother Tool for Language Recognition Công cụ nhận dạng ngơn ngữ Query Editor Trình soạn thảo truy vấn Phụ lục A RDBMS ANTLR Phụ lục PHỤ LỤC B LÝ LỊCH TRÍCH NGANG Họ tên: Trần Đức Hiếu Ngày, tháng, năm sinh: 25/07/1988 Nơi sinh: Tp.Hồ Chí Minh Địa liên lạc: 12/1 Nguyễn Thị Huỳnh, phường 08, quận Phú Nhuận, thành phố Hồ Chí Minh Số điện thoại: (+84) 1269.829.899 QUÁ TRÌNH ĐÀO TẠO Thời gian Trường đào tạo 2006 - 2010 Đại học Mở TP.HCM Chuyên ngành Bậc đào tạo Công nghệ thông tin Cử nhân 2011 - 2013 Đại học Bách Khoa TP.HCM Khoa học máy tính Thạc sĩ Q TRÌNH CƠNG TÁC Thời gian 2010 - 2014 Đơn vị công tác Viện Cơ học Tin học ứng dụng, Vị trí Nghiên cứu Viện Hàn Lâm Khoa Học Công Nghệ Việt Nam viên Phụ lục B ... diễn liệu không chắn mô hình CSDL Phần 2.3 giới thiệu mơ hình sở liệu quan hệ xác suất hướng tiếp cận để xây dựng mơ hình sở liệu quan hệ xác suất Phần Trang Một mô hình sở liệu quan hệ xác. .. TÀI: MỘT MƠ HÌNH CƠ SỞ DỮ LIỆU QUAN HỆ XÁC SUẤT II NHIỆM VỤ VÀ NỘI DUNG: - Đề xuất mơ hình sở liệu quan hệ xác suất có khả biểu diễn truy vấn liệu không chắn - Hiện thực hệ quản trị sở liệu khởi... Chương TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU QUAN HỆ XÁC SUẤT 2.1 Giới thiệu .8 2.2 Dữ liệu không chắn .9 2.3 Các mơ hình CSDL quan hệ xác suất 10 2.4 Mơ hình CSDL quan hệ truyền