Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 22 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
22
Dung lượng
669,5 KB
Nội dung
Khai pháLuậtkếthợptrongcơsởdữliệu
đa phươngtiện
Nguyễn Thị Biên
Trường Đại học Công nghệ
Luận văn ThS. ngành: Công nghệ phần mềm; Mã số: 60 48 10
Người hướng dẫn: PGS.TS. Đặng Văn Đức
Năm bảo vệ: 2012
Abstract. Tổng quan về phát hiện tri thức, quá trình phát hiện tri thức từ cơsởdữ
liệu và khai phádữ liệu. Nghiên cứu cơsởdữliệuđaphươngtiện cũng như hệ quản
trị cơsởdữliệuđaphương tiện. Tìm hiểu về luậtkếthợptrong khai phádữliệu qua
định nghĩa, bài toán, hướng tiếp cận và một số thuật toán phát hiện luận kết hợp.
Trình bày khai pháluậtkếthợptrongcơsởdữliệu hình ảnh: dữliệu hình ảnh; trích
chọn đặc trưng trong khai phá ảnh; khai pháluậtkếthợp dựa trên nội dung ảnh bằng
thuật toán Apriori.
Keywords. Công nghệ phần mềm; Cơsởdữliệuđaphương tiện; Khai phádữliệu
Content
MỞ ĐẦU
Trong điều kiện và yêu cầu của thương trường, đòi hỏi phải có những phương pháp
nhanh, phù hợp, tự động, chính xác và có hiệu quả để lấy được thông tin có giá trị. Các tri
thức chiết xuất được từ cơsởdữliệu sẽ là một nguồn tài liệu hỗ trợ cho lãnh đạo trong việc
lên kế hoạch hoạt động hoặc trong việc ra quyết định sản xuất kinh doanh. Vì vậy, tính ứng
dụng của khai thác luậtkếthợp từ cơsởdữliệu là một vấn đề đang được quan tâm.
Khai phádữliệu là giai đoạn quan trọngtrongtiến trình khai thác tri thức từ cơsởdữ liệu,
các tri thức này hỗ trợ cho việc ra quyết định trong khoa học và kinh doanh.
Công nghệ Multimedia liên quan tới việc mô tả sự kếthợp các dạng thông tin khác nhau
(âm thanh, hình ảnh, văn bản, video) dưới dạng tín hiệu số. Một cơsởdữliệu Multimedia đòi
hỏi phải có các phương thức đặc biệt nhằm mục đích tối ưu hóa việc lưu trữ, truy cập và khai
thác các dạng thông tin đặc biệt này.
Luậtkếthợp là phươngtiện hữu ích để khám phá các mối liên kếttrongdữ liệu. Khai phá
luật kếthợptrongcơsởdữliệu Multimedia cho phép tiết kiệm chi phí và làm tăng hiệu suất
làm việc.
CHƢƠNG 1- TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC VÀ
KHAI PHÁDỮLIỆU
1.1. Phát hiện tri thức và khai phádữliệu
Việc thu thập và lưu trữ các kho chứa dữliệu khổng lồ dẫn tới một yêu cầu cấp thiết
là cần có những kỹ thuật và công cụ mới để tự động chuyển đổi lượng dữliệu khổng lồ thành
các tri thức có ích. Do vậy, khai phádữliệu (KPDL) nhằm phát hiện các tri thức mới giúp ích
cho hoạt động của con người đã trở thành một lĩnh vực quan trọng của ngành Công nghệ
thông tin.
1.2. Quá trình phát hiện tri thức từ cơsởdữliệu
Thông tin là một khái niệm trừu tượng, được thể hiện dưới nhiều dạng thức khác
nhau. Thông tin có thể được phát sinh, lưu trữ, biến đổi trong những vật mang tin. Dữliệu là
sự biểu diễn thông tin và được thể hiện bằng các tín hiệu vật lý. Dữliệu là một dãy các bit
các số, sử dụng các bit để đo lường các thông tin và xem nó như là các dữliệuđã được lọc bỏ
các dư thừa, được rút gọn tới mức tối thiểu để đặc trưng một cách cơ bản cho dữ liệu.
Có thể xem tri thức như là các thông tin tích hợp, bao gồm các sự kiện và các mối
quan hệ giữa chúng. Các mối quan hệ này có thể được hiểu ra, có thể được phát hiện, hoặc có
thể được học.
Mục đích của phát hiện tri thức và KPDL là tìm ra các mẫu và các mô hình đang tồn
tại trong các cơsởdữliệu nhưng vẫn còn bị che khuất bởi hàng “núi” dữ liệu. Quá trình phát
hiện tri thức được mô tả tóm tắt trên Hình 1.1:
Hình 1.1: Quy trình phát hiện tri thức từ cơsởdữliệu
Làm sạch dữ liệu: Loại bỏ dữliệu nhiễu hoặc dữliệu không thích hợp.
Tích hợpdữ liệu: Tích hợpdữliệu từ các nguồn khác nhau.
Chọn dữ liệu: Chọn những dữliệu liên quan trực tiếp đến nhiệm vụ.
Chuyển đổi dữ liệu: Chuyển DL về những dạng phù hợp cho việc khai phá.
Khai phádữ liệu.
Đánh giá mẫu: Đánh giá mẫu hoặc tri thức đã thu được.
Trình diễn dữ liệu: Biểu diễn những tri thức khai phá được cho người sử dụng.
1.2.1. Xác định vấn đề
Trong thực tế, các cơsởdữliệu được chuyên môn hóa và phân chia theo các lĩnh vực
khác nhau như sản phẩm, kinh doanh, tài chính, … Vì vậy mà việc xác định lĩnh vực và định
nghĩa bài toán giúp định hướng cho giai đoạn tiếp theo thu thập và tiền xử lý dữ liệu.
1.2.2. Thu thập và tiền xử lý dữliệu
Các cơsởdữliệu thu được thường chứa rất nhiều thuộc tính nhưng lại không đầy đủ,
không thuần nhất, có nhiều lỗi và các giá trị đặc biệt. Vì vậy, giai đoạn thu thập và tiền xử lý
dữ liệu trở nên rất quan trọngtrong quá trình phát hiện tri thức từ cơsởdữ liệu. Người ta chia
giai đoạn thu thập và tiền xử lý dữliệu thành các công đoạn như sau:
a. Chọn lọc dữliệu
b. Làm sạch dữliệu
c. Làm giàu dữliệu
d. Mã hóa
1.2.3. Khai thác dữliệu
Giai đoạn khai thác dữliệu được bắt đầu sau khi dữliệuđã được thu thập và tiến hành
xử lý. Trong giai đoạn này, công việc chủ yếu là xác định được bài toán khai thác dữ liệu,
tiến hành lựa chọn phương pháp khai thác phù hợp với dữliệucó được và tách ra các tri thức
cần thiết.
1.2.4. Minh họa và đánh giá
Các tri thức phát hiện từ cơsởdữliệu cần được tổng hợp dưới dạng các báocáo phục
vụ cho các mục đích hỗ trợ quyết định khác nhau.
1.2.5. Đưa kết quả vào thực tế
Các kết quả của quá trình phát hiện tri thức có thể được đưa vào ứng dụng trong
những lĩnh vực khác nhau. Do các kết quả có thể là các dựbáo hoặc các mô tả nên chúng có
thể được đưa vào các hệ thống hỗ trợ ra quyết định nhằm tự động hóa quá trình này.
1.3. Khai phádữliệu
1.3.1. Khái niệm về khai phádữliệu
KPDL (data mining) là quá trình khám phá các tri thức mới và các tri thức có ích ở dạng
tiềm năng trong nguồn dữliệuđã có.
KPDL là một bước trong quá trình khám phá tri thức bao gồm các thuật toán KPDL
chuyên dùng dưới một số quy định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu
và các mô hình trongdữ liệu.
1.3.2. Nhiệm vụ của khai phádữliệu
Những nhiệm vụ cơ bản nhất của KPDL là:
Phân cụm, phân loại, phân nhóm, phân lớp.
Khai pháluậtkết hợp.
Lập mô hình dự báo.
Phân tích đối tượng ngoài cuộc.
Phân tích sự tiến hóa.
1.3.3. Một số ứng dụng khai phádữliệu
Thương mại: Phân tích dữliệu bán hàng và thi trường, phân tích đầu tư, quyết định
cho vay, phát hiện gian lận.
Thông tin sản xuất: Điều khiển và lập kế hoạch, hệ thống quản lý, phân tích kết quả
thử nghiệm.
Thông tin khoa học: dựbáo thời tiết, CSDL sinh học: Ngân hàng gen, khoa học địa lý:
dự báo động đất.
Trong y tế, marketing, ngân hàng, viễn thông, du lịch, internet.
1.3.4. Các kỹ thuật khai phádữliệu
1.3.4.1 Khai phádữliệudự đoán
Nhiệm vụ của KPDL dự đoán là đưa ra các dự đoán dựa vào các suy diễn trên cơsở
dữ liệu hiện thời. Bao gồm các kỹ thuật: Phân loại (Classification); Hồi qui (Regression … ).
a) Phân loại
Mục tiêu của phương pháp phân loại dữliệu là dự đoán nhãn lớp cho các mẫu dữ liệu.
Quá trình phân loại dữliệu thường gồm hai bước : xây dựng mô hình và sử dụng mô hình để
phân loại dữ liệu.
Bước 1 : Xây dựng mô hình dựa trên việc phân tích các mẫu dữliệu cho trước.
Bước 2 : Sử dụng mô hình để phân loại dữ liệu.
Hay nói các khác, phân loại là học một hàm ánh xạ một mục dữliệu vào trongsố các lớp
cho trước.
b) Hồi quy
Phương pháp hồi quy khác với phương pháp phân loại dữliệu ở chỗ, hồi qui dùng để
dự đoán về các giá trị liên tục còn phân loại dữliệu chỉ dùng để dự đoán về các giá trị rời rạc.
Hồi quy là một hàm học ánh xạ mục dữliệu thành một biến dự đoán có giá trị thực.
1.3.4.2. Khai phádữliệu mô tả
Kỹ thuật này có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của dữliệu
trong CSDL hiện có. Bao gồm các kỹ thuật: Phân cụm; Khai pháluậtkếthợp
a) Phân cụm
Mục tiêu chính của phương pháp phân cụm dữliệu là nhóm các đối tượng tương tự
nhau trong tập dữliệu vào các cụm sao cho các đối tượng thuộc cùng một một cụm là tương
đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng.
Hình 1.4. cho thấy sự phân cụm tập dữliệu cho vay vào trong 3 cụm : Lưu ý rằng các
cụm chồng lên nhau cho phép các điểm dữliệu thuộc về nhiều hơn một cụm.
Hình 1.4 : Phân cụm tập dữliệu cho vay thành 3 cụm
b) Khai pháluậtkếthợp
Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị
dữ liệutrongcơsởdữ liệu. Mẫu đầu ra của giải thuật KPDL là luậtkếthợp tìm được.
1.3.5. Kiến trúc của hệ thống khai phádữliệu
Kiến trúc điển hình của một hệ thống KPDL được trình bày trong hình 1.5.
Hình 1.5 : Kiến trúc điển hình của một hệ thống khai phádữliệu
CHƢƠNG 2 – CƠSỞDỮLIỆUĐA PHƢƠNG TIỆN
2.1. Tổng quan cơsởdữliệuđaphươngtiện
Công nghệ multimedia liên quan tới việc mô tả sự kếthợp các dạng thức thông tin
khác nhau (văn bản, dữ liệu, hình ảnh, âm thanh, video) dưới dạng tín hiệu số. Có thể nêu ra
đây một số ứng dụng multimedia như [3]. E-learning, Hội thảo Video (Video Conferencing),
Thư viện điện tử (Elibrary), Hiện tại ảo (Vitual Reality).
2.1.1. Một số khái niệm cơ bản
2.1.1.1. Media
Media là các loại thông tin hay loại trình diễn thông tin như dữliệu văn bản, ảnh, âm
thanh và video[1]. Media được chia thành 2 loại:
Media tĩnh: Là loại media không có chiều thời gian, nội dung và ý nghĩa của chúng
không phụ thuộc vào thời gian trình diễn. Media tĩnh bao gồm dữliệu văn bản, hình
ảnh tĩnh
Media động: Có chiều thời gian, ý nghĩa và độ chính xác của chúng phụ thuộc vào tốc
độ trình diễn. Media động bao gồm annimation, video, audio. Media động phụ thuộc
chặt chẽ vào tốc độ trình diễn.
2.1.1.2. Đaphươngtiện (Multimedia)
Khái niệm multimedia đề cập đến tập hợp các kiểu media được tích hợp với nhau
trong đó ít nhất có một kiểu media không phải là văn bản.
2.1.1.3. Cơsởdữliệu và hệ quản trị cơsởdữliệu
CSDL : Được hiểu là một bộ sưu tập hoặc một kho dữliệu hoặc các mục media. Hệ
quản trị cơsởdữliệu (DBMS) : Là một hệ thống dùng để quản trị cơsởdữ liệu.
2.1.1.4. Truy tìm thông tin tài liệu văn bản
Một hệ thống IR có chức năng lưu trữ và quản lý số lượng lớn các tài liệu khoa học
theo cách thích hợp để các truy vấn có thể truy tìm thông tin một cách nhanh chóng theo yêu
cầu của người sử dụng.
2.1.1.5. Truy xuất và truy tìm Multimedia
Các DBMS truy xuất các khoản mục dựa trên các sốliệucó cấu trúc. Việc truy xuất
dữ liệu dựa vào những đặc trưng của từng lợi dữ liệu: màu sắc, lời giải thích văn bản về
media đó. Việc truy xuất nội dung là tương tự thay vì đối sánh chính xác giữa các truy vấn và
các mục media.
MIRS: Là một hệ thống cơsở cung cấp việc truy xuất thông tin Multimedia khi sử
dụng tổ hợp DBMS. Trong một MIRS các vấn đề về bảo mật hay phiên bản không được thực
hiện đầy đủ. Một MIRS đầy đủ gọi là một Hệ quản trị cơsởdữliệuđaphươngtiện
(MMDBMS).
2.1.1.6. Trích chọn đặc trưng, Biểu diễn nội dung và Xây dựng chỉ mục
Một trong những nhiệm vụ quan trọng của MIRS là trích chọn đặc trưng hay biểu
diễn nội dung. Trích chọn đặc trưng là tiến trình tự động hay bán tự động. Chỉ mục là danh
từ, đề cập đến cấu trúc dữliệu hay đề cập đến tổ chức các đặc trưng đã trích chọn để tìm
kiếm hiệu quả.
2.1.2. Vai trò của MIRS
Cần phải có MIRS vì:
Ngày càng có nhiều dữliệuđaphươngtiện được thu thập và lưu trữ, để sử dụng tốt
cần phải có hệ thống truy tìm và chỉ số hóa tốt.
Khác với loại dữliệu chữ và số, dữliệuđaphươngtiệncó tính chất và yêu cầu đặc
biệt, một CSDL truyền thống không phù hợptrong việc quản lý cơsởdữliệuđa
phương tiện.
Các kỹ thuật truy tìm thông tin có thể giúp truy tìm đaphươngtiện nhưng chúng chưa
có khả năng quản lý hiệu quả dữliệuđaphương tiện.
2.1.2.1. Các DBMS và vai trò của chúng trong việc xử lý dữliệu Multimedia
Các DBMS ngày nay được phát triển khá tốt và được sử dụng rông rãi cho các dữliệu
có cấu trúc. DBMS quen thuộc là DBMS quan hệ (Ralational Database Management System
- RDBMS). Trong RDBMS, thông tin dược tổ chức thành bảng hoặc các quan hệ. [1]
Một dạng khác của các DBMS là hệ thống quản trị CSDL hướng đối tượng
(OODBMS- Object Oriented Database Management System). Các OODBMS kết nối các khả
năng của cơsơdữliệu (như lưu trữ và tìm kiếm) và các đặc trưng hướng đối tượng (tóm
lược, sự thừa kế, tính đồng nhất đối tượng).
Khả năng cần cótrong hệ thống như sau:
Công cụ để tự động hoặc bán tự động trích chọn đặc trưng chứa trongdữliệuđaphương
tiện.
Cấu trúc chỉ số hóa đa chiều để quản lý các véctơ đặc trưng đaphương tiện.
Thước đo tương tự để truy tìm dữliệuđaphươngtiện thay cho đối sánh chính xác.
Phân hệ lưu trữ được thiết kế để đáp ứng yêu cầu dữliệu lớn, băng thông rộng và thời
gian thực.
Giao diện người sử dụng được thiết kế sao cho truy vấn mềm dẻo với các loại media khác
nhau và cho khả năng trình diễn đaphương tiện.
2.1.2.2. Hệ thống IR và vai trò của nó trong việc truy xuất multimedia
Công nghệ IR rất quan trọngtrong hệ thống quản lý thông tin multimedia vì hai lý do
chính:
Một là chúng tồn tại một lượng lớn các văn bản trong nhiều dạng tổ chức, ví dụ như các
thư viện.
Hai là, văn bản có thể được sử dụng để chú giải các truyền thông khác như âm thanh,
hình ảnh, video. Thông thường thì công nghệ IR có thể dược sử dụng cho việc phu
̣
c hồi
thông tin đa truyền thông.
2.1.3. Khái quát về MIRS
Các thao tác MIRS được mô tả trên hình 2.1. Dữliệu (các mục thông tin) trong CSDL
được tiền xử lý để trích chọn đặc trưng và nội dung ngữ nghĩa. Sau đó chúng được chỉ số hóa
trên cơsở đặc trưng và ngữ nghĩa.
Trong khi truy tìm thông tin, câu truy vấn của người sử dụng được xử lý và các đặc
trưng của nó được trích chọn. Các đặc trưng này sau đó được so sánh với các đặc trưng hay
chỉ mục dữliệutrong CSDL. Các mục thông tin nào có đặc trưng gần giống nhất với các đặc
trưng của câu truy vấn thì được tìm ra và trình diễn cho người sử dụng.
Hình 2.1. Một mẫu truy xuất thông tin tổng quát
Mô hình trên đây cho thấy rất nhiều nhiệm vụ phải thực hiện, thí dụ:
Các mục thông tin có thể là tổ hợp bất kỳ các loại media.
Trích chọn đặc trưng từ các mục media này như thế nào?
Các đặc trưng được lưu trữ và cấu trúc như thế nào để truy tìm hiệu quả?
Đo tính “tương tự” giữa hai mục media như thế nào?
Thiết kế giao diện như thế nào để nó có thể chấp nhận các câu truy vấn phức tạp, mờ và
mềm dẻo?
So sánh hiệu năng giữa các hệ thống MIRS bằng cách nào?
Làm thế nào để đáp ứng yêu cầu thời gian khi truyền tải hay trình diễn dữliệu
Multimedia?
2.1.4 Khả năng mong đợi và các ứng dụng của MIRS
MIRS cần phải mạnh và mềm dẻo. Khả năng của chúng được miêu tả bằng các kiểu
truy vấn mà chúng có thể hỗ trợ. Các loại truy vấn mong đợi của MIRS như sau:
Truy vấn trên cơsở meta-data
Truy vấn trên cơsở mô tả
Truy vấn trên cơsở mẫu (pattern) hay đặc trưng
Truy vấn theo thí dụ (by example)
Truy vấn ứng dụng cụ thể:
Cuối cùng, các MIRS sẽ tập trung vào chính thông tin thay thế các loại truyền thông
và việc miêu tả chúng có thể được sắp xếp hoặc dịch ra từ loại truyền thông này đến
loại truyền thông khác.
2.2. Dữliệuđaphươngtiện
Dữ liệu multimedia được chia thành hai lớp là các dữliệu liên tục và các dữliệu không
liên tục. Các dữliệu liên tục bao gồm các dữliệu âm thanh, video thay đổi theo thời gian.
Các dữliệu không liên tục là các dữliệu không phục thuộc vào thời gian, các loại dữliệu đặc
trưng cho dạng này là các dữliệu văn bản (có hoặc không có định dạng), hình ảnh tĩnh và các
đối tượng đồ họa. Các kiểu dữliệu thông thường của một CSDL multimedia bao gồm:
Dữliệu văn bản (có hoặc không có định dạng).
Đồ họa: là các bản vẽ, minh họa được mã hóa như các tệp postscript.
Hình ảnh: là các hình ảnh được mã hóa sử dụng các dạng thức chuẩn như là
JPEG hoặc MPEG.
Các hoạt hình.
Âm thanh.
Video.
2.3. Hệ quản trị cơsởdữliệuđaphươngtiện
2.3.1 Mục đích của MDBMS
Các chức năng của MDBMS cơ bản tương tự như các chức năng của DBMS, tuy
nhiên, bản chất của thông tin tạo ra các đòi hỏi mới:
Sự thống nhất
Độc lập dữliệu
Điều khiển nhất quán
Sự tồn tại
Tính riêng
Kiểm soát sự toàn vẹn
Khả năng phục hồi
Hỗ trợ truy vấn
Kiểm soát phiên bản
2.3.2 Các yêu cầu của một MMDBMS
Để có được một MMDBMS đáp ứng được các yêu cầu đã nêu ra ở trên, chúng ta cần
phải có được một số các yêu cầu cụ thể cho nó, các yêu cầu ở đây bao gồm:
Đầy đủ các khả năng của một DBMS truyền thống.
Có khả năng lưu trữ lớn.
Có khả năng khai thác dữliệu thuận tiện.
Có khả năng tích hợp, tổng hợp và thể hiện.
Hỗ trợ truy vấn multimedia.
Có giao diện multimedia và tương tác.
Bên cạnh các yêu cầu trên, để cho hệ thống hoạt động có thể hoạt động tốt cần phải giải
quyết các vấn đề sau:
Hệ thống CSDL đaphươngtiện sẽ được xây dựng như thế nào để có thể bao gồm các
lĩnh vực ứng dụng khác nhau.
Xây dựng phần hạt nhân cho việc phân rã , lưu trữ và quản lý thông tin ở mức độ nào?
Các công nghệ, cấu trúc nền tảng được sắp xếp và sử dụng như thế nào?
Các kiến thức về tổng hợpdữliệu đối với CSDL đaphương tiện,.
Xác định được hạ tầng thể hiện nào mà một hệ thống đaphươngtiện phải có để đạt
được các yêu cầu và cách thức thể hiện khác nhau. .
Giả sử các kiểu media khác nhau có các yêu cầu cập nhật và sửa đổi thông tin khác
nhau thì hệ thống sẽ cập nhật các thành phần này như thế nào.
1. Khả năng quản trị lưu trữ lớn
2. Hỗ trợ truy vấn và khai thác dữliệu
3. Tích hợp các phương tiện, tổng hợp và thể hiện
4. Giao diện và tương tác
5. Hiệu suất
CHƢƠNG 3 – LUẬTKẾTHỢPTRONG KHAI PHÁDỮLIỆU
3.1. Bài toán kinh điển dẫn đến việc khai pháluậtkếthợp
Bài toán giỏ mua hàng trong siêu thị.
Giả định chúng ta có rất nhiều mặt hàng, ví dụ như “bánh mì”, “sữa”,…(coi là tính
chất hoặc trường). Khách hàng khi đi siêu thị sẽ bỏ vào giỏ mua hàng của họ một số mặt hàng
nào đó, và chúng ta muốn tìm hiểu các khách hàng thường mua các mặt hàng nào đồng thời,
chúng ta không cần biết khách hàng cụ thể là ai. Nhà quản lý dùng những thông tin này để
điều chỉnh việc nhập hàng về siêu thị, hay đơn giản là để bố trí sắp xếp các mặt hàng gần
nhau, hoặc bán các mặt hàng đó theo một gói hàng, giúp cho khắc đỡ mất công tìm kiếm.
Khai pháluậtkếthợp được mô tả như sự tương quan của các sự kiện những sự kiện xuất
hiện thường xuyên một các đồng thời. Nhiệm vụ chính của khai pháluậtkếthợp là phát hiện
ra các tập con cùng xuất hiện trong một khối lượng giao dịch lớn của một cơsởdữliệu cho
trước.
3.2. Định nghĩa về luậtkếthợp
Định nghĩa:
Cho I={I1, I2, , Im} là tập hợp của m tính chất riêng biệt. Giả sử D là CSDL, với các
bản ghi chứa một tập con T các tính chất (có thể coi như ), các bản ghi đều có chỉ số
riêng. Một luậtkếthợp là một mệnh đề kéo theo có dạng XY, trong đó X, Y I, thỏa mãn
điều kiện XY=. Các tập hợp X và Y được gọi là các tập hợp tính chất (itemset). Tập X
gọi là nguyên nhân, tập Y gọi là hệ quả.
Có 2 độ đo quan trọng đối với luậtkết hợp: Độ hỗ trợ (support) và độ tin cậy
(confidence), được định nghĩa như phần dưới đây.
Định nghĩa: Độ hỗ trợ
Định nghĩa 3.1: Độ hỗ trợ của một tập hợp X trongcơsởdữliệu D là tỷ số giữa các bản ghi
T D có chứa tập X và tổng số bản ghi trong D (hay là phần trăm của các bản ghi trong D có
chứa tập hợp X), ký hiệu là support(X) hay supp(X) (support sẽ tự sinh ra khi cài thuật toán).
S
0
=
|D|
|}XY:DT{|
(3.1)
Ta có: 0 supp(X) 1 với mọi tập hợp X.
Định nghĩa 3.2: Độ hỗ trợ của một luậtkếthợp XY là tỷ lệ giữa số lượng các bản ghi chứa
tập hợp X Y, so với tổng số các bản ghi trong D - Ký hiệu supp(XY).
Supp(XY) =
||
|}:{|
D
YXTDT
(3.2)
Khi chúng ta nói rằng độ hỗ trợ của một luật là 50%, có nghĩa là có 50% tổng số bản
ghi chứa X Y. Như vậy, độ hỗ trợ mang ý nghĩa thống kê của luật.
Định nghĩa: Độ tin cậy
Định nghĩa 3.3: Độ tin cậy của một luậtkếthợp XY là tỷ lệ giữa số lượng các bản ghi
trong D chứa X Y với số bản ghi trong D có chứa tập hợp X. Ký hiệu độ tin cậy của một
luật là conf(r). Ta có 0 conf(r) 1
Nhận xét: Độ hỗ trợ và độ tin cậy có xác suất sau:
Supp(XY)=P(XY) (3.3)
Conf (XY) = P(Y/X)=supp(XY)/supp(X) (3.4)
Định nghĩa 3.4: Độ tin cậy của một luậtkếthợp XY là tỷ lệ giữa số lượng các bản ghi của
tập hợp chứa X Y, so với tổng số các bản ghi chứa X.
Chúng ta nhận thấy rằng tri thức đem lại bởi luậtkếthợp dạng trên có sự khác biệt rất
nhiều so với những thông tin thu được từ các câu lệnh truy vấn dữliệu thông thường như
SQL. Đó là những tri thức, những mối liên hệ chưa biết trước và mang tính dựbáo đang tiềm
ẩn trongdữ liệu. Những tri thức này không đơn giản là kết quả của phép nhóm, tính tổng hay
sắp xếp mà là của một quá trình tính toán khá phức tạp.
Định nghĩa: Tập hợp thƣờng xuyên
Định nghĩa 3.5: Tập hợp X được gọi là tập hợp thường xuyên (Frenquent itemset) nếu có
supp(X) minsup, với minsup là ngưỡng độ hỗ trợ cho trước. Kí hiệu các tập này là FI
Tính chất 3.1: Giả sử A,B I là hai tập hợp với AB thì supp(A) supp(B).
Như vậy, những bản ghi nào chứa tập hợp B thì cũng chứa tập hợp A
Tính chất 3.2: Giả sử A, B là hai tập hợp, A,B I, nếu B là tập hợp thường xuyên và AB
thì A cũng là tập hợp thường xuyên.
Thật vậy, nếu B là tập hợp thường xuyên thì supp(B) minsup, mọi tập
hợp A là con của tập hợp B đều là tập hợp thường xuyên trongcơsởdữliệu D vì supp(A)
supp(B) (Tính chất 3.1)
[...]... References Tiếng Việt 1 Đặng Văn Đức, Cơsởdữliệuđaphương tiện, Bài giảng cho cao học, 2005-2012 2 Lê Thu Hà, Phương pháp luậtkếthợp và ứng dụng, Luận văn thạc sỹ, Trường đại học Thái Nguyên, 2009 3 Trần Hoài Nam, Cơsởdữliệuđaphươngtiện yêu cầu và các vấn đề, Luận văn thạc sỹ, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội, 2004 4 Lê Huy Thập, Khai phádữ liệu, Bài giảng cho cao học, Hà Nội... quan trọng để thêm vào cơsởdữliệu đặc trưng - trở thành dữ kiện tốt Phương pháp kếthợp những đặc trưng có thể làm tăng độ chính xác Đây là một phần quan trọngtrongdự án khai phádữliệu Chúng ta có thể thấy khai pháluậtkếthợp giúp giảm tải cho các chuyên gia ở những phần thủ công Chúng ta cũng có thể xây dựng những hệ thống tự động có thể phát hiện tự động luậtkếthợp từ những hình ảnh References... Apriori-TID Trong thuật toán Apriori-Hybrid, được sử dụng khi tổ chức lặp và chuyển sang Apriori-TID khi đã chắc chắn rằng tập Ck đã vào bộ nhớ chính Thuật toán AprioriHybrid được coi là tốt hơn so với Apriori và AprioriTID CHƢƠNG 4 – KHAI PHÁLUẬTKẾTHỢPTRONGCƠSỞDỮLIỆU HÌNH ẢNH Khai phá hình ảnh có liên quan tới phát hiện tri thức trongcơsởdữliệu hình ảnh Chương này đề cập tới việc khai phádữ liệu. .. đề cập tới việc khai phádữliệu sử dụng luậtkếthợp dựa trên nội dung hình ảnh Quá trình khai phádữliệu gồm 4 bước: Tiền xử lý (Preprocessing), Trích chọn đặc trưng (Feature Extraction), chuẩn bị cơsởdữliệu trung gian và khai pháluậtkếthợp [6] 4.1 Dữliệu hình ảnh Ảnh số là hình ảnh được ghi nhận bởi bộ cảm biến điện tử và lưu lại dưới dạng dữliệutrong bộ nhớ của máy (thẻ nhớ, đĩa, ) Ảnh... chọn với hình ảnh cho trước Bước 4: Khai pháluậtkếthợp Phát hiện các tập mục thường xuyên là chìa khóa trong việc khai pháluậtkếthợp Để thực hiện khai phádữliệu thuật toán kết hợp, ta mô tả các thuộc tính số trước, có nghĩa là, các giá trị thuộc tính tiếp theo sẽ phân chia thành nhiều phân đoạn Các thuật toán kếthợp truyền thống thong qua một phương pháp lặp để tìm kiếm, điều này yêu cầu lượng... zi ) log 2 p( zi ) L 1 trong một vùng Độ nghiêng cần thiết của một biểu đồ Độ đồng nhất của mật độ trong biểu đồ Đại lượng ngẫu nhiên Bước 3: Chuẩn bị cơsởdữliệu giao dịch Các đặc trưng đã trích chọn được tổ chức trong một cơsởdữliệu dưới dạng một giao dịch – yếu tố cấu thành đầu vào (input) để phát sinh các luậtkếthợp Các giao dịch có dạng [Image ID, F1;F2;:::;Fn] trong đó F1:::Fn là n đặc... MFI Dễ thấy MFI FCI FI Khai pháluậtkếthợp là công việc phát hiện ra (tìm ra, khám phá, phát hiện) các luậtkếthợp thỏa mãn các ngưỡng độ hỗ trợ () và ngưỡng độ tin cậy () cho trước Bài toán khai pháluậtkếthợp được chia thành hai bài toán nhỏ, hay như người ta thường nói, việc giải bài toán trải qua hai pha: Pha 1: Tìm tất cả các tập phổ biến (tìm FI) trong CSDL T Pha 2: Sử dụng tập... thực hiện tốt hơn hai phương pháp còn lại Do đó ta sử dụng YCBCR làm cơsở trính chọn đặc trưng màu sắc được chỉ ra trong hình dưới đây Hình 4.1: Sử dụng YCBCR làm cơsở trích chọn đặc trưng màu sắc (4.1) Kết quả của phương pháp này là một ma trận, kích thước 30x30 (cho khối 10x10 hoặc 37X37 cho 8x8), với '1 'trong các miền tương ứng có sự hiện diện của phù hợp với màu sắc và "0 "trong các lĩnh vực mà... pháp mới khai pháluậtkết hợp: Thêm vào các đặc trưng mạnh mẽ hơn có thể tạo ra hiệu suất cao hơn Tạo ra cơsởdữliệu giao dịch bằng cách trộn những đặc trưng đã tồn tại trongcơsởdữliệu nguyên thủy với các đực trưng trực quan mà ta có thể trích chọn từ hình ảnh sử dụng công nghệ phân tích ảnh Các đặc trưng có sẵn là Những giao dịch có dạng [Image ID, Class Label, F1;F2;:::, Fn] trong đó F1:::Fn... con X S 2) Xét luậtkếthợpcó dạng X → (SX), đánh giá độ tin cậy của nó xem có nhỏ hơn hay không Thực chất, tập hợp S mà ta xét đóng vai trò của tập hợp giao S = XY, và do X (S – X) = , nên coi như Y= S – X Các thuật toán xoay quanh khai pháluậtkếthợp chủ yếu nêu ra các giải pháp để đẩy nhanh việc thực hiện mục 1 của Thuật toán 1 3.4 Một số thuật toán phát hiện luậtkếthợp 3.4.1 Thuật toán . kết hợp.
Trình bày khai phá luật kết hợp trong cơ sở dữ liệu hình ảnh: dữ liệu hình ảnh; trích
chọn đặc trưng trong khai phá ảnh; khai phá luật kết hợp. đặc biệt này.
Luật kết hợp là phương tiện hữu ích để khám phá các mối liên kết trong dữ liệu. Khai phá
luật kết hợp trong cơ sở dữ liệu Multimedia cho