Khai phá luật kết hợp dựa trên nội dung ảnh bằng thuật toán Apriori

Một phần của tài liệu Khai phá Luật kết hợp trong cơ sở dữ liệu đa phương tiện (Trang 53 - 60)

Trong khai thác luật kết hợp truyền thống, một tập các quy tắc được thể hiện dưới hình thức RHS=>LHS, trong đó RHS và LHS đều cho phép chứa nhiều mục. Sự hỗ trợ của luật kết hợp được xác định là tỷ lệ giao dịch có chứa tất cả các mục (cả LHS và RHS) trong một luật kết hợp và độ tin cậy của một luật kết hợp được xác định là tỷ lệ phần trăm của LHS cũng chứa RHS. Một luật kết hợp giữ nếu hỗ trợ của

nó lớn hơn minsup và độ tin cậy (confidence )lớn hơn mincof và mincof có thể được

cấu hình. Vấn đề của việc tìm kiếm các luật kết hợp là bị phân rã thành các vấn đề nhỏ của việc tìm tất cả các tập mục thiết lập với sự hỗ trợ tối thiểu và sử dụng các mục lớn tạo ra các quy tắc mong muốn (Kiểm thử với confidence nhỏ nhất).[6]

Việc thiết lập các tập mục lớn đạt được bằng cách tạo ra các tập mục ứng viên và giữ chúng với mức độ hỗ trợ tối thiểu. Việc này đòi hỏi tính toán rất lớn và quá trình giao dịch phức tạp. Việc phát hiện ra luật kết hợp thường được thực hiện theo hai bước: phát hiện bộ mục thường xuyên, tiếp theo là tạo ra luật kết hợp. Bước thứ nhất chi phối nhiều thời gian xử lý, bước thứ hai đơn giản hơn.

Bước 1: Giai đoạn tiền xử lý

Dữ liệu trong thực tế cuộc sống thường không đầy đủ và không phù hợp, vì vậy tiền xử lý là điều cần thiết. Trong trường hợp hình ảnh có kích thước lớn (1024x1024) và gần 50% hình ảnh là nền và những phần không cần thiết. Ngoài ra, những hình ảnh này được quét sáng khác nhau nên một số quá sáng, một số quá tối. Bước đầu tiên nhằm mục đích loại bỏ đi những phần dư thừa, cắt bỏ hình ảnh với sự giúp đỡ của toán tử crop trong xử lý hình ảnh. Cắt bỏ được các phần dư thừa, có thể loại bỏ hết các thông tin nền và hầu hết phần dư thừa. Bước tiếp theo của quá trình tiền xử lý hình ảnh là hình ảnh được nâng cao kỹ thuật. Nâng cao chất lượng hình ảnh sử dụng một vài ứng dụng cụ thể. Tăng cường có thể được thực hiện trong lĩnh vực không gian, trong lĩnh vực tần số. Để giảm bớt ảnh hưởng của độ sáng quá hoặc tối quá của hình ảnh, tôi áp dụng phương pháp biểu đồ Equalization, một kỹ thuật được sử dụng rộng rãi. Loại bỏ dư thừa là điều cần thiết trước khi thực hiện kỹ thuật tăng cường này, bởi vì nếu không nó sẽ dẫn đến tăng cường tiếng ồn.[9]

Bước 2: Quá trình trích chọn đặc trưng

Sau quá trình tiền xử lý, một quá trình trích chọn được áp dụng nhằm trích chọn đặc trưng texture sử dụng kỹ thuật thống kê GLCM các thông số như, độ lệch chuẩn, trung bình, moments, độ mịn, Tính đồng nhất, Entropy có thể được trích chọn từ các ảnh tiền xử lý bằng cách sử dụng GLCM (Ma trận Gray Level Cooccurrence). [9]

Ma trận GLCM của một hình ảnh được tính toán bằng cách sử dụng một vector d, xác định bởi bán kính ä và định hướng è. Tần số thông thường có thể được sử dụng bằng cách phân chia giá trị trong mỗi ô bằng tổng số các cặp điểm ảnh có thể. Do đó các nhân tố bình thường cho 0 ° sẽ được (Nx - 1) × Ny với Nx là chiều rộng và Ny là chiều cao của hình ảnh. Cấp độ lượng tử không kém phần quan trọng trong việc xác định sự xuất hiện đặc trưng texture. Ngoài ra, sự xuất hiện của ma trân các phần tử lân cận có liên quan chặt chẽ chất lượng hình ảnh . Mỗi yếu tố này sẽ được thảo luận một cách chi tiết.

Lựa chọn bán kính δ:

Giá trị δ nằm trong khoảng từ 1, 2 đến 10. Áp dụng cho các giá trị khoảng cách lớn thì ma trận GLCM không nắm bắt được thông tin chi tiết texture. Có thể thấy rằng độ chính xác phân loại một cách tổng thể với δ =1,2,4,8 là có thể chấp nhận được với kết quả tốt nhất với δ = 1 và 2. Kết luận này là hợp lý, một điểm ảnh có nhiều tương quan với những điểm ảnh gần hơn là những điểm ảnh ở vị trí xa.

Lựa chọn góc θ:

Mỗi điểm ảnh đều có tám điểm ảnh lân cận, vì vậy lựa chọn góc θ là: 00

, 450, 900, 1350, 1800, 2250, 2700 hoặc 3150. Tuy nhiên, khi đưa vào xem xét định nghĩa của

GLCM, việc lựa chọn các cặp 00

và 1800 ; 450, 900 và 1350 là tương tự nhau. Do đó, chúng ta có 4 lựa chọn giá trị cho θ. Đánh giá kết cấu của hình ảnh chụp quang tuyến vú được cho trong bảng 4.2.sau đây:

Bảng 4.2. Đánh giá kết cấu của hình ảnh

Thời điểm Biểu thức Đánh giá texture

Ý nghĩa     1 0 ( ) L i ZiP Zi m Cường độ trung bình

Độ lệch chuẩn σ = 2 = 2 Độ tương phản trung bình

Độ mịn R=1-1/(1+σ2) Độ mịn liên quan đến mật

độ trong một vùng Third moment 3 iL01(zim)3p(zi)

 Độ nghiêng cần thiết của

một biểu đồ Độ đồng nhất ( ) 1 0 2 i L i z p U    Độ đồng nhất của mật độ trong biểu đồ Entropy 1 ( )log2 ( ) 0 i L i p zi p z e    

 Đại lượng ngẫu nhiên

Các đặc trưng đã trích chọn được tổ chức trong một cơ sở dữ liệu dưới dạng một giao dịch – yếu tố cấu thành đầu vào (input) để phát sinh các luật kết hợp. Các giao dịch có dạng [Image ID, F1;F2;:::;Fn] trong đó F1:::Fn là n đặc trưng đã được trích chọn với hình ảnh cho trước. Ví dụ, đánh giá Texture của hình ảnh chụp quang tuyến vú như sau:

Bảng 4.3. Đánh giá Texture của hình ảnh chụp quang tuyến vú Hình ảnh tương tự Cường độ trung bình Độ tương phản trung bình Độ mịn Third moment Độ đồng nhất Entropy Mam 1 39.6760 42.8696 0.0275 0.6056 0.1663 4.7401 Mam 2 47.9076 1.9005 0.0736 6.2341 0.1910 4.6683 Mam 3 43.7049 46.3144 0.0319 0.4708 0.2156 4.4888 Mam 4 43.3234 40.3894 0.0245 0.2425 0.1030 5.4656 Mam 5 43.3946 40.4359 0.0245 0.2419 0.1036 5.4638 Mam 6 62.3899 68.4661 0.0672 2.1793 0.2332 3.2310 Mam 7 68.0774 71.3436 0.0762 1.6967 0.2472 3.0586 Mam 8 61.9692 74.2953 0.0782 3.7407 0.2058 4.9878 Mam 9 55.0435 81.8304 0.0934 8.8638 0.2557 4.4263 Mam 10 43.1755 69.3156 0.0688 6.1621 0.3507 3.9049

Bước 4: Khai phá luật kết hợp

Phát hiện các tập mục thường xuyên là chìa khóa trong việc khai phá luật kết hợp.

Để thực hiện khai phá dữ liệu thuật toán kết hợp, ta mô tả các thuộc tính số trước, có nghĩa là, các giá trị thuộc tính tiếp theo sẽ phân chia thành nhiều phân đoạn. Các thuật toán kết hợp truyền thống thông qua một phương pháp lặp để tìm kiếm, điều này yêu cầu lượng tính toán lớn và quá trình giao dịch phức tạp. Bời vì lý do này, một thuật toán kết hợp mới được đề xuất. Thuật toán mới thông qua một phương pháp vecto để tìm kiếm các tập mục thường xuyên.[6] (adsbygoogle = window.adsbygoogle || []).push({});

Nói chung, thuật toán mới bao gồm 4 pha:

- Biến đổi cơ sở dữ liệu giao dịch thành ma trận Boolean.

- Tạo ra một tập mục thường xuyên L1

- Tạo ra các tập mục thường xuyên k. Mô tả thuật toán chi tiết qua các bước như sau:

1. Biến đổi cơ sở dữ liệu vào ma trận Boolean: Cơ sở dữ liệu giao dịch khai thác

là D, với D có m giao dịch và n mục. Đặt T = {T1, T2, …,Tm} là tập các giao dịch và I = {I1, I2,…In} là các tập mục. Ta thiết lập ma tra trận Am*n, với m hàng và n cột. Quét cơ sở dữ liệu giao dịch D, ta sử dụng một thủ tục di chuyển để chuyển đổi mỗi giá trị trích chọn thành một tập các đặc trưng nhị phân.

Phạm vi từ 0 tới 1 với mỗi đặc trưng là cách chia thống nhất thành k thùng, và mỗi bản ghi nhị phân các đặc trưng – nằm trong các phạm vi tương ứng.

2. Tạo ra một tập mục thường xuyên L1 : Ma trận logic Am*n được quét và hỗ trợ

tính toán tất cả các tập mục. Số hỗ trợ Ij.supth của tập mục Ij là số của „1s‟ trong cột thứ j của ma trận Boolean Am*n. Nếu Ij.supth nhỏ hơn số hỗ trợ nhỏ nhất, tập mục {Ij} không là tập mục thường xuyên và cột thứ j của ma trận Am*n sẽ bị xóa khỏi ma trận này. Ngược lại, {Ij} là tập mục thường xuyên và được thêm vào tập mục thường xuyên L1. Tổng giá trị các phần tử trong mỗi hàng được tính toán lại, và tổng giá trị hàng nào nhỏ hơn 2 sẽ bị loại khỏi ma trận.

3. Cắt tỉa ma trận Boolean: Cắt tỉa ma trận Boolean có nghĩa là loại bỏ đi một số

hàng và cột của nó. Trước tiên, các cột của ma trân Boolean được cắt tỉa theo mệnh đề 2: Đặt I là tập các tập mục trong tập mục thường xuyên LK-1, với k>2. Tính toán tất cả giá trị |LK-1(j)| với j thuộc I2 và loại bỏ tất cả các cột tương ứng với mục j nếu LK-1(j)| nhỏ hơn k-1. Sau đó, tính toán lai tổng giá trị các phần tử trong mỗi hàng của ma trận Boolean, tổng giá trị các phần tử hàng nào nhỏ hơn k sẽ bị loại khỏi ma trận này.

4. Tạo ra k- tập mục thường xuyên k Lk: Các tập mục thường xuyên k chỉ được

phát hiện bằng cách tính toán quan hệ “AND” được thực hiện cho k vector kết hợp. Nếu ma trận Boolean Ap*q có q cột (2 < q ≤ n) và minsupth ≤ p≤m,k,q,c, kết hợp với k vector sẽ được tạo. Và việc tính toán quan hệ “AND” cho một sự kết hợp của k vector. Nếu tổng giá trị các phần tử trong tính toán “AND” không nhỏ hoen minsupth, các tập mục k tương ứng với k vector là các tập mục thường xuyên và được thêm vào tập các tập mục thường xuyên Lk. [7]

Kết quả thu được:

Để thẩm định hiệu suất thuật toán khai phá luật kết hợp mới, ta thực hiện một thử nghiệm với thuật toán Apriori và đề xuất thuật toán này. Các thuật toán được thực hiện trong C , đo đó trình bày các kết quả thử nghiệm cho các số minsupth khác nhau. Các kết quả chỉ ra rằng hiệu suất của thuật toán khai phá luật kết hợp mới tốt hơn

thuật toán Apriori. Hơn nữa, hiệu suất của thuật toán khai phá luật kết hợp mới tốt hơn vì minsupth nhỏ hơn. Nguyên nhân là minsupth nhỏ hơn thì tập các mục ứng viên tham gia thuật toán Aprori và quá trình cắt tỉa mất nhiều thời gian hơn để thực hiện. Hơn nữa, thuật toán khai phá luật kết hợp mới không tạo ra các tập mục ứng viên. Và tốn ít thời gian để tính toán hỗ trợ k với ma trận Boolean đã cắt tỉa. [6]

Hình 4.4. Hiệu suất thuật toán khai phá luật kết hợp sử dụng ABBM và Apriori ABBM: Algorithm Based on Boolean Matrix

Các bước chính để cải thiện hiệu suất của phương pháp mới khai phá luật kết hợp: Thêm vào các đặc trưng mạnh mẽ hơn có thể tạo ra hiệu suất cao hơn. Điều này có thể giảm đi nhiều những sự không chính xác trong quá trình xử lý. Chính điều này giúp ta phát hiện những dạng kahcs nhau của luật kết hợp.

Tạo ra cơ sở dữ liệu giao dịch bằng cách trộn những đặc trưng đã tồn tại trong cơ sở dữ liệu nguyên thủy với các đực trưng trực quan mà ta có thể trích chọn từ hình ảnh sử dụng công nghệ phân tích ảnh. Các đặc trưng có sẵn là:

- Các dạng của tế bào (dày đặc, béo, béo tuyến)

- Vị trí của ngực: trái hoặc phải

Những giao dịch có dạng [Image ID, Class Label, F1;F2;:::, Fn] trong đó F1:::Fn là n đặc trưng được trích chọn từ hình ảnh cho trước. Hình dạng tế bào là rất quan trọng để thêm vào cơ sở dữ liệu đặc trưng - trở thành dữ kiện tốt. Phương pháp kết hợp những đặc trưng có thể làm tăng độ chính xác.

Đây là một phần quan trọng trong dự án khai phá dữ liệu. Chúng ta có thể thấy khai phá luật kết hợp giúp giảm tải cho các chuyên gia ở những phần thủ công. Chúng ta cũng có thể xây dựng những hệ thống tự động có thể phát hiện tự động luật kết hợp từ những hình ảnh.

Chúng ta cần một phương pháp tiếp cận có hệ thống để xác định một ngưỡng độ hỗ trợ và độ tin cậy tối ưu. Một ngưỡng rất cao thì chỉ có những trận đấu hoàn hảo mới chấp nhận được. Tìm ngưỡng tương tự phù hợp với từng loại hình ảnh là một vấn đề hay. [7]

KẾT LUẬN

Sự bùng nổ thông tin, dữ liệu cùng với sự phát triển và ứng dụng ngày càng rộng rãi của công nghệ thông tin trên mọi lĩnh vực đời sống xã hội đã khiến cho nhu cầu xử lý dữ liệu để kết xuất thông tin hữu ích cho người sử dụng một cách nhanh chóng trở thành một yếu tố quan trọng trong các cơ quan, tổ chức. Khai phá dữ liệu đã được một cách rộng rãi trong nhiều lĩnh vực kinh doanh và đời sống khác nhau: Marketing, Ngân hàng, Tài chính, ... Rất nhiều tổ chức và công ty lớn trên thế giới đã áp dụng kỹ thuật khai phá dữ liệu vào hoạt động kinh doanh của mình và thu được những lợi ích to lớn.

Phương pháp quan trọng của kỹ thuật khai phá dữ liệu mà đề tài đi sâu tìm hiểu là khai phá luật kết hợp. Mục tiêu của phương pháp này là phát hiện các mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu. Mẫu đầu ra của giải thuật khai phá dữ liệu là luật kết hợp tìm được.

Cơ sở dữ liệu đa phương tiện và một số vấn đề có liên quan như tổ chức và khai thác nội dung thông tin là những vấn đề đang được quan tâm. Bản luận văn đề cập đến một số vẫn đề mang tính chất cơ bản của cơ sở dữ liệu đa phương tiện. Khai phá luật kết hợp trong cơ sở dữ liệu multimedia cho phép tiết kiệm chi phí và làm tăng hiệu suất làm việc .

Hƣớng phát triển của luận văn

 Có nhiều dạng dữ liệu đa phương tiện (văn bản, âm thanh, video, hình ảnh) dưới (adsbygoogle = window.adsbygoogle || []).push({});

dạng tín hiệu số. Bản luận văn tập trung tìm hiểu với dạng dữ liệu hình ảnh. Sau bản luận văn này, tác giả hướng nghiên cứu đến các dạng dữ liệu khác đa phương tiện khác: video, âm thanh.

TÀI LIỆU THAM KHẢO Tiếng Việt

1. Đặng Văn Đức, Cơ sở dữ liệu đa phương tiện, Bài giảng cho cao học, 2005-2012. 2. Lê Thu Hà, Phương pháp luật kết hợp và ứng dụng, Luận văn thạc sỹ, Trường đại

học Thái Nguyên, 2009.

3. Trần Hoài Nam, Cơ sở dữ liệu đa phương tiện yêu cầu và các vấn đề, Luận văn thạc sỹ, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội, 2004.

4. Lê Huy Thập, Khai phá dữ liệu, Bài giảng cho cao học, Hà Nội 2012.S

Tiếng Anh

5. Carlos Ordonez and Edward Omiecinski, Image Mining: A New Approach for Data Mining, Georgia Institute of Technology, 1998.

6. David Hand, Heikki Mannila and Padhraic Smyth, Principles of Data Mining, The MIT Press, 2001.

7. Deepa S. Deshpande, Association Rule Mining Based on Image Content, International Journal of Information Technology and Knowledge Management, 2011. 8. Guojun Lu, Multimedia Database Management Systems, Artech House, Inc. 1999. 9. Jelena Tesic, Shawn Newsam and B.S. Manjunath, Mining Image Datasets using

Perceptual Asociation Rules, Electrical and Computer Engineering Department University of California, Santa Barbara, CA 93106-9560.

10.Patricia G. Foschi, Feature Extraction for Image mining, Romberg Tiburon Center for Enviromental Studies, San Francisco State University

11. Petra Perner, Data Mining on Multimedia Data, Lecture Notes in Computer Science, Springer-Verlag Berlin Heidelberg 2002.

Một phần của tài liệu Khai phá Luật kết hợp trong cơ sở dữ liệu đa phương tiện (Trang 53 - 60)