Tìm kiếm ảnh theo nội dung dựa trên LDA

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	70
Dung lượng	1,9 MB

Nội dung

Mục tiêu của luận văn là nghiên cứu và sử dụng các đặc trưng cục bộ bất biếnđể biểu diễn nội dung của một ảnh. Thêm vào đó, luận văn còn áp dụng mô hìnhphân phối chủ đề ẩn mà cụ thể là phân phối Dirichlet tiềm ẩn để biểu diễn ảnh ởmức độ cấp cao hơn, làm giảm chiều vector đặc trưng, tuy nhiên vẫn giữ đượcnhững chi tiết hữu ích cho việc so sánh và tìm kiếm.

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CẦN THƠ PHAN THỊ KIM LOAN TÌM KIẾM ẢNH THEO NỘI DUNG DỰA TRÊN PHÂN PHỐI DIRICHLET TIỀM ẨN LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Cần Thơ - 2012 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CẦN THƠ PHAN THỊ KIM LOAN TÌM KIẾM ẢNH THEO NỘI DUNG DỰA TRÊN PHÂN PHỐI DIRICHLET TIỀM ẨN Chuyên ngành: HỆ THỐNG THÔNG TIN Mã số: 24 10 08 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học TS PHẠM NGUYÊN KHANG Cần Thơ - 2012 MỤC LỤC DANH MỤC ĐỒ THỊ III DANH MỤC BẢNG BIỂU IV DANH MỤC HÌNH ẢNH V BẢNG TỪ VIẾT TẮT VII TÓM TẮT .VIII ABSTRACT IX MỞ ĐẦU 1 Lý chọn đề tài Mục đích đề tài: Đối tượng phạm vi nghiên cứu Ý nghĩa khoa học thực tiễn đề tài nghiên cứu CHƯƠNG 1: TÌM KIẾM ẢNH THEO NỘI DUNG 1.1 Đặt vấn đề 1.2 Khái niệm tìm kiếm ảnh theo nội dung ảnh: 1.3 Một số công cụ tìm kiếm ảnh theo nội dung: Tổng kết chương 12 CHƯƠNG 2: PHƯƠNG PHÁP LỰA CHỌN ĐẶC TRƯNG CỤC BỘ BẤT BIẾN (SIFT) 13 2.1 Đặt vấn đề 13 2.2 Khái niệm đặc trưng cục bất biến 13 2.2.1 Phát điểm cực trị Scale-space 14 2.2.2 Định vị điểm hấp dẫn: 16 2.2.3 Xác định hướng cho điểm hấp dẫn: 17 2.2.4 Biểu diễn vector cho điểm hấp dẫn 18 2.3 Độ đo tương đồng cho đặc trưng cục bất biến 18 2.4 Kmeans 19 2.4.1 Thuật toán K-Means 20 2.4.2 Ví dụ minh họa thuật toán K-Mean: 20 2.4.3 Nhận xét 24 2.5 Mô hình túi từ - bag of words (BOW) 25 Tổng kết chương 26 i CHƯƠNG 3: LATENT DIRICHLET ALLOCATION (LDA) 27 3.1 Đặt vấn đề 27 3.2 Chủ đề ẩn 27 3.3 Latent Dirichlet Allocation 30 3.3.1 Mô hình LDA 30 3.3.2 Suy luận ước lượng tham số 32 3.3.3 Suy luận : 32 3.3.4 Suy luận biến 33 3.3.5 Ước lượng tham số 35 3.3.6 Đánh giá đầu LDA 37 3.4 Nhận xét 37 3.5 Một số phương pháp đo tương tự hình ảnh 38 3.5.1 Cosine 38 3.5.2 Manhattan 38 3.5.3 Sự khác Jensen-Shannon 38 3.5.4 Khoảng cách Euclide : 39 3.6 Áp dụng mô hình LDA cho thực nghiệm 39 3.6.1 Mô tả toán 39 3.6.2 Mô hình tổng quan 40 Tổng kết chương 42 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 43 4.1 Môi trường công cụ sử dụng cho thực nghiệm 43 4.2 Xây dựng tập liệu ảnh 44 4.3 Quy trình phương pháp thực nghiệm 44 4.4 Đánh giá kết thực nghiệm 45 4.5 Kết luận hướng phát triển 55 Tổng kết chương 56 TÀI LIỆU THAM KHẢO 57 ii DANH MỤC ĐỒ THỊ Biểu đồ 4-1: Kết thực nghiệm tập Caltech4(1000 visual words) 47 Biểu đồ 4-2: Kết thực nghiệm tập Caltech4(5000 visual words) 48 Biểu đồ 4-3: Kết thực nghiệm tập Caltech101(1000 visual words) 49 Biểu đồ 4-4: Kết thực nghiệm tập Caltech101(5000 visual words) 50 Biểu đồ 4-5: Biểu đồ so sánh phép đo 55 iii DANH MỤC BẢNG BIỂU Table 2-1: Bảng liệu thuốc 21 Table 2-2: Bảng kết phân nhóm 24 Table 4-1: Cấu hình phần cứng 43 Table 4-2: Công cụ phần mềm sử dụng 43 Table 4-3: Kết thực nghiệm tập Caltech4 (1000 visual words) 47 Table 4-4: Kết thực nghiệm tập Caltech4 (5000 visual words) 48 Table 4-5: Kết thực nghiệm tập Caltech101(1000 visual words) 49 Table 4-6: Kết thực nghiệm tập Caltech101(5000 visual words) 50 Table 4-7: Bảng so sánh kết tập ảnh Caltech4 51 Table 4-8: Bảng so sánh kết tập ảnh Caltech4 51 Table 4-9: Bảng so sánh phép đo 54 iv DANH MỤC HÌNH ẢNH Hình 1-1: Tìm kiếm ảnh theo văn Hình 1-2: Tìm kiếm ảnh theo nội dung Hình 1-3: Đặc trưng màu sắc Hình 1-4: Đặc trưng kết cấu Hình 1-5: Đặc trưng hình dạng Hình 1-6: Đặc trưng Sift Hình 1-7: Google Image Swirl Hình 1-8: Tiltomo 10 Hình 1-9: Byo Image Search 11 Hình 1-10: Tìm kiếm ảnh theo mẫu (example-based image search) 11 Hình 2-1: Biểu đồ mô việc tính toán DoG ảnh từ ảnh kề mờ 15 Hình 2-2: Mỗi điểm ảnh so sánh với 26 láng giềng 16 Hình 2-3: Quá trình lựa chọn điểm hấp dẫn a Ảnh gốc, b Các điểm hấp dẫn phát hiện, c Ảnh sau loại bỏ điểm hấp dẫn có độ tương 17 Hình 2-4: Biểu diễn vector đặc trưng 18 Hình 2-5: Lần lặp 21 Hình 2-6: Lần lặp 22 Hình 2-7: Lần lặp 23 Hình 2-8: Minh họa mô hình bag of words 25 Hình 3-1: Trình bày mô hình đồ họa LDA Những hộp biển hiển thị việc chép Bên biển hiển thị ảnh, biển thị việc chọn lựa lặp lặp lại chủ đề visual word ảnh 31 Hình 3-2: (Trái) trình bày mô hình đồ họa LDA (Phải) trình bày mô hình đồ họa phân phối biến phân sử dụng để tính sấp xỉ sau (posterior) LDA 32 Hình 3-3: Mô hình tổng quan hệ thống tìm kiếm ảnh theo nội dung sử dụng LDA 43 v Hình 4-1: Minh họa tìm kiếm ảnh tập Caltech4 (Airplane) 52 Hình 4-2: Minh họa tìm kiếm ảnh tập Caltech4 (Faces) 53 Hình 4-3: Minh họa tìm kiếm ảnh tập Caltech4 (Motorbike) 53 Hình 4-4: Minh họa tìm kiếm ảnh tập Caltech4 (Car_brad) 54 vi BẢNG TỪ VIẾT TẮT STT Từ viết tắt Từ viết đầy đủ AP Average Precision BOW Bag of words CBIR Content Based Images Retrieval CIE Commission Internationale de l’Eclairage CTM Correlated Topic Models DoG difference –of-Gaussian DTM Dynamic Topic Models EM Expectation-Maximization HSV Hue - Saturation - Value 10 IR Information Retrieval 11 KL Kullback-Leibler 12 LDA latent Dirichlet Allocation 13 LSI Latent semantic indexing 14 MAP Mean Average Precision 15 PLSI Probabilistic latent semantic indexing 16 QBIC Query Based Image Content 17 RGB Red Green Blue 18 SIFT Scale Invariant Feature Transform vii TÓM TẮT Ngày với phát triển mạnh mẽ công nghệ ảnh số làm lượng ảnh lưu trữ web tăng lên cách nhanh chóng Việc gây nhiều khó khăn việc tìm kiếm ảnh giống với ảnh truy vấn Mặc dù công cụ tìm kiếm ảnh theo văn kèm ảnh đời cho phép người dùng tìm kiếm ảnh với thời gian đáp ứng nhanh, nhiên, công cụ hạn chế việc giải nhập nhằng nội dung câu truy vấn nội dung hiển thị ảnh trả Sự đời công cụ tìm kiếm ảnh theo nội dung ảnh giải nhập nhằng Mục tiêu luận văn nghiên cứu sử dụng đặc trưng cục bất biến để biểu diễn nội dung ảnh Thêm vào đó, luận văn áp dụng mô hình phân phối chủ đề ẩn mà cụ thể phân phối Dirichlet tiềm ẩn để biểu diễn ảnh mức độ cấp cao hơn, làm giảm chiều vector đặc trưng, nhiên giữ chi tiết hữu ích cho việc so sánh tìm kiếm Thực nghiệm ban đầu cho thấy từ ảnh đầu vào hệ thống trả 10 ảnh giống với ảnh truy vấn nhất, với độ xác 80% kết khả quan viii suy luận từ phân phối chủ đề tập sở liệu ảnh Giai đoạn 2: Đầu vào file output giai đoạn 1, thực tìm kiếm tập liệu chuẩn bị mục Ở sử dụng phương pháp tính khoảng cách Jensen-Shannon để tính khoảng cách vector ảnh truy vấn vector ảnh sở liệu Tập ảnh trả về: Gồm 50 ảnh giống với ảnh truy vấn 4.4 Đánh giá kết thực nghiệm Để phân tích kết quả, thực so sánh kết việc áp dụng kỹ thuật LDA với kết việc kết hợp kỹ thuật TF.IDF (Term Frequency Inverse Document Frequency) Cách tiếp cận TF.IDF ước lượng độ quan trọng visual word ảnh tập ảnh cho trước Nguyên lý TF.IDF là: “độ quan trọng visual word tăng lên với số lần xuất ảnh giảm xuống visual word xuất nhiều ảnh khác” Lý đơn giản visual word xuất nhiều ảnh khác có nghĩa visual word thông dụng Do độ đo quan trọng visual word t ảnh f tính bằng: tf * idf, với tf độ phổ biến visual word t ảnh f idf nghịch đảo độ phổ biến visual word t ảnh lại tập ảnh TF.IDF tóm tắt công thức tổng quát sau: tf  fre(t f ) S( f )   D idf  log  {d : t  d} Trong đó: fre(tf) : Số lần xuất visual word t ảnh f S(f) : Tổng số visual word ảnh f D : tổng số ảnh d : t  d : số ảnh có chứa visual word t Ví dụ có ảnh gồm 100 visual word, visual word xuất lần ta có độ phổ biến: tf(visual word 1) = / 100 = 0.05 Bây giả sử có 1000 ảnh, có 200 ảnh chứa visual word Lúc ta tính idf visual word 1= ln(1000 / 200) = 1.61 Như ta tính độ đo TF.IDF 45 = tf*idf = 0.05 * 1.61 = 0.0805 Độ đo visual word cao khả yếu tốt đại diện cho ảnh lớn Chúng sử dụng độ xác trung bình (Average Precision) để đánh giá kết xếp hạng hệ thống Giả sử ta có đối tượng là: a, b, c, d, e Trong a, b, c đối tượng phù hợp d, e đối tượng không phù hợp Một xếp hạng đối tượng cần đánh giá là: c, a, d, b, e Độ xác trung bình định nghĩa sau:  AP  n k 1 P @ K  I (K )  n j 1 I (J ) Trong đó: n phần tử sở liệu P@K  Match @ K (Match@K = số đối tượng phù hợp K vị trí đầu tiên) K I(K) = đối tượng vị trí K phù hợp với câu truy vấn, ngược lại I(K) = Ví dụ: Với giả sử ta có P@1 = 1/1, P@2 = 2/2, P@3 = 2/3, P@4 = 3/4 Thì độ xác trung bình là: x1  x1  x1 AP  Ngoài sử dụng Mean Average Precision (MAP) để đánh giá hệ thống Giá trị trung bình m xếp hạng:  MAP  46 m i 1 m APi Ở đây, với tập Caltech4 chia tập liệu tập sử dụng tập để huấn luyện (3144 ảnh), tập để kiểm tra (1261 ảnh) sử dụng số lượng visual words 1000 5000 để so sánh kết Tập ảnh kết k ảnh gần giống với ảnh truy vấn Chúng thử nghiệm hệ thống liệu thử nghiệm cho kết trả sau: Table 4-3: Kết thực nghiệm tập Caltech4 (1000 visual words) Phương pháp P@10 P@20 P@50 P@100 P@200 MAP tf*idf 0.535354 0.496075 0.454246 0.430603 0.411977 0.348553 LDA, z=5 0.815149 0.789163 0.751727 0.719041 0.677073 0.425774 LDA, z=7 0.868771 0.846152 0.808273 0.769379 0.718629 0.433008 LDA, z=15 0.900727 0.876657 0.832097 0.785519 0.725190 0.395060 LDA, z=30 0.892231 0.863599 0.806234 0.746388 0.674064 0.339109 LDA, z=50 0.820058 0.779688 0.701956 0.628924 0.550313 0.269874 0.9 0.8 tf*idf 0.7 LDA, z=5 0.6 LDA, z=7 0.5 LDA, z=15 0.4 LDA, z=30 0.3 LDA, z=50 0.2 0.1 P@10 P@20 P@50 P@100 P@200 MAP Biểu đồ 4-1: Kết thực nghiệm tập Caltech4(1000 visual words) 47 Table 4-4: Kết thực nghiệm tập Caltech4 (5000 visual words) Phương pháp P@10 P@20 P@50 P@100 P@200 MAP tf*idf 0.598277 0.559769 0.514497 0.485838 0.459033 0.369259 LDA, z=5 0.836217 0.811678 0.775208 0.742889 0.703614 0.449335 LDA, z=7 0.919009 0.904376 0.878338 0.850852 0.812600 0.504271 LDA, z=15 0.931104 0.911207 0.873178 0.834515 0.778577 0.409715 LDA, z=30 0.915265 0.891750 0.845959 0.795742 0.727566 0.338940 LDA, z=50 0.857590 0.817273 0.746432 0.678546 0.596854 0.257110 0.9 0.8 tf*idf 0.7 LDA, z=5 0.6 LDA, z=7 0.5 LDA, z=15 0.4 LDA, z=30 0.3 LDA, z=50 0.2 0.1 P@10 P@20 P@50 P@100 P@200 MAP Biểu đồ 4-2: Kết thực nghiệm tập Caltech4(5000 visual words) 48 Với tập Caltech101 chia tập liệu tập sử dụng tập để huấn luyện (5756 ảnh), tập để kiểm tra (3467 ảnh) Kết thực nghiệm sau: Table 4-5: Kết thực nghiệm tập Caltech101(1000 visual words) Phương pháp P@10 P@20 P@50 P@100 P@200 MAP tf*idf 0.162296 0.156404 0.138185 0.121263 0.102851 0.053851 LDA, z=30 0.363305 0.343981 0.305342 0.271239 0.236601 0.112735 LDA, z=50 0.350184 0.328775 0.288097 0.255844 0.221823 0.102448 LDA, z=75 0.330844 0.308649 0.267134 0.231702 0.198189 0.088615 LDA, z=100 0.290878 0.269726 0.228889 0.197128 0.166795 0.075539 0.4 0.35 0.3 tf*idf 0.25 LDA, z=30 0.2 LDA, z=50 0.15 LDA, z=75 LDA, z=100 0.1 0.05 P@10 P@20 P@50 P@100 P@200 MAP Biểu đồ 4-3: Kết thực nghiệm tập Caltech101(1000 visual words) 49 Table 4-6: Kết thực nghiệm tập Caltech101(5000 visual words) Phương pháp P@10 P@20 P@50 P@100 P@200 MAP tf*idf 0.188713 0.176782 0.154170 0.135325 0.114037 0.054494 LDA, z=30 0.383515 0.361190 0.323379 0.293359 0.259479 0.129448 LDA, z=50 0.368684 0.347582 0.307815 0.274152 0.239449 0.109945 LDA, z=75 0.338129 0.318851 0.280184 0.247795 0.212277 0.092474 LDA, z=100 0.312008 0.293085 0.256168 0.225136 0.192097 0.081693 0.45 0.4 0.35 tf*idf 0.3 LDA, z=30 0.25 LDA, z=50 0.2 LDA, z=75 0.15 LDA, z=100 0.1 0.05 P@10 P@20 P@50 P@100 P@200 MAP Biểu đồ 4-4: Kết thực nghiệm tập Caltech101(5000 visual words) 50 Nhận xét: Table 4-7: Bảng so sánh kết tập ảnh Caltech4 VISUAL WORD + LDA VISUAL WORD + TF.IDF 1000 VISUAL WORD Z=7, P@10=0.868771 MAP=0.433008 P@10=0.535354 MAP=0.348553 5000 VISUAL WORD z=7, P@10=0.919009 MAP=0.504271 P@10=0.598277 MAP=0.369259 Table 4-8: Bảng so sánh kết tập ảnh Caltech_101 VISUAL WORD + LDA VISUAL WORD + TF.IDF 1000 VISUAL WORD Z=50, P@50=0.288097 MAP=0.102448 P@50=0.138185 MAP=0.053851 5000 VISUAL WORD z=50, P@50=0.307815 MAP=0.109945 P@50=0.154170 MAP=0.054494 Thông qua bảng so sánh kết đồ thị biểu diễn thực nghiệm tập Caltech4 Caltech_101 ta thấy với việc áp dụng mô hình LDA cho kết 51 cao so với việc áp dụng kỹ thuật TF.IDF gần xấp xỉ gấp lần Cụ thể Table 4-7 với số lượng 1000 visual words ta có z=7 p@10=0.868771 MAP=0.433008 cao so với phương pháp TF.IDF P@10=0.535354 MAP=0.348553 Mặt khác với số lượng visual words 5000 ta có z=7 p@10=0.919009 MAP=0.504271 cao so với phương pháp TF.IDF P@10=0.598277 MAP=0.369259 Và tập Caltech 101 Table 4-8 với số lượng visual word 1000 ta có z=50 P@50=0.288097 MAP=0.102448 cao so với phương pháp TF.IDF P@50=0.138185 MAP=0.053851 Với 5000 visual word ta có z=50 P@50=0.307815 MAP=0.109945 cao so với phương pháp TF.IDF P@50=0.154170 MAP=0.054494 Sau hình ảnh minh họa tìm kiếm ảnh tập Caltech4 (Hình 4-1, 4-2, 4-3, 4-4): Hình 4-1: Minh họa tìm kiếm ảnh tập Caltech4 (Airplane) 52 Hình 4-2: Minh họa tìm kiếm ảnh tập Caltech4 (Faces) Hình 4-3: Minh họa tìm kiếm ảnh tập Caltech4 (Motorbike) 53 Hình 4-4: Minh họa tìm kiếm ảnh tập Caltech4 (Car_brad) Chúng tiến hành thực nghiệm phép đo tương tự tập Caltech4 với số lượng chủ đề kết 100 ảnh trả để so sánh độ xác cách thực phương pháp Kết hiển thị bảng sau: Table 4-9: Bảng so sánh phép đo mAP Phương pháp đo L1 0.850852 Cosin 0.030044 Euclide 0.851977 Jensen-Shannon 0.906177 54 mAP 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 mAP L1 Cosin Euclide Jensen-Shannon Biểu đồ 4-5: Biểu đồ so sánh phép đo Kết cho thấy phép đo Cosine tệ Jensen-Shannon tốt Vì luận văn chon phép đo Jensen-Shannon để xây dụng module tìm kiếm 4.5 Kết luận hướng phát triển Chúng trình bày mô hình tìm kiếm ảnh theo nội dung thông qua giải thuật SIFT, K-means LDA Với giải thuật SIFT áp dụng để trích chọn điểm đặc biệt ảnh giải thuật gom nhóm K-means để gom nhóm điểm đặc biệt (vector đặc trưng) ảnh Với tập ảnh đầu vào ta biểu diễn bảng tần số với hàng tương ứng với ảnh cột tương ứng với visual words Sau áp dụng giải thuật LDA để phân tích bảng tần số trên, sử dụng chủ đề ẩn để biểu diễn cho ảnh phục vụ cho việc tìm kiếm ảnh theo nội dung Đề tài tiến hành thử nghiệm mô hình tập liệu Caltech4 Caltech101 Kết kiểm tra tập liệu Caltech4, cho z=7 ta có kết MAP=0.433008, tập liệu Caltech101 với z=30 MAP=0.112735, cao gấp đôi so với phương pháp TF.IDF Từ kết bước đầu cho thấy tính khả quan đắn mô hình Trong thời gian tới, tiến hành thử nghiệm mô hình với nhiều tập liệu khác Bên cạnh đó, phát triển hệ thống để tìm kiếm ảnh Internet, tìm kiếm video Và phát triển thêm với việc tìm kiếm ảnh theo nội dung sử dụng phân tích tương ứng (corresponding analysis) để có đánh giá tổng quát mức độ hiệu giải thuật 55 Tổng kết chương Chương 4, luận văn trình bày mô hình thực nghiệm hệ thống Các công cụ, phần mềm, mã nguồn hệ thống sử dụng Luận văn trình bày trình tiến hành thực nghiệm, kết đạt hệ thống số nhận xét độ xác hệ thống đạt Từ kết ban đầu đạt cho thấy tính khả thi đắn hệ thống 56 TÀI LIỆU THAM KHẢO Tiếng Việt Trần Sơn Hải (2007), Nghiên cứu phương pháp kết hợp đặc trưng màu sắc hình dạng vị trí để truy vấn, Luận văn thạc sĩ ngành tin học, Đại học Khoa học Tự nhiên, Hồ Chí Minh Nguyễn Thị Hoàn (2010), Phương pháp trích chọn đặc trưng ảnh thuật toán học máy tìm kiếm ảnh áp dụng vào toán tìm kiếm sản phẩm, Khóa luận tốt nghiệp Đại học chuyên ngành Công nghệ thông tin, Trường Đai học Công nghệ, Hà Nội Phạm Nguyên Khang, Võ Trí Thức (2011), Tìm kiếm ảnh theo nội dung sử dụng phân tích ngữ nghĩa tiềm ẩn theo mô hình xác suất, Kỷ yếu Hôi nghị tổng kết năm nghiên cứu khoa học đào tạo, Khoa Khoa học Công nghệ Truyền thông, Trường Đại học Cần Thơ Nguyễn Hữu Phương (2009), Quảng cáo trực tuyến hướng câu truy vấn với giúp đỡ phân tích chủ đề kỹ thuật tính hạng, Khóa luận tốt nghiệp Đại học chuyên ngành Công nghệ thông tin, Trường Đai học Công nghệ, Hà Nội Trần Mai Vũ (2009), Tóm tắt đa văn dựa vào trích xuất câu, Luận văn thạc sĩ ngành tin học, Trường Đai học Công nghệ, Hà Nội Tiếng Anh Blei, D.M., Ng, A.Y and Jornal, M.I (2003), Latent Dirichlet Allocation, Journal of Machine Learning Research 3, pp.993-1022 Blei, M and Lafferty, J (2007), A Correlated Topic Model of Science, The Annals of Applied Statistics 1, pp 17-35 Cagri Ozcaglar (2008), Classification of email messages into topics using latent Dirichlet allocation, Computer science, Rensselaer Polytechnic Institute Troy, New York C V Jawahar, P J Narayanan, and S Rakshit(2000) A flexible scheme for representation, matching, and retrieval of images ICVGIP 2000, pages 271– 277 Allied Publishers Ltd., 2000 10 David M Blei, Andrew Y Ng, Michael I Jordan (2003), Latent Dirichlet Allocation, Journal of Machine Learning Research 3, PP 993-1022 11 Deerwester, S., Furnas, G.W., Landauer, T.K., and Harshman, R.(1990), “Indexing by Latent Semantic Analysis”, Journal of the American Society for Information Science 41, 391-407 57 12 Dingyuan Xia, Pian Fu, Chaobing Huang, Yu Wang (2009), Trend of Contentbased Image Retrieval on the Internet, Fifth International Conference on Image and Graphics, China 13 Eva H¨ orster, Rainer Lienhart, Malcolm Slaney, Image Retrieval on LargeScale Image Databases, University of Augsburg, Augsburg, Germany and Santa Clara, CA 95054, USA 14 Jean-No¨el Rivasseau, Understanding and Applying the Latent Dirichlet Allocation model to ﬁrst-order Markov Chains, Department of Computer Science University of British Columbia Vancouver, Canada 15 Josef Sivic, Andrew Zisserman (2003), Video Google: A Text Retrieval Approach to Object Matching in Videos, Robotics Research Group, Department of Engineering Science University of Oxford, United Kingdom 16 Heinrich, G., Parameter Estimation for Text Analysis, Technical Report 17 Hofmann, T., Probabilistic Latent Semantic Analysis, In Proceedings of UAI 18 Hofmann, T., (2001), Unsupervised Learning by Probabilistic Latent Semantic Analysis, Machine Learning 42, pp 177-196 19 Mark Girolami, Ata Kabán (2003), On an Equivalence between PLSI and LDA, Toronto, Canada PP 433 - 434 20 Nguyen-Khang Pham, Annie Morin Nouvelle approche pour la recherche d'images par le contenu Actes d'EGC'08,RNTI-E-11, Revue des Nouvelles Technologies de l'Information - Série Extraction et Gestion des Connaissances, Cépaduès Editions, Sophia-Antipolis, February 2008, pp 475 - 486 21 N.-K Pham, A Morin, P Gros Recherche d'images par l'analyse factorielle des correspondances Actes de CORIA'08, Hermès, Trégastel, 2008, pp 23 - 38 22 Ralf Krestel, Peter Fankhauser, Wolfgang Nejdl (2009), Latent Dirichlet Allocation for Tag Recommendation, New York, New York, USA 23 Ramesh Nallapati, William Cohen, and John Lafferty Parallelized Variational EM for Latent Dirichlet Allocation: An Experimental Evaluation of Speed and Scalability In ICDMW ’07: Proceedings of the Seventh IEEE International Conference on Data Mining Workshops, pages 349–354, Washington, DC, USA, 2007 IEEE Computer Society 24 Papadimitriou, C., Tamaki, H., Raghavan, P., and Vempala, S., Latent Semantic Indexing: A probabilistic analysis, pages 159-168, 1998 58 25 V Shiv Naga Prasad A.G Faheema, Subrata Rakshi(2002) Feature Selection in Example-Based Image Retrieval Systems, Indian Conference on Vision Graphics and Image Processing 26 Yang Mingqiang(1) (2), Kpalma Kidiyo(1), Ronsin Joseph(1), ( July 15, 2008), A survey of shape feature extraction techniques, (1) IETR-INSA, UMR-CNRS 6164, 35043 Rennes, France; (2) Shandong University, 250100, Jinan, China Website 27 Latent Semantic Analysis, http://en.wikipedia.org/wiki/Latent_semantic_indexing 28 Vector Space Model, http://en.wikipedia.org/wiki/Vector_space_model 59

Ngày đăng: 31/08/2016, 00:28

Nguồn tham khảo

Tài liệu tham khảo

Loại

Chi tiết

1. Trần Sơn Hải (2007), Nghiên cứu phương pháp kết hợp các đặc trưng màu sắc hình dạng và vị trí để truy vấn, Luận văn thạc sĩ ngành tin học, Đại học Khoa học Tự nhiên, Hồ Chí Minh

Sách, tạp chí

Tiêu đề:	Nghiên cứu phương pháp kết hợp các đặc trưng màu sắc hình dạng và vị trí để truy vấn
Tác giả:	Trần Sơn Hải
Năm:	2007

2. Nguyễn Thị Hoàn (2010), Phương pháp trích chọn đặc trưng ảnh trong thuật toán học máy tìm kiếm ảnh áp dụng vào bài toán tìm kiếm sản phẩm, Khóa luận tốt nghiệp Đại học chuyên ngành Công nghệ thông tin, Trường Đai học Công nghệ, Hà Nội

Sách, tạp chí

Tiêu đề:	Phương pháp trích chọn đặc trưng ảnh trong thuật toán học máy tìm kiếm ảnh áp dụng vào bài toán tìm kiếm sản phẩm
Tác giả:	Nguyễn Thị Hoàn
Năm:	2010

3. Phạm Nguyên Khang, Võ Trí Thức (2011), Tìm kiếm ảnh theo nội dung sử dụng phân tích ngữ nghĩa tiềm ẩn theo mô hình xác suất, Kỷ yếu Hôi nghị tổng kết 5 năm nghiên cứu khoa học và đào tạo, Khoa Khoa học Công nghệ và Truyền thông, Trường Đại học Cần Thơ

Sách, tạp chí

Tiêu đề:	Tìm kiếm ảnh theo nội dung sử dụng phân tích ngữ nghĩa tiềm ẩn theo mô hình xác suất
Tác giả:	Phạm Nguyên Khang, Võ Trí Thức
Năm:	2011

4. Nguyễn Hữu Phương (2009), Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng, Khóa luận tốt nghiệp Đại học chuyên ngành Công nghệ thông tin, Trường Đai học Công nghệ, Hà Nội

Sách, tạp chí

Tiêu đề:	Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng
Tác giả:	Nguyễn Hữu Phương
Năm:	2009

5. Trần Mai Vũ (2009), Tóm tắt đa văn bản dựa vào trích xuất câu, Luận văn thạc sĩ ngành tin học, Trường Đai học Công nghệ, Hà Nội.Tiếng Anh

Sách, tạp chí

Tiêu đề:	Tóm tắt đa văn bản dựa vào trích xuất câu
Tác giả:	Trần Mai Vũ
Năm:	2009

6. Blei, D.M., Ng, A.Y. and Jornal, M.I. (2003), Latent Dirichlet Allocation, Journal of Machine Learning Research 3, pp.993-1022

Sách, tạp chí

Tiêu đề:	Latent Dirichlet Allocation
Tác giả:	Blei, D.M., Ng, A.Y. and Jornal, M.I
Năm:	2003

7. Blei, M. and Lafferty, J. (2007), A Correlated Topic Model of Science, The Annals of Applied Statistics. 1, pp. 17-35

Sách, tạp chí

Tiêu đề:	A Correlated Topic Model of Science
Tác giả:	Blei, M. and Lafferty, J
Năm:	2007

8. Cagri Ozcaglar (2008), Classification of email messages into topics using latent Dirichlet allocation, Computer science, Rensselaer Polytechnic Institute Troy, New York

Sách, tạp chí

Tiêu đề:	Classification of email messages into topics using latent Dirichlet allocation
Tác giả:	Cagri Ozcaglar
Năm:	2008

10. David M. Blei, Andrew Y. Ng, Michael I. Jordan (2003), Latent Dirichlet Allocation, Journal of Machine Learning Research 3, PP. 993-1022

Sách, tạp chí

Tiêu đề:	Latent Dirichlet Allocation
Tác giả:	David M. Blei, Andrew Y. Ng, Michael I. Jordan
Năm:	2003

12. Dingyuan Xia, Pian Fu, Chaobing Huang, Yu Wang (2009), Trend of Content- based Image Retrieval on the Internet, Fifth International Conference on Image and Graphics, China

Sách, tạp chí

Tiêu đề:	Trend of Content-based Image Retrieval on the Internet
Tác giả:	Dingyuan Xia, Pian Fu, Chaobing Huang, Yu Wang
Năm:	2009

13. Eva H¨ orster, Rainer Lienhart, Malcolm Slaney, Image Retrieval on Large- Scale Image Databases, University of Augsburg, Augsburg, Germany and Santa Clara, CA 95054, USA

Sách, tạp chí

Tiêu đề:	Image Retrieval on Large-Scale Image Databases

14. Jean-No¨el Rivasseau, Understanding and Applying the Latent Dirichlet Allocation model to ﬁrst-order Markov Chains, Department of Computer Science University of British Columbia Vancouver, Canada

Sách, tạp chí

Tiêu đề:	Understanding and Applying the Latent Dirichlet Allocation model to ﬁrst-order Markov Chains

15. Josef Sivic, Andrew Zisserman (2003), Video Google: A Text Retrieval Approach to Object Matching in Videos, Robotics Research Group, Department of Engineering Science University of Oxford, United Kingdom

Sách, tạp chí

Tiêu đề:	Video Google: A Text Retrieval Approach to Object Matching in Videos
Tác giả:	Josef Sivic, Andrew Zisserman
Năm:	2003

17. Hofmann, T., Probabilistic Latent Semantic Analysis, In Proceedings of UAI 18. Hofmann, T., (2001), Unsupervised Learning by Probabilistic Latent SemanticAnalysis, Machine Learning. 42, pp. 177-196

Sách, tạp chí

Tiêu đề:	Probabilistic Latent Semantic Analysis", In Proceedings of UAI 18. Hofmann, T., (2001), "Unsupervised Learning by Probabilistic Latent Semantic "Analysis
Tác giả:	Hofmann, T., Probabilistic Latent Semantic Analysis, In Proceedings of UAI 18. Hofmann, T
Năm:	2001

19. Mark Girolami, Ata Kabán (2003), On an Equivalence between PLSI and LDA, Toronto, Canada. PP. 433 - 434

Sách, tạp chí

Tiêu đề:	On an Equivalence between PLSI and LDA, Toronto
Tác giả:	Mark Girolami, Ata Kabán
Năm:	2003

20. Nguyen-Khang Pham, Annie Morin. Nouvelle approche pour la recherche d'images par le contenu. Actes d'EGC'08, RNTI-E-11, Revue des Nouvelles Technologies de l'Information - Série Extraction et Gestion des Connaissances, Cépaduès Editions , Sophia-Antipolis, February 2008, pp. 475 - 486

Sách, tạp chí

Tiêu đề:	Nouvelle approche pour la recherche d'images par le contenu

21. N.-K. Pham, A. Morin, P. Gros. Recherche d'images par l'analyse factorielle des correspondances. Actes de CORIA'08, Hermès, Trégastel, 2008, pp. 23 - 38

Sách, tạp chí

Tiêu đề:	Recherche d'images par l'analyse factorielle des correspondances

22. Ralf Krestel, Peter Fankhauser, Wolfgang Nejdl (2009), Latent Dirichlet Allocation for Tag Recommendation, New York, New York, USA

Sách, tạp chí

Tiêu đề:	Latent Dirichlet Allocation for Tag Recommendation
Tác giả:	Ralf Krestel, Peter Fankhauser, Wolfgang Nejdl
Năm:	2009

23. Ramesh Nallapati, William Cohen, and John Lafferty. Parallelized Variational EM for Latent Dirichlet Allocation: An Experimental Evaluation of Speed and Scalability. In ICDMW ’07: Proceedings of the Seventh IEEE International

Sách, tạp chí

Tiêu đề:	Parallelized Variational EM for Latent Dirichlet Allocation: An Experimental Evaluation of Speed and Scalability

25. V. Shiv Naga Prasad. A.G. Faheema, Subrata Rakshi(2002). Feature Selection in Example-Based Image Retrieval Systems, Indian Conference on Vision Graphics and Image Processing

Sách, tạp chí

Tiêu đề:	Feature Selection in Example-Based Image Retrieval Systems
Tác giả:	V. Shiv Naga Prasad. A.G. Faheema, Subrata Rakshi
Năm:	2002

Xem thêm