Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 28 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
28
Dung lượng
2,6 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG KHOA CÔNG NGHỆ 1 BÁO CÁO BÀI TẬP LỚN HỆ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN [D18-027] NHÓM 22 Đề tài: Xây dựng hệ CSDL lưu trữ tìm kiếm văn bản. Giảng viên hướng dẫn: NGUYỄN ĐÌNH HĨA Sinh viên thực hiện: Hoàng Khắc Đoàn - B18DCCN156 Trần Thanh Khải - B18DCCN299 Vũ Tiến Phúc - B18DCCN475 Học kỳ 2 năm học 2021-2022 MỤ C L Ụ C M Ụ C L Ụ C L ỜI NÓI ĐẦ U . ĐỀ B ÀI : Xây d ự ng hệ CSDL lưu trữ và tìm ki ếm văn bản. 4 CH ƯƠ NG I T ỔNG QUAN V Ề H Ệ CƠ SỞ D Ữ LI Ệ U Đ A PH ƯƠNG TI Ệ N 5 1.1 Hệ CSDL đa phương tiện . 5 1.2 Mục tiêu hệ CSDL đa phương tiện 5 CH ƯƠ NG I I M ỘT SỐ K Ỹ TH U Ậ T X Ử LÝ VÀ TÌ M KI ẾM VĂN BẢ N HI Ệ N HÀNH 7 2.1 Mơ hình Boolean 7 2.2 Mơ hình truy vấn không gian vector 10 2.3 Mơ hình tìm kiếm theo xác suất 13 2.4 Mơ hình truy vấn dự a phân cụm 13 2.5 Mơ hình LSI 17 CH ƯƠ NG I I I 3.1 H Ệ TH ỐNG NH Ậ N D ẠNG VÀ TÌ M KI ẾM VĂN BẢ N 23 Đặc trưng TF-IDF 23 3.2 Sơ đồ khối hệ thống quy trình thự c 24 3.2.1 Tiền xử lí dữ liệu- trích rút thuộc tính văn bản 25 3.2.2 Xây dự ng ma trận trọng số. 25 3.2.3 So sánh trả về k ết quả. 27 LỜI CẢM ƠN 8 2 LỜI NÓI ĐẦ U Ngày nay, vớ i sự phát triển nhanh chóng l ĩ nh vực thơng tin Internet tạo khối lượ ng thông tin vô lớ n vớ i sự phong phú, đa dạng phức tạ p loại hình như: văn bản, hình ảnh, video, siêu văn bản, đa phươ ng tiện…Vấn đề tìm kiếm thơng tin đa phươ ng tiện đượ c chuyên gia nghiên cứu việc truy tìm thơng tin phù hợ p vớ i u cầu ngườ i sử dụng Văn bản số các dạng dữ liệu đa phươ ng tiện Nó đượ c quan tâm từ hàng nghìn năm tr ướ c việc t ổ chức, s ắ p xế p lưu tr ữ các loại hình tài liệu Cho đến nay, tài liệu dướ i dạng văn chiếm đa số trong cơ quan, tổ ch ức, đặc biệt thư viện Đồng thờ i, v ăn cịn đượ c sử dụng để mơ tả các dạng khác dữ liệu đa phươ ng tiệ n như video, audio, hình ảnh Xuất phát từ nhu cầu thực tế sử dụng, số lượ ng tài liệu văn bản dạng số hóa ngày lớ n đượ c sử dụng r ất phổ biến Cùng vớ i sự ra đờ i phát triển máy tính, cơng cụ xử lý ngày hoàn thiện dựa k ỹ thuật đại để phục vụ cho nhu cầu Các mơ hình truy tìm thườ ng đượ c sử dụng phạm vi này, là: Mơ hình truy vấn Boolean, khơng gian vector, xác suất cơ sở cụm Tuy nhiên, nhượ c điểm cơ mơ hình truy tìm thơng tin từ mà ngườ i tìm kiếm sử d ụng, thườ ng không giống vớ i t ừ đượ c đánh chỉ mục thơng tin tìm kiếm Vấn đề này liên quan nhiều đến hai khía cạnh thực tế: Thứ tính đồng nghĩa (synonymy)- thơng tin Nhưng đượ c miêu tả bằng từ khác nhau, phụ thu ộc vào ngữ cảnh hay mức độ c ần thiết, ví dụ như: nhìn, trơng, thấ y hay mấ t, t ừ tr ần, t ạ thế có ý ngh ĩ a; khía cạnh thứ hai tính đa ngh ĩ a ( polysemy) – từ có nhiều ý ngh ĩ a khác ngữ cảnh khác K ết quả truy tìm có thể gồm tài liệu khơng liên quan, đơn giản thuật ng ữ xuất hi ện ngẫu nhiên giống v ớ i thuật ng ữ trong truy vấn mặt khác, tài liệu liên quan có thể bị bỏ qua bở i không chứa thuật ngữ xuất truy vấn (do tính đồng ngh ĩ a) ĐỀ BÀI: Xây dự ng hệ CSDL lưu trữ và tìm kiếm văn 1.Hãy xây dựng/sưu tầm bộ dữ li ệu văn gồm 100 files văn bản khác nhau, file dài nh ất 10 trang, file văn có đị nh dạng (SV tùy chọn định d ạng văn bản) 2.Hãy tìm hiểu k ỹ thu ật xử lý tìm kiếm văn hi ện hành 3.Xây dựng hệ thống nhận dạng tìm kiếm văn với đầu vào trang văn mới, đầu vài files văn CSDL có nội dung giống ho ặc chứa nội dung trang văn đầu vào a Trình bày sơ đồ khối hệ thống quy trình th ực yêu cầu đề bài b Trình bày thuộc tính đượ c sử dụng để nhận dạng tìm kiếm văn bản hệ thống, k ỹ thu ật để trích rút thu ộc tính đó. c Trình bày cách lưu trữ và quản lý thuộc tính văn cách nhận dạng, tìm kiếm văn CSDL dựa thuộc tính đó. CHƯƠ NG I TỔNG QUAN VỀ HỆ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN 1.1 Hệ CSDL đa phương tiện -Hệ CSDL đa phương tiện = CSDL + Đa phương tiện -Đa phương tiện gì? Là sự tích hợ p nhiều loại dữ liệu truyền thơng khác Sự tích hợp thường đượ c biểu diễn dướ i dạng tài liệu Những loại hình truyền thơng bản: text, image, audio, video, -Các dạng tài liệu: Đơn phương tiện: bao gồm loại dữ liệu truyền thông Đa phương tiện: tích hợ p nhiều loại dữ liệu truyền thơng -Các dữ liệu đa phương tiện đượ c truyền phương tiện truyền dẫn -Phương tiện truyền dẫn gì? Là thực thể/ mơi trườ ng để truyền thơng tin có liên k ết đượ c thiết lậ p Nó độc lậ p vớ i nội dung thông tin cần truyền tải Trong trình truyền thơng tin, phương tiện truyền dẫn có thể thay đổi từ dạng sang dạng khác 1.2 Mục tiêu hệ CSDL đa phương tiện -Tại cần hệ CSDL đa phương tiện? Lưu trữ thông tin đa phương tiện: văn bả n, hình ảnh, âm thanh, video… Tra cứu dữ liệu đa phương tiện: tìm kiếm thơng tin hiệu quả, chuẩn hố dữ liệu -Cơ sở dữ liệu đa phươ ng tiện bao gồm năm mục tiêu như sau: Hỗ tr ợ các kiểu dữ liệu đa phương tiện: phương tiện khác thao tác thông thườ ng như thao tác đặc biệt mà kiểu dữ liệu thơng thườ ng khơng có như tiến, lùi, dừng Có khả năng quản lý số lượ ng lớ n đối tượ ng đa phươ ng tiện: đề cậ p đến không gian lưu tr ữ của CSDL Hỗ tr ợ hiệu cao, sức chứa cao quản tr ị lưu tr ữ hiệu Có khả năng hệ CSDL truyền thống Có khả năng truy tìm thơng tin đa phươ ng tiện -Các yêu cầu đối vớ i hệ CSDL đa phương tiện: Đảm bảo chức hệ cơ sở dữ liệu Bảo trì đượ c dữ liệu chưa định dạng Cung cấp đượ c kho dữ liệu đặc biệt, lưu trữ các thiết bị trình chiếu -Các cơng cụ cần có: Kiến trúc phần mềm Đánh chỉ số nội dung lưu trữ Giao diện với ngườ i dùng Trích xuất thơng tin Thiệt bị lưu trữ Tra cứu thông tin CHƯƠ NG I I MỘT SỐ K Ỹ THUẬT XỬ LÝ VÀ TÌM KIẾM VĂN BẢN HIỆN HÀNH 2.1 Mơ hình Boolean - Mơ hình Boolean mơ hình cổ điển đơ n giản đượ c sử dụng tr ướ c đượ c sử dụng hệ thống IR Mơ hình Boolean dựa lý thuyết tậ p hợ p ( set theory) đại số Boolean ( Boolean algebra) Mô hình Boolean phổ bi ến b ở i cả lý thuyết t ậ p h ợ p đại số Boolean có mối quan hệ đơ n giản dễ hiểu, hệ IR đượ c xây dựng mơ hình này, ngườ i dùng dễ dàng sử dụng - Vớ i mơ hình Boolean văn bản đượ c biểu diễn bở i vector nhị phân, tức vector có phần tử thuộc {0, 1} Từ chỉ mục thứ k i xuất văn d j tr ọng số wij = 1, ngượ c lại wij = - Tất c ả các truy vấn đượ c biểu diễn bở i biểu thức Boolean, sử dụng ba phép toán cơ bản: AND, OR, NOT AND (term AND term 2) OR (term OR term 2) NOT (term AND NOT term2) thường dùng để giớ i hạn k ết quả tìm kiếm - Văn truy vấn sử dụng mơ hình đượ c xem như: liên quan đến nội dung truy vấn khơng, ở khơng có cách để để tìm văn bản chỉ liên quan cục bộ hay gọi liên quan phần ( partially relevant ) câu truy vấn - Cấu trúc tệ p dữ liệu gồm loại: Tệ p phẳng(Flat files): o Chứa vài văn file o Văn khơng đượ c chỉ số hố o Tìm kiếm thơng qua so khớ p khối văn (pattern) Tệp đặc trưng(Signature files): o Chứa đặc trưng(chuỗi bit) về thông tin văn o Có nhiều cách để trích đặc trưng cho văn o Câu truy vấn bao gồm đặc trưng cần tìm kiếm Tệp ngượ c(Inverted files): cấu trúc thơng dụng o Mỗi từ khoá (term) đượ c gán chỉ số riêng o Mỗi văn (bản ghi) đượ c gán số nhận dạng ID o Mỗi từ khố dùng để lưu trữ tồn bộ các ghi có chứa o Các ghi có chứa từ khoá lưu theo hàng ứng vớ i từ khố đó o Ví dụ: Term 1: Record 1, Record (vớ i Record ghi) Term 2: Record 1, Record Term 3: Record 2, Record 3, Record Term 4: Record 1, Record 2, Record 3, Record Term AND Term cho k ết quả: Record Term OR Term cho k ết quả: Record 1, Record 2, Record Term AND NOT Term cho k ết quả: Record 2, Record Hai vấn đề quan tâm tra cứu theo từ khố term: o Vị trí từ khố văn o Độ quan tr ọng từ khoá đối vớ i nội dung văn Các bước đánh chỉ số mục tự động: Tìm tồn bộ từ có file văn (tách từ dựa vào khoảng tr ắng vớ i tiếng Anh, tiếng Việt phải ý từ đơn, láy, ghép) Loại bỏ các stop words (các từ không quan tr ọng hữu ích) Tìm từ đồng ngh ĩ a, thay thế bằng từ chung VD: retrieval, retrieved, retrieving, retrieve -> retriev Tìm từ gốc từ có gốc VD: study, learning, schoolwork,… -> study Tìm tần suất xuất từ khố văn Tìm tr ọng số của từ khoá -Dựa vào tần suất xuất từ khoá văn (tf ij) -Dựa vào số văn chứa từ khoá (df j) -Wij = tf ij * log(N / df j) - Wij : tr ọng số của từ khoá j văn i - tf ij : tần suất từ khoá j văn i - df j : tổng số văn bản chứa từ khoá j - N : tổng số văn kho dữ liệu Term 1: R1, 0.3; R3, 0.5; R6, 0.8; R7, 0.2; R11, 0.1 Term 2: R2, 0.7; R3, 0.6; R7, 0.5; R9, 0.5 Term 3: R1, 0.8; R2, 0.4; R9, 0.7 -Truy vấn Boolean vớ i từ khoá có tr ọng số: +OR : Nếu ghi có nhiều từ khố truy vấn tr ọng số cao sẽ đượ c chọn K ết quả các ghi đượ c sắ p xế p theo thứ tự tr ọng số từ cao xuống thấ p VD: Term OR Term => kq: R1(0.8), R2(0.7), R9(0.7), R3(0.6), R7(0.5) +AND: Tr ọng số thấ p sẽ đượ c chọn cho ghi có nhiều từ khố truy vấn VD: Term AND Term => kq: R9(0.5), R2(0.4) +NOT: Hiệu số giữa tr ọng số của ghi có từ khố sẽ đượ c sử dụng VD: Term AND NOT Term => kq: R3(0.6), R7(), R2() Tạo tệp ngượ c - Ưu điểm mơ hình Boolean: Là mơ hình r ất đơn giản sở lý thuyết tậ p hợ p Dễ hiểu dễ cài đặt Đượ c sử dụng hầu hết hệ thống thương mại - Nhược điểm mơ hình Boolean: Vì d ựa phép tốn logic nhị phân nên v ăn b ản đượ c tìm kiếm chỉ xác định hai tr ạng thái: liên quan không vớ i câu truy vấn Việc chuyển câu truy vấn ngườ i dùng sang dạng biểu th ức Boolean không đơ n giản K ết quả truy vấn r ất phụ thuộc vào biểu thức truy vấn Các tài liệu tr ả về không đượ c sắ p xế p theo mức liên quan tớ i câu truy vấn (ranking ) 2.2 Mô hình truy vấn khơng gian vector - Khái niệm mơ hình truy tìm Bool đơ n giản đượ c sử dụng hầu hết hệ thống thươ ng mại Tuy nhiên tươ ng đối khó hình thành câu truy vấn Bool k ết quả truy vấn r ất nhạy cảm vớ i công thức truy vấn Tr ọng số thuật ngữ truy vấn thườ ng không đượ c sử dụng câu truy vấn thườ ng r ất ngắn Để tránh vấn đề này, mơ hình truy vấn khác như không gian vector cơ sở cụm (cluster ) đượ c sử dụng thay - Mơ hình khơng gian vector giả sử r ằng tồn tậ p cố định thuật ngữ chỉ mục để đại diện tài liệu câu truy vấn Tài liệu Di câu truy vấn Q j đượ c biểu diễn như hai vector: Di = [Ti1, Ti2, , Tik , , TiN] Q j = [Q j1, Q j2, , Q jk , , Q jN] là tr ọng số của từ khóa thứ trong văn , là tr ọng số của từ khóa thứ trong cu truy vấn , là tổng số từ khóa đượ c sử dụng ( cố định) và có thể mang giá tr ị nhị phn {1, 0} mang giá tr ị tr ọng số nào 10 -Phân cụm: q trình nhóm ghi giống về nội dung vào thành cụm theo quy tắc: Các ghi cụm phải giống Các ghi cụm khác khác - Các cụm đượ c biểu diễn bở i vài thuộc tính đó, đượ c gọi đại diện cụm Đại diện cho cụm gi ống như truy vấn đầu vào, sẽ đượ c phán đoán bên cụm chứa tài liệu phù hợ p vớ i truy vấn Nói cách khác, hy vọng đại diện cụm để phân biệt tài liệu phù hợ p vớ i tài liệu không phù hợ p đối sánh vớ i bất k ỳ truy vấn - Một số thuật toán để phân cụm: Thuật toán khai phá luật kết hợp Apriori (Association Rule) Phn cụm phn cấp (Hierarchical Clustering) Phn cụm theo mật độ DBSCAN Phn cụm mơ hình EM Thuật toán k-Means (Clustering) 14 - Ứng dụng: những khách hàng mua mặt hàng mua thêm mặt hàng kia; hoặc người dùng xem phim có xu hướng thích xem phim kia, dựa vào ta xy dựng hệ thống gợi ý khách hàng (Recommendation System) nhằm thc đẩy nhu cầu mua sắm xem phim…. -Các phương pháp phn cụm: Phân cụm dựa so sánh theo cặ p o Mỗi ghi đượ c coi là một cụm chứa riêng nó o Hai ghi giống đượ c gộ p vớ i để tạo thành cụm mớ i o Gộ p cụm mớ i thành lậ p vớ i ghi, cụm ghi giống vớ i nó nhất o Tiêu chí để gộ p hai cụm ghi vào thành cụm: Dựa tr ên sự giống cặ p ghi hai cụm Dựa tr ên sự khác cặ p ghi hai cụm Dựa tr ên trung bình sự giống tất cả các cặ p ghi hai cụm o Quá tr ình đượ c lặ p lại đến chỉ cn cụm o Tiêu chí dựa tr ên giống theo cặ p: o Tiêu chí dựa tr ên khác theo cặ p: Phân cụm dựa lựa chọn ngẫu nhiên 15 o Bản ghi đượ c chọn làm cụm o Lựa chọn tiế p ghi ngẫu nhiên khác, tính tốn sự giống ghi vớ i cụm ghi đ có o Nếu ghi mớ i giống vớ i cụm đ có (dựa ngưỡ ng so sánh ) đượ c gộp vào đó, khơng tr ở thành cụm mớ i o Chu trình lặ p lại đến toàn bộ bản ghi đượ c phân thành cụm Phương pháp k -means o Các ghi đượ c biểu diễn bở i vector thuộc tính o Khở i tạo K điểm gốc không gian dữ liệu o Các ghi lần lượ t đượ c chọn vào K nhóm gần theo khoảng cách đến điểm gốc o Vị tr í mớ i K điểm gốc đượ c thiết lậ p là điểm trung bình K nhóm dữ liệu mớ i hình thành o o Chu tr ình đượ c lắ p lại Khơng cn thay đổi nhóm ghi Điểm gốc nhóm khơng thay đổi Vượt số cố định vng lặp cho trước Cụm ghi gần vớ i cu truy vấn đượ c xác định dựa tr ên khoảng cách cu truy vấn với điểm trung bình cụm o Nếu cụm ghi chứa dữ liệu thì tồn bộ các ghi cụm sẽ là k ết quả tra cứu o Nếu cụm ghi nhiều dữ liệu: chỉ 1 bản ghi giống vớ i cu truy vấn sẽ đượ c làm k ết -Truy xuất dựa tên sở cụm: Khi cụm đượ c hình thành, tìm kiếm tài liệu sẽ hiệu Mỗi cụm có vector đại diện, thườ ng tâm chúng Tâm cụm đượ c tính bằng vector trung bình tài liệu nhóm (tr ọng số 16 thuật ngữ tâm i đượ c xác định tr ọng số trung bình thuật ngữ i tài liệu) Trong truy tìm tài li ệu, vector câu truy vấn đượ c so sánh vớ i tâm cụm Sau nhận cụm có tính tươ ng đồng cao vớ i vector truy vấn, sẽ có hai khả năng: o Mọi tài liệu cụm đượ c tìm Điều xảy cụm nhỏ o Vector truy tìm đượ c so sánh vớ i vector tài liệu cụm chỉ tài liệu có tính tươ ng đồng cao đượ c tìm làm k ết Ưu điểm Nhược điểm - Đơn giản, dễ sử dụng - Thườ ng phải biết trướ c số cụm - Có hiệu quả cao thờ i gian tìm - Chỉ áp dụng đượ c xác định đượ c kiếm giá tr ị trung bình - Khơng thể xử lý nhiễu - Cần phương pháp chọn dữ liệu thơ tốt 2.5 Mơ hình LSI - Tại ta dùng mơ hình LSI cho tìm kiếm văn bản? - Truy tìm khơng gian vector có thể d ẫn tớ i sự truy tìm nghèo nàn: Trong câu tr ả l ờ i có thể bao gồm cả nh ững tài liệu khơng liên quan; tài liệu phù hợ p mà khơng chứa thuật ngữ chỉ mục khơng đượ c truy tìm Lý việc truy tìm dựa vào thuật ngữ chỉ mục mậ p mờ , không rõ ràng Hơ n nữa, nhu cầu thơng tin ngườ i sử dụng có liên quan đến nh ững khái niệm ý tưở ng nhiều hơn là thuật ngữ chỉ mục - Ý tưở ng: Trong mơ hình khơng gian vector, tài liệu đượ c bi ểu diễn bở i vector tr ọng số thuật ngữ N chiều, thành phần vector tr ọng số của thuật ngữ trong số N thuật ngữ của tài liệu Nếu tậ p tài liệu có M tài 17 liệu, tậ p tài liệu đượ c biểu diễn ma tr ận A kích thướ c M×N Trong tìm kiếm, câu truy vấn đượ c bi ểu diễn vector tr ọng số thuật ngữ N chiều Độ tươ ng đồng tài liệu Di câu truy vấn Q j đượ c tính bằng tích vơ hướ ng vector truy vấn vector tài liệu ở phần Như thế ta hoàn toàn thấy nhược điểm mơ hình là: Thứ nhấ t: Tậ p hợ p tài liệu (ví dụ: Thư viện) có thể chứa đến hàng triệu tài liệu vớ i hàng ngàn khái niệm (M N r ất lớ n) Vậy đi hỏi tổng số bộ nhớ r ất lớ n để lưu tr ữ Ví dụ, Thư viện có triệu tài liệu vớ i 10.000 thuật ngữ thì cần đến 10GB bộ nhớ lưu tr ữ vớ i phần tử chiếm byte Thứ hai: cần M phép nhân vector N chiều tìm kiếm n ếu sử dụng thướ c đo tươ ng tự tích vơ hướ ng đi hỏi nhiều hơ n thế sử dụng thướ c đo tươ ng tự hệ số cosin Khi M N lớ n, thờ i gian địi hỏi để tính tốn sẽ khơng đáp ứng vớ i việc tìm kiếm tr ực tuyến - Chỉ mục ngữ ngh ĩ a tiềm ẩn (LSI - Latent Semantic Indexing) đượ c Falotsos, Foltz, Dumais Bently phát triển để giải phần khó khăn Ý tưở ng cơ LSI thực nhóm thuật ngữ tươ ng đươ ng để hình thành “khái niệm” hay “chủ đề” tài liệu sẽ đượ c đại diện bở i khái niệm hay chủ đề này Vì tổng số khái niệm sẽ nhỏ hơn nhiều so vớ i tổng số thuật ngữ, địi hỏi bộ nhớ lưu tr ữ hơ n thờ i gian tính tốn sẽ nhanh hơn. 18 - Trên mơ hình minh họa cách tiế p c ận, t ồn tầng ở t ạo thành mối liên hệ giữa truy vấn tài liệu Cho thấy, khơng gian khái niệm có thể có kích thướ c nhỏ hơ n Chẳng hạn, xác định đượ c truy vấn t3 vớ i d2, d3, d4 tậ p tr ả lờ i dựa vào việc quan sát thấy chúng có liên quan đến khái niệm c2 Có thể có khả quan tìm đượ c biểu diễn phù hợ p vớ i chuẩn ngôn ngữ t ự nhiên, cơng việc r ất khó đạt đượ c Bằng cách đơ n giản hơ n, có thể sử dụng tính chất tốn học để tính tốn ma tr ận thuật ngữ - tài liệu (term – document ) để xác định khái niệm - Mục đích mơ hình giảm đượ c kích thướ c khơng gian, tăng khả năng tính tốn sơ đồ các tài liệu truy vấn, gồm khái niệm ở mức cao vớ i s ố lượ ng h ơ n so vớ i nh ững thuật ngữ chỉ mục Vì thế, truy tìm (và phân cụm) không gian khái niệm đượ c giảm lượ c tốt hơ n so vớ i truy tìm khơng gian kích thướ c lớ n thuật ngữ chỉ mục - Nhiệm v ụ của LSI sử dụng k ỹ thuật SVD gọi k ỹ thuật tách giá tr ị số ít, đượ c sử d ụng nhiều lý thuyết ma tr ận nhằm gi ảm kích thướ c bảng 19 tr ọng s ố Thông thườ ng, bất k ỳ gi ảm thiểu d ẫn t ớ i mát thông tin, vậy, ta phải đảm b ảo r ằng SVD phải có “năng lực thơng tin” ( information efficient ) cao Có ngh ĩ a là, chúng chỉ phần bảng tần số ít ý ngh ĩ a Nói cách khác, k ỹ thuật LSI sử dụng ma tr ận thuật ngữ - tài liệu (t*d) để bi ểu diễn ma tr ận nhỏ hơ n (k*k) Nó đượ c thực việc loại bỏ vài hàng vài cột ma tr ận tr ọng số gốc Các bướ c thực cơ LSI như sau: Bướ c l: Đánh tần s ố thuật ng ữ và xây dựng ma tr ận term-doc A ma tr ận truy vấn q; Bướ c 2: Tách ma tr ận A thành tích ma tr ận tìm ma tr ận U, S, V, đó: A = USVT Bướ c 3: Gi ảm chiều ma tr ận b ằng cách giữ l ại cột đầu c U, V cột, hàng đầu S Bướ c 4: Tìm toạ độ vector tài liệu mớ i không gian giảm chiều Bướ c 5: Tìm tọa độ vector truy vấn mớ i không gian giảm chiều q= * * Bướ c 6: S ắ p x ế p tài liệu theo thứ t ự giảm dần giá tr ị tươ ng đồng cosin câu truy vấn tài liệu Cơng thức tính tốn đế tính giá tr ị tương đồng cosin mơ hình khơng gian vector sở Thực chất tính tích ể m toạ độ vector câu truy vấn tài liệu chia cho tích độ dài vector truy vấn vector tài liệu 20 - Thế kĩ thuật phân tích SVD gì? - Phân tích cấu trúc latent semantic bắt đầu vớ i ma tr ận thuật ngữ tài liệu Ma tr ận sau đượ c phân tích việc phân tích giá tr ị số ít (SVD) để nhận đượ c mơ hình cấu trúc latent semantic đặc biệt SVD có mối quan hệ mật thiết vớ i số k ỹ thuật toán học thống kê, bao gồm việc phân tích vector phân tích hệ số - Định lý SVD đượ c phát biểu sau: - Vớ i ma tr ận A bất k ỳ đều có thể phn tích dướ i dạng: A = U.S.VT - Trong đó, U ma trận tr ực giao cột M r vớ i r h ạng ma tr ận A S ma tr ận đườ ng chéo V ma tr ận tr ực giao cột N r - Ví dụ vớ i ma tr ận t*d thuật ngữ và tài liệu A thì: A = U.S.VT - Tr ong : U ma tr ận vector riêng nhận từ ma tr ận A×AT S ma trận đường chéo (m*m) củ a cá c giá trị sô ́t đợ c sa p xêp giả m dân với m = min(t,d), hạng ma trận A V ma tr ận vector riêng nhận từ ma tr ận AT×A Các thuật tốn xây dựng SVD ma tr ận t×d có độ phức tạ p O(d3) d≈t 21 - Hệ số k gì? k là số chiều đượ c chọn mơ hình giảm lượ c (k m) - Giảm lượ c số lượ ng chiều, lựa chọn k là tớ i hạn vớ i thực chng ta Đng như ý tưở ng, chng ta muốn giá tr ị k đủ lớn để phù hợ p vớ i đặc tính cấu tr c thực dữ liệu, đủ nhỏ để lọc chi tiết không phù hợ p hay chi tiết không quan tr ọng Theo tài liệu nghiên cứu về LSI, qua thực nghiệm tr ên tậ p dữ liệu văn cụ thể, tác giả chọn k từ 50 đến 100 cho tậ p dữ liệu nhỏ và từ 100 đến 500 cho tậ p dữ liệu lớ n So sánh mơ hình tìm kiếm: Do tính hiệu quả thấ p mơ hình Boolean, mơ hình tìm kiếm theo xác suất nên mơ hình tìm kiếm theo khơng gian vector mơ hình LSI đượ c nghiên cứu phục vụ cho việc xây dựng hệ thống IR đại Mơ hình LSI đượ c đưa để khắc phục hạn chế của mơ hình khơng gian vector vấn đề đồng ngh ĩ a đa ngh ĩ a từ Hiệu quả của mơ hình LSI đượ c đánh giá cao hơ n nhiều so vớ i mơ hình khơng gian vector - Gỉả sử ta phải lưu trữ ma tr ận A(M*N) vớ i M=1.000.000, N=1.000.000, mơ hình khơng gian vector ta phải sử dụng M*N=10GB khơng gian lưu tr ữ thì với mơ hình LSI, sở SVD chng ta lưu trữ các ma tr ận U, S, V thay cho A vớ i, vớ i việc chọn hệ số k phù hợ p ta sẽ có khơng gian lưu trữ cần dùng r ất nhỏ so vớ i 10 GB - Trong mơ hình LSI, lượ ng dữ li ệu lưu tr ữ ch ỉ mục hơn nhiều so vớ i mơ hình khơng gian vector nên việc tính tốn cho thủ tục truy vấn sẽ nhanh hơn r ất nhiều 22 CHƯƠ NG I II HỆ THỐNG NHẬN DẠNG VÀ TÌM KIẾM VĂN BẢN - Đặc điểm bộ dữ liệu: gồm chủ đề: Truyện(56 file- 17 đầu truyện), Thơ(8 file), Bài giảng(26 file), Tài liệu nấu ăn(10 file) 3.1. Đặc trưng TF - I D F TF-IDF (Term Frequency – Inverse Document Frequency) phương pháp r ất phổ biến xử lý văn Nó đượ c tính theo cơng thức TF-IDF = TF x IDF Trong đó: TF (Term Frequency): Tần xuất suất từ trong tài liệu Có r ất nhiều cơng thức tính TF khác nhau, tấ t cả đều dựa sở : Không phải từ xuất nhiều tài li ệu mớ i có nhiều độ liên quan Bản chất sự đóng góp TF đến độ liên quan tài liệu về bản chất hàm dướ i tuyến tính Tần suất xuất từ hoặc cụm từ (TF) phản ánh xem bạn có sử dụng từ khóa thườ ng xuyên dùng hay không Tuy nhiên về bản chất khơng mang lại nhiều giá tr ị vì bạn cần đo lường độ quan tr ọng cụm từ, khơng chỉ là tần suất về số lần sử dụng Nếu khơng từ ngữ chức (là từ nối, giớ i từ, đại từ, …) sẽ thống tr ị hệ thống tìm kiếm Để tránh việc đó, chng ta cần đến chỉ số đếm IDF IDF (Inverse Document Frequency): Tần suất nghịch cụm từ trong tậ p hợ p gồm nhiều tài liệu Chỉ số này thể hiện giá tr ị thực từ khóa cụ thể Nó đo lườ ng tỷ lệ giữa tổng số lượ ng tài liệu vớ i số lượ ng tài liệu chứa từ khóa Có nhiều cơng thức để tính IDF, đượ c xây dựng chất nó: 23 Theo cơng thức trên, từ khóa từ phổ biến, khả năng cao sẽ đượ c sử dụng r ất nhiều tài liệu Do vậy, giá tr ị IDF sẽ r ất nhỏ, ta nhân vớ i chỉ số TF, giá tr ị tổng thể sẽ khơng thay đổi nhiều Ngượ c lại, cụm từ đó chỉ đượ c tìm thấy vài tài liệu, giá tr ị IDF sẽ cao hơn, từ đó dẫn tới điểm số TF-IDF cao 3.2. Sơ đồ khối hệ thống quy trình thực hiện Bộ dữ liệu Tiền xử lý dữ liệu trích rt đặc trưng Tính TF-IDF từ khóa văn Trang văn đầu vào Ma tr ận tr ọng số X Vector tr ọng số của trang văn Độ tương đồng Sắ p xếp nhn văn theo độ tương đồng giảm dần Các file văn có nội dung giống với trang văn đầ u vào 24 3.2.1 Tiền xử lí dữ liệu- trích rút thuộc tính văn - Yêu cầu với file văn bộ dữ liệu: tất cả file phải '.docx' - Loại bỏ hết số trong văn - Loại bỏ các kí tự đặc biệt Danh sách kí tự đặc biệt: `!"#$%&\'()*+,-./:;?@[\\]^_`{|}~\\d”“` - Giữ lại chữ - Xử lý dữ liệu cho toàn bộ 100 file doc, dữ liệu target đưa vào sẽ xử lý dữ liệu tương tự 3.2.2 Xây dự ng ma trận trọng số - Từ bộ từ khóa trên, tính giá tr ị tf-idf ứng vớ i từ khóa, vớ i cơng thức đ nêu ở trên Cơng thức sẽ đếm số lượ ng lần xuất từ trên đoạn văn toàn bộ nguồn dữ liệu tính tốn để lấy giá tr ị đại diện - Phương pháp: K ết hợ p TF x IDF Cách tiế p cận TF x IDF sẽ ướ c lượng độ quan tr ọng từ đối vớ i văn danh sách tậ p tài liệu văn cho tr ướ c Nguyên lý cơ bản TF x IDF là: “Độ quan tr ọng từ sẽ tăng lên vớ i số lần xuất nó trong văn và sẽ giảm xuống từ đó xuất nhiều văn khác Lý do đơ n giản là vì nếu từ xuất nhiều văn khác thì có ngh ĩ a là nó là từ r ất thơng dụng phổ biến, vì thế khả năng nó là từ khố sẽ giảm xuống Do đó độ đo sự quan tr ọng từ trong tài liệu f sẽ đượ c tính = tf x idf Với tf: độ phổ biến từ t tài liệu f idf: nghịch đảo độ phổ biến từ t tài liệu cn lại 25 Công thức tính tổng quát: W = tf * idf Vớ i: tf = Ns(t) / Ns(t): số lần xuất từ t tài liệu f : Tổng số từ tài liệu f ) – log(d: t idf = log( ) : Tổng số văn liệu d: t : số tài liệu có chứa từ t Ví dụ: 1 v ăn có 100 từ, đó từ “computer ” xuất 10 lần thì độ phổ biến: if(“computer ”) = 10/100 = 0.1 Giả sử bộ liệu có 1000 tài liệu, đó có 200 tài liệu chứa từ “computer ” idf = log (1000/200) = 0.699 Như vậy ta tính độ đo tf x idf = 0.1x 0.699 = 0.0699 Nếu tf x idf v ượ t ngưỡ ng xác định cho trước, cụm từ khố đượ c tìm thấy và đượ c gán tr ọng số Những từ nào có tr ọng số cao thì đượ c chọn Ưu điểm: Các tài liệu có thể đượ c sắ p xế p theo mức độ liên quan đến nội dung yêu cầu Tiến hành lưu tr ữ và tìm kiếm đơ n giản hơ n phươ ng phá p logic Nhược điểm: Việc xử lý sẽ chậm hệ thống từ vựng là lớ n phải tính tốn tr ên tồn bộ các vector tài liệu. Khi biểu diễn vector vớ i hệ số là số tự nhiên sẽ làm tăng mức độ xác việc tìm kiếm làm tốc độ tính tốn giảm nhiều 26 phé p nhn vector phải tiến hành tr ên số tự nhiên số thực, hơ n việc lưu tr ữ các vector sẽ tốn k ém và phức tạ p. Hệ thống không linh hoạt lưu tr ữ các từ khoá Chỉ cần thay đổi r ất nhỏ trong bảng từ vựng sẽ k éo theo là vector hố lại tồn bộ các tài liệu lưu tr ữ, là sẽ bỏ qua từ có ngh ĩ a bổ sung tài liệu đượ c m hố tr ước Chiều vector theo cách biểu diễn là r ất lớ n, bở i vì chiều nó đượ c xác định số lượ ng từ khác tậ p hợ p văn bản. - Xây dựng “Bag of words” ti chứa tất cả các từ khố tồn bộ văn bản - Từ bộ tr ọng số tính đượ c ở trên, xây dựng ma tr ận tr ọng số của văn Trong ma tr ận tr ọng số, số hàng = số văn (ở đy 100), cn số cột = độ dài từ điển “Bag of words” - Ta tính độ tương đồng tf-idf target vớ i tf-idf 100 file dữ liệu đ cung cấ p, cosine similarity công thức có thể hỗ tr ợ việc tính tốn Giá tr ị của cosine similarity nằm khoảng từ 0 đến 1, tương ứng vớ i mức độ giống hai văn - Tính cosine similarity target 100 file gốc 3.2.3 So sánh trả về k ết - Sau sắ p xế p lại độ tương đồng theo chiều giảm dần - Tr ả về file văn có độ tương đồng lớ n 27 LỜI CẢM ƠN Chúng em xin gửi lời cảm ơn chn thành đến thầy Nguyễn Đình Hóa đ tạo điều kiện thuận lợi cho chúng em học tập, dày công truyền đạt kiến thức hướng dẫn chúng em trình làm đề tài này Chúng em đ cố gắng vận dụng kiến thức đ học học kỳ qua để hoàn thành báo cáo Nhưng kiến thức hạn chế nhiều kinh nghiệm thực tiễn nên khó tránh khỏi thiếu sót q trình nghiên cứu trình bày Rất kính mong sự góp ý của thầy để bài báo cáo chúng em hoàn thiện hơn. Một lần nữa, chúng em xin trn trọng cảm ơn quan tm gip đỡ thầy đ gip đỡ chúng em trình thực đề t ài Xin trn trọng cảm ơn! 28 ... TỔNG QUAN VỀ HỆ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN 1.1 Hệ CSDL đa phương tiện? ? -Hệ? ?CSDL đa phương tiện = CSDL + Đa phương tiện -Đa phương tiện gì? Là sự tích hợ p nhiều loại dữ? ?liệu truyền thơng... cứu dữ? ?liệu đa phương tiện: tìm kiếm thơng tin hiệu quả, chuẩn hố dữ? ?liệu -Cơ sở? ?? ?dữ? ?liệu đa phươ ng tiện bao gồm năm mục tiêu như sau: Hỗ tr ợ các kiểu dữ? ?liệu đa phương tiện: phương tiện. .. thơng tin, phương tiện truyền dẫn có thể thay đổi từ dạng sang dạng khác 1.2 Mục tiêu hệ CSDL đa phương tiện? ? -Tại cần hệ? ?CSDL đa phương tiện? Lưu trữ? ?thông tin đa phương tiện: văn bả n, hình