1. Trang chủ
  2. » Tất cả

Bài tập lớn hệ cơ sở dữ liệu đa phương tiện đề tài xây dựng hệ csdl lưu trữ và tìm kiếm văn bản

28 24 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 28
Dung lượng 2,6 MB

Nội dung

    HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG  KHOA CÔNG NGHỆ 1  BÁO CÁO BÀI TẬP LỚN  HỆ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN  [D18-027] NHÓM 22 Đề tài: Xây dựng hệ CSDL lưu trữ tìm kiếm văn bản.  Giảng viên hướng dẫn:   NGUYỄN ĐÌNH HĨA   Sinh viên thực hiện:   Hoàng Khắc Đoàn - B18DCCN156 Trần Thanh Khải - B18DCCN299 Vũ Tiến Phúc - B18DCCN475 Học kỳ 2 năm học 2021-2022     MỤ C L Ụ C  M Ụ C L Ụ C    L ỜI NÓI ĐẦ U  .   ĐỀ  B ÀI : Xây d ự ng hệ CSDL lưu trữ  và tìm ki ếm văn bản.  4  CH ƯƠ NG I T ỔNG QUAN V  Ề  H  Ệ  CƠ  SỞ  D Ữ  LI  Ệ U Đ A PH ƯƠNG  TI  Ệ N   5  1.1 Hệ CSDL đa phương tiện . 5 1.2 Mục tiêu hệ CSDL đa phương tiện 5  CH ƯƠ NG I I M ỘT SỐ K Ỹ TH U  Ậ T X Ử LÝ VÀ TÌ M KI  ẾM VĂN BẢ N HI  Ệ N HÀNH  7   2.1 Mơ hình Boolean  7 2.2 Mơ hình truy vấn không gian vector 10    2.3 Mơ hình tìm kiếm theo xác suất 13 2.4 Mơ hình truy vấn dự a phân cụm 13  2.5 Mơ hình LSI 17   CH ƯƠ NG I I I 3.1 H Ệ     TH ỐNG NH  Ậ N D ẠNG VÀ TÌ M KI  ẾM VĂN BẢ N   23  Đặc trưng TF-IDF 23   3.2 Sơ đồ khối hệ thống quy trình thự c 24  3.2.1 Tiền xử  lí dữ  liệu- trích rút thuộc tính văn bản  25    3.2.2  Xây dự ng ma trận trọng số.  25 3.2.3 So sánh trả về k ết quả.  27    LỜI CẢM ƠN  8 2      LỜI NÓI ĐẦ U  Ngày nay, vớ i sự  phát triển nhanh chóng l ĩ nh vực thơng tin Internet tạo khối lượ ng thông tin vô lớ n vớ i sự phong phú, đa dạng phức tạ p loại hình như: văn  bản, hình ảnh, video, siêu văn bản, đa  phươ ng tiện…Vấn đề  tìm kiếm thơng tin đa phươ ng tiện đượ c chuyên gia nghiên cứu việc truy tìm thơng tin phù hợ  p vớ i u cầu ngườ i sử dụng Văn bản số các dạng dữ liệu đa phươ ng tiện Nó đượ c quan tâm từ hàng nghìn năm  tr ướ c việc t ổ chức, s ắ p xế p lưu tr ữ các loại hình tài liệu Cho đến nay, tài liệu dướ i dạng văn chiếm đa số trong cơ  quan, tổ ch ức, đặc biệt thư  viện Đồng thờ i, v ăn cịn đượ c sử dụng để mơ tả các dạng khác dữ liệu đa phươ ng tiệ n như  video, audio, hình ảnh Xuất phát từ nhu cầu thực tế sử dụng, số  lượ ng tài liệu văn bản dạng số hóa ngày lớ n đượ c sử dụng r ất phổ biến Cùng vớ i sự ra đờ i phát triển máy tính, cơng cụ xử lý ngày hoàn thiện dựa k ỹ  thuật đại để  phục vụ cho nhu cầu Các mơ hình truy tìm thườ ng đượ c sử dụng phạm vi này, là: Mơ hình truy vấn Boolean, khơng gian vector, xác suất cơ   sở   cụm Tuy nhiên, nhượ c điểm cơ   mơ hình truy tìm thơng tin từ mà ngườ i tìm kiếm sử d ụng, thườ ng không giống vớ i t ừ  đượ c đánh chỉ mục thơng tin tìm kiếm Vấn đề này liên quan nhiều đến hai khía cạnh thực tế: Thứ  tính đồng nghĩa (synonymy)- thơng tin  Nhưng đượ c miêu tả   bằng từ khác nhau, phụ thu ộc vào ngữ cảnh hay mức độ c ần thiết, ví dụ  như: nhìn, trơng, thấ   y hay mấ t, t ừ   tr ần, t ạ thế   có ý ngh ĩ a; khía cạnh thứ hai tính đa ngh ĩ a ( polysemy)  –   từ  có nhiều ý ngh ĩ a khác ngữ  cảnh khác K ết quả truy tìm có thể gồm tài liệu khơng liên quan, đơn  giản thuật ng ữ xuất hi ện ngẫu nhiên giống v ớ i thuật ng ữ trong truy vấn mặt khác, tài liệu liên quan có thể  bị  bỏ  qua bở i không chứa thuật ngữ xuất truy vấn (do tính đồng ngh ĩ a)     ĐỀ BÀI: Xây dự ng hệ CSDL lưu trữ  và tìm kiếm văn 1.Hãy xây dựng/sưu tầm bộ dữ li ệu văn gồm 100 files văn  bản khác nhau, file dài nh ất 10 trang, file văn có đị nh dạng (SV tùy chọn định d ạng văn bản) 2.Hãy tìm hiểu k ỹ thu ật xử lý tìm kiếm văn hi ện hành 3.Xây dựng hệ thống nhận dạng tìm kiếm văn với đầu vào trang văn mới, đầu vài files văn CSDL có nội dung giống ho ặc chứa nội dung trang văn đầu vào a Trình bày sơ đồ khối hệ thống quy trình th ực yêu cầu đề bài  b Trình bày thuộc tính đượ c sử dụng để nhận dạng tìm kiếm văn  bản hệ thống, k ỹ thu ật để trích rút thu ộc tính đó.  c Trình bày cách lưu trữ và quản lý thuộc tính văn cách nhận dạng, tìm kiếm văn CSDL dựa thuộc tính đó.      CHƯƠ NG I TỔNG QUAN VỀ HỆ CƠ  SỞ  DỮ  LIỆU ĐA PHƯƠNG TIỆN 1.1 Hệ CSDL đa phương tiện  -Hệ CSDL đa phương tiện = CSDL + Đa phương tiện -Đa phương tiện gì?  Là sự tích hợ  p nhiều loại dữ liệu truyền thơng khác  Sự tích hợp thường đượ c biểu diễn dướ i dạng tài liệu   Những loại hình truyền thơng bản: text, image, audio, video, -Các dạng tài liệu:  Đơn phương tiện: bao gồm loại dữ liệu truyền thông  Đa phương tiện: tích hợ  p nhiều loại dữ liệu truyền thơng -Các dữ liệu đa phương tiện đượ c truyền phương tiện truyền dẫn -Phương tiện truyền dẫn gì?  Là thực thể/ mơi trườ ng để truyền thơng tin có liên k ết đượ c thiết lậ p    Nó độc lậ p vớ i nội dung thông tin cần truyền tải Trong trình truyền thơng tin, phương tiện truyền dẫn có thể  thay đổi từ dạng sang dạng khác 1.2 Mục tiêu hệ CSDL đa phương tiện  -Tại cần hệ CSDL đa phương tiện?  Lưu trữ thông tin đa phương tiện: văn bả n, hình ảnh, âm thanh, video…       Tra cứu dữ liệu đa phương tiện: tìm kiếm thơng tin hiệu quả, chuẩn hố dữ liệu -Cơ sở  dữ liệu đa phươ ng tiện bao gồm năm mục tiêu như sau:  Hỗ tr ợ các kiểu dữ liệu đa phương tiện: phương tiện khác thao tác thông thườ ng như  thao tác đặc biệt mà kiểu dữ  liệu thơng thườ ng khơng có như tiến, lùi, dừng  Có khả năng quản lý số  lượ ng lớ n đối tượ ng đa phươ ng tiện: đề  cậ p đến không gian lưu tr ữ của CSDL  Hỗ tr ợ hiệu cao, sức chứa cao quản tr ị lưu tr ữ hiệu  Có khả năng hệ CSDL truyền thống  Có khả năng truy tìm thơng tin đa phươ ng tiện -Các yêu cầu đối vớ i hệ CSDL đa phương tiện:  Đảm bảo chức hệ cơ sở  dữ liệu  Bảo trì đượ c dữ liệu chưa định dạng  Cung cấp đượ c kho dữ liệu đặc biệt, lưu trữ các thiết bị trình chiếu -Các cơng cụ cần có:  Kiến trúc phần mềm  Đánh chỉ số nội dung lưu trữ   Giao diện với ngườ i dùng  Trích xuất thơng tin  Thiệt bị lưu trữ   Tra cứu thông tin     CHƯƠ NG I I MỘT SỐ K Ỹ THUẬT XỬ  LÝ VÀ TÌM KIẾM VĂN BẢN HIỆN HÀNH   2.1 Mơ hình Boolean  - Mơ hình Boolean mơ hình cổ  điển đơ n giản đượ c sử  dụng tr ướ c đượ c sử  dụng hệ  thống IR Mơ hình Boolean dựa lý thuyết tậ p hợ  p ( set theory) đại số  Boolean ( Boolean algebra) Mô hình Boolean phổ bi ến b ở i cả lý thuyết t ậ p h ợ  p đại số  Boolean có mối quan hệ  đơ n giản dễ  hiểu, hệ  IR đượ c xây dựng mơ hình này, ngườ i dùng dễ dàng sử dụng - Vớ i mơ hình Boolean văn  bản đượ c  biểu diễn bở i vector nhị phân, tức vector có phần tử  thuộc {0, 1} Từ  chỉ  mục thứ  k i xuất văn d  j tr ọng số wij = 1, ngượ c lại wij = - Tất c ả các truy vấn đượ c  biểu diễn bở i biểu thức Boolean, sử dụng ba  phép toán cơ  bản: AND, OR, NOT   AND (term AND term 2)  OR (term OR term 2)   NOT (term AND NOT term2) thường dùng để giớ i hạn k ết quả  tìm kiếm - Văn  truy vấn sử  dụng mơ hình đượ c xem như: liên quan đến nội dung truy vấn khơng, ở   khơng có cách để  để tìm văn bản chỉ  liên quan cục bộ  hay gọi liên quan phần ( partially relevant ) câu truy vấn - Cấu trúc tệ p dữ liệu gồm loại:   Tệ p phẳng(Flat files): o Chứa vài văn file o Văn khơng đượ c chỉ số hố o Tìm kiếm thơng qua so khớ  p khối văn (pattern) Tệp đặc trưng(Signature files):  o Chứa đặc trưng(chuỗi bit) về thông tin văn      o Có nhiều cách để trích đặc trưng cho văn o Câu truy vấn bao gồm đặc trưng cần tìm kiếm Tệp ngượ c(Inverted files): cấu trúc thơng dụng o Mỗi từ khoá (term) đượ c gán chỉ số riêng o Mỗi văn (bản ghi) đượ c gán số nhận dạng ID o Mỗi từ khố dùng để lưu trữ tồn bộ các ghi có chứa o Các ghi có chứa từ  khoá lưu theo hàng ứng vớ i từ khố đó  o Ví dụ:  Term 1: Record 1, Record (vớ i Record ghi)  Term 2: Record 1, Record  Term 3: Record 2, Record 3, Record  Term 4: Record 1, Record 2, Record 3, Record Term AND Term cho k ết quả: Record Term OR Term cho k ết quả: Record 1, Record 2, Record Term AND NOT Term cho k ết quả: Record 2, Record   Hai vấn đề quan tâm tra cứu theo từ khố term: o Vị trí từ khố văn o Độ quan tr ọng từ khoá đối vớ i nội dung văn Các bước đánh chỉ số mục tự động: Tìm tồn bộ từ có file văn (tách từ dựa vào khoảng tr ắng vớ i tiếng Anh, tiếng Việt phải ý từ đơn, láy, ghép)  Loại bỏ các stop words (các từ không quan tr ọng hữu ích) Tìm từ đồng ngh ĩ a, thay thế bằng từ chung VD: retrieval, retrieved, retrieving, retrieve -> retriev Tìm từ gốc từ có gốc VD: study, learning, schoolwork,… -> study Tìm tần suất xuất từ khố văn Tìm tr ọng số của từ khoá     -Dựa vào tần suất xuất từ khoá văn (tf ij) -Dựa vào số văn chứa từ khoá (df  j) -Wij = tf ij * log(N / df  j) - Wij : tr ọng số của từ khoá j văn i - tf ij : tần suất từ khoá j văn i - df  j : tổng số văn bản chứa từ khoá j - N : tổng số văn kho dữ liệu Term 1: R1, 0.3; R3, 0.5; R6, 0.8; R7, 0.2; R11, 0.1 Term 2: R2, 0.7; R3, 0.6; R7, 0.5; R9, 0.5 Term 3: R1, 0.8; R2, 0.4; R9, 0.7 -Truy vấn Boolean vớ i từ khoá có tr ọng số: +OR : Nếu ghi có nhiều từ khố truy vấn tr ọng số cao sẽ đượ c chọn K ết quả các ghi đượ c sắ p xế p theo thứ tự tr ọng số từ cao xuống thấ p VD: Term OR Term => kq: R1(0.8), R2(0.7), R9(0.7), R3(0.6), R7(0.5) +AND: Tr ọng số thấ p sẽ đượ c chọn cho ghi có nhiều từ khố truy vấn VD: Term AND Term => kq: R9(0.5), R2(0.4) +NOT: Hiệu số giữa tr ọng số của ghi có từ khố sẽ đượ c sử dụng VD: Term AND NOT Term => kq: R3(0.6), R7(), R2() Tạo tệp ngượ c - Ưu điểm mơ hình Boolean:  Là mơ hình r ất đơn giản sở  lý thuyết tậ p hợ  p  Dễ hiểu dễ cài đặt  Đượ c sử dụng hầu hết hệ thống thương mại - Nhược điểm mơ hình Boolean:      Vì d ựa phép tốn logic nhị phân nên v ăn b ản đượ c tìm kiếm chỉ xác định hai tr ạng thái: liên quan không vớ i câu truy vấn  Việc chuyển câu truy vấn ngườ i dùng sang dạng biểu th ức Boolean không đơ n giản  K ết quả truy vấn r ất phụ thuộc vào biểu thức truy vấn  Các tài liệu tr ả về không đượ c sắ p xế p theo mức liên quan tớ i câu truy vấn (ranking ) 2.2 Mô hình truy vấn khơng gian vector   - Khái niệm mơ hình truy tìm Bool đơ n giản đượ c sử dụng hầu hết hệ  thống thươ ng mại Tuy nhiên tươ ng đối khó hình thành câu truy vấn Bool k ết quả truy vấn r ất nhạy cảm vớ i công thức truy vấn Tr ọng số  thuật ngữ  truy vấn thườ ng không đượ c sử  dụng câu truy vấn thườ ng r ất ngắn Để tránh vấn đề này, mơ hình truy vấn khác như  không gian vector cơ  sở  cụm (cluster ) đượ c sử dụng thay - Mơ hình khơng gian vector giả sử r ằng tồn tậ p cố  định thuật ngữ  chỉ mục để  đại diện tài liệu câu truy vấn Tài liệu Di câu truy vấn Q j đượ c  biểu diễn như hai vector: Di = [Ti1, Ti2, , Tik , , TiN] Q j = [Q j1, Q j2, , Q jk , , Q jN]   là tr ọng số của từ khóa thứ  trong văn ,    là tr ọng số của từ khóa thứ  trong cu truy vấn  ,   là tổng số từ khóa đượ c sử dụng ( cố định)   và   có thể mang giá tr ị nhị phn {1, 0} mang giá tr ị  tr ọng số nào 10     -Phân cụm: q trình nhóm ghi giống về nội dung vào thành cụm theo quy tắc:  Các ghi cụm phải giống  Các ghi cụm khác khác - Các cụm đượ c  biểu diễn bở i vài thuộc tính đó, đượ c gọi đại diện cụm Đại diện cho cụm gi ống như  truy vấn đầu vào, sẽ  đượ c phán đoán bên cụm chứa tài liệu phù hợ  p vớ i truy vấn Nói cách khác, hy vọng đại diện cụm để phân biệt tài liệu phù hợ  p vớ i tài liệu không phù hợ  p đối sánh vớ i bất k ỳ truy vấn - Một số thuật toán để phân cụm:  Thuật toán khai phá luật kết hợp Apriori (Association Rule)  Phn cụm phn cấp (Hierarchical Clustering)  Phn cụm theo mật độ DBSCAN   Phn cụm mơ hình EM    Thuật toán k-Means (Clustering) 14     - Ứng dụng: những khách hàng mua mặt hàng mua thêm mặt hàng kia; hoặc người dùng xem phim có xu hướng thích xem phim kia, dựa vào ta xy dựng hệ thống gợi ý khách hàng  (Recommendation System) nhằm thc đẩy nhu cầu mua sắm xem  phim….  -Các phương pháp phn cụm:  Phân cụm dựa so sánh theo cặ p o Mỗi ghi đượ c coi là một cụm chứa riêng nó  o Hai ghi giống đượ c gộ p vớ i để tạo thành cụm mớ i o Gộ p cụm mớ i thành lậ p vớ i ghi, cụm ghi giống vớ i nó nhất o Tiêu chí để gộ p hai cụm ghi vào thành cụm:  Dựa tr ên sự giống cặ p ghi hai cụm  Dựa tr ên sự khác cặ p ghi hai cụm  Dựa tr ên trung bình sự giống tất cả các cặ p ghi hai cụm  o Quá tr ình đượ c lặ p lại đến chỉ cn cụm o Tiêu chí dựa tr ên giống theo cặ p: o Tiêu chí dựa tr ên khác theo cặ p: Phân cụm dựa lựa chọn ngẫu nhiên 15     o Bản ghi đượ c chọn làm cụm o Lựa chọn tiế p ghi ngẫu nhiên khác, tính tốn sự giống ghi vớ i cụm ghi đ có  o  Nếu ghi mớ i giống vớ i cụm đ có (dựa ngưỡ ng so sánh ) đượ c gộp vào đó, khơng tr ở  thành cụm mớ i o Chu trình lặ p lại đến toàn bộ bản ghi đượ c phân thành cụm  Phương pháp k -means o Các ghi đượ c biểu diễn bở i vector thuộc tính o Khở i tạo K điểm gốc không gian dữ liệu o Các ghi lần lượ t đượ c chọn vào K nhóm gần theo khoảng cách đến điểm gốc o Vị tr í mớ i K điểm gốc đượ c thiết lậ p là điểm trung bình K nhóm dữ liệu mớ i hình thành o o Chu tr ình đượ c lắ p lại  Khơng cn thay đổi nhóm ghi   Điểm gốc nhóm khơng thay đổi   Vượt số cố định vng lặp cho trước  Cụm ghi gần vớ i cu truy vấn đượ c xác định dựa tr ên khoảng cách cu truy vấn với điểm trung bình cụm o  Nếu cụm ghi chứa dữ liệu thì tồn bộ các ghi cụm sẽ là k ết quả tra cứu o  Nếu cụm ghi nhiều dữ liệu: chỉ 1  bản ghi giống vớ i cu truy vấn sẽ đượ c làm k ết -Truy xuất dựa tên sở cụm:   Khi cụm đượ c hình thành, tìm kiếm tài liệu sẽ hiệu Mỗi cụm có vector đại diện, thườ ng tâm chúng Tâm cụm đượ c tính  bằng vector trung bình tài liệu nhóm (tr ọng số  16      thuật ngữ tâm i đượ c xác định tr ọng số trung bình thuật ngữ i tài liệu)  Trong truy tìm tài li ệu, vector câu truy vấn đượ c so sánh vớ i tâm cụm Sau nhận cụm có tính tươ ng đồng cao vớ i vector truy vấn, sẽ có hai khả năng: o Mọi tài liệu cụm đượ c tìm Điều xảy cụm nhỏ o Vector truy tìm đượ c so sánh vớ i vector tài liệu cụm chỉ tài liệu có tính tươ ng đồng cao đượ c tìm làm k ết Ưu điểm Nhược điểm - Đơn giản, dễ sử dụng - Thườ ng phải biết trướ c số cụm - Có hiệu quả cao thờ i gian tìm - Chỉ áp dụng đượ c xác định đượ c kiếm giá tr ị trung bình - Khơng thể xử lý nhiễu - Cần phương pháp chọn dữ liệu thơ tốt  2.5 Mơ hình LSI   - Tại ta dùng mơ hình LSI cho tìm kiếm văn bản? - Truy tìm khơng gian vector có thể d ẫn tớ i sự truy tìm nghèo nàn: Trong câu tr ả l ờ i có thể bao gồm cả nh ững tài liệu khơng liên quan; tài liệu phù hợ  p mà khơng chứa thuật ngữ chỉ  mục khơng đượ c truy tìm Lý việc truy tìm dựa vào thuật ngữ chỉ mục mậ p mờ , không rõ ràng Hơ n nữa, nhu cầu thơng tin ngườ i sử  dụng có liên quan đến nh ững khái niệm ý tưở ng nhiều hơn là thuật ngữ chỉ mục - Ý tưở ng: Trong mơ hình khơng gian vector, tài liệu đượ c  bi ểu diễn  bở i vector tr ọng số thuật ngữ N chiều, thành phần vector tr ọng số của thuật ngữ trong số N thuật ngữ của tài liệu Nếu tậ p tài liệu có M tài 17     liệu, tậ p tài liệu đượ c  biểu diễn ma tr ận A kích thướ c M×N Trong tìm kiếm, câu truy vấn đượ c  bi ểu diễn vector tr ọng số  thuật ngữ N chiều Độ  tươ ng đồng tài liệu Di câu truy vấn Q j đượ c tính  bằng tích vơ hướ ng vector truy vấn vector tài liệu ở  phần Như thế  ta hoàn toàn thấy nhược điểm mơ hình là:  Thứ  nhấ t:  Tậ p hợ   p tài liệu (ví dụ: Thư  viện) có thể chứa đến hàng triệu tài liệu vớ i hàng ngàn khái niệm (M N r ất lớ n) Vậy đi hỏi tổng số   bộ nhớ   r ất lớ n để  lưu tr ữ Ví dụ, Thư  viện có triệu tài liệu vớ i 10.000 thuật ngữ thì cần đến 10GB bộ nhớ   lưu tr ữ vớ i  phần tử chiếm byte  Thứ   hai: cần M phép nhân vector N chiều tìm kiếm n ếu sử  dụng thướ c đo tươ ng tự tích vơ hướ ng đi hỏi nhiều hơ n thế  sử dụng thướ c đo tươ ng tự  hệ  số  cosin Khi M N lớ n, thờ i gian địi hỏi để tính tốn sẽ khơng đáp  ứng vớ i việc tìm kiếm tr ực tuyến - Chỉ  mục ngữ  ngh ĩ a tiềm ẩn (LSI - Latent Semantic Indexing) đượ c  Falotsos, Foltz, Dumais  Bently  phát triển để  giải phần khó khăn Ý tưở ng cơ   LSI thực nhóm thuật ngữ  tươ ng đươ ng để  hình thành “khái niệm”  hay “chủ  đề”  tài liệu sẽ  đượ c đại diện bở i khái niệm hay chủ đề này Vì tổng số khái niệm sẽ nhỏ hơn nhiều so vớ i tổng số thuật ngữ, địi hỏi bộ nhớ  lưu tr ữ hơ n thờ i gian tính tốn sẽ nhanh hơn.  18     - Trên mơ hình minh họa cách tiế p c ận, t ồn tầng ở   t ạo thành mối liên hệ giữa truy vấn tài liệu Cho thấy, khơng gian khái niệm có thể có kích thướ c nhỏ hơ n Chẳng hạn, xác định đượ c truy vấn t3 vớ i d2, d3, d4 tậ p tr ả lờ i dựa vào việc quan sát thấy chúng có liên quan đến khái niệm c2 Có thể  có khả  quan tìm đượ c biểu diễn phù hợ  p vớ i chuẩn ngôn ngữ t ự nhiên, cơng việc r ất khó đạt đượ c Bằng cách đơ n giản hơ n, có thể  sử dụng tính chất tốn học để tính tốn ma tr ận thuật ngữ - tài liệu (term –  document ) để xác định khái niệm - Mục đích mơ hình giảm đượ c kích thướ c khơng gian, tăng khả năng tính tốn sơ   đồ các tài liệu truy vấn, gồm khái niệm ở   mức cao vớ i s ố  lượ ng h ơ n so vớ i nh ững thuật ngữ chỉ mục Vì thế, truy tìm (và phân cụm) không gian khái niệm đượ c giảm lượ c tốt hơ n so vớ i truy tìm khơng gian kích thướ c lớ n thuật ngữ chỉ mục - Nhiệm v ụ của LSI sử dụng k ỹ thuật SVD gọi k ỹ thuật tách giá tr ị  số ít, đượ c sử d ụng nhiều lý thuyết ma tr ận nhằm gi ảm kích thướ c  bảng 19     tr ọng s ố Thông thườ ng, bất k ỳ gi ảm thiểu d ẫn t ớ i mát thông tin, vậy, ta phải đảm b ảo r ằng SVD phải có “năng lực thơng tin” ( information efficient ) cao Có ngh ĩ a là, chúng chỉ  phần bảng tần số ít ý ngh ĩ a Nói cách khác, k ỹ thuật LSI sử dụng ma tr ận thuật ngữ - tài liệu (t*d) để bi ểu diễn ma tr ận nhỏ hơ n (k*k) Nó đượ c thực việc loại   bỏ vài hàng vài cột ma tr ận tr ọng số gốc Các  bướ c thực cơ   LSI như sau: Bướ c l: Đánh tần s ố thuật ng ữ và xây dựng ma tr ận term-doc A ma tr ận truy vấn q; Bướ c 2: Tách ma tr ận A thành tích ma tr ận tìm ma tr ận U, S, V, đó:  A = USVT  Bướ c 3: Gi ảm chiều ma tr ận b ằng cách giữ l ại cột đầu c U, V cột, hàng đầu S Bướ c 4: Tìm toạ  độ  vector tài liệu mớ i không gian giảm chiều Bướ c 5: Tìm tọa độ vector truy vấn mớ i không gian giảm chiều q= * * Bướ c 6: S ắ p x ế p tài liệu theo thứ t ự giảm dần giá tr ị  tươ ng đồng cosin câu truy vấn tài liệu Cơng thức tính tốn đế  tính giá tr ị  tương đồng cosin mơ hình khơng gian vector sở  Thực chất tính tích ể m toạ độ vector câu truy vấn tài liệu chia cho tích độ dài vector truy vấn vector tài liệu 20     - Thế kĩ thuật phân tích SVD gì? - Phân tích cấu trúc latent semantic bắt đầu vớ i ma tr ận thuật ngữ  tài liệu Ma tr ận sau đượ c  phân tích việc phân tích giá tr ị số ít (SVD) để nhận đượ c mơ hình cấu trúc latent semantic đặc biệt SVD có mối quan hệ mật thiết vớ i số k ỹ thuật toán học thống kê, bao gồm việc phân tích vector phân tích hệ số - Định lý SVD đượ c phát biểu sau:  - Vớ i ma tr ận A bất k ỳ đều có thể phn tích dướ i dạng: A = U.S.VT - Trong đó, U ma trận tr ực giao cột M r vớ i r h ạng ma tr ận A S ma tr ận đườ ng chéo V ma tr ận tr ực giao cột N r - Ví dụ vớ i ma tr ận t*d thuật ngữ và tài liệu A thì: A = U.S.VT - Tr ong :   U ma tr ận vector riêng nhận từ ma tr ận A×AT  S ma trận đường chéo (m*m) củ a cá c giá  trị sô ́t đợ c sa p xêp giả m dân với m = min(t,d), hạng ma trận A   V ma tr ận vector riêng nhận từ ma tr ận AT×A  Các thuật tốn xây dựng SVD ma tr ận t×d có độ phức tạ p O(d3) d≈t 21     - Hệ số k gì? k là số chiều đượ c chọn mơ hình giảm lượ c (k  m) - Giảm lượ c số lượ ng chiều, lựa chọn k là tớ i hạn vớ i thực chng ta Đng như ý tưở ng, chng ta muốn giá tr ị k đủ lớn để phù hợ  p vớ i đặc tính cấu tr c thực dữ liệu, đủ nhỏ để lọc chi tiết không  phù hợ  p hay chi tiết không quan tr ọng Theo tài liệu nghiên cứu về LSI, qua thực nghiệm tr ên tậ p dữ liệu văn cụ thể, tác giả chọn k từ 50 đến 100 cho tậ p dữ liệu nhỏ và từ 100 đến 500 cho tậ p dữ liệu lớ n  So sánh mơ hình tìm kiếm: Do tính hiệu quả thấ p mơ hình Boolean, mơ hình tìm kiếm theo xác suất nên mơ hình tìm kiếm theo khơng gian vector mơ hình LSI đượ c nghiên cứu phục vụ cho việc xây dựng hệ thống IR đại Mơ hình LSI đượ c đưa để khắc phục hạn chế của mơ hình khơng gian vector vấn đề  đồng ngh ĩ a đa ngh ĩ a từ Hiệu quả của mơ hình LSI đượ c đánh giá cao hơ n nhiều so vớ i mơ hình khơng gian vector - Gỉả sử ta phải lưu trữ ma tr ận A(M*N) vớ i M=1.000.000, N=1.000.000, mơ hình khơng gian vector ta phải sử dụng M*N=10GB khơng gian lưu tr ữ thì với mơ hình LSI, sở  SVD chng ta lưu trữ  các ma tr ận U, S, V thay cho A vớ i, vớ i việc chọn hệ số k phù hợ  p ta sẽ có khơng gian lưu trữ cần dùng r ất nhỏ so vớ i 10 GB - Trong mơ hình LSI, lượ ng dữ li ệu lưu tr ữ ch ỉ mục hơn nhiều so vớ i mơ hình khơng gian vector nên việc tính tốn cho thủ tục truy vấn sẽ  nhanh hơn r ất nhiều 22     CHƯƠ NG I II HỆ THỐNG NHẬN DẠNG VÀ TÌM KIẾM VĂN BẢN - Đặc điểm bộ dữ liệu: gồm chủ đề: Truyện(56 file- 17 đầu truyện), Thơ(8 file), Bài giảng(26 file), Tài liệu nấu ăn(10 file)   3.1. Đặc trưng TF - I D F TF-IDF (Term Frequency –  Inverse Document Frequency) phương pháp r ất phổ biến xử lý văn Nó đượ c tính theo cơng thức TF-IDF = TF x IDF Trong đó:   TF (Term Frequency): Tần xuất suất từ trong tài liệu   Có r ất nhiều cơng thức tính TF khác nhau, tấ t cả đều dựa sở : Không phải từ xuất nhiều tài li ệu mớ i có nhiều độ liên quan Bản chất sự đóng góp TF đến độ liên quan tài liệu về   bản chất hàm dướ i tuyến tính Tần suất xuất từ hoặc cụm từ (TF) phản ánh xem bạn có sử dụng từ khóa thườ ng xuyên dùng hay không Tuy nhiên về bản chất khơng mang lại nhiều giá tr ị vì bạn cần đo lường độ quan tr ọng cụm từ, khơng chỉ là tần suất về số lần sử dụng Nếu khơng từ  ngữ chức (là từ nối, giớ i từ, đại từ, …) sẽ thống tr ị hệ thống tìm kiếm Để tránh việc đó, chng ta cần đến chỉ số đếm IDF  IDF (Inverse Document Frequency): Tần suất nghịch cụm từ trong tậ p hợ  p gồm nhiều tài liệu Chỉ số này thể hiện giá tr ị thực từ khóa cụ thể Nó đo lườ ng tỷ lệ giữa tổng số lượ ng tài liệu vớ i số lượ ng tài liệu chứa từ khóa Có nhiều cơng thức để tính IDF, đượ c xây dựng chất nó: 23      Theo cơng thức trên, từ khóa từ phổ biến, khả năng cao sẽ đượ c sử dụng r ất nhiều tài liệu Do vậy, giá tr ị IDF sẽ r ất nhỏ, ta nhân vớ i chỉ số TF, giá tr ị tổng thể sẽ khơng thay đổi nhiều  Ngượ c lại, cụm từ đó chỉ đượ c tìm thấy vài tài liệu, giá tr ị IDF sẽ cao hơn, từ đó dẫn tới điểm số TF-IDF cao  3.2. Sơ đồ khối hệ thống quy trình thực hiện  Bộ dữ  liệu Tiền xử lý dữ liệu trích rt đặc trưng  Tính TF-IDF từ khóa văn Trang văn đầu vào Ma tr ận tr ọng số X Vector tr ọng số của trang văn Độ tương đồng Sắ p xếp nhn văn theo độ  tương đồng giảm dần Các file văn có nội dung giống với trang văn đầ u vào 24     3.2.1 Tiền xử  lí dữ  liệu- trích rút thuộc tính văn - Yêu cầu với file văn bộ dữ liệu: tất cả file phải '.docx' - Loại bỏ hết số trong văn - Loại bỏ các kí tự đặc biệt Danh sách kí tự đặc biệt: `!"#$%&\'()*+,-./:;?@[\\]^_`{|}~\\d”“`  - Giữ lại chữ  - Xử lý dữ liệu cho toàn bộ 100 file doc, dữ liệu target đưa vào sẽ xử lý dữ liệu tương tự 3.2.2 Xây dự ng ma trận trọng số - Từ bộ từ khóa trên, tính giá tr ị tf-idf ứng vớ i từ khóa, vớ i cơng thức đ nêu ở  trên Cơng thức sẽ đếm số lượ ng lần xuất từ trên đoạn văn toàn bộ nguồn dữ liệu tính tốn để lấy giá tr ị đại diện - Phương pháp: K ết hợ  p TF x IDF Cách tiế p cận TF x IDF sẽ ướ c lượng độ quan tr ọng từ đối vớ i văn danh sách tậ p tài liệu văn cho tr ướ c Nguyên lý cơ  bản TF x IDF là: “Độ quan tr ọng từ sẽ tăng lên vớ i số lần xuất nó trong văn và sẽ giảm xuống từ đó xuất nhiều văn khác Lý do đơ n giản là vì nếu từ xuất nhiều văn khác thì  có ngh ĩ a là nó là từ r ất thơng dụng phổ biến, vì thế khả năng nó là từ khố sẽ  giảm xuống Do đó độ đo sự quan tr ọng từ trong tài liệu f sẽ đượ c tính = tf x idf Với tf: độ phổ biến từ t tài liệu f idf: nghịch đảo độ phổ biến từ t tài liệu cn lại 25     Công thức tính tổng quát: W = tf * idf Vớ i: tf = Ns(t) /  Ns(t): số lần xuất từ t tài liệu f   : Tổng số từ tài liệu f   ) –  log(d: t idf = log( ) : Tổng số văn liệu  d: t : số tài liệu có chứa từ t   Ví dụ: 1 v ăn có 100 từ, đó từ “computer ” xuất 10 lần thì độ   phổ biến: if(“computer ”) = 10/100 = 0.1 Giả sử bộ liệu có 1000 tài liệu, đó có 200 tài liệu chứa từ “computer ”  idf = log (1000/200) = 0.699  Như vậy ta tính độ đo tf x idf = 0.1x 0.699 = 0.0699  Nếu tf x idf v ượ t ngưỡ ng xác định cho trước, cụm từ khố đượ c tìm thấy và đượ c gán tr ọng số Những từ nào có tr ọng số cao thì đượ c chọn Ưu điểm:   Các tài liệu có thể đượ c sắ p xế p theo mức độ liên quan đến nội dung yêu cầu  Tiến hành lưu tr ữ và tìm kiếm đơ n giản hơ n phươ ng phá p logic  Nhược điểm:   Việc xử lý sẽ chậm hệ thống từ vựng là lớ n phải tính tốn tr ên tồn bộ các vector tài liệu.   Khi biểu diễn vector vớ i hệ số là số tự nhiên sẽ làm tăng mức độ  xác việc tìm kiếm làm tốc độ tính tốn giảm nhiều 26     phé p nhn vector phải tiến hành tr ên số tự nhiên số thực, hơ n việc lưu tr ữ các vector sẽ tốn k ém và phức tạ p.   Hệ thống không linh hoạt lưu tr ữ các từ khoá Chỉ cần thay đổi r ất nhỏ trong bảng từ vựng sẽ k éo theo là vector hố lại tồn bộ các tài liệu lưu tr ữ, là sẽ bỏ qua từ có ngh ĩ a bổ sung tài liệu đượ c m hố tr ước  Chiều vector theo cách biểu diễn là r ất lớ n, bở i vì chiều nó  đượ c xác định số lượ ng từ khác tậ p hợ  p văn bản.  - Xây dựng “Bag of words” ti chứa tất cả các từ khố tồn bộ văn  bản - Từ bộ tr ọng số tính đượ c ở  trên, xây dựng ma tr ận tr ọng số của văn Trong ma tr ận tr ọng số, số hàng = số văn (ở  đy 100), cn số cột = độ  dài từ điển “Bag of words” - Ta tính độ tương đồng tf-idf target vớ i tf-idf 100 file dữ  liệu đ cung cấ p, cosine similarity công thức có thể hỗ tr ợ việc tính tốn Giá tr ị của cosine similarity nằm khoảng từ 0 đến 1, tương ứng vớ i mức độ giống hai văn - Tính cosine similarity target 100 file gốc 3.2.3 So sánh trả về k ết - Sau sắ p xế p lại độ tương đồng theo chiều giảm dần - Tr ả về file văn có độ tương đồng lớ n 27     LỜI CẢM ƠN  Chúng em xin gửi lời cảm ơn chn thành đến thầy Nguyễn Đình Hóa đ tạo điều kiện thuận lợi cho chúng em học tập, dày công truyền đạt kiến thức hướng dẫn chúng em trình làm đề tài này Chúng em đ cố gắng vận dụng kiến thức đ học học kỳ qua để hoàn thành báo cáo Nhưng kiến thức hạn chế nhiều kinh nghiệm thực tiễn nên khó tránh khỏi thiếu sót q trình nghiên cứu trình bày Rất kính mong sự góp ý của thầy để bài báo cáo chúng em hoàn thiện hơn.  Một lần nữa, chúng em xin trn trọng cảm ơn quan tm gip đỡ  thầy đ gip đỡ chúng em trình thực đề t ài Xin trn trọng cảm ơn!   28 ... TỔNG QUAN VỀ HỆ CƠ  SỞ  DỮ  LIỆU ĐA PHƯƠNG TIỆN 1.1 Hệ CSDL đa phương tiện? ? -Hệ? ?CSDL đa phương tiện = CSDL + Đa phương tiện -Đa phương tiện gì?  Là sự tích hợ  p nhiều loại dữ? ?liệu truyền thơng... cứu dữ? ?liệu đa phương tiện: tìm kiếm thơng tin hiệu quả, chuẩn hố dữ? ?liệu -Cơ sở? ?? ?dữ? ?liệu đa phươ ng tiện bao gồm năm mục tiêu như sau:  Hỗ tr ợ các kiểu dữ? ?liệu đa phương tiện: phương tiện. .. thơng tin, phương tiện truyền dẫn có thể  thay đổi từ dạng sang dạng khác 1.2 Mục tiêu hệ CSDL đa phương tiện? ? -Tại cần hệ? ?CSDL đa phương tiện?  Lưu trữ? ?thông tin đa phương tiện: văn bả n, hình

Ngày đăng: 19/03/2023, 17:56

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w