Khoá luận tốt nghiệp phương pháp phân tích ngữ nghĩa tiềm ẩn tìm kiếm văn bản tiếng anh dựa trên nội dung

68 576 2
Khoá luận tốt nghiệp phương pháp phân tích ngữ nghĩa tiềm ẩn tìm kiếm văn bản tiếng anh dựa trên nội dung

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐINH THỊ QUYÊN PHƯƠNG PHÁP PHÂN TÍCH NGỮ NGHĨA TIÈM ẨN TRƯỜNG ĐẠI HỌC sư PHẠM HÀTRÊN NỘI TÌM KIẾM VĂN BẢN TIẾNG ANH DựA NỘI KHOA CÔNG NGHỆ THÔNG TIN DUNG KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC • ••• Chuyên ngành: Khoa học máy tính ĐINH THỊ QUYÊN PHƯƠNG PHÁP PHÂN TÍCH NGỮ NGHĨA TIÊM ẨN TÌM KIẾM VĂN BẢN TIẾNG ANH DựA TRÊN NỘI DUNG KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC • ••• Chuyên ngành: Khoa học máy tính Ngưòi hướng dẫn khoa học TS. TRỊNH ĐÌNH VINH Để hoàn thành khóa luận này, em xin bày tỏ lòng cảm ơn sâu sắc đến TS. Trịnh Đình Vinh, thầy người giúp đỡ, bảo em tận tình suốt thời gian viết bài. Em xin chân thành cảm ơn quý thầy cô khoa Công nghệ thông tin Trường Đại học Sư phạm Hà Nội nhiệt tình tâm huyết truyền đạt kiến LỜI CẢM ƠN thức cho chúng em suốt năm học tập. Các thầy cô không dạy chúng em kiến thức chuyên ngành mà truyền đạt kinh nghiệm sống quý báu, hành trang, tảng để chúng em tự tin sống sau này. Cuối cùng, em xin gửi lời cảm ơn sâu sắc tới gia đình, bạn bè chia sẻ, động viên thời gian học tập hoàn thành luận văn tốt nghiệp. Dù cố gắng hoàn thiện để nghiên cứu, sưu tầm tư liệu khóa luận không tránh khỏi hạn chế thiếu sót. Em mong nhận góp ý quý thầy cô bạn để khóa luận em hoàn thiện hơn. Em xin chân thảnh cảm ơn! Hà Nội, ngày tháng 05 năm 2015 Sinh viên thưc hiền • Đinh Thị Quyên • Tên em ía: ĐINH THỊ QUYÊN Sinh viên lớp : K37 - CNTT, khoa Công nghê Thông tin , trương Đai học Sư Phạm Hà Nội 2. Em xin cam đoan: 1. Đê tai: “Phươngpháp phân tích ngữ LỜI nghĩaCẢM tiềm ƠN ẩn tìm kiếm văn tiếng anh dựa nội dung” nghiên cứu riêng em , sư hướng dân thây giáo TS. Trịnh Đình Vinh. 2. Khóa luận hoan toan không chép tác gia nao khác. Neu sai em xin hoan toan chiu trách nhịêm. Hà Nội, ngày tháng 05 năm 2015 Ngưòi cam đoan Đỉnh Thị Quyên MỤC LỤC 3.2.1. 3.2.2.Giai đoạn phân tích giá tri riêng SVD (Singular Value Decompsition) DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT • * Tiếng Anh Tiếng Việt tắt CSDL DataBase Cở sở liệu IDF Inverse Document Frequency Tần số xuất tài liệu TF Term Frequency Tần số xuất thuật ngữ LSI Latent Semantic Indexing Chỉ số hóa ngữ nghĩa ẩn LSA Latent Semantic Analysis Phân tích ngữ nghĩa tiềm ẩn SVD Singular Value Decomposition Tách giá tri riêng ERSM Equivalance Rough Set Model TRSM Tolerance Rough Set Model Ký hiệu viết Mô hình tập thô tương đương Mô hình tập thô dung sai DANH MỤC CÁC BẢNG • Bảng 2.1. Bảng tần suất số văn Bảng 2.2. Ma trận tài liệu - thuật ngữ Bảng 2.3. Ma trận kết tài liệu - thuật ngữ TF-IDF Bảng 2.4. Kết khoảng cách từ truy vấn Q với tài liệu Bảng 2.5. Số lần xuất thuật ngữ tài liệu DANH MỤC CÁC HÌNH • Hình 1.1. Ví dụ phân phối giá trị có thứ tự ưu tiên Hình 2.1. Sử dụng khái niệm cho truy vấn Hình 2.2. Biểu đồ 2-D 12 thuật ngữ tài liệu từ tập mẫu Hình 2.3. Sơ đồ SVD ma trận hình chữ nhật thuật ngữ - tài liệu Hình 2.4. Sơ đồ SVD giảm lược ma trận thuật ngữ - tài liệu Hình 3.1. File chứa từ dừng (stopword) Hình 3.2. Các thông số Ư, S"1, VT Hình 3.3. Ánh xạ truy vấn q vào không gian vecto sở liệu Hình 3.4. Giao diện tìm kiếm văn Hình 3.5. Kết tìm kiếm văn MỞ ĐẦU 1. Lý chọn đề tài Hàng nghìn năm trước người nhận thức tầm quan trọng việc lưu trữ tìm kiếm thông tin. Vói phát triển máy tính, việc máy tính có khả lưu trữ thông tin vói số lượng lớn dễ dàng. Nhưng vấn đề làm để tìm kiếm thông tín từ nguồn liệu lớn vậy? L ĩnh vực truy tìm thông tin (Information Retrieval - IR) đời vào năm 1950 nhu càu thiết yếu này. Hơn 40 năm sau, lĩnh vực trưởng thành đáng kể, nhiều hệ thống IR sử dụng phổ biến với đa dạng trạng thái người sử dụng. Sự phát triển lĩnh vực năm 1970 đến năm 1980 dựa tảng năm trước đó, nhiều mô hình thực truy tìm tài liệu khác phát triển có hiệu tập hợp văn nhỏ. Sự thay đổi lớn vào năm 1992, với khởi đầu thảo luận truy tìm văn bản, sau loạt thảo luận kiểm định đứng đầu nhiều hãng khác Mỹ dưói bảo hộ Viện Tiêu chuẩn Công nghệ quốc gia (NIST), nhằm vào việc khuyến khích nghiên cứu hệ thống IR vói tập họp văn lớn. Những thuật toán IR phát triển ttong năm từ năm 1996 đến năm 1998, kĩ thuật đàu tiên dùng cho việc tìm kiếm mạng toàn càu. Văn tong số dạng liệu đa phương tiện, quan tâm từ hàng nghìn năm trước việc tổ chức xếp lưu trữ, điển bảng nội dung sách. Ngày nay, lớn mạnh thông tin với phàn lớn dạng văn bản, xuất phát từ nhu càu thực tế sử dụng người. Tài liệu văn chiếm đa số quan tổ chức, số lượng tài liệu văn ngày lớn có vai trò vô quan trọng, việc lưu trữ, xử lý truy tìm thủ công trước khó thực được. Cùng với đời phát triển máy tính, công cụ xử lý ngày hoàn thiện dựa kĩ thuật đại phục vụ cho nhu cầu đó. Các mô hình truy tìm hay sử dụng là: Tìm kiếm theo mô hình tập thô dung sai, mô hình xác suất, mô hình không gian vectơ, song chưa đạt hiệu tối đa, tài liệu không liên quan truy tìm đơn giản thuật ngữ xuất ngẫu nhiên giống với thuật ngữ truy vấn, mặt khác tài liệu liên quan bị bỏ qua thuật ngữ xuất tài liệu truy vấn. Từ đó, ý tưởng thú vị xem xét, liệu việc truy tìm dựa vào nội dung, ý nghĩa có hiệu việc truy tìm trực tiếp thuật ngữ? Mô hình LSA đời giải pháp hữu hiệu cho vấn đề truy tìm thông tin dựa sở nội dung tài liệu văn bản, tìm kiếm sở nội dung. Trước truy tìm tài liệu coi danh sách từ chúng phải đánh mục. Có thực tế tất từ có ý nghĩa, việc loại danh sách từ nghĩa vô quan ttọng từ ý nghĩa không đánh mục. Từ thông tin người sử dụng biểu thị qua câu truy vấn, thuật toán truy tìm phải đảm bảo rằng, chiến lược xếp hạng tập tài liệu câu trả lời ưu tiên cho thông tin phù họp với truy vấn người sử dụng đưa ra. Hơn nữa, kĩ thuật đánh giá tốt phải dựa việc xếp hạng tài liệu này, tức tài liệu phù hợp coi “gần” vói câu tiny vấn xếp lên tài liệu phù hợp danh sách tài liệu trả lời. Chính vậy, em lựa chọn đề tài: “Phương pháp phân tích ngữ nghĩa tiềm ẩn tìm kiếm văn tiếng anh dựa nội dung” làm đề tài khóa luận tốt nghiệp. 2. Mục đích nghiên cứu Khóa luận tìm hiểu số phương pháp tìm kiếm văn bản, phương pháp LSA. Từ đó, xây dựng chương trình tìm kiếm văn tiếng anh phương pháp LSA để người dùng tìm kiếm thông tin, tài liệu cách hiệu quả. 3. Nhiệm vụ nghiên cứu Nhiệm vụ khóa luận sâu vào nghiên cứu phương pháp tìm kiếm văn LSA (Latent Semantic Analysis): Từ việc hiểu phương pháp LSA nào, đến biết bước thực LSA. Từ xây dựng chương trình tìm kiếm văn với tốc độ nhanh độ xác cao. 4. Đổi tượng phạm vi nghiên cứu Phương pháp LSA, kỹ thuật phân tách giá trị riêng SVD. 5. Giả thuyết khoa học Phương pháp tìm kiếm văn LSA tìm hiểu nghiên cứu giúp hiểu rõ mô hình tìm kiếm thông tin. Nếu chương trình tìm kiếm văn đưa vào thực tế giúp cho người sử dụng tìm kiếm thông tin, tài liệu cần thiết cách xác hiệu từ nguồn tài liệu văn rộng lớn. 6. Phương pháp nghiền cứu a. Phương pháp nghiên cứu lý luận Nghiên cứu qua việc đọc sách, báo tài liệu liên quan nhằm xây dựng sở lý thuyết đề tài biện pháp cần thiết để giải vấn đề đề tài. b. Phương pháp chuyên gia Tham khảo ý kiến chuyên gia, tìm hiểu quan điểm, kinh nghiệm họ để thiết kế chương trình phù hợp vói yêu càu thực tiễn. c. Phương pháp thực nghiệm Căn vào quan sát thực tiễn, yêu cầu sở, vào lý luận nghiên cứu kết đạt để có tương tác người dùng chương trình, từ có nhiều thiết kế hiệu quả. 7. Cấu trúc khóa luận Ngoài phần lời cảm ơn, mở đầu, kết luận phương hướng phát triển đề tài, tài liệu tham khảo khóa luận bao gồm: Chương 1. Cơ sở lý thuyết Giới thiệu máy tìm kiếm chiến lược tìm kiếm khái quát hệ thống khai thác thông tin. Chưoug 2. Một số phương pháp tìm kiếm văn Giói thiệu phương pháp tìm kiếm văn bản, phương pháp LSA với đặc điểm bật lựa chọn làm phương pháp để xây dựng chương trình tìm kiếm văn bản. Chương 3. Tìm kiếm văn tiếng anh phương pháp phân tích ngữ nghĩa tiềm ẩn Xây dựng chương trình cụ thể. CHƯƠNG 1: Cơ SỞ LÝ THUYẾT 1.1. Các máy tìm kiếm Các máy tìm kiếm (search engine/ moteur de recherche) đời từ năm 1990, với chức tìm kiếm khác hẳn danh bạ mạng: Thay tìm kiếm website danh bạ mạng, máy tìm kiếm lại sưu tập ừang web, đọc toàn nội dung trang lưu vào mục. Người dùng mạng cần gõ từ khóa cần tìm máy tìm toàn nội dung đó. Với máy tìm kiếm có thể: - lìm thông tin xác: Như thông tin liên lạc cá nhân, tổ chức, chi tiết liên quan đến sản phẩm đó. - Tìm tài liệu chuyên biệt, đặc thù: Như công ước quốc tế, văn nhà nước. - Tìm website xuất mạng: Với vòng quay tương đối nhanh, robot tiếp cận trang web quay lại cập nhật ừang web lưu mục vòng vài tuần lễ. - Ket công thức tìm kiếm đa dạng: Với từ khóa, thuật ngữ, thuật toán khác theo khả đáp ứng công nghệ phát triển máy. Tuy nhiên, có điểm cần lưu ý sử dụng máy tìm kiếm trang đưa kết tìm kiếm trang hữu mạng mà ừang lưu mục máy tìm kiếm. Một số máy tìm kiếm thông dụng: - Ask Jeeves: Cơ chế tìm kiếm theo ngôn ngữ tự nhiên, cho phép lưu trữ đến 1000 kết tìm kiếm, xếp ghi hồ sơ cá nhân. Có nhiều kiểu giao diện khác cho người dùng lựa chọn phiên tiếng Nhật, Tây Ban Nha, Đức, Pháp, Hà Lan, Ý. - Brainboost: Tìm kiếm theo ngôn ngữ tự nhiên, kết trích từ trang web có chứa thông tín trả lời cho câu hỏi đặt ra. - Exalead: Hai giao diện Exalead tiếng Pháp Exalead tiếng Anh. Có nhiều chức tìm kiếm nâng cao giúp giói hạn phạm vi tìm kiếm. Kết giói thiệu kèm với hình ảnh thu nhỏ trang web gợi ý giúp tìm kiếm kĩ thuật ngữ, khái niệm lân cận chủ đề liên quan. - Factbites: Cung cấp thông tin bách khoa, với trích đoạn hoàn chỉnh có nghĩa vấn đề tìm kiếm, thu thập tò trang web khác nhau, gợi ý chủ đề lân cận, có liên quan danh sách chủ đề tìm kiếm nhiều nhất. Giao diện tiếng Anh. - Google: Bộ máy tìm kiếm sử dụng nhiều nay, sưu tập lượng thông tin vô lớn mạng, hàu tất thứ ngôn ngữ có tồn internet. Có nhiều tính tìm kiếm nâng cao khác nhau, giúp dễ dàng giới hạn phạm vi tìm kiếm. Có giao diện nhiều thứ tiếng, kể tiếng Việt. - Google Scholar: Phiên thử nghiệm giúp tìm kiếm thông tin túy khoa học học thuật (sách, tạp chí, luận văn, luận án, giảng .) thu thập từ trường đại học, viện nghiên cứu, phòng thí nghiệm, nhà xuất khoa học, chuyên gia, tổ chức . - Scirus: Tìm kiếm tài liệu có tính học thuật ngành khoa học, hiệu tốt Google Scholar nhiều mặt vói nhiều tính tìm kiếm nâng cao giới hạn phạm vi tìm kiếm. - Yahoo: Bộ máy tìm kiếm tương tự google, phổ biến hiệu quả, có nhiều chức tìm kiếm nâng cao hạn chế phạm vi tìm kiếm. 1.2. Chiến lược tìm kiếm Tất chiến lược tìm kiếm dựa vào so sánh truy vấn với tài liệu lưu trữ. Đôi khi, việc so sánh gián tiếp truy vấn so sánh vói cụm (hoặc xác vói đặc điểm đại diện cho cụm). CHƯƠNG 3: TÌM KIẾM VĂN BẢN TIẾNG ANH BẰNG PHƯƠNG PHÁP PHÂN TÍCH NGỮ NGHĨA TIÈM ẨN 3.1. Phát biểu toán Làm thể để xây dựng hệ thống tìm kiếm văn bản, cho tài liệu truy vấn người dùng đưa vào hệ thống tìm kiếm xử lý đưa đại diện phù họp xác với yêu càu người dùng? Để thực yêu cầu hệ thống tìm kiếm, liệu phải trải qua quy trình xử lý để tìm đặc trưng riêng đối tượng, sau so sánh với sở liệu để tìm liệu phù hợp nhất. Hệ thống tìm kiếm văn không nằm quy trình đó, tài liệu truy vấn người dùng đưa vào xử lý đưa tài liệu đại diện truy vấn. Quá trình tiền xử lý yêu cầu tìm cách thức đặc trưng tài liệu, cách tổ chức lưu trữ tài liệu, trình xử lý văn để loại yếu tố không cần thiết nhiều bước xử lý khác. Bài toán tập trung vào bước so sánh câu truy vấn với đại diện tài liệu, nghiên cứu kỹ thuật đem lại hiệu để đưa kết xác, nhanh nhất. Trong thực tế, có nhiều kỹ thuật thuật tìm kiếm, có kỹ thuật hiệu không cao song cách thức hoạt động đơn giản, dễ hiểu, có kỹ thuật đem lại hiệu tốt, giảm bớt phức tạp xong chưa l inh hoạt . Bài toán khóa luận tập trung vào mô tả kỹ thuật LSA cài đặt kỹ thuật ừên ngôn ngữ lập trình c# 2010 áp dụng vào sở liệu chương trình mô thuật toán tìm kiếm LSA, phương pháp chủ yếu tính toán ừên ma ừận. Các ma ừận xây dựng từ tài liệu thuật ngữ xuất tài liệu đó, từ việc phân tích SVD để tính toán, tìm tài liệu quan tâm dựa vào câu truy vấn đó. Trong hệ thống tìm kiếm, số lượng tài liệu lớn, tài liệu lại có nhiều thuật ngữ khác nhau, ma trận thuật ngữ tài liệu (termdocument) lớn. Điều gây phức tạp tốn thời gian nhớ. Kỹ thuật LSA nhằm giảm bớt phức tạp giai đoạn đem lại hiệu tìm kiếm. 47 3.2. Giải toán 3.2.1. Giai đoạn tiền xử lý văn Mục đích giai đoạn tiền xử lý giúp văn với việc lấy cụm kí tự có nghĩa, giúp giảm bớt không gian tìm kiếm, phù hợp ngữ nghĩa với câu truy vấn giúp phân biệt tài liệu người sử dụng quan tâm vói tài liệu khác thông qua phương pháp TF-IDF (Term Frequency-Inverse Document Frequency). Các công việc giai đoạn tiền xử lý văn bao gồm công việc trích xuất văn (exừact text), loại bỏ tò dừng (stopword), stemming, lập bảng tần số đánh trọng số cho thuật ngữ bảng tàn số. Công việc trích xuất loại bỏ tiến hành sau: using (var sr = newStreamReader(filepath[k])) // Tạo streamreader để đọc toàn văn sơ liệu { string text = sr.ReadToEnd().ToLower(); text +=" int vitridau = 0; Boolean LoaiBo = false; string temp = string.Empty; for (int i = 0; i < text.Length; i++) { if (text[i] < 48 II text[i] > 57 && text[i] < 65 II text[i] > 90 && text[i] < 97 II text[i] > 122)// Loại bỏ kí tự { if (text[i] == 39) LoaiBo = tine; if (i - vitridau > 0) { temp = text.Substring(vitridau, i - vitridau); // tiến hành trích xuất từ văn if (!stopword.KiemTra(temp)) // kiểm tra loại bỏ từ dừng { MaTran[k, column++] = temp; } } vitridau = i+ 1; if (LoaiBo) { for (int j = i + 1; j < text.Length; j++) { if (text[i] < 48 II text[i] > 57 && text[i] < 65 II text[i] > 90 && text[i] < 97 II text[i] > 122) { vitridau = j + 1; LoaiBo = false; i = j; } } } }}} Trong công việc loại bỏ từ dừng, tiến hành xây dụng danh sách từ cần loại bỏ, từ chuyên gia ngồn ngữ học xem từ nghĩa nghĩa không liên quan đến nội đung văn bản. stop word - Notepad File Edit Format View Help any with well within should shall unto this may while then why because them would as by now even every my willing me am ago also nope much at after about above against along among around before behind below beneath beside besides between beyond but by despite down during for from in inside into near of on t. s v ve m re onto opposite outside over past since through throughout till to toward under underneath until upon up via with within without and also besides , Hinh 3.1. File chua cac tir dung (stopword) Lưu ý công việc stemming loại bỏ giai đoạn tiền xử lý việc phân tích hình thái ngôn ngữ thật khó khăn, tính đa dạng ngữ nghĩa từ càn có chuyên gia ngôn ngữ để phân tích. Sau công việc trích xuất loại bỏ, tiến hành công việc tiến hành lập bảng tần số đánh trọng số cho văn phương pháp TF-IDF. Lớp TF-IDF thực sau: // Lập bảng tàn suất for(int i=0; i[...]... yRz xRz (Vx,y,z Ê ) Tớnh bc cu khụng phi lỳc no cng c tha món Cỏc lp chng nhau cú th sinh ra bi quan h dung sai trong quan h ny ch yờu cu tớnh phn x v tớnh i xng Vúi s xut hin ca quan h dung sai Khụng gian dung sai l khụng gian trong ú bao gm cỏc lp chng nhau ca cỏc i tng trong tp v tr Mt khụng gian dung sai c nh ngha bi cụng thc chung R(U,I,V,P), trong ú: u l mt tp cỏc i tng, I: l hm khụng chc chn,... nhanh chúng trong cỏc tp mc lc Ch cỏc hng cha thut ng tỡm kim mi c truy tỡm Khụng cn tỡm mi bn ghi trong CSDL Quy tc tỡm kim mụ hỡnh Bool trờn c s cỏc tp mc lc nh sau: - Truy vn AND: Vớ d (Temii AND temij), cho danh sỏch ttn hng i vi hng j trong tp mc lc v mi bn ghi u cha Teraii v Ternij s l kt qu truy tỡm u ra Vớ d: (Termi AND Term2) cho kt qu l Recordi - Truy vn OR: Vớ d (Teriii OR Temij), cho danh... khai thỏc thụng tin bi tớnh cht i xng khụng phi lỳc no cng tha món Vỡ lý do ú nờn cú mt mụ hỡnh khỏc gi l mụ hỡnh tp thụ dung sai (Tolerance Rough Set Model) cho vic khai thỏc thụng tớn qua cỏc lp dung sai thay th cho cỏc lp tng ng ó c gii thiu trờn 2.1.1 Khỏi nim tp thụ v khụng gian dung sai Trit lý ca tp thụ da trờn gi s rng mi i tng ong v tr u gn vúi mt thụng tin no ú (d liu, tri thc) Vớ d, nu cỏc... vo vn cnh hoc cỏch núi): can l mt ng t thỡ khụng cú ớch cho cỏc truy vn t khúa, nhng can l mt danh t cú th l trung tõm i vi mt cõu truy vn, vỡ yy nú khụng nm trong danh sỏch t dng STEMMNG (t gc) hay l CONFLATING l phng thc h tr s phự hp ca mt thut ng truy vn vi bin i hỡnh thỏi trong kho d liu Trong ting Anh, cng nh mt s ngụn ng khỏc, cỏc phn ca vn núi, thi v s lng c chuyn t nhng bin t ca t Cú th mun... 1 ôfevaco,X) > 0} (2.3) (2.4) 2.1.2 Mụ hỡnh tp thụ dung sai (TRSM) trong vic khai thỏc thụng tin Trc ht, mụ t cỏch xỏc nh cỏc hm I, V v p phự hp cho vic khai thỏc thụng tin u tiờn, nh ngha khụng gian dung sai chỳng ta chn tp v tr l tp r ca tt c cỏc terms u = {ti, 2,ớm} =t (2.5) Vn ct yu trong cụng thc ca TRSM trong khai thỏc thụng tin l cỏc lp dung sai ca cỏc term Cú nhiu cỏch xỏc nh khỏi nim cỏc... nhau Thay Yè s dng bn thut ng ch mc, cú th ch s dng mt thut ng study tng quỏt i din bn thut ng ny 1.2.2 Lp ch mc t ng (Auto indexing) Trong tin trỡnh ch mc, ti liu c coi nh mt danh sỏch cỏc t, ong ú cỏc t dng ó c loi b khi danh sỏch Cỏc thuc ng hay cỏc t cũn li c x lý tip nõng cao hiu qu ch mc v truy tỡm Cỏc thao tỏc chung nht thc hin trờn cỏc thuc ng ny l tỡm t gc (stemming), tỡm t ng ngha v xỏc... average cao hn tng t gia good v bad 1.4.3 tng t chui Xem xột cụng vic tỡm kim t mt danh sỏch t cỏc t m c xut phỏt t cựng mt gc nh l mt t cú sn Vớ d, cho trc t eloquently, mc ớch l tỡm ra cỏc t liờn quan khỏc nh ineloquently, eloquent v eloquence lm iu ú, cú th nh ngha o tng t gia hai chui v xp hng cỏc t ttong danh sỏch t theo th t gim dn ca tng t vúi t cú sn Nhng tũ xut phỏt t cựng mt t gc nờn... tng X c cho bi thụng tin f(x) Hm khụng chớnh xỏc I: u -* 211 xỏc nh I(x) nh mt lp dung sai ca tt c cỏc i tng c xem xột cú cựng thụng tin vi X Hm khụng chớnh xỏc c nh l nhng hm tha món iu kin: X Ê I(x) v y I(x) nu X Ê I(y) vi x,y t u iu ny tng ng vi hm tng ng vi mt quan h ầ ux u Trong ú X ỗ y nu y Ê I(x), ầ l mt quan h dung sai bi vỡ quan h ny tha món hai thuc tớnh phn x v i xng Hm mp m V:2U X 2U -*... mc cỏc tp trong tp v tr, trong trng hỗrp c bit nú liờn quan cõu hi lp dung sai I(x) ca i tng xUcú thuc tp X hay khụng? Trong hm V cũn yờu cu tớnh n iu i vi tham s th hai: V(X,Y) < V(X,Z) vi Y e Z; X, Y, z ỗ u Cui cựng, vi hm cu trỳc p c xut bi vic phõn tớch vi hỡnh thỏi toỏn hc Trong vic xõy dng cỏc xp x ờn v di ch mt s cỏc tp dung sai c coi l yu t cú cu trỳc nh ngha hm P: I() -> [0,1] cỏc lp I(x)... b ba khỏc trong t ú 2*Ztetri(x)nTn(yilgP(t) ^tetriix) lgP(t) + Xtetri(y)lEP(t) 1.4.4 tng t ng ngha tng t ng ngha l mt khỏi nim ú tp cỏc ti liu hoc cỏc thut ng trong mt danh sỏch cỏc thut ng c gỏn mt t l da trờn s ging nhau v ni dung ý ngha ca chỳng o tng t ng ngha gn õy c ỏp dng v phỏt trin trong rt nhiu lnh vc nh trong y hc (so sỏnh gen), trong phõn lp vn bn (cỏc vn bn tng t nhau thỡ cựng thuc . Phương pháp phân tích ngữ nghĩa tiềm ẩn tìm kiếm văn bản tiếng anh dựa trên nội dung làm đề tài khóa luận tốt nghiệp. 2. Mục đích nghiên cứu Khóa luận tìm hiểu về một số phương pháp tìm kiếm. QUYÊN PHƯƠNG PHÁP PHÂN TÍCH NGỮ NGHĨA TIÈM ẨN TÌM KIẾM VĂN BẢN TIẾNG ANH DựA TRÊN NỘI DUNG KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC • • • • Chuyên ngành: Khoa học máy tính ĐINH THỊ QUYÊN PHƯƠNG PHÁP PHÂN TÍCH. nổi bật được lựa chọn làm phương pháp để xây dựng chương trình tìm kiếm văn bản. 8 Chương 3. Tìm kiếm văn bản tiếng anh bằng phương pháp phân tích ngữ nghĩa tiềm ẩn Xây dựng một chương trình

Ngày đăng: 24/09/2015, 08:09

Từ khóa liên quan

Mục lục

  • PHƯƠNG PHÁP PHÂN TÍCH NGỮ NGHĨA TIÈM ẨN TÌM KIẾM VĂN BẢN TIẾNG ANH DựA TRÊN NỘI DUNG

    • KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC

    • PHƯƠNG PHÁP PHÂN TÍCH NGỮ NGHĨA TIÊM ẨN TÌM KIẾM VĂN BẢN TIẾNG ANH DựA TRÊN NỘI DUNG

      • KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC

        • Đỉnh Thị Quyên

        • MỤC LỤC

        • DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

        • DANH MỤC CÁC BẢNG •

        • DANH MỤC CÁC HÌNH

        • MỞ ĐẦU

          • 1. Lý do chọn đề tài

          • 2. Mục đích nghiên cứu

          • 3. Nhiệm vụ nghiên cứu

          • 4. Đổi tượng và phạm vi nghiên cứu

          • 5. Giả thuyết khoa học

          • 6. Phương pháp nghiền cứu

          • 7. Cấu trúc khóa luận

          • CHƯƠNG 1: Cơ SỞ LÝ THUYẾT

          • 1.1. Các bộ máy tìm kiếm

            • 1.2.1. Các từ dừng và từ gốc

            • 1.2.3. Phân nhóm văn bản

            • Phương pháp phân nhóm phân cấp

            • Phương pháp phân nhóm không phân cấp

            • 1.2.5. Cấu trúc tệp

            • 1.2.6. Chỉ sổ hóa và bổ sung

Tài liệu cùng người dùng

Tài liệu liên quan