1. Trang chủ
  2. » Luận Văn - Báo Cáo

Truy tìm thông tin theo ngữ nghĩa

80 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA - PHẠM CÔNG XUYÊN TRUY TÌM THƠNG TIN THEO NGỮ NGHĨA Chun ngành : Cơng Nghệ Thông Tin Mã số ngành : 01.02.10 LUẬN VĂN THẠC SĨ TP.Hồ Chí Minh, Tháng 12 năm 2005 TRƯỜNG ĐẠI HỌC BÁCH KHOA PHÒNG ĐÀO TẠO SDH CỘNG HÒA Xà HỘI CHỦ NGHĨA VIỆT NAM ĐỘC LẬP – TỰ DO – HẠNH PHÚC - Tp.HCM, Ngày 08 tháng 11 năm 2004 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên : PHẠM CÔNG XUYÊN Phái : Nam Ngày, tháng, năm sinh : 26/08/1969 Nơi sinh : Tỉnh Đồng Nai Chuyên ngành : Công Nghệ Thông Tin Mã số : 01.02.10 I TÊN ĐỀ TÀI TRUY TÌM THƠNG TIN THEO NGỮ NGHĨA II NHIỆM VỤ VÀ NỘI DUNG - Đọc tài liệu lý thuyết báo khoa học liên quan đến luận văn, tài liệu ngơn ngữ tiếng Việt, tìm hiểu đặc điểm từ cụm từ tiếng Việt, khác biệt với ngơn ngữ khác, sử dụng động truy tìm thơng tin có web - Tóm tắt phương pháp sử dụng việc truy tìm thơng tin - Đánh giá phương pháp xác định hướng thực đề tài - Lập kế hoạch thời gian khối lượng để thực đề tài - Đề tài phải thực truy tìm thơng tin theo từ khóa cụm từ theo hướng ngữ nghĩa - Đáng giá kết quả, nêu đóng góp đề tài, phần cịn hạn chế hướng phát triển III NGÀY GIAO NHIỆM VỤ : 08/11/2004 IV NGÀY HOÀN THÀNH NHIỆM VỤ : 10/01/2006 V HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN Phó giáo sư, Tiến sĩ PHAN THỊ TƯƠI CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM NGÀNH BỘ MÔN QUẢN LÝ CHUYÊN NGÀNH PGS, TS Phan Thị Tươi Nội dung đề cương luận văn thạc sĩ Hội Đồng Chuyên Ngành thông qua Ngày tháng năm PHÒNG ĐÀO TẠO SĐH KHOA QUẢN LÝ NGÀNH Truy tìm thơng tin theo ngữ nghĩa GVHD : PGS TS Phan Thị Tươi TÓM TẮT Với phát triển nhanh chóng thơng tin internet, nhu cầu truy tìm thơng tin người sử dụng ngày cao, máy tìm kiếm theo nguyên tắc so trùng trả nhiều kết có kết khơng mong muốn Chính thực tế này, hệ thống truy tìm thơng tin theo ngữ nghĩa đề xuất nghiên cứu Hiện nay, có nhiều cơng trình nghiên cứu ngồi nước vấn đề Tuy nhiên cơng trình lại theo hướng tiếp cận khác Điều dễ hiểu vấn đề cịn giai đoạn tìm kiếm hướng giải Mục tiêu luận văn đề xuất giải pháp truy tìm thơng tin theo ngữ nghĩa cho tiếng Việt Phương pháp đưa luận văn dựa vào đặc điểm tiếng Việt : cấu tạo từ, từ loại, cụm từ, dấu câu, cách viết hoa … để giải vấn đề Trong luận văn có sử dụng cơng cụ có sẵn máy tìm kiếm Google để tìm kiếm tài liệu theo yêu cầu người sử dụng Sau đó, hệ thống nhận lại kết phân loại Nguyên tắc trình phân loại dựa vào khác chức ngữ pháp truy vấn kết So với cơng trình trước, nghiên cứu sâu đặc điểm ngôn ngữ Tuy nhiên, hạn chế kiến thức tiếng Việt nên vấn đề mà giải cịn khiêm tốn Truy tìm thơng tin theo ngữ nghĩa GVHD : PGS TS Phan Thị Tươi LỜI CẢM ƠN Trước tiên, xin chân thành cảm ơn PGS TS Phan Thị Tươi, người trực tiếp hướng dẫn tơi hồn thành đề tài Mặc dù bận PGS TS Phan Thị Tươi nhiệt tình dẫn, góp ý, cung cấp tài liệu … cho Tôi xin cảm ơn thầy cô khoa công nghệ Thông tin trường Đại học Bách khoa TPHCM truyền đạt cho kiến thức mà cịn cho tơi hình ảnh thật đẹp người Thầy Tôi xim cảm ơn tất thầy phịng Đào tạo Sau Đại học trường Đại Học Bách khoa TPHCM Tôi xin cảm ơn bạn học viên lớp cao học CNTT K13 K14 động viên, giúp đỡ , góp ý cho tơi hồn thành đề tài Tôi xin cảm ơn TS Trần Ngọc Lệ Ths Lê Thị Duyên truyền đạt nhiều kiến thức tiếng Việt cho Tôi xin cảm ơn BGH trường Đại học Dân lập Lạc Hồng tạo điều kiện thời gian tài để tơi hồn thành khóa học Cuối tơi xin cảm ơn tất người thân thương Truy tìm thơng tin theo ngữ nghĩa GVHD : PGS TS Phan Thị Tươi MỤC LỤC DANH MỤC HÌNH CHƯƠNG : GIỚI THIỆU TỔNG QUAN 1.1 Tổng quan 1.2 Đề tài nghiên cứu 1.3 Đóng góp đề tài 10 1.4 Cấu trúc luận văn 11 CHƯƠNG : TRUY TÌM THƠNG TIN 12 2.1 Quá trình truy tìm thông tin 12 2.2 Các đặc tính mơ hình IR 13 2.3 Các mô hình truy tìm thơng tin 13 CHƯƠNG : TIẾNG VIỆT 16 3.1 Từ tiếng Việt 16 3.2 Các kiểu cấu tạo Từ 17 3.3 Từ loại tiếng Việt 18 3.4 Cụm danh từ 31 3.5 Quy tắc viết hoa 40 3.6 Ngữ điệu dấu câu 41 CHƯƠNG :MỘT SỐ CƠNG TRÌNH Đà CÓ TRÊN THẾ GIỚI LIÊN QUAN ĐẾN ĐỀ TÀI 45 4.1 Truy tìm thơng tin sử dụng nghĩa từ phương pháp gán nghĩa gốc 45 Truy tìm thơng tin theo ngữ nghĩa GVHD : PGS TS Phan Thị Tươi 4.2 Truy tìm thơng tin cách phân tích ngữ nghĩa 48 4.3 Hệ thống tìm kiếm thơng minh cho truy tìm thơng tin theo ngữ nghĩa internet 52 4.4 Đóng góp luận văn 55 CHƯƠNG GIẢI QUYẾT VẤN ĐỀ 56 5.1 Mơ hình xử lý tổng qt 56 5.2 Máy tìm kiếm Google 57 5.3 Tách chuỗi 59 5.4 Phân tích chuỗi thành danh sách từ loại 60 5.5 Phân loại kết 61 CHƯƠNG Kết luận hướng phát triển luận văn 77 6.1 Đóng góp đề tài 76 6.2 Những vấn đề tồn đọng 76 6.3 Hướng phát triển đề tài 76 TÀI LIỆU THAM KHẢO 77 Truy tìm thơng tin theo ngữ nghĩa GVHD : PGS TS Phan Thị Tươi DANH MỤC HÌNH Hình 2.1: Q trình truy tìm thơng tin 12 Hình 4.1 : Ví dụ trộn nghĩa 47 Hình 4.2 : Lớp Attributes 50 Hình 4.3 : Danh sách khái niệm màu nút cho biết số lượng văn có quan hệ 51 Hình 4.4 : Trình bày khoảng cách vật lí nút 51 Hình 4.5 : Cơ sở tri thức đơn giản “music” 53 Hình 5.1 : Mơ hình xử lý tổng quát 56 Hình 5.2 : Giao diện máy tìm kiếm Google 57 Hình 5.3 : Lưu đồ trình tách chuỗi 59 Hình 5.4 : Lưu đồ xử lý trường hợp truy vấn cụm danh từ 69 Hình 5.5 : Lưu đồ xử lý trường hợp truy vấn danh từ riêng 75 Truy tìm thơng tin theo ngữ nghĩa CHƯƠNG GVHD : PGS TS Phan Thị Tươi GIỚI THIỆU TỔNG QUAN 1.1 Tổng quan Với phát triển nhanh chóng cơng nghệ thơng tin tính hữu dụng nó, người ứng dụng tin học vào tất lĩnh vực như: học tập, giải trí, quản lí, sản xuất … Một ứng dụng quan trọng lưu trữ truy tìm thơng tin ( IR : Information Retrieval ) Do tầm quan trọng việc truy tìm thơng tin nên vấn đề ln đặt ứng dụng (từ nhỏ đến lớn) Ví dụ : chương trình quản lý nhân tiền lương, quản lý kho Microsoft Word, Microsoft Excel, Microsoft Access SQL Server, Oracle … Cho đến năm 2003 internet trở thành kênh truyền tải thông tin lớn giới[15] Các thông tin Intenet nhiều, nhu cầu truy tìm thơng tin internet cao Hiện nay, để đáp ứng nhu cầu truy tìm thơng tin người sử dụng, có nhiều máy tìm kiếm chuyên nghiệp : Google, Yahoo, Altavista, Lycos, Các máy ngày nhiều người dùng quan tâm trở thành công cụ thiết yếu người sử dụng Ngày nay, số lượng thông tin internet tăng nhanh (theo hàm số mũ)[18], nên vai trị máy tìm kiếm trở nên quan trọng Tuy nhiên, máy tìm kiếm thường hoạt động theo nguyên tắc so trùng từ Với câu truy vấn, máy tìm kiếm trả tài liệu có chứa cụm từ truy vấn nội dung Với nguyên tắc này, người sử dụng thu nhiếu kết từ câu truy vấn Trong số kết thu có nhiều khơng phù hợp ngữ nghĩa với mong muốn người sử dụng họ phải tốn nhiều công sức để lọc lại kết theo ý Từ vấn đề trên, người ta nhận thấy dừng máy tìm kiếm theo nguyên tắc so trùng từ không đáp ứng ứng nhu cầu người dùng Với thực tế này, hệ thống truy tìm thơng tin theo ngữ nghĩa đề xuất nghiên cứu Truy tìm thơng tin theo ngữ nghĩa GVHD : PGS TS Phan Thị Tươi Trên giới có nhiều nghiên cứu vấn đề Cụ thể báo trình bày phần Ở Việt Nam, số lượng người sử dụng internet tăng nhanh theo thời gian Năm 2002 theo World Fact book số lượng người sử dụng internet Việt Nam 400.000 chiếm 0.5% dân số, đến năm 2005 có 7,5 triệu người sử dụng chiếm 9,1% dân số (số liệu lấy trung tâm khoa học Công nghệ quốc gia) Do đó, hệ thống truy tìm thơng tin theo ngữ nghĩa dành cho người Việt Nam vấn đề quan tâm Đây mục tiêu đề tài 1.2 Đề tài nghiên cứu Sau làm thực nghiệm máy tìm kiếm Google, rút số nguyên nhân dẫn đến khác ngữ nghĩa kết truy vấn, kết với sau : 1.2.1 Truy vấn có nhiều nghĩa Giả sử nội dung truy vấn A ( giả sử có tác dụng tồn nội dung luận văn) A từ đơn âm tiết (Tiếng), từ ghép, cụm từ Ví dụ : A từ đơn “tiếng” Từ “tiếng” tiếng Việt có nghĩa : Cái mà tai nghe thấy (tiếng đàn, tiếng cười) Âm tiết, đơn vị thường có nghĩa (nói rõ tiếng) Ngơn ngữ cụ thể (biết nhiều thứ tiếng) Giọng nói, cách phát âm (tiếng nhỉ? tiếng Huế) Lời nói cá nhân (có tiếng kêu cứu) Lời bàn tán, khen chê dư luận Trong thực tế, tìm kiếm với truy vấn từ “tiếng” máy tìm kiếm Google, kết thu tài liệu có chứa nội dung : tiếng Việt… … tiếng Anh … Truy tìm thơng tin theo ngữ nghĩa GVHD : PGS TS Phan Thị Tươi … tiếng chuông … … tiếng nói … …tiếng thơ …, … Ví dụ : truy vấn từ ghép “tiếng vang” “tiếng vang” có nghĩa : Âm nghe sóng âm phản xạ từ vật chắn : Tiếng vang từ núi đá vọng lại Giá trị, tác động tốt dư luận rộng rãi tiếp nhận hoan nghênh : Tác phẩm có tiếng vang lớn Trong thực tế, tìm kiếm với truy vấn từ “tiếng vang” máy tìm kiếm Google, kết thu tài liệu có chứa nội dung : …tác phẩm “số đỏ” có tiếng vang Mỹ … … hoạt động hồn hảo với tính tạo tiếng vang giảm tiếng ồn… Các tài liệu thu trường hợp chứa A ngữ nghĩa A tài liệu khác 1.2.2 Truy vấn từ Tiếng Việt phần từ khác Ví dụ : từ “tin” với chức danh từ có nghĩa Điều báo cho biết việc, tình hình xảy : báo tin Sự truyền đạt, phản ảnh giới giới xung quanh q trình xảy đó, hình thức khác Từ “tin” lại xuất với tư cách phần từ khác “tin học”, “con tin”, …và ngữ nghĩa từ “tin” từ thường bị thay đổi Trong thực tế, tìm kiếm với truy vấn từ “tin” máy tìm kiếm Google, kết thu tài liệu có chứa nội dung : … tin học … …thơng tin… Truy tìm thơng tin theo ngữ nghĩa GVHD : PGS TS Phan Thị Tươi vấn”,những kết khơng có A giữ vai trị trung tâm cụm từ xếp loại “không phù hợp ngữ nghĩa với truy vấn” 5.5.2 Truy vấn cụm danh từ không chứa danh từ riêng 5.5.2.1 Cấu tạo cụm danh từ Như phần 3.4 trình bày Cấu tạo cụm danh từ có hai dạng sau : Dạng : Đại từ Đại từ toàn lượng TRUNG Định tố hạn TÂM định lượng - Định tố hạn định loại - Định tố hạn định đặc trưng - Định tố xác minh Đại từ định Định tố hạn định loại : thường danh từ không đếm cụm danh từ có trung tâm danh từ không đếm Định tố hạn định đặc trưng : thường động từ, cụm động từ, tính từ cụm tính từ Định tố xác minh : thường có cấu tạo kết cấu có quan hệ từ kết cấu chủ vị Dạng : N1 (Z) N2 N1 : danh từ; N2 : cụm danh từ; Z : giới từ, khơng xuất Từ đặc điểm ngữ pháp cụm danh từ, ta rút nhận xét sau: - Trong cụm danh từ, đứng trước danh từ danh từ, đại từ toàn bộ, đại từ lượng giới từ - Tính từ động từ cho biết vị trí phân cách từ cụm danh từ đứng sau 5.5.2.2 Xác định chức ngữ pháp A cụm danh từ Chức ngữ pháp A cụm danh từ tùy thuộc vào từ đứng trước Để đưa cách giải vấn đề cách thực tế, tác giả thực thống kê từ loại xuất trước A kết 64 Truy tìm thơng tin theo ngữ nghĩa GVHD : PGS TS Phan Thị Tươi Từ loại Khơng có Dấu gạch ngang (-) Ký tự % Dấu mở ngoặc Dấu phẩy (,) Dấu chấm (.) Dấu hai chấm (:) Dấu chấm phẩy (;) Danh từ Giới từ Kết từ Liên từ Động từ Định tố lượng Định tố toàn Phó danh từ Phụ từ Số Số từ Tính từ Viết tắt Không xác định Số lượng 28 19 12 10 18 139 39 13 81 18 12 30 10 469 Bảng 5.2 : Kết thống kê số lượng từ loại đứng trước A Bảng thống kê 5.2 thực 469 kết năm truy vấn : “phần cứng “, “công nghệ phần mềm”, “phần cứng máy tính”, “phim việt nam”, “trường đại học mở” Trong bảng thống kê có số trường hợp cần lưu ý - Từ loại “khơng có” : kết A xuất vị trí - Từ loại ký tự % : trước ký tự số - Từ loại giới từ : số có giới từ “về” giới từ “của” Trong từ điển từ “về” có hai từ loại : động từ giới từ Khi đứng trước từ “về” danh từ giới từ , đứng trước từ “về” “động từ” ”động từ” - Từ loại động từ : Theo cấu tạo cụm danh từ, đứng trước danh từ động từ ta kết luận danh từ giữ vai trị trung tâm 65 Truy tìm thơng tin theo ngữ nghĩa GVHD : PGS TS Phan Thị Tươi cụm danh từ Tuy nhiên, số trường hợp động từ dùng làm tên quan, tổ chức …Lúc A lại giữ vai trò bổ ngữ - Từ loại “không xác định” nghĩa từ đứng trước A kết từ tiếng Việt (có thể viết sai) Dựa vào bảng thống kê cấu tạo cụm danh từ, tác giả đưa cách giải trường hợp sau : - Đứng trước A danh từ.Trong cấu tạo cụm danh từ có hai danh từ liền danh từ đứng sau bổ ngữ cho danh từ đứng trước Ví dụ : cụm danh từ “cơng nghệ phần mềm” có chứa hai danh từ “cơng nghệ” “phần mềm” Trong cụm danh từ danh từ “phần mềm” làm bổ ngữ cho danh từ “cơng nghệ” Do trường hợp A thành phần trung tâm cụm danh từ - Đứng trước A phó danh từ Trường hợp chưa kết luận A có thành phần trung tâm hay không mà ta phải dựa vào từ đứng trước phó danh từ Ví dụ cụm danh từ “quyển sách” từ “sách” danh từ trung tâm khơng có từ đứng trước phó danh từ “quyển” ; Trong cụm danh từ “giá trị sách này” từ sách” khơng danh từ trung tâm đứng trước phó danh từ “quyển” giới từ “của” - Đứng trước A đại từ lượng Trường hợp chưa kết luận A có thành phần trung tâm hay khơng mà phải dựa vào từ đứng trước Ví dụ cụm từ “ngôi mộ mười hai chiến sĩ cách mạng”, cụm từ “chiến sĩ cách mạng” thành phần trung tâm trước số từ “mười hai” có giới từ ”của”; cụm từ “mười hai chiến sĩ cách mạng hy sinh anh dũng đây”, cụm từ “chiến sĩ cách mạng” thành phần trung tâm cụm danh từ “mười hai chiến sĩ cách mạng” trước số từ “mười hai” khơng cịn từ - Đứng trước A đại từ toàn bộ.Trường hợp chưa kết luận A có thành phần trung tâm hay không phải dựa vào từ đứng trước - Đứng trước A số Trường hợp xử lý trường hợp đại từ lượng - Đứng trước A giới từ Theo cấu tạo cụm danh từ trường hợp A bổ ngữ Ví dụ : cụm từ “phần cứng máy tính” 66 Truy tìm thơng tin theo ngữ nghĩa GVHD : PGS TS Phan Thị Tươi danh từ “máy tính” bổ ngữ đứng trước giới từ “của” Tuy nhiên, gặp từ “về” ta phải xét thêm từ đứng trước từ này, “động từ” từ “về” động từ , ngược lại từ “về” giới từ Ví dụ: từ ”về” cụm từ “các vấn đề phần cứng” giới từ, từ “về” cụm từ “Chúng nghiên cứu công nghệ phần mềm” động từ - Đứng trước A động từ Theo cấu tạo cụm danh từ trường hợp A thành phần trung tâm Ví dụ cụm từ “mười bước cài đặt phần cứng máy tính” danh từ “phần cứng” thành phần trung tâm cụm danh từ “phần cứng máy tính” trước động từ “cài đặt” Tuy nhiên, thực tế có trường hợp động từ dùng làm tên quan, tổ chức Ví dụ từ “Phát triển” cụm từ “Công ty Phát triển Công nghệ Phần mềm” Trong trường hợp A bổ ngữ Để giải trường hợp ta sử dụng qui tắc cách viết hoa tên quan, tổ chức - Đứng trước A tính từ Theo cấu tạo cụm danh từ tính từ không đứng trước danh từ cụm danh từ Do đó, trường hợp A giữ vai trò trung tâm cụm danh từ - A đứng đầu câu Do khơng có từ đứng trước A nên giữ vai trị trung tâm cụm danh từ chứa A - Đứng trước A từ không xác định Nếu từ từ viết tắt ta xem từ danh từ A bổ ngữ Nếu từ từ viết sai ta khơng đốn từ loại từ nên ta tạm chấp nhận A thành phần trung tâm cụm danh từ - Đứng trước A ký tự kết thúc câu : dấu chấm(.), dấu chấm hỏi (?), dấu chấm cảm (!), dấu chấm lửng (…) Lúc A cụm từ đứng đầu câu Do đó, A thành phần trung tâm cụm danh từ - Đứng trước A ký tự đặc biệt lại Các ký tự thường dùng để phân cách cụm từ Do đó, ta chấp nhận A thành phần trung tâm Gi i thu t 5.2 xác định chức ngữ pháp cụm danh từ Dữ liệu vào : danh sách từ loại TL[i,n] (danh sách từ loại thứ i kết quả, n số từ loại có TL[i,n]) , T[i,n] (danh sách từ thứ i kết quả, n số từ có T[i,n]) Đặt j=n 67 Truy tìm thơng tin theo ngữ nghĩa GVHD : PGS TS Phan Thị Tươi Dữ liệu : Ketqua “đúng” A giữ vai trò trung tâm cụm danh từ Ketqua “sai” trường hợp ngược lại Phương pháp Bước : Nếu j=0 Ketqua=”đúng” Thực bước Bước : Nếu TL[i,j] phó danh từ, đại từ lượng, đại từ tồn bộ, số cho j=j-1, quay bước 1; ngược lại thực tiếp bước Bước : Nếu TL[i,j] tính từ , ký tự đặc biệt, động từ Ketqua=”đúng”; Nếu TL[i,j] danh từ, giới từ “của”, viết tắt, “o”, tên tổ chức Ketqua=”sai”; Thực bước Bước : Kết thúc Lưu đồ xử lý bước 5.1, 5.2, …, 5.4 trình bày hình 5.4 5.5.3 Trường hợp truy vấn danh từ riêng Cũng danh từ, trường hợp truy vấn danh từ riêng, xác định chức ngữ pháp A kết phân loại kết thành hai nhóm Danh từ riêng thường không kết hợp với từ lượng mang ý nghĩa toàn thể Trong văn bản, ký tự đầu từ danh từ riêng phải viết hoa Danh từ riêng thường không xuất mình, thường đứng sau danh từ khác danh từ thường khơng có ý nghĩa chân thực, khơng thể tồn độc lập để tự lập thành câu, tách rời hồn cảnh ngơn ngữ chúng làm thành câu Các danh từ gọi phó danh từ[4] Ví dụ Thành phố Hồ Chí Minh, sơng Hồng, Liên Đối với danh từ riêng thường có phó danh từ mặc định Nghĩa danh từ riêng đứng người đọc người nghe ngầm hiểu trước danh từ riêng có phó danh từ mặc định Ví dụ danh từ “Đồng Nai” có phó danh từ mặc định “tỉnh”, danh từ “Trần Hưng Đạo” có phó danh từ mặc định “tướng” Thống kê 702 trường hợp xuất danh từ riêng có 51 trường hợp có phó danh từ đứng trước 68 Truy tìm thơng tin theo ngữ nghĩa GVHD : PGS TS Phan Thị Tươi TL[i,n], Tu[i,n], j=n Sai j>0 Đúng j=j-1 Đúng TL[i,j]= “Phó danh từ” Sai Đúng TL[i,j]= “Đại từ lượng” Sai Đúng TL[i,j]= “đại từ toàn bộ” Sai Đúng TL[i,j] = “số “ Sai Đúng TL[i,j]= “danh từ” Sai TL[i,j]=”tính từ” Đúng Sai TL[i,j]=”ký tự đặc biệt” Đúng Sai (1) (2) 69 (3) Truy tìm thơng tin theo ngữ nghĩa GVHD : PGS TS Phan Thị Tươi (1) (2) Đúng (3) TL[i,j]=”giới từ” Tu[i,j]=”của” Sai TL[i,j]=”giới từ” Tu[i,j]=”về” Sai (4) Đúng j=j-1 Đúng J=0 Sai Sai TL[i,j] =”động từ” Đúng (4) TL[i,j] =”động từ” Đúng Đúng Ký tự đầu Tu[i,j] chữ in Sai (5) Sai (5) TL[i,j]=”không xác định” Sai Đúng Đúng TL[i,j]=”từ viết tắt" KetQua=”sai” Sai Ketqua=”đúng” Hình 5.4 : Lưu đồ xử lý trường hợp truy vấn cụm danh từ 70 Truy tìm thơng tin theo ngữ nghĩa GVHD : PGS TS Phan Thị Tươi Chức ngữ pháp A cụm danh từ tùy thuộc vào từ đứng trước Để đưa cách giải vấn đề cách thực tế, thực thống kê từ loại xuất trước A kết Bảng thống kê 5.3 thực 351 kết truy vấn : “đồng nai”,”hồ chí minh”, “trần hưng đạo”, “hà nội” Từ loại Khơng có Dấu gạch ngang(-) Dấu mở ngoặc Dấu (*) Dấu phẩy (,) Dấu chấm (.) Dấu hai chấm (:) Dấu chấm phẩy(;) Dấu gạch đứng (|) Danh từ Giới từ Kết từ Khẩu ngữ Động từ Khơng xác định Phó danh từ Số Tính từ Số lượng 152 10 1 36 37 118 12 28 113 51 76 658 Bảng 5.3 : Kết thống kê số lượng từ loại đứng trước cụm danh từ riêng Trong bảng thống kê 5.3 có số trường hợp cần lưu ý - Từ loại “không có” : kết A xuất vị trí - Dấu gạch ngang Trường hợp có 10 trường hợp Trong số này, đa số thuộc cụm từ vị trí Ví dụ cụm từ “Đường Hoàng Quốc Việt- Cầu Giấy- Hà Nội” - Số từ Thường xuất trước danh từ riêng cụm từ địa Ví dụ cụm từ “TRỤ SỞ CHÍNH 108 TRẦN HƯNG ĐẠO” - Dấu phẩy đa số xuất kết với hai vị trí : 71 Truy tìm thơng tin theo ngữ nghĩa GVHD : PGS TS Phan Thị Tươi o Thuộc cụm từ địa (27/39 trường hợp) Trong trường hợp thường trước dấu phẩy danh từ riêng số Ví dụ : cụm từ “61, Nguyễn Văn Trị, TP Biên Hòa, Đồng Nai” o Là ranh giới thành phần câu(12/39 trường hợp) Ví dụ cụm từ “Mỗi năm, Đồng Nai thu hút thêm…” - Các trường hợp cịn lại tương tự phần cụm danh từ Dựa vào bảng 5.3 đặc điểm danh từ riêng, đưa cách giải trường hợp sau : - A đứng đầu câu A thành phần trung tâm cụm danh từ - Đứng trước A danh từ.Trong trường hợp bổ ngữ cho danh từ đứng trước Ví dụ cụm danh từ “Sở Tài Đồng Nai” danh từ riêng “Đồng Nai” bổ ngữ cho danh từ “Sở Tài chính” - Đứng trước A phó danh từ Trường hợp để xác định A có thành phần trung tâm hay không ta phải dựa vào từ đứng trước - Đứng trước A số Trường hợp A thường thuộc cụm từ địa giữ vai trò bổ ngữ - Đứng trước A giới từ, động từ, tính từ, khơng xác định Các trường xử lý giống A cụm danh từ - Đứng trước A dấu phẩy Xác định thêm từ đứng trước dấu phẩy Nếu từ tên riêng A khơng thành phần trung tâm, ngược lại A thành phần trung tâm - Đứng trước A dấu gạch ngang Trường hợp A không thành phần trung tâm - Đứng trước A ký tự đặc biệt lại giải trường hợp A cụm danh từ 72 Truy tìm thơng tin theo ngữ nghĩa GVHD : PGS TS Phan Thị Tươi Gi i thu t 5.3 xác định chức ngữ pháp A cụm danh từ Dữ liệu vào : danh sách từ loại TL[i,n] (danh sách từ loại thứ i kết quả, n số từ loại có TL[i,n]) , T[i,n] (danh sách từ thứ i kết quả, n số từ loại có T[i,n]) Đặt j=n Dữ liệu : Ketqua “đúng” A vai trò trung tâm cụm danh từ Ketqua “sai” trường hợp ngược lại Phương pháp Bước : Nếu j=0 kết luận A cụm danh từ trung tâm Thực tiếp bước Bước : Nếu TL[i,j] phó danh từ cho j=j-1, quay lại bước 1; ngược lại thực tiếp bước Bước : Nếu TL[i,j] số, danh từ,giới từ, tên đơn vị, viết tắt, “-“, “o” Ketqua=”sai”; TL[i,j] “,” TL[i,j-1] danh từ riêng Ketqua=”sai”; ngược lại Ketqua=”đúng”; trường hợp lại Ketqua=”đúng” Thực tiếp bước Bước : Kết thúc 73 Truy tìm thơng tin theo ngữ nghĩa GVHD : PGS TS Phan Thị Tươi Lưu đồ xử lý bước 5.1, 5.2, …, 5.4 trình bày hình 5.2 TL[i,n], T[i,n], j=n Sai j>0 Đúng j=j-1 Đúng TL[i,j]= “Phó danh từ” Sai Đúng TL[i,j]= “Số” Sai Đúng TL[i,j]= “danh từ” Sai TL[i,j] = “tính từ“ Đúng Sai Đúng TL[i,j]=”giới từ” T[i,j]=”của” Sai TL[i,j]=”giới từ” T[i,j]=”về” Sai (4) Đúng j=j-1 Đúng J=0 Sai (1) (2) 74 (3) Truy tìm thơng tin theo ngữ nghĩa GVHD : PGS TS Phan Thị Tươi (1) (2) Sai (3) TL[i,j] =”động từ” Đúng (4) TL[i,j] =”động từ” Đúng Đúng Ký tự đầu Tu[i,j] chữ in Sai (5) Sai (5) TL[i,j]=”không xác định” Sai (6) Đúng Đúng TL[i,j]=”từ viết tắt" Sai (6) Đúng TL[i,j]=”-“ Sai Sai TL[i,j] = “,” Đúng Đúng TL[I,j-1]=”danh từ riêng KetQua=”sai” Sai Ketqua=”đúng” Hình 5.5 : Lưu đồ xử lý trường hợp truy vấn danh từ riêng 75 Truy tìm thơng tin theo ngữ nghĩa CHƯƠNG GVHD : PGS TS Phan Thị Tươi Kết luận hướng phát triển luận văn 6.1 Kết đạt Phân loại kết thu từ máy tìm kiếm Google thành nhóm : • Nhóm bao gồm kết có chứa cụm danh từ với truy vấn từ trung tâm • Nhóm bao gồm kết mà nội dung chúng khơng có cụm danh từ có truy vấn từ trung tâm 6.2 Đóng góp luận văn Mặc dù ngữ pháp tiếng Việt phức tạp tác giả rút điểm ngữ pháp cần thiết cho luận văn • Cấu tạo từ • Đặc điểm danh từ • Cấu tạo cụm danh từ • Cách viết hoa Đưa phương pháp xác định vai trò ngữ pháp danh từ cụm danh từ, từ góp phần giải tốn truy xuất thơng tin theo ngữ nghĩa cấp độ cụm từ 6.3 Những vấn đề tồn đọng Chưa thu thập đầy đủ phó danh từ mặc định danh từ riêng Do tách chuỗi thành danh sách từ theo nguyên tắc từ trái sang phải nên tạo sai sót Giải tượng đa từ loại từ Chỉ sử dụng từ loại có sẵn từ điển, chưa phân từ loại thành tiểu từ loại để tăng độ hiệu đề tài Chưa giải vấn đề phạm vi cụm từ phức tạp Chưa xây dựng máy tìm kiếm dành riêng cho hệ thống Do đó, việc mở rộng đề tài gặp nhiều khó khăn 6.4 Hướng phát triển đề tài Xây dựng máy tìm kiếm dành riêng cho hệ thống Xây dựng sở tri thức lưu trữ phó danh từ danh từ riêng mối quan hệ chúng Giải tuợng đa từ loại từ Giải vấn đề mức độ cao : cụm từ phức tạp, câu 76 Truy tìm thơng tin theo ngữ nghĩa GVHD : PGS TS Phan Thị Tươi TÀI LIỆU THAM KHẢO [1] Phan Thi Tuoi, 1996, Trình biên dịch, nhà xuất giáo dục [2] Phan Thị Tươi, 2002 Ngôn ngữ lập trình nâng cao, nhà xuất Đại Học Quốc Gia TP Hồ Chí Minh [3] Bùi tất Tươm, 1995, Giáo trình Tiếng Việt Nhà xuất Giáo dục [4] Nguyễn Kim Thản, 1997, Nghiên cứu ngữ pháp Tiếng Việt, nhà xuất Giáo dục [5] Nguyễn Kim Thản, 1996, Cơ sở Ngữ pháp Tiếng Việt, nhà xuất Khoa học Xã hội [6] Bùi Đức Tịnh, 1995, Văn phạm Việt Nam, nhà xuất Văn Hóa [7] Nguyễn Minh Thuyết, 1997, Tiếng Việt Thực Hành, NXB Giáo Dục [8] Nguyễn Như Ý, 1998, Đại từ điển Tiếng Việt, nhà xuất Văn hóa Thơng tin [9] Đồn Xoa, 1996, Từ điển Tiếng Việt, nhà xuất Đà Nẵng [10] James Allen, 1995 Natural Langguague Understanding The Banjamin/Cummings Publishing Company, Inc [11] Chiristopher D.Manning and HinZich Schuze, 2001 Foundation of statistical natural language Processing” The MIT press Camdridge, Massachusetls London, England [12] Patrich Henzy Winston 1992 Artifical Intelligence addison – Wesley Publishing company [13] W.Jonh Hutching, 1992 An introduction to Machine Translation”, Academic Press harcount Barce Jovanovich Publishers [14] Ricardo Baeza-Yates and Berthier Ribeiro-Neto 1999 Modern Information Retrieval Addison- Wesley ACM Press New York 77 Truy tìm thông tin theo ngữ nghĩa GVHD : PGS TS Phan Thị Tươi [15] Nguyễn Thanh Hiên, 2005, Phân giải đồng tham chiếu thực thể có tên Tiếng Việt, luận văn Thạc sĩ chuyên ngành Công nghệ Thông tin trường Đại học Bách Khoa [16] Lại Thị Hạnh, 2002, Trích cụm danh từ Tiếng việt nhằm phục vụ cho hệ thống tra cứu thông tin đa ngôn ngữ, luận văn Thạc sĩ Tin học trường Đại học Khoa học tự Nhiên [17] Sang-Bum Kim, Hee-Cheol Seo and Hae-Chang Rim, 2004 Information Retrieval using Word Senses : Root Sense Tagging Approach [18] Javed Mostafa and Himansu Tripathy , 2002 , Information Retrieval by Semantic Analysis and Visualization of the Concept Space of D-Lib® Magazine [19] Carmine Cesarano, Antonio d’Acierno and Antonio Picariello, 2003 , An Intelligent Search Agent System for Semantic Information Retrieval on the Internet 78 ... Truy tìm thơng tin theo ngữ nghĩa GVHD : PGS TS Phan Thị Tươi 4.2 Truy tìm thơng tin cách phân tích ngữ nghĩa 48 4.3 Hệ thống tìm kiếm thơng minh cho truy tìm thơng tin theo ngữ nghĩa internet... 11 Truy tìm thơng tin theo ngữ nghĩa CHƯƠNG GVHD : PGS TS Phan Thị Tươi TRUY TÌM THƠNG TIN Trong phần q trình truy tìm thơng tin trình bày cách khái qt 2.1 Q TRÌNH TRUY TÌM THƠNG TIN Q trình truy. .. thơng tin theo ngữ nghĩa Giải tốn truy tìm thơng tin theo ngữ nghĩa cấp độ cụm từ Cụ thể so sánh khác vai trò ngữ pháp truy vấn từ cụm từ có nội dung trùng với truy vấn xuất tài liệu 10 Truy tìm

Ngày đăng: 16/04/2021, 04:20

Xem thêm:

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w