1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Giải pháp tổ chức lưu trữ và xử lý tài liệu văn bản tiếng việt có ngữ nghĩa

43 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 43
Dung lượng 550,8 KB

Nội dung

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TIỂU LUẬN PHƯƠNG PHÁP LUẬN SÁNG TẠO KHOA HỌC (Giải pháp tổ chức lưu trữ xử lý tài liệu văn tiếng việt có ngữ nghĩa) Giảng viên phụ trách : GS TSKH Hoàng Kiếm Học viên thực : Châu Kim Hùng – CH1101013 Lớp : CH.CNTT.K6 Khóa : 06 Tp HCM, Tháng 04 năm 2012 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lời cảm ơn Đầu tiên, em xin bày tỏ lịng biết ơn chân thành đến thầy Hồng Văn Kiếm, người tận tình hướng dẫn, tạo điều kiện thuận lợi để em hoàn thành tốt chuyên đề Thầy định hướng cho chúng em từ cách đặt vấn đề, phương pháp nghiên cứu khoa học công việc cụ thể Em xin chân thành cảm ơn thầy phịng đào tạo sau đại học, người giúp đỡ, tạo điều kiện tốt cho em trình học tập thực chuyên đề Xin gửi lời cảm ơn đến gia đình, cảm ơn anh chị, bạn bè, người sát cánh, động viên chúng em bước đường học tập sống Xin chân thành biết ơn tận tình dạy dỗ giúp đỡ tất quý thầy cô trường Đại học Công Nghệ Thông Tin Tất kiến thức mà nhà trường quý thầy cô truyền đạt hành trang to lớn để chúng em mang theo đường học tập, làm việc nghiên cứu q trình hồn thiện nhân cách TP HCM, ngày 14 tháng 04 năm 2012 Học viên Châu Kim Hùng LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lời nói đầu Để có định hướng, mục tiêu mong muốn đường nghiên cứu khoa học, việc tìm hiểu nắm rõ “Phương pháp luận nghiên cứu Khoa học” điều cần thiết cho người nghiên cứu để nắm rõ nguyên tắc, phương pháp làm khoa học Phương pháp luận nghiên cứu Khoa học lý thuyết phương pháp nghiên cứu khoa học, lý thuyết đường nhận thức, khám phá cải tạo thực Phương pháp luận nghiên cứu khoa học kết trình khái quát lý thuyết thực tiễn nghiên cứu khoa học trở thành công cụ sắc bén để dẫn nhà khoa học, nhà quản lý công tác tổ chức, quản lý thực hành nghiên cứu khoa học cách sang tạo Nghiên cứu khoa học trình nhận thức chân lý khoa học, q trình lao động trí tuệ phức tạp, gian khổ đầy hào hứng, đầy hứa hẹn triển vọng lớn lao việc nghiên cứu “những điểm trắng” khoa học Nắm vững phương pháp luận nghiên cứu khoa học nắm vững lý thuyết đường sáng tạo, giúp người nghiên cứu có cách tiếp cận việc thiết kế thi cơng cơng trình nghiên cứu khoa học, tìm chọn phương pháp nghiên cứu hợp lý để thực nhiệm vụ nghiên cứu đạt mục đích nghiên cứu Qua kiến thức định hướng khoa học, để làm rõ tính chất quan trọng ứng dụng phương pháp luận sáng nghiên cứu khoa học việc giải vấn đề tin học, tiểu luận chuyên đề “Phương pháp luận sáng tạo khoa học” vận dụng kiến thức phương pháp luận, phương pháp sáng tạo để giải vấn đề cụ thể tin học, vấn đề tổ chức lưu trữ xử lý tài liệu văn tiếng việt LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC Phần CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC .6 1.1 Khoa học 1.2 Nghiên cứu khoa học 1.3 Đề tài nghiên cứu khoa học .7 1.3.1 Khái niệm đề tài 1.3.2 Đối tượng nghiên cứu phạm vi nghiên cứu 1.3.3 Mục đích mục tiêu nghiên cứu 1.4 Các nguyên tắc sáng tạo 1.4.1 Tổng quan 1.4.2 Ứng dụng thực tiển 10 Phần PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ - BÀI TOÁN TRONG TIN HỌC 13 2.1 Phương pháp trực tiếp 14 2.2 Phương pháp gián tiếp 15 2.2.1 Phương pháp thử sai 15 2.2.2 Phương pháp Heuristic 16 2.2.3 Phương pháp trí tuệ nhân tạo 16 Phần GIẢI PHÁP TỔ CHỨC VÀ XỬ LÝ TÀI LIỆU VĂN BẢN TIẾNG VIỆT CÓ NGỮ NGHĨA 18 3.1 Giới thiệu 18 3.2 Đồ thị khái niệm (conceptual graph) 19 3.3 Ontology 22 3.3.1 Xây dựng ontology 22 3.3.2 Các tiêu chuẩn thiết kế ontology 22 3.4 Mơ hình Named-Entity (thực thể có tên) 24 3.4.1 Định nghĩa Named-Entity 24 3.4.2 Kết cấu Named-Entity 24 3.4.3 Sự thay đổi mơ hình không gian vector truyền thống 25 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.5 Đề xuất giải pháp kĩ thuật 27 3.5.1 Ontology sở tri thức 27 3.5.2 Xây dựng chức rút trích thơng tin giải ngữ nghĩa 29 3.5.3 Xây dựng chức hỗ trợ cho chức tìm kiếm 29 3.5.4 Xây dựng chức truy hồi thông tin theo thực thể có tên 30 3.5.5 Xây dựng chức nhận diện thực thể có tên quan hệ 32 3.5.6 Đồ thị khái niệm 34 3.5.7 Chức xây dựng vá phát triển tri thức 38 3.5.8 Phương pháp ghom cụm tài liệu theo thực thể có tên 38 Phần TỔNG KẾT 40 TÀI LIỆU THAM KHẢO 42 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phần CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC 1.1 Khoa học Khoa học trình nghiên cứu nhằm khám phá kiến thức mới, học thuyết mới,…về tự nhiên xã hội Những kiến thức hay học thuyết này, tốt hơn, thay dần cũ, khơng cịn phù hợp Thí dụ: Quan niệm thực vật vật thể khơng có cảm giác thay quan niệm thực vật có cảm nhận Như vậy, khoa học bao gồm hệ thống tri thức qui luật vật chất vận động vật chất, qui luật tự nhiên, xã hội, tư Hệ thống tri thức hình thành lịch sử không ngừng phát triển sở thực tiễn xã hội Phân biệt hệ thống tri thức: tri thức kinh nghiệm tri thức khoa học 1.2 Nghiên cứu khoa học Nghiên cứu khoa học họat động tìm kiếm, xem xét, điều tra, thử nghiệm Dựa số liệu, tài liệu, kiến thức,… đạt từ thí nghiệm NCKH LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com để phát chất vật, giới tự nhiên xã hội, để sáng tạo phương pháp phương tiện kỹ thuật cao hơn, giá trị Con người muốn làm NCKH phải có kiến thức định lĩnh vực nghiên cứu phải rèn luyện cách làm việc tự lực, có phương pháp từ lúc ngồi ghế nhà trường 1.3 Đề tài nghiên cứu khoa học 1.3.1 Khái niệm đề tài Đề tài hình thức tổ chức NCKH người nhóm người thực Một số hình thức tổ chức nghiên cứu khác khơng hồn tồn mang tính chất nghiên cứu khoa hoc, chẳng hạn như: Chương trình, dự án, đề án Sự khác biệt hình thức NCKH nầy sau: * Đề tài: thực để trả lời câu hỏi mang tính học thuật, chưa để ý đến việc ứng dụng hoạt động thực tế * Dự án: thực nhằm vào mục đích ứng dụng, có xác định cụ thể hiệu kinh tế xã hội Dự án có tính ứng dụng cao, có ràng buộc thời gian nguồn lực * Đề án: loại văn kiện, xây dựng để trình cấp quản lý cao hơn, gởi cho quan tài trợ để xin thực công việc như: thành lập tổ chức; tài trợ cho hoạt động xã hội, Sau đề án phê chuẩn, thành dự án, chương trình, đề tài theo yêu cầu đề án * Chương trình: nhóm đề tài dự án tập hợp theo mục đích xác định Giữa chúng có tính độc lập tương đối cao Tiến độ thực đề tài, dự án chương trình không thiết phải giống nhau, nội dung chương trình phải đồng 1.3.2 Đối tượng nghiên cứu phạm vi nghiên cứu Đối tượng nghiên cứu: chất vật hay tượng cần xem xét làm rõ nhiệm vụ nghiên cứu Phạm vi nghiên cứu: đối tượng nghiên cứu khảo sát trong phạm vi định mặt thời gian, không gian lĩnh vực nghiên cứu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 1.3.3 Mục đích mục tiêu nghiên cứu Khi viết đề cương nghiên cứu, điều quan trọng thể mục tiêu mục đích nghiên cứu mà khơng có trùng lấp lẫn Vì vậy, cần thiết để phân biệt khác mục đích mục tiêu * Mục đích: hướng đến điều hay cơng việc nghiên cứu mà người nghiên cứu mong muốn để hoàn thành, thường mục đích khó đo lường hay định lượng Nói cách khác, mục đích đặt cơng việc hay điều đưa nghiên cứu Mục đích trả lời câu hỏi “nhằm vào việc gì?”, “để phục vụ cho điều gì?” mang ý nghĩa thực tiển nghiên cứu, nhắm đến đối tượng phục vụ sản xuất, nghiên cứu * Mục tiêu: thực điều hoạt động cụ thể, rõ ràng mà người nghiên cứu hoàn thành theo kế hoạch đặt nghiên cứu Mục tiêu đo lường hay định lượng Nói cách khác, mục tiêu tảng hoạt động đề tài làm sở cho việc đánh giá kế hoạch nghiên cứu đưa ra, điều mà kết phải đạt Mục tiêu trả lời câu hỏi “làm gì?” 1.4 Các nguyên tắc sáng tạo 1.4.1 Tổng quan Cải tiến công nghệ phục vụ cho sống phương châm, động lực phát triển cho xã hội loài người thời gian qua.Từ người có ý thức tìm tịi học hỏi khả tư đặc điểm đưa lồi người khỏi lớp động vật Đặc điểm bật tìm tịi học hỏi hay khả tư sáng tạo, tiềm lới giả cho vần đề đặt Hơn 2000 năm qua hàng triệu phát minh cải tiến đời thay đổi gần toàn sống người Qua thới kỳ phát minh, sáng kiến khác tùy thuộc vào bối cảnh xã hội nói dựa 40 nguyên tắc sáng tạo Alshuller G.S tổng hợp tác giả Phan Dũng đề cập đến sách Các Thủ Thuật (Nguyên Tắc) Sáng Tạo Cơ Bản xuất 2007 Đây nói tổng hợp kiến thức nhân loại thời gian qua, dựa vào 40 phương pháp cộng với khả tư vấn đề tiềm lới giải Công nghệ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com thông tin khơng nằm ngồi quy luật đó, cơng nghệ thông tin đời sau so với công nghệ khác luật sáng tạo Có 40 thủ thuật (nguyên tắc) sáng tạo bản: Nguyên tắc phân nhỏ Nguyên tắc “tách khỏi” Nguyên tắc phẩm chất cục Nguyên tắc phản (bất) đối xứng Nguyên tắc kết hợp Nguyên tắc vạn Nguyên tắc “chứa trong” Nguyên tắc phản trọng lượng Nguyên tắc gây ứng suất (phản tác động) sơ 10 Nguyên tắc thực sơ 11 Nguyên tắc dự phòng 12 Nguyên tắc đẳng 13 Nguyên tắc đảo ngược 14 Ngun tắc cầu (trịn) hóa 15 Ngun tắc động 16 Nguyên tắc tác động phận dư thừa 17 Nguyên tắc xung chiều khác 18 Sự dao động học 19 Nguyên tắc tác đông theo chu kỳ 20 Nguyên tắc tác đông liên tục hữu hiệu 21 Nguyên tắc vượt nhanh 22 Nguyên tắc chuyển hại thành thắng 23 Nguyên tắc quan hệ phản hồi 24 Nguyên tắc sử dụng trung gian 25 Nguyên tắc tự phục vụ 26 Nguyên tắc chép (copy) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 27 Nguyên tắc rẻ thay cho đắt 28 Nguyên tắc thay sơ đồ học 29 Nguyên tắc sử dụng kết cấu thủy khí 30 Sử dụng bao mềm dẻo mềm mỏng 31 Sử dụng vật liệu nhiều lỗ 32 Nguyên tắc đổi màu 33 Nguyên tắc đồng 34 Nguyên tắc loại bỏ tái sinh phần 35 Đổi thơng số hóa lý đối tượng 36 Sử dụng chuyển pha 37 Sử dụng nở nhiệt 38 Sử dụng chất oxy hóa 39 Sử dụng môi trường trơ 40 Sử dụng vật liệu tổng hợp (composit) 1.4.2 Ứng dụng thực tiển 1.4.2.1 Ứng dụng nguyên tắc kết hợp – Bài học từ Cassette Sony Walkman Năm 1979, công ty Sony sáng chế sản phẩm mới: máy cassette âm siêu nhỏ (bỏ túi) với tên ọi Sony Walkman Từ lúc đời vào năm 1979, đến năm 1981, công ty bán 1,5 triệu chếc Đến nửa đầu năm 1982, số lượng bán triệu Mức tiêu thụ sản phẩm tăng vọt gần theo chiều thẳng đứng Vậy nguyên nhân làm cho sản phẩm tiêu thụ nhanh vậy? Câu trả lời công ty Sony biết áp dụng cách linh hoạt nguyên tắc Kết hợp Vào thời điểm đó, xã hội thịnh hành hoạt động rèn luyện sức khỏe ngồi trời Cơng ty Sony tung loại máy cassette phù hợp với nhu cầu này, tức giúp cho người vừa tập thể dục, chạy nhảy trời, vừa thưởng thức âm nhạc Ở đây, nhu cầu khác người tiêu dùng kết hợp cách hoàn hảo LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Ta nên xây dựng sở tri thức cho từ cụm từ bổ nghĩa cho tên thực thể xuất tài liệu Có thể xem thực thể thuộc lớp Ngữ_liệu, dùng mẫu nhận dạng thực thể thuộc lớp khác Ontology Ví dụ, “thành phố Hồ Chí Minh” hay “Chủ tịch tỉnh Vũ Hoàng Hà”, “thành phố” “Chủ tịch tỉnh” ngữ liệu Ngữ liệu cung cấp cho thành phần rút trích thơng tin số dấu hiệu để nhận dạng thực thể Các dấu hiệu bao gồm tiền tố, hậu tố số thành phần cấu thành nên tên thực thể thuộc lớp định sở tri thức Vì vậy, đặc điểm cách thức viết tên thực thể lớp nghiên cứu để rút cấu trúc biểu diễn tên cho lớp thực thể Cơ sở tri thức cần phải ghi nhớ bí danh để nhận diện tên thực thể Các bí danh chia thành hai nhóm: + Nhóm thứ biến thể khác tên thực thể Ví dụ “Bệnh viện Từ Vũ” hay “Bệnh viện phụ sản Từ Vũ” + Nhóm thứ hai bao gồm tên khác hoàn toàn thực thể Ví dụ “Sài Gịn” “TP Hồ Chí Minh” Chúng ta cần khái tới bí danh việc tìm kiếm theo ngữ nghĩa, tìm kiếm tài liệu chứa thực thể có nhiều bí danh tất tài liệu chứa bí danh phải trả Ví dụ việc tìm kiếm tài liệu có chứa Thành phố Sài Gịn tài liệu có chứa Thành phố Hồ Chí Minh phải trả 3.5.2 Xây dựng chức rút trích thơng tin giải ngữ nghĩa Đây tập hợp module có chức cập nhập tài liệu mới, phân tích tìa liệu để rút trích khối văn mang tin tức Từ khối văn đó, module tiến hành nhận dạng thực thể có tên thích ngữ nghĩa cho thực thể Kết từ tài liệu mà có người hiểu được, ta tài liệu giống hoàn toàn nội dung ẩn chứa thích ngữ nghĩa giúp chương trình xử lý 3.5.3 Xây dựng chức hỗ trợ cho chức tìm kiếm Bài tốn tìm kiếm tốn quen thuộc ta sử dụng thư viện Lucene để hổ trợ chức Tuy nhiên, Lucene hỗ trợ việc đánh mục LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tìm kiếm theo khóa khơng theo thực thể có tên Việc xử lý, tìm kiếm đánh giá truy hồi thơng tin theo thực thể có tên có nhiều khác biệt với truy hồi thơng tin theo từ khóa Một vấn đề biến việc đánh mục theo thực thể thành đánh mục theo từ khóa cho hỗ trợ tốt kiểu tìm kiếm có hệ thống truy hồi thơng tin theo thực thể có tên Vì ta cần phải cải tiến Lucene cho phù hợp với yêu cầu đánh mục tìm kiếm theo thực thể có tên công việc cần thiết  Ý tưởng đánh mục theo thực thể có tên Để sửa đổi thư viện Lucene, công việc phải xem xét việc đánh mục tài liệu có ngữ nghĩa theo thực thể Sau định nên đánh mục thực thể có tên nào, biến đổi thư viện Lucene để hỗ trợ việc đánh mục dễ dàng Đánh mục công việc quan trọng Ngoài việc đáp ứng nhu cầu tìm kiếm theo thực thể có tên, cịn phải giúp việc tìm kiếm thực hiệu với thời gian ngắn Ta đề xuất số phương pháp đánh mục như: - Đánh mục theo id - Đánh mục theo nhiều thông tin: sử dụng ba thành phần class, name, id thực thể có tên tổ hợp cách tốt nhất… 3.5.4 Xây dựng chức truy hồi thơng tin theo thực thể có tên Từ khái tưởng quản lý tài liệu có ngữ nghĩa ta xây dựng chức thực truy vấn sở tri thức kho tài liệu có thích ngữ nghĩa chương trình Đây số đề xuất cách thức truy vấn: + Dùng ngôn ngữ truy vấn Sesame SeRQL [Error! Reference source not found.] Sesame thực chất giống hệ quản trị sở liệu tương tự MySQL hay Oracle; SeRQL ngôn ngữ truy vấn giống SQL Sự khác chỗ, Sesame cho phép ta quản lý sở tri thức dựa thực thể quan hệ chúng + Dùng mẫu truy vấn xây dựng sẵn (dùng template) Với cách này, hệ thống cung cấp số mẫu truy vấn thơng dụng nhất, ví dụ “tác giả X quốc gia LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Y”, … Người dùng chọn mẫu phù hợp với yêu cầu, sau thay chỗ trống thực thể cụ thể + Dùng đồ thị khái niệm Ý tưởng đồ thị khái niệm nhiều người đề cập tới lĩnh vực biểu diễn tri thức Trong chương trình quản lý tài liệu có ngữ nghĩa, đồ thị khái niệm trở thành cơng cụ quan trọng biễu diễn theo cách thức mà người hình dung Vì thế, ta xây dựng chức cung cấp giao diện cho phép người dùng vẽ đồ thị khái niệm tiến hành truy vấn Đồ thị khái niệm cách biểu diễn hình thức gần với ngơn ngữ tự nhiên Tuy nhiên, việc chuyển đổi tự động từ câu ngôn ngữ tự nhiên thành đồ thị khái niệm lại khơng đơn giản Trong đó, u cầu đặt cho việc giải toán phải xây dựng đồ thị khái niệm hợp lệ Điều kiện hợp lệ là: + Tất khái niệm quan hệ phải tồn ontology hệ thống + Tất quan hệ phải thỏa mãn ràng buộc miền chủ thể (subject) khách thể (object) Các ràng buộc định nghĩa ontology Điều đặt số giới hạn cho câu truy vấn đầu vào sau: + Chỉ truy vấn khái niệm có ontology Các câu truy vấn có khái niệm khơng định nghĩa khơng cho kết + Chỉ truy vấn quan hệ có ontology thỏa mãn ràng buộc Trong trình xử lý, số bước, khả xử lý bị hạn chế số điểm, nên câu truy vấn mà bị giới hạn theo Quá trình biến đổi câu truy vấn thành đồ thị khái niệm thực chất q trình tìm kiếm thực thể câu truy vấn xây dựng mối quan hệ chúng Vì vậy, tốn giải theo ba bước sau đây: + Bước 1: Nhận diện thực thể từ quan hệ có câu truy vấn + Bước 2: Từ thực thể từ quan hệ nhận diện được, xây dựng khung sườn cho đồ thị khái niệm, nghĩa phác họa trước đồ thị khái niệm kết có LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com khái niệm, quan hệ, khái niệm quan hệ liên kết với Sau bước này, ta có đồ thị biễu diễn cấu trúc câu truy vấn + Bước 3: Từ thông tin xây dựng được, bắt đầu điền khái niệm quan hệ vào đồ thị khái niệm xây dựng bước 3.5.5 Xây dựng chức nhận diện thực thể có tên quan hệ Việc nhận diện thực thể, lý thuyết thực dựa việc xây dựng từ điển ngữ liệu Ngữ liệu từ thường trước đối tượng cho ta biết đối tượng thuộc loại Ví dụ từ như: ông, bà, bác sĩ, tổng thống, … cho ta biết đối tượng sau thuộc lớp người (ông Nguyễn Văn A, tổng thống Bush, …) Như vậy, việc xây dựng từ điển ngữ liệu cho tất lớp ontology, ta nhận diện hầu hết thực thể câu truy vấn Trên thực tế, số thực thể câu truy vấn ngữ liệu để nhận diện, số khác đòi hỏi nhận diện mức chi tiết Ví dụ câu truy vấn “thủ Việt Nam”, thực thể Việt Nam khơng có ngữ liệu, thực thể tồn sở tri thức, ta cần nhận diện định danh Trong trường hợp này, giải pháp tốt phải xây dựng chức ứng dụng rút trích thơng tin giải ngữ nghĩa để nhận diện xác thực thể có tên đoạn văn tiếng Việt Tuy nhiên, ta sử dụng thêm phần mềm GATE để kết xác Ý tưởng giải trình xử lý sau:  Xây dựng chức nhận diện thực thể Ta cần phải xây dựng cho chức chương: + Có tập ngữ liệu đủ lớn, nhận diện hầu hết thực thể có tên + Có thể nhận diện số thực thể khơng kèm ngữ liệu + Có thể cung cấp định danh cho thực thể nhận diện Ví dụ với câu sau :“đường Trần Hưng Đạo thành phố Hồ Chí Minh”, ta phân tích câu để nhận diện thực thể sau LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Theo cách phân tích ta thấy nhận diện hai thực thể “đường Trần Hưng Đạo” “thành phố Hồ Chí Minh” Ngồi ra, chức cịn cho biết thực thể thứ thuộc lớp Đường_phố, có hai định danh (tương ứng với đường Trần Hưng Đạo thành phố Hồ Chí Minh Hà Nội); thực thể thứ hai thuộc lớp Thành_phố có định danh tương ứng Ví dụ với câu “thủ phủ Đồng Nai”, ta phân tích sau LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Như ta thấy, câu truy vấn có hai thực thể “thủ phủ” “Đồng Nai”, nhiên ta nhận diện thực thể thứ hai thực thể đầu khơng có tên Thực thể Đồng Nai nhận diện thuộc hai lớp Tỉnh Sơng Điều hợp lý thực tế, nói Đồng Nai, ta khơng thể xác định tỉnh Đồng Nai hay sông Đồng Nai Trong số trường hợp khác, ta nhận diện thực thể lớp nó, lại khơng nhận diện định danh (có thể thực thể khơng tồn sở tri thức)  Nhận diện thực thể từ quan hệ nhờ GATE Việc nhận diện thực thể dựa vào tập ngữ liệu thực chất q trình tìm kiếm so trùng Để thực việc cách hiệu quả, nhờ đến module Gazetteer GATE Chức cho phép ta định nghĩa tập từ cụm từ cần so trùng Những từ tổ chức thành nhiều nhóm, nhóm có kiểu (majorType) kiểu phụ (minorType) Khi Gazetteer xử lý đoạn văn bản, từ nằm danh sách thích kèm theo kiểu nhóm Dựa vào điều này, ta xây dựng tập ngữ liệu sau: ontology có khoảng 300 lớp, ứng với lớp có tập ngữ liệu dùng để nhận diện lớp Như ta có khoảng 300 danh sách, danh sách tập tin Tiếp theo, ta tạo tập tin làm điểm bắt đầu (còn gọi tập tin mục) cho Gazetteer, tập tin liệt kê tên tất tập tin chứa danh sách, kèm theo tên lớp ontology mà danh sách dùng để nhận diện 3.5.6 Đồ thị khái niệm Như trình bày phần trước, thành phần đảm nhận nhiệm vụ tìm kiếm thực thể tài liệu hệ thống module xây dựng từ trước Module thành phần chức đề cập tới phần Nó hỗ trợ ba cách truy vấn: câu SeRQL, đồ thị khái niệm mẫu câu có sẵn So với định nghĩa ban đầu Sowa, ta phát triển đồ thị khái niệm chức bổ sung thêm số thuộc tính sau: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com + Tất khái niệm quan hệ phải thuộc miền xác định trước Miền xác định ontology tồn hệ thống + Mỗi khái niệm xác định hai yếu tố: lớp định danh (identifier – ID) Mọi khái niệm thuộc lớp định ontology, có khơng có định danh Trong trường hợp này, định danh mang hai giá trị “?” “*” + Một đồ thị khái niệm hợp lệ tất quan hệ thỏa mãn ràng buộc miền chủ thể khách thể Các ràng buộc định nghĩa ontology Hình 3.3: Minh họa Đồ thị khái niệm Hình 3.3 cho thấy ví dụ minh họa đồ thị khái niệm Đồ thị khái niệm có hai khái niệm quan hệ Các liên kết đánh số mối liên hệ với chủ thể, liên kết đánh số mối liên hệ với khách thể Trong ví dụ này, khách thể có nhãn “Thủ_đô : Hà Nội” Nhãn cho biết, khái niệm thuộc lớp “Thủ_đơ” có định danh Do định danh thường dài không gợi nhớ nên hệ thống chọn tên đối tượng ứng với định danh làm nhãn cho khái niệm Trong trường hợp trên, tên chọn làm nhãn “Hà Nội” Còn khái niệm làm chủ thể quan hệ có nhãn “Huyện : ?” Khái niệm thuộc lớp “Huyện” khơng có định danh Dấu chấm hỏi cho biết khái niệm truy vấn Trong trường hợp ta không quan tâm đến kết truy vấn đối tượng đó, dấu “?” thay dấu “*” Ở ví dụ trên, câu truy vấn hiểu “tìm tất huyện định vị thủ Hà Nội” Hình cho thấy ví dụ khác: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình 3.4: Minh họa Đồ thị khái niệm Câu truy vấn hiểu “tìm tất trường đại học thành phố cấp nước Việt Nam” Khái niệm thành phố cấp câu truy vấn đánh dấu “*”, danh sách thành phố thỏa mãn điều kiện không hệ thống trả sau truy vấn 3.5.6.1 Đề xuất giải pháp xây dựng khung sườn cho đồ thị khái niệm Khi ta có số thực thể từ quan hệ, vấn đề đặt phác họa khung sườn cho đồ thị ý niệm, tức xác định thực thể quan hệ với thực thể từ quan hệ Lấy ví dụ hai câu truy vấn sau: “thành phố Việt Nam có sân bay” “thủ quốc gia châu Á” Với hai câu truy vấn này, đồ thị ý niệm kết mà ta mong muốn có dạng hình 3.5 Như ta thấy, hai câu truy vấn trên, hai từ quan hệ “có” (câu thứ nhất) “ở” (câu thứ hai) có vị trí tương đồng nhau, lại liên kết với thực thể đầu câu, lại liên kết với thực thể thứ hai Vì vấn đề đặt xác định xác liên kết câu truy vấn Để giải vấn đề này, cần xây dựng văn phạm hoàn chỉnh cho tiếng Việt Hiện nay, văn phạm hoàn chỉnh mong muốn chưa xây dựng Tuy nhiên, xét giới hạn ứng dụng hệ thống mẫu câu (phần lớn cụm danh từ), áp dụng số thủ thuật giúp xây dựng phân tích cú pháp gần xác Mặc dù vậy, hướng giải tổng quát LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com thay phân tích cú pháp hồn chỉnh văn phạm đầy đủ xây dựng xong Hình 3.5: Kết đồ thị ý niệm mong muốn Để xây dựng khung sườn cho đồ thị khái niệm ta phải xây dựng thêm chức : xây dựng văn phạm, xác định loại thực thể 3.5.6.2 Xây dựng đồ thị khái niệm hoàn chỉnh dựa tập luật Sau xây dựng khung sườn cho đồ thị ý niệm kết bước thứ hai, ta có số đồ thị ý niệm chưa đầy đủ biểu diễn cho câu truy vấn Tại bước này, ta điền thơng tin cịn thiếu vào đồ thị ý niệm đó, đồng thời điều chỉnh lại khung sườn cần thiết Những thơng tin mà ta có đồ thị ý niệm chưa đầy đủ là: + Tất thực thể thuộc lớp ontology + Một số thực thể có định danh + Những thực thể khơng có định danh cần truy vấn mang dấu “?”, thực thể khơng có định danh lại mang dấu “*” + Tất mối quan hệ dạng từ quan hệ, chưa tương ứng với quan hệ ontology LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com + Giá trị chuỗi ban đầu câu truy vấn ứng với thực thể (chính chuỗi ký tự câu truy vấn chương trình giải) Hình 3.6: Đồ thị ý niệm chưa đầy đủ câu truy vấn “thủ Việt Nam” Hình 3.6 cho ta thấy đồ thị ý niệm chưa đầy đủ biểu diễn cho câu truy vấn “thủ đô Việt Nam” Giá trị chuỗi ban đầu thực thể thể cặp dấu ngoặc đơn Trong ví dụ trên, giá trị chuỗi ban đầu thực thể thứ “thủ đô”, thực thể thứ hai “Việt Nam” Thơng tin cịn thiếu đồ thị ý niệm mối quan hệ thực thực thể Do đó, mục tiêu giai đoạn biến từ quan hệ (trong ví dụ từ “của”) thành quan hệ cụ thể ontology 3.5.7 Chức xây dựng vá phát triển tri thức Sesame giúp ta quản lý truy vấn sở tri thức lại khơng thích hợp cho việc xây dựng phát triển sở tri thức Hiện phần mềm dùng phổ biến cho việc Protégé Tuy nhiên việc sử dụng Protégé có điểm chưa phù hợp với hệ thống, ví dụ như: Protégé khơng kết nối trực tiếp với Sesame nên thao tác sửa đổi sở tri thức thực Protégé phải xuất tập tin trước nạp lại vào Sesame; Protégé không cho phép truy xuất phần sở tri thức, nên không quản lý sở tri thức lớn Để khắc phục nhược điểm trên, ta xây dựng chức cho phép người dùng tải phần sở tri thức để sửa đổi, sau cập nhật lại vào sở tri thức Sesame Điều cho phép việc chỉnh sửa sở tri thức thực lúc nhiều người, đồng thời khắc phục tình trạng sở tri thức lớn không quản lý 3.5.8 Phương pháp ghom cụm tài liệu theo thực thể có tên Gom cụm tài liệu q trình nhóm tài liệu có tương tự thành cụm Kết trình gom cụm phân cụm chứa tài liệu liên quan cho độ tương tự hai tài liệu phân cụm lớn độ tương tự hai tài liệu hai phân cụm khác Hiện nay, hầu hết giải thuật gom cụm tài liệu sử dụng mơ hình khơng gian vector để biểu diễn cho đối tượng tài liệu Tập hợp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com thuật ngữ (term) hình thành khơng gian vector thuật ngữ; tài liệu biểu diễn vector d không gian vector Tập vector đại diện cho tập tài liệu tạo thành ma trận thuật ngữ - tài liệu, vector hàng ma trận, cột ma trận ứng với thuật ngữ Gom cụm tài liệu phân chia xếp tài liệu tập tài liệu ban đầu vào nhóm tài liệu nhỏ Tiêu chí xếp là: nhóm, cặp tài liệu có tương quan với mức độ đó, ví dụ độ tương tự hai tài liệu nhóm phải lớn (hoặc khoảng cách nhỏ hơn) hệ số quy định; tài liệu xếp vào nhóm khoảng cách tài liệu đến nhóm nhỏ khoảng cách tài liệu đến tất nhóm khác (hoặc độ tương tự lớn hơn) Tiêu chí để xếp tài liệu vào nhóm thay đổi tùy theo giải thuật sử dụng Có hai phương pháp ghom cụ tài liệu phổ biến như: giải thuật K-means (Basic K-means), giải thuật Fuzzy C-means (FCM)  Gom cụm dựa cấu trúc ontology Chúng ta tiếp cận theo hướng khác cho toán gom cụm Thay xếp tài liệu vào nhóm trước tìm hiểu xem tài liệu nhóm nói để tạo nhãn cho phân nhóm, phương pháp này, tìm hiểu xem tài liệu nói trước, phân bổ tài liệu vào nhóm sau Các bước xử lý tài liệu ban đầu gần tương tự phương pháp khơng gian vector, cơng việc tập hợp thực thể xuất tài liệu Theo phân tích phần thực tập tốt nghiệp, phương pháp gom cụm phân cấp dựa lớp thực thể định danh thực thể Tiêu chí phương pháp gom cụm theo thực thể trội, tức thực thể xuất nhiều so với thực thể khác chọn làm tiêu chí để xếp tài liệu vào phân nhóm Như vậy, tài liệu có thực thể trội giống xem tương tự với nhau, xếp vào chung nhóm Việc gom cụm thực qua hai bước Bước thứ gom cụm dựa lớp thực thể, bước thứ hai gom cụm dựa định danh thực thể LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phần TỔNG KẾT Mơ hình khơng gian vector nhiều chiều cho việc xử lý thơng tin dựa thực thể có tên (NE) thích nghi với VSM truyền thống dựa keyword thơng quan không gian NE Mỗi tài liệu (query) đại diện thành phần vector qua không gian tên (name), loại (type), cặp tên-loại (name-type) định danh (identifier) cho phép tìm kiếm gom nhóm tài liệu theo đặc điểm khác NE Trọng số phần tử vector tính tốn theo công thức tf.idf Độ tương tự tài liệu định nghĩa khoảng cách vector đại diện So sánh với mơ hình NE khác, cần thiết mơ hình giới thiệu khác đặc điểm thực thể có tên, gộp lại loại tên thứ tính đến LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Áp dụng mơ hình để gom cụm tài liệu với thực thể có tên có tài liệu Thí nghiệm cho thấy gom cụm dựa NE bổ sung cho keyword, đem lại gom cụm ý nghĩa xác cho người dùng tùy thuộc vào đặc điểm khác thực thể có tên Nó hữu ích cho việc học tài liệu văn bản, nơi có nhiều chủ đề, khái niệm mà thực thể có tên Việc xây dựng phân tích tiếng Việt hồn chỉnh có lẽ hướng phát triển tiềm toán Để làm việc đó, ngồi việc phát triển phân tích cú pháp đầy đủ, ta cần có phương pháp đủ mạnh để nhận diện xác thực thể loại chúng Về giải pháp biến đổi đồ thị ý niệm dùng hệ thống luật, có hai hướng phát triển cho vấn đề này: tiếp tục làm giàu thêm tập luật để xử lý nhiều hơn; nghiên cứu giải pháp khác Một vấn đề quan trọng toán gom cụm tốc độ xử lý số lượng lớn tài liệu Do hướng phát triển toán cải thiện hiệu suất giải thuật Ta cần cải tiến giải pháp tạo nhãn cho phân cụm nhằm thể rõ vai trị thực thể có tên hiển thị tài liệu Mơ hình khơng gian vector cần quan tâm nhiều đến mối quan hệ cha thực thể, đặc biệt thông tin lớp thực thể Ngoài ra, ta cần nghiên cứu thêm giải thuật gom cụm khác Phân loại tài liệu theo thực thể có tên phương pháp hữu ích việc tìm kiếm quản lý tài liệu, đặc biệt giải vấn đề tài liệu ngữ nghĩa Nó cho phép quản lý tài tốt nguyên học tập web đối tượng liên quan Tuy nhiên, số trường hợp tìm kiếm theo keyword tỏ hữu ích Đơn cử trường hợp tìm kiếm tài liệu mà số lượng thực thể có tên ít, nội dung tài liệu phụ thuộc chủ yếu vào keyword Khi đó, phương pháp tìm kiếm phân loại dựa vào thực thể có tên tỏ khơng hiệu Một phương pháp cải tiến đề xuất sử dụng mơ hình vector thành phần với thành phần thứ keyword Theo mơ hình này, term xem vector gồm thành phần: tên, loại, cặp tên – loại, định danh thực thể có tên, keyword Mơ hình đảm bảo q trình phân loại tài liệu thực dựa hai tiêu chí thực thể có tên keyword Điều chỉnh tỉ lệ hai tiêu chí cho thích hợp với tập tài liệu cho ta kết phân loại tìm kiếm tốt LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Như ta thấy toán tổ chức lưu trữ xử lý tài liệu văn tiếng việt giải phương pháp gián tiếp – phương pháp trí tuệ nhân tạo sử dụng số nguyên tắc sáng tạo như:nguyên tắc kết hợp (thay đổi VSM truyền thống việc kết hợp thêm thành phần thực thể có tên (tên, loại, tên-loại, định danh)), nguyên tắc phân nhỏ, nguyên tắc thứ tự…Bài tốn khơng thể giải việc cài đặt thủ tục, thuật tốn thơng thường; tốn có tính khát qt chung cho nhiều trường hợp việc cài đặt cho trường hợp cụ thể khơng thể Vì cần nắm bắt mơ hình, ý tưởng chung tốn thơng qua phương pháp giải vấn đề - tốn tin học cải tiến chúng phù hợp với mục tiêu cần giải Nắm vững phương pháp luận nghiên cứu khoa học nắm vững lý thuyết đường sáng tạo, giúp người nghiên cứu có cách tiếp cận việc thiết kế thi cơng cơng trình nghiên cứu khoa học, tìm chọn phương pháp nghiên cứu hợp lý để thực nhiệm vụ nghiên cứu đạt mục đích nghiên cứu TÀI LIỆU THAM KHẢO [1]Phan Dũng Các thủ thuật (nguyên tắc) sáng tạo bản: Phần NXB Đại học Quốc gia TPHCM, 2007 [2] PGS.TS Lưu Xuân Mới Phương pháp luận nghiên cứu khoa học [3] Bạch Hưng Khang Hồng Kiếm Giáo trình Trí tuệ nhân tạo, phương pháp ứng dụng NXB Khoa học kỹ thuật, 1989 [4] Hoàng Kiếm Giải tốn máy tính nào, tập Nhà Xuất Bản Giáo dục, 2000 [5] Hồng Kiếm Giáo trình Công nghệ Tri thức Ứng dụng Đại học Quốc gia TPHCM – Chương trình đào tạo Thạc sĩ CNTTQM, 2004 [6] Cao Hồng Trụ Giáo trình Trí tuệ nhân tạo = Thông minh + Giải thuật NXB Đại học Quốc gia TPHCM, 2008 [7] GS.TSKH Hoàng Kiếm Slide: phương pháp nghiên cứu khoa học tin học (Research Methodology in Computer Science) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [8] Hồng Trung Dũng Trần Hoàng Thao Luận văn đại học: Tìm kiếm ghom cụm tài liệu theo thực thể có tên [9] Hồng Minh Sơn Phạm Thế Nghĩa Luận văn đại học: Hiện thực hệ thống quản lý xử lý trang web tiếng việt có ngữ nghĩa LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... Phương pháp thử sai 15 2.2.2 Phương pháp Heuristic 16 2.2.3 Phương pháp trí tuệ nhân tạo 16 Phần GIẢI PHÁP TỔ CHỨC VÀ XỬ LÝ TÀI LIỆU VĂN BẢN TIẾNG VIỆT CÓ NGỮ NGHĨA... Phần GIẢI PHÁP TỔ CHỨC VÀ XỬ LÝ TÀI LIỆU VĂN BẢN TIẾNG VIỆT CÓ NGỮ NGHĨA 3.1 Giới thiệu Như thấy, người thường xun sử dụng máy tính nói chung với nhà nghiên cứu khoa học nói riêng việc lưu trữ tài. .. chuyên đề “Phương pháp luận sáng tạo khoa học” vận dụng kiến thức phương pháp luận, phương pháp sáng tạo để giải vấn đề cụ thể tin học, vấn đề tổ chức lưu trữ xử lý tài liệu văn tiếng việt LUAN VAN

Ngày đăng: 01/11/2022, 15:50

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w