Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 85 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
85
Dung lượng
5,39 MB
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN ──────── * ─────── ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGÀNH CÔNG NGHỆ THÔNG TIN ĐỀ TÀI: XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN Sinh viên thực hiện: Nguyễn Cơng Chính Lớp: HTTTA-K48 Giáo viên hướng dẫn: TS Lê Thanh Hương Hà nội, tháng năm 2008 LỜI CÁM ƠN Lời đầu tiên, em muốn gửi lời cám ơn chân thành tới cô TS Lê Thanh Hương, người trực tiếp hướng dẫn em hoàn thành đồ án Em muốn gửi lời cám ơn tới thầy cô môn Hệ thống Thông Tin, khoa Công nghệ thông tin thầy cô trường tận tình dạy dỗ suốt năm học vừa qua Tôi xin gửi lời cám ơn đặc biệt đến bạn Kiều Văn Cường, người chung đồ án với tôi, giúp nhiều lúc nghiên cứu, xây dựng chương trình Tơi xin cám ơn bạn lớp Tin HTTT A cung cấp tài liệu, gợi ý giải thuật để hoàn thành đồ án Con xin cảm ơn Bố, Mẹ, người thân ln bên cạnh động viên khích lệ mặt tinh thần vật chất để giúp hoàn thành tốt năm học đại học đồ án Hà Nội Tháng năm 2008 Sinh viên Nguyễn Công Chính NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… Ngày tháng 05 năm 2008 Ký tên NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… …………………………………………………………………… Ngày tháng 05 năm 2008 Ký tên MỤC LỤC PHẦN 0: LỜI NÓI ĐẦU 10 PHẦN I: VẤN ĐỀ VÀ THỰC TRẠNG 18 PHẦN II: CƠ SỞ LÝ THUYẾT 35 PHẦN III: GIẢI PHÁP KỸ THUẬT 50 PHẦN IV: XÂY DỰNG CHƯƠNG TRÌNH, CÀI ĐẶT CHẠY DEMO .55 DANH MỤC HÌNH VÀ BẢNG DANH MỤC HÌNH VÀ BẢNG Hình 1: Hình minh họa tập tách văn .14 Hình 2: Cấu trúc giải thuật LSA .15 5.3 Mơ hình tư vấn dựa lịch sử phiên truy cập người dùng 16 Hình 3: Quy trình truy vấn 17 Hình 4: Giao diện trang chủ chương trình 17 Hình 5: Tìm kiếm thông tin – So sánh gợi ý người máy .18 Hình 6: Mơ hình sơ đồ hệ thống gợi ý cho người dùng 20 Hình 7: Sơ đồ tổng quát hệ thống 21 Hình 8: Giao diện tìm kiếm Amazone.com 23 Hình 9: Giao diện kết trả lại .24 Hình 10: Giao diện kết tìm kiếm Amazone.com .25 Hình 11: Sơ đồ cấu trúc từ Nguyễn Tài Cẩn 28 Hình 12: Giao diện tìm kiếm Google 35 Hình 13: Giao diện tìm kiếm Yahoo 36 Hình 14 Giao diện tìm kiếm Ask Jeeves 38 Hình 15: Giao diện tìm kiếm All the web 38 Table 1: : Tần suất xuất độ dài từ tiếng Việt trang Vdict.com 42 Table 2: Tần số tài liệu số từ thông dụng tiếng Việt 43 Table 3: Ví dụ MI n-gram .44 Hình 16: Xây dựng ơtơmát âm tiết 46 Hình 17: Xây dựng ôtômát từ vựng 47 47 Hình 18: Một tình nhập nhằng .49 Hình 19: Giải thuật tách từ từ câu 52 Table 4: Bảng số ví dụ cấu trúc lưu trữ từ điển 53 Hình 20: Biểu đồ use-case hệ thống 55 Hình 21: Use-case tìm kiếm Hình 22: Biểu đồ cộng tác chức tìm kiếm .56 Lớp biên: 56 Hình 23: Biểu đồ tiến trình chức tìm kiếm 56 Hình 24: Use-case quản lý tài liệu 57 Lớp biên: 57 Hình 25: Biểu đồ cộng tác 57 Hình 26: Biểu đồ tiến trình chức thêm tài liệu 58 Hình 27: Biểu đồ tiến trình chức sửa tài liệu 58 Hình 28:Biểu đồ tiến trình chức xóa tài liệu 59 Hình 29: Biểu đồ cộng tác quản lý tài liệu 59 Hình 30: Use-Case quản lý tác giả 60 Hình 31: Biểu đồ tiến trình thêm tác giả 60 Hình 32: Biểu đồ tiến trình sửa tác giả 61 Chức xoá tác giả: .61 Hình 33: Biểu đồ tiến trình xóa tác giả 62 Hình 34: Biểu đồ cộng tác quản lý tác giả .62 Hình 35: User-Case quản lý NXBLớp biên: 62 Hình 36: Biểu đồ tiến trình thêm NXB 63 Hình 38: Biểu đồ tiến trình xóa thơng tin NXB 64 Hình 39: Biểu đồ cơng tác quản lý NXB 64 Hình 40: Biểu đồ usercase quản lý thành viên 65 Lớp biên: 65 Chức chỉnh sửa thông tin: 66 Hình 42: Biểu đồ tiến trình chỉnh sửa user .66 Hình 43: Biểu đồ tiến trình xóa user .67 Hình 44: Biểu đồ cộng tác quản lý user 67 Hình 45: Biểu đồ cộng tác quản lý user 68 Table 5: Bảng thực thể 69 Table 6: Bảng quan hệ thực thể 70 Table 7: Danh sách bảng 73 Mô tả chi tiết bảng 74 Table 8: Mô tả bảng tài liệu A01 74 Table 9: Mô tả bảng Catalogue A02 75 Table 10: Mô tả bảng tác giả A04 75 Table 11: Mô tả bảng NXB A05 .76 Table 12: Mô tả bảng User A06 76 Table 13: Mô tả bảng subCatalogue A07 77 Table 14: Mô tả bảng Child A08 77 Table 15: Mô tả bảng A11 78 Table 16: Mô tả bảng A12 78 PHẦN 0: LỜI NÓI ĐẦU 1 MỤC TIÊU VÀ Ý NGHĨA CỦA ĐỀ TÀI Máy tính đóng góp phần khơng nhỏ vào đời sống, trở nên phổ dụng Trong lĩnh vực lưu trữ liệu, cần ổ cứng 10x15x3 cm lưu trữ số lượng sách tương ứng với thư viện sách khổng lồ Theo đó, vấn đề tra cứu liệu kho liệu Cũng việc tổ chức thư viện, việc lưu trữ tài liệu điện tử máy tính chia thành loại sách, chủ đề lớn khác Hiện xu người đọc sách coi sách nguồn để tra cứu vấn đề quan tâm, học kiến thức sách mang đến Vấn đề đặt tư vấn cho người dùng sách liên quan nhiều tới chủ đề người dùng yêu cầu (thơng qua từ khóa nhập) phân tích nội dung lịch sử truy cập người dùng trước Luận văn đực thực nhằm đề xuất phương thức xây dựng hệ thống hỗ trợ tư vấn với kết sau: - Tư vấn hoàn toàn tự động tài liệu cho người dùng theo từ khóa, lịch sử truy cập người dùng người dùng khác sở thích họ Kết tư vấn ngày xác hệ thống có phân tích cập nhật lịch sử truy cập người dùng - Giới thiệu tài liệu có độ tương tự định với tài liệu nghiên cứu để người dùng lựa chọn tài liệu nghiên cứu - Hệ thống khảo sát (survey) để thu thập ý kiến đánh giá người dùng tương tự tài liệu hệ thống gợi ý Qua đó, thu thập nhiều đánh giá, kết tư vấn cho người dùng sát với vấn đề người ta đặt - Người dùng không thiết phải đăng ký thông tin với hệ thống Hệ thống gợi ý cho người dùng thơng qua phân tích nội dung lịch sử truy cập hệ thống - Đáp ứng yêu cầu tìm kiếm trang web (tìm kiếm site riêng internet) Hệ thống hướng tới việc tìm kiếm xây dựng sở liệu động từ internet VẤN ĐỀ GIẢI QUYẾT Có phương pháp chủ đạo dùng hệ tư vấn: Phương pháp lọc cộng tác: phương pháp tập hợp đánh giá quan điểm người dùng, nhận dạng tương đồng người dùng sở phiên giao dịch họ Phiên giao dịch người dùng người dùng đánh từ khóa có tín hiệu search Kết thúc phiên làm việc với từ khóa nhập Phương pháp lọc cộng tác ước lượng hàm đánh giá R(u,i) item i với user u dựa sở đánh giá R(u’,i) user u’ cho item i mà u u’ tương tự 10 # Tên Mô tả Lệnh SQL [A01_DatePublished] [datetime] NULL , [IsActive] [bit] NULL , [A01_LinkDown] [Varchar] NULL , [A01_RelatedDocs] [text] NULL , [A01_LSA] [text] NULL , [A01_KeyWords] [text] NULL ) ON [PRIMARY] TEXTIMAGE_ON [PRIMARY] GO A02 Danh mục cấp 1: CREATE TABLE [dbo].[A02] ( Chứa thông tin [A02_ID] [int] IDENTITY (1, 1) NOT NULL , loại tài liệu Danh [A02_Name] [nvarchar] (50) NULL , mục phân cấp 1-2-3 [A02_Code] [char] (3) NOT NULL , Danh mục cấp lớn [IsActive] [bit] NULL nhất, danh mục danh mục cấp ) ON [PRIMARY] 1, danh mục GO danh muc cấp A04 Tác giả: Chứa thông tin tác giả CREATE TABLE [dbo].[A04] ( [A04_ID] [int] IDENTITY (1, 1) NOT NULL , [A04_Name] [nvarchar] (100) NULL , [A04_Birthday] [datetime] NULL , [A04_Address] [nvarchar] (100) NULL , [A04_NativePlace] [nvarchar] (100) NULL , [A04_Phone] [int] NULL , [A04_Email] [varchar] (100) NULL , [IsActive] [bit] NULL ) ON [PRIMARY] GO A05 Nhà xuất bản: Chứa thông tin nhà xuất CREATE TABLE [dbo].[A05] ( [A05_ID] [int] IDENTITY (1, 1) NOT NULL , [A05_Name] [nvarchar] (100) NULL , [A05_Address] [nvarchar] (100) NULL , [A05_Phone] [int] NULL , 71 # Tên Mô tả Lệnh SQL [A05_Email] [varchar] (100) NULL , [A05_Remark] [ntext] NULL , [IsActive] [bit] NULL ) ON [PRIMARY] TEXTIMAGE_ON [PRIMARY] GO A06 Người dùng: Chứa CREATE TABLE [dbo].[A06] ( thông tin [A06_ID] [int] IDENTITY (1, 1) NOT NULL , người dùng [A06_Name] [nvarchar] (100) NULL , [A06_UseName] [nvarchar] (100) NOT NULL , [A06_PassWord] [nvarchar] (100) NOT NULL , [A06_Phone] [int] NULL , [A06_Email] [varchar] (100) NULL , [IsActive] [bit] NULL ) ON [PRIMARY] GO A07 Danh mục cấp 2: CREATE TABLE [dbo].[A07] ( Chứa thông tin [A07_ID] [int] IDENTITY (1, 1) NOT NULL , loại tài liệu Danh [A07_Name] [nvarchar] (100) NULL , mục phân cấp 1-2-3 [A07_Code] [char] (5) NOT NULL , Danh mục cấp lớn [A02_ID] [int] NOT NULL , nhất, danh mục [IsActive] [bit] NULL danh mục cấp 1, danh mục ) ON [PRIMARY] danh muc cấp GO A08 Danh mục cấp 3: CREATE TABLE [dbo].[A08] ( Chứa thông tin [A08_ID] [int] IDENTITY (1, 1) NOT NULL , loại tài liệu Danh [A08_Name] [nvarchar] (100) NULL , mục phân cấp 1-2-3 [A08_Code] [char] (8) NOT NULL , Danh mục cấp lớn [A07_ID] [int] NOT NULL , nhất, danh mục [IsActive] [bit] NULL danh mục cấp 1, danh mục ) ON [PRIMARY] danh muc cấp GO 72 # Tên Mô tả Lệnh SQL A09 Bảng quan hệ: Thành lập quan hệ nhiều nhiều giửa bảng A01 A04 CREATE TABLE [dbo].[A09] ( Bảng chứa thông tin hệ thống CREATE TABLE [dbo].[A10] ( A10 [A01_ID] [int] NOT NULL , [A04_ID] [int] NOT NULL ) ON [PRIMARY] GO [A10_ID] [int] IDENTITY (1, 1) NOT NULL , [A10_NumberOfDimensionReduce] [int] NOT NULL , [A10_MaxOfWords] [int] NOT NULL , [A10_MaxOfResultOfLSA] [int] NOT NULL , [A10_MaxOfRelatedDocs] [int] NOT NULL , [A10_DegreeOfAccuracy] [float] NOT NULL ) ON [PRIMARY] 10 A11 Bảng chứa thông tin tài liệu liên quan tới tài liệu CREATE TABLE [dbo].[A11] ( [A11_ID] [int] IDENTITY (1, 1) NOT NULL , [A01_ID] [int] NOT NULL , [A11_RelatedID] [int] NOT NULL , [A11_Index] [float] NOT NULL , [A11_StandIndex] [float] NOT NULL ) ON [PRIMARY] 11 A12 Bảng chứa kết LSA CREATE TABLE [dbo].[A12] ( [A12_ID] [int] IDENTITY (1, 1) NOT NULL , [A01_ID] [int] NOT NULL , [A12_RelatedID] [int] NOT NULL , [A12_Index] [int] NOT NULL , [A12_StandIndex] [float] NOT NULL ) ON [PRIMARY] Table 7: Danh sách bảng 73 Mô tả chi tiết bảng Bảng A01 # Tên trường Kiểu liệu Cho phép Giá Khoá null trị mặ c địn h Kho Ghi ngồ i A01_ID INT NOT NULL Yes No A01_Name NVARCHA R(100) NULL No No A01_Code CHAR(8) NOT NULL No No A01_LinkDow VARCHAR( NULL n 100) No No A01_Decriptio NTEXT n NULL No No A05_ID INT NOT NULL No Yes IsActive BIT NULL No No A01_KeyWord NTEXT s NULL No No Chứa từ khố đại diện cho nơi dung vb A01_RelatedD NTEXT ocs NULL No No Chứa tài liệu liên quan tới tài liệu mặt nội dung 10 A01_LSA NULL No No Chứa kết phân tích LSA NTEXT Table 8: Mô tả bảng tài liệu A01 74 Chứa link liên kết cho phép download tài liệu A02 # Tên trường Kiểu liệu Cho phép Giá trị Kho Kho Ghi null mặc định á chín ngo h ài A02_ID INT NOT NULL Yes No A02_Name NVARCHAR(100) NULL No A02_Code CHAR(3) NOT NULL No No No IsActive BIT NULL No No Kho chín h Kho Ghi ngo ài Table 9: Mô tả bảng Catalogue A02 A04 # Tên trường Kiểu liệu Cho phép null A04_ID INT NOT NULL Yes No A04_Name NVARCHAR(100) NULL No A04_Birthday DATETIME NULL No No No A04_Address NVARCHAR(100) NULL No No A04_NativePlace NVARCHAR(100) NULL No No A04_Phone INT NULL No No A04_Email NVARCHAR(100) NULL No No IsActive BIT NULL No No Table 10: Mô tả bảng tác giả A04 75 Giá trị mặc định Bảng A05 # Tên trường Kiểu liệu Cho phép null A05_ID INT A05_Name Giá trị mặc định Kho chín h Kho Ghi ngo ài NOT NULL Yes No NVARCHAR(100) NULL No A04_Address NVARCHAR(100) NULL No No No A04_Remark NTEXT NULL No No A04_Phone INT NULL No No A04_Email NVARCHAR(100) NULL No No IsActive BIT NULL No No Giá trị mặc định Khố Kho Ghi ngo ài Table 11: Mô tả bảng NXB A05 Bảng A06 # Tên trường Kiểu liệu Cho phép null A06_ID INT NOT NULL Yes No A06_Name NVARCHAR(100) NULL No A06_UseName NVARCHAR(100) NOT NULL No No No A06_PassWord NVARCHAR(100) NOT NULL No No A04_Phone INT NULL No No A04_Email NVARCHAR(100) NULL No No IsActive BIT NULL No No Table 12: Mô tả bảng User A06 Bảng A07 76 # Tên trường Kiểu liệu Cho phép Giá trị null mặc định Khố Kho Ghi ngo ài A07_ID INT NOT NULL Yes No A07_Name NVARCHAR(100) NULL No A07_Code CHAR(5) NOT NULL No No No IsActive BIT NULL No No A02_ID INT NOT NULL No Yes Table 13: Mô tả bảng subCatalogue A07 Bảng A08 # Tên trường Kiểu liệu Cho phép null A08_ID INT NOT NULL A08_Name Kho chín h Kho Ghi ngo ài Yes No NVARCHAR(100) NULL No A08_Code CHAR(3) NOT NULL No No No IsActive BIT NULL No No A07_ID INT NOT NULL No Yes Table 14: Mô tả bảng Child A08 Bảng A11 77 Giá trị mặc định # Tên trường Kiểu liệu Cho phép Giá trị Kho Kho Ghi null mặc định á chín ngo h ài A11_ID INT NOT NULL Yes No A01_ID INT NOT NULL No Yes A11_RelatedID INT NOT NULL No No A11_Index FLOAT NULL 0.0 No No A11_StandIndex FLOAT NULL 0.0 No No Table 15: Mô tả bảng A11 Bảng A12 # Tên trường Kiểu liệu Cho phép Giá trị Kho Kho Ghi null mặc định á chín ngo h ài A12_ID INT NOT NULL Yes No A01_ID INT NOT NULL No Yes A12_RelatedID INT NOT NULL No No A12_Index INT NULL No No A12_StandIndex FLOAT NULL 0.0 No No Table 16: Mô tả bảng A12 78 CÁC MODUL 2.1 Modul đọc định dạng tài liệu Có thể xem lại phần để hiểu rõ cách modul đọc tài liệu Modul thiết kế thành file dll để hàm thư viện dùng chương trình Có số điểm cần ý sử dụng modul này: • Cú pháp sử dụng: Add reference file EPocalipse.Ifilter.dll Using EPocalipse.Ifilter TextReader reader=new FilterReader(fileName); using (reader) { textBox1.Text=reader.ReadToEnd(); } • fileName đường dẫn tuyệt đối file ổ đĩa bao gồm tên phẩn mở rộng • Với file pdf, ý version acrobat reader mà ta cài Chú ý nên dùng file pdf với version 7.0.1 2.2 Modul tách từ Modul gồm lớp chính: Lớp clsDictionary: public static void Init(string path) Lớp khởi tạo từ điển phương thức Init với path đường dẫn tuyệt đối file từ điển Cũng phương thức này, ta định nghĩa cách lưu trữ từ điển (như trình bày trên) để tăng tốc độ cho giải thuật tìm kiếm Trong lớp ý phương thức sau: Đọc file từ điển theo bảng mã Unicode: StreamReader sr = new StreamReader(path, System.Text.Encoding.Unicode); Sắp xếp tăng dần để phục vụ cho giải thuật tìm kiếm nhị phân: arl.Sort(); Phương thức phương thức sẵn có C# cho mảng Nó xếp theo thứ tự tăng dần mã ASCII phần tử Do đó, xếp mảng số mảng string public static int Term2Id(string Term) Phương thức tiến hành tìm kiếm xâu Term có thuộc từ điển hay khơng Nếu có, trả lại Id, không trả Trong phương thức này, tơi cài đặt thuật giải tìm kiếm nhị phân (một giải thuật để tăng tốc độ tìm kiếm) Lớp clsPunctuator.cs Lớp thực bước chuẩn hóa văn Nhận biết ký tự dấu chấm câu, dấu chấm mail, hay số hàng nghìn Tách nhiều khoảng trống thành khoảng Chia văn thành đoạn câu 79 Lớp clsSentence.cs Lớp thể cho câu với thuộc tính định Lớp clsTermSplitter.cs Lớp thể giải thuật tách câu thành từ, cụm từ để kiểm tra có từ điển hay khơng Thuật tốn đọc từ thuật “từ trái sang”, trình bày phần Có thể tối ưu giải thuật từ phương thức lớp Lớp clsStopWordRemover.cs Lớp cuối thực phương thức tách câu public clsStopWordRemover(string path) Lớp khởi tạo với phương thức này, với path file+đường dẫn đầy đủ đến file stopword Lớp lưu file vào biến mảng lớp public string[] RemoveStopWord(string doc,string pathDic) Lớp gọi tiếp phương thức sau để thực việc tách văn thành từ khóa: clsTermSplitter Splitter = new clsTermSplitter(); clsPunctuator Punctuator = new clsPunctuator(); clsDictionary.Init(pathDic); Phương thức trả mảng từ khóa văn Trong phương thức loại bỏ từ stopword từ mảng từ stopword lưu phương thức khởi tạo stopword Modul tách từ gọi cách using Utils.Spliter; clsStopWordRemover swr = new clsStopWordRemover(this.lbStopFile.Text); string[] result = swr.RemoveStopWord(detail, dicfile); Với dicfile file từ điển gồm đường dẫn detail string văn mà ta đọc vào từ bước trước this.lbStopFile.Text đường dẫn tuyệt đối đến file stopword 80 2.3 Modul LSA Modul thiết kế lớp Util Đầu vào modul tập tài liệu tập từ khóa, đầu cập nhật sở liệu thông tin độ tương đồng tài liệu Thông tin chi tiết xin tham khảo bên đồ án Mr Cường CÀI ĐẶT Chương trình thiết kế với giao diện website Ta cài đặt CSDL, với file backup cung cấp, mã nguồn đưa vào IIS Thư mục website trỏ tới thư mục SS01 81 PHẦN V: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN KẾT LUẬN Ngày nay, internet chở thành cách mạng lớn nhân loại mà động lực phát triển kinh tế mang tính tồn cầu Nhưng phát triển đòi hỏi ngày nhiều sở lưu trữ liệu dẫn đến việc khai thác hiệu liệu trở nên khó khăn Để nâng cao khả sử lý liệu liệu phải chọn lọc trước Một hướng chọn lọc liệu hiểu phân tích ngữ nghĩa văn Tồn văn cô đọng ngữ nghĩa Chính phân tích ngữ nghĩa văn giảm khối lượng lớn câu chữ không hàm chứa thông tin Việc nghiên cứu ngữ nghĩa văn mở hướng phát triển khai thác thông tin liệu Ngữ nghĩa văn mang lại nhiều thuận lợi để thật hiểu rõ phương pháp nghiên cứu phân tích ngữ nghĩa không dễ dàng Do mục tiêu đồ án đặt gồm hài vấn đề sau: Về lý thuyết: Mục tiêu tìm hiểu, nghiên cứu ngữ nghĩa văn bao gồm phần như: Phân tích, tách văn thành tập từ khố, lọc tách từ khố văn nhằm đọng từ khoá đặc trưng cho ngữ nghĩa văn bản, thống kê trích lọc văn có ngữ nghĩa tương đồng Về phần ứng dụng minh hoạ: Mục tiêu xây dựng ứng dụng mang tính demo khả thi kỹ thuật phân tích ngữ nghĩa Nội dung đề tài đưa rộng thực thiện vòng tháng để hoàn tất đề tài chúng em gặp nhiều khó khăn mặt tìm kiếm tài liệu, đọc hiểu tài liệu số kỹ thuật để vận dụng kiến thức tìm hiểu Nhưng bù đắp lại khó khăn vất vả chúng em tiếp thu nhiều kiến thức lạ bổ ích ứng dụng ngữ nghĩa văn công nghệ thông tin – mở hướng phát triển giớ cơng nghệ thơng tin Kết xứng đáng chúng em hồn thành mục tiêu, yêu cầu đề đồ án 82 Kết mặt nghiên cứu Qua trình nghiên cứu tìm hiều lĩnh vực ứng dụng ngữ nghĩa văn bản, chúng em hiểu ghi nhận lại số kết đạt sau: Tìm kiếm nhiều tài liệu hay bổ ích ngữ nghĩa văn Nắm kỹ thuật phân tích ngữ nghĩa văn bản, hướng nghiên cứu công nghệ thông tin tương lai Đông thời ý tưởng xuất phát mang lại nhiều lợi ích cho người phát triển kinh tế Kết đạt nghiên cứu ngữ nghĩa văn sau: Nắm rõ kỹ thuật tách văn với định dạng Nắm vững kỹ thuật lọc tách từ khoá đặc trưng cho nội dung văn Tìm hiểu nắm kỹ thuật thống kê trích lọc văn có ngữ nghĩa tương đồng Tìm hiểu kỹ thuật phân tích logfile Kết mặt phát triển ứng dụng Đối với ứng dụng minh hoạ chúng em hoàn tất mục tiêu đồ án đề nắm vững kỹ thuật: Tổ chức, lưu trữ liệu truy vấn liệu SQL Cách sử dụng kỹ thuật tách văn để tách văn định dạng thành tập từ khoá đại diện cho ngữ nghĩa Cài đặt phát triển kỹ thuật lọc từ khố cho phép loại bỏ từ khố hàm chứa ngữ nghĩa văn Cài đặt phát triển kỹ thuật LSA cho phép so sánh độ tương đồng ngữ nghĩa văn Về mặt chương trình kết thu hai phân hệ: Một phân hệ dành cho người sử dụng, phân hệ dành cho người quản trị: Đối với phân hệ người dùng: Hệ thống hỗ trợ việc tìm kiếm tài liệu gợi ý tài liệu dựa ngữ nghĩa vủa văn Cho phép người dùng đăng ký thành viên nhắm nâng cao khả hỗ trợ hệ thông người dùng Đối với phân hệ người quản trị: Hệ thống hỗ trợ việc cập nhập thông tin đối tượng hệ thống thêm, sửa, xố văn bản, thành viên, cấu hình hệ thống Sau hồn tất ứng dụng chúng em cịn nắm thêm kiến thức công nghệ: Net, JavaScript, SQLserver, quan trọng chúng em nắm khả phân tích ngử nghĩa văn bản, từ tự động trích rút văn đồng nghĩa 83 Hướng phát triển Vì thời gian phát triển đồ án không nhiều nên chúng em tập trung vào vấn đề đồ án phân tích ngữ nghĩa văn Việc phát triển thuật toán so sánh độ tương đồng văn khai thác liệu đạt nhiều thành cơng Dựa vào thành mở hướng nhằm tối ưu hoá thuật tốn nâng cao độ xác kết Đồng thời mở rộng nguồn liệu nhờ trực tiếp tìm kiếm liệu mạng hay cải thiện tính tìm kiếm nhờ sử dụng engine có sẵn Dựa khả phát triển đó, đồ án hồn thiện có thêm tính sau: Thu thập liệu trực tuyến Dữ liệu trực tuyến mạng tài nguyên gần vơ hạn Nếu có chế cho phép khai thác liệu mạng đầu vào cho hệ thống chức hệ thống đạt hiệu cao phong phú Hơn nữa, việc có nguồn liệu động công việc cập nhập liệu không cần thiết, việc lý liệu coi tiến hành tự động Tóm lại, hệ thống cần module cho phép lấy liệu trực tuyến Đây hướng phát triển chủ chốt củ đồ án nhằm làm cho đồ án hồn thiện có tính ứng dụng thực tế cao Thông tin người dùng Thông tin người dùng hệ thống website đơn tổ chức lưu trữ dạng bảng liệu Thông tin người dùng đáp ứng vai trị xác thực hệ thống chưa góp phần thể nhu cầu cá nhân Việc nghiên cưa thức tổ chức lưu trữ thông tin người dùng hiệu đem lại kết bất ngờ, giúp hệ thống gợi ý tìm kiếm nhân người dùng Đây điển nhấn hệ web mới, hướng tới cá nhân người dùng Vậy cách thức tổ chức lưu trữ thơng tin người dùng hướng mở đồ án Đồng thời việc thu thập thông tin người dùng kỹ thuật cần phải nghiên cứu Hiện chúng em ý tới hai cách thức thu thập thông tin người dùng Một thu thập tĩnh, dựa form đăng ký feedback người dùng Hai thu thập động, dựa kỹ thuật trích lọc thơng tin thơng qua phân tích logfile Các kỹ thuật phân tích logfile phát triển ứng dụng từ internet đời Tuy nhiên tuỳ vào mục đích hệ thống việc phân tích logfile sử dụng kỹ thuật khác Ở chúng em muốn nhấn mạnh tới khả mà phân tích logfile đáp ứng thu thập thơng tin người dùng Phát triển module cho phép quản lý thông tin người dùng có ích cho hệ thơng tìm 84 kiếm, gợi ý Hệ thơng mang tính hướng người dùng kết hệ thống lọc dựa thông tin quan tâm người dùng Sử dụng search engine Ngày nay, kỹ thuật tìm kiếm khơng đạt độ xác cao mà cịn đạt tốc độ cao Tốc độ tiêu chuẩn cạnh tranh cho hệ thống tìm kiềm Google lên site tìm kiếm tồn cầu với độ xác cao nhanh Khơng Google cho phép hệ thống khác sử dụng thành module search engine Module cho phép hệ thống lấy kết tìm kiếm cách nhanh chóng dựa tài nguyên mà máy chủ google cung cấp Nếu hệ thống sử dụng module hiệu tìm kiếm nâng cao Đây hướng phát triển hệ thống tương lai 85 ... Xử lý query, tạo kết trả Tài liệu chứa từ khóa query Tài liệu có liên quan với tài liệu kết Truy vấn CSDL (tài liệu) Tập tài liệu 16 Các tài liệu liên quan Cập nhật tài liệu liên quan Hình 3: Quy... cập phân tích ngữ nghĩa tiềm ẩn (LSA), phần đồ án Xin vui lòng xem đồ án Mr Cường có trình bầy chi tiết phương pháp LSA, áp dụng việc phân tích nội dung tài liệu 2.3.3 Nhận xét, kết luận Phân tích. .. tìm kiếm 2.1.1 Cơng nghệ tìm kiếm ngữ nghĩa giới Hầu hết hiệu gần cơng cụ tìm kiếm dựa vào ngữ nghĩa phụ thuộc vào công nghệ xử lý ngôn ngữ tự nhiên để phân tích hiểu câu truy vấn Một cơng cụ tìm