Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 16 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
16
Dung lượng
904,73 KB
Nội dung
VẤNĐỀVÀTHỰCTRẠNG 1. ĐẶT BÀI TOÁN Hiện nay, khoa học kỹ thuật ngày càng phát triển. Máy vi tính được phát triển từ năm 1980 đã ngày càng được sử dụng rộng rãi với các ứng dụng tiên tiến của nó. Theo đó, các hệ thống lưu trữ tài liệu dần chuyển sang lưu trữ số trên máy tính. Các hệ thống thư viện điện tử, thư viện trực tuyến ngày càng được sử dụng rộng rãi. Theo đó, là các vấnđề liên quan đến tìm kiếm, chia theo danh mục và gợi ý nội dung đọc Ebook cho người dùng. Trên internet, chúng ta đã có rất nhiều các công cụ tìm kiếm và gợi ý các tài liệu cần đọc và những tài liệu liên quan. Thí dụ như công cụ tìm kiếm của Google, ngoài những tài liệu có chứa từ khóa, nó còn gợi ý những tài liệu có độ tương đồng nhất định với nội dung người dùng tra cứu, thể hiện ở các liên kết cuối mỗi trang. Với amazon.co.uk, hệ thống recommender chỉ với những thành viên đăng ký tài khoản với hệ thống. Khi đăng ký tài khoản, user đăng ký luôn các sở thích và các lĩnh vực họ quan tâm. Với hệ thống mubu.com, họ gợi ý trong lĩnh vực âm nhạc. Người dùng cũng phải cung cấp thông tin về sở thích như ca sỹ, nhạc sĩ, thể loại nhạc quan tâm. Từ đó, hệ thống gợi ý cho người dùng không cần keyword… Hình : Tìm kiếm thông tin – So sánh gợi ý của người và máy Rất nhiều người không có thời gian để lọc ra trong một tệp các cuốn sách được thông tin mình mong muốn. Thậm chí trong một cuốn sách dầy tới nghìn trang. Mục lục ở mỗi cuốn sách cũng là các tóm tắt ý, các chủ đề viết về cho cuốn sách. Người dùng có thể tìm trong các mục lục đó, cũng có thể tìm theo từ khóa (ứng với mỗi tài liệu, chúng được tìm theo từ khóa dựa vào chương trình đọc tài liệu đó). Như hình trên, vấnđề là, tìm được một cuốn sách chứa chủ đề của mình và có đủ lượng thông tin cần thiết cho vấnđề mình quan tâm. Hoặc khi chưa đủ thông tin, người dùng được gợi ý những cuốn sách viết về những chủ đề có liên quan mà người ta cần tra cứu thông tin về. Bài toán đặt ra là, trong kho dữ liệu, bao gồm rất nhiều cuốn sách, rất nhiều các tài liệu như bài báo, tạp chí. Người dùng cần tra cứu thông tin về một vấnđề nào đó. Hệ thống sẽ phải cung cấp những cuốn sách viết về vấnđề đó và sắp xếp theo thứ tự ưu tiên nhất định cho người đọc. Hơn nữa, hệ thống cũng cung cấp các tài liệu mà những người dùng trước đó đã sử dụng khi cần tra cứu vấnđề đó. Người dùng thiết lập một phiên giao dịch, bằng việc đăng nhập vào hệ thống hoặc có thể không cần đăng nhập (Tất nhiên, khi đăng nhập vào hệ thống sẽ được hỗ trợ một số tính năng tìm kiếm nâng cao). Bằng việc đánh một từ khóa người dùng quan tâm, hệ thống sẽ cung cấp hai loại kết quả: 1. Kết quả do truy vấn SQL trong cơ sở dữ liệu của hệ thống 2. Kết quả do phân tích qua lịch sử truy cập của những người dùng trước. Với loại kết quả đầu tiên, kết quả tìm được do việc truy vấn bằng các câu truy vấn SQL trong cơ sở dữ liệu. CSDL phải được thiết kế sao cho quá trình tìm kiếm là thuận lợi nhất. Khi tìm được các kết quả theo mức độ ưu tiên, người dùng sẽ chọn một văn bản nào đó để nghiên cứu. Hệ thống phải cung cấp tiếp cho người dùng những tài liệu liên quan tới tài liệu mà họ đang đọc. Việc tìm những văn bản liên quan là dựa trên sự tương đồng giữa hai văn bản. Với loại kết quả thứ hai, hệ thống sẽ cung cấp cho người dùng những văn bản mà qua những lần truy cập hệ thống trước đó, hệ thống ghi nhận những tài liệu mà các người dùng trước đã đọc khi đọc tài liệu này học tài liệu khác cùng chủ đề hay có độ tương đồng nhất định với tài liệu đó. Sơ đồ tổng quát giao dịch của hệ thống: Hình : Mô hình sơ đồ hệ thống gợi ý cho người dùng Kết quả trả lại được sắp xếp theo thứ tự giảm dần của mức độ ưa thích. Query search Phân tích phiên làm việc 1.Truy vấn theo từ khóa 2.Truy vấn theo tài liệu liên quan (LSA + phân tích lịch sử làm việc) Items Databases 2. CÁC VẤNĐỀVÀ CÁC GIẢI PHÁP HIỆN TẠI 2.1Các hệ thống gợi ý (recommender systems - RS) 2.1.1 Các khái niệm về Recommender System Recommender Systems (RS) là một hế thống lọc thông tin đặc biệt, hệ thống cho phép lọc thông tin dựa trên sự quan tâm của người dùng và nội dung của văn bản. Điển hình, một hệ thống RS sẽ so sánh những thông tin người dùng với những đặc trưng liên quan. Những đặc trưng này có thể thu thập từ nội dung thông tin (Cách tiếp cận theo nội dung: Content - based approach) hoặc từ môi trường mạng xã hội của người sử dụng (Cách tiếp cận theo hướng lọc cộng tác: Collaborative filtering approach). <Theo wikipedia> Như vậy dựa vào khái niệm trên chúng ta có thể thấy hiện có hai kỹ thuật chính được sử dụng để xây dựng một hệ thống RS hiện nay. Một là kỹ thuật hướng nội dung – Content based approach, kỹ thuật này cho phép hệ thống đưa ra những gợi ý phù hợp nhất với những tiêu chuẩn đã được xác định. Hệ thống phải nắm được tất cả những đặc điểm chính được thể hiện trong đối tượng được quan tâm (Theo từ khoá của người dùng) và sắp xếp chúng theo những tiêu chuẩn tương ứng. Mặt khác , tiếp cận theo hướng lọc cộng tác – Collborative filtering CF lại làm việc dựa trên cơ chế tìm kiếm những sự đồng nhất của một cá nhân với cộng đồng mà họ tham gia để xác định gợi ý hơn là dựa trên việc xác thực nội dung của sự quan tâm. Tức là CF dựa trên sự công tác giữa một nhóm cá thể có chung một quan điểm hay một sự lựa chọn nào đó để đưa ra nhưng gợi ý cho người tìm kiếm. Hình : Sơ đồ tổng quát hệ thống Trong môt số hệ thống cũng thường áp dụng cả hai kỹ thuật này cách này gọi là hệ thống lai (Hybrid). Về căn bản mô hình bài toán được xây dựng như sau: - Gọi C là số thành viên của hệ thống: ci là tường người dùng cụ thể. - Gọi S là toàn bộ không gian đối tượng có thể đưa ra và si là một đối tượng cụ thể. - Gọi u là giá trị phù hợp của đối tượng s với người dùng c. Vậy bài toán là sự ánh xạ u: CxS R. Trong đó R chính là tập hợp các đối tượng được đưa ra giới thiệu. Tập R sẽ được sắp xếp theo thứ tự giảm dần của u.Công việc chính của giải thuật đơn giản chỉ là đi tìm giá trị hàm u=f(c, s) sao cho u (max) là giá trị được ưa thích nhất. Dễ thấy độ phức tạp của bài toán là rất cao bởi không gian S là rất lớn. Ví dụ như cách ứng dụng về gợi ý sách, số lượng sách có thể lên tới hàng triệu quyển. Hoặc hệ thống gợi ý về CDs…Đồng thời không gian C cũng rất lớn nếu như mạng phát triển mang tính toàn cầu như Ebay, Google, Yahoo có thể lên đến hàng tỉ thành viên. 2.1.2 Các hệ thống recommender tiêu biểu Hệ thống bán hàng trực tuyến m a z o n e . Hình : Giao diện tìm kiếm của Amazone.com Đầu vào: Tên thiết bị, tên công ty, tên danh mục hay bất cứ từ khóa nào Đầu ra: Gợi ý cho người dùng các sản phẩm hiện có. Hình : Giao diện kết quả trả lại Kết quả trả về với đúng cuốn sách cần tìm. Ngoài ra, hệ thống còn tư vấn các sản phẩm khác tương tự Hệ thống tìm kiếm âm nhạc trực tuyến Chacha.vn. Hình : Giao diện kết quả tìm kiếm của Amazone.com Recommender System của ChaCha.vn là một hệ thống tư vấn âm nhạc độc đáo với nhiều tính năng nổi trội, là công cụ hỗ trợ bạn nghe nhạc một cách hữu hiệu nhất. Hệ thống Recommender tư vấn cho người dùng những thông tin mới như: • Nghệ sĩ liên quan : Hệ thống này sẽ cho bạn biết sự liên quan giữa các nghệ sĩ với nhau, xét theo tiêu chí là mức độ yêu thích của người dùng đối với các nghệ sĩ đó. • Người dùng hợp gu : Hệ thống đưa ra danh sách nhóm người dùng có cùng sở thích âm nhạc với bạn. Đồng thời cho biết thêm mức độ hợp “gu” của bạn với một người trong nhóm đó là thấp, trung bình, hay cao. • Bài hát liên quan : Hệ thống sẽ đưa ra danh sách các bài hát có liên quan gần gũi đến một bài hát cụ thể nào đó để người dùng tham khảo. • Giới thiệu các bài hát mới : Hệ thống tư vấn cho người dùng các bài hát mới mà theo dự đoán của hệ thống, đó là các bài hát người dùng sẽ thích nghe. Hoạt động của hệ thống Hệ thống tư vấn gồm 4 chức năng hoạt động như sau: • Nghệ sĩ liên quan: Dựa trên các thông tin về nghệ sĩ (các bài hát, thể loại sáng tác hay trình bày, mức độ quan tâm của người dùng…), hệ thống sẽ tính toán để đo mức liên quan giữa các nghệ sĩ, sau đó đưa ra danh sách các nghệ sĩ có độ liên quan cao nhất. • Người dùng hợp “gu”: Dựa trên các bài hát đã nghe qua của từng người dùng cụ thể, hệ thống tính toán mức độ hợp “gu” (hợp sở thích) giữa những người dùng khác nhau. Trên cơ sở đó đưa ra danh sách những người dùng có mức độ hợp “gu” cao nhất. • Bài hát liên quan: Dựa vào thể loại, mức độ được ưa thích của bài hát, hệ thống tính toán độ liên quan giữa các bài hát khác nhau. Sau đó đưa ra danh sách bài hát có độ liên quan cao nhất đối với bài hát hiện tại. • Giới thiệu các bài hát mới: Dựa vào tiểu sử người dùng (các bài hát đã nghe qua, đánh giá của người dùng về các bài hát đã nghe), hệ thống sẽ tiến hành dự đoán mức độ ưa thích của người dùng đối với các bài hát chưa nghe. Thông qua đó, sắp xếp các bài hát và đưa ra danh sách các bài hát có độ ưa thích cao nhất để tư vấn cho người dùng . Hệ thống này có ưu điểm nổi bật: • Hệ thống giúp cho người dùng có thể tìm thấy các bài hát gần gũi với bài hát mà mình yêu thích thông qua các bài hát liên quan. • Hệ thống Recommender cũng là kênh kết nối bạn với những người dùng khác có cùng sở thích âm nhạc. Bạn sẽ có nhiều cơ hội làm quen, khám phá những sở thích mới lạ từ những người cùng “gu” âm nhạc. • Với các mục hỗ trợ tìm kiếm hiện nay, người dùng muốn tìm một bài hát buộc phải đưa thông tin nào đó về bài hát cần tìm (tên bài hát, một câu hát trong bài, tên ca sĩ, nhạc sĩ sáng tác .). Vì thế rất khó để tìm thấy một bài hát mới hoặc một bài hát hợp sở thích của mình, hoặc bạn sẽ gặp khó khăn nếu bạn không có thông tin về bài hát đó. Với chức năng tư vấn âm nhạc, hệ thống Recommender cho phép người dùng có thể khám phá các bài hát mới lạ, bất ngờ. Nhờ hệ thống Recommender, bạn có thể nghe nhạc chọn lọc theo đúng sở thích mà không mất nhiều thời gian tìm kiếm. Kết luận: Nhìn chúng các hệ thống truyền thống đều có mặt hạn chế nhưng chúng ta biết cách kết hợp các kỹ thuật phù hợp với từng hệ thống riêng biết. Trong nhiều hệ thống thực tế chúng ta đã thấy được khả năng mở rồng đầy tiềm năng đặc biệt trong hệ thống tìm kiếm. 2.2Xử lý tài liệu tiếng Việt Tiếng nói và chữ viết là hai yếu tố cơ bản nhất của bất kỳ ngôn ngữ nào. Trong sự phát triển của công nghệ thông tin (CNTT) ở Việt Nam, một số việc liên quan đến “tiếng Việt” đã được làm và ít nhiều có kết quả ban đầu: (a) Trước hết là các bộ gõ chữ Việt và thành công của việc đưa được bộ mã chữ Việt vào bảng mã Unicode, cũng như việc chọn Unicode cho bộ mã chuẩn tiếng Việt (nhân đây cũng xin nói thêm, do chưa ý thức về chuẩn, rất nhiều cán bộ CNTT, nhiều cơ quan nhà nước vẫn chưa chịu đổi thói quen cũ để dùng bộ mã chuẩn Unicode, một việc rất quan trọng của xử lý tiếng Việt). Bảo tồn chữ Nôm trên máy tính cũng là một việc đầy nỗ lực và nhiều ý nghĩa được nhiều người theo đuổi lâu nay, cần được nhà nước tiếp tục ủng hộ lâu dài (http://nomfoundation.org). (b) Tiếp theo có thể kể đến các chương trình nhận dạng chữ Việt in (OCR: optical character recognition), như hệ VnDOCR của Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam. Các chương trình nhận dạng chữ in nhằm chuyển các tài liệu in trên giấy thành các tài liệu điện tử (dưới dạng các tệp văn bản trên máy tính). (c) Các phần mềm hỗ trợ việc sử dụng tiếng nước ngoài, tiêu biểu là các từ điển song ngữ trên máy tính, thí dụ như các từ điển điện tử của Lạc Việt đã được dùng rộng rãi trên máy tính để tra cứu từ Anh-Việt, Việt-Anh. Điều ta cần phân biệt là các từ điển điện tử này dành cho con người sử dụng, khác với từ điển điện tử dành cho máy tính sử dụng trong xử lý ngôn ngữ tự nhiên (sẽ được đề cập ở phần sau). (d) Các nỗ lực trong việc làm các phần mềm dịch Anh-Việt,Việt-Anh, chẳng hạn như các hệ dịch EVTRAN và VETRAN. (e) Một loại việc nữa là Việt hóa các phần mềm mà gần đây tiêu biểu là kết quả Việt hóa Windows và Microsoft Office của Microsoft. Việc này có thể xem như việc “dịch” các thông báo tiếng Anh cố định trong các phần mềm thành các thông báo tiếng Việt. 2.2.1 Các nghiên cứu về cấu của các nhà nghiên cứu Việt Nam. Các quan điểm trong nghiên cứu về ngữ pháp tiếng Việt, chúng ta có thể thấy rằng chưa có một định nghĩa chuẩn thống nhất về cách gọi của từ loại cũng như cấu trúc các ngữ của tiếng Việt. Trong đồ án này, người viết luận văn sẽ chủtrương bám sát theo quan điểm được nhiều tác giảđã thống nhất, quan điểm này được đánh giá là khá phù hợp với ngữ pháp tiếng Việt hiện tại. Đồng thời, trong quá trình xây dựng đồ án, tác giả cũng tiến hành so sánh và bổ sung thêm những phần lý thuyết thuộc hai quan điểm của Nguyễn Tài Cẩn và Diệp Quan Ban. Nguyễn Tài Cẩn (1975) [14] cho rằng cụm danh từ (danh ngữ) gồm có ba phần : phần đầu, phần trung tâm và phần cuối như sơ đồ sau : Hình : Sơ đồ cấu trúc từ của Nguyễn Tài Cẩn Trong thực tế danh ngữ còn có thể xuất hiện cả dưới dạng những dạng chỉ có hai phần: phần đầu+phần trung tâm, phần trung tâm+phần sau hoặc phần đầu + phần sau. Phần trung tâm của danh ngữ không phải chỉ có một từ trung tâm mà bao gồm cả bộphận trung tâm ghép gồm hai trung tâm T1 và T2, với hai vị trí T1, T2 bộ phận trung tâm có thể xuất hiện dưới 3 biến dạng : a o Có đầy đủ : T1T2, ví dụ : con chim ( này) b o Dạng thiếu T1 : -T2, ví dụ : - chim (này) c o Dạng thiếu T2: T1-, ví dụ : con – ( này) -Phần đầu của danh ngữ có tất cả 3 loại thành tố phụ (3 loại định tố) : a o Định tố “cái”, ví dụ : cái cậu học sinh ấy b o Định tố chỉ số lượng, ví dụ : mấy cái cậu học sinh ấy c o Định tố chỉ ý nghĩa toàn bộ, ví dụ : tất cảmấy cái cậu học sinh ấy -Phần cuối của danh ngữ, có thể có 2 loại định tố có tổ chức hoàn toàn khác nhau: a o Loại định tố chỉ gồm một từ, ví dụ : một quyển sách quý b o Loại định tố do một mệnh đềđảm nhiệm, ví dụ : cuốn sách tôi vừa mua hôm qua Trong tiếng Việt có theer dùng những từ loại sau đây để làm định tố cuối : 1 + Danh từ, ví dụ : vườn cau 2 + Tính từ, ví dụ : ghế dài, một cái ghể rất tốt 3 + Động từ, ví dụ : bàn học 4 + Từ chỉ trỏ, ví dụ : sáng nay, người ấy 5 + Từ chỉ vị trí, ví dụ : nhà trong, cổng trước 6 + Từ chỉ con số : giường một, ngày 27 Hồ Lê (1992) [20] cho rằng vị trí của số lượng từ, đại từ chỉ định và sự kiện từ xoay xung quanh danh từ theo mô hình sau : Trong đó: [...]... hay về mạng ngữ nghĩa, khung ngữ nghĩa và các ý niệm nguyên thủy và các quan hện như ISA,PART-OF…Tuy nhiên, do hầu hêt các tri thức về ngữ nghĩa trong cách tiếp cận này đều được xây dựng bằng tay, vì vậy các mô hình đều dừng lại ở mức độ biểu diễn trên một vài câu Vấn đề khó khăn của cách tiếp cận này là thiếu tri thức 2 Dựa trên Cơ sở tri thức (Knowledge-Based): Vào đầu thập niên 80, người ta đã chuyển... lại kết quả chính xác và phù hợp nhất cho yêu cầu của người dùng Những thông tin do người dùng cung cấp sẽ là những bộ lọc cho kết quả, những nguồn thông tin đầu vào cho những gợi ý nâng cao Hệ thống khai thác tri thức dựa trên thông tin được cung cấp bởi người được áp dụng rất nhiều ngay từ những năm 60 được thể hiện ở những hệ chuyên gia, hệ tư vấn 2.5 Vấn đề lưu trữ dữ liệu Vấn đề lưu trữ dữ liệu cũng... học,…) từ những kho dữ liệu lớn đã có sẵn và áp dụng các luật này cho trường hợp mới Thực ra, cách tiếp cận này đã được nêu ra rất sớm (1940), nhưng do nguồn dữ liệu hạn chế, thiết bị xử lý chưa hiện đại nên không có điều kiện phát triển Mãi tới thập niên 1990, khi mà công nghệ phát triển mạnh, đã có thể vượt qua được khó khăn của mình, cách tiếp cận này được hồi sinh và phát triển mạnh tới ngày nay Hiện... nhiều từ thông dụng là có nghĩa, và xem những tài liệu ít từ thông dụng là ít có nghĩa Mặc dù thuật giải LSI không hiểu tí gì về nghĩa của các từ, nó nhận ra các khuân mẫu Khi bạn tìm kiếm một CSDL chỉ mục LSI, công cụ tìm kiếm này xem xét những giá trị tương tự mà nó tính toán cho mỗi từ của nội dung, và trả về các tài liệu mà nó nghĩ là thích hợp nhất với câu truy vấn Bởi vì hai tài liệu có thể rất... mà một tìm kiếm theo từ khóa đơn giản sẽ không thực hiện được nếu không có phân tích lấy tương xứng, thì LSI sẽ thường trả về những tài liệu liên quan mà không chứa tất cả những từ khóa đó Phương pháp đề cập nữa là phân tích ngữ nghĩa tiềm ẩn (LSA), là phần kia của đồ án Xin vui lòng xem đồ án của Mr Cường sẽ có trình bầy chi tiết về phương pháp LSA, và áp dụng của nó trong việc phân tích nội dung... search engine ngày càng sát hơn với nhu cầu của người tìm kiếm Càng thông minh hơn sau nhiều lần giao dịch với người dùng Hệ thu nhận và tạo một profile cho người dùng (nếu họ đăng ký thông tin với hệ thống) Và sau những lần giao dịch với hệ, hệ sẽ học được và loại bỏ những thông tin không cần thiết, tăng bộ lọc cho kết quả trả về 2.4.2 Phân tích logfile Logfile là file ghi nhận thông tin về lịch... (số lượng từ ghép) Vì thế, việc tách từ để chính xác đòi hỏi giải thuật tách từ tốt 2.3 Xử lý tài liệu theo ngữ nghĩa 2.3.1 Đặt vấn đề Trong xử lý ngôn ngữ tự nhiên, bài toán gán nhãn ngữ nghĩa hay còn gọi là “khử sự nhập nhằng ngữ nghĩa của từ” là bài toán khó khăn nhất và cũng là bài toán trọng tâm mà đến nay trên thế giới vẫn chưa giải quyết ổn thỏa Hiện nay, có rất nhiều mô hình với nhiều hướng... thập thông tin người dùng 2.4.1 Ưu điểm của các hệ thống tự học Hệ thống tự học là hệ thống dựa vào thông tin của người dùng mà người dùng cung cấp những lần giao dịch với hệ thống để phát hiện ra những sở thích lĩnh vực người dùng quan tâm để cải thiện kết quả trả về cho người dùng cho sát với những yêu cầu thực tế Hệ thống là một phần nhỏ của hệ chuyên gia-là hệ mà khai thác tri thức trong những lần... xuất cái Vị trí -2 là vị trí của từ chỉ số lượng, ví dụ: một, hai,…; vài, ba, dăm, dăm ba ; mỗi, từng, mọi…; những, các, một…; mấy • Vị trí -3 là vị trí của từ chỉ tổng lượng, ví dụ : hết thảy, tất cả, cả… • Vị trí 1 là vị trí của từ nêu đặc trưng miêu tả có thể gặp nhiều loại từ khác nhau như : danh từ, động từ, tính từ, số từ, đại từ và thời vị từ • Ví dụ: phòng tạp chí, phòng đọc, phòng hẹp, phòng... mặt từ), chúng tôi còn đề cập tới tương đồng về nội dung của tài liệu Có nhiều phương pháp khác nhau để đánh giá sự tương đồng về nội dung như phương pháp Định chỉ số ngữ nghĩa tiềm ẩn (LSI – Latent Semantic Index), phương pháp Phân tích ngữ nghĩa tiềm ẩn (LSA – Latent Sematic Analys) Chỉ mục ngữ nghĩa tiềm ẩn (LSI) thêm một bước quan trọng cho việc xử lý chỉ mục tài liệu.Thêm vào việc ghi những từ . dựa vào chương trình đọc tài liệu đó). Như hình trên, vấn đề là, tìm được một cuốn sách chứa chủ đề của mình và có đủ lượng thông tin cần thiết cho vấn đề. VẤN ĐỀ VÀ THỰC TRẠNG 1. ĐẶT BÀI TOÁN Hiện nay, khoa học kỹ thuật ngày càng phát triển.