1. Trang chủ
  2. » Công Nghệ Thông Tin

XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN PHẦN 1

38 538 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 38
Dung lượng 1,98 MB

Nội dung

Luận văn này đực thực hiện nhằm đề xuất ra được một phương thức xây dựng hệthống hỗ trợ tư vấn với các kết quả sau: - Tư vấn hoàn toàn tự động các tài liệu cho người dùng theo từ khóa, l

Trang 1

PHẦN 0: LỜI NÓI ĐẦU

1 MỤC TIÊU VÀ Ý NGHĨA CỦA ĐỀ TÀI

Máy tính hiện nay đã đóng góp một phần không nhỏ vào đời sống, và đã trở nên phổdụng Trong lĩnh vực lưu trữ dữ liệu, chỉ cần một ổ cứng 10x15x3 cm3 là đã có thể lưu trữđược số lượng sách tương ứng với cả một thư viện sách khổng lồ Theo đó, là vấn đề tracứu dữ liệu trong kho dữ liệu như thế Cũng như việc tổ chức trong thư viện, việc lưu trữtài liệu điện tử trong máy tính cũng được chia thành các loại sách, và chủ đề lớn khácnhau Hiện nay xu thế người đọc sách là coi sách là nguồn để tra cứu những vấn đề mìnhquan tâm, chứ không phải học một kiến thức mới do một cuốn sách mang đến Vấn đề đặt

ra là làm sao tư vấn cho người dùng những cuốn sách nào liên quan nhiều nhất tới chủ đềngười dùng yêu cầu (thông qua các từ khóa được nhập) bằng phân tích nội dung và lịch sửtruy cập của những người dùng trước

Luận văn này đực thực hiện nhằm đề xuất ra được một phương thức xây dựng hệthống hỗ trợ tư vấn với các kết quả sau:

- Tư vấn hoàn toàn tự động các tài liệu cho người dùng theo từ khóa, lịch sử truy cập củangười dùng đó và những người dùng khác và sở thích của họ Kết quả tư vấn ngày càngchính xác hơn vì hệ thống có phân tích và cập nhật lịch sử truy cập của người dùng

- Giới thiệu tài liệu có độ tương tự nhất định với tài liệu đang nghiên cứu để người dùnglựa chọn tài liệu tiếp theo nghiên cứu

- Hệ thống khảo sát (survey) để thu thập các ý kiến đánh giá của người dùng về sự tương

tự của các tài liệu hệ thống gợi ý Qua đó, càng thu thập nhiều sự đánh giá, kết quả tư vấncho người dùng càng sát với vấn đề người ta đặt ra hơn

- Người dùng mới không nhất thiết phải đăng ký thông tin với hệ thống Hệ thống vẫn gợi

ý cho người dùng thông qua phân tích nội dung và lịch sử truy cập hệ thống

- Đáp ứng các yêu cầu tìm kiếm trên các trang web (tìm kiếm trong site riêng hoặc trêninternet) Hệ thống hướng tới việc tìm kiếm và xây dựng cơ sở dữ liệu động từ internet

2 VẤN ĐỀ GIẢI QUYẾT

Có 2 phương pháp chủ đạo được dùng trong hệ tư vấn:

Phương pháp lọc cộng tác: là phương pháp tập hợp các đánh giá hoặc các quan điểm

của người dùng, nhận dạng sự tương đồng giữa các người dùng trên cơ sở các phiên giaodịch của họ Phiên giao dịch của người dùng được bắt đầu từ khi người dùng đánh từ khóa

và có tín hiệu search Kết thúc phiên làm việc với một từ khóa mới được nhập Phươngpháp lọc cộng tác ước lượng hàm đánh giá R(u,i) của item i với user u dựa trên cơ sở đánhgiá R(u’,i) của user u’ cho cùng item i mà trong đó u và u’ là tương tự nhau

Phương pháp lọc cộng tác có các vấn đề như:

Sự thưa thớt: thực tế thì vấn đề của người dùng quan tâm (từ khóa) nó chiếm phần rất

nhỏ và sự đánh giá sự tương đồng cho tài liệu là rất nhỏ so với rất nhiều tài liệu của hệthống Với hệ thống gợi ý trong luận văn này, các đánh giá, các nhận định sẽ được lưu lạidần dần, loại bỏ dần những kết quả không chính xác

Trang 2

Vấn đề tài nguyên mới: Hệ thống không ngừng cập nhật các tài liệu mới cho kho dữ

liệu của mình Mỗi lần thêm một tài liệu mới, hệ thống sẽ tính lại (off-line) là phân tích độtương đồng về ngữ nghĩa giữa các văn bản (kỹ thuật LSA) để tìm ra tập các láng giềnggần của một cuốn sách

Vấn đề người dùng mới: Như đã đề cập, hệ thống sẽ phân tích và lưu trữ lại lịch sử của

tất cả các phiên làm việc, kết hợp phân tích nội dung trong hệ thống để lọc ra sự tươngđồng, liên quan chính xác nhất của các tài liệu Nên hệ thống hoàn toàn có thể gợi ý tưvấn cho một người dùng mới Khi người dùng cung cấp cho hệ thống các sở thích, hệthống sẽ lọc tiếp theo sở thích đó, để cung cấp kết quả chính xác hơn

Phương pháp lọc dựa trên nội dung: là một giải thuật hướng về nghiên cứu lọcthông tin, phương pháp lọc dựa trên nội dung ước lượng hàm đánh giá R(u,i) của item ivới user u được thiết lập dựa trên cơ sở đánh giá R(u,i’) của cùng user u cho item i’ màtrong đó i và i’ là tương tự nhau về mặt nội dung

Nhược điểm chính của phương pháp này là nó giả định các thuật ngữ là độc lập nhau.Trong thực tế, các thuật ngữ thường có liên quan với nhau và hiểu được điều này có thểdẫn đến việc tính độ liên quan tốt hơn

Tính đồng nghĩa: có nhiều cách để chỉ đến một đối tượng, ví dụ: car và automobile

• Các sản phẩm tương tự được đối xử theo cách khác nhau

• Tăng sự thưa thớt, làm mất tính chất bắc cầu giữa các từ khóa

• Sinh ra kết quả có chất lượng thấp

Tính nhiều nghĩa của từ: hầu hết các từ đều có nhiều nghĩa, ví dụ: model, python, chip

• Độ chính xác thấp

3 CÁCH GIẢI QUYẾT

Sử dụng phương pháp lọc cộng tác, hệ thống đã đưa ra phương án giải quyết đượccác nhược điểm của nó như đã trình bầy ở trên Về sử dụng phương pháp lọc dựa trên nộidung, hệ thống đang sử dụng các phương pháp:

3.1 Phân tách tài liệu thành các từ khóa (Filter )

Các tài nguyên là các tài liệu được thể hiện dưới dạng văn bản như một cuốn sách,tạp chí, hay một bài báo, bài diễn văn điện tử nào đó Với những tài liệu tiếng Anh, một từthường có một âm tiết, ta có thể dễ dàng xác định một từ dựa vào dấu cách (space) hoặcdấu câu Việc phân tách văn bản tiếng anh thành các từ khóa không khó khăn Với nhữngvăn bản tiếng việt, mỗi từ nó có thể có một, hai hoặc nhiều hơn số lượng âm tiết Việcphân tách thành từ khóa đối với văn bản tiếng việt phải dựa trên từ điển và các thuật toán

đọc từ khóa sao cho đúng nghĩa nhất của câu Thí dụ: Học sinh học sinh học thì hệ thống

sẽ tách thành Học sinh, học, sinh học Sau đó, loại bỏ các từ dừng (Stopword – Những từ mang ý nghĩa cảm thán, đại từ…như anh, bạn, do đó…), những từ không mang nhiều ý

nghĩa về nội dung Bước tiếp theo, dùng kỹ thuật TF-IDF để lọc bỏ bớt số lượng từ khóacủa tài liệu

Trang 3

3.2 Phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analystic-LSA)

Kỹ thuật LSA là những lý thuyết và phương thức cho việc trích rút và thể hiện ngữcảnh sử dụng ngữ nghĩa của từ dựa trên việc tính toán thông kê Kỹ thuật này cho phépứng dụng trên một kho dữ liệu văn bản lớn Ý tưởng cơ bản của kỹ thuật là tổng hợp tất cảcác văn cảnh của từ, trong đó, một từ được đưa ra đã và không chỉ định biểu lộ những tậpràng buộc lẫn nhau Những tập ràng buộc này cho phép xác định sự tương đồng về nghĩacủa những từ và tập hợp mỗi từ khác

Tập các từ khóa của các tài liệu của bước phân tích trên được dùng làm đầu vàocho các hàng của ma trận Theo đó, bộ từ khóa của một tài liệu được dùng làm cột, các tàiliệu làm hàng, các cell của ma trận được khởi tạo là tần suất xuất hiện của từ khóa-thuậtngữ đó trong tài liệu LSA dùng kỹ thuật phân tích giá trị riêng (SVD-singular valuedecomposition) để giảm bớt để giảm bớt kích thước ma trận thuật ngữ-tài liệu, không gianN-chiều sẽ được giảm bớt xuống một không gian K chiều, K<<N, không gian mới nàyđược gọi là không gian khái niệm

Sử dụng kết quả bước này, ta thu được tập các tài liệu có sự tương đồng về ngữ nghĩa nhất định với tài liệu xét Là nguồn quan trọng trong việc đưa ra gợi ý những tài

liệu tương tự với tài liệu người dùng đang đọc.

3.3 Phân tích lịch sử truy cập của người dùng

Một phiên làm việc của người dùng được đánh dấu bằng việc nhập một từ khóa vànhấn nút search Các kết quả gợi ý được đưa ra, khi người dùng quyết định chọn một tàiliệu (A), hệ thống gợi thống gợi ý các tài liệu có liên quan (dựa vào phân tích LSA trước

và phân tích lịch sử phiên làm việc) Khi người dùng chọn một tài liệu (B) tiếp theo trongphần của hệ thống gợi ý để đọc, hệ thống ghi nhận tài liệu B có liên quan nhất trong phiênlàm việc đó với tài liệu A Và cứ thế, hệ thống sẽ cập nhật và đánh giá lại sự liên quannhất định của các tài liệu qua các phiên làm việc của người dùng

Hệ thống còn đưa ra kỹ thuật khảo sát (survey) để thu thập ý kiến chính xác hơn củangười dùng về sự tương đồng của các tài liệu

Hạn chế của phương pháp này, là khi có một tài liệu mới được cập nhật, chỉ số lịch sửtruy cập của nó là 0, hoặc một giá trị âm nào đó Có thể về cơ bản thì nó rất tương đồngvới văn bản A trên chẳng hạn, nhưng phải qua nhiều lần, nhiều phiên làm việc thì nó mớiđứng đầu trong các văn bản liên quan của A

Trang 4

4 CÁC ĐÓNG GÓP CHÍNH CỦA LUẬN VĂN

 Cung cấp bộ phân tách văn bản thành các từ khóa với văn bản tiếng Việt vàvăn bản tiếng Anh Sử dụng bộ đọc văn bản đầu vào Ifilter để xử lý, kết hợp các file từđiển, file từ stopword để tách dữ liệu được đọc vào thành các từ khóa, đặc trưng cho tàiliệu đó

 Kỹ thuật LSA, đánh giá độ tương đồng về mặt ngữ nghĩa giữa các tài liệudựa trên kỹ thuật xử lý ma trận SVD Phần này sẽ được trình bày chi tiết trong luận văncòn lại của dự án (Liên lạc với Mr Kiều Văn Cường)

 Cung cấp kỹ thuật xử lý lịch sử phiên làm việc của một người dùng, chophép các kết quả chính xác hơn sau nhiều phiên làm việc

 Đề xuất mô hình và phương thức triển khai cho phần mở rộng dự án, xâydựng hệ thống CSDL động trên Internet và đẩy hết các quá trình xử lý thành on-line (hệthống như một tool tìm kiếm cho khách hàng Hệ thống sẽ bắt đầu khi người dùng bắt đầuphiên làm việc)

Trang 5

5 CÀI ĐẶT

5.1 Tách tài liệu thành các từ khóa Tìm kiếm dựa trên từ khóa

Mô hình này áp dụng cho những lần gợi ý đầu tiên, cho khi người dùng nhập từ khóa

Giải thuật tách từ khóa (chạy off-line):

Input: tập tài nguyên là sách, tạp chí, trang thông tin (html) ở các định dạng tài liệu

Output: Tập các từ khóa với rank tương ứng

Quá trình tìm kiếm sẽ ưu tiên với những khóa được lọc ra ở tập khóa có mức độ ưu tiên được đánh giá bằng rank tương ứng của chúng

Giải thuật này được thiết kế để chạy offline trong phiên bản đầu tiên này Quá trình cập nhật tài liệu được người quản trị nhập Chi phí thời gian cho modul này là khá lớn, một cuốn sách điện tử tầm 200 trang tương ứng là 3 phút cho hệ thống đọc và tách thành

từ khóa

Hình 1: Hình minh họa tập tách văn bản

Tập văn bản nguồn Tập văn bản đã được phân tách

Trang 6

5.2 Mô hình tìm tư vấn dựa trên phân tích ngữ nghĩa tiềm ẩn

Sau khi tách thành tập các từ khóa, modul này sẽ thực hiện việc cập nhật tiếp các tài liệu liên quan, có độ tương đồng nhất định về nội dung Mỗi tài liệu sẽ được xác định cùng với nó một tập các tài liệu khác có tương đồng về mặt nội dung

Hình 2: Cấu trúc giải thuật LSA

Cập nhật CSDL (dữ

liệu tài liệu

Tập các tài liệuliên quan tới 1 tài liệu

Xử lý LSA

(ma trận vàgiải thuật Tập tài liệu

(từ khóa)

Trang 7

5.3 Mô hình tư vấn dựa trên lịch sử phiên truy cập của người dùng

Kế thừa từ các hệ thống học thông minh, từ các phiên làm việc của người dùng, hệ thống sẽ tự động cập nhật để chính xác hơn những thông tin có trong cơ sở dữ liệu để phục vụ cho những lần tư vấn sau đó Có rất nhiều mô hình khai thác trên lĩnh vực người dùng Trong đồ án này, tôi chỉ khai thác trên khía cạnh sở thích và lịch sử các phiên làm việc của người dùng Khi người dùng đăng ký thông tin, hệ thống ghi nhận ở tài khoản của họ, thông tin về các lĩnh vực người dùng quan tâm để lọc các kết quả tìm kiếm Tại phiên làm việc của người dùng, khi người dùng click vào một tài liệu mà hệ thống đưa ra

để gợi ý cho tài liệu đang đọc, hệ thống sẽ cập nhật hệ số tương quan giữa 2 tài liệu đó, phục vụ cho các kết quả tư vấn ở lần tiếp theo

Hình 3: Quy trình truy vấn

Xử lý tác thaotác người dùng

Xử lý query, tạo kết quả trả

Tài liệu trả vềHiển thị kết quả ra browser

Các tài liệu liên quan

Cập nhật tàiliệu liên quanTập tài liệu

Truy vấnCSDL (tàiliệu)

Tài liệu có liên quan với tài liệu kết quảTài liệu chứa từ

khóa trong query

Câu truy vấn

Nhận và tiền

xử lý query

Trang 8

6 GIAO DIỆN TRANG CHỦ CHƯƠNG TRÌNH

Hình 4: Giao diện chính trang chủ chương trình

Trang 9

PHẦN I: VẤN ĐỀ VÀ THỰC TRẠNG

1 ĐẶT BÀI TOÁN

Hiện nay, khoa học kỹ thuật ngày càng phát triển Máy vi tính được phát triển từ năm

1980 đã ngày càng được sử dụng rộng rãi với các ứng dụng tiên tiến của nó Theo đó, các

hệ thống lưu trữ tài liệu dần chuyển sang lưu trữ số trên máy tính Các hệ thống thư việnđiện tử, thư viện trực tuyến ngày càng được sử dụng rộng rãi Theo đó, là các vấn đề liênquan đến tìm kiếm, chia theo danh mục và gợi ý nội dung đọc Ebook cho người dùng.Trên internet, chúng ta đã có rất nhiều các công cụ tìm kiếm và gợi ý các tài liệu cầnđọc và những tài liệu liên quan Thí dụ như công cụ tìm kiếm của Google, ngoài những tàiliệu có chứa từ khóa, nó còn gợi ý những tài liệu có độ tương đồng nhất định với nội dungngười dùng tra cứu, thể hiện ở các liên kết cuối mỗi trang Với amazon.co.uk, hệ thốngrecommender chỉ với những thành viên đăng ký tài khoản với hệ thống Khi đăng ký tàikhoản, user đăng ký luôn các sở thích và các lĩnh vực họ quan tâm Với hệ thốngmubu.com, họ gợi ý trong lĩnh vực âm nhạc Người dùng cũng phải cung cấp thông tin về

sở thích như ca sỹ, nhạc sĩ, thể loại nhạc quan tâm Từ đó, hệ thống gợi ý cho người dùngkhông cần keyword…

Hình 5: Tìm kiếm thông tin – So sánh gợi ý của người và máy

Trang 10

Rất nhiều người không có thời gian để lọc ra trong một tệp các cuốn sách được thôngtin mình mong muốn Thậm chí trong một cuốn sách dầy tới nghìn trang Mục lục ở mỗicuốn sách cũng là các tóm tắt ý, các chủ đề viết về cho cuốn sách Người dùng có thể tìmtrong các mục lục đó, cũng có thể tìm theo từ khóa (ứng với mỗi tài liệu, chúng được tìmtheo từ khóa dựa vào chương trình đọc tài liệu đó) Như hình trên, vấn đề là, tìm đượcmột cuốn sách chứa chủ đề của mình và có đủ lượng thông tin cần thiết cho vấn đề mìnhquan tâm Hoặc khi chưa đủ thông tin, người dùng được gợi ý những cuốn sách viết vềnhững chủ đề có liên quan mà người ta cần tra cứu thông tin về.

Bài toán đặt ra là, trong kho dữ liệu, bao gồm rất nhiều cuốn sách, rất nhiều các tàiliệu như bài báo, tạp chí Người dùng cần tra cứu thông tin về một vấn đề nào đó Hệthống sẽ phải cung cấp những cuốn sách viết về vấn đề đó và sắp xếp theo thứ tự ưu tiênnhất định cho người đọc Hơn nữa, hệ thống cũng cung cấp các tài liệu mà những ngườidùng trước đó đã sử dụng khi cần tra cứu vấn đề đó

Người dùng thiết lập một phiên giao dịch, bằng việc đăng nhập vào hệ thống hoặc cóthể không cần đăng nhập (Tất nhiên, khi đăng nhập vào hệ thống sẽ được hỗ trợ một sốtính năng tìm kiếm nâng cao) Bằng việc đánh một từ khóa người dùng quan tâm, hệthống sẽ cung cấp hai loại kết quả:

1 Kết quả do truy vấn SQL trong cơ sở dữ liệu của hệ thống

2 Kết quả do phân tích qua lịch sử truy cập của những người dùng trước

Với loại kết quả đầu tiên, kết quả tìm được do việc truy vấn bằng các câu truy vấnSQL trong cơ sở dữ liệu CSDL phải được thiết kế sao cho quá trình tìm kiếm là thuận lợinhất Khi tìm được các kết quả theo mức độ ưu tiên, người dùng sẽ chọn một văn bản nào

đó để nghiên cứu Hệ thống phải cung cấp tiếp cho người dùng những tài liệu liên quan

tới tài liệu mà họ đang đọc Việc tìm những văn bản liên quan là dựa trên sự tương đồng

giữa hai văn bản Với loại kết quả thứ hai, hệ thống sẽ cung cấp cho người dùng nhữngvăn bản mà qua những lần truy cập hệ thống trước đó, hệ thống ghi nhận những tài liệu

mà các người dùng trước đã đọc khi đọc tài liệu này học tài liệu khác cùng chủ đề hay có

độ tương đồng nhất định với tài liệu đó Sơ đồ tổng quát giao dịch của hệ thống:

Trang 11

Hình 6: Mô hình sơ đồ hệ thống gợi ý cho người dùng

Kết quả trả lại được sắp xếp theo thứ tự giảm dần của mức độ ưa thích

Query search

Phân tích phiên làm việc1.Truy vấn theo từ khóa

2.Truy vấn theo tài liệu

liên quan (LSA + phân

tích lịch sử làm việc)

Items Databases

Trang 12

2 CÁC VẤN ĐỀ VÀ CÁC GIẢI PHÁP HIỆN TẠI

2.1 Các hệ thống gợi ý (recommender systems - RS)

2.1.1 Các khái niệm về Recommender System

Recommender Systems (RS) là một hế thống lọc thông tin đặc biệt, hệ thống cho phéplọc thông tin dựa trên sự quan tâm của người dùng và nội dung của văn bản Điển hình,một hệ thống RS sẽ so sánh những thông tin người dùng với những đặc trưng liên quan.Những đặc trưng này có thể thu thập từ nội dung thông tin (Cách tiếp cận theo nội dung:Content - based approach) hoặc từ môi trường mạng xã hội của người sử dụng (Cách tiếp

cận theo hướng lọc cộng tác: Collaborative filtering approach) <Theo wikipedia>

Như vậy dựa vào khái niệm trên chúng ta có thể thấy hiện có hai kỹ thuật chính

được sử dụng để xây dựng một hệ thống RS hiện nay Một là kỹ thuật hướng nội dung – Content based approach, kỹ thuật này cho phép hệ thống đưa ra những gợi ý phù hợp

nhất với những tiêu chuẩn đã được xác định Hệ thống phải nắm được tất cả những đặcđiểm chính được thể hiện trong đối tượng được quan tâm (Theo từ khoá của người dùng)

và sắp xếp chúng theo những tiêu chuẩn tương ứng

Mặt khác , tiếp cận theo hướng lọc cộng tác – Collborative filtering CF lại làm

việc dựa trên cơ chế tìm kiếm những sự đồng nhất của một cá nhân với cộng đồng mà họtham gia để xác định gợi ý hơn là dựa trên việc xác thực nội dung của sự quan tâm Tức là

CF dựa trên sự công tác giữa một nhóm cá thể có chung một quan điểm hay một sự lựachọn nào đó để đưa ra nhưng gợi ý cho người tìm kiếm

Trang 13

- Gọi C là số thành viên của hệ thống: ci là tường người dùng cụ thể.

- Gọi S là toàn bộ không gian đối tượng có thể đưa ra và si là một đối tượng cụ thể

- Gọi u là giá trị phù hợp của đối tượng s với người dùng c

Vậy bài toán là sự ánh xạ u: CxS  R Trong đó R chính là tập hợp các đối tượngđược đưa ra giới thiệu Tập R sẽ được sắp xếp theo thứ tự giảm dần của u.Công việcchính của giải thuật đơn giản chỉ là đi tìm giá trị hàm u=f(c, s) sao cho u (max) là giá trịđược ưa thích nhất

Dễ thấy độ phức tạp của bài toán là rất cao bởi không gian S là rất lớn Ví dụ như cáchứng dụng về gợi ý sách, số lượng sách có thể lên tới hàng triệu quyển Hoặc hệ thống gợi

ý về CDs…Đồng thời không gian C cũng rất lớn nếu như mạng phát triển mang tính toàncầu như Ebay, Google, Yahoo có thể lên đến hàng tỉ thành viên

2.1.2 Các hệ thống recommender tiêu biểu

Hệ thống bán hàng trực tuyến m a z o n e

Hình 8: Giao diện tìm kiếm của Amazone.com

Đầu vào: Tên thiết bị, tên công ty, tên danh mục hay bất cứ từ khóa nào

Trang 14

Đầu ra: Gợi ý cho người dùng các sản phẩm hiện có.

Hình 9: Giao diện kết quả trả lại

Kết quả trả về với đúng cuốn sách cần tìm Ngoài ra, hệ thống còn tư vấn các sản phẩm khác tương tự

Trang 15

Hệ thống tìm kiếm âm nhạc trực tuyến Chacha.vn.

Hình 10: Giao diện kết quả tìm kiếm của Amazone.com

Recommender System của ChaCha.vn là một hệ thống tư vấn âm nhạc độc đáo với nhiềutính năng nổi trội, là công cụ hỗ trợ bạn nghe nhạc một cách hữu hiệu nhất Hệ thốngRecommender tư vấn cho người dùng những thông tin mới như:

 Nghệ sĩ liên quan : Hệ thống này sẽ cho bạn biết sự liên quan giữa các nghệ sĩ vớinhau, xét theo tiêu chí là mức độ yêu thích của người dùng đối với các nghệ sĩ đó

 Người dùng hợp gu : Hệ thống đưa ra danh sách nhóm người dùng có cùng sởthích âm nhạc với bạn Đồng thời cho biết thêm mức độ hợp “gu” của bạn với mộtngười trong nhóm đó là thấp, trung bình, hay cao

 Bài hát liên quan : Hệ thống sẽ đưa ra danh sách các bài hát có liên quan gần gũiđến một bài hát cụ thể nào đó để người dùng tham khảo

 Giới thiệu các bài hát mới : Hệ thống tư vấn cho người dùng các bài hát mới màtheo dự đoán của hệ thống, đó là các bài hát người dùng sẽ thích nghe

Trang 16

Hoạt động của hệ thống

Hệ thống tư vấn gồm 4 chức năng hoạt động như sau:

 Nghệ sĩ liên quan: Dựa trên các thông tin về nghệ sĩ (các bài hát, thể loại sáng táchay trình bày, mức độ quan tâm của người dùng…), hệ thống sẽ tính toán để đomức liên quan giữa các nghệ sĩ, sau đó đưa ra danh sách các nghệ sĩ có độ liên quancao nhất

 Người dùng hợp “gu”: Dựa trên các bài hát đã nghe qua của từng người dùng cụthể, hệ thống tính toán mức độ hợp “gu” (hợp sở thích) giữa những người dùngkhác nhau Trên cơ sở đó đưa ra danh sách những người dùng có mức độ hợp “gu”cao nhất

 Bài hát liên quan: Dựa vào thể loại, mức độ được ưa thích của bài hát, hệ thống tínhtoán độ liên quan giữa các bài hát khác nhau Sau đó đưa ra danh sách bài hát có độliên quan cao nhất đối với bài hát hiện tại

 Giới thiệu các bài hát mới: Dựa vào tiểu sử người dùng (các bài hát đã nghe qua,đánh giá của người dùng về các bài hát đã nghe), hệ thống sẽ tiến hành dự đoánmức độ ưa thích của người dùng đối với các bài hát chưa nghe Thông qua đó, sắpxếp các bài hát và đưa ra danh sách các bài hát có độ ưa thích cao nhất để tư vấncho người dùng

Hệ thống này có ưu điểm nổi bật:

 Hệ thống giúp cho người dùng có thể tìm thấy các bài hát gần gũi với bài hát màmình yêu thích thông qua các bài hát liên quan

 Hệ thống Recommender cũng là kênh kết nối bạn với những người dùng khác cócùng sở thích âm nhạc Bạn sẽ có nhiều cơ hội làm quen, khám phá những sở thíchmới lạ từ những người cùng “gu” âm nhạc

 Với các mục hỗ trợ tìm kiếm hiện nay, người dùng muốn tìm một bài hát buộc phảiđưa thông tin nào đó về bài hát cần tìm (tên bài hát, một câu hát trong bài, tên ca sĩ,nhạc sĩ sáng tác ) Vì thế rất khó để tìm thấy một bài hát mới hoặc một bài hát hợp

sở thích của mình, hoặc bạn sẽ gặp khó khăn nếu bạn không có thông tin về bài hát

đó Với chức năng tư vấn âm nhạc, hệ thống Recommender cho phép người dùng

có thể khám phá các bài hát mới lạ, bất ngờ Nhờ hệ thống Recommender, bạn cóthể nghe nhạc chọn lọc theo đúng sở thích mà không mất nhiều thời gian tìm kiếm

Kết luận:

Nhìn chúng các hệ thống truyền thống đều có mặt hạn chế nhưng chúng ta biết cáchkết hợp các kỹ thuật phù hợp với từng hệ thống riêng biết Trong nhiều hệ thống thực tếchúng ta đã thấy được khả năng mở rồng đầy tiềm năng đặc biệt trong hệ thống tìm kiếm

2.2 Xử lý tài liệu tiếng Việt

Trang 17

Tiếng nói và chữ viết là hai yếu tố cơ bản nhất của bất kỳ ngôn ngữ nào Trong sựphát triển của công nghệ thông tin (CNTT) ở Việt Nam, một số việc liên quan đến “tiếngViệt” đã được làm và ít nhiều có kết quả ban đầu:

(a) Trước hết là các bộ gõ chữ Việt và thành công của việc đưa được bộ mã chữ Việtvào

bảng mã Unicode, cũng như việc chọn Unicode cho bộ mã chuẩn tiếng Việt (nhân đâycũng xin nói thêm, do chưa ý thức về chuẩn, rất nhiều cán bộ CNTT, nhiều cơ quan nhànước vẫn chưa chịu đổi thói quen cũ để dùng bộ mã chuẩn Unicode, một việc rất quantrọng của xử lý tiếng Việt) Bảo tồn chữ Nôm trên máy tính cũng là một việc đầy nỗ lực

và nhiều ý nghĩa được nhiều người theo đuổi lâu nay, cần được nhà nước tiếp tục ủng hộlâu dài (http://nomfoundation.org)

(b) Tiếp theo có thể kể đến các chương trình nhận dạng chữ Việt in (OCR: opticalcharacter recognition), như hệ VnDOCR của Viện Công nghệ Thông tin, Viện Khoa học

và Công nghệ Việt Nam Các chương trình nhận dạng chữ in nhằm chuyển các tài liệu in

trên giấy thành các tài liệu điện tử (dưới dạng các tệp văn bản trên máy tính)

(c) Các phần mềm hỗ trợ việc sử dụng tiếng nước ngoài, tiêu biểu là các từ điển songngữ

trên máy tính, thí dụ như các từ điển điện tử của Lạc Việt đã được dùng rộng rãi trên máytính để tra cứu từ Anh-Việt, Việt-Anh Điều ta cần phân biệt là các từ điển điện tử nàydành cho con người sử dụng, khác với từ điển điện tử dành cho máy tính sử dụng trong

xử lý ngôn ngữ tự nhiên (sẽ được đề cập ở phần sau)

(d) Các nỗ lực trong việc làm các phần mềm dịch Anh-Việt,Việt-Anh, chẳng hạn nhưcác hệ dịch EVTRAN và VETRAN

(e) Một loại việc nữa là Việt hóa các phần mềm mà gần đây tiêu biểu là kết quả Việthóa

Windows và Microsoft Office của Microsoft Việc này có thể xem như việc “dịch” các

thông báo tiếng Anh cố định trong các phần mềm thành các thông báo tiếng Việt

2.2.1 Các nghiên cứu về cấu của các nhà nghiên cứu Việt Nam.

Các quan điểm trong nghiên cứu về ngữ pháp tiếng Việt, chúng ta có thể thấy rằngchưa có một định nghĩa chuẩn thống nhất về cách gọi của từ loại cũng như cấu trúc cácngữ của tiếng Việt Trong đồ án này, người viết luận văn sẽ chủtrương bám sát theo quanđiểm được nhiều tác giảđã thống nhất, quan điểm này được đánh giá là khá phù hợp vớingữ pháp tiếng Việt hiện tại Đồng thời, trong quá trình xây dựng đồ án, tác giả cũng tiếnhành so sánh và bổ sung thêm những phần lý thuyết thuộc hai quan điểm của Nguyễn TàiCẩn và Diệp Quan Ban

Nguyễn Tài Cẩn (1975) [14] cho rằng cụm danh từ (danh ngữ) gồm có ba phần : phầnđầu, phần trung tâm và phần cuối như sơ đồ sau :

Trang 18

Hình 11: Sơ đồ cấu trúc từ của Nguyễn Tài Cẩn

Trong thực tế danh ngữ còn có thể xuất hiện cả dưới dạng những dạng chỉ có hai phần:phần đầu+phần trung tâm, phần trung tâm+phần sau hoặc phần đầu + phần sau

Phần trung tâm của danh ngữ không phải chỉ có một từ trung tâm mà bao gồm cảbộphận trung tâm ghép gồm hai trung tâm T1 và T2, với hai vị trí T1, T2 bộ phận trungtâm có thể xuất hiện dưới 3 biến dạng :

o Có đầy đủ : T1T2, ví dụ : con chim ( này)

o Dạng thiếu T1 : -T2, ví dụ : - chim (này)

o Dạng thiếu T2: T1-, ví dụ : con – ( này)

-Phần đầu của danh ngữ có tất cả 3 loại thành tố phụ (3 loại định tố) :

o Định tố “cái”, ví dụ : cái cậu học sinh ấy

o Định tố chỉ số lượng, ví dụ : mấy cái cậu học sinh ấy

o Định tố chỉ ý nghĩa toàn bộ, ví dụ : tất cảmấy cái cậu học sinh ấy

-Phần cuối của danh ngữ, có thể có 2 loại định tố có tổ chức hoàn toàn khác nhau:

o Loại định tố chỉ gồm một từ, ví dụ : một quyển sách quý

o Loại định tố do một mệnh đềđảm nhiệm, ví dụ : cuốn sách tôi vừa mua hôm qua

Trong tiếng Việt có theer dùng những từ loại sau đây để làm định tố cuối :

+ Danh từ, ví dụ : vườn cau

+ Tính từ, ví dụ : ghế dài, một cái ghể rất tốt

+ Động từ, ví dụ : bàn học

+ Từ chỉ trỏ, ví dụ : sáng nay, người ấy

+ Từ chỉ vị trí, ví dụ : nhà trong, cổng trước

+ Từ chỉ con số : giường một, ngày 27

Hồ Lê (1992) [20] cho rằng vị trí của số lượng từ, đại từ chỉ định và sự kiện từ xoayxung quanh danh từ theo mô hình sau :

Trang 19

Trong đó:

D1: gồm những danh từ như : con, cái, …; ông, bà…; loại, thứ, hạng, …; phía,

bên, nơi, chốn, buổi, hôm, ngày, giờ, khi, lúc…

D2: gồm những danh từ còn lại

Ví dụ: - Con mèo đen lớn rồi

- Cô y tá

- Phía ngoài sân

Nguyễn Kim Thản (1997) [20] cho rằng việc nghiên cứu cụm danh từ chính là việcnghiên cứu từ tổ danh từ, loại từ chiếm ưu thế tuyệt đối trong nhóm danh từ Danh từcóthể ghép với danh từ, thời vị từ, số từ, động từ, tính từ, đại từvà một số từ phụ khác như :khi, lúc, hồi, dạo, thưở, khoảng, độ, bữa, buổi, đằng, phía, phương, nơi, bên, ngả, lối,hạng, cái, loại, cỡ, khổ, bậc, ngạnh…

-Từ tố danh từ + thời vị từ (E):

oTừ tổ N E, ví dụ : Ngoài nhà ngoài có cái giường mình nằm

oTừ tổ N (z) E, ví dụ: ý định ( của) trên như thế nào ?

-Từ tố danh từ + số từ ( F): từ chỉ số lượng bao giờ cũng đặt trước danh từ (FN), ví

dụ : hai cái bàn Từ chỉ thứ tự bao giờ cũng đặt sau danh từ ( NF), ví dụ : bàn sốhai, quyển thứ năm

o Từ tố danh từ + động từ, ví dụ : cá sống, nước sôi, gió lùa, kế hoạch làm việc… oTừ tố danh từ + tính từ, ví dụ: quả táo vàng, cái áo trắng…

oTừ tố danh từ + đại từ chỉđịnh, ví dụ: con mèo ấy, cái xe này, …

Diệp Quang Ban (1999) [1] đưa ra cấu tạo chung của cụm danh từ có ba phần: phầntrung tâm, phần phụ trước, phần phụ sau Phần trung tâm thường là một danh từ hoặc mộtngữ danh từ Trong phần phụ trước người ta đã xác định được ba vị trí khác nhau sắp xếptheo một trật tự nhất định Ở phần phụ sau thường nhận được hai vị trí có trật tựổn định.Phần phụ trước cụm danh từ chuyên dùng chỉ mặt số lượng của sự vật nêu ở trung tâm,phần phụ sau chủ yếu dùng chỉ mặt chất lượng của sự vật nêu ở trung tâm

Phần phụ trước Phần phụ trung tâm Phần phụ sau

Ví dụ:

Ngày đăng: 03/10/2013, 12:20

HÌNH ẢNH LIÊN QUAN

Mô hình này áp dụng cho những lần gợi ý đầu tiên, cho khi người dùng nhập từ khóa. - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN PHẦN 1
h ình này áp dụng cho những lần gợi ý đầu tiên, cho khi người dùng nhập từ khóa (Trang 5)
5.2 Mô hình tìm tư vấn dựa trên phân tích ngữ nghĩa tiềm ẩn - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN PHẦN 1
5.2 Mô hình tìm tư vấn dựa trên phân tích ngữ nghĩa tiềm ẩn (Trang 6)
Hìn h: Cấu trúc giải thuật LSA5.3 Mô hình tư vấn dựa trên lịch sử phiên truy cập của người dùng - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN PHẦN 1
n h: Cấu trúc giải thuật LSA5.3 Mô hình tư vấn dựa trên lịch sử phiên truy cập của người dùng (Trang 7)
Hìn h: Mô hình sơ đồ hệ thống gợi ý cho người dùng - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN PHẦN 1
n h: Mô hình sơ đồ hệ thống gợi ý cho người dùng (Trang 11)
Hìn h: Sơ đồ tổng quát hệ thống - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN PHẦN 1
n h: Sơ đồ tổng quát hệ thống (Trang 12)
bảng mã Unicode, cũng như việc chọn Unicode cho bộ mã chuẩn tiếng Việt (nhân đây cũng xin nói thêm, do chưa ý thức về chuẩn, rất nhiều cán bộ CNTT, nhiều cơ quan nhà nước vẫn chưa chịu đổi thói quen cũ để dùng bộ mã chuẩn Unicode, một việc rất quan trọng  - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN PHẦN 1
bảng m ã Unicode, cũng như việc chọn Unicode cho bộ mã chuẩn tiếng Việt (nhân đây cũng xin nói thêm, do chưa ý thức về chuẩn, rất nhiều cán bộ CNTT, nhiều cơ quan nhà nước vẫn chưa chịu đổi thói quen cũ để dùng bộ mã chuẩn Unicode, một việc rất quan trọng (Trang 17)
Hình Giao diện tìm kiếm Ask Jeeves - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN PHẦN 1
nh Giao diện tìm kiếm Ask Jeeves (Trang 26)
Bảng chữ cái của ôtômát âm tiết là bảng chữ cái tiếng Việt, mỗi cung chuyển được ghi trên đó một ký tự - XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN PHẦN 1
Bảng ch ữ cái của ôtômát âm tiết là bảng chữ cái tiếng Việt, mỗi cung chuyển được ghi trên đó một ký tự (Trang 34)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w