Chương 3 : Hệ thống gợi ý tin tức tiếng Việt xenoNews
3.3 Thiết kế và cài đặt chi tiết các thành phần hệ thống
3.3.2.1 Mơ hình hố Sở thích ngắn hạn với thuật tốn Láng giềng gần nhất
Mơ hình ngắn hạn cĩ hai nhiệm vụ. Thứ nhất, mơ hình cần chứa thơng tin về các sự kiện gần đây mà người dùng quan tâm. Từ đĩ, tin tức mới, thuộc cùng luồng tin cĩ thể được xác định. Thứ hai, mơ hình cần chỉ ra được những tin tức người dùng đã biết. Thuật tốn Láng giềng gần nhất (NN) được sử dụng để hiện thực hĩa các khả năng trên.
Thuật tốn NN lưu trữ tồn bộ các ví dụ huấn luyện, trong trường hợp này là các bài báo người dùng đã đọc. Để phân lớp một đối tượng, thuật tốn so sánh đối tượng với tất cả các ví dụ huấn luyện, sử dụng một độ đo tương tự nào đĩ, và tìm ra “láng giềng gần nhất”, hoặc “k-láng giềng gần nhất”. Nhãn lớp cần gán cho đối tượng mới dựa trên nhãn đã biết của các hàng xĩm.
Để áp dụng thuật tốn cho dữ liệu text ngơn ngữ tự nhiên, ta cần định nghĩa được một độ đo cĩ khả năng xác định độ giống nhau giữa hai văn bản text. Từ hồ sơ của đối tượng tin tức đã lưu (như mơ tả ở mục trước), ta cĩ thể tính tốn được vector TF-IDF đại diện cho hai bài báo cần so sánh. Sau đĩ, sử dụng độ đo tương tự Cosine (Cơng thức (2.6)) để tính độ tương đồng giữa hai bài báo. Hai giá trị ngưỡng được dùng trong cài đặt thuật tốn này vào hệ thống: t_max dùng để loại bỏ các bài báo quá giống nhau; t_min lại giúp xác định các bài báo cĩ nội dung quá khác với bài báo cần so sánh. Quá trình ra quyết định của thuật tốn NN trong mơ hình thơng tin ngắn hạn như sau:
(1) Lần lượt xác định độ đo tương tự Cosine giữa vector của bài báo mới, với từng vector các bài báo đã lưu trong mơ hình ngắn hạn của hồ sơ người dùng.
(2) Trong quá trình tính tốn, nếu tìm ra một độ tương tự simi > t_max, thì chứng tỏ tin mới này quá giống với một tin i người dùng đọc gần đây, việc tính tốn sẽ dừng lại, và tin đĩ khơng được gợi ý cho người dùng nữa.
(3) Sau khi tính tốn, nếu mọi giá trị simiđều nhỏ hơn hoặc bằng t_max
a. Nếu tồn tại một giá trị simi >= t_min, hệ thống sẽ gợi ý tin đĩ cho người dùng, vì tin này khi đĩ được coi là cùng luồng với tin tức i họ đã đọc gần đây, và chứa thơng tin mới họ cần biết trong đĩ (chứ khơng quá giống và bị cho là người dùng đã biết như trong bước (2))
b. Nếu mọi giá trị simi đều nhỏ hơn t_min, bài báo đĩ khơng thể được phân loại bởi mơ hình ngắn hạn, và được chuyển tiếp cho mơ hình dài hạn xử lý (xem phần 3.3.2.2).
Mơ hình ngắn hạn dựa trên thuật tốn Láng giềng gần nhất thỏa mãn các yêu cầu đặt ra: mơ hình hĩa được nhiều mối quan tâm của người dùng trong thời gian gần, thích nghi nhanh với sở thích mới (phụ thuộc vào giá trị của hằng số n: số lượng tin người dùng quan tâm gần đây cần theo dõi), cĩ thể xác định các tin tức người dùng đã biết. Ưu điểm chính của NN là: chỉ cần một bài báo để xác định các tin tức mới thuộc cùng luồng tin. Trong khi đĩ, hầu hết các thuật tốn học máy khác đều yêu cầu lượng lớn ví dụ huấn luyện để bắt đầu tính tốn.