Mô hình trích xuất từ khóa trong nội dung trang web

Một phần của tài liệu Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng (Trang 25 - 26)

Đây là một mô hình của quảng cáo theo ngữ cảnh. Dựa trên tư tưởng của quảng cáo trên máy tìm kiếm, ta có thể coi trang web hiện tại như một truy vấn dài bao gồm nhiều từ

khóa. Yih và các cộng sự [30] đã đề xuất một mô hình học giám sát cho phép trích xuất các từ khóa trong nội dung trang web. Tiến hành học từ một tập các trang web đã được

định nghĩa các từ khóa từ trước, họ xây dựng một bộ phân lớp sử dụng học máy với thuật toán hồi quy logic (logistic regression).

Để xác định những từ khóa và cụm từ mô tả chính xác nhất về trang web họ sử dụng một vài phương pháp và tiến hành thực nghiệm để tìm ra phương pháp đem lại kết quả tốt nhất. Ba phương pháp được đưa ra đó là: MoS, MoC và DeS. M (Monolithic) nghĩa là sử

dụng toàn bộ cụm từ trong trích chọn. D (Decomposed) xem mỗi từ trong cụm như một cá thể riêng biệt. S (Separate) là coi mỗi từ hay cụm từ bất kể giống nhau hay khác nhau như các cá thể riêng biệt, và C (Combined) kết hợp các từ, cụm từ giống nhau làm một.

Một điểm quan trọng trong công trình của họđó là việc sử dụng 7.5 triệu truy vấn từ

query logs của MSN [36] như một đặc trưng cho quá trình trích chọn, cùng với đó là 11

đặc trưng khác như tần suất xuất hiện của từ khóa, đặc trưng thuộc về ngôn ngữ học (pos tagging), đặc trưng kiểm tra từ có được viết hoa hay không, đặc trưng về siêu văn bản (từ

có nằm trong một liên kết hay không), tiêu đề trang, đặc trưng về độ dài các cụm từ, các câu,…

Trong thực nghiệm, họ sử dụng 828 trang web được lấy từ Internet Archive [34] để

sử dụng cho quá trình học và kiểm thử hệ thống. Kết quả cho thấy hệ thống MoC (các cụm từ tương đương được kết hợp làm một) đem lại kết quả tốt nhất, trong khi đó MoS

đem lại kết quả thấp nhất. Ngoài ra, hệ thống DeS (xem mỗi từ như một cá thể riêng biệt)

đem lại kết quả thấp hơn so với hệ thống Monolothic(xem mỗi cụm từ như một cá thể

riêng biệt). Độ chính xác của hệ thống tốt nhất là 30.06% và của hệ thống tồi nhất là 13.01% .

Để xác định sự đóng góp của mỗi đặc trưng, họ tiến hành thực nghiệm trên cùng một hệ thống với các đặc trưng được thêm vào lần lượt. Kết quả chỉ ra rằng, đặc trưng query log và tần xuất xuất hiện của từ khóa đóng vai trò quan trọng nhất.

Nghiên cứu của Yih và các cộng sự [30] cho thấy một hướng tiếp cận khác của quảng cáo theo ngữ cảnh. Hệ thống của họ cho phép xếp hạng các quảng cáo dựa trên những từ khóa trích xuất ra được từ trang web. Tuy nhiên độ phù hợp của các quảng cáo dựa trên các từ khóa này vẫn chưa được kiểm chứng qua thực nghiệm.

Một phần của tài liệu Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng (Trang 25 - 26)