Tổng kết và hướng phát triển của thương mại điện tử việt nam
Trang 1Tổng kết và hướng phát triển
1.17 Tổng kết
Qua bốn chương vừa trình bày, luận văn đã phần nào giới thiệu được thế nào là một hệ thống quảng cáo cảm ngữ cảnh với các đặc điểm cũng như hướng tiếp cận để giải quyết khác nhau Luận văn cũng nêu ra được thực trạng của quảng cáo trực tuyến trên thế giới cũng như ở Việt nam và đề xuất mô hình giải quyết cũng như cài đặt thử nghiệm thực tế Đó là hệ thống quảng cáo theo nội dung ngữ cảnh, với quảng cáo sẽ chỉ xuất hiện trên một nội dung phù hợp, một xu hướng của hiện nay và sẽ phát triển mạnh trong tương lai
Các vấn đề gặp phải như “bóc tách nội dung chính của trang web” hoặc “rút trích từ khóa tự động trên tài liệu tiếng Việt” cũng được luận văn tìm hiểu và đề xuất mô hình giải quyết, nhưng ở một góc độ nào đó thì tuy kết quả có thể chấp nhận được nhưng cũng cần phải cải tiến thêm
Hệ thống này khi hoàn thiện hoàn toàn có thể trở thành một dịch vụ mang tính thương mại để phục vụ cho thị trường quảng cáo trực tuyến tại Việt nam hiện vẫn còn màu mỡ
1.18 Hướng phát triển
Bên cạnh các kết quả đã đạt được thì chúng ta cần phải thực hiện cải tiến thêm để tăng
độ tin cậy của hệ thống
Lấy ý tưởng từ thuật toán phân đoạn trang web VIPS [5], cần cải thiện thêm cho phương pháp “bóc tách khối nội dung chính” bằng cách kết hợp thêm một số độ đo, như độ đo “sự liền mạch” trong trang web, … để phân tách nội dung được chính xác và đầy đủ hơn Ngoài ra, có thể thử nghiệm gom cụm các node với các thuật toán gom cụm khác không cần chỉ rõ trước số cụm như EM (Expectation Maximization), … để xem kết quả có được cải thiện hơn không
Trang 2Thuật toán rút trích các từ khóa cần kết hợp thêm các độ đo trọng lượng của từ trong văn bản (như độ đo Luhn [9],…) để cải thiện hơn chất lượng từ khóa thu về Ngoài ra
số lượng các từ khóa rút trích được nên phù thuộc một cách hợp lý với độ dài của tài liệu
Các mô-đun trong hệ thống AdEngine ở một góc độ nào đó thì chỉ mới dừng lại ở mức thử nghiệm, cần cải thiện thêm tốc độ xử lý cũng như thêm nhiều chức năng khác cho hoàn thiện hơn
Bên cạnh đó, việc so khớp độ tương đồng của các từ khóa với nhau chỉ mới dừng ở cấp
độ so sánh trực tiếp, cần cải thiện độ chính xác trong việc so khớp các từ khóa bằng cách thêm vào tính năng so sánh từ khóa theo ngữ nghĩa Bằng cách sử dụng độ đo Okapi BM25 [24] để đo độ liên quan giữa từ khóa của quảng cáo với nội dung của trang web Xem tập từ khóa quảng cáo là câu query Q, còn nội dung chính của trang web là tài liệu D và danh sách các trang web thành viên của hệ thống là danh sách các tài liệu, ta sẽ tìm ra được tài liệu của trang web nào trong mạng lưới các trang web thành viên liên quan nhất đến tập từ khóa đó bằng công thức:
∑
+
= m
i
i
i i
avgdl
D b b k
D q f
k D q f q
IDF Q
D Score
1
1
1
)
|
| 1
.(
) , (
) 1 ).(
, ( )
( )
,
Với:
qi là từ khóa i trong truy vấn Q
f(qi, D) là số lần xuất hiện của qi trong tập D
|D| là số từ trong tài liệu D
avgdl là độ dài trung bình của tài liệu trong tập tài liệu
Trang 3k1 và b là tham số tự do, thường được chọn k1 = 2.0 và b = 0.75
IDF(qi) là độ đo trọng lượng IDF của của qi trên tập tài liệu, độ đo IDF này có sửa đổi như sau:
5 0 ) (
5 0 ) ( log
) (
+
+
−
=
i
i i
q n
q n N q
với N là tổng số tài liệu trong tập tài liệu và n(qi) là số tài liệu có chứa qi
Ngoài ra, cũng có thể sử dụng bộ từ điển đồng nghĩa hoặc xây dựng bộ từ điển Wordnet cho tiếng Việt để mở rộng ngữ nghĩa cho từ hơn
Bên cạnh đó, hệ thống còn bị hạn chế ở điểm nhà quảng cáo khó có thể biết trước được các mẩu quảng cáo của mình sẽ xuất hiện ở trong trang web nào
Hệ thống cần được mở rộng ra để hỗ trợ thêm cho tiếng Anh và các thứ tiếng khác bằng cách tự động xác định loại ngôn ngữ của văn bản để đưa ra hướng xử lý phù hợp