Mô hình ước lượng độ tương tự giữa các bài viết trên các cổng thông tin giải trí

8 20 0
Mô hình ước lượng độ tương tự giữa các bài viết trên các cổng thông tin giải trí

Đang tải... (xem toàn văn)

Thông tin tài liệu

Bài viết tìm hiểu phương tiện truyền thông xã hội đã đưa ra một số cách thức để lọc, phân loại, tìm kiếm hoặc đưa ra các bài viết tương tự nhau dựa trên các đoạn văn bản, các mô tả ngắn hoặc một thuộc tính nào đó của bài viết trên các cổng thông tin giải trí.

Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu ứng dụng Công nghệ thơng tin (FAIR'9)”; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.00043 MƠ HÌNH ƯỚC LƯỢNG ĐỘ TƯỢNG TỰ GIỮA CÁC BÀI VIẾT TRÊN CÁC CỔNG THƠNG TIN GIẢI TRÍ Nguyễn Thị Hội 1, Trần Đình Quế 2, Đàm Gia Mạnh1, Nguyễn Mạnh Hùng2,3 Trƣờng Đại học Thƣơng mại, Hà Nội, Việt Nam Học viện Cơng nghệ Bƣu Viễn thơng, Hà Nội, Việt Nam UMI UMMISCO 209 (IRD/UPMC), Hanoi, Vietnam hoint2002@gmail.com, tdque@yahoo.com, damgiamanh@gmail.com, nmh.nguyenmanhhung@gmail.com TÓM TẮT— Ngày nay, với bùng nổ cổng thông tin phương tiện giải trí mạng xã hội, giây, phút có rất nhiều viết đăng phương tiện Nhiều nhà nghiên cứu quan tâm đến phương tiện truyền thông xã hội đưa số cách thức để lọc, phân loại, tìm kiếm đưa viết tương tự dựa đoạn văn bản, mơ tả ngắn thuộc tính viết,… Vấn đề đặt làm để ước lượng độ tương tự viết đăng cổng thông tin giải trí đó? Hay làm để phát viết xem xét có độ tương tự cao với viết đăng cổng thơng tin giải trí Để giải vấn đề này, viết đề xuất hai vấn đề: Thứ mô hình hóa viết đăng số cổng thơng tin giải trí phổ biến dựa số thuộc tính chúng như: tiêu đề viết, chủ đề viết, đánh dấu viết, nội dung viết…; Thứ hai đề xuất mơ hình ước lượng độ tương tự viết cổng thông tin giải trí dựa thuộc tính mơ hình hóa theo mơ hình đề xuất Cuối thảo luận số giới hạn mơ hình hướng nghiên cứu Từ khóa— Độ tương tự, viết tương tự, phương tiện truyền thông, độ đo tương tự, cổng thông tin giải trí I GIỚI THIỆU Ngày nay, với bùng nổ cổng thơng tin, phƣơng tiện giải trí nhƣ mạng xã hội, hàng ngày, hàng có nhiều viết đƣợc đăng lên phƣơng tiện Với nguồn thông tin khổng lồ vô phong phú từ viết cổng thơng tin giải trí, mảnh đất màu mỡ cho nhà nghiên cứu, ngƣời quan tâm tìm kiếm phƣơng pháp, cách thức dùng để lọc, phân loại tìm kiếm viết cổng thơng tin phƣơng tiện giải trí dựa đoạn văn bản, mô tả ngắn tập đoạn trích chọn từ viết, … Vấn đề làm để ƣớc lƣợng đƣợc độ tƣơng tự viết đăng phƣơng tiện giải trí này? Nói cách khác làm để phát đƣợc viết vừa đăng có độ tƣơng tự cao với hay số viết tập hợp đăng trƣớc hay khơng? Về toán phát độ tƣơng tự hai đối tƣợng đƣợc nhiều nhà nghiên cứu quan tâm đề xuất phƣơng pháp giải nhƣ D Lin [9] đề xuất mơ hình ƣớc lƣợng tƣơng tự hai đối tƣợng dựa hƣớng tiếp cận lý thuyết thông tin, Say Kumar [18] lại đề xuất mơ hình phân nhóm dựa tập liệu quan hệ sử dụng tính chất phụ thuộc hàm nhƣ tham số để ƣớc lƣợng độ tƣơng tự Reddy Krishnaiah [17] đề xuất độ đo tƣơng tự đƣợc gọi độ đo tƣơng tự đa điểm (multi – viewpoint) để phân cụm dựa tất mối quan hệ đối tƣợng Nguyen Nguyen [12] giới thiệu mơ hình tổng quát để ƣớc lƣợng độ tƣơng tự hai đối tƣợng dựa thuộc tính chúng Trong mơ hình trên, độ tƣơng tự thuộc tính đƣợc định nghĩa đặc trƣng tính chất khác đối tƣợng Một cách tổng quát, viết cổng thơng tin giải trí hay mạng xã hội video clip, hình ảnh, văn bản, kết hợp tất nội dung Tuy nhiên, báo này, xem xét viết có chứa văn cịn viết nhƣ video, hình ảnh, … khơng chứa văn đƣợc bỏ qua báo Do đó, tốn xem xét ƣớc lƣợng độ tƣơng tự viết chủ yếu tập trung vào xem xét ƣớc lƣợng độ tƣơng tự văn Hiện giới nhƣ Việt Nam có nhiều nghiên cứu chủ đề tƣơng tự văn bản, nghiên cứu gom lại vào hai nhóm chính: Nhóm thứ nghiên cứu độ tƣơng tự dựa ngữ nghĩa văn Trong nhóm này, độ tƣơng tự đƣợc so sánh dựa độ tƣơng tự ngữ nghĩa văn Các phƣơng pháp so sánh dựa hệ thống từ ngữ (WordNet) điển hình nhƣ nghiên cứu Buscaldi et al [4], Han et al [7], Lee et al [8], Marsi et al [11], Oliva et al [15] so sánh độ tƣơng tự ontology nhƣ Agirre et al [1], Nguyen Tran [13, 21], Novelli Oliveira [14] Nhóm thứ hai nghiên cứu độ tƣơng tự văn dựa thống kê Với hƣớng này, văn đƣợc so sánh dựa việc thống kê từ, ngữ danh từ, cấu trúc từ, câu …và/hoặc dựa thống kê số lƣợng từ xuất văn Điển hình nhƣ nghiên cứu Bollegala et al [2], Buscaldi et al [10], Croce et al [5], Finkel et al [6], Lintean Rus [10], Proisl et al [16], Sarie et al [22], Severyn et al [19], Sultan et al [20], Xu Lu [23] Hầu hết mơ hình xem xét ƣớc lƣợng độ tƣơng tự dựa nội dung thân văn viết, có số mơ hình xem xét thêm tiêu đề viết Tuy nhiên, xem xét thân văn viết dẫn đến mơ hình bỏ qua thông tin, đặc trƣng viết nhƣ đánh dấu (tags), nhóm (category), tiêu đề (title), từ khóa (key words) … viết Một số nhà nghiên cứu đồng ý loại Nguyễn Thị Hội, Trần Đình Quế, Đàm Gia Mạnh, Nguyễn Mạnh Hùng 353 thơng tin đƣợc trích chọn từ thân văn viết, vậy, chúng khơng cần thiết phải đƣa vào mơ hình ƣớc lƣợng cần thống kê chúng xem xét Các kết thực nghiệm báo lại cho thấy rằng, việc lấy loại thông tin khác trực tiếp mơ hình đƣợc đề xuất làm tăng khả tính tốn mơ hình việc ƣớc lƣợng độ tƣơng tự viết cổng thơng tin giải trí Chính vậy, báo chúng tơi đề xuất hai nội dung chính, thứ mơ hình hóa viết đƣợc đăng cổng thơng tin giải trí với thuộc tính chúng nhƣ tiêu đề (title), nhóm (category), đánh dấu (tags), nội dung (content), …, thứ hai đề xuất mơ hình ƣớc lƣợng độ tƣơng tự viết dựa thuộc tính đƣợc mơ hình hóa Trong mơ hình hóa viết đƣợc đăng cổng thơng tin giải trí, khơng thân văn viết đƣợc xem xét ƣớc lƣợng mà thuộc tính khác viết đƣợc đƣa vào mơ hình để ƣớc lƣợng độ tƣơng tự viết Nói cách khác, viết đƣợc đăng đƣợc biểu diễn tập hợp đặc tính, thuộc tính đƣợc dùng để xem xét ƣớc lƣợng độ tƣơng tự viết Trong mơ hình ƣớc lƣợng độ tƣơng tự viết viết đƣợc so sánh độ tƣơng tự thuộc tính chúng, sau tích hợp độ tƣơng tự thuộc tính riêng thành độ tƣơng tự tổng quát viết Bài báo có cấu trúc nhƣ sau: Phần II trình bày mơ hình ƣớc lƣợng độ tƣơng tự viết, phần III trình bày số kết thực nghiệm thảo luận kết quả, phần IV kết luận viết kế hoạch nghiên cứu II MƠ HÌNH ƢỚC LƢỢNG ĐỘ TƢƠNG TỰ GIỮA CÁC BÀI VIẾT A Tổng quan mơ hình Giới thiệu mơ hình Đầu vào hai viết i j, đầu kết ƣớc lƣợng độ tƣơng tự hai viết i j Mơ hình có bƣớc xử lý nhƣ sau:  Mơ hình hóa viết  Tiền xử lý thuộc tính văn  Ƣớc lƣợng độ tƣơng tự thuộc tính  Tổng hợp độ tƣơng tự viết dựa độ tƣợng tự thuộc tính Mơ hình tổng qt đƣợc minh họa nhƣ hình sau: Bài viết i Mơ hình hóa viết ……… Bài viết j ……… Tiền xử lý văn Độ tƣơng tự thuộc tính Độ tƣơng tự viết Độ tương tự i j Hình Mơ hình ƣớc lƣợng độ tƣơng tự viết i viết j Mơ hình hóa viết Khơng tính tổng qt, giả sử rằng: - Một cổng thơng tin giải trí có chứa tập viết { Một viết đƣợc đặc trƣng thuộc tính chúng nhƣ: tiêu đề viết (title), nhóm viết (category), đánh dấu viết (tags) nội dung viết (content), … Trong mơ hình này, chúng tơi xem xét viết i tập viết cổng thơng tin giải trí có n thuộc tính, đƣợc ký hiệu Trong thực nghiệm, chúng tơi xem xét ƣớc lƣợng thuộc tính viết bao gồm:   Title hay tiêu đề viết i ký hiệu Nó câu ngắn, ý trƣờng hợp viết hình ảnh tiêu đề viết đƣợc xem xét thích hình ảnh hay caption hình ảnh viết khơng có tiêu đề khác Content hay nội dung viết i, ký hiệu Một viết video clip, hình ảnh, văn kết hợp chúng Tuy nhiên, mơ hình chúng tơi xem xét thuộc MƠ HÌNH ƢỚC LƢỢNG ĐỘ TƢƠNG TỰ GIỮA CÁC BÀI VIẾT TRÊN CÁC CỔNG THÔNG TIN GIẢI TRÍ 354   tính viết văn bản, phần khác viết nhƣ hình ảnh, clip, … khơng đƣợc xem xét báo Trong trƣờng hợp nội dung viết khơng có văn chúng tơi coi nhƣ khơng có liệu cho thuộc tính Tags hay đánh dấu viết, ký hiệu Trên cổng thơng tin giải trí, viết đƣợc đánh dấu tập đánh dấu Mỗi đánh dấu từ, ngữ danh từ hay biểu diễn độc lập Category hay nhóm viết, ký hiệu là Trên cổng thơng tin giải trí, viết thƣờng đƣợc xếp vào chủ đề hay nhóm loại Mỗi chủ đề hay nhóm đƣợc biểu diễn từ, ngữ danh từ độc lập Nhƣ vậy, sau đƣợc mơ hình hóa, viết đƣợc đặc trƣng tập thuộc tính Trong thuộc tính viết, báo xem xét ƣớc lƣợng thuộc tính có chứa văn Dó đó, tốn ƣớc lƣợng độ tƣơng tự viết (dựa thuộc tính chúng) đƣợc chuyển thành toán ƣớc lƣợng độ tƣơng tự văn hay tập biểu diễn văn viết với B Độ tương tự viết Độ tƣơng tự thuộc tính viết Khi ƣớc lƣợng độ tƣơng tự viết, xem xét thuộc tính có chứa văn bản, vậy, cần số bƣớc để tinh chỉnh xử lý trƣớc so sánh văn với Để làm đƣợc điều đó, chúng tơi phân biệt loại thuộc tính có chứa văn nhƣ sau: Thứ giá trị thuộc tính đƣợc chuẩn hóa tập biểu diễn nhƣ đánh dấu, chủ đề hay nhóm viết, đó, độ tƣơng tự thuộc tính độ tƣơng tự tập biểu diễn - Thứ hai giá trị thuộc tính đƣợc thể văn nói chung nhƣ giá trị thuộc tính nội dung (content) độ tƣơng tự chúng độ tƣơng tự văn - Trong trƣờng hợp thuộc tính tiêu đề (title), thơng thƣờng tiêu đề câu, bỏ qua khác độ dài ngắn, xem xét thuộc tính viết nhƣ văn  Trƣờng hợp giá trị thuộc tính tập biểu diễn : - Khi giá trị thuộc tính biểu diễn, độ tƣơng tự chúng độ tƣơng tự hai tập biểu diễn Chúng định nghĩa độ tƣơng tự hai tập biểu diễn nhƣ sau: Giả sử thƣớc hay độ dài Gọi hai tập hợp biểu diễn Trong đó, m n kích kích thƣớc tập giao , đó, độ tƣơng tự | | | | | đƣợc định nghĩa nhƣ sau: (1) | Dễ dàng thấy giá trị nằm khoảng đơn vị [0,1] Nghĩa sau bƣớc tất độ tƣơng tự hai tập biểu diễn đƣợc chuẩn hóa vào khoảng đơn vị Việc chuẩn hóa cho phép chúng tơi tránh đƣợc trƣờng hợp ngoại lệ xảy nhƣ miền giá trị số thuộc tính q lớn q bé Việc chuẩn hóa đƣợc áp dụng cho tất thuộc tính chúng tơi xem xét viết thuộc tính biểu diễn Giả sử: ( ) hai viết đƣợc biểu diễn thuộc tính chúng, xem xét thuộc tính thứ k tập biểu diễn, độ tƣợng tự hai viết i j thuộc tính thứ k đƣợc định nghĩa nhƣ sau: , Trong (2) giá trị thuộc tính thứ k hai viết tƣơng ứng i j Trong thực nghiệm xem xét thuộc tính viết để ƣớc lƣợng độ tƣơng tự viết có hai thuộc tính biểu diễn đánh dấu nhóm viết Khi độ tƣơng tự chúng đƣợc tính bằng: , ,  (3) (4) Trƣờng hợp giá trị thuộc tính văn Trong trƣờng hợp giá trị thuộc tính viết văn tốn ƣớc lƣợng độ tƣơng tự hai thuộc tính đƣợc chuyển thành toán ƣớc lƣợng độ tƣơng tự hai văn Với tốn áp dụng TF-IDF để phân loại văn bản, sử dụng nhiều mơ hình dựa phƣơng pháp thống kê cho tốn nhƣ Bollegala et al[2], Buscaldi et al [3], Croce et al [5], Finkel et al [6], …Trong mơ hình TF-IDF đƣợc dùng để tối ƣu hóa độ tƣơng tự hai thuộc tính văn nhƣ sau: Nguyễn Thị Hội, Trần Đình Quế, Đàm Gia Mạnh, Nguyễn Mạnh Hùng 355 - Trích chọn giá trị thuộc tính (là văn bản) vào tập - Tính toán TF-IDF mỗi thành phần cặp: văn Sau biểu diễn giá trị thuộc tính véc tơ với - ∑ Tính toán khoảng cách hai véc tơ: đƣợc xem xét khoảng cách đến - Nếu có thành phần thành phần | - (5) đó, N số lƣợng của | mà có khác , (6) Các trƣờng hợp khác nằm khoảng [0,1] Độ tƣơng tự hai thuộc tính là: Dễ dàng thấy giá trị (7) Trong thực nghiệm chúng tôi, độ tƣơng tự hai thuộc tính tiêu đề nội dung viết i viết j tƣơng ứng là: (8) (9) Độ tƣơng tự hai viết Để ƣớc lƣợng độ tƣơng tự hai viết dựa độ tƣơng tự thuộc tính viết đƣợc tính tốn phần II.B.1 Việc ƣớc lƣợng độ tƣơng tự hai viết i viết j đƣợc định nghĩa nhƣ sau: Giả sử : ( ) hai viết đƣợc biểu diễn thuộc tính chúng Khi đó, độ tƣơng tự hai viết i j đƣợc tính tốn theo cơng thức sau: ∑ Trong đó, (10) độ tƣơng tự thuộc tính k viết i j, trọng số thuộc tính k ∑ (11) Độ tƣơng tự gần đến hai viết giống Ngƣợc lại, độ tƣơng tự gần đến hai viết khác III THỰC NGHIỆM VÀ ĐÁNH GIÁ A Phương pháp thực Bƣớc 1: Xây dựng tập liệu mẫu Chúng thực việc xây dựng liệu mẫu nhƣ sau: - Mỗi mẫu chứa ba viết đƣợc lựa chọn từ nguồn nhƣ Youtube, CNN, News, … Các viết đƣợc gọi lần lƣợt A, B C - Chúng hỏi số ngƣời đƣợc lựa chọn để trả lời cho câu hỏi: Giữa viết B C viết tƣơng tự nhiều với viết A? - Sau chúng tơi so sánh số lƣợng ngƣời chọn B số lƣợng ngƣời chọn C Nếu số lƣợng ngƣời chọn B nhiều chọn C giá trị mẫu Ngƣợc lại, số lƣợng ngƣời chọn C nhiều B, giá trị mẫu đƣợc gán Nếu số lƣợng ngƣời chọn B C ngang nhau, mẫu bị loại khỏi tập mẫu Ví dụ với mẫu bao gồm viết đƣợc trích chọn nhƣ sau: Bảng Dữ liệu viết đƣợc trích chọn Youtube Bài viết A B C Tiêu đề (title) Nhóm (category) Đánh dấu (tag) Nội dung (content) Top 30 Goals World Cup 2014 Top 10 Goals: 2014 FIFA World Cup Brazil [Official] The Speech that Made Obama President Sports Sports Worldcup, Football Worldcup, Football, Brazil, FIFA Obama, President speech no text no text Education no text MÔ HÌNH ƢỚC LƢỢNG ĐỘ TƢƠNG TỰ GIỮA CÁC BÀI VIẾT TRÊN CÁC CỔNG THƠNG TIN GIẢI TRÍ 356 Để so sánh viết A với hai viết lại, chúng tơi hỏi nhóm ngƣời tình nguyện tham gia khảo sát chúng tôi: Câu hỏi là: So sánh hai viết B C viết có độ tƣơng tự nhiều với viết A? Và kết đƣợc trình bày bảng Bảng Dữ liệu đƣợc chọn ngƣời dùng từ viết Youtube Câu hỏi Đa số chọn Thiểu số chọn (cho viết B) (cho viết C) Từ kết thấy viết B viết A có độ tƣơng tự cao so với viết C viết A Do đó, giá trị mẫu đƣợc đặt Sau bƣớc chúng tơi có tập mẫu Chúng tơi dùng số nguồn mẫu khác lƣu chúng số tập mẫu Trong trình thực nghiệm, chúng tơi lấy mẫu từ nguồn, tập mẫu đƣợc mô tả bảng Bảng Cấu trúc tập mẫu Nguồn CNN News Fox News YouTube Tổng Số lƣợng mẫu 100 100 100 300 Bƣớc 2: Cách thực thi mơ hình: - Với mẫu, chúng tơi sử dụng mơ hình đề xuất báo để ƣớc lƣợng độ tƣơng tự viết B viết A, ƣớc lƣợng độ tƣơng tự viết A viết C Nếu viết B có độ tƣơng tự nhiều với viết A kết trả mẫu Ngƣợc lại viết C tƣơng tự nhiều với viết A kết trả mẫu Sau chúng tơi so sánh kết giá trị mẫu Nếu chúng đƣợc xác định, chúng tơi tăng số lƣợng độ xác mẫu lên Bƣớc 3: Phƣơng pháp đánh giá kết mơ hình Độ xác CR (Correct Ratio) mơ hình mẫu lấy đƣợc tính tốn theo cơng thức sau: đú (12) Độ xác CR gần đến 100% mơ hình đƣợc đề xuất xác Chúng tơi hi vọng kết mơ hình có độ xác CR cao tốt Tính tốn lựa chọn trọng số tốt cho thuộc tính viết Các viết trƣớc ƣớc lƣợng độ tƣơng tự cần đƣợc xác định trọng số tốt thuộc tính chúng, theo mơ hình đề xuất II.A.2, viết cổng thơng tin giải trí có thuộc tính tiêu đề, nhóm, đánh dấu nội dung ta đặt trọng số thuộc tính tƣơng ứng là: ( Vì kịch để tính tốn lựa chọn trọng số thuộc tính viết đƣợc thực nhƣ sau: - - Kiểm tra tất mẫu lần đặt thuộc tính tiêu đề (title), nội dung (content), đánh dấu (tags) nhóm (category) viết có trọng số cho thuộc tính 1, thuộc tính khơng đƣợc xem xét đặt Tính tốn độ xác CR Càng nhiều thuộc tính đơn độ xác CR ta thu đƣợc cao, độ quan trọng thuộc tính mơ hình cao thuộc tính khác Kết thực nghiệm đƣợc trình bày bảng Trọng số thuộc tính viết cổng thơng tin giải trí thu đƣợc là: Vì chúng tơi chọn trọng số cho tất lần thực thực nghiệm mơ hình để ƣớc lƣợng độ tƣơng tự viết cổng thơng tin giải trí Bảng Tỷ lệ xác CR (%) trọng số tƣơng ứng đặc tính Nguồn CNN News Fox News YouTube Độ CR trung bình Trọng số chuẩn hóa Chỉ có tiêu đề (title only) 69 32 72 57.67 0.25 Chỉ có nội dung (content only) 74 82 78.00 0.34 Chỉ có đánh dấu (tags only) 77 62 62 67.00 0.29 Chỉ có nhóm (category only) 31 31 26 29.33 0.12 Nguyễn Thị Hội, Trần Đình Quế, Đàm Gia Mạnh, Nguyễn Mạnh Hùng 357 B Thảo luận kết mơ hình Trong phần chúng tơi thảo luận giới hạn nguồn liệu mơ hình đề xuất Những giới hạn nội nguồn liệu Với kết thực nghiệm thu đƣợc mục III.A dễ dàng thấy thuộc tính nhóm (category) ba nguồn liệu khơng có nhiều hỗ trợ tốt việc phân biệt viết Sau xem xét lại liệu từ ba nguồn, phát nguyên nhân là: Trong tất ba nguồn liệu, viết đƣợc nhóm vào nhóm Và có số viết đƣợc nhóm vào nhóm khơng liên quan đến chủ đề nhiều nhƣ chủ ý viết Ví dụ nhƣ, từ liệu Youtube với viết ―50 Most shocking moments in World Cup history‖ đƣợc xếp vào mục Entertainment (Giải trí) Hoặc viết ―Germany Argentina 2014 World Cup Final Full Game ESPN‖ lại đƣợc nhóm vào nhóm People & Blogs Trong hai cần đƣợc nhóm vào mục Sports hợp lí Trong tình câu hỏi đặt là: Thuộc tính nhóm (category) có nên sử dụng mơ hình hay khơng? Để trả lời cho câu hỏi này, làm thực nghiệm nhỏ nhƣ sau: Lần đầu tiên, chúng tơi chạy mơ hình mà khơng sử dụng đến thuộc tính nhóm (category) (nghĩa chạy mơ hình với ba thuộc tính tiêu đề (title), nội dung (content), đánh dấu (tags)) 300 mẫu liệu Lần thứ hai, chạy mơ hình với đầy đủ thuộc tính ( nghĩa chạy mơ hình với đặc tính) Và kết thu đƣợc thật đáng ngạc nhiên, kết lần thứ độ xác trung bình 87.00% kết lần thứ hai 92.67% Do đó, câu trả lời thuộc tính nhóm đóng góp quan trọng mơ hình Đem lại độ xác cao phân biệt tƣơng tự viết Câu hỏi tƣơng tự đƣợc đặt cho thuộc tính tiêu đề (title) nguồn liệu Fox News Nó nhƣ khơng có đóng góp tốt việc phân biệt khác viết Chúng làm thực nghiệm nhỏ mơ hình Lần đầu thực chạy mơ hình bỏ qua thuộc tính tiêu đề nhóm liệu Bƣớc thứ hai, chúng tơi chạy mơ hình với đầy đủ tính 300 mẫu liệu Kết độ xác trƣờng hợp đầu tƣơng ứng 92.00% CNN News, 96.00% Fox News 71.00% Youtube, kết độ xác trung bình 86.33% Trong đó, chạy lần hai với đầy đủ thuộc tính kết tƣơng ứng độ xác lại 96.00% CNN News, 96.00% Fox News 86.00% Youtube, kết độ xác trung bình 92.67% Kết cho thấy thuộc tính tiêu đề (title) khơng quan trọng nguồn liệu Fox News nhƣng nhóm liệu từ nguồn khác lại có đóng góp đáng kể phân biệt viết Vì vậy, câu trả lời thuộc tính tiêu đề cần đƣợc đƣa vào để xem xét ƣớc lƣợng mơ hình Những giới hạn mơ hình Nhƣ xác định phần I phần Giới thiệu, mơ hình chúng tơi dựa cú pháp văn bản, việc ƣớc lƣợng độ tƣơng tự trƣờng hợp có hai biểu diễn giống ngữ nghĩa nhƣng khác cú pháp gây kết khơng phù hợp Ví dụ: Bảng Ba viết đƣợc trích chọn từ Fox News Bài viết Tiêu đề Nhóm Đánh dấu Nội dung Facebook testing digital stores within site as part of e-zommerce push Twitter to lift 140-character DM limit in bid to compete with messaging apps of the weirdest sculpture parks in the world Facebook Facebook … Twitter Twitter … Extreme travel park, sculpture … Với ví dụ bảng ta thấy rằng, thứ thứ hai khơng tƣơng tự theo mơ hình chúng tơi Nhƣng thực tế chúng nói Facebook Twitter, hai nhóm hai mạng xã hội chúng có miền giá trị chung cơng nghệ, cơng nghệ thơng tin, Nhìn vào thấy viết số viết số có độ tƣơng tự không lớn thứ thứ Trong thực tế số số lại có độ tƣơng tự nhiều số số Tóm lại, trƣờng hợp ngoại lệ giới hạn mơ hình chúng tơi đƣa hết mục III.B.1 III.B.2 Các ngoại lệ mơ hình chạy khơng xẩy biểu diễn có tƣơng đồng ngữ nghĩa Hƣớng tiếp cận nghiên cứu tiếp thời gian tới để bổ trợ cho hạn chế cịn tồn mơ hình dựa thống kê đề xuất báo IV KẾT LUẬN Bài báo đề xuất mô hình đề mơ hình hóa viết đƣợc đăng cổng thơng tin giải trí mạng xã hội ƣớc lƣợng độ tƣơng tự viết đăng Độ tƣợng tự viết đƣợc xem xét dựa thuộc tính viết bao gồm: tiêu đề (title), nhóm (category), đánh dấu (tags), nội dung (content) Mơ hình sử dụng để phát hay phân loại viết có tƣơng tự hay khác biệt với tập đăng cổng thơng tin giải trí mạng xã hội, tìm xem viết có độ tƣơng tự lớn với viết đƣợc xem xét Mơ hình sử dụng để phân loại tự động viết số cổng thơng tin giải trí mạng xã hội phổ biến 358 MƠ HÌNH ƢỚC LƢỢNG ĐỘ TƢƠNG TỰ GIỮA CÁC BÀI VIẾT TRÊN CÁC CỔNG THÔNG TIN GIẢI TRÍ Mơ hình viết đƣợc kiểm định lại thực nghiệm cho kết tốt gần giống với việc phân loại, lựa chọn ngƣời tập mẫu liệu Tuy nhiên cịn số vấn đề với mơ hình nhƣ làm để so sánh ngữ nghĩa văn biểu diễn liệu, làm để cải thiện đƣợc tốc độ xử lý mơ hình, … Đây hƣớng nghiên cứu tƣơng lai gần TÀI LIỆU THAM KHẢO [1] Eneko Agirre, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre, and Weiwei Guo Semantic textual similarity (*SEM), Volume 1: Proceedings of the Main Conference and the Shared Task: Semantic Textual Similarity, pages 32- 43, Atlanta, Georgia, USA, June 2013 Association for Computational Linguistics [2] Danushka Bollegala, Yutaka Matsuo, and Mitsuru Ishizuka A web search engineer based approach to measure semantic similarity between words IEEE Trans On Knowl and Data Eng., 23(7):977-990, July 2011 [3] Davide Buscaldi, Paolo Rosso, Jose Manuel Gomez-Soriano, and Emilio Sanchis Answering questions with an n-gram based passage retrieval engine Journal of Intelligent Information Systems, 34(2):113-134, 2010 [4] Davide Buscaldi, Joseph Le Roux, Jorge J Garca Flores, and Adrian Popescu Lipnecore: Semantic text similarity using ngrams, wordnet, syntactic analysis, esa and information retrieval based features, 2013 [5] Danilo Croce, Valerio Storch, and Roberto Basili Combining text similarity and semantic Filters through sv regression In Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 1: Proceedings of the Main Conference and the Shared Task: Semantic Textual Similarity, pages 59-65, Atlanta, Georgia, USA, June 2013 Association for Computational Linguistics [6] Jenny Rose Finkel, Trond Grenager, and Christopher Manning Incorporating non-local information into information extraction systems by gibbs sampling In Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, ACL '05, pages 363-370, Stroudsburg, PA, USA, 2005 Association for Computational Linguistics [7] Lushan Han, Abhay L Kashyap, Tim Finin, James May eld, and Jonathan Weese Semantic textual similarity systems In Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 1: Proceedings of the Main Conference and the Shared Task: Semantic Textual Similarity, pages 44-52, Atlanta, Georgia, USA, June 2013 Association for Computational Linguistics [8] Ming Che Lee, Jia Wei Chang, and Tung Cheng Hsieh A grammar-based semantic similarity algorithm for natural language sentences The Scientific World Journal, 2014:17 pages, 2014 [9] Dekang Lin An information-theoretic definition of similarity In Proc 15th International Conf on Machine Learning, pages 296-304 Morgan Kaufmann, San Francisco, CA, 1998 [10] Mihai C Lintean and Vasile Rus Measuring semantic similarity in short texts through greedy pairing and word semantics In G Michael Youngblood and Philip M McCarthy, editors, Proceedings of the Twenty-Fifth International Florida Artificial Intelligence Research Society Conference, Marco Island, Florida May 23- 25, 2012 AAAI Press, 2012 [11] Erwin Marsi, Hans Moen, Lars Bungum, Gleb Sizov, Bjorn Gamback, and Andre Lynum Combining strong features for semantic similarity In Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 1: Proceedings of the Main Conference and the Shared Task: Semantic Textual Similarity, pages 66-73, Atlanta, Georgia, USA, June 2013 Association for Computational Linguistics [12] Manh Hung Nguyen and Thi Hoi Nguyen A general model for similarity measurement between objects International Journal of Advanced Computer Science and Applications(IJACSA), 6(2):235-239, 2015 [13] Manh Hung Nguyen and Dinh Que Tran A semantic similarity measure between sentences South-East Asian Journal of Sciences, 3(1):63-75, 2014 [14] Andreia Dal Ponte Novelli and Jose Maria Parente De Oliveira Article: A method for measuring semantic similarity of documents International Journal of Computer Applications, 60(7):17-22, December 2012 [15] Jess Oliva, Jos Ignacio Serrano, Mara Dolores del Castillo, and ngel Iglesias Symss: A syntax-based measure for short-text semantic similarity Data & Knowledge Engineering, 70(4):390-405, 2011 [16] Thomas Proisl, Stefan Evert, Paul Greiner, and Besim Kabashi Robust semantic similarity at multiple levels using maximum weight matching In Proceedings of the 8th International Workshop on Semantic Evaluation (SemEval 2014), pages 532-540, Dublin, Ireland, August 2014 Association for Computational Linguistics and Dublin City University [17] Gaddam Saidi Reddy and Dr.R.V.Krishnaiah A novel similarity measure for clustering categorical data sets IOSR Journal of Computer Engineering (IOSRJCE), 4(6):37-42, 2012 [18] Rishi Sayal and V Vijay Kumar A novel similarity measure for clustering categorical data sets International Journal of Computer Applications, 17(1):25-30, March 2011 Published by Foundation of Computer Science [19] Aliaksei Severyn, Massimo Nicosia, and Alessandro Moschitti Tree kernel learning for textual similarity In Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 1: Proceedings of the Main Conference and the Shared Task: Semantic Textual Similarity, pages 53-58, Atlanta, Georgia, USA, June 2013 Association for Computational Linguistics [20] Md Arafat Sultan, Steven Bethard, and Tamara Sumner Sentence similarity from word alignment In Proceedings of the 8th International Workshop on Semantic Evaluation (SemEval 2014), pages 241-246, Dublin, Ireland, August 2014 Association for Computational Linguistics and Dublin City University [21] Dinh Que Tran and Manh Hung Nguyen A mathematical model for semantic similarity measures South-East Asian Journal of Sciences, 1(1):32-45, 2012 [22] Frane Saric, Goran Glavas, Mladen Karan, Jan Snajder, and Bojana Dalbelo Basic Takelab: Systems for measuring semantic text similarity In Proceedings of the First Joint Conference on Lexical and Computational Semantics- Volume 1: Proceedings Nguyễn Thị Hội, Trần Đình Quế, Đàm Gia Mạnh, Nguyễn Mạnh Hùng 359 of the Main Conference and the Shared Task, and Volume 2: Proceedings of the Sixth International Workshop on Semantic Evaluation, SemEval '12, pages 441- 448, Stroudsburg, PA, USA, 2012 Association for Computational Linguistics [23] Jian Xu and Qin Lu Computing semantic textual similarity using overlapped senses In Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 1: Proceedings of the Main Conference and the Shared Task: Semantic Textual Similarity, pages 90-95, Atlanta, Georgia, USA, June 2013 Association for Computational Linguistics MULTI FEATURES-BASED SIMILARITY AMONG ENTRIES ON MEDIA PORTALS Thi Hoi Nguyen, Dinh Que Tran, Gia Manh Dam, and Manh Hung Nguyen ABSTRACT— Nowadays, with the exploration of entertainment, news or media portals and the social networks, there is a huge number of entries posted on these portals This raises several issues to filter, classify, and/or search for entries which are similar to a given text, a short description, or a selected entry, etc The core basic problem of these issues is how to measure the similarity among the entries posted on the mentioned portals: with a given entry, and a set of entries to consider, how to detect the entry in the considered set which is the most similar to the given entry This paper firstly models the entries on posted on media or entertainment portals based on their features such as title, category, tags, and content, etc And secondly it presents a model for estimating the similarity among these entries ... xem viết có độ tƣơng tự lớn với viết đƣợc xem xét Mơ hình sử dụng để phân loại tự động viết số cổng thông tin giải trí mạng xã hội phổ biến 358 MƠ HÌNH ƢỚC LƢỢNG ĐỘ TƢƠNG TỰ GIỮA CÁC BÀI VIẾT TRÊN... độ tƣơng tự viết dựa độ tƣợng tự thuộc tính Mơ hình tổng qt đƣợc minh họa nhƣ hình sau: Bài viết i Mơ hình hóa viết ……… Bài viết j ……… Tiền xử lý văn Độ tƣơng tự thuộc tính Độ tƣơng tự viết Độ. .. dung viết i, ký hiệu Một viết video clip, hình ảnh, văn kết hợp chúng Tuy nhiên, mơ hình chúng tơi xem xét thuộc MƠ HÌNH ƢỚC LƢỢNG ĐỘ TƢƠNG TỰ GIỮA CÁC BÀI VIẾT TRÊN CÁC CỔNG THƠNG TIN GIẢI TRÍ

Ngày đăng: 21/11/2020, 07:28

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan