Mô hình ước lượng độ tương tự giữa các bài viết trên các cổng thông tin giải trí

Chính vì vậy, trong bài báo này chúng tôi đề xuất hai nội dung chính, thứ nhất là mô hình hóa các bài viết đƣợc đăng trên các cổng thông tin giải trí với các thuộc tính của chúng nhƣ ti[r]

(1)

MƠ HÌNH ƯỚC LƯỢNG ĐỘ TƯỢNG TỰ GIỮA CÁC BÀI VIẾT TRÊN CÁC CỔNG THÔNG TIN GIẢI TRÍ

Nguyễn Thị Hội 1, Trần Đình Quế 2, Đàm Gia Mạnh1, Nguyễn Mạnh Hùng2,3

1 Trƣờng Đại học Thƣơng mại, Hà Nội, Việt Nam Học viện Cơng nghệ Bƣu Viễn thơng, Hà Nội, Việt Nam

3

UMI UMMISCO 209 (IRD/UPMC), Hanoi, Vietnam

hoint2002@gmail.com, tdque@yahoo.com, damgiamanh@gmail.com, nmh.nguyenmanhhung@gmail.com

TÓM TẮT— Ngày nay, với bùng nổ cổng thông tin phương tiện giải trí mạng xã hội, giây, phút có rất nhiều viết đăng phương tiện Nhiều nhà nghiên cứu quan tâm đến phương tiện truyền thông xã hội đưa số cách thức để lọc, phân loại, tìm kiếm đưa viết tương tự dựa đoạn văn bản, mơ tả ngắn thuộc tính viết,… Vấn đề đặt làm để ước lượng độ tương tự viết đăng cổng thông tin giải trí đó? Hay làm để phát viết xem xét có độ tương tự cao với viết đăng cổng thơng tin giải trí Để giải vấn đề này, viết này đề xuất hai vấn đề: Thứ mơ hình hóa viết đăng số cổng thơng tin giải trí phổ biến nay dựa số thuộc tính chúng như: tiêu đề viết, chủ đề viết, đánh dấu viết, nội dung viết…; Thứ hai đề xuất mơ hình ước lượng độ tương tự viết cổng thơng tin giải trí dựa thuộc tính mơ hình hóa theo mơ hình đề xuất Cuối chúng tơi thảo luận số giới hạn mơ hình hướng nghiên cứu

Từ khóa— Độ tương tự, viết tương tự, phương tiện truyền thông, độ đo tương tự, cổng thơng tin giải trí I GIỚI THIỆU

Ngày nay, với bùng nổ cổng thông tin, phƣơng tiện giải trí nhƣ mạng xã hội, hàng ngày, hàng có nhiều viết đƣợc đăng lên phƣơng tiện Với nguồn thông tin khổng lồ vô phong phú từ viết cổng thơng tin giải trí, mảnh đất màu mỡ cho nhà nghiên cứu, ngƣời quan tâm tìm kiếm phƣơng pháp, cách thức dùng để lọc, phân loại tìm kiếm viết cổng thơng tin phƣơng tiện giải trí dựa đoạn văn bản, mô tả ngắn tập đoạn trích chọn từ viết, … Vấn đề làm để ƣớc lƣợng đƣợc độ tƣơng tự viết đăng phƣơng tiện giải trí này? Nói cách khác làm để phát đƣợc viết vừa đăng có độ tƣơng tự cao với hay số viết tập hợp đăng trƣớc hay khơng?

Về toán phát độ tƣơng tự hai đối tƣợng đƣợc nhiều nhà nghiên cứu quan tâm đề xuất phƣơng pháp giải nhƣ D Lin [9] đề xuất mơ hình ƣớc lƣợng tƣơng tự hai đối tƣợng dựa hƣớng tiếp cận lý thuyết thông tin, Say Kumar [18] lại đề xuất mơ hình phân nhóm dựa tập liệu quan hệ sử dụng tính chất phụ thuộc hàm nhƣ tham số để ƣớc lƣợng độ tƣơng tự Reddy Krishnaiah [17] đề xuất độ đo tƣơng tự đƣợc gọi độ đo tƣơng tự đa điểm (multi – viewpoint) để phân cụm dựa tất mối quan hệ đối tƣợng Nguyen Nguyen [12] giới thiệu mơ hình tổng qt để ƣớc lƣợng độ tƣơng tự hai đối tƣợng dựa thuộc tính chúng Trong mơ hình trên, độ tƣơng tự thuộc tính đƣợc định nghĩa đặc trƣng tính chất khác đối tƣợng

Một cách tổng quát, viết cổng thông tin giải trí hay mạng xã hội video clip, hình ảnh, văn bản, kết hợp tất nội dung Tuy nhiên, báo này, chúng tơi xem xét viết có chứa văn cịn viết nhƣ video, hình ảnh, … khơng chứa văn đƣợc bỏ qua báo Do đó, toán xem xét ƣớc lƣợng độ tƣơng tự viết chủ yếu tập trung vào xem xét ƣớc lƣợng độ tƣơng tự văn

Hiện giới nhƣ Việt Nam có nhiều nghiên cứu chủ đề tƣơng tự văn bản, nghiên cứu gom lại vào hai nhóm chính: Nhóm thứ nghiên cứu độ tƣơng tự dựa ngữ nghĩa văn Trong nhóm này, độ tƣơng tự đƣợc so sánh dựa độ tƣơng tự ngữ nghĩa văn Các phƣơng pháp so sánh dựa hệ thống từ ngữ (WordNet) điển hình nhƣ nghiên cứu Buscaldi et al [4], Han et al [7], Lee et al [8], Marsi et al [11], Oliva et al [15] so sánh độ tƣơng tự ontology nhƣ Agirre et al [1], Nguyen Tran [13, 21], Novelli Oliveira [14] Nhóm thứ hai nghiên cứu độ tƣơng tự văn dựa thống kê Với hƣớng này, văn đƣợc so sánh dựa việc thống kê từ, ngữ danh từ, cấu trúc từ, câu …và/hoặc dựa thống kê số lƣợng từ xuất văn Điển hình nhƣ nghiên cứu Bollegala et al [2], Buscaldi et al [10], Croce et al [5], Finkel et al [6], Lintean Rus [10], Proisl et al [16], Sarie et al [22], Severyn et al [19], Sultan et al [20], Xu Lu [23]

(2)

thông tin đƣợc trích chọn từ thân văn viết, vậy, chúng khơng cần thiết phải đƣa vào mơ hình ƣớc lƣợng cần thống kê chúng xem xét Các kết thực nghiệm báo lại cho thấy rằng, việc lấy loại thông tin khác trực tiếp mơ hình đƣợc đề xuất làm tăng khả tính tốn mơ hình việc ƣớc lƣợng độ tƣơng tự viết cổng thơng tin giải trí

Chính vậy, báo đề xuất hai nội dung chính, thứ mơ hình hóa viết đƣợc đăng cổng thơng tin giải trí với thuộc tính chúng nhƣ tiêu đề (title), nhóm (category), đánh dấu (tags), nội dung (content), …, thứ hai đề xuất mơ hình ƣớc lƣợng độ tƣơng tự viết dựa thuộc tính đƣợc mơ hình hóa Trong mơ hình hóa viết đƣợc đăng cổng thông tin giải trí, khơng thân văn viết đƣợc xem xét ƣớc lƣợng mà thuộc tính khác viết đƣợc đƣa vào mơ hình để ƣớc lƣợng độ tƣơng tự viết Nói cách khác, viết đƣợc đăng đƣợc biểu diễn tập hợp đặc tính, thuộc tính đƣợc dùng để xem xét ƣớc lƣợng độ tƣơng tự viết Trong mơ hình ƣớc lƣợng độ tƣơng tự viết viết đƣợc so sánh độ tƣơng tự thuộc tính chúng, sau tích hợp độ tƣơng tự thuộc tính riêng thành độ tƣơng tự tổng quát viết

Bài báo có cấu trúc nhƣ sau: Phần II trình bày mơ hình ƣớc lƣợng độ tƣơng tự viết, phần III trình bày số kết thực nghiệm thảo luận kết quả, phần IV kết luận viết kế hoạch nghiên cứu

II MƠ HÌNH ƢỚC LƢỢNG ĐỘ TƢƠNG TỰ GIỮA CÁC BÀI VIẾT A. Tổng quan mơ hình

1. Giới thiệu mơ hình

Đầu vào hai viết i j, đầu kết ƣớc lƣợng độ tƣơng tự hai viết i j Mơ hình có bƣớc xử lý nhƣ sau:

 Mơ hình hóa viết

 Tiền xử lý thuộc tính văn

 Ƣớc lƣợng độ tƣơng tự thuộc tính

 Tổng hợp độ tƣơng tự viết dựa độ tƣợng tự thuộc tính Mơ hình tổng qt đƣợc minh họa nhƣ hình sau:

Hình 1. Mơ hình ƣớc lƣợng độ tƣơng tự viết i viết j 2. Mơ hình hóa viết

Khơng tính tổng quát, giả sử rằng:

- Một cổng thơng tin giải trí có chứa tập viết {

- Một viết đƣợc đặc trƣng thuộc tính chúng nhƣ: tiêu đề viết (title), nhóm viết (category), đánh dấu viết (tags) nội dung viết (content), …

Trong mơ hình này, xem xét viết i tập viết cổng thơng tin giải trí có n thuộc tính, đƣợc ký hiệu Trong thực nghiệm, xem xét ƣớc lƣợng thuộc tính viết bao gồm:

 Title hay tiêu đề viết i ký hiệu Nó câu ngắn, ý trƣờng hợp viết

hình ảnh tiêu đề viết đƣợc xem xét thích hình ảnh hay caption hình ảnh viết khơng có tiêu đề khác

 Content hay nội dung viết i, ký hiệu Một viết video clip, hình ảnh,

văn kết hợp chúng Tuy nhiên, mơ hình chúng tơi xem xét thuộc

Bài viết i Bài viết j

Mơ hình hóa viết Tiền xử lý văn

Độ tƣơng tự thuộc tính

Độ tƣơng tự viết

……… ………

(3)

tính viết văn bản, phần khác viết nhƣ hình ảnh, clip, … không đƣợc xem xét báo Trong trƣờng hợp nội dung viết khơng có văn chúng tơi coi nhƣ khơng có liệu cho thuộc tính

 Tags hay đánh dấu viết, ký hiệu Trên cổng thơng tin giải trí, viết đƣợc

đánh dấu tập đánh dấu Mỗi đánh dấu từ, ngữ danh từ hay biểu diễn độc lập  Category hay nhóm viết, ký hiệu là Trên cổng thơng tin giải trí, viết thƣờng đƣợc

sắp xếp vào chủ đề hay nhóm loại Mỗi chủ đề hay nhóm đƣợc biểu diễn từ, ngữ danh từ độc lập

Nhƣ vậy, sau đƣợc mơ hình hóa, viết đƣợc đặc trƣng tập thuộc tính Trong thuộc tính viết, báo xem xét ƣớc lƣợng thuộc tính có chứa văn Dó đó, tốn ƣớc lƣợng độ tƣơng tự viết (dựa thuộc tính chúng) đƣợc chuyển thành toán ƣớc lƣợng độ tƣơng tự văn hay tập biểu diễn văn viết với

B. Độ tương tự viết

1. Độ tƣơng tự thuộc tính viết

Khi ƣớc lƣợng độ tƣơng tự viết, xem xét thuộc tính có chứa văn bản, vậy, cần số bƣớc để tinh chỉnh xử lý trƣớc so sánh văn với Để làm đƣợc điều đó, chúng tơi phân biệt loại thuộc tính có chứa văn nhƣ sau:

- Thứ giá trị thuộc tính đƣợc chuẩn hóa tập biểu diễn nhƣ đánh dấu, chủ đề hay nhóm viết, đó, độ tƣơng tự thuộc tính độ tƣơng tự tập biểu diễn

- Thứ hai giá trị thuộc tính đƣợc thể văn nói chung nhƣ giá trị thuộc tính nội dung (content) độ tƣơng tự chúng độ tƣơng tự văn

- Trong trƣờng hợp thuộc tính tiêu đề (title), thơng thƣờng tiêu đề câu, bỏ qua khác độ dài ngắn, chúng tơi xem xét thuộc tính viết nhƣ văn

 Trƣờng hợp giá trị thuộc tính tập biểu diễn :

Khi giá trị thuộc tính biểu diễn, độ tƣơng tự chúng độ tƣơng tự hai tập biểu diễn Chúng định nghĩa độ tƣơng tự hai tập biểu diễn nhƣ sau:

Giả sử hai tập hợp biểu diễn Trong đó, m n kích thƣớc hay độ dài

Gọi kích thƣớc tập giao , đó, độ tƣơng tự đƣợc định nghĩa nhƣ sau:

| | | | || (1)

Dễ dàng thấy giá trị nằm khoảng đơn vị [0,1] Nghĩa sau bƣớc tất

các độ tƣơng tự hai tập biểu diễn đƣợc chuẩn hóa vào khoảng đơn vị Việc chuẩn hóa cho phép tránh đƣợc trƣờng hợp ngoại lệ xảy nhƣ miền giá trị số thuộc tính q lớn q bé Việc chuẩn hóa đƣợc áp dụng cho tất thuộc tính chúng tơi xem xét viết thuộc tính biểu diễn

Giả sử: ( ) hai viết đƣợc biểu diễn thuộc tính chúng, xem xét thuộc tính thứ k tập biểu diễn, độ tƣợng tự hai viết i j thuộc tính thứ k đƣợc định nghĩa nhƣ sau:

, (2)

Trong giá trị thuộc tính thứ k hai viết tƣơng ứng i j

Trong thực nghiệm xem xét thuộc tính viết để ƣớc lƣợng độ tƣơng tự viết có hai thuộc tính biểu diễn đánh dấu nhóm viết Khi độ tƣơng tự chúng đƣợc tính bằng:

, (3)

, (4)

 Trƣờng hợp giá trị thuộc tính văn

(4)

- Trích chọn giá trị thuộc tính (là văn bản) vào tập

- Tính tốn TF-IDF văn Sau biểu diễn giá trị thuộc tính véc tơ với thành phần cặp:

- Tính tốn khoảng cách hai véc tơ: ∑ (5) đó, N số lƣợng khác đƣợc xem xét khoảng cách đến

- Nếu có thành phần thành phần mà có

| |

, (6)

- Các trƣờng hợp khác

Dễ dàng thấy giá trị nằm khoảng [0,1] Độ tƣơng tự hai thuộc tính là:

(7)

Trong thực nghiệm chúng tơi, độ tƣơng tự hai thuộc tính tiêu đề nội dung viết i viết j tƣơng ứng là:

(8) (9)

2. Độ tƣơng tự hai viết

Để ƣớc lƣợng độ tƣơng tự hai viết dựa độ tƣơng tự thuộc tính viết đƣợc tính tốn phần II.B.1 Việc ƣớc lƣợng độ tƣơng tự hai viết i viết j đƣợc định nghĩa nhƣ sau:

Giả sử : ( ) hai viết đƣợc biểu diễn thuộc tính chúng Khi đó, độ tƣơng tự hai viết i j đƣợc tính tốn theo công thức sau:

∑ (10)

Trong đó, độ tƣơng tự thuộc tính k viết i j, trọng số thuộc tính k

∑ (11)

Độ tƣơng tự gần đến hai viết giống Ngƣợc lại, độ tƣơng tự gần đến hai viết khác

III THỰC NGHIỆM VÀ ĐÁNH GIÁ A. Phương pháp thực

Bƣớc 1: Xây dựng tập liệu mẫu Chúng thực việc xây dựng liệu mẫu nhƣ sau:

- Mỗi mẫu chứa ba viết đƣợc lựa chọn từ nguồn nhƣ Youtube, CNN, News, … Các viết đƣợc gọi lần lƣợt A, B C

- Chúng hỏi số ngƣời đƣợc lựa chọn để trả lời cho câu hỏi: Giữa viết B C viết tƣơng tự nhiều với viết A?

- Sau chúng tơi so sánh số lƣợng ngƣời chọn B số lƣợng ngƣời chọn C Nếu số lƣợng ngƣời chọn B nhiều chọn C giá trị mẫu Ngƣợc lại, số lƣợng ngƣời chọn C nhiều B, giá trị mẫu đƣợc gán Nếu số lƣợng ngƣời chọn B C ngang nhau, mẫu bị loại khỏi tập mẫu Ví dụ với mẫu bao gồm viết đƣợc trích chọn nhƣ sau:

Bảng 1. Dữ liệu viết đƣợc trích chọn Youtube

Bài viết Tiêu đề (title) Nhóm (category) Đánh dấu (tag) Nội dung (content)

A Top 30 Goals World Cup 2014 Sports Worldcup, Football no text

B Top 10 Goals: 2014 FIFA World

Cup Brazil [Official]

Sports Worldcup, Football,

Brazil, FIFA

no text

C The Speech that Made Obama

President

(5)

Để so sánh viết A với hai viết lại, chúng tơi hỏi nhóm ngƣời tình nguyện tham gia khảo sát chúng tôi: Câu hỏi là: So sánh hai viết B C viết có độ tƣơng tự nhiều với viết A? Và kết đƣợc trình bày bảng

Bảng 2. Dữ liệu đƣợc chọn ngƣời dùng từ viết Youtube

Câu hỏi Đa số chọn Thiểu số chọn

1 (cho viết B) (cho viết C)

Từ kết thấy viết B viết A có độ tƣơng tự cao so với viết C viết A Do đó, giá trị mẫu đƣợc đặt

Sau bƣớc chúng tơi có tập mẫu Chúng dùng số nguồn mẫu khác lƣu chúng số tập mẫu Trong trình thực nghiệm, lấy mẫu từ nguồn, tập mẫu đƣợc mô tả bảng

Bảng 3. Cấu trúc tập mẫu

Nguồn Số lƣợng mẫu

CNN News 100

Fox News 100

YouTube 100

Tổng 300

Bƣớc 2: Cách thực thi mơ hình:

- Với mẫu, chúng tơi sử dụng mơ hình đề xuất báo để ƣớc lƣợng độ tƣơng tự viết B viết A, ƣớc lƣợng độ tƣơng tự viết A viết C

- Nếu viết B có độ tƣơng tự nhiều với viết A kết trả mẫu Ngƣợc lại viết C tƣơng tự nhiều với viết A kết trả mẫu

- Sau chúng tơi so sánh kết giá trị mẫu Nếu chúng đƣợc xác định, chúng tơi tăng số lƣợng độ xác mẫu lên

Bƣớc 3: Phƣơng pháp đánh giá kết mơ hình

Độ xác CR (Correct Ratio) mơ hình mẫu lấy đƣợc tính tốn theo cơng thức sau:

đú (12)

Độ xác CR gần đến 100% mơ hình đƣợc đề xuất xác Chúng tơi hi vọng kết mơ hình có độ xác CR cao tốt

Tính tốn lựa chọn trọng số tốt cho thuộc tính viết

Các viết trƣớc ƣớc lƣợng độ tƣơng tự cần đƣợc xác định trọng số tốt thuộc tính chúng, theo mơ hình đề xuất II.A.2, viết cổng thơng tin giải trí có thuộc tính tiêu đề, nhóm, đánh dấu nội dung ta đặt trọng số thuộc tính tƣơng ứng là: ( Vì kịch để tính tốn lựa chọn trọng số thuộc tính viết đƣợc thực nhƣ sau:

- Kiểm tra tất mẫu lần đặt thuộc tính tiêu đề (title), nội dung (content), đánh dấu (tags) nhóm (category) viết có trọng số cho thuộc tính 1, thuộc tính khơng đƣợc xem xét đặt Tính tốn độ xác CR

- Càng nhiều thuộc tính đơn độ xác CR ta thu đƣợc cao, độ quan trọng thuộc tính mơ hình cao thuộc tính khác

Kết thực nghiệm đƣợc trình bày bảng Trọng số thuộc tính viết cổng thơng tin giải trí thu đƣợc là: Vì chúng tơi chọn trọng số cho tất lần thực thực nghiệm mơ hình để ƣớc lƣợng độ tƣơng tự viết cổng thơng tin giải trí

Bảng 4. Tỷ lệ xác CR (%) trọng số tƣơng ứng đặc tính

Nguồn Chỉ có tiêu đề

(title only)

Chỉ có nội dung (content only)

Chỉ có đánh dấu (tags only)

Chỉ có nhóm (category only)

CNN News 69 74 77 31

Fox News 32 82 62 31

YouTube 72 - 62 26

Độ CR trung bình 57.67 78.00 67.00 29.33

(6)

B. Thảo luận kết mơ hình

Trong phần thảo luận giới hạn nguồn liệu mơ hình đề xuất 1. Những giới hạn nội nguồn liệu

Với kết thực nghiệm thu đƣợc mục III.A dễ dàng thấy thuộc tính nhóm (category) ba nguồn liệu khơng có nhiều hỗ trợ tốt việc phân biệt viết Sau xem xét lại liệu từ ba nguồn, phát nguyên nhân là: Trong tất ba nguồn liệu, viết đƣợc nhóm vào nhóm Và có số viết đƣợc nhóm vào nhóm khơng liên quan đến chủ đề nhiều nhƣ chủ ý viết Ví dụ nhƣ, từ liệu Youtube với viết ―50 Most shocking moments in World Cup history‖ đƣợc xếp vào mục Entertainment (Giải trí) Hoặc viết ―Germany Argentina 2014 World Cup Final Full Game ESPN‖ lại đƣợc nhóm vào nhóm People & Blogs Trong hai cần đƣợc nhóm vào mục Sports hợp lí

Trong tình câu hỏi đặt là: Thuộc tính nhóm (category) có nên sử dụng mơ hình hay khơng? Để trả lời cho câu hỏi này, làm thực nghiệm nhỏ nhƣ sau: Lần đầu tiên, chạy mô hình mà khơng sử dụng đến thuộc tính nhóm (category) (nghĩa chạy mơ hình với ba thuộc tính tiêu đề (title), nội dung (content), đánh dấu (tags)) 300 mẫu liệu Lần thứ hai, chúng tơi chạy mơ hình với đầy đủ thuộc tính ( nghĩa chạy mơ hình với đặc tính) Và kết thu đƣợc thật đáng ngạc nhiên, kết lần thứ độ xác trung bình 87.00% kết lần thứ hai 92.67% Do đó, câu trả lời thuộc tính nhóm đóng góp quan trọng mơ hình Đem lại độ xác cao phân biệt tƣơng tự viết

Câu hỏi tƣơng tự đƣợc đặt cho thuộc tính tiêu đề (title) nguồn liệu Fox News Nó nhƣ khơng có đóng góp tốt việc phân biệt khác viết Chúng làm thực nghiệm nhỏ mơ hình Lần đầu thực chạy mơ hình bỏ qua thuộc tính tiêu đề nhóm liệu Bƣớc thứ hai, chúng tơi chạy mơ hình với đầy đủ tính 300 mẫu liệu Kết độ xác trƣờng hợp đầu tƣơng ứng 92.00% CNN News, 96.00% Fox News 71.00% Youtube, kết độ xác trung bình 86.33% Trong đó, chạy lần hai với đầy đủ thuộc tính kết tƣơng ứng độ xác lại 96.00% CNN News, 96.00% Fox News 86.00% Youtube, kết độ xác trung bình 92.67% Kết cho thấy thuộc tính tiêu đề (title) khơng quan trọng nguồn liệu Fox News nhƣng nhóm liệu từ nguồn khác lại có đóng góp đáng kể phân biệt viết Vì vậy, câu trả lời thuộc tính tiêu đề cần đƣợc đƣa vào để xem xét ƣớc lƣợng mơ hình

2. Những giới hạn mơ hình

Nhƣ xác định phần I phần Giới thiệu, mơ hình chúng tơi dựa cú pháp văn bản, việc ƣớc lƣợng độ tƣơng tự trƣờng hợp có hai biểu diễn giống ngữ nghĩa nhƣng khác cú pháp gây kết khơng phù hợp

Ví dụ:

Bảng 5. Ba viết đƣợc trích chọn từ Fox News

Bài viết Tiêu đề Nhóm Đánh dấu Nội dung

1 Facebook testing digital stores within site as

part of e-zommerce push

Facebook Facebook …

2 Twitter to lift 140-character DM limit in bid to

compete with messaging apps

Twitter Twitter …

3 of the weirdest sculpture parks in the world Extreme travel park, sculpture …

Với ví dụ bảng ta thấy rằng, thứ thứ hai khơng tƣơng tự theo mơ hình chúng tơi Nhƣng thực tế chúng nói Facebook Twitter, hai nhóm hai mạng xã hội chúng có miền giá trị chung cơng nghệ, cơng nghệ thơng tin, Nhìn vào thấy viết số viết số có độ tƣơng tự khơng lớn thứ thứ Trong thực tế số số lại có độ tƣơng tự nhiều số số

Tóm lại, trƣờng hợp ngoại lệ giới hạn mơ hình chúng tơi đƣa hết mục III.B.1 III.B.2 Các ngoại lệ mơ hình chạy khơng xẩy biểu diễn có tƣơng đồng ngữ nghĩa Hƣớng tiếp cận nghiên cứu tiếp thời gian tới để bổ trợ cho hạn chế cịn tồn mơ hình dựa thống kê đề xuất báo

IV KẾT LUẬN

(7)

Mơ hình viết đƣợc kiểm định lại thực nghiệm cho kết tốt gần giống với việc phân loại, lựa chọn ngƣời tập mẫu liệu Tuy nhiên cịn số vấn đề với mơ hình nhƣ làm để so sánh ngữ nghĩa văn biểu diễn liệu, làm để cải thiện đƣợc tốc độ xử lý mơ hình, … Đây hƣớng nghiên cứu tƣơng lai gần

TÀI LIỆU THAM KHẢO

[1] Eneko Agirre, Daniel Cer, Mona Diab, Aitor Gonzalez-Agirre, and Weiwei Guo Semantic textual similarity (*SEM), Volume 1: Proceedings of the Main Conference and the Shared Task: Semantic Textual Similarity, pages 32- 43, Atlanta, Georgia, USA, June 2013 Association for Computational Linguistics

[2] Danushka Bollegala, Yutaka Matsuo, and Mitsuru Ishizuka A web search engineer based approach to measure semantic similarity between words IEEE Trans On Knowl and Data Eng., 23(7):977-990, July 2011

[3] Davide Buscaldi, Paolo Rosso, Jose Manuel Gomez-Soriano, and Emilio Sanchis Answering questions with an n-gram based passage retrieval engine Journal of Intelligent Information Systems, 34(2):113-134, 2010

[4] Davide Buscaldi, Joseph Le Roux, Jorge J Garca Flores, and Adrian Popescu Lipnecore: Semantic text similarity using n-grams, wordnet, syntactic analysis, esa and information retrieval based features, 2013

[5] Danilo Croce, Valerio Storch, and Roberto Basili Combining text similarity and semantic Filters through sv regression In Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 1: Proceedings of the Main Conference and the Shared Task: Semantic Textual Similarity, pages 59-65, Atlanta, Georgia, USA, June 2013 Association for Computational Linguistics

[6] Jenny Rose Finkel, Trond Grenager, and Christopher Manning Incorporating non-local information into information extraction systems by gibbs sampling In Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, ACL '05, pages 363-370, Stroudsburg, PA, USA, 2005 Association for Computational Linguistics

[7] Lushan Han, Abhay L Kashyap, Tim Finin, James May eld, and Jonathan Weese Semantic textual similarity systems In Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 1: Proceedings of the Main Conference and the Shared Task: Semantic Textual Similarity, pages 44-52, Atlanta, Georgia, USA, June 2013 Association for Computational Linguistics

[8] Ming Che Lee, Jia Wei Chang, and Tung Cheng Hsieh A grammar-based semantic similarity algorithm for natural language sentences The Scientific World Journal, 2014:17 pages, 2014

[9] Dekang Lin An information-theoretic definition of similarity In Proc 15th International Conf on Machine Learning, pages 296-304 Morgan Kaufmann, San Francisco, CA, 1998

[10] Mihai C Lintean and Vasile Rus Measuring semantic similarity in short texts through greedy pairing and word semantics In G Michael Youngblood and Philip M McCarthy, editors, Proceedings of the Twenty-Fifth International Florida Artificial Intelligence Research Society Conference, Marco Island, Florida May 23- 25, 2012 AAAI Press, 2012

[11] Erwin Marsi, Hans Moen, Lars Bungum, Gleb Sizov, Bjorn Gamback, and Andre Lynum Combining strong features for semantic similarity In Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 1: Proceedings of the Main Conference and the Shared Task: Semantic Textual Similarity, pages 66-73, Atlanta, Georgia, USA, June 2013 Association for Computational Linguistics

[12] Manh Hung Nguyen and Thi Hoi Nguyen A general model for similarity measurement between objects International Journal of Advanced Computer Science and Applications(IJACSA), 6(2):235-239, 2015

[13] Manh Hung Nguyen and Dinh Que Tran A semantic similarity measure between sentences South-East Asian Journal of Sciences, 3(1):63-75, 2014

[14] Andreia Dal Ponte Novelli and Jose Maria Parente De Oliveira Article: A method for measuring semantic similarity of documents International Journal of Computer Applications, 60(7):17-22, December 2012

[15] Jess Oliva, Jos Ignacio Serrano, Mara Dolores del Castillo, and ngel Iglesias Symss: A syntax-based measure for short-text semantic similarity Data & Knowledge Engineering, 70(4):390-405, 2011

[16] Thomas Proisl, Stefan Evert, Paul Greiner, and Besim Kabashi Robust semantic similarity at multiple levels using maximum weight matching In Proceedings of the 8th International Workshop on Semantic Evaluation (SemEval 2014), pages 532-540, Dublin, Ireland, August 2014 Association for Computational Linguistics and Dublin City University

[17] Gaddam Saidi Reddy and Dr.R.V.Krishnaiah A novel similarity measure for clustering categorical data sets IOSR Journal of Computer Engineering (IOSRJCE), 4(6):37-42, 2012

[18] Rishi Sayal and V Vijay Kumar A novel similarity measure for clustering categorical data sets International Journal of Computer Applications, 17(1):25-30, March 2011 Published by Foundation of Computer Science

[19] Aliaksei Severyn, Massimo Nicosia, and Alessandro Moschitti Tree kernel learning for textual similarity In Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 1: Proceedings of the Main Conference and the Shared Task: Semantic Textual Similarity, pages 53-58, Atlanta, Georgia, USA, June 2013 Association for Computational Linguistics [20] Md Arafat Sultan, Steven Bethard, and Tamara Sumner Sentence similarity from word alignment In Proceedings of the 8th International Workshop on Semantic Evaluation (SemEval 2014), pages 241-246, Dublin, Ireland, August 2014 Association for Computational Linguistics and Dublin City University

[21] Dinh Que Tran and Manh Hung Nguyen A mathematical model for semantic similarity measures South-East Asian Journal of Sciences, 1(1):32-45, 2012

Định dạng
Số trang	7
Dung lượng	607,12 KB