1. Trang chủ
  2. » Luận Văn - Báo Cáo

Lọc ý định người dùng trong các diễn đàn, mạng xã hội

63 505 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 63
Dung lượng 1,14 MB

Nội dung

LỜI CẢM ƠN Trước tiên, em xin bày tỏ lòng biết ơn chân thành sâu sắc tới Cô giáo, Ths Ngô Thị Lan tận tình hướng dẫn, động viên, giúp đỡ em suốt trình thực đồ án Em xin gửi lời cảm ơn sâu sắc tới quý Thầy Cô Trường Đại Học Công Nghệ Thông Tin Và Truyền Thông truyền đạt kiến thức quý báu cho em năm học vừa qua Em xin gửi lời cảm ơn bạn nhóm thực học máy có giám sát nhiệt tình giúp đỡ trình em làm đồ án Con xin nói lên lòng biết ơn Ông Bà, Cha Mẹ nguồn chăm sóc, động viên bước đường học vấn Xin chân thành cảm ơn Anh Chị Bạn bè, đặc biệt thành viên lớp CNTT-K10C ủng hộ, giúp đỡ động viên suốt thời gian học tập năm giảng đường đại học thực đề tài Mặc dù cố gắng hoàn thành đồ án phạm vi khả cho phép chắn không tránh khỏi thiếu sót Em kính mong nhận cảm thông tận tình bảo quý Thầy Cô Bạn Em xin chân thành cảm ơn! Thái nguyên, ngày 25 tháng năm 2016 Sinh viên Hoàng Mạnh Cơ LỜI CAM ĐOAN Tôi xin cam đoan phần nghiên cứu thể đồ án tốt nghiệp tôi, không chép đồ án khác, sai xin chịu hoàn toàn trách nhiệm chịu kỷ luật khoa nhà trường đề Thái nguyên, ngày 25 tháng năm 2016 Sinh viên Hoàng Mạnh Cơ MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC HÌNH ẢNH LỜI NÓI ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ Ý ĐỊNH NGƯỜI DÙNG 1.1 Nhu cầu khai thác ý định người dùng diễn đàn 1.2 Khai phá liệu 1.2.1 Tổng quan khai phá liệu 1.2.2 Các ứng dụng khai phá liệu 1.2.3 Các bước khai phá liệu 10 1.2.4 Các phương pháp khai phá liệu 11 1.2.5 Những thách thức ứng dụng nghiên cứu kỹ thuật khai phá liệu 14 1.3 Khai phá ý định người dùng 16 1.3.1 Định nghĩa ý định người dùng 16 1.3.2 Xác định ý định người dùng văn mạng hội 18 1.3.3 Các nghiên cứu liên quan 22 CHƯƠNG 2: PHƯƠNG PHÁP HỌC MÁY CÓ GIÁM SÁT SVM 24 2.1 Học có giám sát 24 2.1.1 Bài toán học có giám sát 24 2.1.2 Giới thiệu học có giám sát 24 2.2 Thuật toán học có giám sát Support vector machine (SVM) 26 2.2.1 SVM - Support vector machine 26 2.2.2 Thuật toán SVM 26 2.2.3 Huấn luyện SVM 29 2.3 Các ưu SVM phân lớp văn 30 CHƯƠNG 3: THỰC NGHIỆM 32 3.1 Xây dựng liệu 32 3.1.1 Khai phá thu thập liệu 32 3.2 Thực nghiệm 33 3.2.1 Tiền xử lý liệu 33 3.2.2 Mô hình véc tơ 34 3.2.3 Ngôn ngữ Python 35 3.2.4 Gensim 39 3.2.5 Phần mềm Anaconda 39 3.2.6 Các thao tác sử lý liệu với python 40 3.3 Phần mềm Weka 47 3.3.1 Giới thiệu weka 47 3.3.2 Thực toán phân lớp với weka 48 3.4 Kết đạt 49 3.4.1 Lựa chọn thuộc tính Error! Bookmark not defined 3.4.2 Kết 50 KẾT LUẬN 52 TÀI LIỆU THAM KHẢO 53 NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN 54 DANH MỤC HÌNH ẢNH Hình 1.1: Nguồn tin tham khảo trước mua hàng Hình 1.2 : Quy trình phát tri thức 10 Hình 1.3: Ví dụ văn có chứa ý định ý định 19 Hình 1.4: Ví dụ xử lý khai phá ý định người dùng 21 Hình 2.1: Siêu phẳng h phân chia liệu huấn luyện thành lớp + - với khoảng cách biên lớn Các điểm gần h vector hỗ trợ 27 Hình 2.2: Bài toán phân lớp 28 Hình 3.1: % loại câu chứa ý đinh 33 LỜI NÓI ĐẦU Ngày nhiều người sử dụng internet có xu hướng bộc lộ thân, ý định thông qua kênh mạng hội, diễn dàn, website Họ thường chia sẻ hoạt động ngày, suy nghĩ, cảm xúc chí ý định thực (ví dụ: mua ô tô, thuê nhà, du lịch ) họ trang blog, diễn đàn đặc biệt mạng hội Nắm bắt mong muốn, ý định người dùng trực tuyến, nhu cầu quan trọng với doanh nghiệp sản xuất, ngân hàng, bán lẻ, thương mại điện tử, quảng cáo trực tuyến cá nhân có ý muốn khai thác Để giải vấn đề đó, đồ án em trình bày môt cách tiếp cận học máy có giám sát để phân tích viết bình luận người sử dụng diễn đàn, mạng hội, để lọc viết bình luận có chứa ý định, sở thích người dùng Việc hiểu biết đầy đủ ý định người sử dụng văn mạng hội phức tạp, ta phải chia làm giai đoạn chính: lọc hướng ý định, miền ý định, phân tích đánh giá ý định Trong phạm vi đồ án này, em xây dựng mô hình phân loại nhị phân để xác định xem viết bình luận có mang ý định hay không Em tiến hành đánh giá thực nghiêm cách cẩn thận cho mô hình thu thập viết tiếng Việt đạt kết đầy hứa hẹn với độ xác trung bình 93% Nội dung đồ án trình bày chương Tổ chức cấu trúc sau: Chương 1: Tổng quan ý định người dùng Phần đầu trình bày khái quát nhu cầu hội khai phá Phần cuối chương giới thiệu nội dung khai phá ý định người dùng Chương 2: Phương pháp học máy có giám sát Chương giới thiệu nội dung phương pháp học bán giám sát, trình bày bước hoạt động thuật toán SVM, sau nghiên cứu thuật toán học bán giám sát SVM Chương 3: Thực Nghiệm Chương trình bày xây dựng liệu, tiền xử lý liệu, mô hình vector Các kiến thức liên quan phần mềm python, gensim, weka Cuối kết đạt CHƯƠNG 1: TỔNG QUAN VỀ Ý ĐỊNH NGƯỜI DÙNG  Nhu cầu khai thác ý định người dùng diễn đàn Trong thập kỷ vừa chứng kiến bùng nổ dịch vụ mạng hội trực tuyến Trong môi trường tương tác cao này, người sử dụng trở thành đối tượng chủ chốt, không ngừng góp phân làm phong phú thêm kênh truyền thông hội thông qua hoạt động trực tuyến hành vi họ Trong không gian này, người có xu hướng thể thân sẵn sàng chia sẻ hoạt động họ ngày, suy nghĩ cảm xúc họ, việc họ định làm Kết việc bùng nổ trang mạng hội là, người chia sẻ thông tin diễn đàn, mạng hội diễn đàn, mạng hội thực phản ánh cảm nhận ý định người dùng Phân tích cảm nhận ý kiến, thế, trở thành tiếp cận hiệu cho doanh nghiệp để hiểu khách hàng tiềm thực quan tâm mong muốn, giúp đỡ họ có có kế hoạch tiếp thị trực tuyến cuối xâm nhập thị trường trực tuyến nhanh hiệu Nhận thức xu hướng quan trọng này, nhiều nghiên cứu trước tập trung vào hiểu biết ý định đằng sau hoạt động trực tuyến tìm kiếm web, tìm kiếm máy tính, điện thoại tương tác Hầu hết nghiên cứu cố gắng xác định ý định tiềm ẩn đằng sau truy vấn tìm kiếm duyệt web người dùng Nắm ý định tìm kiếm cải thiện hiệu tìm kiếm đáng kể Khi nhiều người sẵn sàng chia sẻ ý định họ cách rõ ràng có hội để tiếp cận nguồn kiến thức vô giá người dùng online khách hàng tiềm Chi tiết số liệu theo “Cục thương mại điện tử Công nghệ thông tin www.VECITA.gov.vn”  Có 81% người mua hàng tìm kiếm thông tin trực tuyến mua hàng  10.4 số lượng nguồn tin trung bình mà người mua hàng tham khảo trước định  Có tới 1/3 số người sửa dụng internet mua hàng trực tuyến  Nguồn tin tham khảo trước mua hàng Hình 1.1: Nguồn tin tham khảo trước mua hàng Do vậy, lượng thông tin mà người dùng đăng diễn đàn, mạng hội lớn thông tin đưa lên trang mạng hội dạng posts nhiều người dùng để lại các nhận xét posts dạng comments, ta nhận thấy kho thông tin khổng lồ mà từ khai phá trích rút tất comments người dùng, sau phân tích phân loại liệu ấy, thu kết khảo sát cần thiết phục vụ cho hoạt động sản xuất kinh doanh  Khai phá liệu  Tổng quan khai phá liệu Khai phá liệu dùng để mô tả trình phát tri thức CSDL Quá trình kết xuất tri thức tiềm ẩn từ liệu giúp cho việc dự báo kinh doanh, hoạt động sản xuất, Khai phá liệu làm giảm chi phí thời gian so với phương pháp truyền thống trước (ví dụ phương pháp thống kê) Sau số định nghiã mang tính mô tả nhiều tác giả khai phá liệu Định nghĩa Ferruzza: “Khai phá liệu tập hợp phương pháp dùng tiến trình khám phá tri thức để khác biệt mối quan hệ mẫu chưa biết bên liệu” Định nghĩa Parsaye: “Khai phá liệu trình trợ giúp định, tìm kiếm mẫu thông tin chưa biết bất ngờ CSDL lớn” Định nghĩa Fayyad: “Khai phá tri thức trình không tầm thường nhận mẫu liệu có giá trị, mới, hữu ích, tiềm hiểu được”  Các ứng dụng khai phá liệu Phát tri thức khai phá liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, sở liệu, thuật toán, tính toán song song tốc độ cao, thu thập tri thức cho hệ chuyên gia, quan sát liệu Đặc biệt phát tri thức khai phá liệu gần gũi với lĩnh vực thống kê, sử dụng phương pháp thống kê để mô hình liệu phát mẫu, luật Ngân hàng liệu (Data Warehousing) công cụ phân tích trực tuyến (OLAP- On Line Analytical Processing) liên quan chặt chẽ với phát tri thức khai phá liệu Khai phá liệu có nhiều ứng dụng thực tế, ví dụ như:  Text mining Web mining: Phân lớp văn trang Web, tóm tắt văn bản,  Bảo hiểm, tài thị trường chứng khoán: phân tích tình hình tài dự báo giá loại cổ phiếu thị trường chứng khoán Danh mục vốn giá, lãi suất, liệu thẻ tín dụng, phát gian lận,  Thống kê, phân tích liệu hỗ trợ định  Điều trị y học chăm sóc y tế: số thông tin chuẩn đoán bệnh lưu hệ thống quản lý bệnh viện Phân tích mối liên hệ triệu chứng bệnh, chuẩn đoán phương pháp điều trị (chế độ dinh dưỡng, thuốc, )  Sản xuất chế biến: Quy trình, phương pháp chế biến xử lý cố  Lĩnh vực khoa học: Quan sát thiên văn, liệu gene, liệu sinh vật học, tìm kiếm, so sánh hệ gene thông tin di truyền, mối liên hệ gene số bệnh di truyền,  Mạng viễn thông: Phân tích gọi điện thoại hệ thống giám sát lỗi, cố, chất lượng dịch vụ,  Các bước khai phá liệu Quy trình phát tri thức thường tuân theo bước sau: 10 >>> print(corpus) [(0, 1), (1, 1), (2, 1)] [(0, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1)] [(2, 1), (5, 1), (7, 1), (8, 1)] [(1, 1), (5, 2), (8, 1)] [(3, 1), (6, 1), (7, 1)] [(9, 1)] [(9, 1), (10, 1)] [(9, 1), (10, 1), (11, 1)] [(4, 1), (10, 1), (11, 1)] nên rõ ràng tính vector với id=10 viết tắt cho câu hỏi "bao nhiêu lần từ đồ thị xuất tài liệu?" Và câu trả lời "không" sáu tài liệu "một" cho lại ba Corpus Streaming - Một tài liệu thời điểm corpus nằm hoàn toàn nhớ, danh sách Python Trong ví dụ để làm cho việc rõ ràng, giả sử có hàng triệu tài liệu corpus Lưu trữ tất chúng RAM không làm Thay vào đó, giả sử tài liệu lưu trữ tập tin đĩa, tài liệu dòng Gensim yêu cầu văn phải có khả trả lại vector tài liệu thời điểm: >>> class MyCorpus(object): >>> >>> >>> def iter (self): for line in open('mycorpus.txt'): # assume there's one document per line, tokens separated by whitespace >>> yield dictionary.doc2bow(line.lower().split()) Tải mẫu mycorpus.txt file here Giả định tài liệu chiếm dòng tập tin không quan trọng; bạn uốn nắn 49 chức iter để phù hợp với định dạng đầu vào bạn, điều Thư mục đi, phân tích cú pháp XML, truy cập mạng Chỉ cần phân tích đầu vào bạn để lấy danh sách thẻ tài liệu, sau chuyển đổi thẻ thông qua từ điển để id họ mang lại kết vector thưa thớt bên iter >>> corpus_memory_friendly = MyCorpus() # doesn't load the corpus into memory! >>> print(corpus_memory_friendly) < main .MyCorpus object at 0x10d5690> Corpus đối tượng, in kết đầu địa đối tượng nhớ Để xem vectơ thành phần, duyệt qua tập văn in vector tài liệu (một thời gian): >>> for vector in corpus_memory_friendly: # load one vector into memory at a time print(vector) [(0, 1), (1, 1), (2, 1)] [(0, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1)] [(2, 1), (5, 1), (7, 1), (8, 1)] [(1, 1), (5, 2), (8, 1)] [(3, 1), (6, 1), (7, 1)] [(9, 1)] [(9, 1), (10, 1)] [(9, 1), (10, 1), (11, 1)] [(4, 1), (10, 1), (11, 1)] Tương tự vậy, để xây dựng từ điển mà không cần nạp tất văn vào nhớ: >>> # collect statistics about all tokens >>> dictionary = corpora.Dictionary(line.lower().split() for line in open 50 ('mycorpus.txt')) >>> # remove stop words and words that appear only once >>> stop_ids = [dictionary.token2id[stopword] for stopword in stoplist >>> if stopword in dictionary.token2id] >>> once_ids = [tokenid for tokenid, docfreq in dictionary.dfs.iteritems () if docfreq == 1] >>> dictionary.filter_tokens(stop_ids + once_ids) # remove stop words and words that appear only once >>> dictionary.compactify() # remove gaps in id sequence after words that were removed >>> print(dictionary) Dictionary(12 unique tokens) Những làm với corpus câu hỏi khác, cách đếm tần số từ ngữ khác cách rõ ràng Chúng ta cần phải áp dụng chuyển đại diện đơn giản đầu tiên, trước sử dụng để tính toán tài liệu có ý nghĩa so với tương tài liệu Corpus định dạng Có tồn số định dạng tập tin để hóa văn Vector không gian (~ sequence of vector) vào đĩa Gensim thực chúng thông quagiao diện trực corpus đề cập trước Tài liệu đọc từ (resp stored to) đĩa thời trang lười biếng, tài liệu thời gian, mà toàn tập văn đọc vào nhớ lúc Một định dạng tập tin đáng ý Market Matrix format Để lưu văn định dạng Matrix thị trường: >>> from gensim import corpora >>> # create a toy corpus of documents, as a plain Python list >>> corpus = [[(1, 0.5)], []] # make one document empty, for the heck of it 51 >>> >>> corpora.MmCorpus.serialize('/tmp/corpus.mm', corpus) Các định dạng khác bao gồm Joachim’s SVMlight format, Blei’s LDA-C format and GibbsLDA++ format >>> corpora.SvmLightCorpus.serialize('/tmp/corpus.svmlight', corpus) >>> corpora.BleiCorpus.serialize('/tmp/corpus.lda-c', corpus) >>> corpora.LowCorpus.serialize('/tmp/corpus.low', corpus) Ngược lại, để tải iterator corpus từ tập tin Matrix thị trường: >>> corpus = corpora.MmCorpus('/tmp/corpus.mm') Corpus đối tượng , thông thường bạn in chúng trực tiếp >>> print(corpus) MmCorpus(2 documents, features, non-zero entries) Thay vào đó, để xem nội dung văn thể: >>> # one way of printing a corpus: load it entirely into memory >>> print(list(corpus)) # calling list() will convert any sequence to a plain Python list [[(1, 0.5)], []] or >>> # another way of doing it: print one document at a time, making use of the streaming interface >>> for doc in corpus: print(doc) [(1, 0.5)] [] Để lưu Matrix dòng tài liệu thị trường dạng LDA-C Blei của, >>> corpora.BleiCorpus.serialize('/tmp/corpus.lda-c', corpus) Bằng cách này, gensim sử dụng I / O công cụ chuyển đổi định dạng nhớ hiệu quả: cần tải dòng tài liệu sử dụng 52 định dạng lưu định dạng khác Thêm định dạng chết dễ dàng, kiểm tra mã cho corpus SVMlight cho ví dụ Khả tương thích với NumPy scipy Gensim chứa chức tiện ích hiệu để giúp chuyển đổi từ / đến ma trận numpy: >>> corpus = gensim.matutils.Dense2Corpus(numpy_matrix) >>> numpy_matrix = gensim.matutils.corpus2dense(corpus, num_terms=number_of_corpus_features) từ / đến ma trận scipy.sparse: >>> corpus = gensim.matutils.Sparse2Corpus(scipy_sparse_matrix) >>> scipy_csc_matrix = gensim.matutils.corpus2csc(corpus) 3.3 Phần mềm Weka 3.3.1 Giới thiệu weka Weka môi trường thử nghiệm KPDL nhà khoa học thuộc trường Đại học Waitako, NZ, khởi xướng đóng góp nhiều nhà nghiên cứu giới Weka phần mềm mã nguồn mở, cung cấp công cụ trực quan sinh động cho người tìm hiểu KPDL Weka cho phép giải thuật học phát triển tích hợp vào môi trường Hệ thống viết java Nó chạy hầu hết tất hệ điều hành Weka cung cấp nhiều giải thuật khác với nhiều phương thức cho trình xử lý đê ước lượng kết sơ đồ cho liệu Weka cung cấp tính sau: + Bao gồm nhiều công cụ đa dạng để thay đổi tập dữliệu, Xử lý dữliệu, giải thuật học phương pháp đánh giá + Giao diện đồ họa người dùng (trực quan hóa liệu) + Môi trường để so sánh giải thuật học ` Bạn có thê xử lý trước tập liệu, cho vào sơ đồ, phân chia 53 lớp kết và'thực mà không cần viết chương trình Weka lây liệu từ file có định dạng arff, phát sinh từ file hàng sở liệu 3.3.2 Thực toán phân lớp với weka Chọn tab: Prerprocess để thực bước tiền xử lý data Mining (Load data, Filter, …) 54 Sau nạp liệu, chọn Tab classify để chọn mô hình phân loại Nó cung cấp mô hình dự đoán phân lớp dựa thuật toán học máy Ở em chọn thuật toán SVM 55 3.4 Kết đạt Dữ liệu em lấy từ comment, đăng thành viên diễn đàn mạng hội Dữ liệu nhà trọ, cho thuê, tìm nhà trọ em lấy diễn đàn http://phongtro123.com/ Dữ liệu mua bán xe, loại xe ô tô, xe máy, xe đạp em lấy diễn đàn: https://www.chotot.com/ha-noi/mua-ban-xe?o=1704# Dữ liệu địa điểm quán đànhttp://www.webtretho.com/forum/f110/ 56 ăn em lấy diễn Dữ liệu du lịch em lấy từ groups mạng hội facebook: https://www.facebook.com/groups/www.phuot.vn/?fref=ts Sau em phân loại gán nhãn xem liệu có ý định hay ý định 57 Thuộc tính n-grams: câu mẫu Nhà cần bán xe Suzuki Sapphire 125 màu bạc biển 29Y Sau giai đoạn tiền xử lý tách từ, câu có dạng Nhà cần bán _ xe Suzuki Sapphire 125 màu bạc biển 29Y Chạy liệu qua module n-grams, ta có: [Nhà],[ mình], [cần],[ bán ],[xe], [Suzuki Sapphire 125], [màu], [bạc], 1- [biển ],[29Y] grams [Nhà mình],[ cần bán], [Nhà cần bán], [cần bán _ xe Suzuki 2-grams Sapphire 125] [xe Suzuki Sapphire 125], [màu bạc biển 29Y.] 3.4.2 Kết Kết chạy chương trình qua phần mềm weka 58 Correctly Classified Instances: Trường hợp phân lớp xác 47 chiếm 100% Incorrectly Classsified Instances: Trường hợp phân lớp không xác chiếm 0% TP Rate: Tỉ lệ xác FP Rate : Tỉ lệ không xác 59 Precision: Giá trị dự đoán dương Recall: Giá trị triệu hồi F-Measure: Độ xác mô hình Class: Nhãn gán cho liệu a : số câu có ý định b : số câu ý định 60 KẾT LUẬN Đồ án tìm hiểu nghiên cứu toán lọc ý định người dùng diễn đàn, mạng hội Các vấn đề toán trình bày, phân tích đưa hướng giải cụ thể Những kết mà đồ án đạt được:  Tìm hiểu khai phá liệu ý định người dùng diễn đàn, mạng hội  Xử lí vấn đề phân loại ý định người dùng diễn đàn  Dùng phương pháp SVM để phân loại kiểu câu tiếng Việt với độ xác trung bình lên tới 93 %  Tiến hành thực nghiệm thuộc tính n-grams Trong lĩnh vực phân loại ý định người dùng có nhiều phương pháp tối ưu đồ án thực nghiệm phương pháp SVM cho liệu Trong tương lai, có hội thời gian em tìm hiểu thực nghiệm phương pháp khác Naïve Bayes, Maximum Entropy 61 TÀI LIỆU THAM KHẢO  Hà Quang Thụy ,Giáo trình khai phá liệu web, Nhà xuất giáo dục Việt Nam  Thai-Le Luong, Thi-Hanh Tran, Quoc-Tuan Truong, Thi-Minh-Ngoc Truong, Thi-Thu Phi, Xuan-Hieu Phan: Learning to Filter User Explicit Intents in Online Vietnamese Social Media Texts  Leaning user intentions in spoken dialogue systems(Hamid R Chinaei, Brahim Chaib-draa Computer Science and Software Engineering Department, Laval University, Quebec, Canada)  Understanding User’s Cross-Domain Intentions in Spoken Dialog Systems( Ming Sun, Yun-Nung Chen and Alexander I Rudnicky School of Computer Science Carnegie Mellon University)  Jean-Michel Lunati and Alexander I Rudnicky Spoken language interfaces: The OM system CHI91 Human Factors on Computing Systems, 1991  Alexander I Rudnicky, Jean-Michel Lunati, and Alexander M Franz Spoken language recognition in an office management domain In Proceedings of ICASSP, pages 829–832, 1991 62 NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN Thái Nguyên, ngày tháng năm 2016 GIÁO VIÊN HƯỚNG DẪN 63 [...]... ý định từ văn bản trên mạng hội 23 Hình 1.4: Ví dụ về xử lý trong khai phá ý định người dùng Bộ lọc ý định người dùng phát hiện ra bài viết này có chứa ý định Trong bước tiếp theo, Bộ Tách miền ý định tách ý định theo các miền.(du lịch/ nghỉ mát) Bài viết và miền được chuyển tiếp đến pha tiếp theo, bộ phân tích cú pháp và rút ra ý định Ở bước này thuộc tính/ràng buộc của ý định được phân tích và... hình hóa và phân tích ý định người dùng trên các phương tiện truyền thông hội trực tuyến ta định nghĩa một ý định minh bạch như một quintuple (5 tuple) như sau: Trong đó : u là người dùng định nghĩa, ví dụng nickname người dùng hoặc id trên dịch vụ mạng hội c là hoàn cảnh hiện tại hoặc điều kiện xung quanh ý định này Ví dụ một người dùng có thể hiện tại đang mang thai, người ốm, hoặc có em bé... đoạn đầu tiên đó là xây dựng bộ lọc phân 18 loại để lọc bài viết hay bình luận trên mạng hội để tìm ra cái nào có chứa ý định người sử dụng 19  Xác định ý định người dùng trong văn bản trên mạng hội  Ý định tường minh (rõ) Theo nghĩa rộng, ý định đề cập đến mục địch cụ thể của một chủ thể trong việc thực hiện hành động hoặc một loạt hành động Theo Bratman(1987), ý định là một trạng thái tinh... động hoặc hành động trong tương lai .Ý định liên quan đến hoạt động tâm lý như lập kế hoạch và suy tính trước Ý định có thể được quy định rõ ràng hoặc quy định ngầm, trực tiếp hoặc gián tiếp Trong phạm vi đồ án, em sẽ chỉ tập trung vào ý đồ rõ ràng của người dùng Hình 1 cho thấy một số văn bản viết của các bài đăng bởi người dùng trên các diễn đàn trực tuyến và mạng hội Một số chứa ý định rõ ràng và... định 21 1.3.2.2 Quy trình hiểu ý định người dùng Quá trình phân tích và hiểu ý định người sử dụng bao gồm 3 giai đoạn chính như trong hình 1.3 đó là: Lọc ý định người sử dụng Pha này giúp lọc các bài viết trên kênh truyền thông trực tuyến để xác định bài chứa ý đồ sử dụng và bài nào không Bài có chứa ý đồ sử dụng sẽ được chuyển tiếp đến giai đoạn tiếp theo Tách miền ý định người sử dụng Đầu vào là văn... ngày nay người ta đang tìm cách phát triển các kỹ thuật nhằm rút ra mối quan hệ giữa các biến này  Khai phá ý định người dùng 17  Định nghĩa ý định người dùng Ý định, mặt khác là một tuyên bố trực tiếp hoặc bằng văn bản của người sử dụng về những gì họ có kế hoạch thực hiện Theo Bratman (1987), ý định hoặc mục đích là một trạng thái thể hiện cho một cam kết để thực hiện hoặc một hành động trong tương... này giúp người dùng hiểu câu hỏi của người khác tốt hơn và đưa ra câu trả lời phù hợp hơn Kroll và Strohmaier (2009) xác định ý định/ mục đích người dùng trong các tài liệu văn bản Họ xây dựng và phát triển một nguyên tắc phân loại ý định người dùng và một nền tảng kiến thức với 135 hành động Để phân tích ý đồ trong tài liệu, họ coi mỗi câu như một truy vấn đế cơ sở tri thức Việc diễn giải ý định được... xuất một quá trình gồm 3 giai đoạn cho sự hiểu biết hay xác định chúng từ bài viết hoặc bình luận trên các diễn đàn hoặc mạng hội Quá trình này gồm 3 giai đoan chính : (1) giai đoạn lọc các bài viêt/ bình luận có chứa ý định, (2) - Xác định miền ý định (vd tài chính, bất động sản, du lịch, ô tô ) và (3) các phân tích đánh gia phân loại ý định Trong đó giai đoạn (1) và (2) được coi là vấn đề phân loại... công việc khai phá ý định người dùng Một số lớn các nghiên cứu trước đây làm việc với các vấn đề xác định mục tiêu người dùng hoặc ý đồ đằng sau hoạt động tìm kiếm trên web của họ Lee et al (2005) đề xuất việc sử dụng các tính năng như hành vi người dùng nhấp chuột và phân bố liên kết neo để xác định mục tiêu sử dụng trong tìm kiếm web Họ phân loại các mục tiêu sử dụng thành 2 lớp : lớp định hướng và thông... chứa ý định, pha này sẽ phân tích và xác định các miền của ý định Như đã giải thích ở phần trước, miền ý định có thể là: giáo dục, bất động sản, tài chính ngân hàng, du lịch-nghỉ mát, ô tô hoặc bất kỳ lĩnh vực nào khác mà ý định có liên quan Phân tích cú pháp và rút ra ý định Đầu vào là văn bản chứa ý định và miền của nó, giai đoạn này sẽ phân tích và trích xuất tất cả thông tin về những ý định Nói cách ... dựng lọc phân 18 loại để lọc viết hay bình luận mạng xã hội để tìm có chứa ý định người sử dụng 19  Xác định ý định người dùng văn mạng xã hội  Ý định tường minh (rõ) Theo nghĩa rộng, ý định. .. phá ý định người dùng 16 1.3.1 Định nghĩa ý định người dùng 16 1.3.2 Xác định ý định người dùng văn mạng xã hội. .. mạng xã hội 23 Hình 1.4: Ví dụ xử lý khai phá ý định người dùng Bộ lọc ý định người dùng phát viết có chứa ý định Trong bước tiếp theo, Bộ Tách miền ý định tách ý định theo miền.(du lịch/ nghỉ mát)

Ngày đăng: 09/12/2016, 01:35

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w