Quy trình ci tin đ x ut

Một phần của tài liệu Ứng dụng các phương pháp vector hóa để loại bỏ tin đăng trùng trong lĩnh vực bất động sản (Trang 40)

phát tri n quy trình v vi c tìm ki m ngu n hàng và k t n i môi gi i, tác gi cho r ng c n th c hi n tu n t nh ng công vi c: xác đ nh ph ng pháp phơn c m d li u (ph ng pháp

phân tách thông tin t d li u cơng khai), xây d ng quy trình d a trên thơng tin phân tách

đ c vƠ theo dõi, đánh giá vƠ c i thi n các ph ng pháp trong quy trình đ xu t.

3.1.1. Xácăđ nhăph ngăphápăphơnăc m d li uătinăđ ng

i m c t lõi trong vi c c i ti n quy trình phát tri n ngu n hàng và k t n i môi gi i là c n xây d ng ph ng pháp giúp l c và phân c m các tin đ ng có trên Internet. xác đ nh đ c

ph ng pháp phù h p nh t, tác gi th c hi n theo quy trình sau:

Hình 11. T ng quan quy trình xác đnh ph ng pháp phân lo i C th các b c phân tích d li u đ xây d ng ph ng pháp phơn lo i nh sau

3.1.1.1. D li uătinăđ ngăB tăđ ng s n

D li u đ c thu th p thơng qua vi c trích xu t d li u t các trang web đ ng tin l n là:

Batdongsan.com.vn, nha.chotot.vn, alonhadat.com.vn,ầ thông qua m t công c cào t đ ng. Quá trình cào t đ ng đ c th c hi n bên ngồi khn kh lu n v n vƠ đ c thi t l p đ đ m b o không nh h ng đ n server c a các trang web trên. D li u đ c cào v là d li u

đ c đ ng công khai trên các trang web nƠy.

D li u sau khi đ c cào v đ c t ng h p l i và x lỦ sao cho các tr ng thông tin các website khác nhau v n có cùng đ nh d ng. u vào c a d li u s d ng trong lu n v n nƠy

27

3.1.1.2. Làm s ch d li u

Vi c làm s ch d li u đ c nghiên c u đánh giá qua γ m c v i các Ủ ngh a nh sau:

M c 1: Làm s ch c b n ậ d li u đ c làm s ch m c c b n nh t, m c tiêu đ gi đ c nhi u nh t đ c tr ng c a các tin đ ng vƠ giúp quá trình phơn tách t (tokenizing) lo i b đi

nh ng ký t , bi u t ng c m xúc khơng có Ủ ngh a.

M c 2: Làm s ch tiêu chu n ậ d li u đ c làm s ch m c tiêu chu n, t ng đ ng ph ng

pháp làm s ch c a h u h t các nghiên c u tr c đơy v x lý ngôn ng t nhiên bao g m các cơng vi c chu n hóa t v ng, t o t ghép.

M c 3: Làm s ch đ c thù ậ d li u đ c làm s ch nơng cao h n, d a vào nh ng đ c thù c a

l nh v c đ ng tin B t đ ng s n mà bên c nh vi c làm s ch c b n và tiêu chu n, tác gi đ

xu t thêm các công vi c nh :

- T o nh ng c m t ghép liên quan đ n đ a danh (Qu n, ph ng, đ ng,ầ)

- C m t hóa nh ng đ c tr ng liên quan đ n B t đ ng s n - Lo i b d u ti ng Vi t

- Lo i b nh ng câu, c m c m thán th ng xuyên g p ph i trong l nh v c đ ng tin

C th các h ng m c làm s ch đ c mô t chi ti t trong Ch ng 4

3.1.1.3. Vectorăhóaăv năb năvƠăcácăph ngăphápăđoăl ng

Nh đư trình bƠy, trong khn kh nghiên c u này tác gi s d ng 4 lo i hình Vector hóa là Onehot, WordCount, TF-IDF và Doc2vec. S d tác gi l a ch n 4 ph ng pháp Vector hóa nƠy đ đánh giá b i chúng có nh ng đ c tr ng khác nhau có th phù h p đ đ i di n cho nh ng v n b n đ ng tin B t đ ng s n

- Vector Onehot: là cách th c vector hóa đ n gi n nh t, có th phù h p trong l nh v c

tin đ ng b i các tin đ ng nƠy th ng có s l ng ký t t không quá nhi u. N u 2

vector có t ng đ ng lo i t thì kh n ng gi ng nhau là khá cao.

- Vector Wordcount: là m t phiên b n ch khác m t chút so v i Onehot, l nh v c tin

đ ng m c dù ít t ng nh ng m t s t có th đ c l p l i nhi u l n. N u 2 vector

t ng đ ng s t vƠ t ng đ ng v s l ng t l p l i thì kh n ng gi ng nhau là khá cao.

- Vector TF-IDF: T ng t nh WordCount, TF-IDF còn giúp đánh giá t n su t xu t hi n c a m t t trong c m t và trong t p t (corpus). T đó xác đ nh ra đ ng nh ng t đ c coi là chìa khóa quan tr ng đ phân bi t 2 vector b t kì v i nhau.

- Vector Doc2vec: Là m t cách ti p c n khác v i γ ph ng pháp trên, Docβvec vector

hóa t ng t d a vào nh ng t / ng c nh xung quanh c a m t t . T đó, có th coi Doc2vec s giúp xác đ nh nh ng đo n v n b n có Ủ ngh a t ng đ ng nhau trong m t s tr ng h p β vector nƠy đ c t o b i nh ng t ng khác nhau v m t v t lỦ. i

28

v i Doc2vec, v i tham s khuy n ngh là 300 [26]. so sánh tác gi t o thêm 1 vector Doc2vec v i chi u dài t i u đư đ c đ xu t t i các nghiên c u khác là 300.

V ph ng pháp đo l ng, tác gi s d ng hai ph ng pháp chính là Cosine và Euclidean. - Cosine: lƠ ph ng pháp đo h s góc gi a 2 vector. K t qu đo Cosine s ch y t 0

đ n 1. Theo đó, k t qu h s góc càng l n (càng g n v 1) thì β vector nƠy cƠng t ng đ ng. N u h s góc = 1 thì 2 vector này là hồn toàn gi ng nhau, vƠ ng c l i. Cosine

lƠ ph ng pháp đo n i ti ng vƠ đ c s d ng h u h t các nghiên c u liên quan đ n

so sánh t ng đ ng gi a 2 vector mà tác gi tham kh o. Trong bài nghiên c u vì s d ng hƠm tính t ng đ ng Cosine t th vi n scipy v i cơng th c 1 ậ sim(x,y). vì v y k t qu tr v càng g n 0 thì hai vector s cƠng t ng đ ng.

- Euclidean: m t ph ng pháp đo l ng t ng quan n i ti ng khơng kém gì Cosine. K t qu Euclidean tr v là kho ng cách trong không gian gi a 2 vector. Kho ng cách càng

dƠi thì β vector cƠng xa nhau vƠ ng c l i. Khác v i Cosine, đ dài kho ng cách

Euclidean đ c tính tốn b i giá tr trong các vector, vì v y v i m i lo i vector khác

nhau thì biên đ kho ng cách tính b i Euclidean s khác nhau.

3.1.1.4. Xácăđ nh t h păph ngăpháp phù h p

V i lo i vector đ c t o t ng ng v i các m c làm s ch, tác gi th c hi n đánh giá k t qu

t ng đ ng khi s d ng hai ph ng pháp đo l ng Cosine và Euclidean. T đó tìm ra m c

ng ng phù h p đ có đ c k t qu t i u nh t. C th có:

- 5 vector đ c t o t 4 ph ng pháp vector hóa

- 3 m c đ làm s ch d li u

- β ph ng pháp đo l ng: Cosine và Euclidean

T đó, s có kho ng 5*3*2 = 30 t h p đ c đánh giá trên các ng ng đ tìm ra b t h p có k t qu t t nh t. Là tham s đ u vào cho thu t gi i DBSCAN bên d i.

29

3.1.1.5. Gi i thu t phân c m DBSCAN

S d ng gi i thu t DBSCAN giúp phân lo i t p d li u tin đ ng thƠnh nh ng c m tin v i m c đ t ng đ ng đư xác đ nh. T ng h p k t qu sau khi ch y gi i thu t.

3.1.2. ng d ngăph ngăphápăl c c m tin vào c i ti n quy trình

T k t qu phân tích d li u. Tác gi t ng h p vƠ đ xu t ph ng án đ c i thi n quy trình tìm ki m ngu n hàng và k t n i môi gi i

3.1.3. Theoădõi,ăđánhăgiáăvƠăc i ti năph ngăpháp,ăquyătrình

Quy trình c i ti n m i sau đó s đ c đ xu t áp d ng và theo dõi nh m: - C i thi n ph ng pháp l c c m d a vào ph n h i t các nhóm s d ng - C i thi n quy trình, logic phân b

30

CH NGă4. TH C NGHI M VÀ K T QU TH C NGHI M

4.1. Xácăđ nhăph ngăphápăphơnăc m phù h p 4.1.1. Làm s ch d li u

Hình 12. làm s ch d li u m c đ 1

m c đ 1, d li u ch y u đ c làm s ch b ng cách lo i b các ký t đ c bi t, các hình, d u c m xúc (emoji), d u ký t (xu ng dòng, kho ng tr ng,ầ) vƠ lo i b vi c vi t hoa.

31

m c đ 2, nh đư trình bƠy trên ph n lý thuy t, bên c nh vi c xóa đi các kỦ t đ c bi t. Tác gi còn th c hi n chu n hóa l i nh ng t vi t t t, xác đnh danh m c m t s t ghép trong

l nh v c b t đ ng s n vƠ xác đnh t ghép Ti ng Vi t.

Vi c bi n đ i các c m t vi t t t đ c th c hi n thông qua vi c ph ng pháp rule-based. T c tác gi t o ra 1 t đi n các t vi t t t th ng xuyên g p trong l nh v c BDS và t chu n mà nó c n ph i chuy n thành. Ví d các t vi t t t nh “β pn” s đ c bi n đ i thƠnh “β

phòng_ng ”, thêm n a, các t nh (“wc”, “toilet”,ầ) s đ c chuy n chung v thành c m t “phòng t m”.

i v i vi c chu n hóa t ghép Ti ng Vi t, tác gi s d ng m t th vi n đư đ c t o s n b i nhóm nghiên c u Vi t Nam v i tên th vi n là Underthesea. Qua đó, các c m t nh “kinh

doanh” s đ c t o thành t ghép lƠ “kinh_doanh”, “di n tích

đ c chuy n thƠnh “di n_tích”,ầ

Hình 14. Làm s ch d li u m c đ 3

m c đ 3, tác gi th c hi n chu n hóa nh ng thơng tin liên quan đ n đ a ch (qu n, ph ng,

đ ng) có trong tin đ ng thƠnh nh ng t ghép. Ví d cơu “đ ng Nguy n Tri Ph ng” s tr

32

m c đ này, nh ng tính ch t liên quan đ n con s nh s l ng phòng ng , phòng t m, tr t, l u c ng đ c chu n hóa đ tr thành 1 c m t ghép. Ví d : “γ phịng ng 2 tr t 1 l u”

s tr thƠnh “γ_phòng_ng 2_tr t 1_l u” , các c m mô t di n tích ngang, dƠi c ng đ c bi n

đ i “γxβ0m” s tr thƠnh “ngang_γ dƠi_β0”.

Bên c nh đó, do tính ch t tin đ ng B t đ ng s n còn th ng xuyên xu t hi n tình tr ng tin

đ ng thi u d u, sai d u ch nh t ,ầ nên tác gi quy t đ nh s th c hi n kh d u bi n đo n mô t tin đ ng thƠnh đo n v n b n không d u.

NgoƠi ra, c ng v i đ c tính tin đ ng b t đ ng s n th ng ln có nh ng câu mơ t nh m gia

t ng s chú ý c a khách hƠng nh “g n ch , tr ng h c”, “khu v c an ninh, yên tính”,ầ

Nh ng câu mô t nƠy th ng không ph n ánh đúng tính ch t c a B t đ ng s n mà ch dùng

đ câu s chú ý c a ng i đ c. Nên m c đ làm s ch d li u này, tác gi quy t đnh s lo i b các c m t trên trong các tin đ ng.

D i đơy lƠ 1 ví d v k t qu c a 3 m c ch y làm s ch: Câu nguyên b n: “C N BÁN NHÀ NG BỐI ỊNH TÚY BỊNH TH NH PH NG 12 - DI N TÍCH 70M2, NGANG 5 DÀI 13 - 1 TR T 1 L U, 2 PHÒNG NG , 2 WC - NHÀ M I C S N S A L I NH M I V CÓ TH LI N - G N CH , TR NG H C CÁC C P” CơuăđưălƠmăs ch m căđ 1:

“c n bán nhƠ đ ng bùi đình túy bình th nh ph ng 12 di n tích 70m2, ngang 5 dài 13 1 tr t 1 l u, 2 phòng ng , 2 wc nhà m i đ c s n s a l i nh m i v có th li n g n ch , tr ng h c các c p”

CơuăđưălƠmăs ch m căđ 2:

“c n bán nhƠ đ ng bùi_đình túy bình_th nh ph ng 12 di n_tích 70 m2 , ngang 5 dài 13 1 tr t 1 l u , 2 phòng_ng , 2 phòng_t m nhà m i đ c s n s a l i nh m i v có_th li n g n ch , tr ng_h c các c p”

CơuăđưălƠmăs ch m căđ 3:

duong bui_dinh_tuy binh_thanh phuong_12 dien_tich 70_m2 ngang_5 dai_13 1_tret 1_lau 2_phong_ngu 2_phong_tam nha moi duoc son sua lai nhu moi ve co_the o lien”

33

4.2. Vector hóa

V i t ng m c đ làm s ch trên. Tác gi th c hi n Vector hóa v i 4 ph ng pháp:

- TFIDF - Onehot - WordCount - Doc2vec

Riêng v i DocβVec, đ t o đ c Vector thì c n ph i có d li u train. D li u train s là toàn b d li u v tin đ ng đư đ c x lý t ng m c đ làm s ch. Vì v y s có 3 mơ hình Doc2vec

t ng ng.

đánh giá hi u qu ch y c a nh ng ph ng pháp trên. Tác gi th c hi n 2 l n ch y riêng bi t, v i m i l n ch y so sánh lƠ 1000 dòng tin đ ng khác nhau.

V i γ ph ng pháp TFIDF, Onehot, WordCount chi u dài c a Vector s đúng b ng s l ng t có trong c m t đi n. C th m c làm s ch đ u tiên, chi u dài 3 vectors trên là 3900, m c làm s ch th 2, là 4519 và m c làm s ch th 3 là 4260.

Nh đư trình bƠy ph n lý thuy t, bên c nh vi c s d ng Vector Size t i u lƠ γ00, tác gi

s đánh giá thêm 1 mơ hình Docβvec v i tham s vector size dƠi t ng ng v i chi u dài Vector c a γ ph ng pháp trên (x p x 4000). Nh v y, s l ng ph ng pháp Vector hóa

th c ch y s là 5 lo i, bao g m: TFIDF, Onehot, WordCount, Doc2vec và Doc2vec v i tham s vector size = 300 trong khuôn kh Lu n v n nƠy s đ c g i là Doc2vec300.

4.2.1. Xácăđ nhăph ngăphápăVectorăvƠăthangăđoăphùăh p 4.2.1.1. S d ngăph ngăphápăđoăl ng Cosine

L n ch y th 1:

l n ch y đ u tiên v i 1000 d li u đ c n p vƠo ban đ u, và ch có 684 dịng tin đ ng th a mãn có s l ng ký t > 200. T ng s c p đ c th c hi n đo l ng kho ng cách là 229503 c p tin.

Có th th y s khác bi t v phân ph i c p theo ng ng đi m cosine c a các ph ng pháp

Vector. Vector TFIDF b t đ u g p khúc m nh t m c 0.9 , trong khi đó ph ng pháp

WordCount và Doc2vec300 b t đ u phân hóa m nh t ng ng 0.6. Tuy v y do vi c xác th c các c p tin s đ c th c hi n th công, tác gi s ch th c hi n xác th c t m c 0.4 cosine tr xu ng.

34

Hình 15. S l ng c p tin theo t ng ng ng cosine m c làm s ch đ u tiên - l n ch y 1

Hình 16. S l ng c p tin theo t ng ng ng cosine m c làm s ch th 2 - l n ch y 1 0 50000 100000 150000 200000 250000 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

S l ng c p tin theo t ng ng ng cosine

doc2vec doc2vec300 Onehot TFIDF WordCount 0 50000 100000 150000 200000 250000 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 S l ng c p tin theo t ng ng ng cosine

doc2vec doc2vec300 Onehot TFIDF WordCount

35

Hình 17. S l ng c p tin theo t ng ng ng cosine m c làm s ch th 3 - l n ch y 1 Hình trên c ng cho th y qua m i l n th c hi n làm s ch d li u, s g p khúc càng tr lên rõ

rƠng h nậ th hi n s phơn hóa khi nƠy c ng tr lên rõ r t h n.

Ph ng pháp so sánh Cosine v i m c đi m t m tính là 0.4 cho ra nhi u nh t 397 c p tin (kho ng 276 tin đ ng riêng l ). C th v i t ng lo i vector hóa khác nhau thì s l ng c p tin trùng lúc này s là:

Count Distinct Vector type

Level clean doc2vec doc2vec300 onehot tfidf wordcount

lv1 172 235 321 193 397

lv2 223 141 230 153 256

Một phần của tài liệu Ứng dụng các phương pháp vector hóa để loại bỏ tin đăng trùng trong lĩnh vực bất động sản (Trang 40)

Tải bản đầy đủ (PDF)

(85 trang)