Phương pháp đánh giá độ tương tự ngữ nghĩa giữa các văn bản Tiếng Việt dựa trên mô hình WORD2VEC - Ngô Hữu Phúc

Tài liệu Phương pháp đánh giá độ tương tự ngữ nghĩa giữa các văn bản Tiếng Việt dựa trên mô hình WORD2VEC - Ngô Hữu Phúc: Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 103 PHƯƠNG PHÁP ĐÁNH GIÁ ĐỘ TƯƠNG TỰ NGỮ NGHĨA GIỮA CÁC VĂN BẢN TIẾNG VIỆT DỰA TRÊN MÔ HÌNH WORD2VEC Ngô Hữu Phúc1*, Phạm Văn Lai2, Vi Bảo Ngọc1, Nguyễn Chí Công1, Nguyễn Mạnh Trường3 Tóm tắt: Đánh giá độ tương tự ngữ nghĩa giữa các văn bản được sử dụng trong nhiều ứng dụng như tìm kiếm thông tin, tóm tắt văn bản,và dịch máy. Với văn bản tiếng Việt, một trong các hướng tiếp cận là dựa trên việc so khớp từ bởi vì đơn giản, và dễ cài đặt. Gần đây, một phương pháp đánh giá mới được phát triển dựa trên việc so khớp từ và khoảng cách Levenshtein giữa 2 xâu. Tuy nhiên, phương pháp này chưa quan tâm đến hiện tượng từ đồng nghĩa. Trong bài báo này, chúng tôi tích hợp mô hình Word2Vec vào phương pháp trên nhằm bổ sung việc đánh giá ngữ nghĩa của các từ trong văn bản. Kết quả thử nghiệm cho thấy độ chính xác trung bình của phương pháp đề xuất được nâng từ 47.37% lên 79.07%. Từ ...

9 trang | Chia sẻ: quangot475 | Lượt xem: 501 | Lượt tải: 0

Bạn đang xem nội dung tài liệu Phương pháp đánh giá độ tương tự ngữ nghĩa giữa các văn bản Tiếng Việt dựa trên mô hình WORD2VEC - Ngô Hữu Phúc, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 103 PHƯƠNG PHÁP ĐÁNH GIÁ ĐỘ TƯƠNG TỰ NGỮ NGHĨA GIỮA CÁC VĂN BẢN TIẾNG VIỆT DỰA TRÊN MÔ HÌNH WORD2VEC Ngô Hữu Phúc1*, Phạm Văn Lai2, Vi Bảo Ngọc1, Nguyễn Chí Công1, Nguyễn Mạnh Trường3 Tóm tắt: Đánh giá độ tương tự ngữ nghĩa giữa các văn bản được sử dụng trong nhiều ứng dụng như tìm kiếm thông tin, tóm tắt văn bản,và dịch máy. Với văn bản tiếng Việt, một trong các hướng tiếp cận là dựa trên việc so khớp từ bởi vì đơn giản, và dễ cài đặt. Gần đây, một phương pháp đánh giá mới được phát triển dựa trên việc so khớp từ và khoảng cách Levenshtein giữa 2 xâu. Tuy nhiên, phương pháp này chưa quan tâm đến hiện tượng từ đồng nghĩa. Trong bài báo này, chúng tôi tích hợp mô hình Word2Vec vào phương pháp trên nhằm bổ sung việc đánh giá ngữ nghĩa của các từ trong văn bản. Kết quả thử nghiệm cho thấy độ chính xác trung bình của phương pháp đề xuất được nâng từ 47.37% lên 79.07%. Từ khóa: Xử lý ngôn ngữ tự nghiên; Học sâu; Độ tương tự ngữ nghĩa; Mô hình vector từ. 1. ĐẶT VẤN ĐỀ Đánh giá độ tương tự ngữ nghĩa giữa các văn bản đóng vai trò quan trọng trong phát triển các ứng dụng xử lý ngôn ngữ tự nhiên như: mô hình vector trong các bài toán tìm kiếm thông tin, phân lớp văn bản, dịch máy tự động, đánh giá tính chặt chẽ của văn bản, Trong một số trường hợp, phương pháp đánh giá độ tương tự giữa hai đoạn văn bản sử dụng việc so khớp từ đơn giản, dựa trên số đơn vị từ vựng xuất hiện ở cả hai đoạn văn bản đầu vào. Một số cải tiến với phương pháp đơn giản này đã được đề xuất để nâng cao hiệu quả đánh giá: xem xét đến gốc từ (stemming), loại bỏ các từ dừng, gán nhãn từ loại (part-of-speech tagging), so khớp tập con dài nhất, . Tuy nhiên, sử dụng độ tương tự từ vựng không phải lúc nào cũng xác định được độ tương tự ngữ nghĩa văn bản. Trong khi đó có rất nhiều phương pháp đánh giá độ tương tự ngữ nghĩa giữa từ với từ, hoặc dựa trên cơ sở tri thức (knowledge-based), hoặc dựa trên kho ngữ liệu (corpus-based). Các độ đo này được áp dụng thành công trong một số bài toán xử lý ngôn ngữ như phát hiện từ dùng sai nghĩa, nhận dạng từ đồng nghĩa, . Từ đó, một số nghiên cứu đưa ra các phương pháp đánh giá độ tương tự ngữ nghĩa văn bản dựa trên việc khai thác các thông tin có được từ độ tương tự ngữ nghĩa của các từ thành phần trong văn bản [6, 9, 12]. Đối với văn bản tiếng Việt, các mô hình tính độ tương tự văn bản thường dựa trên quan hệ ngữ nghĩa giữa các từ. Một số mô hình dựa trên bộ từ điển đồng nghĩa WordNet dành cho tiếng Anh [1], do WordNet cho tiếng Việt hiện vẫn đang được hoàn thiện và chưa được công bố. Do đó, các phương pháp dựa trên WordNet phụ thuộc vào việc dịch Anh – Việt. Một số phương pháp khác được đề xuất thay thế WordNet như phương pháp phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analysis - LSA), hay phân tích chủ đề ẩn (Latent Dirichlet Allocation – LDA), hoặc sử dụng mạng ngữ nghĩa Wikipedia [3]. Bên cạnh đó, nhóm tác giả H. N. Phát, H. H. Hạnh Công nghệ thông tin N. H. Phúc, , N. M. Tường, “Phương pháp đánh giá dựa trên mô hình Word2Vec.” 104 và P. C. Vinh [2] đề xuất một phương pháp đánh giá độ tương tự giữa hai văn bản dựa trên việc so khớp từ và khoảng cách Levenshtein giữa 2 xâu. Tuy nhiên, phương pháp này không thể khẳng định được độ tương tự ngữ nghĩa của văn bản do chưa quan tâm đến hiện tượng đồng nghĩa của từ. Trong những năm gần đây, một nhóm các nhà nghiên cứu dẫn đầu bởi Tomas Mikolov tại Google đã đưa ra mô hình Word2Vec dựa trên kỹ thuật học sâu (Deep Learning) [7,8]. Mô hình Word2Vec cũng không đòi hỏi khối lượng tính toán nhiều như LDA và nó giữ được mối quan hệ tuyến tính giữa các từ với nhau so với mô hình LSA. Trong [8], Mikolov cũng chỉ ra rằng việc kết hợp mô hình Skip- Gram với giải thuật học sâu đem lại kết quả tốt hơn mô hình LSA. Mô hình Word2Vec biểu diễn các từ thông qua các vector thực, từ đó có thể tính độ tương tự giữa về mặt ngữ nghĩa giữa từ và từ (từ đồng nghĩa) thông qua độ đo Cosine giữa các vector từ tương ứng. Do vậy, trong nghiên cứu này, chúng tôi sử dụng mô hình vector từ Word2Vec, để đánh giá độ tương từ giữa từ với từ, sau đó kết hợp với độ đo được đề xuất ở [2] để đưa ra một phương pháp mới nhằm đánh giá độ tương tự ngữ nghĩa giữa các văn bản tiếng Việt. 2. PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG TỰ GIỮA 2 CÂU 2.1. Khoảng Levenshtein và ứng dụng trong bài toán so khớp Khoảng cách Levenshtein [11] thể hiện sự khác biệt giữa 2 xâu kí tự. Khoảng cách này được sử dụng trong việc tính toán sự giống và khác nhau giữa 2 xâu, như chương trình kiểm tra lỗi chính tả của Winword Spellchecker. Dựa trên khoảng cách Levenshtein, một độ đo để xác định sự tương tự về từ vựng của các câu được đề xuất như sau [2]: giả sử, muốn tính toán sự tương tự về từ vựng giữa câu s và t, ta thực hiện các bước sau: - Bước 1: Thực hiện thao tác tách từ với 2 câu s, t. Sau đó đưa các từ vào hai túi từ tương ứng. - Bước 2: Loại bỏ các cặp từ giống nhau trong hai túi từ. - Bước 3: Nếu cả hai túi rỗng, khoảng cách giữa hai câu đầu vào sẽ là 0. Ngược lại, các từ còn lại trong hai túi được kết nối thành hai xâu s’ và t’, sau đó tính khoảng cách Levenshtein giữa 2 xâu s’ và t’. - Bước 4: Độ tương tự về từ vựng giữa 2 câu s và t được xác định như sau:     Levenshtein_distance ', ' Lexical_Similarity( , ) 1 max_len , s t s t s t   (1) Trong đó Levenshtein_distance là khoảng cách Levenshtein giữa xâu s’ và t’, và max_len là độ dài của câu dài nhất trong 2 câu s và t. Ví dụ: Tính độ tương tự về từ vựng của 2 câu: s = “Tôi đồng_ý với ý_kiến trên” ; t = “Tôi nhất_trí với ý_kiến trên” Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 105 Tách 2 câu s, t thành các từ, đưa chúng vào 2 túi từ: bag_of_words(s) = {“Tôi”, “đồng_ý”, “với”, “ý_kiến”, “trên”} bag_of_words(t) = {“Tôi”, “nhất_trí”, “với”, “ý_kiến”, “trên”} Loại bỏ các từ “Tôi”, “với”, “ý_kiến”, “trên” ra khỏi hai túi từ, ta thu được: bags_of_words(s) = {“đồng_ý”}; bags_of_words(t) = {“nhất_trí”} Nối các từ còn lại trong 2 túi từ thành 2 xâu, sau đó tính khoảng cách Levenshtein giữa 2 xâu được kết quả như sau:  Levenshtein_distance 7"®ång_ý","nhÊt trÝ" Như vậy, sự tương tự giữa 2 câu s và t sẽ là:     Levenshtein_distance s', t' 7 Lexical_Similarity( , ) 1 1 0.7586 max_len s, t 29 s t      Với kết quả trên, có thể thấy, mặc dù hai câu có nghĩa như nhau, tuy nhiên khoảng cách vẫn còn quá nhỏ. Đề xuất cải tiến mới được trình bầy trong mục 3 của phần này để khắc phục nhược điểm trên. 2.2. Mô hình vector từ Word2Vec Trong các bài toán xử lý ngôn ngữ tự nhiên, các từ thường được mã hóa bởi vector chỉ số (hay còn gọi là one-hot vector) có kích thước bằng kích thước của bộ tự điển, từ này xuất hiện tại vị trí nào trong từ điển thì thành phần tương ứng trong vector bằng 1 và ngược lại bằng 0. Cách biểu diễn này khá đơn giản, dễ hiểu tuy nhiên có nhược điểm: thứ nhất biểu diễn thu được thưa, thứ hai với cách biểu diễn này không thể hiện được mối quan hệ ngữ nghĩa giữa các từ. Khắc phục những nhược điểm này, một số phương pháp học máy đã tạo ra những cách biểu diễn tốt hơn, một trong đó là biểu diễn từ phân tán (distributed word representation) sử dụng mô hình Word2Vec. Có 2 mô hình Word2Vec [7,8] được đề xuất: mô hình CBOW (Contiuous Bag of Word) và mô hình Skip – Gram. Trong cả 2 mô hình, một cửa sổ sẽ dịch chuyển trên bộ ngữ liệu và tại mỗi bước mạng sẽ được huấn luyện với các từ nằm trong cửa sổ đó (còn được gọi là ngữ cảnh của từ). Mô hình CBOW được huấn luyện để dự báo từ xuất hiện ở trung tâm ngữ cảnh dựa vào các từ xung quanh, còn mô hình Skip – Gram được huấn luyện để dự báo ngữ cảnh xung quanh của từ. Sau khi mạng neuron được huấn luyện xong, vector thể hiện phép biến đổi tuyến tính ở lớp ẩn sẽ là vector biểu diễn của từ trung tâm. Trong các bài toán liên quan đến ngữ nghĩa của từ, mô hình Skip – Gram được đánh giá phù hợp hơn [12]. Do vậy, trong nghiên cứu này, chúng tôi sử dụng mô hình Skip – Gram. Mô hình Skip-Gram: Hình dưới thể hiện mô hình mạng Skip-Gram. Trong đó: V là kích thước của bộ từ điển; N là kích thước lớp ẩn (đồng thời cũng là kích thước của vector từ sẽ thu được sau khi huấn luyện); Đầu vào là từ vựng thứ k trong từ điển, ký hiệu k w , được mã hóa dưới dạng one – hot vector 1V x  ; V N W  là Công nghệ thông tin N. H. Phúc, , N. M. Tường, “Phương pháp đánh giá dựa trên mô hình Word2Vec.” 106 ma trận trọng số giữa lớp đầu vào và lớp ẩn; ' V N W  là ma trận trọng số giữa lớp ẩn và lớp đầu ra; C số từ trong ngữ cảnh của từ đầu vào. Quá trình học: • Trọng số của lớp ẩn được tính theo công thức: :W k T k w h x W v   • Đầu ra của node thứ j của từ ra thứ c ở lớp ra được tính thông qua hàm softmax như sau:       , , , 1 exp | exp c j j o c k c j V i i u p w w w y u      (2) trong đó: j w là từ thứ j trong từ điển; ,o cw là từ xuất hiện tại vị trí c trong ngữ cảnh; Do các kênh ở lớp ra có chung một trọng số nên ' , w j c j j u u v h  với ' w j v là hàng thứ j của ma trận ' V N W  • Ký hiệu * c j là vị trí của từ ,o c w trong từ điển; và     * , * 1 0 c c j c j j t j j       , như vậy ,c j t chính là đầu ra mong muốn tại kênh c. Do vậy, hàm lỗi ở lớp ra được tính như sau: , , ,c j c j c j e y t  • Cập nhật lần lượt các ma trận trọng số V N W  , ' V N W  theo công thức sau: Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 107 '(new) '( ) , 1 C old ij ij c j i c w w e h     ; ( ) ( ) ', 1 1 V C new old ij ij c j ij j j c w w e w x      (3) trong đó 0  là tham số huấn luyện. • Quá trình huấn luyện dừng khi vượt quá số lần lặp cho trước, hoặc khi sai số (lỗi) đủ nhỏ. 2.3. Độ tương tự giữa 2 văn bản dựa vào mô hình Word2Vec Với mô hình Word2Vec, dựa vào độ đo Cosine giữa 2 vector, ta có thể lựa chọn ra rất nhiều từ tương tự với từ đã cho (độ đo Cosine càng lớn, độ tương tự càng lớn). Tuy nhiên trong nghiên cứu này, chúng tôi chỉ lấy những từ có khoảng cách Cosine lớn hơn một ngưỡng xác định, ngưỡng này được lựa chọn thông qua thử nghiệm được trình bày ở mục 3. Ta gọi đó là các từ gần gũi (thường là các từ đồng nghĩa) với từ đã cho. Khi có tập từ gần gũi, ta sẽ cải tiến thuật toán đo độ tương tự về từ vựng giữa 2 câu để thu được độ tương tự ngữ nghĩa giữa 2 câu, cụ thể như sau: - Bước 1: Thực hiện thao tác tách từ với 2 câu s, t. Sau đó đưa các từ vào hai túi từ tương ứng. - Bước 2: Loại bỏ các cặp từ giống nhau trong hai túi từ. - Bước 3: Loại bỏ các cặp từ gần gũi trong hai túi từ. - Bước 3: Nếu cả hai túi rỗng, khoảng cách giữa hai câu đầu vào sẽ là 0. Ngược lại, các từ còn lại trong hai túi được kết nối thành hai xâu s’ và t’ và tính khoảng cách Levenshtein giữa 2 xâu đó. - Bước 4: Độ tương tự về ngữ nghĩa giữa 2 câu s và t được xác định như sau:     Levenshtein_distance ', ' Semantic _Similarity( , ) 1 max_len , s t s t s t   (4) Trong đó Levenshtein_distance là khoảng cách Levenshtein giữa xâu s’ và t’, và max_len là độ dài của câu dài nhất trong 2 câu s và t. Ví dụ: Tính độ tương tự về từ vựng của 2 câu: s = “Tôi đồng_ý với ý_kiến trên” t = “Tôi nhất_trí với ý_kiến trên” Tách 2 câu s, t thành các từ, đưa chúng vào 2 túi từ: bag_of_words(s) = {“Tôi”, “đồng_ý”, “với”, “ý_kiến”, “trên”} bag_of_words(t) = {“Tôi”, “nhất_trí”, “với”, “ý_kiến”, “trên”} Loại bỏ các cặp từ giống nhau ra khỏi túi từ. Ngoài ra, 2 cặp từ “đồng_ý” và “nhất_trí” có khoảng cách cosine là 0.67 nên ta có thể loại thêm 2 từ đó ra khỏi túi từ. Sau khi loại ta sẽ có các túi sau: bags_of_words(s) = {“”}; bags_of_words(t) = {“”} Như vậy, độ tương tự giữa câu s và t sẽ là: Công nghệ thông tin N. H. Phúc, , N. M. Tường, “Phương pháp đánh giá dựa trên mô hình Word2Vec.” 108     Levenshtein_distance "","" 0 Semantic_Similarity( , ) 1 1 1 max_len s, t 29 s t      Như vậy 2 câu trên tương tự với hệ số tương tự cao nhất. Kết quả cho thấy với việc sử dụng mô hình Word2Vec để xác định các từ gần gũi, độ đo Sematic_Simlarity đã phản ánh được độ tương tự về mặt ngữ nghĩa giữa 2 câu. 3. THỬ NGHIỆM VÀ ĐÁNH GIÁ Các thử nghiệm của chúng tôi được tiến hành cài đặt và chạy thử nghiệm trên máy Laptop Core i5 tốc độ 1.6 Ghz, 8 Gb Ram. Với mô hình Word2Vec, độ tương tự giữa hai từ được dựa vào độ đo Cosine giữa 2 vector, độ đo Cosine càng lớn, độ tương tự càng lớn. Tuy nhiên, chưa có nghiên cứu nào chỉ ra 2 từ đồng nghĩa thì có khoảng cách Cosine bằng bao nhiêu, do vậy chúng tôi tiến hành thử nghiệm nhằm tìm ra một giá trị ngưỡng phù hợp để xác định 2 từ gần gũi (đồng nghĩa). Hai từ sẽ được coi là gần gũi nếu khoảng cách Cosine giữa 2 từ này lớn hơn hoặc bằng giá trị ngưỡng. Trong các thử nghiệm, để thu được vector từ, chúng tôi sử dụng mô hình đã được huấn luyện và công bố tại mô hình này sử dụng thư viện Deeplearning4j trong Java. Sau đó, chúng tôi huấn luyện bổ sung với ngữ liệu thu được từ các văn kiện Đại hội Đảng, báo lao động, báo nhân dân, .. Dữ liệu tiếng Việt đầu vào được xử lý tách câu và tách từ lần lượt, sử dụng 2 công cụ vnSentDetector và vnTokenizer do nhóm của Lê Hồng Phương và đồng nghiệp xây dựng[ 4,5]. Thử nghiệm 1. Xác định ngưỡng tương tự giữa từ với từ Trong thử nghiệm này, chúng tôi lấy 300 từ trong từ điển, sau đó với mỗi từ, sử dụng lần lượt các ngưỡng 0.4, 0.5, 0.6 để xác định các từ gần gũi với từ đã cho. Kết quả được thể hiện ở Bảng 1. Bảng 1. Thử nghiệm độ tương tự từ với từ trong Word2Vec. Ngưỡng = 0.4 Ngưỡng = 0.5 Ngưỡng = 0.6 SL từ gần gũi TB thu được SL từ sai TB Tỉ lệ sai SL từ gần gũi TB SL từ sai TB Tỉ lệ sai % SL từ gần gũi TB SL từ sai TB Tỉ lệ sai % 39.11 36.46 46.62 % 18.05 2.12 11.75 % 8.45 0.46 2.57 % Từ kết quả ta nhận thấy: Với ngưỡng 0.4, với mỗi từ thu được trung bình khoảng 39 từ được xem là đồng nghĩa, tuy nhiên trong đó khi được xem xét cụ thể về mặt ngữ nghĩa có tỉ lệ sai lên đến 46.62%. Tương tự với ngưỡng 0.5 và 0.6 tỉ lệ sai lần lượt là 11.75% và 2.57%. Với ngưỡng 0.6, tỉ lệ sai nhỏ tuy nhiên số từ đồng nghĩa Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 109 tìm được cũng ít đi đáng kể, chỉ khoảng 8 từ, trong khi với Tiếng Việt có rất nhiều từ đồng nghĩa. Do vậy, chúng tôi chọn ngưỡng 0.5 do có số lượng từ vừa đủ, trung bình với mỗi từ ta tìm được 18 từ đồng nghĩa vài tỉ lệ sai vào khoảng 11.75%. Thử nghiệm 2. Xác định ngưỡng tương tự giữa câu với câu Cũng tương tự như việc xác định 2 từ đồng nghĩa, để xác định 2 câu đồng nghĩa ta cũng cần xác định các ngưỡng về độ đo. Trong thử nghiệm này, để xác định ngưỡng phù hợp với từng độ đo, chúng tôi tiến hành tính độ tương tự giữa 150 cặp câu đồng nghĩa, với 2 độ đo: Lexical_Similarity được đề xuất trong [2], và độ đo Semantic_Similarity do chúng tôi đề xuất. Độ tương tự trung bình của 150 cặp câu tương ứng với 2 độ đo Lexical_Similarity và Semantic_Similarity là 0.4144 và 0.672. Do vậy, trong thử nghiệm tiếp theo, để xác định độ tương tự giữa 2 câu, chúng tôi sử dụng ngưỡng 0.4 cho độ đo Lexical_Similarity và ngưỡng 0.6 cho độ đo Semantic_Similarity. Thử nghiệm 3. Tìm câu đồng nghĩa với câu cho trước trong một văn bản. Nghiên cứu của chúng tôi được sử dụng để hỗ trợ quá trình tổng hợp ý kiến hội nghị, do vậy sau khi xác định ngưỡng với từng độ đo, chúng tôi tiến hành thử nghiệm tìm câu đồng nghĩa với câu cho trước trong một văn bản gồm n câu (so khớp 1 – n). Bài toán tổng hợp ý kiến hội nghị có thể được phát biểu ngắn gọn như sau: trong một cuộc họp có nhiều chủ đề, với mỗi chủ đề có n ý kiến phát biểu, mỗi ý kiến có m thư kí ghi chép lại. Người tổng hợp biên bản sẽ có văn bản được tổng hợp từ m thư ký. Như vậy số lượng các nội dung trùng lặp là nhiều, có thể trùng lặp toàn bộ hoặc một phần nội dung nhưng được diễn đạt theo các cách khác nhau cả về hình thức lẫn ngữ nghĩa. Người tổng hợp biên bản muốn thực hiện công việc một cách nhanh chóng cần phát hiện và loại bỏ các ý kiến trùng lặp về nội dung và hình thức để đưa ra được đánh giá chung nhất. Do vậy các văn bản thử nghiệm có thể coi là văn bản được tổng hợp từ m thư ký, như vậy với 1 nội dung sẽ có m cách diễn đạt khác nhau, tương ứng với m câu đồng nghĩa xuất hiện trong văn bản đó. Bảng 2 và bảng 3 thể hiện kết quả tìm kiếm sử dụng lần lượt độ đo Lexical_Similarity và Sematic_Similarity. Bảng 2. Thử nghiệm so khớp 1 – n với độ đo Lexical_Similarity. STT n m Đúng Sai Thiếu Tỉ lệ đúng Tỉ lệ sai Tỉ lệ thiếu 1 10 4 2 1 1 50.00% 25.00% 25.00% 2 50 7 3 2 2 42.86% 28.57% 28.57% 3 100 20 9 3 8 45.00% 15.00% 40.00% 4 200 45 22 8 15 48.89% 17.78% 33.33% Tổng 360 76 36 14 26 47.37% 18.42% 34.21% Công nghệ thông tin N. H. Phúc, , N. M. Tường, “Phương pháp đánh giá dựa trên mô hình Word2Vec.” 110 Bảng 3. Thử nghiệm so khớp 1 – n với độ đo Semantic_Similarity 1-n. STT n m Đúng Sai Thiếu Tỉ lệ đúng Tỉ lệ sai Tỉ lệ thiếu 1 10 4 3 1 0 75.00% 25.00% 0.00% 2 50 7 6 1 0 85.71% 14.29% 0.00% 3 100 20 16 3 1 80.00% 15.00% 5.00% 4 200 45 34 7 4 75.56% 15.56% 8.89% Tổng 360 60 47 9 4 79.07% 17.46% 3.47% Kết quả thu được cho thấy độ đo đề xuất Semantic_Similarity cho đã nâng độ chính xác trung bình từ 47.37% lên 79.07% 4. KẾT LUẬN Với việc xác định các tập từ đồng nghĩa dựa trên khoảng cách Cosine giữa 2 vector mã hóa từ xác định bởi mô hình Word2Vec, chúng tôi đã đề xuất một phương pháp mới đo độ tương tự ngữ nghĩa giữa hai văn bản tiếng Việt. Kết quả thử nghiệm cho thấy rằng độ đo mới thu được kết quả tốt và tỏ ra phù hợp khi áp dụng vào bài toán tổng hợp văn bản. Trong thử nghiệm với bài toán tổng hợp văn bản tiếng Việt, kết quả đạt được là trên 75% có thể chấp nhận được trong những điều kiện thực tế. Phương pháp đề xuất không xét đến từ loại, do đó khi áp dụng trong các ứng dụng xử lý ngôn ngữ tự nhiên khác cần thêm các nghiên cứu tiếp theo. TÀI LIỆU THAM KHẢO [1]. D. T. Long, T. T. Tùng, T. T. Dũng, Phương pháp đánh giá độ tương tự văn bản Tiếng Việt, Tạp chí Khoa học Viện Đại học Mở Hà Nội, 2017. [2]. H. N. Phát, H. H. Hạnh và P. C. Vinh, Thuật toán mới về so khớp Ontology, FAIR, 2015. [3]. Hien Nguyen, Phuc Duong, Vinh Vo, Vietnamese Sentence Similarity Based on Concepts, 13th IFIP International Conference on Computer Information Systems and Industrial Management (CISIM), Nov 2014. [4]. L. H. Phuong and H. T. Vinh, A Maximum Entropy Approach to Sentence Boundary Detection of Vietnamese Texts, IEEE International Conference on Research, Innovation and Vision for the Future RIVF 2008, Vietnam, 2008 [5]. L. H. Phuong, N.T.M. Huyen, Roussanaly A., H. T. Vinh, A Hybrid Approach to Word Segmentation of Vietnamese Texts. In: Martín-Vide C., Otto F., Fernau H. (eds) Language and Automata Theory and Applications. LATA 2008. Lecture Notes in Computer Science, vol 5196. Springer, Heidelberg, 2008. [6]. Landauer, T. K., Foltz, P. and Laham, D., Introduction to latent semantic analysis. Discourse Processes 25, 1998. Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 111 [7]. Mikolov, T., Chen, K., Corrado, G., and Dean, J., Efficient estimation of word representations in vector space, arXiv preprint arXiv:1301.3781, 2013. [8]. Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., and Dean, J., Distributed representations of words and phrases and their compositionality, In Advances in Neural Information Processing Systems, 2013, 3111-3119. [9]. Rada Mihalcea, CourtneyCorley, Carlo Strapparava, Corpus-based and Knowledge-based Measures of Text Semantic Similarity, American Association for Artificial Intelligence, 2006, 775-780. [10]. Voorhees, E. Using WordNet to disambiguate word senses for text retrieval. Proceedings of the 16th international ACM SIGIR conference, 1993. [11]. V. I. Levenshtein, Binary codes capable of correcting deletions, insertions, and reversals, Soviet Physics Doklady10, 1966, 707–710 [12]. Xin Rong, Word2Vec Parameter Learning Explained, Journal of Computing Research Repository, 2014. [13]. Yuhua Li, David McLean, Zuhair A. Bandar, James D. O’Shea, and Keeley Crockett, Sentence Similarity Based on Semantic Nets and Corpus Statistics, IEEE transactions on knowledge and data engineering, Vol. 18, No. 8, 2006. ABSTRACT A NEW METHOD FOR EVALUATING SEMANTIC SIMILARITY OF VIETNAMESE TEXTS BASED ON WORD2VEC MODEL Evaluation of semantic similarity has been used in many applications such as information retrieval, text summarization, and machine translation. Some methods for evaluating semantic similarity of Vietnamese are based on word matching because of simplify and easy implementation. Recently, there was a proposed measure of text similarity by combining the word matching and Levenshtein distance of two strings. However, this method does not consider synonyms. This paper presents a novel method for measuring the semantic similarity of Vietnamese texts by integrating Word2Vec model into the above method. The novelty of proposed methods is the compensation of the semantic similarity evaluation by the Word2Vec model. The results show that the proposed measure outperforms, and it increases the average accuracy from 47.37% to 78.83%. Keywords: Natural Language Processing; Deep Learning; Sematic Similarity; Word2Vec. Nhận bài ngày 27 tháng 6 năm 2018 Hoàn thiện ngày 27 tháng 9 năm 2018 Chấp nhận đăng ngày 05 tháng 11 năm 2018 Địa chỉ: 1 Học viện Kỹ thuật quân sự ; 2 Viện Công nghệ Thông tin/ Viện KH – CNQS; 3 Cục 75, Tổng cục 2. * Email: laipv1984@gmail.com.

Các file đính kèm theo tài liệu này:

11_phuc_5097_2150529.pdf