Kỹ thuật điện tử & Khoa học máy tính 
N. N. An, N. Q. Bắc, N. Đ. Hiếu, T. N. Anh,“Xác định các hệ số văn bản tiếng Việt.”  36    
X¸c ®Þnh c¸c hÖ sè ®Æc trng 
b»ng gi¶I thuËt di truyÒn cho bµi to¸n 
tãm t¾t v¨n b¶n tiÕng viÖt 
NGUYỄN NHẬT AN*, NGUYỄN QUANG BẮC*,  
NGUYỄN ĐỨC HIẾU**, TRẦN NGỌC ANH** 
Tóm tắt: Tóm tắt văn bản là quá trình rút gọn văn bản mà vẫn giữ được 
những thông tin quan trọng. Bài báo này đề xuất một tiếp cận mới trong tóm tắt 
văn bản tiếng Việt theo hướng trích rút (Extraction Summarization) dựa trên các 
đặc trưng quan trọng như vị trí câu, độ dài câu, trọng số TFxISF, xác suất thực 
từ, độ tương tự với chủ đề, câu trung tâm... Đầu tiên, chúng tôi xác định tập đặc 
trưng quan trọng trong văn bản tiếng Việt. Bước tiếp theo sử dụng giải thuật di 
truyền để xác định hệ số các đặc trưng từ kho ngữ liệu huấn luyện. Thử nghiệm 
tóm tắt văn bản với các hệ số thu được từ giải thuật di truyền cho thấy, văn bản 
tóm tắt có độ chính xác cao, có thể áp dụng tốt trong thực tế. 
Từ khóa: Tóm tắt văn bản tiếng Việt, Đặc trưng văn bản, Hệ số đặc trưng văn bản, Giải thuật di truyền. 
 1. ĐẶT VẤN ĐỀ 
Trong thời đại bùng nổ thông tin điện tử, nhu cầu tự động tổng hợp thông tin nổi bật từ 
kho văn bản điện tử khổng lồ đó trở nên đặc biệt quan trọng và được sự quan tâm rộng rãi. 
Tóm tắt văn bản là quá trình rút gọn văn bản mà vẫn giữ được những thông tin quan trọng 
của văn bản. Kỹ thuật tóm tắt văn bản được các nhà nghiên cứu phân ra thành hai loại là: 
tóm  tắt  văn  bản  là  tóm  tắt  rút  trích  ES(Extraction  Summarization)  và  tóm  tắt  tóm  lược 
AS(Abstraction Summarization)[17]. Đối với tóm tắt văn bản tiếng Việt, các nghiên cứu 
chủ yếu dựa theo hướng tiếp cận ES là thông qua tính toán các đặc trưng tần suất từ, vị trí 
câu,  từ  tiêu  đề,  độ  tương  tự...  để  chọn  ra  các  câu  quan  trọng  nhất  theo  tỉ  lệ  trích  rút 
[3,4,5,6,7,8]. Tuy nhiên, các nghiên cứu đều chưa chỉ ra được việc sử dụng hệ số các đặc 
trưng như thế nào là hợp  lý để cho bản tóm tắt  tốt và chưa xây dựng được một phương 
pháp tính toán các hệ số thông qua quá trình học.  
Đối với ngôn ngữ tiếng Anh, vấn đề nêu trên đã được một số nhà nghiên cứu giải quyết 
theo hướng học máy bằng giải thuật di truyền [12,13] và cho kết quả khả quan. Tuy nhiên, 
khó có thể áp dụng trực tiếp cho tiếng Việt vì các đặc trưng ngôn ngữ tiếng Việt và tiếng 
Anh khác nhau (do loại hình ngôn ngữ, do nền văn hóa) chẳng hạn: khác biệt về ngữ âm 
học, hình vị, ranh giới từ, từ loại; trật tự từ (tính từ và danh từ), kết cấu câu (chủ đề và cụm 
chủ vị),  Do vậy, các đặc trưng văn bản tiếng Anh và tiếng Việt là khác nhau. Mặt khác, 
do tiếng Việt chưa xây dựng được từ điển, kho ngữ liệu đầy đủ và chưa có Vietworknet 
nên sử dụng các phương pháp tiếng Anh áp dụng cho tiếng Việt không mấy hiệu quả. 
Nhận thấy đây là một hướng nghiên cứu mới trong tiếng Việt, do đó trong bài báo này 
chúng tôi sẽ nghiên cứu, đề xuất hướng tiếp cận mới trong tóm tắt văn bản tiếng Việt bằng 
giải thuật di truyền dựa trên các đặc trưng văn bản quan trọng. 
Nghiên cứu giải quyết hai vấn đề chính: Một là, xác định tập đặc trưng quan trọng của 
văn bản tiếng Việt; hai là, xác định bộ hệ số đặc trưng bằng giải thuật di truyền thông qua 
quá trình học tập văn bản tóm tắt mẫu. Từ bộ hệ số đặc trưng đó, chúng tôi tiến hành thử 
nghiệm tóm tắt văn bản và đánh giá chúng.  
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số 32, 08 - 2014                               37
Nghiên cứu được trình bày theo thứ tự sau: Phần 2 trình bày nội dung nghiên cứu; Phần 
3 trình bày các kết quả thử nghiệm, và so sánh đánh giá; cuối cùng kết luận được trình bày 
trong Phần 4. 
2. NỘI DUNG CẦN GIẢI QUYẾT 
2.1. Bài toán tóm tắt đơn văn bản tiếng Việt theo hướng trích rút 
Quy trình thực hiện tóm tắt đơn văn bản tổng quát theo hướng trích rút: 
Bước 1. Tiền xử lý văn bản đầu vào: tách câu, tách từ, gán nhãn, lọc bỏ các hư từ.  
Bước 2. Tính trọng số các câu theo các đặc trưng văn bản như. 
Bước 3. Sắp xếp các câu theo trọng số, rút trích các câu có trọng số cao theo tỉ lệ. 
Bước 4. Xuất các câu đã rút trích theo thứ tự xuất hiện trong văn bản gốc.  
Hình 1. Quy trình tóm tắt đơn văn bản tổng quát. 
Công thức tổng quát để tính trọng số câu thông qua tập đặc trưng quan trọng được mô 
tả như sau: 
   
z
1
i ti
i
Score s k Score s
    (1) 
trong đó,  z  số  đặc  trưng,   tiScore s là  trọng  số  của  các đặc  trưng  trong  câu  s,  ti là  đặc 
trưng thứ i của văn bản. 
Qua đây, ta có thể nhận xét rằng, bài toán tóm tắt đơn văn bản tiếng cần xác định được 
2 yếu tố quan trọng là: 
- Xác định tập đặc trưng quan trọng của văn bản tiếng Việt 
- Xác định bộ hệ số đặc trưng như thế nào?  
Phần tiếp theo chúng tôi sẽ trình bày rõ tập đặc trưng quan trọng của văn bản tiếng Việt 
và cách xác định bộ hệ số đặc trưng. 
2.2. Xây dựng tập đặc trưng văn bản quan trọng cho văn bản tiếng Việt 
Để xây dựng tập đặc trưng văn bản tiếng Việt, chúng tôi sử dụng quan điểm phân loại 
từ vựng tiếng Việt của Diệp Quang Ban[1]. Theo tác giả, từ loại tiếng Việt được chia làm 
hai loại chính là thực từ và hư từ. Thực từ là những từ có ý nghĩa từ vựng (nghĩa là mang 
thông tin) còn hư từ là những từ chỉ có chức năng ngữ pháp (không mang thông tin). Do 
vậy, chúng tôi chỉ tiến hành tính toán các đặc trưng dựa trên thực từ, còn hư từ bị loại bỏ. 
Ngoài ra, ở bước tiền xử lý, để nâng cao độ chính xác, các thực từ đồng nghĩa trong tiêu 
đề, nội dung được thay thế bằng một  từ duy nhất bằng cách sử dụng từ điển đồng nghĩa 
của tác giả Nguyễn Văn Tu[2]. 
2.2.1. Ví trí câu 
Định nghĩa 1: Độ quan trọng của câu của văn bản dựa theo đặc trưng vị trí được xác 
định là giá trị vị trí của câu trong một đoạn văn bản. 
Đối với văn bản tiếng Việt thường câu đầu tiên trong đoạn là quan trọng nhất. Giả sử s 
là một câu trong văn bản gốc, k là vị trí của câu s trong đoạn văn bản chứa câu s. Độ quan 
trọng của câu trong một đoạn văn bản được tính theo công sau: 
              1
1
fScore s
k
   (2) 
Văn 
bản 
TIỀN 
XỬ LÝ: 
Tách câu, 
tách từ, 
gán nhãn, 
 loại hư 
TÍNH 
TRỌNG 
SỐ CÂU 
theo  
các đặc 
trưng 
SẮP 
XẾP 
theo  
trọng số,  
rút trích  
theo tỉ lệ 
XUẤT 
CÂU 
Theo tứ 
tự xuất 
hiện 
trong văn 
Văn bản 
Tóm 
tắt 
Kỹ thuật điện tử & Khoa học máy tính 
N. N. An, N. Q. Bắc, N. Đ. Hiếu, T. N. Anh,“Xác định các hệ số văn bản tiếng Việt.”  38    
2.2.2. Trọng số TF.ISF(term frequency- inverse sentence frequency) 
Định nghĩa 2:  Độ quan trọng của câu trong văn bản dựa theo đặc trưng trọng số 
TF.ISF được tính bằng giá trị trung bình cộng các trọng số TF.ISF của các thực từ trong 
câu. 
Phương pháp này bắt nguồn từ công thức nổi tiếng TFxIDF( term frequency – inverse 
document frequency), được sử dụng để xác định mức độ quan trọng của từ trong một văn 
bản, mà văn bản đó nằm trong một tập hợp các văn bản. Công thức này phù hợp với bài 
toán tóm tắt đa văn bản. Ở đây, chúng tôi tiếp cận bài toán đơn văn bản nên tính độ quan 
trọng của câu trong một câu thông qua trung bình cộng độ quan trọng của thực từ  trong 
câu (TFxISF: term frequency- inverse sentence frequency): 
       2
1
1
,
wN
f k k
kw
Score s TF w s ISF w
N 
  (3) 
trong đó, wk  là thực từ thứ k trong câu s, Nw là số các thực từ có trong câu s,  ,kTF w s  
là số lần xuất hiện của thực từ wk trong câu s,  
 
s
k
k
N
ISF w log
SF w
 
   
 
   là nghịch đảo của 
tần suất từ wk , NS là là tổng số câu có trong văn bản, SF(wk) là tổng số câu trong văn bản 
có chứa thực từ wk. 
2.2.3. Độ dài câu 
Định nghĩa 3: Độ quan trọng của câu trong văn bản dựa theo đặc trưng độ dài câu 
được tính bằng giá trị phân bố độ dài câu tính theo thực từ trong kho ngữ liệu lớn. 
Theo quan điểm của chúng tôi, công thức độ dài câu được xây dựng dựa theo số thực 
từ mà câu đó chứa. Do vậy, khác với quan điểm của các nghiên cứu trước đây là câu quá 
ngắn hoặc quá dài đều không chứa trong văn bản tóm tắt. Chúng tôi sử dụng đặc trưng độ 
dài câu cho tất cả các câu trong văn bản thông qua độ đo được tính toán qua quá trình khảo 
sát kho ngữ liệu tiếng Việt.  
Hình 2. Sơ đồ phân bố độ dài câu tính theo thực từ của ~ 20.000 văn bản tiếng Việt 
được chuẩn hoá về đoạn [0,1]. 
Công thức độ dài câu được xây dựng như sau: 
               
2
2
3
2
, 0 12 
,  12
22
f
ax bx c x
Score s x
exp x
 
    
     
    
   
 (4) 
trong đó, a = - 0.00529, b =  0.12174, c = 0.3;  = 26.3 ,  = 11.5,   = 10.5 
2.2.4. Xác suất thực từ 
Định nghĩa 4: Độ quan trọng của câu trong văn bản dựa theo đặc trưng xác xuất thực 
từ được tính bằng giá trị trung bình cộng xác suất unigram của các thực từ trong câu. 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số 32, 08 - 2014                               39
Đặc  trưng này sử dụng xác  suất unigram của các  thực  từ để  làm nền  tảng  tính  toán 
trọng số câu. Câu có chứa nhiều thực từ có tần suất xuất hiện cao trong toàn văn bản thì 
câu đó càng quan trọng. 
               4
1
1 wN
f k
w k
Score s P w
N 
    (5) 
trong đó,  
 k
k
uni
C w
P w
N
   xác suất unigram của từ wk, C(wk) là số lần xuất hiện của thực từ 
wk trong văn bản, Nuni là tổng số các thực từ (các unigram) trong văn bản. 
2.2.5. Thực thể tên 
Định nghĩa 5: Độ quan trọng của câu trong văn bản dựa theo đặc trưng thực thể tên 
được tính bằng thương của số thực thể tên xuất hiện trong câu và số thực từ có trong câu. 
Đặc trưng này đếm số của các thực thể tên (như danh từ riêng, từ viết tắt) trong một 
câu. Trong nghiên cứu này, các thực thể có tên được nhận biết thông qua nhãn Np, Ny của 
công cụ gán nhãn vnTagger[11].  
              
 
 5
name
f
w
N s
Score s
N s
   (6) 
trong đó, Nname(s) là số thực thể tên xuất hiện trong câu, Nw (s) số các thực từ có trong câu s. 
2.2.6. Dữ liệu số 
Định nghĩa 6: Độ quan trọng của câu trong văn bản dựa theo đặc trưng dữ liệu số 
được tính bằng thương của số thực từ là dữ liệu số xuất hiện trong câu và số thực từ có 
trong câu. 
Đặc trưng này được đưa ra dựa theo quan điểm của một số nhà nghiên cứu tóm tắt văn 
bản xem rằng các thuật ngữ được viết dưới hình thức số đôi khi truyền đạt thông tin quan 
trọng. Đặc trưng này đếm số thực từ dạng dữ liệu số xuất hiện trong một câu được nhận 
biết thông qua nhãn M của công cụ gán nhãn vnTagger[11]:  
                 
 
 6
num
f
w
N s
Score s
N s
   (7) 
trong đó,   numN s là số thuật ngữ dữ liệu số xuất hiện trong câu. 
2.2.7. Tương tự với tiêu đề 
Định nghĩa 7: Độ quan trọng của câu trong văn bản dựa theo đặc trưng tương tự với 
tiêu đề được tính bằng phép đo đồng xuất hiện thực từ giữa câu và câu tiêu đề. 
Đặc trưng này xem xét độ đồng xuất hiện thực từ giữa câu và câu tiêu đề của văn bản. 
Được tính dựa theo phép đo đồng xuất hiện Dice[10]:  
                 7 , 2f Dice
S T
Score s Sim S T
S T
  
   (8) 
trong đó,  1 2  , , , NS s s s  là vetor thực từ khác nhau của câu,  1 2, , , MT t t t  là vetor 
thực từ khác nhau của câu tiêu đề,  S T là số thực từ đồng xuất hiện trong S vàT . 
2.2.8. Câu trung tâm 
Định nghĩa 8: Độ quan trọng của câu trong văn bản dựa theo đặc trưng câu trung 
tâm được tính bằng giá trị trung bình cộng xác độ tương tự giữa câu và các câu khác 
trong văn bản. 
Đặc  trưng này xem xét độ đồng xuất hiện của các  thực  từ giữa một câu và các câu 
khác  trong  văn  bản.  Đặc  trưng  này  được  tính  toán  dựa  vào  phương  pháp  Aggregation 
Similarity [13], được mô tả bằng công thức sau: 
Kỹ thuật điện tử & Khoa học máy tính 
N. N. An, N. Q. Bắc, N. Đ. Hiếu, T. N. Anh,“Xác định các hệ số văn bản tiếng Việt.”  40    
                8
1,
,
m
f Dice i j
j j i
Score s Sim S S
 
    (9) 
Trong đó:   ,Dice i jSim S S  là phép đo đồng xuất hiện Dice giữa câu thứ i với câu thứ j 
được tính tương tự như công thức (8). 
2.3. Học hệ số các đặc trưng bằng giải thuật di truyền 
Trong nghiên cứu này, chúng tôi đề xuất phương pháp kết hợp tuyến tính giữa 8 đặc 
trưng được trình bày ở trên để tính điểm số cho câu. Những câu có điểm số cao được lựa 
chọn tạo thành bản tóm tắt theo tỉ lệ người dùng mong muốn. Điểm số của câu được tính 
như sau: 
                   
8
1
i fi
i
Score s k Score s
    (10) 
Trong đó:   fiScore s là điểm số của đặc trưng i và  ik là hệ số của nó.  
Giải  thuật di truyền là một  trong những phát  triển quan trọng của những nhà nghiên 
cứu về tính toán ứng dụng cuối thế kỷ trước trong việc giải xấp xỉ các bài toán tối ưu toàn 
cục. Mặt khác, giải thuật di truyền giản đơn khá đơn giản và thời gian tìm nghiệm toàn cục 
nhanh. Do vậy, trong nghiên cứu này chúng tôi sử dụng giải thuật di truyền để tìm bộ hệ 
số k của các đặc trưng thông qua quá trình học kho ngữ liệu do con người tóm tắt. Mô hình 
học hệ số được mô tả trong hình 3. 
Hình 3. Mô hình học hệ số đặc trưng bằng thuật toán di truyền. 
Sau đây chúng ta sẽ lần lượt hình thức hóa bài toán tìm hệ số đặc trưng trên ngôn ngữ 
của giải thuật di truyền. 
Bài toán tìm hệ số đặc trưng cho bài toán tóm tắt văn bản được xác định bởi các dữ 
liệu sau:        1 2 1 2 1 2, , , , , , , , , , , , ,m m nm a D d d d sh sh sh sh t t t t      
trong đó, m là số văn bản đầu vào để học, a là tỷ lệ tóm tắt, t là các đặc trưng được sử dụng 
để tóm tắt văn bản, đối với mỗi văn bản học thứ j: 
jd là văn bản toàn văn chứa tiêu đề và 
các câu nội dung, 
jsh là bản tóm tắt con người của văn bản đó. 
Bài toán đặt ra là tìm các hệ số đặc trưng k sao cho bản tóm tắt trích rút dựa vào các 
đặc trưng theo tỉ lệ tóm tắt a "gần giống" với bản tóm tắt con người nhất. 
Các đặc trưng 
Tập văn bản mẫu 
Tóm tắt bằng tay 
Đánh giá độ thích nghi Khởi tạo quần 
thể ban đầu 
Xây dựng quần 
thể mới 
Điều kiện dừng 
Nhiễm sắc thể 
Chọn lọc 
Lai ghép 
Đột biến Bộ hệ số đặc 
trưng k1,...,k8 
đúng 
sai 
Tập văn bản mẫu 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số 32, 08 - 2014                               41
Một bản "tóm tắt vàng" của hệ  thống sinh  ra  theo quan điểm của chúng  tôi  cần đạt 
được tiêu chí là chứa hầu hết các từ liên quan trong văn bản tóm tắt của con người. Độ đo 
được định nghĩa như sau: 
Định nghĩa 9: Độ đo đánh giá văn bản tóm tắt được định nghĩa bằng độ tương tự 
giữa văn bản tóm tắt của hệ thống với văn bản tóm tắt con người (ROUGE-N): 
                 
 , , ,
, , , ,   
ii
ii
i
Sum a d t k SH
Sim Sum a d t k SH
SH
   (11) 
trong đó,     1, , , , ,    i iriSum a d t k sm sm  là vector thực từ khác nhau của văn bản tóm 
tắt của hệ thống theo bộ đặc trưng t và bộ hệ số k theo tỉ lệ tóm tắt a của văn bản di 
 1, ,i i ilSH sh sh    là vector  thực từ khác nhau của văn bản tóm tắt của con người của 
văn bản di 
Giả sử   1 2, ,  ns k k k  là bộ hệ số đặc trưng chấp nhận được. Khi đó mô hình bài 
toán tìm hệ số đặc trưng tóm tắt văn bản được phát biểu như sau: 
   
  
1
, , , , 
, , , ,
m
ii
i
Sim Sum a d t k SH
DFC m a d sh t max
m
    (12) 
với miền ràng buộc: 
1
1; 0
n
i i
i
k k
   
Sau đây chúng ta sẽ lần lượt hình thức hóa bài toán xác định hệ số đặc trưng bằng giải 
thuật di truyền cho bài toán tóm tắt văn bản trên ngôn ngữ của giải thuật di truyền. 
Biểu diễn bài toán. Chúng ta sử dụng nhiễm sắc thể có cấu trúc mã hoá là một vetor n 
chiều   1 2 i, , ,  knk k k
   để biểu diễn các cá thể (các điểm) trong không gian tìm kiếm. 
Mỗi quần thể là một tập bao gồm một số cố định các cá thể. 
Độ đo thích nghi . Với mỗi cá thể   1 2, , ns k k k   ta xác định mức độ thích nghi của 
cá thể, f(s), bằng công thức sau: 
                 
  
1
, , , , m ii
i
Sim Sum a d t k SH
f s
m
    (13) 
Toán tử lai ghép. Giả sử   1 11 12 1, , ns k k k   và   2 21 22 2, , ns k k k   là 2 cá thể bất 
kỳ trong quần thể. Chúng ta đưa ra một số dạng toán tử lai ghép sau đây: 
Giả sử  z  là một số được lựa chọn ngẫu nhiên, 1 z n  . Từ hai cá thể cha mẹ là  1s và 
2s mô  tả  trên, có  thể  tạo  ra hai  cá  thể con 
'
1s  và 
'
2s    với  các véc  tơ cột  tương ứng của 
chúng được xác định như sau:  
                 ' '1 1 1 2 , 1, , ;   , 1, ,i i i ik k i z k k i z n         (14) 
                 ' '2 2 2 1 , 1, , ;   , 1, ,i i i ik k i z k k i z n       (15) 
Toán tử đột biến phân phối đều: Với một gen i được chọn ngẫu nhiên để đột biến từ 
cá  thể   1 2, ,  ns k k k  ,  thành  phần  ik   được  thay  thế  bởi  một  số  ngẫu nhiên    trong 
khoảng xác định  [ il , ]iu  của  ik . Cá thể  s  sau khi đột biến với các véc tơ cột tương ứng 
của chúng được xác định như sau:  
  ' ', ;   , ; 1j j jk k j i k j i j n        (16) 
Kỹ thuật điện tử & Khoa học máy tính 
N. N. An, N. Q. Bắc, N. Đ. Hiếu, T. N. Anh,“Xác định các hệ số văn bản tiếng Việt.”  42    
i
Toán tử chọn lọc. Toán tử chọn lọc được xác định theo luật tỷ lệ thuận với mức độ 
thích nghi: 
 
 s
s G
f s
p
f s
  (17) 
Trong đó s là cá thể và G là quần thể đang xem xét có chứa s. 
THUẬT TOÁN GA HỌC HỆ SỐ ĐẶC TRƯNG 
Input: , , , ,  m a D sh t 
Output: Nghiệm  tối  ưu  của  bài  toán   , , , ,DFC m a D sh t là  tập  hệ  số  đặc  trưng 
 1 2, ,  ns k k k   
Bước 0.  Khởi  tạo  quần  thể  gồm  X  cá  thể   0 00 1 , ,  kG s s  ,  trong  đó: 
 0 0 0 01 2, ,   ; 1   i i i ins k k k i k     
Bước 1. Giải  các  bài  toán   , , , ,   1, , ,    1, ,ti jSum a d t k i m j k    ,  t là số thế hệ 
thứ t của quần thể. Tính độ thích nghi    ,   1, ,tif s i k   cho từng cá thể của  tG  theo (13). 
Áp dụng toán tử chọn lọc (17) lên Gt  để chọn ra K cá thể có mức độ thích nghi lớn nhất.  
Bước 2. Nếu điều kiện dừng chưa thỏa mãn đến Bước 3. Ngược lại thuật toán dừng và 
cho nghiệm tối ưu là bộ hệ số đặc trưng tối ưu. 
Bước 3. Lựa chọn các cha-mẹ trong  tG  theo mức độ thích nghi để ghép cặp theo toán 
tử lai ghép (14)-(15) để tạo nên tập các hậu thế  lgtG  với K1 phần tử.  
Bước 4. Tác động toán tử đột biến (16) vào  lgt tG G  để nhận được  1tG  , đặt t=t+1 và 
quay lại bước 1.  
2.4. Mô hình tóm tắt văn bản tiếng Việt dựa trên giải thuật di truyền 
Như đã trình bày ở trên, chúng ta đã định nghĩa 8 đặc trưng của văn bản tiếng Việt và 
cách xác định các hệ số đặc trưng ảnh hưởng đến bài toán tóm tắt văn bản như thế nào. 
Sau khi xác định được hệ số các đặc trưng, ta có mô hình tóm tắt văn bản theo từng lĩnh 
vực như hình 4: 
Hình 4. Mô hình tóm tắt văn bản dựa trên giải thuật toán di truyền. 
Tóm tắt bằng tay Các đặc trưng 
  Tập văn bản mẫu 
GIẢI THUẬT DI TRUYỀN 
Nhiễm sắc thể:    1 2 8, ,s k k k   
Hàm thích nghi 
 
  
1
, , , , m ii
i
Sim Sum a d t k SH
f s
m
Bộ hệ số đặc 
trưng 1 2 8, ,k k k  
Văn bản 
Các đặc trưng 
Văn bản tóm tắt 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số 32, 08 - 2014                               43
3. THỬ NGHIỆM, ĐÁNH GIÁ 
3.1. Biểu diễn nhiễm sắc thể 
Mỗi nhiễm sắc thể của quần thể là một vector hệ số đặc trưng. Trong nghiên cứu này, 
chúng tôi chỉ  thử nghiệm với vector hệ số đặc trưng có chiều dài 40 bit biểu diễn 8 đặc 
trưng, mỗi giá trị hệ số của từng đặc trưng được đại diện bởi 5 bit. Như vậy mỗi đặc trưng 
sẽ có giá trị từ 0-31. 
k1  k2  k3 k4 k5 k6 k7 k8 
3.2. Quá trình đào tạo để học hệ số đặc trưng 
Khởi  tạo quần  thể ban đầu gồm 100 cá  thể với các nhiễm sắc  thể được  tạo  ra ngẫu 
nhiên  (ki  từ 0 đến 31). Tại mỗi vòng  lặp của giải  thuật di  truyền, ở mỗi  tài  liệu đào  tạo 
điểm số các câu được tính theo công thức (10) và một bản tóm tắt được tạo ra theo tỉ lệ (số 
câu  tạo ra xấp xỉ số câu do con người  tóm tắt).   Quá  trình nay lặp đi  lặp  lại đến khi độ 
chính  xác  trung  bình  tính  theo  công  thức  (13)  đạt  xấp  xỉ  hoặc  số  thế  hệ  xấp  xỉ  1000. 
Nhiễm sắc thể được lựa chọn cuối cùng chính là bộ hệ số các đặc trưng được học thông 
qua quá trình đào tạo (đã được chuẩn hoá để tổng các hệ số bằng 1). 
3.3. Kho ngữ liệu 
Ngữ liệu sử dụng trong bài báo này do chúng tôi tự xây dựng theo quan điểm thu thập 
từ những trang báo mạng chính thống được biên tập cẩn thận. Trong cấu trúc của một bài 
báo mạng thường được chia làm 3 phần: Tiêu đề, tóm tắt, nội dung. Chúng tôi xem phần 
tóm tắt chính là phần tóm tắt của con người thực hiện. Do vậy, chúng tôi thu thập các văn 
bản  thuộc  các  lĩnh  vực  khác  nhau  với  phần  tóm  tắt  khoảng  100  từ  để  làm  dữ  liệu  thử 
nghiệm. 
Ở bước tiền xử lý chúng tôi sử dụng các bộ công cụ sau: 
- VnSentDetector (một gói của vnTokenizer) [11] để thực hiện tách câu tiếng Việt. 
- Sử dụng các kỹ thuật tách từ của nhóm tác giả [14][15][16] được dùng để tách từ 
tiếng Việt.  
- Sử dụng bộ công cụ vnTagger[11] để gán nhãn từ loại với bộ 18 nhãn. 
Bảng 1: Bảng ngữ liệu thử nghiệm báo Hà Tĩnh điện tử ( 
Lĩnh vực Chính trị Xã hội Kinh tế Thể thao 
Số văn bản  1000  1000  1000  1000 
3.4. Kết quả 
Trong phần này, chúng tôi thực hiện xác định bộ hệ số 8 đặc trưng thông qua quá trình 
đào tạo 80% văn bản mẫu bằng giải thuật di truyền với hàm thích nghi (13).  Trong quá 
trình đào tạo, giải thuật di truyền sẽ được thực hiện với các bước như sau: 
 Có 100 cá thể trong một quần thể.  
 Xác suất lai ghép 0.8 
 Xác suất đột biến 0.1  
 Thuật toán dừng khi đạt được 1000 thế hệ.  
 Tỷ lệ tóm tắt là 30%. 
Trong mỗi lần thử nghiệm, mỗi lĩnh vực chúng tôi dùng 80% văn bản được sử dụng để 
đào tạo và 20% văn bản dùng để thử nghiệm đánh giá. Thực hiện 5 lần chạy và đánh giá 
kết quả trung bình. 
Kỹ thuật điện tử & Khoa học máy tính 
N. N. An, N. Q. Bắc, N. Đ. Hiếu, T. N. Anh,“Xác định các hệ số văn bản tiếng Việt.”  44    
Bảng 2 cho thấy hệ số trung bình của mỗi đặc trưng văn bản được tính thông qua mô 
hình đào tạo bằng giải thuật di truyền thông qua 5 lần thực hiện. 
Bảng 2. Bảng kết quả hệ số đặc trưng. 
Đặc trưng 
Hệ số trung bình 
Chính trị Xã hội Kinh tế 
Thể 
thao 
F1 – Vị trí câu  0.20  0.16  0.11  0.16 
F2-  Trọng số TF.ISF (term frequency- 
inverse sentence frequency)  0.05  0.09  0.06  0.03 
F3 – Độ dài câu  0.03  0.03  0.03  0.06 
F4 – Xác suất thực từ  0.16  0.11  0.09  0.21 
F5- Danh từ riêng  0.04  0.20  0.22  0.10 
F6- Dữ liệu số  0.17  0.03  0.06  0.03 
F7 – Độ tương đồng giữa câu với tiêu 
đề  0.16  0.19  0.19  0.22 
F8- Câu trung tâm  0.20  0.20  0.23  0.18 
Độ chính xác trung bình ROUGE-N 
theo tỉ lệ tóm tắt 30% 
46% 45% 48% 42% 
Qua kết quả, chúng  ta  có  thể  thấy  rằng, mỗi  lĩnh vực sẽ có một bộ hệ  số đặc  trưng 
khác nhau,  trong đó các hệ số đặc trưng có kết quả cao phản ảnh sự quan trọng của đặc 
trưng đó. Đặc trưng vị trí câu, xác suất thực từ, độ tương đồng với tiêu đề, câu trung tâm là 
các đặc trưng có tính chất quan trọng trong cả 4 lĩnh vực, đặc trưng độ dài câu có hệ số 
thấp phản ảnh đặc trưng này đóng vai trò không đáng kể trong tóm tắt văn bản. Các đặc 
trưng còn lại phản ảnh mức độ quan trọng tuỳ vào từng lĩnh vực cụ thể. Ví dụ như, trong 
lĩnh lực chính trị, đặc trưng dữ liệu số quan trọng, danh từ riêng không quan trọng nhưng 
trong lĩnh vực xã hội, kinh tế và thể thao thì lại ngược lại. 
Thực hiện  thử nghiệm tóm tắt  trên 20% văn bản mẫu còn lại bằng các bộ hệ số đặc 
trưng trên trong từng lĩnh vực (trọng số câu được tính theo công thức 10). Kết quả tóm tắt 
được đánh giá dựa trên độ ROUGE-N – độ đo đồng xuất hiện giữa văn bản do con người 
tóm tắt và hệ thống (công thức 11).  
Bảng 3. Bảng đánh giá độ chính xác trung bình của mô hình tóm tắt sử dụng thuật 
toán di truyền. 
Lĩnh vực 
(20 văn bản mẫu, tỉ lệ tóm tắt 30%) 
Độ chính xác trung bình(%) 
ROUGE-N (N=1) 
Chính trị  46 % 
Xã hội  43% 
Kinh tế  48% 
Thể thao  43% 
4. KẾT LUẬN 
Bài báo này đã trình bày hướng tiếp cận mới trong tóm tắt đơn văn bản tiếng Việt theo 
hướng trích rút dựa trên giải  thuật di truyền. Nghiên cứu tập trung giải quyết hai vấn đề 
trọng tâm: 
- Xác định 8 đặc trưng quan trọng của văn bản tiếng Việt. 
- Xác định các hệ số đặc trưng văn bản bằng giải thuật di truyền thông qua quá trình 
học kho văn bản tóm tắt mẫu. 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số 32, 08 - 2014                               45
Qua quá trình thử nghiệm tập văn bản thuộc 4 lĩnh vực chính trị, kinh tế, xã hội, thể 
thao  (mỗi  lĩnh vực 1000 văn bản với  tóm tắt con người bao gồm hơn 100  từ) chúng tôi 
nhận thấy một số đặc trưng có ảnh hưởng lớn đến kết quả tóm tắt văn bản như vị trí câu, 
xác suất thực từ, độ tương tự với tiêu đề, câu trung tâm. Đặc trưng độ dài câu đóng vai trò 
không đáng kể, các đặc trưng còn lại phụ thuộc vào lĩnh vực văn bản. Với hướng tiếp cận 
này, chúng ta có thể xây dựng bộ hệ số đặc trưng cho từng lĩnh vực văn bản cụ thể, phục 
vụ hữu ích cho bài toán tóm tắt văn bản tiếng Việt. 
TÀI LIỆU THAM KHẢO 
[1]. Diệp Quang Ban, “Ngữ Pháp Tiếng Việt”, Nhà xuất bản giáo dục, 2004 
[2]. Nguyễn Văn Tu, “Từ điển đồng nghĩa Tiếng Việt”, Nhà xuất bản giáo dục, 2001 
[3]. Thanh  Le  Ha,  Quyet  Thang  Huynh,  Chi  Mai  Luong,  “A Primary Study on 
Summarization of Documents in Vietnamese”,  Proceeding  of  the  First  International 
Congress of the International Federation for Systems Research, Kobe, Japan, Nov 15-
17, 2005. pp.234-239. 
[4]. Luận án Tiến sỹ, Nguyễn Thị Thu Hà. “Phát triển một số thuật toán tóm tắt văn bản 
Tiếng Việt sử dụng phương pháp học bán giám sát”.   Học viện Kỹ  thuật  quân sự, 
2012, 175 trang. 
[5]. M.L. Nguyen, Shimazu, Akira, Xuan, Hieu Phan, Tu, Bao Ho, Horiguchi, Susumu, 
"Sentence Extraction with Support Vector Machine Ensemble",  Proceedings  of  the 
First World Congress of the International Federation for Systems Research : The New 
Roles of Systems Sciences For a Knowledge-based Society 2005. 
[6]. Luận án Tiến sỹ, Nguyễn Hoàng Tú Anh. “Tiếp cận đồ thị biểu diễn, khai thác văn 
bản và ứng dụng”, Trường Đại học Khoa Học Tự Nhiên, ĐHQG-HCM, 2011. 
[7]. Trương Quốc Định, Nguyễn Quang Dũng. “Một giải pháp tóm tắt văn bản tiếng Việt 
tự động”,  Hội  thảo  quốc  gia  lần  thứ  XV:  Một  số  vấn  đề  chọn  lọc  của  Công  nghệ 
thông tin và truyền thông- Hà Nội, 03-04/12/2012. 
[8]. Nguyen  Quang  Uy,  Pham  Tuan  Anh,  Truong  Cong  Doan,  Nguyen  Xuan  Hoai,  “A 
Study on the Use of Genetic Programming for Automatic Text Summarization”, KSE, 
2012 4th Int. Conference on Knowledge and Systems Engineering, 2012, pp.93-98. 
[9]. R.K. Gupta, “Genetic Algorithms-an Overview”, impulse E, ITM Uni., Vol. 1, 2006. 
[10]. Dice,  L.R.  (1945):  “Measures of the amount of ecologic association between 
species”. Ecology 26, pp.297–302.  
[11]. VLSP  project,  Vietnamese  Language  Processing,  
[12]. Suanmali, L., Salim, N., Salem Binwahlan, M.: “Genetic Algorithm based Sentence 
Extraction for Text Summarization”. Inter. J. of Innovative Computing 1(1), 2011. 
[13]. Mohamed Abdel Fattah and Fuji Ren, "Automatic Text Summarization", Proceedings 
of  World  Academy  of  Science,  Engineering  and  Technology,  Vol  27,ISSN  1307-
6884, 192-195, Feb 2008. 
[14]. Ngoc  Anh  Tran,  Thanh  Tinh  Dao,  Phuong  Thai  Nguyen  (2002),  "An  Effective 
Context-based Method for Vietnamese Word Segmentation", Proceedings of the First 
International  Workshop  on  Vietnamese  Language  and  Speech  Processing  (VLSP 
2012), pp.34-40, In Conjunction with 9th IEEE-RIVF Conference on Computing and 
Communication Technologies (RIVF 2012). 
[15]. Ngoc  Anh  Tran,  Thanh  Tinh  Dao,  Phuong  Thai  Nguyen  (2013),  "Identifying 
Coordinated Compound Words for Vietnamese Word Segmentation", Proceedings of 
the 5th Inter. Conference of Soft Computing and Pattern Recognition (SoCPaR 2013). 
Kỹ thuật điện tử & Khoa học máy tính 
N. N. An, N. Q. Bắc, N. Đ. Hiếu, T. N. Anh,“Xác định các hệ số văn bản tiếng Việt.”  46    
[1] Nguyễn Nhật An, Trần Ngọc Anh, Phan Thị Nguyệt Hoa, “Kỹ thuật Voting trong bài 
toán tách từ tiếng Việt”, Tạp chí Nghiên cứu Khoa học & Công nghệ Quân sự, Đặc 
san CNTT 04/2014, tr.54-61. 
[2] Karel Jezek and Josef Steinberger, “Automatic Text summarization”, Vaclav Snasel 
(Ed.):  Znalosti  2008,  pp.1-12,  ISBN  978-80-227-2827-0,  FIIT  STU  Brarislava, 
UstavInformatiky a softveroveho inzinierstva, 2008. 
ABSTRACT 
DETERMINING THE TEXT FEATURE COEFFICIENTS BY GENETIC ALGORITHM 
FOR VIETNAMESE TEXT SUMMARIZATION 
Text summarization is the text concise process that retains the important 
information. This paper proposes a new approach in Vietnamese text 
summarization (by Extraction Summarization) based on key characteristics such 
as location of sentences, sentence length, weight TFxISF, probability of 
substantive word, similarity between the sentence and the title, center sentence,... 
The first, we identified a set of the features in Vietnamese text. The next step, we 
use the genetic algorithms to determine the feature coefficients of training text 
corpus. Experiments of text summarization with coefficients determined by 
genetic algorithm show the summary texts are highly accurate, can be applied in 
practice. 
Keywords: Vietnamese text summarization, Text feature coefficients, Gennetic algorithm. 
Nhận bài ngày 02 tháng 07 năm 2014 
Hoàn thiện ngày 25 tháng 07 năm 2014 
Chấp nhận đăng ngày 03 tháng 08 năm 2014 
Địa chỉ:   * Viện Công nghệ thông tin, Viện KH-CN Quân sự - 
[email protected] 
  ** Khoa CNTT, Học viện Kỹ thuật Quân sự - 
[email protected]