Tài liệu Luận văn Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa: Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
MỤC LỤC 
MỤC LỤC............................................................................................................ 1 
MỞ ĐẦU .............................................................................................................. 3 
Chương 1: TỔNG QUAN................................................................................... 5 
1.1 Giới thiệu mô hình tìm kiếm thông tin (Information Retrieval): ..............5 
1.2 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR):...............................9 
1.2.1 Khái niệm:................................................................................................9 
1.2.2 Các vấn đề của CLIR:...........................................................................10 
1.3 Các hướng tiếp cận:......................................................................................11 
1.3.1 Dịch máy (Machine Translation for Text Translation):..............
                
              
                                            
                                
            
 
            
                 133 trang
133 trang | 
Chia sẻ: hunglv | Lượt xem: 1530 | Lượt tải: 1 
              
            Bạn đang xem trước 20 trang mẫu tài liệu Luận văn Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
MỤC LỤC 
MỤC LỤC............................................................................................................ 1 
MỞ ĐẦU .............................................................................................................. 3 
Chương 1: TỔNG QUAN................................................................................... 5 
1.1 Giới thiệu mô hình tìm kiếm thông tin (Information Retrieval): ..............5 
1.2 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR):...............................9 
1.2.1 Khái niệm:................................................................................................9 
1.2.2 Các vấn đề của CLIR:...........................................................................10 
1.3 Các hướng tiếp cận:......................................................................................11 
1.3.1 Dịch máy (Machine Translation for Text Translation):....................11 
1.3.2 Dựa trên từ điển đa ngữ (Multilingual Thesauri):.............................14 
1.3.3 Dựa trên ngữ liệu (Corpus-based techniques):...................................22 
1.4 Một số công trình nghiên cứu trong và ngoài nước: .................................30 
1.4.1 Ở Việt Nam: ...........................................................................................30 
1.4.2 Trên thế giới: .........................................................................................31 
1.5 Kết luận: ........................................................................................................32 
Chương 2: CƠ SỞ LÝ THUYẾT..................................................................... 35 
2.1 Giới thiệu về MRD (Machine Readable Dictionary).................................35 
2.1.1 Sơ lược lịch sử phát triển MRD trên thế giới: ....................................35 
2.1.2 Vai trò và cấu trúc của MRD:..............................................................39 
2.1.3 Khai thác tài nguyên từ điển:...............................................................41 
2.1.4 Xây dựng từ điển tự động:....................................................................42 
2.1.5 Cấu trúc vĩ mô và vi mô của từ điển MRD:........................................43 
2.1.6 Một số từ điển MRD: ............................................................................43 
2.2 Các phương pháp tách từ: ...........................................................................51 
2.2.1 Mô hình WFST:.....................................................................................51 
2.2.2 Mô hình MMSEG: ................................................................................57 
2.3 Các phương pháp khử nhập nhằng: ...........................................................64 
2.3.1 Giới thiệu: ..............................................................................................64 
2.3.2 Khử nhập nhằng:...................................................................................65 
2.4 Kết luận: ........................................................................................................70 
Chương 3: PHÂN TÍCH và THIẾT KẾ ......................................................... 72 
3.1 Tổng quan hệ thống:.....................................................................................72 
3.1.1 Phát biểu bài toán: ................................................................................72 
3.1.2 Mô hình hệ thống: .................................................................................72 
3.1.3 Phát sinh quản lý:..................................................................................73 
3.2 Phân tích – thiết kế hệ thống: ......................................................................76 
3.2.1 Mô hình Usecase:...................................................................................76 
3.2.2 Đặc tả usecase: .......................................................................................77 
3.2.3 Sơ đồ tuần tự: ........................................................................................78 
3.2.4 Thiết kế lớp: ...........................................................................................81 
3.2.5 Thiết kế giao diện: .................................................................................94 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
1
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
3.3 Xây dựng hệ thống: ......................................................................................97 
3.3.1 Tổ chức các MRD:.................................................................................97 
3.3.2 Phương pháp tìm kiếm dựa trên MRD:............................................106 
3.3.3 Tìm kiếm tài liệu bằng công cụ tìm kiếm:.........................................110 
CHƯƠNG 4: CÀI ĐẶT VÀ THỬ NGHIỆM ............................................... 112 
4.1 Cài đặt:.........................................................................................................112 
4.1.1 Tiền xử lý: ............................................................................................112 
4.1.2 Cấu trúc dữ liệu:..................................................................................112 
4.1.3 Dịch từ từ điển:....................................................................................113 
4.1.4 Khử nhập nhằng :................................................................................113 
4.1.5 Tìm kiếm: .............................................................................................116 
4.2 Thử nghiệm: ................................................................................................117 
4.2.1 Module dịch và khử nhập nhằng: ......................................................117 
4.2.2 Chương trình demo trên web:............................................................117 
4.3 Đánh giá :.....................................................................................................119 
4.3.1 Module dịch và khử nhập nhằng: ......................................................119 
4.3.2 Chương trình tìm kiểm trên Web:.....................................................120 
Chương 5: KẾT LUẬN và HƯỚNG PHÁT TRIỂN ................................... 122 
5.1 Kết luận: ......................................................................................................122 
5.2 Huớng phát triển: .......................................................................................122 
5.2.1 Đối với từ điển và ngữ liệu: ................................................................122 
5.2.2 Đối với IR Engine:...............................................................................123 
5.2.3 Mở rộng ngôn ngữ tìm kiếm cho hệ thống: ......................................124 
PHỤ LỤC ......................................................................................................... 125 
TÀI LIỆU THAM KHẢO .............................................................................. 132 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
2
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
MỞ ĐẦU 
Với sự phát triển nhanh chóng của công nghệ tin học, khối lượng thông tin được lưu 
trữ trên máy tính ngày càng nhiều. Vì vậy cần có các hệ thống tìm kiếm thông tin 
(Information Retrieval) cho phép người dùng tìm kiếm một cách chính xác và nhanh 
nhất các thông tin mà họ cần trên kho tư liệu khổng lồ này. Hơn nữa, trong xu thế toàn 
cầu hóa như hiện nay, rất nhiều các tổ chức, các công ty quốc tế hình thành, lại xuất 
hiện một nhu cầu mới trong việc tìm kiếm thông tin đó là tìm kiếm thông tin đa ngữ để 
người dùng có thể khai thác một cách hiệu quả nhất kho tài liệu đa ngữ mà họ có. Một 
ví dụ cụ thể về kho tư liệu đa ngữ là Internet. Các trang Web bằng nhiều ngôn ngữ 
khác nhau xuất hiện ngày càng nhiều, trong khi các công cụ tìm kiếm đơn ngữ (search 
engine) chỉ có thể trả về các tài liệu được viết cùng ngôn ngữ với ngôn ngữ của câu 
truy vấn (query). Do đó vấn đề đặt ra là liệu có thể xây dựng một hệ tìm kiếm thông 
tin mà thông tin trả về là tất cả các tài liệu ở các ngôn ngữ khác nhau trong kho tư liệu 
có liên quan đến câu truy vấn (không phụ thuộc vào ngôn ngữ của câu truy vấn). Đây 
chính là bài toán đặt ra cho việc nghiên cứu các hệ tìm kiếm đa ngữ/ xuyên ngữ 
(multilanguage IR/ cross language IR). 
Mục tiêu của các hệ thống tìm kiếm xuyên ngữ là cung cấp công cụ cho người dùng để 
có thể mô tả nhu cầu tìm kiếm thông tin ở ngôn ngữ mà mình diễn đạt giỏi nhất 
(thường là tiếng mẹ đẻ), hệ thống sẽ phải trả về tất cả các tài liệu ở tất cả các ngôn ngữ 
có trong kho tư liệu đang tìm kiếm có liên quan đến nhu cầu thông tin của người dùng. 
Trên đây là nhu cầu chung của hầu hết các ngôn ngữ và tiếng Việt của chúng ta cũng 
không phải là ngoại lệ. Khác với các ngôn ngữ khác, tiếng Việt có nhiều đặc điểm 
riêng biệt và rất khó xử lý bằng máy tính, nên các đề tài nghiên cứu hay các chương 
trình ứng dụng liên quan đến các hệ thống tìm kiếm bằng tiếng Việt còn rất ít. Mà nhu 
cầu tìm kiếm tài liệu trên kho tàng kiến thức của thế giới của người Việt là rất lớn. Với 
mong muốn phát triển nhiều hơn nữa các hệ thống tìm kiếm xuyên ngôn ngữ bằng 
tiếng Việt, chúng tôi xây dựng “Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
3
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Anh – Hoa” cho phép người dùng nhập câu truy vấn bằng tiếng Việt và trả về các tài 
liệu có liên quan bằng tiếng Việt, tiếng Anh và tiếng Hoa. Trong luận văn này chúng 
tôi lựa chọn tiếng Anh và tiếng Hoa là hai đại diện tiêu biểu cho hai loại hình ngôn 
ngữ biến hình và đơn lập. Từ đó cho thấy rằng hệ thống tìm kiếm thông tin xuyên ngữ 
có thể thực thi trên hai loại hình ngôn ngữ khác nhau. 
Bố cục của luận văn gồm các chương sau: 
• Chương 1 – TỔNG QUAN : giới thiệu tổng quan về hệ thống tìm kiếm 
(IR), hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR), các hướng tiếp cận 
và các vấn đề cần giải quyết của hệ thống. 
• Chương 2 – CƠ SỞ LÝ THUYẾT: trình bày cơ sở lý thuyết và các 
phương pháp đã nghiên cứu trong luận văn. 
• Chương 3 – PHÂN TÍCH VÀ THIẾT KẾ: phân tích và thiết kế hệ 
thống. 
• Chương 4 – CÀI ĐẶT VÀ KIỂM TRA: cài đặt, kiểm thử chương trình. 
• Chương 5 – KẾT LUẬN và HƯỚNG PHÁT TRIỂN: trình bày các kết 
quả đạt được, các đánh giá về hệ thống và hướng phát triển trong tương lai. 
• Phần TÀI LIỆU THAM KHẢO và PHỤ LỤC: trình bày các thông tin có 
liên quan được sử dụng trong luận văn. 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
4
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Chương 1: TỔNG QUAN 
Trong chương này, chúng tôi sẽ trình bày khái quát về các hệ thống tìm kiếm 
(Information Retrieval), hệ thống tìm kiếm thông tin xuyên ngôn ngữ (Cross-Language 
Information Retrieval) và một số khảo sát về tình hình nghiên cứu trong và ngoài 
nước. Cuối chương chúng tôi sẽ rút ra kết luận chung và lựa chọn hướng tiếp cận cho 
hệ thống của mình. Nội dung trình bày bao gồm: 
9 Giới thiệu mô hình tìm kiếm thông tin. 
9 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ. 
9 Một số công trình nghiên cứu trong và ngoài nước. 
9 Kết luận. 
1.1 Giới thiệu mô hình tìm kiếm thông tin (Information 
Retrieval): 
Hệ thống tìm kiếm thông tin xuyên ngữ (Cross Language Information Retrieval - 
CLIR) có liên hệ rất mật thiết với hệ thống tìm kiếm thông tin (Information Retrieval - 
IR) và cũng có rất nhiều đặc trưng của hệ thống này (IR). Qui trình của hệ thống tìm 
kiếm thông tin như sau: 
• Người dùng muốn xem những tài liệu liên quan đến một chủ đề nào đó. 
• Người dùng cung cấp một mô tả về chủ đề đó dưới dạng câu truy vấn. 
• Từ câu truy vấn này hệ thống sẽ lọc ra những cụm từ chỉ mục. 
• Những cụm từ chỉ mục này sẽ được so khớp với những cụm từ chỉ mục 
của các tài liệu đã được xử lý trước đó. 
• Những tài liệu nào có mức độ liên quan cao nhất sẽ được trả về cho 
người dùng. 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
5
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Mục đích của IR là hiển thị cho người dùng một tập các thông tin thỏa mãn nhu cầu 
của họ. Chúng ta định nghĩa chính xác cho thông tin cần thiết là “câu truy vấn”(query), 
và các thông tin được chọn là “tài liệu” (documents). Mỗi cách tiếp cận trong IR bao 
gồm 2 thành phần chính: một là các kỹ thuật để biểu diễn thông tin (câu truy vấn, tài 
liệu), và hai là phương pháp so sánh các cách biểu diễn này. Mục đích là để tự động 
qui trình kiểm tra các tài liệu bằng cách tính toán độ tương quan giữa các câu truy vấn 
và tài liệu. Qui trình tự động này thành công khi nó trả về các kết quả giống với các 
kết quả được con người tạo ra khi so sánh câu truy vấn với các tài liệu. 
Có một vấn đề thường xảy ra đối với hệ thống tìm kiếm là những từ mà người dùng 
đưa ra trong câu truy vấn thường khác xa những từ trong tập tài liệu chứa thông tin mà 
họ tìm kiếm. Trường hợp như thế gọi là “paraphrase problem” (vấn đề về diễn giải). 
Để giải quyết vấn đề này hệ thống đã tạo ra các hàm biểu diễn xử lý các câu truy vấn 
và các tài liệu một cách khác nhau để đạt đến một độ tương thích nào đó. 
d Hàm biểu diễn câu truy vấn 
Không gian 
biểu diễn 
R 
[0,1] 
Xử lý của con người 
j 
Hàm biểu 
diễn tài liệu 
Câu truy vấn 
Biểu diễn 2 
Tài liệu 
c 
Hàm so sánh 
q 
Biểu diễn 1 
[0,1] 
Không gian 
tài liệu 
D 
Không gian câu 
truy vấn 
Q 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
6
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Hình 1.1: Mô hình hệ thống tìm kiếm thông tin 
Gọi miền xác định của hàm biểu diễn câu truy vấn q là Q, tập hợp các câu truy vấn có 
thể có; và miền giá trị của nó là R, không gian thống nhất biểu diễn thông tin. Gọi 
miền xác định của hàm biểu diễn tài liệu d là D, tập hợp các tài liệu; và miền giá trị 
của nó là R2 . Miền xác định của hàm so sánh c là R x R và miền giá trị của nó là 
[0,1], tập các số thực từ 0 đến 1. Trong một hệ thống tìm kiếm lí tưởng: 
c(q(query), d(doc)) = j(query, doc) , ∀query∈ Q, ∀doc ∈ D, 
khi j: Q x D --> [0,1] biểu diễn việc xử lý của người dùng giữa các mối quan hệ của 2 
thông tin, được tính dựa trên một tiêu chuẩn nào đó (ví dụ: sự giống nhau về nội dung 
hay sự giống nhau về kiểu …). Hình 1.1 minh họa mối quan hệ này. 
Có hai kiểu hệ thống tìm kiếm: tìm kiếm dựa trên so khớp chính xác và dựa trên sắp 
xếp. Mô hình trên đây có thể mô tả cả 2 cách tiếp cận. Trong hệ thống tìm kiếm dựa 
trên so khớp chính xác, miền giá trị của c được giới hạn từ 0 đến 1, và nó được chuyển 
sang nhị phân để quyết định liệu 1 tài liệu có thỏa biểu thức bool được xác định bởi 
câu truy vấn hay không? Các IR dựa trên so khớp chính xác thường cung cấp các tài 
liệu không sắp xếp thỏa câu truy vấn của người dùng, hầu hết các hệ thống tìm kiếm 
hiện nay đều dùng cách này. Cách hoạt động chi tiết của hệ thống sẽ được mô tả ở 
phần sau. 
Đối với hệ thống IR dựa trên sắp xếp, thì các tài liệu sẽ được sắp xếp theo thứ tự giảm 
dần về mức độ liên quan. Có 3 loại hệ thống tìm kiếm dựa trên sắp xếp: “ranked 
Boolean”, “probabilistic” và “similarity based”. Trong 3 cách trên miền giá trị của c là 
[0,1], tuy nhiên chúng khác nhau ở cách tính “giá trị trạng thái tìm kiếm” (“retrieval 
status value”): 
• Trong hệ thống dựa trên “ranked Boolean” giá trị này là mức độ mà 
thông tin thỏa mãn biểu thức bool được chỉ ra bởi các thông tin còn lại. 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
7
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
• Trong hệ thống dựa trên “probabilistic” , khái niệm này hơi khác một 
chút, giá trị này là xác suất mà thông tin có liên quan đến một câu truy vấn. Rất 
nhiều hệ thống tìm kiếm dựa trên xác suất được thiết kế để chấp nhận câu truy 
vấn được diễn tả bằng ngôn ngữ tự nhiên hơn là một biểu thức bool. 
• Trong hệ thống tìm kiếm dựa trên sự giống nhau, giá trị trạng thái tìm 
kiếm được tính bằng cách tính mức độ giống nhau của nội dung thông tin. 
Trong các hệ thống tìm kiếm dựa trên so khớp chính xác, việc đánh giá hệ thống chủ 
yếu dựa trên việc đánh giá mức độ liên quan. Giả sử j là giá trị nhị phân và được cho 
trước. Nói cách khác, ta giả sử rằng các tài liệu hoặc có hoặc không có liên quan đến 
câu truy vấn, và độ liên quan giữa tài liệu và câu truy vấn do con người xác định là 
chính xác. Theo giả định này, tính hiệu quả của các hệ thống tìm kiếm dựa trên so 
khớp chính xác được đánh giá dựa trên 2 đại lượng thống kê là “độ chính xác” 
(precision) và “độ bao phủ” (recall). Độ chính xác là tỉ lệ các tài liệu được chọn, các 
tài liệu thực sự liên quan đến các thông tin mà người dùng cần, độ bao phủ là tỉ lệ tài 
liệu có liên quan được sắp xếp chính xác theo độ liên quan bởi hệ thống tìm kiếm. Nói 
cách khác, độ chính xác bằng 1 trừ đi tỉ lệ cảnh báo sai, trong khi đó độ bao phủ đo 
mức độ hoàn chỉnh của việc tìm kiếm. Bảng 1.1 minh họa cho các mối quan hệ này. 
Actually is Selected as 
Relevant Not relevant 
Relevant Found False alarm 
Not Relevant Missed 
alarmFalseFound
Foundecision +=Pr 
MissedFound
Foundcall +=Re 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
8
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Bảng 1.1: Tính độ hiệu quả của hệ thống tìm kiếm thông tin 
Việc đánh giá tính hiệu quả của hệ thống tìm kiếm dựa trên sắp xếp thì phức tạp hơn. 
Một cách tính độ hiệu quả phổ biến cho các hệ thống này là “độ chính xác trung bình”. 
Nó được tính bằng cách chọn một tập lớn hơn các tài liệu ở đầu danh sách có giá trị 
bao phủ giữa 0 và 1. Phương pháp thường được sử dụng là phương pháp tính dựa trên 
5, 7, 11 điểm theo độ bao phủ. Độ chính xác sau đó sẽ được tính cho từng tập một. Qui 
trình sẽ được lặp lại cho từng câu truy vấn, và tương ứng mỗi độ chính xác trung bình 
sẽ cho một độ bao phủ. Mỗi giá trị trung bình của những số này sau đó sẽ được tính 
toán và ghi nhận như là một đặc trưng của hệ thống. Độ chính xác trung bình càng lớn 
thì càng tốt, và việc so sánh chỉ thực sự có ý nghĩa khi chúng ta sử dụng cùng một tập 
tài liệu và câu truy vấn. Tuy nhiên độ chính xác trung bình cũng làm giảm đi mức độ 
thay đổi của các câu truy vấn có các đặc tính khác nhau (ví dụ như số lượng tài liệu có 
liên quan khác nhau). Hơn thế nữa, các tài liệu có liên quan thường tập trung ở đầu 
danh sách sắp xếp nên thông thường độ chính xác sẽ giảm mỗi khi tập tài liệu được mở 
rộng để tăng độ bao phủ. 
1.2 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR): 
1.2.1 Khái niệm: 
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR) là hệ thống tìm kiếm (IR) cho 
phép người dùng nhập câu truy vấn bằng một ngôn ngữ để tìm kiếm các tài liệu trong 
một ngôn ngữ khác. Đối tượng sử dụng hệ thống tìm kiếm thông tin xuyên ngữ (CLIR) 
là: 
• Những người có khả năng đọc các tài liệu tiếng nước ngoài, nhưng gặp 
khó khăn khi tạo câu truy vấn bằng ngôn ngữ đó. 
• Những người gặp khó khăn khi đọc/ tìm kiếm các tài liệu tiếng nước 
ngoài nhưng lại cần một số lượng giới hạn các tài liệu được tìm kiếm bằng 
CLIR để sử dụng trong các hệ thống dịch máy (MT), thay vì phải dịch toàn bộ 
tập hợp các tài liệu. 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
9
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
• Những người biết các từ khóa hoặc cụm từ tiếng nước ngoài, và muốn 
đọc các tài liệu có liên quan với những từ khóa hoặc cụm từ đó bằng ngôn ngữ 
bản xứ. 
1.2.2 Các vấn đề của CLIR: 
Vì câu truy vấn do người dùng nhập vào và các tài liệu được tìm kiếm ở hai ngôn ngữ 
khác nhau nên CLIR cần phải có qui trình chuyển ngữ cùng với qui trình tìm kiếm 
theo cách tìm kiếm truyền thống của các hệ đơn ngữ. Các hệ tìm kiếm đơn ngữ hiện 
nay thực hiện rất tốt qui trình tìm kiếm đơn ngữ. Và vấn đề chính chúng ta cần quan 
tâm ở đây làm thế nào để qui trình chuyển ngữ có thể được thực hiện tốt nhất. 
Chính qui trình chuyển ngữ này đã làm phát sinh rất nhiều vấn đề trong CLIR. Vấn đề 
đầu tiên là làm sao biết được một từ trong ngôn ngữ này được viết như thế nào trong 
ngôn ngữ khác? Vấn đề thứ hai là làm sao quyết định được cách dịch nào sẽ được giữ 
lại? Vấn đề thứ ba là làm sao xác định được tầm quan trọng khác nhau giữa các bản 
dịch khi có nhiều bản dịch được giữ lại. 
Hai vấn đề đầu tiên, làm sao để dịch và làm sao để loại bỏ bớt bản dịch, là hai vấn đề 
của các hệ thống dịch máy . Hệ thống CLIR có thể loại bỏ một vài cách dịch và giữ lại 
một số khác bằng cách khử nhập nhằng. Tuy nhiên, việc giữ lại một số cách dịch nhập 
nhằng giúp cho hệ thống tìm kiếm gia tăng độ bao phủ của nó. 
Vấn đề thứ ba của CLIR có liên quan đến cách xử lý các bản dịch tương đương, là điều 
giúp chúng ta phân biệt CLIR với dịch máy và tìm kiếm thông tin đơn ngữ. Giả sử 
rằng câu truy vấn ban đầu có hai từ phân biệt. Nếu từ đầu tiên có thể được dịch sang 
nhiều cách khác nhau, và nếu từ thứ hai chỉ có thể được dịch sang một cách duy nhất, 
thì hệ thống tìm kiếm sẽ không tăng trọng số cho từ đầu tiên, bởi vì nó có nhiều lựa 
chọn khi dịch. Điều này minh họa cho vấn đề tính trọng số của các cách dịch, đặc biệt 
là đối với hệ thống CLIR. Một tài liệu chứa một cách dịch của mỗi từ trong câu truy 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
10
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
vấn có thể sẽ có độ liên quan nhiều hơn một tài liệu chứa nhiều cách dịch khác nhau 
của từ đầu tiên trong câu truy vấn nhưng không chứa cách dịch nào của từ thứ hai. 
1.3 Các hướng tiếp cận: 
Việc phân loại các hướng tiếp cận của CLIR dựa trên phương pháp được sử dụng 
trong quá trình chuyển ngữ. 
1.3.1 Dịch máy (Machine Translation for Text Translation): 
Giữa tìm kiếm xuyên ngữ và dịch máy hoàn toàn tự động có mối quan hệ gần gũi. 
Hình 1.2 minh họa cách dịch tự động hoàn toàn và hỗ trợ dịch máy có thể được tích 
hợp trong hệ thống tìm kiếm xuyên ngữ. Với một hệ thống như thế, các câu truy vấn 
có thể được dịch sang bất cứ ngôn ngữ nào mà người dùng thấy cần thiết, và các tài 
liệu sẽ được trả về bất cứ ngôn ngữ nào. Nếu cần, việc dịch máy hoàn toàn tự động có 
thể được dùng để tạo ra các bản dịch được hiển thị trên màn hình cho phép người dùng 
chọn tài liệu. Khi cần một bản dịch tốt hơn thì các tài liệu được chọn có thể được 
chuyển cho dịch máy dưới sự hỗ trợ của con người. 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
11
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Hình 1.2 Tích hợp tìm kiếm xuyên ngữ với dịch máy. 
Có lẽ hầu hết các hướng tiếp cận trực tiếp đến tìm kiếm xuyên ngôn ngữ là việc thực 
thi q hoặc d bằng cách sử dụng hệ thống dịch hoàn toàn tự động để mang câu truy vấn 
và tài liệu vào không gian biểu diễn R dựa trên một ngôn ngữ nhất định. Một điểm yếu 
của hệ thống dịch tự động là nó chỉ có thể cung cấp việc dịch hiệu quả trong một vùng 
giới hạn nào đó. 
Các hệ thống tìm kiếm văn bản thường bỏ qua các lỗi dịch cú pháp hơn là các lỗi về 
ngữ nghĩa, nhưng độ chính xác về ngữ nghĩa sẽ giảm sút khi các thông tin không được 
mã hóa vào hệ thống dịch một cách đầy đủ. Vì việc mã hóa đầy đủ thông tin có thể sẽ 
mất chi phí khá cao nên tính hiệu quả của hệ thống tìm kiếm xuyên ngữ dựa trên dịch 
máy sẽ bị giới hạn, đặc biệt là khi dịch các câu truy vấn ngắn. Khuyết điểm này có thể 
được giảm bớt nếu chúng ta dịch các tài liệu thay vì dịch câu truy vấn. Bởi vì các tài 
liệu thường dài hơn các câu truy vấn, nên một hệ thống dịch máy được nhúng vào hàm 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
12
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
biểu diễn tài liệu d có thể có nhiều thông tin về ngữ cảnh để chọn lựa ngữ nghĩa hơn là 
một hệ thống được nhúng vào hàm biểu diễn câu truy vấn q. 
Tuy nhiên, độ hiệu quả sẵn có của dịch máy đã trở thành vấn đề tranh luận khi một hệ 
thống dịch được nhúng vào d, bởi vì thông thường d cần phải được cung cấp cho một 
số lượng rất lớn các tài liệu. Hơn nữa, một vài công việc do hệ thống dịch máy thực 
hiện không mang lại sự cải tiến nào cho tính hiệu quả của việc tìm kiếm văn bản. 
Chẳng hạn như, việc dịch văn bản đòi hỏi phải lựa chọn thứ tự của các từ và thêm vào 
các từ có quan hệ gần1 trong ngôn ngữ đích. Nhưng cả hai đặc tính này thường bị bỏ đi 
bởi q và d. 
Thật vậy, một vài công việc do hệ thống dịch máy làm thật sự làm giảm tính hiệu quả 
của việc tìm kiếm văn bản. Vì trong các ngôn ngữ khác nhau nghĩa của từ sẽ không 
được nhóm theo cùng một cách, nên các hệ thống dịch máy luôn cố gắng đạt được 
nghĩa dịch tốt nhất cho từ khi từ có nhiều nghĩa. Theo phân tích này thì một nghĩa đơn 
sẽ được chọn cho mỗi từ đa nghĩa. Tuy nhiên, trong một hệ thống tìm kiếm, q và d có 
thể được thiết kế để ngăn chặn những thông tin không chắc chắn và c có thể được thiết 
kế để tận dụng những thông tin đó trong việc cải thiện tính hiệu quả. 
Những nghiên cứu này cho thấy rằng khi thiết kế các hàm q và d cho hệ thống tìm 
kiếm xuyên ngữ thì kiểu và độ sâu của qui trình có thể được quyết định bởi khả năng 
biểu diễn của không gian R để biểu diễn các kết quả của các qui trình và khả năng sử 
dụng các thông tin đó của hàm so sánh c. Chúng ta cũng có thể hoặc giới hạn qui trình 
của chúng ta bằng khả năng của các kĩ thuật hiện có để sử dụng thông tin kết quả, hoặc 
chúng ta có thể thiết kế các hàm biểu diễn và so sánh mới để tận dụng thông tin mà kĩ 
thuật dịch máy có thể cung cấp. 
 Ưu điểm: các câu truy vấn có thể được dịch sang bất cứ ngôn ngữ nào mà người 
dùng thấy cần thiết, và các tài liệu sẽ được trả về bất cứ ngôn ngữ nào. 
1 các từ có quan hệ gần là những từ ít mang nội dung và thường bị loại bỏ bởi danh sách các stopword trong một 
hệ thống truy xuất. 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
13
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
 Khuyết điểm: Hiệu quả dịch còn giới hạn. 
1.3.2 Dựa trên từ điển đa ngữ (Multilingual Thesauri): 
Ở đây chúng ta định nghĩa một từ điển đồng nghĩa như là một công cụ để mã hóa 
thông tin tri thức cho một ứng dụng. Vì thế một từ điển đồng nghĩa là một bản thể mà 
đặc trưng là các thuật ngữ đã được tổ chức. Một từ điển đồng nghĩa đa ngữ là một từ 
điển tổ chức các thuật ngữ từ một hoặc nhiều thứ tiếng. Từ điển song ngữ, thường định 
nghĩa các cụm với chi tiết cho các cụm khác, cũng được gộp vào định nghĩa này. Từ 
vựng trong ngôn ngữ học máy tính, được mã hóa thông tin cú pháp và ngữ nghĩa, cũng 
nằm trong định nghĩa này. Các từ điển đồng nghĩa phức tạp, được sử dụng như là một 
danh mục cơ sở trong hệ thống tìm kiếm tự động, cũng nằm trong phạm vi của định 
nghĩa từ điển đồng nghĩa trên. Thậm chí một danh sách song ngữ đơn giản gồm các 
thuật ngữ kĩ thuật mà trong đó mỗi thuật ngữ được gán một cách dịch duy nhất cũng là 
một từ điển đồng nghĩa theo định nghĩa trên. Chúng ta nhận ra rằng đây là một định 
nghĩa mở rộng không bình thường cho từ “từ điển đồng nghĩa”. Nhưng vì không có 
một thuật ngữ chuẩn ngắn gọn nào có thể đáp ứng khái niệm chúng ta mô tả nên chúng 
ta chọn cụm từ có quan hệ gấn nhất với hệ thống tìm kiếm xuyên ngữ hiện tại. Bảng 
1.2 cho thấy một vài kiểu từ điển đồng nghĩa phổ biến được sử dụng trong các hệ 
thống tìm kiếm xuyên ngữ. Các thông tin chi tiết hơn về từ điển xuyên ngữ sẽ được 
trình bày ở phần sau. 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
14
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Kiểu từ điển Đặc trưng 
Từ điển đồng nghĩa theo 
đề tài 
Có mối quan hệ kế thừa và kết hợp. 
Một cụm duy nhất được gán cho 1 nút. 
Danh sách khái niệm Không gian của các cụm từ được chia 
thành các lớp khái niệm. 
Danh sách các cụm từ Danh sách các từ đồng nghĩa xuyên ngôn 
ngữ. 
Từ vựng Các cú pháp hoặc ngữ nghĩa mà máy có 
thể đọc được (Machine Readable) 
Bảng 1.2 Các kiểu từ điển đa ngữ 
Kĩ thuật dựa trên từ điển có một số ưu điểm và khuyết điểm nhất định. Vì từ điển có 
thể biểu diễn các mối quan hệ giữa các cụm từ và các khái niệm theo cách mà con 
người có thể hiểu được, nên việc tìm kiếm thông tin dựa trên từ điển cho phép người 
dùng khai thác lợi ích bên trong trong suốt quá trình tìm kiếm để hình thành một câu 
truy vấn tốt hơn. Hơn thế nữa, vì có một lượng các thông tin quan trọng được mã hóa 
trong từ điển, nên ở khía cạnh của một người dùng có kĩ năng, một hệ thống tìm kiếm 
dựa trên từ điển có thể là một công cụ rất mạnh. Mặt khác, việc sử dụng từ điển sẽ áp 
đặt mức độ giới hạn lên cả từ vựng mà người dùng sử dụng cũng như phạm vi mà hệ 
thống tìm kiếm có thể cung cấp. Các kỹ thuật hiện nay cho việc xây dựng và duy trì từ 
điển tập trung mạnh mẽ vào nguồn tài nguyên, và việc huấn luyện; và nỗ lực để sử 
dụng hiệu quả các mối quan hệ về khái niệm chứa đựng bên trong một từ điển phức 
tạp là rất trọng yếu. 
Một vài khía cạnh về tri thức có thể được mã hóa trong một từ điển. Đặc tính quan 
trọng của một từ điển xuyên ngữ là một đặc tả của đồng nghĩa xuyên ngữ 2. Các mối 
2 Đặc tả của đồng nghĩa xuyên ngữ có thể không hoàn toàn vì có một số cụm từ có thể không có bản dịch trực 
tiếp trong một ngôn ngữ khác. 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
15
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
quan hệ kế thừa về khái niệm (cụm từ rộng hơn, hay hẹp hơn) và mối quan hệ kết hợp 
(cụm từ có liên quan hoặc đồng nghĩa) thường được thêm vào một từ điển phức tạp. 
Từ điển có thể được dùng tự động hoặc thủ công. Trong một hệ thống gọi là “vốn từ 
được quản lý” (“controlled vocabulary”), mỗi khái niệm được gán nhãn bằng một cụm 
từ có tính mô tả để người dùng có thể chỉ rõ những khái niệm thích hợp nhất cho câu 
truy vấn của họ. Khi các mối quan hệ về khái niệm được mã hóa trong một từ điển 
được sử dụng một cách tự động, thì kĩ thuật đó được gọi là “tìm kiếm theo khái niệm” 
(concept retrieval). Trong một hệ thống tìm kiếm theo khái niệm đơn giản, một danh 
sách các khái niệm được sử dụng để thay thế mỗi cụm từ bằng lớp khái niệm của nó để 
tăng độ bao phủ (dựa trên độ quyết định). Có một hướng tiếp cận phức tạp hơn, gọi là 
“mở rộng câu truy vấn” (query expansion) đã sử dụng mối quan hệ giữa các khái niệm 
được mã hóa để lựa chọn cụm từ có thể đáp ứng cả độ chính xác và độ bao phủ. 
Cả việc thay thế khái niệm lẫn việc mở rộng câu truy vấn đều thể hiện nỗ lực làm tăng 
độ bao phủ bằng cách làm giảm ảnh hưởng của vấn đề diễn giải. Độ chính xác có thể 
được tăng bằng cách thêm vào các thông tin về cú pháp và ngữ nghĩa trong từ điển để 
làm giảm nhẹ ảnh hưởng của từ đa nghĩa 3.Ví dụ, trong một hệ thống thông tin có vốn 
từ được quản lý thường được cung cấp một từ điển để người dùng có thể chọn ra cụm 
từ chính xác một cách thủ công. Một hệ thống tìm kiếm khái niệm có thể sử dụng ý 
tưởng này bằng cách đánh thẻ các từ dựa trên từ loại của chúng và sau đó chọn cách 
dịch nào có cùng từ loại. 
1.3.2.1 Hệ thống vốn từ được quản lí: 
Trước năm 1973 người ta cho rằng cả hệ thống vốn từ được quản lý và hệ thống tìm 
kiếm khái niệm bằng từ điển đa ngữ đều có thể thực thi xuyên ngữ giống như là việc 
thực thi bên trong một ngôn ngữ với cùng kỹ thuật. Trước năm 1977 đã có 4 hệ thống 
tìm kiếm xuyên ngữ được thực thi ở châu Âu. Từ các hệ thống này, nổi lên 6 tiêu chí 
3 Giải pháp cho từ đa nghĩa thường được gọi là khử nhập nhằng nghĩa của từ. 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
16
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
căn bản của các nghiên cứu dựa trên từ điển xuyên ngữ : những tiêu chuẩn về thiết kế, 
các công cụ phát triển và duy trì, phần cứng chuyên dụng, các cặp và các lĩnh vực của 
ngôn ngữ mới, giao diện người dùng, và việc đánh giá nhu cầu của người dùng. 
Trong năm 1970, người ta thấy rõ ràng rằng việc tiêu chuẩn hóa sự phát triển các từ 
điển để ngăn chặn “việc tạo ra những đề tài lệch hướng và không phù hợp” là cần 
thiết, và năm 1971 UNESCO đã đề ra các tiêu chuẩn cho việc phát triển từ điển đa 
ngữ. Trong năm 1973 ISO đã xem xét vấn đề này, và trước năm 1976 bản thảo cho vấn 
đề này đã được phổ biến một cách rộng rãi. Được thông qua vào năm 1978 như là 
chuẩn ISO 5964 và được chỉnh sửa gần đây nhất vào năm 1985, tiêu chuẩn này đã mô 
tả phạm vi tri thức có thể được nội suy bên trong các từ điển đa ngữ như thế nào, và 
nhận diện những kỹ thuật khác nhau cho việc phát triển từ điển đa ngữ. 
Từ điển EUROVOC của quốc hội châu Âu là một ví dụ của một từ điển đa ngữ hiện 
đại theo chuẩn ISO 5964. Được thiết lập lần đầu vào năm 1984, EUROVOC hiện nay 
bao gồm 9 ngôn ngữ 4 chính thức của cộng đồng châu Âu, và một phần của nó đã được 
dịch sang nhiều ngôn ngữ khác. Việc thiết kế từ điển đòi hỏi chi phí cao, và điều này 
đã làm giới hạn lĩnh vực mà hệ thống tìm kiếm dựa trên vốn từ được quản lí có thể 
cung cấp. Nhưng EUROVOC chứng minh rằng một khi các mối liên hệ cơ bản về khái 
niệm được định nghĩa trong một pham vi nào đó thì việc mở rộng chuẩn từ điển đa 
ngữ ISO 5964 cho các ngôn ngữ khác là hoàn toàn thiết thực. 
Khi các từ điển đa ngữ gia tăng một cách nhanh chóng, thì các công cụ thiết kế và duy 
trì cũng trở nên quan trọng hơn. Trong những năm 1970, có rất nhiều các thủ tục cũng 
như các thuật toán đã được nghiên cứu để dùng cho việc trộn các từ điển đơn ngữ 
thành một từ điển đa ngữ. 
Ngày nay các hệ thống tìm kiếm văn bản xuyên ngữ đã được sử dụng một cách rộng 
rãi, nhưng hầu hết các hệ thống thương mại đều sử dụng hướng tiếp cận tìm kiếm dựa 
trên so khớp chính xác. Các từ điển đa ngữ phức tạp đã và đang được phát triển trong 
4 9 ngôn ngữ là: Đan Mạch, Hà Lan, Anh, Pháp, Đức, Hy Lạp, Ý, Bồ Đào Nha và Tây Ban Nha. 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
17
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
nhiều ngôn ngữ và lĩnh vực, và các thủ tục dùng để thêm lĩnh vực và ngôn ngữ cũng 
được hiểu rõ. Có 3 nhân tố quan trọng khi xây dựng từ điển là : chi phí, những tiện lợi 
cho người dùng chưa được huấn luyện, và độ hiệu quả. 
Việc xây dựng từ điển là một việc tốn nhiều chi phí. Nhưng việc sử dụng từ điển có 
thể tốn nhiều chi phí hơn bởi vì trong một hệ thống có vốn từ được quản lí thì mỗi tài 
liệu phải được gán các cụm từ phản ánh các khái niệm chứa trong nó. Mặc dù các công 
cụ tự động có thể hỗ trợ giúp tăng năng suất của con người nhưng vì các hoạt động 
mang tính trí tuệ của con người đòi hỏi việc tái tổ chức và tổ chức thông tin nên chi 
phí sẽ vẫn rất cao. 
Một giới hạn quan trọng khác của hệ thống tìm kiếm văn bản dựa trên vốn từ được 
quản lý, và giới hạn này cũng xuất hiện trong kỹ thuật tìm kiếm văn bản dựa trên so 
khớp chính xác, là những người dùng không được huấn luyện dường như sẽ gặp khó 
khăn khi khai thác khả năng của từ điển. Những khác nhau quan trọng giữa người 
dùng có kĩ năng và người dùng không được huấn luyện đã được nghiên cứu dựa trên 
sự chọn lựa các cụm từ của họ, việc họ sử dụng những mối quan hệ của cụm từ được 
mã hóa trong một từ điển, và việc sử dụng các toán tử AND, OR hoặc NOT trong việc 
xây dựng câu truy vấn. Trong nhiều trường hợp người ta chứng minh rằng việc cung 
cấp những người trung gian được huấn luyện có lợi hơn việc cung cấp những huấn 
luyện đầy đủ cho mỗi người dùng. Kỹ thuật tìm kiếm dựa trên sắp xếp được mô tả ở 
phần trước cũng giới thiệu một hướng tiếp cận khác để giải quyết vấn đề này. Các hệ 
thống tìm kiếm dựa trên sắp xếp thường chấp nhận các câu truy vấn bằng ngôn ngữ tự 
nhiên và cho phép sự lựa chọn không ràng buộc các cụm từ. Nói chung, mục đích của 
việc tìm kiếm dựa trên sắp xếp không phải để thay thế kĩ thuật so khớp chính xác mà 
để làm mạnh thêm các hệ thống bằng những kỹ thuật cải thiện một cách hiệu quả việc 
tìm kiếm của những người dùng không được huấn luyện. 
1.3.2.2 Tìm kiếm khái niệm: 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
18
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Một cách khác để biểu diễn các khái niệm trong R là biểu diễn các cụm từ bằng cách 
sử dụng từ điển đa ngữ dẫn dắt cho qui trình chọn lựa cụm từ. Đây là một biến thể của 
mở rộng câu truy vấn, một kỹ thuật đã được nghiên cứu rất kỹ trong tìm kiếm đơn ngữ 
5. Ý tưởng cơ bản của mở rộng câu truy vấn là cung cấp các biến thể sử dụng của cụm 
từ bằng cách gia tăng các cụm từ có liên quan trong câu truy vấn. 
Gần đây, trong [1] L.Ballesteros đã dùng phương pháp “phản hồi cục bộ ” (local 
feedback) để mở rộng câu truy vấn. Phương pháp này là sự kết hợp giữa hai phương 
pháp: sửa đổi câu truy vấn trước khi dịch (pre-translation query modification) và sửa 
đổi câu truy vấn sau khi dịch (post-translation query modification). Trong nghiên cứu 
của mình, ông giới hạn trong hai ngôn ngữ là tiếng Anh và tiếng Tây Ban Nha. Các 
câu truy vấn tiếng Anh được lấy từ hệ thống TREC với chiều dài trung bình là 10.6 từ. 
Các câu truy vấn tiếng Tây Ban Nha cũng được rút trích từ hệ thống này với chiều dài 
trung bình là 4.3 từ. Việc đánh giá tính hiệu quả dựa trên các tài liệu tiếng Anh nằm 
trong tập Tipster (vol. 2) có độ lớn 2GB và tập 208M các bài báo tiếng Tây Ban Nha 
của báo “El Norte”. Ngữ liệu huấn luyện dùng cho việc phản hồi trước khi dịch là tập 
các bài báo này và tập 301 MB cơ sở dữ liệu tin tức của San Jose Mercury từ tập hợp 
Tipster. Toàn bộ câu truy vấn sẽ được thực hiện trên hệ thống INQUIRY. Qua thực 
nghiệm L.Ballesteros nhận thấy rằng việc sửa đổi câu truy vấn trước khi dịch tạo ra 
một cơ sở quan trọng cho việc dịch và nâng cao độ chính xác; việc sửa đổi câu truy 
vấn sau khi dịch dựa trên từ điển máy đọc sẽ nâng cao độ bao phủ của tìm kiếm. Và kỹ 
thuật này sẽ hiệu quả hơn đối với các câu truy vấn dài vì các câu truy vấn dài sẽ có 
nhiều ngữ cảnh hơn giúp giảm tính nhập nhằng. Kết hợp hai qui trình này giúp tăng độ 
chính xác trung bình lên 50%. Điều này cho thấy việc mở rộng câu truy vấn sẽ giúp 
gia tăng đáng kể độ hiệu quả của hệ tìm kiếm xuyên ngữ. 
1.3.2.3 Mã hóa thông tin ngữ nghĩa: 
5 Đặc trưng duy nhất của mở rộng câu truy vấn trong truy xuất xuyên ngữ là các cụm từ ban đầu sẽ bị loại ra khỏi 
câu truy vấn mở rộng nếu nó không mang cùng một nghĩa trong cả 2 ngôn ngữ 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
19
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Một khía cạnh khác của dự án EMIR[2] là việc ứng dụng việc phân rã nhanh nhưng 
không sâu để tận dụng thông tin ngữ nghĩa được mã hóa trong từ điển. Số lượng các 
cụm từ tiếng Anh được giảm bằng cách gán nhãn từng cụm từ tiếng Anh với từ loại 
tương ứng của nó, và sau đó chỉ chọn những từ tiếng Anh có cách sử dụng cú pháp 
tương tự các cụm từ tiếng Pháp. Từ điển EMIR là một danh sách song ngữ các cụm từ 
trong đó thông tin ngữ nghĩa được mã hóa như là các từ ghép, được sử dụng để thay 
thế các mối quan hệ về khái niệm. Trong EMIR, các cụm từ bao gồm các từ, các ngữ 
và từ ghép. Bởi vì các từ ghép nối các từ khóa với nhau dựa trên nền tảng là mối quan 
hệ về ngữ nghĩa thay vì hình thức bề ngoài của chúng, do đó việc đưa ra các công thức 
cho từ ghép sẽ tốt hơn việc rút trích các ngữ đơn giản. Bởi vì trật tự của các từ trong từ 
ghép thường thay đổi trong ngôn ngữ đích, nên các mục từ của cụm từ ghép đã được 
thiết lập để giải thích cho việc chuyển đổi khi cần. 
Phiên bản EMIR của SPIRIT đã được đánh giá trên tập 1398 các khái niệm về hàng 
không của Cranfield bằng cách sử dụng 225 câu truy vấn đã được Trung tâm tư liệu 
quân đội Pháp dịch sang tiếng Pháp. Các tài liệu tiếng Anh được tìm kiếm đáp ứng các 
câu truy vấn tiếng Pháp. Để so sánh, các câu truy vấn tiếng Pháp sau đó được dịch trở 
lại sang tiếng Anh bằng cách sử dụng hệ thống dịch tự động SYSTRAN và các tài liệu 
được chọn bằng cách sử dụng phiên bản đơn ngữ của hệ thống tìm kiếm SPIRIT. Cụ 
thể như sau: 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
20
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
10 20 30 40 50 60 70 80 90
Độ bao phủ
Đ
ộ 
ch
ín
h 
xá
c
EMIR
SYSTRAN
SPIRIT Anglais
Hình 1.3 So sánh tìm kiếm đơn ngữ của SPIRIT, tìm kiếm song ngữ của EMIR và dịch 
câu truy vấn của SYSTRAN 
1.3.2.4 Đánh giá ưu khuyết điểm: 
 Ưu điểm : 
Tài nguyên từ điển thì phổ biến và sẵn có hơn ngữ liệu song song do đó hướng tiếp cận 
dựa trên từ điển có thể được xem là lựa chọn tốt hơn các hướng tiếp cận còn lại. Mặc 
dù chiều sâu của từ điển là hạn chế nhưng phạm vi của nó thì đủ rộng để chúng ta có 
thể dịch các câu truy vấn thuộc nhiều đề tài khác nhau. Mặt khác, hiện nay các từ điển 
điện tử là khá phong phú, chúng ta có thể tận dụng nguồn tài nguyên này để cấu trúc 
hóa và rút trích các thông tin cần thiết cho từ điển máy đọc dùng trong các hệ xuyên 
ngữ. 
 Khuyết điểm: 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
21
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Việc dịch tự động dựa trên từ điển chỉ đạt 50% hiệu quả do các bản dịch nhập nhằng. 
Một trong hai nguyên nhân chính là việc chuyển đổi từ vựng dẫn đến việc thêm rất 
nhiều từ khác. Theo nguyên cứu của L. Ballesteros, điều này dẫn đến việc mất 12-29% 
thể hiện của câu truy vấn trong khi dịch và gây nên vấn đề khi dịch các câu truy vấn 
dài. Nguyên nhân thứ hai là việc mất các ngữ khi dịch word by word, dẩn đến việc mất 
20 – 25% . Thêm vào đó, các câu truy vấn thường chứa các thuật ngữ, mà các thuật 
ngữ này thường không có trong từ điển tổng quát. Nếu chúng ta không có từ điển 
chuyên ngành hoặc từ điển thuật ngữ thì hiệu quả của hệ thống sẽ càng thấp. Tuy 
nhiên, những khuyết điểm trên đây sẽ là động lực thúc đẩy chúng ta tiếp tục nghiên 
cứu và tìm hiểu các phương pháp nhằm nâng cao tính hiệu quả của hướng tiếp cận 
này. 
1.3.3 Dựa trên ngữ liệu (Corpus-based techniques): 
Ngoài cách sử dụng từ điển, chúng ta có thể khai thác trực tiếp thông tin thống kê về 
cách dùng thông thường của các cụm từ từ ngữ liệu song song. Cách tiếp cận trực tiếp 
này rất thích hợp để tích hợp với các kỹ thuật tìm kiếm dựa trên việc thống kê cách 
dùng thông thường của các cụm từ. Kỹ thuật tìm kiếm thống kê thường tận dụng hai 
nhận xét quan trọng về cách dùng thông thường của cụm từ. Nhận xét đầu tiên là 
những tài liệu mà người dùng đánh giá là cùng loại thì nhìn chung thường sử dụng các 
cụm từ tương tự nhau. Quay trở lại mô hình 1.1, q và d được thiết kế một cách đặc 
trưng để trích ra các thông tin về tần số của cụm từ và c được thiết kế để tận dụng điều 
này. Nhận xét thứ hai là các cụm từ hiếm và ít phổ biến thì sẽ giúp ích rất nhiều cho 
việc phân biệt giữa các tài liệu . Các cụm từ phổ biến mang ít nội dung thường bị loại 
bỏ bởi một danh sách stoplist, và các cụm từ còn lại thường được tính trọng số bằng 
cách sử dụng “tần số tài liệu đảo ” thường được tính như sau: 
⎟⎟⎠
⎞
⎜⎜⎝
⎛=
itermwithdocumentsofNumber
documentsofNumberidfi 2log 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
22
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Kết hợp hai kết quả ta gọi là “tfidf” (term frequency and inverse document frequency - 
tần số của từ và tần số tài liệu đảo ) 
tfidfij = tfij * idfi
 tfij là số lần từ i xuất hiện trong tài liệu j. 
Một vài kỹ thuật có thể được sử dụng để xây dựng hàm so sánh c cho một thể hiện 
tfidf. Có thể kỹ thuật đơn giản nhất là kỹ thuật dùng không gian vector, trong đó các 
vector của trọng số tfidf được thiết lập bởi q và d và kết quả được chuẩn hoá bên trong 
của 2 vector được tính nhờ vào c. Kết quả này cho ra một giá trị mong muốn, là một 
hàm tăng nghiêm ngặt đối với bất cứ việc giảm nào của sự khác nhau của 2 giá trị tfidf 
giống nhau. Nói một cách khác, mang 2 vector lại gần nhau theo bất cứ chiều nào sẽ 
làm tăng tính tương đồng của chúng. Bởi vì kết quả chuẩn hóa bên trong của 2 vector 
là cosin của góc giữa 2 vector trong không gian vector, nên kết quả này được biết đến 
như là phép đo độ tương đồng dùng hàm số cosin. Hệ thống SMART, được Salton 
phát triển, là một ví dụ về hệ thống tìm kiếm sử dụng không gian vector. 
Kỹ thuật tìm kiếm dựa trên xác suất thường thực thi một hàm c phức tạp hơn. Thường 
dựa trên một giả định đơn giản là j (hoặc r ) là giá trị nhị phân (nghĩa là mọi tài liệu có 
hoặc có liên quan hoặc không có liên quan ), kỹ thuật tìm kiếm dựa trên xác suất thực 
hiện việc tìm kiếm để ước lượng xác suất mà một tài liệu cho trước có liên quan dựa 
trên độ tương quan hoặc tfidf. Hệ thống INQUIRY được Croft và các cộng sự phát 
triển là một ví dụ cho hệ thống tìm kiếm dựa trên xác suất. 
1.3.3.1 Xây dựng từ điển tự động: 
Về ý nghĩa, các kỹ thuật dựa trên ngữ liệu có thể được xem như là một loại của kỹ 
thuật xây dựng từ điển tự động, trong đó thông tin về mối quan hệ giữa các từ được tạo 
ra từ các con số thống kê cách sử dụng thông thường của từ. Sự khác nhau là ở chỗ từ 
điển này không cần con người xây dựng. Giống như các kỹ thuật tìm kiếm xuyên ngôn 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
23
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
ngữ khác, kỹ thuật xây dựng từ điển tự động là một nghiên cứu quan trọng kế thừa từ 
ngữ cảnh của tìm kiếm đơn ngữ. Một số lượng đáng kể các nghiên cứu về đề tài này đã 
xuất hiện và được công bố trong tài liệu về dịch máy. Ở đây chúng tôi trình bày hai kỹ 
thuật để xây dựng từ điển đa ngữ từ khía cạnh tìm kiếm. 
Kỹ thuật đầu tiên, người ta đã thực nghiệm trên 1.100 ngữ danh từ lấy từ ngữ liệu song 
song của khoảng 1.000 cặp câu dài tiếng Hà Lan và tiếng Anh trong một tài liệu kỹ 
thuật 6. Các ngữ danh từ trong mỗi cặp câu được nhận diện bằng cách sử dụng một thẻ 
từ loại thống kê và một bộ parser đơn giản. Các ứng viên dịch cho mỗi ngữ danh từ 
tiếng Hà Lan được tạo ra bằng cách so sánh tần số của mỗi cụm tiếng Anh xuất hiện 
trong một cặp câu tiếng Anh chứa ngữ danh từ, với tần số mà mỗi từ tiếng Anh xuất 
hiện trong toàn tập tài liệu. Một đặc tính khác được thêm vào giúp cho việc ngăn chặn 
các chọn lựa ngữ danh từ xuất hiện ở những vị trí liên quan khác nhau trong các cặp 
câu. 
Các tham số được tìm thấy cho các kết quả trong việc nhận diện các bản dịch đơn 
chính xác đến 45%, và nhiều lựa chọn khác mà các lựa chọn này tạo ra một danh sách 
các ứng viên của các bản dịch trong đó chứa 66% các bản dịch đơn chính xác. Việc 
dóng câu, đánh tag từ loại và phân rã lỗi chiếm 85% các lỗi, và các nghiên cứu cho 
thấy rằng việc chọn lựa chặn trên cho việc biểu diễn kỹ thuật của mình sẽ nâng tỉ lệ 
các bản dịch đơn chính xác lên 69% hoặc thêm khoảng 95% các bản dịch chính xác 
vào một danh sách. Bởi vì ngữ liệu song song có kích thước nhỏ nên không thể quyết 
định việc thực thi của kỹ thuật khi có nhiều hơn một bản dịch của cùng một từ xuất 
hiện trong ngữ liệu 7. Kết quả của từ vựng song ngữ không được sử dụng cho việc tìm 
kiếm văn bản, vì thế chúng ta không thể quyết định điều gì làm ảnh hưởng đến các lỗi 
dịch sẽ có hiệu quả cho việc tìm kiếm. Hơn nữa, chúng ta không thể đưa ra các hướng 
dẫn về việc liệu việc giảm độ chính xác, kết quả của việc tăng số lượng ứng viên có 
6 Chiều dài trung bình của câu là hơn 24 từ. Các câu được gióng hàng bằng cách sử dụng kỹ thuật thống kê, và 
7% các cặp câu sau đó được phát hiện là bị gióng hàng sai 
7 71% các ngữ danh từ bằng tiếng Hà Lan xuất hiện chỉ 1 lần trong toàn bộ tập tài liệu 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
24
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
thể được bù đắp bằng cách tăng độ bao phủ, kết quả của việc thêm vào bản dịch chính 
xác trong danh sách. 
1.3.3.2 Dịch dựa vào vector thuật ngữ (Term Vector Translation): 
Chúng ta quan tâm đến những kỹ thuật tìm kiếm văn bản đa ngữ dựa vào ngữ liệu tạo 
ra những ánh xạ không phải dành cho người dùng. Nghĩa là chúng ta xem xét những 
kỹ thuật tìm kiếm văn bản đa ngữ dựa vào thống kê mà mục đích là để ánh xạ thông 
tin thống kê về thuật ngữ sử dụng giữa các ngôn ngữ. Cụ thể là chúng ta xem xét các 
kỹ thuật ánh xạ các tập tfidf (term frequency and inverse document frequency) bao 
gồm các trọng số của các cụm từ từ một ngôn ngữ này sang ngôn ngữ khác, phương 
pháp này ta gọi là dịch dựa vào vector thuật ngữ. 
Xét trường hợp hai ngôn ngữ, chúng ta có ba tập tài liệu tiếng Anh, tiếng Pháp và tập 
còn lại là song song (nghĩa là mỗi tài liệu trong tập song song là một cặp tiếng Anh và 
bản dịch tiếng Pháp). Mỗi câu truy vấn đầu tiên thể hiện cho tập song song, và những 
tài liệu trong đó được sắp xếp dựa trên mức độ giống nhau của câu truy vấn với bản 
dịch của những tài liệu theo ngôn ngữ của câu truy vấn. Những tài liệu tiếng Pháp có 
thứ tự sắp xếp cao nhất được ghép lại và được dùng như một câu truy vấn cho những 
tài liệu tiếng Pháp còn lại. Đây chính là phương pháp phản hồi thích hợp (relevance 
feedback). Tương tự cho tài liệu tiếng Anh. Sau đó 3 danh sách đã sắp xếp được nối lại 
và hiển thị cho người dùng. 
Phản hồi thích hợp (relevance feedback) là một kỹ thuật thông thường được dùng 
trong tìm kiếm thông tin dựa vào thống kê. Một vector chuẩn hóa tfidf là một xấp xỉ 
heuristic cho sự phân bổ mật độ của một từ trong một tài liệu. Theo đó, kết quả bên 
trong đã chuẩn hóa chỉ đơn giản là sự tương quan giữa 2 tài liệu mô tả bởi những phân 
bổ này. Vì chất lượng của sự phân bổ theo Heuristic có thể được cải tiến bằng cách 
thêm những giám sát, nên phản hồi thích hợp có thể được xem là cách tiếp cận 
heuristic làm mịn hóa những phân bổ không hợp lý trong những câu truy vấn ngắn. 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
25
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Nói cách khác, những từ ngữ không quan trọng bị bỏ đi và những từ ngữ quan trọng có 
liên quan ngày càng được chuẩn hóa tốt hơn. 
Trong thí nghiệm TREC-4, Davis và Dunning[3] đã thử 3 kỹ thuật dịch vector cho các 
thuật ngữ khá phức tạp. Sử dụng 80.000 cặp câu đã gióng hàng trong một ngữ liệu bao 
gồm những tài liệu của Liên Hiệp Quốc, đầu tiên họ chọn 8.000 câu tiếng Anh làm 
những bản gốc tốt nhất cho mỗi câu truy vấn TREC. Sau đó, họ sử dụng những bản 
dịch tiếng Tây Ban Nha của 8.000 câu đó để chọn ra 100 từ ngữ thông dụng liên quan 
đến mỗi câu truy vấn. Những từ ngữ được xóa tương ứng từ tập này bằng cách sử dụng 
thủ thuật cải tiến chương trình với mục đích tìm ra một câu truy vấn tiếng Tây Ban 
Nha, sao cho câu truy vấn này có thể chọn những câu tiếng Tây Ban Nha giống như 
cách mà câu truy vấn tiếng Anh chọn những tài liệu tiếng Anh. Bước lập trình tiến hóa 
chỉ tăng độ chính xác trung bình từ 0.004 đến 0.02, nhưng theo quan sát cho thấy việc 
cải tiến thêm có thể chấp nhận được nếu có sẵn một ngữ liệu huấn luyện song song 
trong phạm vi có liên quan mật thiết đến phạm vi mà ta đang khảo sát. 
Kỹ thuật thứ hai dựa vào cùng một ngữ liệu huấn luyện của những câu đã được gióng 
hàng. Davis và Dunning đã chọn 100 thuật ngữ có xác suất lớn nhất từ tập các từ xuất 
hiện trong những câu tiếng Tây Ban Nha đã được gióng hàng với 100 câu gần nghĩa 
nhất với mỗi câu truy vấn tiếng Anh. Kỹ thuật này đạt độ chính xác 0.02. 
Kỹ thuật cuối cùng của Davis và Dunning dựa vào việc dịch trực tiếp các vector thuật 
ngữ sử dụng một toán tử tuyến tính. Họ bắt đầu bằng cách thiết lập một ma trận từ tập 
các vector tfidf từ những bản dịch tiếng Tây Ban Nha của những câu đã gióng hàng và 
một ma trận thứ hai là từ những bản dịch tiếng Tây Ban Nha của những câu này. Sau 
đó, họ giải những phép toán trên tập những vector không xác định để tìm ra một toán 
tử tuyến tính dùng cho việc dịch ma trận tiếng Tây Ban Nha sang ma trận tiếng Anh. 
Sau đó, họ dùng toán tử đó để dịch vector tfidf của mỗi câu truy vấn tiếng Anh sang 
một vector tfidf tiếng Tây Ban Nha và sử dụng vector được dịch để sắp xếp những tài 
liệu tiếng Tây Ban Nha. Tuy nhiên, họ cảnh báo rằng những giải thuật của họ để tính 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
26
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
toán tử tuyến tính chỉ là một cách ban đầu, còn rất nhiều cách tốt hơn có thể sử dụng 
kỹ thuật này. 
Giáo sư Oard và những giáo sư khác trong trường Đại học University of Maryland đã 
đưa ra một phương pháp dịch dựa vào vector thuật ngữ khác dựa trên ngữ liệu song 
song đã được gióng hàng ở mức từ . Xây dựng dựa vào những kỹ thuật gióng hàng 
cụm từ tương tự với những kỹ thuật của Van de Eijk, họ mô tả một kỹ thuật dùng danh 
sách các từ (ngữ) song ngữ trong đó những cách dịch khác nhau của mỗi từ được gán 
những giá trị thích hợp. Họ dùng từ song ngữ này như một toán tử tuyến tính để ánh xạ 
những vector truy vấn sang ngôn ngữ khác. Họ cho rằng phương pháp này có thể kết 
hợp với khả năng của một hệ thống tìm kiếm văn bản dựa vào thống kê để khai thác 
thông tin chính xác, nhưng kỹ thuật này vẫn chưa được thực hiện và cấu trúc của danh 
sách từ (ngữ) song ngữ được đặt ra cũng đang là một nhiệm vụ khó thực thi. 
1.3.3.3 Chỉ mục ngữ nghĩa ngầm (Latent Semantic Indexing): 
Một kỹ thuật thống kê khác được áp dụng để tìm kiếm tài liệu đa ngôn ngữ là kỹ thuật 
chỉ mục ngữ nghĩa ngầm (Latent Semantic Indexing – LSI). Ý tưởng cơ bản là sử dụng 
một ma trận phân tích để xác định những thành phần chính của vector không gian 
được xác định bởi tập tài liệu, và sau đó chiếu vector lên không gian được mở rộng bởi 
những thành phần chính đó. Trong kỹ thuật LSI, những thành phần chính được xem là 
thể hiện cho những khái niệm quan trọng, trong khi những thành phần ít quan trọng 
hơn được xem là những biến đổi trong cách sử dụng khác nhau của từ. Vì thế LSI nhấn 
mạnh khía cạnh quan trọng của tfidf và bỏ qua hiệu quả của cách sử dụng từ ngữ khác 
nhau. Sau đó, các tài liệu được so sánh bằng cách sử dụng phép đo độ tương đồng 
bằng hàm số cosin và được sắp xếp để hiển thị. 
Hướng tiếp cận căn bản đã được Michael L.Littman nêu rõ trong [4]. LSI kiểm tra tính 
giống nhau của các ngữ cảnh mà trong đó các từ xuất hiện và tạo ra một không gian 
đặc tính có các từ đồng xuất hiện trong cùng ngữ cảnh thì ở gần nhau. Nghĩa là, đầu 
tiên phương pháp này tạo ra một biểu diễn giữ lại các đặc điểm giống nhau về nghĩa 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
27
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
của các từ và sau đó sử dụng biểu diễn này để tìm kiếm. Không gian đặc tính ban đầu 
sẽ phản ánh các mối quan hệ tương quan này. LSI sử dụng một phương pháp từ đại số 
học tuyến tính, việc phân rã các giá trị đơn (SVD) để tìm ra tầm quan trọng của các 
mối quan hệ. Không cần phải sử dụng bất cứ từ điển nào, bất cứ cơ sở tri thức nào để 
quyết định mối kết hợp giữa các từ vì chúng được bắt nguồn từ việc phân tích số học 
các văn bản tồn tại. Các mối quan hệ đã được biết được xác định cho một lĩnh vực 
riêng và được tạo ra hoàn toàn tự động. 
Kĩ thuật phân rã các giá trị đơn có quan hệ mật thiết với việc phân rã vector và việc 
phân tích các thừa số. Để có nhiều thông tin tìm kiếm và để lọc các ứng dụng chúng ta 
tạo một ma trận lớn cụm từ - tài liệu, theo cách mà hướng tiếp cận vector hoặc 
Boolean làm. Ma trận này được phân rã thành một tập k thường là 200 – 300, các thừa 
số chung từ tập này có thể được xấp xỉ bằng cách kết hợp tuyến tính; việc phân tích 
này có liên quan đến cấu trúc ngầm (latent) trong ma trận. Hình 1.4 minh họa ảnh 
hưởng của LSI lên việc biểu diễn các từ bằng cách sử dụng hình học. Phương pháp 
vector truyền thống biểu diễn các tài liệu như là sự kết hợp tuyến tính của các cụm từ 
trực giao, như được trình bày ở phần trên của hình, để góc giữa hai tài liệu sẽ phụ 
thuộc vào tần số mà hai từ đồng xuất hiện trong hai tài liệu, không quan tâm đến tương 
quan giữa hai từ. Trong hình ta thấy, Doc 3 liên chứa Term 2, Doc 1 chứa Term 1 và 
Doc 2 chứa cả hai. Ngược lại, LSI biểu diễn các từ như là các giá trị liên tục trên mỗi 
chiều k. Vì số các thừa số hoặc các chiều thì nhỏ hơn rất nhiều so với số lượng các từ, 
nên các từ sẽ không độc lập như mô tả ở hình dưới. Khi hai từ được sử dụng trong 
cùng một ngữ cảnh (tài liệu), chúng sẽ có cùng một vector trong biểu diễn LSI có 
chiều tối giản. 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
28
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Standard Vector Space Mode (ndims=nternns)
Term1
Te
rn
2
Doc3 
Doc2 
Doc1 
Reduced LSI Vector Space Model (ndims<<nterns)
0
2
4
6
8
10
12
0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5
LSI Dimension 1
LS
I D
im
en
si
on
 2
Doc1 
Doc3 
Term 2 
Term 1 
Term 3 
Doc2 
Term 4 
Doc4 
Hình 1.4 Biểu diễn các từ trong vector chuẩn so với vector tối giản LSI 
Kết quả của LSI là một tập các vector biểu diễn vị trí của mỗi từ và tài liệu trong biểu 
diễn LSI có k chiều. Các qui trình tìm kiếm bằng cách sử dụng các từ trong một câu 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
29
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
truy vấn để nhận ra một điểm trong không gian một cách tự động, câu truy vấn sẽ được 
định vị tại vector tổng được đánh trọng số của các vector thành phần Các tài liệu sau 
đó sẽ được sắp xếp dựa trên sự giống nhau của chúng đối với câu truy vấn, thường là 
dùng giá trị cosin để tính. Trong khi hầu hết các ngữ cảnh tìm kiếm phổ biến liên quan 
đến các tài liệu trả về thỏa các câu truy vấn của người dùng , việc biểu diễn LSI cho 
phép nhiều ngữ cảnh tìm kiếm hơn. Vì cả vector từ lẫn vector tài liệu đều được biểu 
diễn trong cùng một không gian, nên chúng ta có thể tìm kiếm sự giống nhau giữa bất 
cứ sự kết hợp nào của các từ và các tài liệu. 
Các tài liệu mới ( hoặc các từ mới ) có thể được thêm vào biểu diễn LSI bằng cách sử 
dụng một thủ tục gọi là “folding in”. Bất cứ tài liệu nào không được dùng trong việc 
xây dựng không gian ngữ nghĩa được đặt tại vector tổng của các vector thành phần của 
nó. Trong tìm kiếm tài liệu đơn ngữ, phương pháp LSI cho hiệu quả tương đương với 
phương pháp vector chuẩn trong hầu hết các trường hợp, và tốt hơn 30% trong một vài 
trường hợp. 
1.3.3.4 Đánh giá ưu khuyết điểm: 
 Ưu điểm: 
Phương pháp dựa trên ngữ liệu cho độ chính xác của các bản dịch cao hơn so với 
phương pháp dựa trên MRD. Do đó làm cho độ hiệu quả của hệ thống tìm kiếm khá 
cao. 
 Khuyết điểm: 
Khuyết điểm lớn nhất của phương pháp này là sự thiếu thốn ngữ liệu lớn. Để xây dựng 
một ngữ liệu huấn luyện lớn cần rất nhiều thời gian và chi phí rất cao. 
1.4 Một số công trình nghiên cứu trong và ngoài nước: 
1.4.1 Ở Việt Nam: 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
30
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Theo tìm hiểu của chúng tôi, trong nước hiện nay đã có một số công trình nghiên cứu 
liên quan như sau: 
1. “Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ tìm kiếm thông tin trên văn 
bản tiếng Việt”, Hồ Bảo Quốc, Đồng Thị Bích Thủy, Hội thảo quốc gia về 
Công nghệ thông tin – Thái Nguyên – Việt Nam 8/2003. 
2. “An Introduction to Vietnamese Information Retrieval”, Marie-France 
BRUANDET, Jean-Pierre CHEVALLET, Dong Thi Bich Thuy, Bao-Quoc 
Ho. 
Ngoài các nghiên cứu này, hiện tại còn có đề tài nghiên cứu khoa học trọng điểm đại 
học quốc gia TPHCM (2005) đang trong giai đoạn phát triển: “Xây dựng chương trình 
trợ giúp tìm kiếm thông tin bằng tiếng Việt” do PGS.TS Phan Thị Tươi đại học Bách 
Khoa TPHCM làm chủ nhiệm đề tài. 
1.4.2 Trên thế giới: 
 Đối với tiếng Việt: hiện có hai đề tài liên quan đến tìm kiếm xuyên ngữ 
bằng tiếng Việt: 
 1. “Cross Language Medical Information Retrieval”, Trần Đức 
Tuấn, Nicolas Goercebu - Đại học Rennes.(đang trong giai đoạn chạy thử 
nghiệm) 
 2. “CLIR in English and Vietnamese”, Nguyễn Văn Bé Hai, Ross 
Wilkinson, Justin Zabel - RMIT. 
 Đối với các ngôn ngữ khác: có rất nhiều công trình nghiên cứu đã được 
công bố cũng như ứng dụng đã được đưa vào sử dụng từ rất sớm: 
Liên tục trong các năm 1997, 1998 L.Ballesteros và Bruce Croft[1][5][6] đã đưa ra các 
bài báo liên quan đến các vấn đề trong hướng tiếp cận dựa trên từ điển: “Phương pháp 
dựa trên từ điển cho hệ thống tìm kiếm xuyên ngữ”, “Kỹ thuật dịch ngữ và mở rộng 
câu truy vấn cho hệ thống tìm kiếm xuyên ngữ”, “Giải quyết việc khử nhập nhằng cho 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
31
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
tìm kiếm xuyên ngữ”. Trong đó, họ đã sử dụng từ điển song ngữ Anh-Tây Ban Nha để 
tìm kiếm các tài liệu tiếng Anh và tiếng Tây Ban Nha. 
Bên cạnh Ballesteros, Davis và Hull, trong năm 1998 này Yamabana [7] đã xây dựng 
hệ thống tìm kiếm xuyên ngữ Anh – Nhật theo hướng tiếp cận dựa trên dịch máy và 
kết hợp với việc lựa chọn từ dựa trên tần số rút trích từ ngữ liệu không song song. 
Năm 2002, Atsushi Fujii và Tetsuya Ishikawa [8] đã công bố hệ thống tìm kiếm xuyên 
ngữ Nhật – Anh.theo hướng tiếp cận dựa trên ngữ liệu đơn ngữ. Trong hệ thống này 
ngoài việc dịch một từ thông thường, Atsushi còn dịch các từ ghép. 
1.5 Kết luận: 
Các kỹ thuật dựa trên vốn từ được điều khiển đã phát triển rất tốt, nhưng cấu trúc đầy 
đủ của từ điển đồng nghĩa tự động vẫn còn quá đơn giản. Hơn nữa, những kỹ thuật tìm 
kiếm khái niệm đa ngữ như kỹ thuật mở rộng câu truy vấn có thể khai thác thông tin 
được mã hóa trong từ điển mà con người không can thiệp được ở mức index hoặc thời 
gian truy vấn vì thế giới hạn việc ước lượng tính hiệu quả trong ngôn ngữ của cùng 
một kỹ thuật trong cùng một phạm vi. Nếu không có một cấu trúc từ điển tự động hiệu 
quả, miền giới hạn của những kỹ thuật tìm kiếm dựa vào khái niệm sẽ vẫn còn rất lớn. 
Sự non nớt của những kỹ thuật dựa vào ngữ liệu cho thấy những từ điển đồng nghĩa 
trên thực tế vẫn là một thành phần quan trọng với bất kỳ hệ thống tìm kiếm đa ngôn 
ngữ nào, bất chấp mô hình so khớp chính xác hay mô hình tìm kiếm dựa trên sắp xếp 
được sử dụng. Hơn nữa, sự tích hợp từ điển với những kỹ thuật dựa trên thống kê ngữ 
liệu là một phạm vi của những nghiên cứu hiện tại trong ngôn ngữ học tính toán, và có 
một số tính năng được tận dụng khi kết hợp hai kỹ thuật lại. Bởi vì những từ điển đồng 
nghĩa phức tạp nhất dùng cho việc tìm kiếm đa ngữ hiện tại bị điều khiển bởi những hệ 
thống từ vựng nên những hiệu quả của nghiên cứu đang diễn ra là đòn bẩy cho nghiên 
cứu của chúng ta. 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
32
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Những phạm vi khác nhau của những ngữ liệu song song có sẵn và ngữ liệu có sẵn 
những đánh giá thích hợp vẫn là một trở ngại lớn nhất cho việc đánh giá những kỹ 
thuật dựa vào ngữ liệu. Chúng ta không biết rằng một thể hiện của một ngữ liệu song 
song lớn ứng với một tập các câu truy vấn có liên quan với những đánh giá thích hợp 
là sẵn có. Nếu không có một ngữ liệu như thế thì một thiết kế thực nghiệm tốt nhất có 
thể có được thiết lập là để huấn luyện trên một ngữ liệu song song từ phạm vi giống 
với phạm vi của ngữ liệu đánh giá. Thật không may, chúng ta không biết được bất kỳ 
kỹ thuật nào để ước lượng độ hiệu quả, hoặc độ sai lệch khi kết hợp giữa sự huấn 
luyện và phạm vi đánh giá. Nếu không có ngữ liệu song song có sẵn những đánh giá 
thích hợp và không có cách tính ước lượng hiệu quả của một phạm vi khác thì sẽ 
không thể đưa ra những khảo sát cuối cùng từ những nghiên cứu có quy mô lớn như 
những nghiên cứu của Davis và Dunning . 
Việc thực hiện những kỹ thuật đơn ngữ trong điều kiện thí nghiệm tương tự dường như 
là một điểm chuẩn làm cận trên của hiệu quả tìm kiếm. Không có một bằng chứng nào 
cho thấy những kỹ thuật đa ngữ có thể vượt qua hẳn những kỹ thuật đơn ngữ. Fluhr và 
Radwan đã chỉ ra rằng việc hạ thấp biên của độ hiệu quả của một hệ thống tìm kiếm đa 
ngữ so với độ hiệu quả của hướng tiếp cận theo module (theo hướng tiếp cận này dịch 
máy hoàn toàn tự động được dùng để tiền xử lý câu truy vấn) là hợp lý. Sự hoà hợp 
của hai quan điểm này làm việc so sánh những kỹ thuật tìm kiếm đa ngữ qua những thí 
nghiệm khác nhau dễ dàng hơn. Tuy nhiên, nguồn tài nguyên yêu cầu ở đây để nhận ra 
khả năng tiềm tàng của những hệ thống dịch máy hiện đại hoàn toàn tự động để có thể 
giới hạn tiện ích của phương pháp này trong những nghiên cứu nhỏ hơn. 
Một sự khác biệt quan trọng giữa tìm kiếm đơn ngữ và tìm kiếm đa ngữ là có nhiều 
nghĩa xuất hiện tạo ra điểm giới hạn chủ yếu. Cụ thể là tính nhiều nghĩa của từ trở 
thành một vấn đề lớn trong tìm kiếm đa ngữ hơn là trong tìm kiếm đơn ngữ khi kích cỡ 
của phạm vi tăng. Ba nhà nghiên cứu thực hiện với những thí nghiệm rất khác nhau đã 
công bố rằng tính nhiều nghĩa của từ có thể được giảm bớt bằng cách sử dụng thông 
tin ngữ pháp và ngữ nghĩa trong đó loại đơn giản nhất là cụm từ. Điều này cho thấy 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
33
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
việc khử nhập nhằng nghĩa của từ (cũng như cụm từ) chỉ ra khả năng có hạn trong ngữ 
cảnh đơn ngữ, nhưng đó là một bước đi có lợi cho nghiên cứu xa hơn. 
Vấn đề quan trọng trong ứng dụng của bất cứ kỹ thuật xử lý ngôn ngữ tự nhiên nào 
cho việc tìm kiếm đa ngữ là cải thiện độ chính xác mà không bị ảnh hưởng của độ bao 
phủ. Điều này giải thích cho sự khảo sát những kỹ thuật tương đối đơn giản được thiết 
kế làm giảm hẳn những ý nghĩa trong phạm vi đó. Một trong những khó khăn thường 
gặp trong khi dịch câu truy vấn là đối với những câu truy vấn ngắn có thể làm tăng 
nguy cơ gây ra hiệu quả ngược lại vì tính nhiều nghĩa của từ bằng cách giới hạn ngữ 
cảnh theo nghĩa của từ. Để giải quyết vấn đề này, ta sử dụng thông tin có cấu trúc từ 
không gian tài liệu để làm tăng phạm vi cụ thể của việc dịch câu truy vấn. 
Trong ba hướng tiếp cận của tìm kiếm xuyên ngữ có thể nói hướng tiếp cận dựa trên từ 
điển là khả thi nhất trong bối cảnh hiện nay của tiếng Việt. Như đã nêu trong phần ưu 
và khuyết điểm của hướng tiếp cận này, ta có thể nhận thấy tiếp cận dựa trên từ điển 
không đòi hỏi một nguồn tài nguyên lớn hay khó tìm kiếm. Thêm vào đó, nguồn tài 
nguyên từ điển điện tử ở nước ta cũng khá phong phú. Chúng ta có thể tận dụng các từ 
điển này cho việc xây dựng một từ điển máy đọc cho hệ tìm kiếm xuyên ngữ. Đây 
cũng là lý do mà chúng tôi lựa chọn hướng tiếp cận dựa trên từ điển cho hệ thống tìm 
kiếm xuyên ngữ. Mặc dù hiệu quả của nó chưa cao, nhưng chính việc khắc phục 
khuyết điềm này sẽ là động lực cho các nghiên cứu tiếp theo. 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
34
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Chương 2: CƠ SỞ LÝ THUYẾT 
Trong chương này, chúng tôi trình bày các cơ sở lý thuyết mà dựa vào đó xây dựng hệ 
thống. Chúng tôi không có tham vọng trình bày chi tiết, đầy đủ tất cả các hướng tiếp 
cận mà chỉ trình bày tổng quan một số hướng tiếp cận và từ đó nhận xét, đánh giá từng 
hướng tiếp cận để có thể đưa ra các lựa chọn thích hợp nhất cho hệ thống. Chúng tôi sẽ 
trình bày các nội dung: 
9 Từ điển máy đọc - MRD (Machine Readable Dictionary). 
9 Các phương pháp tách từ. 
9 Các phương pháp khử nhập nhằng. 
2.1 Giới thiệu về MRD (Machine Readable Dictionary) 
2.1.1 Sơ lược lịch sử phát triển MRD trên thế giới: 
2.1.1.1 Lịch sử của những tài nguyên từ vựng máy đọc: 
Những hệ thống xử lý ngôn ngữ (NLP – Natural Language Processing) trước đây có 
khuynh hướng sử dụng những từ điển đồng nghĩa và từ điển ngữ pháp có từ và cú pháp 
đơn giản. Về cơ bản, những từ điển này chỉ chứa số lượng từ tương đối (ít hơn 1.000 
từ so với 20.000 từ thông dụng mà người bình thường sử dụng) và chấp nhận là đã 
đúng ở trong một vài cấu trúc cú pháp. Những ràng buộc này làm những nhà nghiên 
cứu tập trung vào những điều khó khăn trước mắt của NLP chẳng hạn như phân tích 
hình thái, dịch theo ngữ pháp và ngữ nghĩa. 
Mười năm trở lại đây, những nhà nghiên cứu bắt đầu nhận ra được vấn đề “đầu vào 
không giới hạn” (unrestricted input) với mục tiêu cuối cùng là cho phép hệ thống NLP 
nhận bất cứ đầu vào nào của ngôn ngữ đang xét. Điều này là một thách thức lớn khi 
xét đến kho thành ngữ sẵn có trong tiếng Anh và một số ngôn ngữ khác đặc biệt là văn 
nói. 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
35
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Tuy nhiên để hệ thống NLP có thể giải quyết được vấn đề đầu vào không giới hạn, 
những nhà nghiên cứu cần hiểu rõ cả về từ ngữ và ngữ pháp của ngôn ngữ đang xét. 
Sau đây chúng ta xét những tài nguyên từ vựng đã được phát triển. 
2.1.1.2 Những tài nguyên từ vựng trong năm 1980: 
Câu hỏi đặt ra là: “Nguồn tài nguyên từ vựng dễ hiểu nhất nào trong NLP là sẵn 
có?”.Vào năm 1980, câu trả lời sẽ là từ điển. 
Một MRD thường chỉ ở dạng băng từ sắp xếp chữ trên máy tính từ một từ điển đã 
được in trước đó mặc dù nó có chứa một vài thông tin từ điển không có trong phiên 
bản in. (Dạng băng từ sắp xếp chữ trên máy tính này bao gồm tất cả thông tin cần có 
khi chuyển một từ điển thành bản in, chẳng hạn như lời hướng dẫn, thay đổi font, ký 
hiệu đặc biệt, …) 
Trong những năm gần đây, máy tính góp phần quan trọng vào sự phát triển từ điển và 
MRD. Những giai đoạn triển khai này được mô phỏng bằng những phiên bản máy đọc 
đầu tiên của những từ điển dùng cho người dùng có trình độ cao như: Oxford 
Advanced Leaner’s Dictionary (OALD), Longman Dictionary of Contemporary 
English (LDOCE) và Collins Cobuild English Language Dictionary (COBUILD). 
Mỗi từ điển khác nhau về độ liên quan đến máy tính khi chúng được đưa vào sản xuất: 
OALD (Oxford Advanced Leaner’s Dictionary): 
 OALD là dạng máy đọc trong những năm cuối thập niên 70, về cơ bản nó giống 
băng từ xếp chữ. Ở đây máy tính không có vai trò gì trong việc chuẩn bị từ điển 
thực sự. 
LDOCE (Longman Dictionary of Contemporary English): 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
36
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
 Loại băng từ máy tính này có vào đầu những năm 80 cũng là dạng máy đọc, 
người sáng chế đã sử dụng máy tính hỗ trợ kiểm tra sự sẵn sàng của nó để đảm bảo 
về sự đúng đắn của những định nghĩa từ. Thông tin từ điển thêm vào cũng có trong 
băng từ nhưng không có trong từ điển in. 
COBUILD (Collins Cobuild English Language Dictionary): 
 COBUILD liên quan đến máy tính trong cả 4 giai đoạn phát triển của nó: thu 
thập dữ liệu, chọn mục từ, cấu trúc những định nghĩa mục từ và sắp xếp mục từ. 
Những thủ tục máy tính cũng được dùng để đảm bảo sự đúng đắn và hoàn hảo của 
mục từ. 
2.1.1.3 Những tài nguyên từ vựng trong năm 1990: 
Câu hỏi đặt ra là: “Nguồn tài nguyên từ vựng dễ hiểu nhất nào trong NLP là sẵn có?”. 
Vào năm 1990, câu trả lời sẽ là ngữ liệu. 
Ngữ liệu là sự lựa chọn chiến thuật của tài liệu xử lý ngôn ngữ tự nhiên (toàn văn bản, 
mẫu từ những văn bản hoặc đôi khi không nối câu, từ một hay nhiều ngôn ngữ) được 
lưu trữ ở dạng máy đọc. Một ví dụ của ngữ liệu là ngữ liệu văn nói tiếng Anh, bao 
gồm 50.000 từ của văn nói tiếng anh của người Anh được ghi âm từ kênh phát thanh 
BBC. Nó tập hợp từ nghiên cứu hỗ trợ viết bằng tiếng Anh. 
Từ điển COBUILD được phát triển bởi một nhóm nghiên cứu của khoa Anh ngữ 
trường đại học Birmingham (cộng tác với Collins Publishers). Không giống những nhà 
phát triển từ điển trước đây, nhóm COBUILD sử dụng cách tiếp cận khách quan hơn 
để chọn từ, thay vì dựa vào trực giác. Họ xác định những gì là chính yếu trong từ điển 
tiếng Anh (chẳng hạn như những từ thông dụng nhất trong ngôn ngữ mà người học cần 
làm quen) và để làm việc này họ phân tích thống kê một ngữ liệu. 
Đầu tiên, Dự án COBUILD liên quan đến tập hợp những văn bản xuất hiện tự nhiên từ 
những nguồn khác nhau, với mục đích xây dựng một ngữ liệu điển hình bằng tiếng 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
37
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Anh. Tuy nhiên, trước khi việc thu thập dữ liệu này diễn ra, cần xác định một chiến 
lược thu thập. Vì mục đích của dự án là tạo ra một từ điển cho người học nâng cao nên 
cần xác định những khía cạnh mà tiếng Anh có liên quan đến nhu cầu người sử dụng 
trên thế giới: 
 Cách viết và đọc 
 Ngôn ngữ chung và rộng rãi (không dùng từ kỹ thuật) 
 Sử dụng hiện hành (từ 1960) 
 Ngôn ngữ tự nhiên (không mang kịch tính) 
 Văn xuôi, một ít tiểu thuyết (không có thơ) 
 Ngôn ngữ người lớn (từ 16 tuổi trở lên) 
 Tiếng Anh chuẩn (không có tiếng địa phương) 
 Sử dụng chủ yếu là tiếng Anh của người Anh (một số là tiếng 
Anh của người Mỹ hoặc nước khác) 
Tập văn bản này lấy kết quả từ ngữ liệu Birmingham Main Corpus 7.3 triệu từ được 
dùng để: 
(1) chọn những từ xuất hiện trong từ điển (từ Main Corpus, 132.000 từ gốc 
được xác định là có thể đưa vào từ điển). 
(2) cung cấp dữ liệu từ điển chẳng hạn bằng cách tìm từ đó xuất hiện trong 
những ngữ cảnh khác nhau. 
Một ngữ liệu đảo với 20 triệu từ cũng được tạo ra được dùng trong trường hợp một số 
từ không được thêm vào Main Corpus. Ví dụ, nếu một từ nào đó không xuất hiện trong 
Main Corpus, nhưng nó vẫn được thêm vào trong từ điển, lúc này ngữ liệu đảo sẽ là ví 
dụ của cách sử dụng nó. 
Ngữ liệu hiện nay có ở Birmingham tập trung vào sự phát triển của ngữ liệu 
MONITOR, được đưa ra bởi Antoinette Renouf ở Sinclair (1987) rằng: “Ngữ liệu này 
động hơn dạng thống kê, nó gồm số lượng lớn các văn bản được tổ chức bằng điện tử 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
38
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
mà có thể đọc bằng máy tính. Một phần dữ liệu sẽ được lưu trữ tại thời điểm nào đó 
nhưng nơi chứa sẽ bị xóa sau khi xử lý. Đối tượng này là để “giám sát” dữ liệu, từ 
những khía cạnh khác nhau, để lưu lại những sự kiện thay đổi tự nhiên của ngôn ngữ.” 
Dữ liệu văn bản được thu thập thường xuyên, chủ yếu từ CD-ROMS xếp chữ của 
những tờ báo và tạp chí. (Rõ ràng điều này không thể hiện là mẫu cấu trúc tỉ mỉ bằng 
tiếng Anh của Main Corpus). Một phương pháp “drag-net” đang được dùng để kiểm 
soát MONITOR Corpus về từ mới, cách dùng mới hoặc nghĩa của những từ cũ, từ 
không còn được dùng nữa, … Ví dụ, sự xuất hiện và phát triển của những từ và cụm từ 
mới như “grunge”, “risc” và “Mother of all …” có thể được lưu ý. 
Đến năm 1992, Meijs đưa ra một từ điển đơn ngữ phức tạp nhưng hợp lý bao gồm 
những thông tin8 sau: 
1. Dạng của từ gốc. 
2. Từ loại: danh từ, động từ, tính từ, … 
3. Thông tin ngữ pháp kèm thêm: khả năng đếm, bổ ngữ trực tiếp hay hiểu 
ngầm, … 
4. Biến cách: số nhiều, thì quá khứ, dạng bất qui tắc, … 
5. Âm vị: cách đọc và nhấn âm. 
6. Nghĩa của từ, bằng cách định nghĩa hoặc tham khảo đến đồng nghĩa. 
7. Ví dụ bằng cách khác nhau của một từ có thể sử dụng. 
8. Thành ngữ và những cụm từ đặc biệt trong đó có từ gốc. 
9. Dẫn xuất, từ ghép, … 
10. Cách sử dụng ghi chú, cách dùng đặc biệt, … 
2.1.2 Vai trò và cấu trúc của MRD: 
2.1.2.1 Vai trò của MRD: 
8 Những tiêu chuẩn này được biểu hiện bởi mục từ “default” của OALD, LDOCE và COBUILD 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
39
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Đối với tiếng Anh và một số ngôn ngữ phổ biến khác trên thế giới thì việc xử lý tự 
động ngôn ngữ tự nhiên ngày càng trở nên phổ biến và đạt được những thành tựu đáng 
kể. Tuy nhiên, đối với tiếng Việt của chúng ta, các kết quả này còn hạn chế do nhiều 
nguyên nhân khác nhau và trong đó có nguyên nhân do thiếu những cơ sở dữ liệu cơ 
bản dạng điện tử cần thiết cho việc xử lý ngôn ngữ tự động bằng máy tính. Một trong 
những cơ sở dữ liệu đó chính là cơ sở dữ liệu từ điển tiếng Việt chuyên dùng cho máy 
tính để xử lý tiếng Việt. 
Việc xử lý ngôn ngữ tự nhiên bằng máy tính bao gồm nhiều bài toán khác nhau, như: 
phân tích hình thái, cú pháp, ngữ nghĩa,… cho các cấp độ từ, ngữ, câu, văn 
bản,…nhưng tất cả các công việc xử lý ấy đều cần truy cập đến cơ sở dữ liệu từ điển 
điện tử (cơ sở dữ liệu về từ trong ngôn ngữ đó). Vì vậy, việc tiên quyết cho mọi bài 
toán xử lý ngôn ngữ chính là cần phải xây dựng được từ điển điện tử mà máy tính có 
thể “đọc” được (trong chuyên môn, từ điển này được gọi tắt là MRD: Machine 
Readable Dictionary). 
2.1.2.2 Cấu trúc của MRD: 
Trong phạm vi nghiên cứu của luận văn, chúng tôi muốn nêu lên một số vấn đề cần 
giải quyết trong việc xây dựng từ điển MRD cho tiếng Việt, tiếng Anh và tiếng Hoa9, 
như: cấu trúc vĩ mô, cấu trúc vi mô của từ điển, đặc điểm về hình thái, ngữ pháp và 
ngữ nghĩa của những đơn vị “mục từ” (entry) trong từ điển, tính quốc tế của những 
tiêu chí lựa chọn mục từ sao cho từ điển này có thể kế thừa, giao tiếp với các hệ xử lý 
ngôn ngữ tự động thông dụng (tiếng Anh) trên thế giới. Trong phần này, chúng tôi 
cũng sẽ đề cập đến cách thức xây dựng tự động MRD và cách tổ chức cấu trúc dữ liệu 
cho MRD. 
9 Nguyên nhân lựa chọn ba ngôn ngữ Việt, Anh, Hoa chúng tôi đã nêu ở phần đặt vấn đề. 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
40
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Ở đây, ta cần phân biệt từ điển MRD với các từ điển điện tử dành cho người (như từ 
điển của Lạc Việt, Vi Tính Đồng Nai,..) dù là chúng ở dạng điện tử (máy đọc được), 
nhưng không phải dùng cho máy, mà dùng cho người sử dụng. 
Từ điển MRD (dành cho máy “đọc”) có cách tổ chức cấu trúc và lưu trữ những loại 
thông tin không giống như từ điển dành cho người dùng. Chẳng hạn, trong MRD 
không cần chứa các thông tin về ngữ âm (phonetics), về từ nguyên (etymology), giải 
thích, câu ví dụ, … nhưng nó lại chứa các thông tin được coi là hiển nhiên, những 
thông tin không cần nêu ra trong từ điển dành cho người sử dụng (vì những thông tin 
này con người hoàn toàn suy ra được bằng tri thức về thế giới thực hay bằng vốn 
sống). 
Từ điển MRD cần có cách tổ chức nhất quán, chặt chẽ, chính xác, đầy đủ về cấu trúc 
và về lượng thông tin để máy tính hoàn toàn dựa vào đó mà xử lý công việc được giao 
một cách máy móc. Vì vậy, để xây dựng được từ điển MRD này, chúng ta phải giải 
quyết triệt để về tiêu chí lựa chọn mục từ (cấu trúc vĩ mô). Đây là vấn đề vô cùng nan 
giải vì nó liên quan đến tiêu chí nhận diện ranh giới từ (đặc biệt là tiếng Việt, một thứ 
tiếng của loại hình ngôn ngữ đơn lập). Thông tin được lưu trữ trong mỗi mục từ (cấu 
trúc vi mô) phải hoàn toàn chính xác, nhất quán về chính tả, về bộ mã ký tự, về cách 
trình bày. Tuyệt đối không thể ghi nhập nhằng như từ điển của người dùng. Ngoài ra, 
việc tổ chức MRD sao cho nó có tính liên thông với các từ điển MRD khác, tương 
thích với các hệ xử lý ngôn ngữ khác trên thế giới. Việc tổ chức MRD tiếng Việt này 
cũng cần có tính mở để chúng ta có thể cập nhật, thay đổi một cách dễ dàng và nhanh 
chóng. 
Cuối cùng, việc xây dựng, quản lý, cập nhật một cơ sở dữ liệu khá lớn (hàng mấy vạn 
từ) với yêu cầu chính xác cao như thế phải được xây dựng một cách tự động trên cơ sở 
các kho dữ liệu, các từ điển điện tử có sẵn có liên quan. 
2.1.3 Khai thác tài nguyên từ điển: 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
41
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Từ từ điển MRD, chúng ta có thể khai thác để phục vụ rất nhiều bài toán xử lý ngôn 
ngữ tự nhiên khác nhau: 
 Nhờ cấu trúc vĩ mô (danh sách từ của ngôn ngữ), cho phép ta xử lý tự 
động các bài toán: gán nhãn ranh giới từ, kiểm lỗi chính tả. 
 Nhờ các trường thông tin lưu trong cấu trúc vi mô, chúng ta có thể xử lý 
các bài toán như: phân tích hình thái từ; gán nhãn từ loại; phân tích cú pháp; 
phân tích ngữ nghĩa. 
 Nhờ trường tần suất sử dụng, chúng ta có thể rút ra danh sách các từ, các 
cấu trúc ngữ pháp được sử dụng thường xuyên nhất (danh sách tối thiểu) để 
phục vụ việc giảng dạy ngoại ngữ. 
Để có thể khai thác tốt từ điển MRD, chúng ta nhất thiết phải tuân theo các qui tắc 
biểu diễn, lưu trữ nhất quán, đơn trị khi xây dựng từ điển. Nghĩa là không thể giải 
thích theo kiểu nước đôi, kiểu tương tự, mang tính hàm ý,... Tuy những cách giải thích 
này chấp nhận được đơn vị con người (tự hiểu, tự suy ra dựa trên tri thức về thế giới 
thực), nhưng không thể chấp nhận được đối với máy (xử lý máy móc). 
2.1.4 Xây dựng từ điển tự động: 
Đối với các tiếng biến hình (như tiếng Anh, Pháp, Nga,..), việc xây dựng danh sách tất 
cả các từ trong ngôn ngữ có thể thực hiện được dễ dàng thông qua việc quét trên ngữ 
liệu lớn (đúng chính tả), xem xem những từ nào không có từ điển sẽ được thêm vào từ 
điển. Tuy nhiên, đối với các thứ tiếng đơn lập như tiếng (Việt, Hoa, Thái, ..), chúng ta 
không thể làm theo cách thức trên được. Trong các thứ tiếng đơn lập này, để xác định 
được từ mới chưa có trong từ điển, ta cần phải tách từ. Mà muốn tách từ, ta cần có từ 
điển chứa những từ cần tách. Đây là vấn đề “quả trứng – con gà”. Để giải quyết vấn đề 
lưỡng nan này, gần đây đã có mô hình của J.S.Chang, Y.C.Lin và K.Y.Su [9] dùng để 
tách từ cho ngữ liệu lớn dựa trên một ngữ liệu nhỏ cho tiếng Hoa để từ đó xây dựng tự 
động từ điển tiếng Hoa. Từ ngữ liệu nhỏ (seed corpus) gồm 1.000 câu đã được tách từ, 
để tách từ cho ngữ liệu lớn khoảng 310.000 từ bằng cách dùng kỹ thuật ước lượng 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
42
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Viterbi để lặp đi lặp lại sự điều chỉnh các thông số tách từ cho đến khi các thông số 
này hội tụ. Các tác giả cũng áp dụng thành công phương pháp này để gán nhãn từ loại 
cho tiếng Hoa với độ chính xác đến 73%. 
Ngoài cách tiếp cận dựa trên ngữ liệu như trên, người ta còn khai thác các từ điển điện 
tử của người bằng cách: cấu trúc hoá (đánh dấu các truờng) cho từ điển của người rồi 
sau đó rút trích thông tin từ những trường có liên quan. Hiện nay, nguồn tài nguyên từ 
điển điện tử là khá phong phú, đây là một thuận lợi để chúng ta có thể xây dựng các 
MRD “máy đọc” khá hoàn chỉnh phục vụ các hệ thống NLP. Đây chính là lí do mà 
chúng tôi chọn phương pháp này cho đề tài. 
2.1.5 Cấu trúc vĩ mô và vi mô của từ điển MRD: 
Cấu trúc vĩ mô là cấu trúc bao gồm toàn thể các mục từ được sắp xếp trong từ điển 
theo một trật tự xác định (còn được gọi là cấu trúc tổng thể hay cấu trúc bảng từ). 
Cấu trúc vi mô là cấu trúc bao gồm toàn bộ những thông tin được trình bày một cách 
có hệ thống trong mỗi mục từ (còn gọi là cấu trúc mục từ). 
Để xây dựng cấu trúc vĩ mô cho từ điển MRD một cách tự động, chúng ta phải lần lượt 
giải quyết các vấn đề sau: tiêu chí lựa chọn mục từ, thứ tự sắp xếp các mục từ, yếu tố 
liên thông với cơ sở dữ liệu từ điển quốc tế. 
Vấn đề lựa chọn mục từ để đưa vào từ điển phụ thuộc vào tiêu chí lựa chọn mục từ, 
tiêu chí nhận diện từ, phân biệt từ với các đơn vị khác (thấp hoặc cao hơn từ). Đây là 
một vấn đề vô cùng khó khăn đối với các ngôn ngữ đơn lập. Nếu trong các ngôn ngữ 
đơn lập (như Việt, Hoa,..), đơn vị được chọn để đưa vào mục từ này là tiếng (hay âm 
tiết) hay chữ (theo âm Hán-Việt là tự), hay còn gọi là từ chính tả, thì ta phải gọi đây là 
“tự điển” để phân biệt với “từ điển”. 
2.1.6 Một số từ điển MRD: 
2.1.6.1 Từ điển tiếng Anh EDIC: 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
43
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
2.1.6.1.1 Cấu trúc vĩ mô từ điển tiếng Anh EDIC: 
Cấu trúc vĩ mô ở đây chính là danh sách mục từ tiếng Anh trong EDic. Tiêu chí lựa 
chọn mục từ trong từ điển EDic bao gồm tất cả các từ (words), các ngữ (phrases) 
tương đương với một từ trong tiếng Việt. Ngoài ra, EDic còn chứa các từ ghép 
(compound), ngữ cố định (phrasal), thành ngữ (idiom), tục ngữ (proverb), từ viết tắt 
(abbreviations), tên riêng (proper names). Ví dụ: program; top-down; programming 
language (ngôn_ngữ lập_trình); make up one’s mind (quyết định); out of sight, out of 
mind (xa mặt, cách lòng); IPL; Von-Neumann;… 
Về mặt hình thái học (morphology), trong cấu trúc vĩ mô của từ điển, tác giả chỉ đưa 
vào các từ nguyên gốc và các dẫn xuất (derivations) của từ, chứ không đưa vào các 
biến cách (inflections) của từ. Có nghĩa là trong từ điển sẽ chứa: program, 
programmer, coprogrammer, … nhưng không chứa programs, programming, 
programmed, … 
Với từ điển tiếng Anh, mục từ chúng ta cần chọn một trong 3 cách thức sau: 
1. Chỉ lưu từ gốc: tất cả các dạng biến cách hay dẫn xuất sẽ được phân tích 
hình thái để đưa về từ gốc. Cách làm này tiết kiệm bộ nhớ lưu trữ, nhưng 
không đảm bảo tính trung thực về mặt ngữ nghĩa của từ. Cách này thích hợp 
cho những bài toán đơn giản như: kiểm lỗi chính tả. 
2. Lưu cả từ gốc, dẫn xuất và biến cách: cách này tốn bộ nhớ, bị trùng lắp 
thông tin, nhưng đảm bảo tìm kiếm nhanh, giải thuật xử lý đơn giản. 
3. Lưu từ gốc và dẫn xuất: đây là giải pháp trung gian, vừa tiết kiệm bộ 
nhớ, vừa không vi phạm ngữ nghĩa, chỉ cần phân tích hình thái biến cách 
đơn giản. 
2.1.6.1.2 Cấu trúc vi mô từ điển Anh EDIC: 
2.1.6.1.2.1 Thông tin về hình thái: 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
44
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Bao gồm các thông tin về: 
• Dạng của từ (word form), ví dụ: “program”, “book”,… 
• Mã hình thái của từ (word morphology): từ nguyên gốc, dạng bất quy tắc, 
như có gấp đôi phụ âm hay không, hay kết hợp với phụ tố (affix) nào… 
• Mã loại của từ (word type): từ đơn, từ ghép; thành ngữ, viết tắt, … 
Mã biến thể của từ (word variants): các biến thể khác của từ (nếu có): “programme”, 
“colour”, “centre”, ... 
2.1.6.1.2.2 Thông tin về ngữ pháp: 
Bao gồm các thông tin về: 
• Từ loại (Parts-of-speech) của từ, như: danh từ, động từ, tính từ,… 
• Tiểu từ loại (Subcategory): như danh từ thuộc loại con nào (danh từ đếm 
được, không đếm được,…), động từ loại con nào (tha động từ, tự động 
từ,…),… 
• Mã biến cách (inflection): thì (tense):quá khứ/hiện tại/tương lai; thể 
(voice): bị động/chủ động; giống (gender): đực/cái/trung; số (number): 
ít/nhiều,… 
• Đặc tính cú pháp (syntactic features): từ này dùng trong cấu trúc nào, 
mẫu câu (verb pattern, noun pattern,…) nào. 
• Ngữ đi kèm (collocation/phrase/idiom): từ này hay đi kèm với những từ 
nào, dùng trong ngữ (thành ngữ, tục ngữ) nào. 
Riêng trong việc gán nhãn từ pháp, cả 3 thông tin: từ loại, tiểu từ loại và mã biến cách 
nói trên sẽ được tích hợp vào chung nhãn từ pháp của PTB (Pann Tree Bank). 
2.1.6.1.2.3 Thông tin về ngữ nghĩa: 
Bao gồm các thông tin về: 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
45
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
• Nghĩa tiếng Việt (meaning) của từ. Trong phần này, các từ tiếng Việt đều 
được phân định ranh giới từ. Ví dụ: từ “relationship” sẽ có phần nghĩa tiếng 
Việt là: “mối/N quan_hệ/N”; “high-speed printer”: “máy_in/N tốc_độ/N 
cao/J”;… 
• Đặc điểm tiếng Việt: khi dịch ra tiếng Việt, cần hiệu chỉnh gì về nghĩa 
(thêm, bớt các tiểu từ, loại từ, định từ,…), về vị trí. 
• Nhãn ngữ nghĩa của từ (semantic tag): từ thuộc ý niệm nào, như: HUM, 
ANM, PHO,… các ý niệm này chính là các nhãn ngữ nghĩa của từ. 
• Vai trong ngữ pháp cách (case role): Agent (Human), Instrument 
(Object),… 
• Thông tin về nhóm đồng nghĩa (synonym)/phản nghĩa (antonym). 
2.1.6.1.2.4 Thông tin về ngữ dụng: 
Bao gồm các thông tin về: 
• Lĩnh vực sử dụng (field): từ này thường được dùng trong những lĩnh vực 
nào, ví dụ: Tin học, toán học, y học,... 
• Tần số xuất hiện (frequency): từ này có thường được dùng hay không. 
Tần suất xuất hiện của từ được đo bằng công thức 
M
mf 10log−= với m là số 
lần xuất hiện của từ và N là chiều dài văn bản thực hiện phép đo. Ví dụ: f=3, 
có nghĩa là từ này xuất hiện với tần số 1/1000. 
• Mã về tình thái (modality): dùng trong cảnh huống nào (trọng, thân, 
tục,…). 
2.1.6.1.3 Ví dụ một số mục từ trong từ điển tiếng Anh EDIC: 
Đến nay, trong EDic đã tích hợp được hầu hết các thông tin quan trọng và cần thiết 
nhất. Dưới đây là ví dụ của một số mục từ (entry) của EDic: 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
46
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Word Lemma Mor POS grm SEM Meaning Fre Field 
on-line On_line C J STA trực_tuyến/J 2.021 cpt 
Display Display W Vt Vcom hiển_thị/V 2.456 cpt 
Display Display W Ns ART màn/N 
hiển_thị/V 
2.126 cpt 
Children Child W Ns Pl HUM trẻ_em/N 2.673 
 Bank Bank W Ns NAT bờ/N sông/N 2.842 
Bảng 2.1. Một số mục từ của EDic 
Việc tích hợp các thông tin nói trên vào trong từ điển được thực hiện một cách bán tự 
động bằng cách dùng mô hình thống kê của ngôn ngữ học – máy tính để thống kê tự 
động trên những nguồn ngữ liệu lớn như: từ điển Anh-Việt, Brown, SUSANNE, 
SEMCOR,… nhằm rút trích thông tin, sau đó các thông tin này sẽ được hiệu chỉnh bởi 
người trước khi tích hợp vào từ điển. 
2.1.6.2 Từ điển tiếng Việt VDIC: 
2.1.6.2.1 Cấu trúc vĩ mô từ điển tiếng Việt VDIC: 
Về cấu trúc vĩ mô của từ điển tiếng Việt VDic, bên cạnh các tiêu chí về tính nhất quán, 
hướng đến văn phong Khoa học-Kỹ thuật, tác giả vẫn tuân theo các tiêu chí truyền 
thống về chọn mục từ trong từ điển tiếng Việt phổ thông do GS.Hoàng Phê chủ biên 
[10]. Từ điển điện tử tiếng Việt VDic này bao gồm khoảng 50.000 mục từ được lựa 
chọn theo các tiêu chí cụ thể như sau[11]: 
1. Từ điển bao gồm các từ/ngữ được sử dụng phổ biến trong các sách, báo, 
tài liệu khoa học, kỹ thuật, nhất là trong tin học, không chứa các từ cổ. Từ điển 
cũng chứa các ngữ cố định, từ láy (nhưng không chứa dạng láy). 
2. Những danh từ chỉ loại (classifier, loại từ) sẽ không được tích hợp vào 
trong mục từ. Ví dụ: trong từ điển sẽ chỉ có mục từ “thư”, “sách”, “bò”,… chứ 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
47
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
không có chứa bức thư/lá thư/cánh thư, quyển sách/cuốn sách, con bò,…Đối với 
các mục từ này, thông tin về các loại từ có thể có của nó được ghi thêm vào trong 
cấu trúc vi mô của nó. Xin xem danh sách loại từ ở phụ lục 9.1.2. 
3. Những danh từ chỉ loài (categories) hay chủng loại (subcategories) sẽ 
được tích hợp vào trong mục từ của từ điển. Ví dụ: “máy” – máy tính, máy in, 
máy quét, máy vẽ, máy phát, máy đọc mã vạch, máy quay dĩa,…; “bộ” – bộ đếm, 
bộ xử lý, bộ điều giải, bộ thu, bộ phát, … Riêng đối với những danh từ chỉ loài có 
tính tổng quát và tính phổ biến cao mà trong thực tế có thể vắng mặt khi sử dụng, 
tác giả sẽ ghi chú đặc điểm này vào trong cấu trúc vi mô của nó. Ví dụ: “bệnh” 
trong bệnh lao, bệnh ho gà, bệnh uốn ván,… sẽ có đặc điểm này. Để xác định 
được đầy đủ và chính xác các danh từ chỉ loài và danh từ chỉ chủng loại, tác giả 
phải dựa trên cây phân loài có tính tổng quát của mạng WordNet [12]. 
4. Chứa những mục từ được sản sinh theo phương thức tựa phụ tố, như: -
hoá, -viên, -học, bất-, liên-, phó - , siêu-,… trong điện toán hoá, lập trình viên, vật 
lý học, phó giám đốc, siêu sao,… được hình thành từ việc đối chiếu các phụ tố 
dẫn xuất trong tiếng Anh tương ứng với hình vị tựa phụ tố có gốc Hán-Việt trong 
tiếng Việt. Ví dụ: các phụ tố trên sẽ tương ứng với các phụ tố –ize, -or/-ian/-er/-
ist/…, -logy, in-, inter-, vice-, super-/hyper-/meta-,… trong tiếng Anh. Danh sách 
các phụ tố dẫn xuất trong phụ lục 9.1.1. 
5. Chỉ riêng với các đơn vị còn gây tranh cãi về tư cách từ, tác giả mới sử 
dụng thêm thông tin từ vựng hoá của từ tiếng Anh tương ứng để chọn. Ví dụ: 
đường thẳng (line), nhà tranh (cottage) là từ, còn nhà gạch (brick house) không là 
từ. Còn các trường hợp khác (như: “ox” - “bò đực”), tác giả phải áp dụng các tiêu 
chí ngôn ngữ học, chứ không thể xem tương đương. 
6. Các mục từ trong từ điển được xếp tự động theo: mẫu tự tiếng Việt, dấu 
thanh, và sau cùng mới xét đến mẫu tự kế (thứ tự mẫu tự và dấu thanh như cũ). 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
48
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Ví dụ: “…ba bai bang bao bay bà bài bàn bành bào bày bả bải bản bảng…” (đây 
là cách sắp xếp mà các từ điển điện tử hay sử dụng). 
7. Để xác định tần suất sử dụng của từ, tác giả đã xây dựng từ điển tần số 
tiếng Việt tự động bằng cách thống kê bằng máy tính trên một ngữ liệu (corpus) 
tiếng Việt 30 triệu từ thuộc nhiều chủng loại văn bản khác nhau. Tác giả dựa vào 
tần suất này để chọn lựa những mục từ thông dụng nhất, tránh những từ ít dùng. 
8. Để giải quyết vấn đề thiếu từ thông dụng: đối với tiếng Anh, người ta dễ 
dàng nhận diện được từ thiếu bằng chương trình kiểm lỗi chính tả (spelling-
checker). Tuy nhiên đối với tiếng Việt thì đây là một bài toán khó và tác giả đã 
giải quyết được phần lớn các trường hợp thiếu này thông qua các mô hình xử lý 
tách từ và liên kết từ Anh-Việt. 
2.1.6.2.2 Cấu trúc vi mô từ điển tiếng Việt VDIC: 
Cấu trúc vi mô của VDic hoàn toàn khác với cấu trúc vi mô của từ điển tiếng Việt 
truyền thống (vì từ điển truyền thống là dùng cho người, còn VDic là từ điển điện tử 
dùng cho máy). Cấu trúc vi mô (microstruture) của từ điển MRD tiếng Việt bao gồm 
những thông tin có cấu trúc chứa trong mỗi mục từ nhằm điều khiển việc xử lý ngôn 
ngữ tự động của máy. Về chuẩn chính tả tiếng Việt, tác giả vẫn tuân theo chuẩn chính 
tả như trong từ điển Hoàng Phê. Về mã tiếng Việt, tác giả sử dụng mã Unicode. Tuy 
nhiên, tác giả vẫn đáp ứng việc tìm kiếm từ điển với các biến thể chính tả khác bằng 
cách mã hoá dấu thanh khi lưu trữ và có bộ so sánh mờ (fuzzy) khi tìm kiếm. 
2.1.6.2.2.1 Thông tin về hình thái: 
Dạng của từ (word form), ví dụ: “sách”, “thắng_lợi”, “chị”,… 
• Mã loại của từ (word type): từ đơn, từ ghép (đẳng lập, chính phụ); từ láy, 
thành ngữ, tục ngữ, từ viết tắt, từ gốc Hán, … 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
49
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Mã đặc tính hình thái: như thường kết hợp được với các yếu tố nào: từ chỉ loại, chỉ 
hướng,…Ví dụ: “sách” sẽ đi với danh từ chỉ loại “quyển”, “cuốn”. 
2.1.6.2.2.2 Thông tin về ngữ pháp: 
Từ loại (Parts-of-speech) của từ, như: danh từ, động từ, tính từ,… 
• Tiểu từ loại (Subcategory): như tiểu loại danh từ nào (danh từ đếm được, 
không đếm được,…), tiểu loại động từ nào (ngoại động từ, nội động 
từ,…),… 
• Đặc tính cú pháp (syntactic feature): về thì (tense): quá khứ, hiện tại, 
tương lai; thể (voice): bị động, chủ động; giống (gender); số (number),… 
• Đặc tính cấu trúc (structure/pattern): dùng trong cấu trúc/mẫu câu nào. 
Ngữ đi kèm (collocation/phrase): động từ “nhắm” thường đi với “mắt”. 
2.1.6.2.2.3 Thông tin về ngữ nghĩa: 
Nghĩa (meaning) của từ bằng tiếng Anh có kèm theo từ loại. Ví dụ: “book/NN”, 
“win/VB”, “elder/JJ sister/NN”,… Chúng ta sử dụng trường này để liên kết với từ 
tiếng Anh tương ứng trong các ngữ liệu có sẵn. 
• Mã ngữ nghĩa của từ (semantic code): như HUM, ANM, PHO,… các 
nhãn ngữ nghĩa này cũng chính là các nhãn ngữ nghĩa dùng trong từ điển 
EDic. 
2.1.6.2.2.4 Thông tin về ngữ dụng: 
• Lĩnh vực sử dụng (field): từ này thường được dùng trong những lĩnh vực 
nào, ví dụ: Tin học, toán học, y học,... 
• Tần số xuất hiện (frequency): từ này có thường được dùng hay không. 
Tần suất xuất hiện của từ được đo bằng công thức N
mf 10log−=
 với m là số 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
50
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
lần xuất hiện của từ và N là chiều dài văn bản thực hiện phép đo. Ví dụ: f=3, 
có nghĩa là từ này xuất hiện với tần số 1/1000. 
Mã về tình thái (modality): từ này dùng trong cảnh huống nào: trịnh trọng, thân mật, 
thông tục,…. 
2.1.6.2.3 Ví dụ một số mục từ trong từ điển VDIC: 
Đến nay, trong VDic đã tích hợp được hầu hết các thông tin quan trọng và cần thiết 
nhất. Dưới đây là ví dụ của một số mục từ (entry) của VDic: 
Từ Hình 
thái 
từ loại ngữ 
pháp 
ngữ 
nghĩa 
nghĩa t.Anh tần số lĩnh 
vực 
Máy_tính C Ns Cnt ART computer/N 2.221 cpt 
Hiển_thị C Vt Vcom Display/V 1.956 cpt 
Đường W Ns Cnt LIN line/N 2.087 
Đường W Nm uncnt CHM sugar/N 1.987 
Bảng 2.2. Một số mục từ của VDic 
2.2 Các phương pháp tách từ: 
2.2.1 Mô hình WFST: 
2.2.1.1 Giới thiệu: 
Mô hình WFST của Richard W. Sproat tỏ ra khá hiệu quả (chính xác trên 95%) khi áp 
dụng cho tiếng Hoa. Mô hình này cho ra kết quả phân đoạn từ với độ tin cậy (xác suất) 
kèm theo. Vì vậy, khi hệ cho ra nhiều ứng viên có độ tin cậy xấp xỉ như nhau, thì việc 
lựa chọn lời giải tối ưu gặp khó khăn. Để khắc phục khuyết điểm này trong công trình 
[13] các tác giả đã kết hợp thêm tầng thứ hai là mạng neural để khử nhập nhằng các 
trường hợp tầng thứ nhất WFST cho ra nhiều ứng viên có kết quả ngang nhau. 
2.2.1.2 Mô hình tách từ bằng WFST và mạng Neural: 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
51
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Trong mô hình này, tầng tiền xử lý có nhiệm vụ xử lý định dạng văn bản: như tiêu đề, 
đoạn, câu; chuẩn hoá về chính tả tiếng Việt: cách bỏ dấu, cách viết các ký tự y, i,… 
trong tiếng Việt (ví dụ: vật lý = vật lí, thời kỳ = thời kì, …) 
Sau đó câu được chuyển sang tầng WFST. Trong tầng này tác giả xử lý thêm các vấn 
đề liên quan đến đặc thù của tiếng Việt, như: từ láy, tên riêng, … Cuối cùng, nếu còn 
nhập nhằng câu sẽ được chuyển sang tầng khử nhập nhằng bằng mạng Neural (Hình 
2.1) 
Thông tin ngữ cảnh Bắt đầu 
2.2.1.2.1 Tầng WFST: 
2.2.1.2.1.1 Xây dựng từ điển trọng số: 
16 16 16 16 
Giá trị xuất (0<x<1) 
1( )
1
ii h
T
f h
e
−= +
Tầng nhập 
            Các file đính kèm theo tài liệu này:
 Unlock-0112229-0112235.pdf Unlock-0112229-0112235.pdf