Tài liệu Đề tài Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản: ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
NGUYỄN CHÁNH THÀNH
XÂY DỰNG MƠ HÌNH MỞ RỘNG TRUY VẤN
TRONG TRUY XUẤT THƠNG TIN VĂN BẢN
LUẬN ÁN TIẾN SĨ KỸ THUẬT
TP.HỒ CHÍ MINH – 2010
ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
NGUYỄN CHÁNH THÀNH
XÂY DỰNG MƠ HÌNH MỞ RỘNG TRUY VẤN
TRONG TRUY XUẤT THƠNG TIN VĂN BẢN
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 62.48.01.01
LUẬN ÁN TIẾN SĨ KỸ THUẬT
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS. PHAN THỊ TƯƠI
TP.HỒ CHÍ MINH – 2010
LỜI CAM ĐOAN
Tơi cam đoan rằng nội dung của luận án này là kết quả nghiên cứu của bản
thân. Tất cả những tham khảo từ các nghiên cứu liên quan điều được nêu nguồn gốc
một cách rõ ràng từ danh mục tài liệu tham khảo trong luận án. Những đĩng gĩp
trong luận án là kết quả nghiên cứu của tác giả đã được cơng bố trong các bài báo
khoa học trong phần “Các cơng trình khoa học” của luận án và chưa được cơng bố
trong bất kỳ cơng trình khoa học nào khác.
Tác giả luận án ...
223 trang |
Chia sẻ: hunglv | Lượt xem: 1385 | Lượt tải: 1
Bạn đang xem trước 20 trang mẫu tài liệu Đề tài Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
NGUYỄN CHÁNH THÀNH
XÂY DỰNG MƠ HÌNH MỞ RỘNG TRUY VẤN
TRONG TRUY XUẤT THƠNG TIN VĂN BẢN
LUẬN ÁN TIẾN SĨ KỸ THUẬT
TP.HỒ CHÍ MINH – 2010
ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
NGUYỄN CHÁNH THÀNH
XÂY DỰNG MƠ HÌNH MỞ RỘNG TRUY VẤN
TRONG TRUY XUẤT THƠNG TIN VĂN BẢN
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 62.48.01.01
LUẬN ÁN TIẾN SĨ KỸ THUẬT
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS. PHAN THỊ TƯƠI
TP.HỒ CHÍ MINH – 2010
LỜI CAM ĐOAN
Tơi cam đoan rằng nội dung của luận án này là kết quả nghiên cứu của bản
thân. Tất cả những tham khảo từ các nghiên cứu liên quan điều được nêu nguồn gốc
một cách rõ ràng từ danh mục tài liệu tham khảo trong luận án. Những đĩng gĩp
trong luận án là kết quả nghiên cứu của tác giả đã được cơng bố trong các bài báo
khoa học trong phần “Các cơng trình khoa học” của luận án và chưa được cơng bố
trong bất kỳ cơng trình khoa học nào khác.
Tác giả luận án
Nguyễn Chánh Thành
LỜI CẢM ƠN
Trong quá trình hồn thành luận án này, tơi đã được các thầy cơ nơi cơ sở
đào tạo giúp đỡ tận tình, cơ quan nơi cơng tác tạo mọi điều kiện thuận lợi và bạn bè
cùng gia đình thường xuyên động viên khích lệ.
Luận án này khơng thể hồn thành tốt nếu khơng cĩ sự tận tình hướng dẫn và
sự giúp đỡ quí báu của PGS.TS. Phan Thị Tươi, giáo viên hướng dẫn mà tơi tơn
vinh và muốn được bày tỏ lịng biết ơn sâu sắc nhất.
Tơi cũng muốn được bày tỏ lịng biết ơn đối với tập thể các thầy cơ khoa
Khoa học và Kỹ thuật Máy tính trường Đại học Bách khoa TP. Hồ Chí Minh đã
giúp đỡ và tạo điều kiện cho tơi rất nhiều trong quá trình học tập và nghiên cứu ở
Khoa; đặc biệt PGS.TS. Cao Hồng Trụ, PGS.TS. Dương Tuấn Anh, PGS.TS. Đỗ
Phúc và TS. Đặng Trần Khánh đã cĩ những lời khuyên quý giá trong quá trình làm
NCS và viết luận án này; cảm ơn Phịng quản lý Sau Đại học về sự hỗ trợ các thủ
tục hồn thành luận án.
Sự biết ơn của tơi xin được gửi đến gia đình, vợ con và người thân, đã hỗ trợ
động viên và tạo mọi điều kiện thuận lợi cho tơi trong suốt quá trình hồn thành
khĩa học NCS.
Cuối cùng tơi cảm ơn anh Ngơ Hùng Phương cùng tất cả bạn bè, đặc biệt các
thành viên trong nhĩm nghiên cứu BK-NLP (thuộc trường Đại học Bách khoa
Tp.HCM) đã gĩp nhiều ý kiến thiết thực và cĩ những lời động viên khích lệ quý báu
giúp tơi vượt qua khĩ khăn và hồn thành tốt luận án.
Tác giả luận án
Nguyễn Chánh Thành
TĨM TẮT
Trong truy xuất thơng tin (Information Retrieval, IR), do những yếu tố khác
nhau, người sử dụng thường dùng các truy vấn dạng đơn giản biểu diễn yêu cầu cần
tìm. Việc này dẫn đến kết quả tìm được khơng đáp ứng đủ nhu cầu mong muốn,
hoặc chất lượng thấp. Do đĩ, mở rộng truy vấn là vấn đề cần thiết, để từ đĩ giúp hệ
thống truy xuất thơng tin cĩ thêm thơng tin theo ngữ cảnh nhằm cải tiến các kết quả
truy vấn. Thơng tin theo ngữ cảnh cĩ thể thu được từ những thơng tin phản hồi liên
quan, từ đồng hiện hay mơ hình tri thức như bản thể học (ontology).
Việc ứng dụng ontology để trợ giúp việc mở rộng truy vấn được nghiên cứu
từ đầu thập niên 1990 với một số thành cơng. Trong bài tốn mở rộng truy vấn, một
số nhĩm nghiên cứu trên thế giới đã sử dụng ontology WordNet. Một số nhĩm khác
đã phát triển ontology để phục vụ nhu cầu mở rộng truy vấn. Những định hướng đặc
biệt về cấu trúc ontology cần xây dựng bao gồm đề xuất về nhĩm thành phần lớp,
thể hiện, thuộc tính, hay đề xuất về nhĩm thể hiện, thuộc tính, khái niệm và quan hệ
rời rạc (disjointness), IS-A, và tương đương (equivalence), hoặc phát triển một mơ
hình mới về mạng ngữ nghĩa dựa trên những quan hệ trích dẫn từ WordNet như
quan hệ thượng danh (hypernymy), hạ danh (hyponymy) … cùng một số quan hệ
được định nghĩa thêm như chú giải (gloss), chủ đề và miền (domain).
Luận án này đề xuất phương pháp mở rộng truy vấn dựa trên cơ sở bản thể
học (ontology-based query expansion). Để thực hiện mục tiêu trên, luận án phải giải
quyết các vấn đề chính: (1) đề xuất cơ sở lý thuyết về các mơ hình mở rộng truy vấn
dựa trên ontology; (2) phát triển và huấn luyện ontology bằng phương pháp khai
thác kho ngữ liệu sẵn cĩ và phương pháp rút trích dữ liệu từ WordNet; (3) đề xuất
phương pháp hồn thiện và mở rộng truy vấn. Phần thực nghiệm của luận án được
tiến hành cho ngơn ngữ tiếng Anh dựa trên nguồn dữ liệu và truy vấn tiếng Anh từ
nguồn TREC (Text REtrieval Conference) trong một số lĩnh vực. Các kết quả thực
nghiệm phản ánh tính khả thi của những phương pháp đề xuất trong luận án, đồng
thời cho thấy nhiều triển vọng phát triển của các đề xuất lý thuyết trong luận án.
i
MỤC LỤC
MỤC LỤC ..................................................................................................................... i
DANH MỤC CÁC BẢNG ............................................................................................... iii
DANH MỤC CÁC HÌNH .................................................................................................. v
DANH MỤC CÁC GIẢI THUẬT ................................................................................. vii
DANH MỤC CÁC TỪ VIẾT TẮT ............................................................................... viii
Chương 1 GIỚI THIỆU .............................................................................................. 1
1.1 Động cơ nghiên cứu ............................................................................................. 1
1.2 Mục tiêu và phạm vi nghiên cứu ......................................................................... 5
1.3 Đĩng gĩp chính của luận án ................................................................................ 8
1.4 Cấu trúc của luận án ........................................................................................... 10
1.5 Các quy ước ....................................................................................................... 13
1.6 Tĩm tắt nội dung luận án ................................................................................... 13
Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN ........................................................ 14
2.1 Giới thiệu ........................................................................................................... 14
2.2 Các nghiên cứu liên quan trong nước ................................................................ 15
2.3 Các nghiên cứu về ontology .............................................................................. 19
2.4 Các nghiên cứu về mở rộng truy vấn ................................................................. 23
2.5 Khai thác dữ liệu từ WordNet ............................................................................ 39
2.6 Tĩm lược ............................................................................................................ 44
Chương 3 XÂY DỰNG NỀN TẢNG HỆ THỐNG ................................................. 46
3.1 Giới thiệu ........................................................................................................... 46
3.2 Bài tốn Xây dựng ontology và bài tốn Hồn chỉnh mở rộng truy vấn ........... 46
3.3 Các mơ hình cho bài tốn mở rộng truy vấn ...................................................... 60
3.4 Mẫu nhận dạng cụm danh từ .............................................................................. 65
3.5 Phương pháp thực nghiệm và đánh giá .............................................................. 70
3.6 Nguồn dữ liệu thực nghiệm ............................................................................... 74
3.7 Tĩm lược ............................................................................................................ 88
Chương 4 XÂY DỰNG ONTOLOGY OOMP ........................................................ 90
4.1 Giới thiệu ........................................................................................................... 90
4.2 Xây dựng ontology OOMP ................................................................................ 90
4.3 Phương pháp huấn luyện dựa trên kho ngữ liệu ................................................ 95
4.4 Phương pháp huấn luyện dựa trên WordNet ................................................... 100
4.5 Cơ chế tự huấn luyện của ontology OOMP ..................................................... 107
4.6 Các ứng dụng của ontology và quan hệ ........................................................... 109
4.7 Tĩm lược .......................................................................................................... 110
Chương 5 HỒN CHỈNH VÀ RÚT GỌN TRUY VẤN....................................... 112
5.1 Giới thiệu ......................................................................................................... 112
ii
5.2 Hồn chỉnh và rút gọn truy vấn ....................................................................... 113
5.3 Kiểm tra cụm danh từ hồn chỉnh .................................................................... 114
5.4 Tạo cụm danh từ hồn chỉnh ............................................................................ 121
5.5 Tạo cụm danh từ rút gọn .................................................................................. 122
5.6 Hồn chỉnh cụm danh từ .................................................................................. 123
5.7 Giải thuật rút gọn thành phần cụm danh từ...................................................... 135
5.8 Tĩm lược .......................................................................................................... 140
Chương 6 MỞ RỘNG TRUY VẤN ........................................................................ 142
6.1 Mở rộng truy vấn cho động cơ tìm kiếm trên Web ......................................... 142
6.2 Mở rộng truy vấn cho hệ thống truy xuất thơng tin cĩ sẵn .............................. 153
6.3 Tĩm lược .......................................................................................................... 165
Chương 7 KẾT LUẬN ............................................................................................. 167
7.1 Các kết quả đạt được ........................................................................................ 167
7.2 Hướng phát triển .............................................................................................. 171
7.3 Lời kết .............................................................................................................. 172
CÁC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ ................................................... 174
TÀI LIỆU THAM KHẢO ............................................................................................. 177
Phụ lục A. Tĩm lược về WordNet ............................................................................... a
Phụ lục B. Cấu trúc cụm danh từ tiếng Anh .............................................................. c
Phụ lục C. Danh mục từ loại tiếng Anh ...................................................................... g
Phụ lục D. Danh mục luật sinh dạng cụm danh từ của văn phạm tiếng Anh xây
dựng dựa trên TreeBank ................................................................................................... i
Phụ lục E. Tính chất ảnh-tạo ảnh trong tốn học ..................................................... o
Phụ lục F. Cấu trúc định dạng tài liệu TREC .......................................................... p
Phụ lục G. Tổ chức cơ sở dữ liệu của thực nghiệm trong luận án ........................... s
iii
DANH MỤC CÁC BẢNG
Bảng 3.1. Danh sách mã lỗi quy ước ................................................................................... 57
Bảng 3.2. Các trường hợp liên kết giữa q và q’ để tính )'|( qq℘ ...................................... 63
Bảng 3.3. Các trường hợp liên kết giữa q và q’ để tính )'(q℘ ............................................ 63
Bảng 3.4.Tập luật sinh tiếng Anh liên quan cụm danh từ (nguồn [2]) ................................ 67
Bảng 3.5. Danh sách mẫu cơ bản đặc tả cụm danh từ ......................................................... 68
Bảng 3.6. Thống kê thành phần dữ liệu từ TREC ............................................................... 76
Bảng 3.7. Danh sách tập chỉ mục xây dựng từ nguồn dữ liệu trong bảng 3.6 ..................... 78
Bảng 3.8. Thống kê mục từ, tài liệu và liên kết của nguồn dữ liệu ..................................... 79
Bảng 3.9. Thống kê các tài liệu liên quan theo nguồn dữ liệu ............................................. 81
Bảng 3.10. Danh sách mẫu sử dụng trong thực nghiệm ...................................................... 83
Bảng 3.11. Thống kê cụm danh từ phân biệt rút trích từ kho ngữ liệu tiếng Anh ............... 84
Bảng 4.1. Thống kê số lượng cụm danh từ theo dạng mẫu ................................................. 98
Bảng 4.2. Dữ liệu dự tuyển rút trích được trong giải thuật CB-KBT .................................. 99
Bảng 4.3. Dữ liệu dự tuyển rút trích được trong giải thuật CB-KBT .................................. 99
Bảng 4.4. Các thống kê cho dữ liệu huấn luyện ................................................................ 100
Bảng 4.5. Danh mục phân lớp từ vựng sử dụng trong WordNet ....................................... 105
Bảng 4.6.Thống kê các mục từ dùng trong quá trình huấn luyện WB-BKT ..................... 106
Bảng 4.7. Dữ liệu được rút trích từ WordNet trong giải thuật WB-KBT .......................... 106
Bảng 4.8. Các thống kê cho dữ liệu huấn luyện ................................................................ 106
Bảng 4.9. Dữ liệu bổ sung tạo bởi giải thuật A-KBT ........................................................ 108
Bảng 5.1. Thống kê về thời gian thực thi của giải thuật CNPV ........................................ 117
Bảng 5.2. Các trường hợp xử lý trong giải thuật CNPV theo dạng lỗi .............................. 117
Bảng 5.3. Các trường hợp xử lý trong giải thuật CNPV theo dạng lỗi và mẫu ................. 118
Bảng 5.4. Số liệu thống kê các phần tử phân tích trung gian ............................................ 120
Bảng 5.5. Thống kê về thời gian thực thi của giải thuật NPC ........................................... 129
Bảng 5.6. Thống kê các trường hợp xử lý trong giải thuật NPC theo dạng lỗi ................. 130
Bảng 5.7. Thống kê các trường hợp xử lý trong giải thuật NPC theo dạng mẫu ............... 130
Bảng 5.8. Thống kê các phần tử phân tích trung gian của giải thuật NPC ........................ 131
iv
Bảng 5.9. Kết quả thực nghiệm của giải thuật CNPG trên dữ liệu trung gian của giải thuật
NPC .................................................................................................................................... 131
Bảng 5.10. Phân tích kết quả thực nghiệm của giải thuật NPC ......................................... 133
Bảng 5.11. So sánh kết quả của phương pháp tìm kiếm thơ và NPC ................................ 134
Bảng 5.12. Thống kê về thời gian thực thi của giải thuật NPMR ...................................... 137
Bảng 5.13. Thống kê các phần tử phân tích trung gian của giải thuật NPMR .................. 137
Bảng 5.14. Kết quả thực nghiệm của giải thuật RNPG trên dữ liệu trung gian của giải thuật
NPMR ................................................................................................................................ 137
Bảng 5.15. Phân tích kết quả thực nghiệm của giải thuật NPMR ..................................... 139
Bảng 5.16. So sánh kết quả của phương pháp tìm kiếm thơ và NPMR ............................. 140
Bảng 6.1. Thống kê về thời gian thực thi của giải thuật SNPE ......................................... 148
Bảng 6.2. Thống kê các trường hợp xử lý trong giải thuật SNPE theo dạng lỗi ............... 148
Bảng 6.3. Thống kê các phần tử phân tích trung gian của giải thuật SNPE ...................... 149
Bảng 6.4. Kết quả thực nghiệm của giải thuật CNPG trên dữ liệu trung gian của giải thuật
SNPE .................................................................................................................................. 149
Bảng 6.5. Phân tích kết quả thực nghiệm của giải thuật SNPE ......................................... 151
Bảng 6.6. So sánh kết quả của phương pháp tìm kiếm thơ và SNPE ................................ 153
Bảng 6.7. Thống kê số liệu thực nghiệm trong giải thuật SIC........................................... 160
Bảng 6.8. Số liệu chi tiết của tập si_TermLink tạo ra từ giải thuật SIC ............................ 161
Bảng 6.9. Thống kê kết quả trong tập si_TermLink tạo ra từ giải thuật SIC .................... 161
Bảng 6.10. So sánh kết quả thực nghiệm 1 ........................................................................ 163
Bảng 6.11. So sánh kết quả thực nghiệm 2 ........................................................................ 164
Bảng 6.12. So sánh kết quả thực nghiệm 3 ........................................................................ 165
v
DANH MỤC CÁC HÌNH
Hình 1.1. Mối quan hệ giữa mơ hình của luận án và hệ thống truy xuất thơng tin ............... 6
Hình 1.2. Tĩm tắt phân bố nội dung các vấn đề trình bày trong luận án ............................. 13
Hình 2.1. Tổ chức hệ thống WordNet phiên bản 3.0 (*) ..................................................... 41
Hình 2.2. Cấu trúc ontology về hình ảnh của S.Zinger ....................................................... 43
Hình 2.3. Đồ thị quan hệ ngữ nghĩa của Boris .................................................................... 43
Hình 3.1. Quan hệ kết hợp OMP ......................................................................................... 55
Hình 3.2. Ví dụ về cây phân tích (hình b) được xây dựng từ quan hệ ROMP (hình a) .......... 56
Hình 3.3. Đồ thị ngữ nghĩa G cĩ phân lớp ........................................................................... 59
Hình 3.4. Tổ chức phân cấp các mơ hình ............................................................................ 61
Hình 3.5. Ví dụ về đặc tả các mẫu trong JAPE ................................................................... 70
Hình 3.6. Tỉ lệ phân bố các mục tài liệu .............................................................................. 76
Hình 3.7. Cài đặt chức năng xây dựng chỉ mục cho dữ liệu dạng XML ............................. 77
Hình 3.8. Tổ chức lưu trữ vật lý của các tập chỉ mục .......................................................... 78
Hình 3.9. Tổ chức cơ sở dữ liệu lưu trữ thơng tin của các chỉ mục ..................................... 79
Hình 3.10. Cài đặt chức năng nạp dữ liệu chỉ mục vào cơ sở dữ liệu ................................. 80
Hình 3.11. Thống kê số lượng tài liệu liên quan xác định được .......................................... 81
Hình 3.12. Tỉ lệ tài liệu liên quan xác định được ................................................................ 82
Hình 3.13. Thống kê tập mẫu sử dụng trong thực nghiệm .................................................. 82
Hình 3.14. Tỉ lệ chọn lọc cụm danh từ hợp lệ theo chiều dài cụm danh từ ......................... 85
Hình 3.15. Kết quả rút trích cụm danh từ hợp lệ trong huấn luyện ..................................... 85
Hình 3.16. Tổ chức lưu trữ cụm danh từ rút trích từ các nguồn dữ liệu .............................. 86
Hình 3.17. Phân bổ cụm danh từ trong tập TRAINING_DATA theo dạng mẫu ................ 86
Hình 3.18. Phân bổ cụm danh từ trong tập TEST_DATA theo các nhĩm mẫu .................. 87
Hình 4.1. Cấu trúc mức luận lý của ontology OOMP ......................................................... 91
Hình 4.2. Cấu trúc ontology OOMP về tổ chức cơ sở dữ liệu quan hệ ............................... 91
Hình 4.3. Đặc tả luận lý cho cấu trúc ontology OOMP ....................................................... 92
Hình 4.4. Các phương pháp huấn luyện ontology OOMP ................................................... 95
Hình 4.5. Phương pháp huấn luyện dựa trên kho ngữ liệu .................................................. 95
Hình 4.6. Quan hệ Rm được xây dựng từ quan hệ holonymy trong WordNet ................... 101
vi
Hình 4.7. Quan hệ Rm được xây dựng từ quan hệ meronymy trong WordNet .................. 101
Hình 4.8. Quan hệ Rp được xây dựng từ quan hệ attribute trong WordNet....................... 101
Hình 4.9. Quan hệ Rm được xây dựng từ quan hệ similar trong WordNet ........................ 101
Hình 4.10. Quan hệ Rm và Rp được xây dựng từ quan hệ similar trong WordNet ............ 102
Hình 4.11. Quan hệ Rp được xây dựng từ quan hệ similar trong WordNet ....................... 102
Hình 4.12. Tổ chức dữ liệu của WordNet phiên bản 3.0 ................................................... 104
Hình 4.13. Thống kê số lượng các quan hệ trong WordNet .............................................. 104
Hình 5.1. Mơ hình hệ thống hồn chỉnh và rút gọn truy vấn ............................................. 113
Hình 5.2. Các trường hợp xử lý trong giải thuật CNPV theo dạng lỗi và mẫu ................. 120
Hình 5.3. Thống kê các trường hợp xử lý theo dạng lỗi ở mức chi tiết ............................. 129
Hình 5.4. Cài đặt chức năng tìm kiếm cho truy vấn sinh từ giải thuật NPC ..................... 132
Hình 5.5. Thống kê số liệu các độ đo theo nguồn dữ liệu ................................................. 132
Hình 5.6. Thống kê số lượng kết quả thực nghiệm theo nguồn dữ liệu............................. 133
Hình 5.7. Cài đặt chức năng tìm kiếm cho truy vấn sinh từ giải thuật NPMR .................. 138
Hình 5.8. Thống kê số liệu các độ đo theo nguồn dữ liệu ................................................. 139
Hình 5.9. Thống kê số lượng kết quả thực nghiệm theo nguồn dữ liệu............................. 140
Hình 6.1. Mơ hình hệ thống mở rộng truy vấn với động cơ tìm kiếm thơng tin ............... 143
Hình 6.2. Cài đặt chức năng tìm kiếm cho truy vấn sinh từ giải thuật SNPE ................... 150
Hình 6.3. Thống kê số lượng kết quả thực nghiệm theo nguồn dữ liệu............................. 152
Hình 6.4. Thống kê số liệu các độ đo theo nguồn dữ liệu ................................................. 152
Hình 6.5. Minh họa tính chất (6.1) .................................................................................... 154
Hình 6.6. Ứng dụng tính chất (6.1) vào mở rộng kết quả tìm kiếm .................................. 155
Hình 6.7. Mơ hình hệ thống mở rộng truy vấn kết hợp hệ thống truy xuất thơng tin dựng
sẵn ...................................................................................................................................... 155
Hình 6.8. Mơ hình tổ chức chỉ mục hướng ngữ nghĩa ....................................................... 156
Hình 6.9. So sánh số liên kết tạo thành theo nguồn dữ liệu ............................................... 162
Hình 6.10. So sánh tỉ lệ liên kết tạo thành theo nguồn dữ liệu .......................................... 162
Hình 7.1. Phương pháp thực hiện của vấn đề 4 ................................................................. 172
vii
DANH MỤC CÁC GIẢI THUẬT
Giải thuật 4.1. Huấn luyện ontology dựa trên kho ngữ liệu .......................................... 96
Giải thuật 4.2. Huấn luyện ontology dựa trên WordNet .............................................. 103
Giải thuật 4.3. Huấn luyện ontology tự động ................................................................ 107
Giải thuật 5.1. Kiểm tra cụm danh từ hồn chỉnh ........................................................ 114
Giải thuật 5.2. Tạo cụm danh từ hồn chỉnh ................................................................. 121
Giải thuật 5.3. Tạo cụm danh từ rút gọn ....................................................................... 122
Giải thuật 5.4. Hồn chỉnh cụm danh từ ....................................................................... 123
Giải thuật 5.5. Rút gọn thành phần cụm danh từ ......................................................... 135
Giải thuật 6.1. Mở rộng cụm danh từ tương đương ..................................................... 144
Giải thuật 6.2. Tạo chỉ mục hướng ngữ nghĩa ............................................................... 157
Giải thuật 6.3. Tìm kiếm kết hợp ................................................................................... 158
viii
DANH MỤC CÁC TỪ VIẾT TẮT
STT Từ viết tắt Diễn giải tiếng Anh Diễn giải tiếng Việt
1 A-KBT Auto Knowledge Base
Training
Huấn luyện ontology tự động
2 CB-KBT Corpus-Based Knowledge
Base Training
Huấn luyện ontology dựa trên kho
ngữ liệu
3 CL Concept Lattice Lưới khái niệm
4 CLIR Cross-Language
Information Retrieval
Truy xuất thơng tin xuyên ngơn ngữ
5 CNPV Complete Noun Phrase
Verification
Kiểm tra tính hồn chỉnh của cụm
danh từ
6 CREOLE Collection of REusable
Object for Language
Engineering
Tập đối tượng khả tái sử dụng cho
động cơ ngơn ngữ
7 DC Dice Coefficient Hệ số khối
8 EEM External Expansion Model Mơ hình mở rộng ngoại vi
9 FCA Formal Concept Analysis Phân tích Khái niệm Chính quy
10 GATE General Architecture for
Text Engineering
Kiến trúc tổng quát cho động cơ
văn bản
11 HS Hybrid Search Tìm kiếm kết hợp
12 IDF Inverse-Document
Frequency
Tần suất nghịch đảo tài liệu
13 IR Information Retrieval Truy xuất thơng tin
14 ISE Internal Search Engine Động cơ tìm kiếm thơng tin cục bộ
15 JAPE Java Annotation Patterns
Engine
Động cơ mẫu chú giải Java
16 MAP Mean Average Precision Độ chính xác trung bình bình quân
17 NPC Noun Phrase Completion Hồn chỉnh thành phần cụm danh từ
18 NPRM Noun Phrase Member
Reduction
Rút gọn thành phần cụm danh từ
19 OMP Object-Member-Property Đối tượng-Thành phần-Tính chất
20 OOMP Ontology of Object-
Member-Property
Cơ sở tri thức của Đối tượng-Thành
phần-Tính chất
21 QEM Query Expansion Model Mơ hình mở rộng truy vấn
22 SIC Semantic Index Creation Tạo chỉ mục hướng ngữ nghĩa
23 SNPE Similar Noun Phrase
Expansion
Mở rộng cụm danh từ tương đương
24 TREC Text REtrieval Conference Hội nghị về Truy xuất văn bản
25 WB-KBT WordNet-Based Knowledge
Base Training
Huấn luyện ontology dựa trên
WordNet
1
Chương 1
GIỚI THIỆU
1.1 Động cơ nghiên cứu
Như chúng ta đã biết, internet (web)a được xem là nguồn thơng tin khổng lồ
của nhân loại. Theo thời gian, nguồn thơng tin này khơng ngừng được chia sẻ, mở
rộng và phát triển. Các thơng tin trên Web hầu hết được thể hiện ở dạng văn bản
biểu diễn bởi ngơn ngữ tự nhiên, trong đĩ phần lớn là thơng qua các trang Web,
thường chỉ phù hợp với khả năng đọc hiểu của người sử dụng. Đồng thời với sự
phát triển của Web là sự gia tăng rất lớn về nhu cầu truy xuất thơng tin của người sử
dụng, trong đĩ việc tìm kiếm các thơng tin thể hiện trong ngơn ngữ tiếng Anh
chiếm tỉ lệ đáng kể. Đặc biệt trong những năm gần đây, nhu cầu truy cập tin tức trên
Web của người dân Việt nam rất cao (theo [4], giai đoạn 1997-2007 internet Việt
Nam đã liên tục phát triển với khoảng 18 triệu người tham gia sử dụng, tương
đương 21% dân số) xuất phát từ các nhu cầu chủ yếu như xem tin tức, trao đổi
thơng tin, và đặc biệt số lượng rất lớn là tác vụ tìm kiếm thơng tin cần thiết.
Để phục vụ cho những nhu cầu tìm kiếm thơng tin của người sử dụng, các hệ
thống truy xuất thơng tin (IR) đã được nghiên cứu và phát triển, trong đĩ thành
cơng nhất là một số động cơ tìm kiếm (search engine) nổi tiếng như Google [148] –
Yahoo [165] – Alta Vista [145] và Bing [152] trong thời gian gần đây... Tuy nhiên,
thơng qua các hệ thống đĩ, việc tìm kiếm thơng tin thường khơng nhận được đầy đủ
a
internet cịn được gọi là World Wide Web, viết gọn là WWW hay Web
2
kết quả cần thiết như mong muốn cũng như hiệu suất của chúng cịn cĩ một số giới
hạn nhất định.
Nguyên nhân chủ yếu ảnh hưởng đến vấn đề này là:
− Ngữ nghĩa của tài liệu bị mất đi do cách biểu diễn truy vấn dưới dạng một
tập các từ khĩa.
− Yêu cầu thơng tin (truy vấn) của người sử dụng thường chỉ bao gồm một vài
từ khĩa cốt lõi, khơng thể hiện đủ ngữ nghĩa cần thiết.
− Người sử dụng khơng cung cấp đủ thơng tin truy vấn cần thiết cho động cơ
tìm kiếm.
− Động cơ tìm kiếm thơng tin hoạt động dựa trên cơ chế so trùng từ khĩa và
chưa quan tâm đúng mức đến yếu tố ngữ nghĩa trong tương tác và hỗ trợ
người dùng.
− Các động cơ tìm kiếm hiện cĩ thường hỗ trợ chính cho tiếng Anh, nhưng
thiếu cơng cụ trợ giúp cho ngơn ngữ khác …
Điều này dẫn đến tình trạng:
− Người sử dụng phải dành một lượng thời gian khá lớn để đọc hiểu và chọn
lọc lại các thơng tin để cĩ những kết quả mong muốn.
− Người sử dụng gặp khĩ khăn trong việc diễn đạt nội dung của vấn đề cần
tìm.
− Người sử dụng khơng nhận được một kết quả trả lời trọn vẹn hồn chỉnh (dù
chỉ cần ở mức tĩm lược ngắn gọn) như mong muốn về một vấn đề cần tìm.
− Thiếu một hệ thống tìm kiếm thơng tin nhanh và linh hoạt để khơng chỉ cĩ
thể tìm các thơng tin trong tài liệu tiếng Anh (như truyền thống) và tiếng Việt
theo cơ chế so trùng từ khĩa, mà cịn cĩ thể trả lời các câu hỏi của người sử
dụng (trong phạm vi xác định cho tiếng Việt).
− Hệ thống chưa thực sự đủ mạnh để nhận biết ngữ nghĩa của truy vấn.
3
Từ các phân tích trên, chúng ta nhận thấy nguyên nhân chính là các hệ thống
tìm kiếm thơng tin chưa đủ mạnh nên kết quả đưa ra khơng thể hỗ trợ người dùng
như mong đợi. Truy vấn của người dùng cũng chưa phản ánh đầy đủ ngữ nghĩa để
hỗ trợ cho các quá trình tìm kiếm và truy xuất thơng tin được tốt hơn. Vì vậy, việc
bổ sung ngữ nghĩa vào truy vấn ban đầu của người dùng là yêu cầu cần thiết.
Một bài tốn kinh điển trong lĩnh vực Truy xuất thơng tin là Mở rộng truy
vấn. Đĩ là quá trình bổ sung một số từ vào truy vấn của người dùng nhằm tạo ra các
truy vấn mới tương đồng ngữ nghĩa. Bài tốn này là vấn đề được quan tâm vì nĩ cĩ
thể loại bỏ nhập nhằng ngữ nghĩa của truy vấn trong ngơn ngữ tự nhiên, cũng như
khắc phục những hạn chế của việc sử dụng từ khĩa để thể hiện một khái niệm thơng
tin. Krovetz và Croft [109] đã quan sát thấy phần lớn các lợi ích thu được trong việc
tìm kiếm thơng tin cĩ độ truy hồi cao phụ thuộc vào việc so trùng các từ khĩa. Đối
với việc mở rộng truy vấn, hệ thống xác định ngữ nghĩa truy vấn được chính xác
hơn, điều đĩ cho phép kết quả truy vấn tốt hơn. Thơng qua kết quả truy vấn mở
rộng, người dùng cĩ thể học tập cách phát biểu truy vấn rõ ràng và chính xác hơn để
thu được các kết quả hữu ích.
Từ một truy vấn của người dùng, mở rộng truy vấn sẽ bổ sung vào đĩ một số
từ hay thuật ngữ liên quan và tạo ra dạng truy vấn mới cĩ thể bao phủ thơng tin
rộng hơn. Như vậy, tài liệu mong đợi để thu nhận sẽ nhiều hơn dẫn đến tỉ lệ bao phủ
thơng tin tăng lên tương ứng. Quá trình thêm những thuật ngữ này cĩ thể thực hiện
bằng tay, tự động hoặc cĩ người dùng trợ giúp. Việc mở rộng truy vấn bằng tay dựa
vào sự am hiểu và thành thạo của con người để đưa ra quyết định, nhằm nhúng các
thuật ngữ vào truy vấn mới. Trong trường hợp mở rộng tự động truy vấn, các trọng
số được tính cho tất cả các thuật ngữ nhằm giúp hệ thống thêm những thuật ngữ cĩ
trọng số cao nhất vào truy vấn ban đầu. Các hàm tính trọng số khác nhau đưa ra
những kết quả khác nhau, do đĩ hiệu suất của việc truy vấn phụ thuộc vào cách thức
tính các trọng số. Với dạng mở rộng truy vấn cĩ người dùng trợ giúp, hệ thống sẽ
sinh ra các thuật ngữ phù hợp cho việc mở rộng truy vấn và người dùng tự chọn một
số trong các thuật ngữ đĩ để thêm vào.
4
Vấn đề cốt lõi của bài tốn mở rộng truy vấn là xác định các từ thích hợp để
thêm vào truy vấn của người dùng. Nhiều nghiên cứu được cơng bố về mở rộng
truy vấn trong đĩ hướng đến việc sử dụng thơng tin ngữ cảnh để xác định các từ cần
thêm một cách hợp lý. Thơng tin theo ngữ cảnh cĩ thể thu được từ các thơng tin
phản hồi liên quan (relevance feedback), từ các từ đồng hiện (co-occurrence term)
và trong thời gian gần đây là từ các mơ hình tri thức như bản thể học (ontology).
Hiện nay, thơng tin liên quan ngữ cảnh của truy vấn là một vấn đề đang được
các nhà nghiên cứu khai thác nhằm cải tiến quá trình truy xuất thơng tin. Theo
Finkelstein [92] ngữ cảnh chưa cĩ định nghĩa chuẩn xác, nhưng theo [124] thì cĩ
hai định nghĩa về ngữ cảnh. Định nghĩa thứ nhất theo ngơn ngữ học “ngữ cảnh là
các phần của bài luận bao quanh từ hay đoạn văn và cĩ thể làm sáng tỏ nghĩa của
nĩ”b. Định nghĩa thứ hai dựa trên tình huống “các điều kiện tương quan trong đĩ
một điều gì đĩ tồn tại hay xảy ra”c . Từ đĩ, một nhận định chung là thơng qua
tương tác của người dùng lên hệ thống truy xuất thơng tin, ngữ cảnh tương ứng sẽ
bao gồm những thơng tin liên quan đến những hành động, những quyết định của
người dùng.
Ngữ cảnh trong truy xuất thơng tin bao gồm nhiều vấn đề trong đĩ cĩ mở
rộng truy vấn. Một khĩ khăn là làm sao biểu diễn được nghĩa của truy vấn bằng các
thuật ngữ (term) một cách chính xác. Do vậy, mở rộng truy vấn cho phép người
dùng thực hiện tìm kiếm thơng tin bằng truy vấn mới cĩ các thuật ngữ là sự biến đổi
hình thái của thuật ngữ ban đầu và (hoặc) một số thuật ngữ mới được thêm vào truy
vấn nhờ kết quả khử nhập nhằng nghĩa của truy vấn ban đầu. Nhiều phương pháp
tiếp cận khác nhau được đề xuất hướng đến việc mở rộng truy vấn. Trong đĩ, cĩ
nhiều nghiên cứu hướng đến việc sử dụng ontology để hỗ trợ suy luận ngữ cảnh cho
các truy vấn nhập nhằng. Các khái niệm trong ontology được dùng để khử nhập
nhằng ngữ nghĩa của từ và hỗ trợ để mở rộng truy vấn. Việc mở rộng truy vấn đạt
thành cơng ở một mức độ nhất định nhưng vẫn cịn nhiều vấn đề cần cải thiện về kỹ
b
Nguyên văn: “the parts of a discourse that surround a word or passage and can throw light on its meaning”
c
Nguyên văn: “the interrelated conditions in which something exists or occurs”
5
thuật, giao diện hoặc giải thuật để xác định ngữ nghĩa một cách chính xác hơn từ đĩ
cải tiến kết quả truy vấn.
Từ tầm quan trọng về tính hiệu quả của quá trình truy xuất thơng tin (trên
internet), cùng với hướng giải quyết làm sao để hệ thống IR cĩ thể hiểu nhiều hơn
và thơng minh hơn khi xử lý truy vấn ban đầu của người dùng, thì yêu cầu về một
hệ thống truy xuất thơng tin cĩ khả năng tạo ra những truy vấn tương đồng hoặc
cùng mục tiêu là bài tốn quan trọng. Do đĩ, thơng qua những khảo sát phân tích
nêu trên, vấn đề mở rộng truy vấn là bài tốn quan trọng mà luận án này nghiên cứu
và đề xuất phương pháp giải quyết.
1.2 Mục tiêu và phạm vi nghiên cứu
Từ động cơ nghiên cứu nêu trên, luận án đề xuất một số phương pháp mở
rộng truy vấn ban đầu của người dùng. Đây là vấn đề cốt lõi và đồng thời là mục
tiêu nghiên cứu của luận án.
Hiện nay trên thế giới nhiều phương pháp tiếp cận bài tốn mở rộng truy vấn
trên cơ sở sử dụng cơ sở tri thức đã được cơng bố như:
− Mở rộng truy vấn sử dụng cơ sở tri thức cĩ tương tác kho ngữ liệu (cơng
trình [11] [22] [60] [86] [61] [102] [106] [116] [137] và [141] ...)
− Mở rộng truy vấn sử dụng các cơ sở tri thức khơng tương tác kho ngữ liệu
(cơng trình [29] [53] [54] [56] [59] [66] [76] [89] [92] [110] [136] …)
Mỗi phương pháp đều cĩ ưu, nhược điểm cùng với những cơng trình nghiên
cứu và các thực nghiệm liên quan. Từ việc khảo sát phân tích những phương pháp
này (xem chương 2), dựa trên những giải pháp khả thi đã được cơng bố trên thế
giới, hướng tiếp cận chính của luận án là mở rộng truy vấn sử dụng cơ sở tri thức
khơng tương tác kho ngữ liệu.
Để luận án mang tính khả thi cả về lý thuyết lẫn thực tiễn và mang lại kết
quả như mong muốn, tác giả đã thực hiện:
6
(a) Nghiên cứu và phát triển cơ sở lý thuyết của phương pháp tiếp cận mới
cho việc mở rộng truy vấn, trên cơ sở kết hợp với ontologyd.
(b) Nghiên cứu và phát triển cấu trúc tổ chức ontology cùng giải pháp huấn
luyện tạo dữ liệu ban đầu nhằm kiểm chứng kết quả nghiên cứu ở (a) và cĩ thể triển
khai trong thực tế để mang lại kết quả truy xuất thơng tin tốt hơn.
Như định hướng nêu trên, phạm vi nghiên cứu của luận án được thể hiện
trong hình 1.1 (trong khung đường gạch đứt nét).
Hình 1.1. Mối quan hệ giữa mơ hình của luận án và hệ thống truy xuất thơng tin
(A) Mơ hình xử lý của luận án (phạm vi nghiên cứu của luận án)
(B) Động cơ tìm kiếm thơng tin (thuộc hệ thống truy xuất thơng tin)
(C) Kết quả tìm kiếm thơng tin từ yêu cầu của các câu truy vấn đã mở rộng
Với mơ hình được mơ tả ở hình 1.1, trong mục (A), câu truy vấn nhập (dạng
cụm danh từ bao gồm các thành phần là tính từ hay chỉ cĩ danh từ đơn) được xử lý
để trả về tập các câu truy vấn đã được mở rộng (cụm danh từ cĩ dạng truy vấn hồn
chỉnhe). Trong phạm vi luận án, dựa trên giải pháp rút trích các từ đặc trưng cốt lõi
d
Khái niệm ontology cịn được diễn dịch là “cây phả hệ tri thức” hay “cơ sở tri thức”
e
Tham khảo thêm định nghĩa 3.10-Truy vấn hồn chỉnh, mục 3.2.6, chương 3.
Nhập:
Câu truy vấn
dạng cụm
danh từ
Bộ xử lý
mở rộng
truy vấn
trên cơ sở
kết hợp với
ontology
Động cơ
tìm kiếm
thơng tin
Kết quả trả
về (tập tài
liệu)
Xuất:
Các câu truy
vấn:
- dạng cụm
danh từ,
- đã được mở
rộng cĩ dạng
truy vấn hồn
chỉnh.
(A)
(B)
(C)
7
cho một câu ([23] [149]), câu truy vấn ban đầu của người dùng được tiền xử lý để
loại bỏ các thành phần khơng quan trọng nhằm giữ lại những thành phần chính thỏa
điều kiện truy vấn hồn chỉnh. Điều đĩ sẽ giúp giảm được độ phức tạp hay dạng
biểu diễn phức hợp của truy vấn, đồng thời cịn giúp đảm bảo tính duy nhất của
từng thành phần trong truy vấn thỏa điều kiện truy vấn hồn chỉnh.
Mục (B) của hình trên gồm động cơ tìm kiếm thơng tin (search engine). Đây
là một bộ phận quan trọng của hệ thống Truy xuất Thơng tin (Information
Retrieval). Động cơ tìm kiếm thơng tin giải quyết ba vấn đề cốt lõi là mơ hình biểu
diễn văn bản, thuật tốn tìm kiếm so trùng từ khĩa - đối sánh ngữ nghĩa tương ứng
với các truy vấn và cơ chế lọc kết quả truy xuất. Hiện tại trên thế giới cĩ những
động cơ tìm kiếm thơng tin nổi tiếng như Google, Yahoo, Microsoft Bing … Tuy
nhiên, nghiên cứu của luận án chỉ sử dụng những động cơ này như một cơng cụ hỗ
trợ việc tìm kiếm thơng tin cho truy vấn đã mở rộng bằng phương pháp xử lý của
luận án và khơng đặt mục tiêu nghiên cứu ba vấn đề nêu trên. Vì vậy luận án đã
khơng trình bày ba vấn đề này.
Mơ hình xử lý của luận án (trong mục (A)) chỉ thực hiện việc mở rộng nội
dung của truy vấn nhập nên hồn tồn khơng làm ảnh hưởng đến ba khía cạnh nêu
trên trong quá trình vận hành của động cơ tìm kiếm ở mục (B). Điều này cịn cho
thấy phạm vi nghiên cứu của luận án hướng đến bài tốn mở rộng truy vấn dựa trên
ontology và hồn tồn khác biệt so với ba khía cạnh đã nêu.
Từ những trình bày trên, các bài tốn chính cần giải quyết trong phạm vi
luận án bao gồm:
Bài tốn 1 - Xây dựng ontology OOMP
Nghiên cứu và phát triển cấu trúc ontology OOMP (Ontology of Object-
Member-Property) cùng cơ chế huấn luyện dữ liệu. Dựa trên tập tài liệu tiếng Anhf
từ nguồn TREC và khai thác dữ liệu từ WordNet để huấn luyện dữ liệu ontology
OOMP nhằm phục vụ yêu cầu của bài tốn 2. Nếu bài tốn 1 được giải quyết thành
f
Tham khảo phần giới thiệu của chương 4 về lý do sử dụng nguồn tài liệu tiếng Anh trong thực nghiệm.
8
cơng, một ontology cĩ chất lượng được tạo thành sẽ giúp cung cấp nhiều khả năng
chọn lựa cho các thơng tin hơn, để bổ sung vào từ khĩa ban đầu của người dùng,
dẫn đến việc nâng cao chất lượng của việc mở rộng truy vấn. Việc giải quyết bài
tốn này được trình bày chi tiết trong chương 4 của luận án.
Bài tốn 2 - Xây dựng phương pháp hồn chỉnh mở rộng truy vấn
Dựa trên ontology ở bài tốn 1, nghiên cứu xây dựng phương pháp tiếp cận
mới cho việc mở rộng truy vấn nhằm tạo truy vấn kết quả cĩ dạng truy vấn hồn
chỉnh (biểu diễn ở dạng cụm danh từ về mặt ngơn ngữ học) và xây dựng các giải
thuật hỗ trợ trong phạm vi bài tốn 2. Các chương 4, 5 và 6 sẽ lần lượt trình bày chi
tiết từng phần của những phương pháp giải quyết bài tốn này.
Luận án chủ yếu tập trung xử lý truy vấn ngắn với ba thành phần nên khơng
nghiên cứu vấn đề ngữ cảnh của câu truy vấn. Và thực tế việc nghiên cứu về ngữ
nghĩa của cụm từ và câu cĩ ảnh hưởng của ngữ cảnh là vấn đề rất khĩ và hiện nay
cũng đang được nhiều nhà khoa học quan tâm, là lĩnh vực khác nằm ngồi phạm vi
của luận án.
1.3 Đĩng gĩp chính của luận án
Các vấn đề nghiên cứu của luận án đã cĩ một số đĩng gĩp mới về mặt khoa
học từ phương pháp luận đến giải pháp thực hiện:
* Đĩng gĩp thứ nhất: đề xuất phương pháp xác định các quan hệ của các
khái niệm bao gồm:
− Quan hệ mR xác định thành phần đặc trưng (member) của đối tượng (object).
− Quan hệ pR tính chất đặc trưng (property) của thành phần.
− Các quan hệ xác định tính chất trội mR
f
và pR
f
liên quan.
Các phương pháp mà luận án đề xuất khơng những cĩ thể áp dụng trong
phạm vi luận án để giải quyết Bài tốn 1 và Bài tốn 2 nêu trên mà cịn cĩ thể áp
dụng trong một số lĩnh vực khác để tạo ontology cho một miền khái niệm (trong
lĩnh vực xử lý ngơn ngữ tự nhiên). Ngồi ra, từ gĩc độ tốn học, việc xây dựng các
lớp đồng dạng (liên quan đến nhĩm các đối tượng, nhĩm các thành phần đặc trưng
9
và nhĩm các tính chất đặc trưngg) từ các quan hệ nêu trên sẽ giúp cho việc phân
loại đối tượng hiệu quả hơn. Cơng trình [ii], [iv], [v] và [ix]h đã giới thiệu phương
pháp xác định các quan hệ cùng định nghĩa của những khái niệm này.
Phần đĩng gĩp này sẽ khơng thực sự đầy đủ nếu khơng cĩ các định nghĩa
OB
IRMQE
+
−
,
POB
IRMQE
++
−
,
OB
IRMQE
+
+ ,
POB
IRMQE
++
+ cùng khái niệm truy vấn hồn chỉnh,
cây phân tích và dạng đồ thị ngữ nghĩa do tác giả đề xuất, liên quan đến việc mơ
hình hĩa bài tốn mở rộng truy vấn.
* Đĩng gĩp thứ hai: đề xuất mơ hình ontology OOMP cùng các phương
pháp huấn luyện dữ liệu:
− Phương pháp huấn luyện dựa trên kho ngữ liệu sẵn cĩ (Corpus-Based
Knowledge Base Training, CB-KBT).
− Phương pháp huấn luyện dựa trên ontology WordNet sẵn cĩ (WordNet-
Based Knowledge Base Training, WB-KBT).
− Phương pháp tự huấn luyện dựa trên nội dung sẵn cĩ của ontology từ hai
phương pháp CB-KBT và WB-KBT cùng WordNet (Auto Knowledge Base
Training, A-KBT).
Ontology OOMP khơng những được dùng để phục vụ bài tốn mở rộng truy
vấn mà cịn cĩ thể được sử dụng cho những bài tốn khác theo hướng khai thác các
quan hệ khái niệm. Ngồi ra, từ gĩc độ ngơn ngữ học, các thành phần của ontology
OOMP được phân lớp dựa trên một số dạng từ loại chính (như danh từ, tính từ) nên
cấu trúc của chúng ít phụ thuộc vào sự khác nhau của các ngơn ngữ tự nhiên. Do đĩ,
việc phát triển ontology trên những ngơn ngữ tự nhiên khác (như tiếng Việt hay
Pháp …) tương đối thuận lợi. Nội dung liên quan đến đĩng gĩp này được cơng bố
trong [iv], [v] và [ix].
* Đĩng gĩp thứ ba: đề xuất mơ hình xử lý truy vấn (truy vấn tiếng Anh,
dạng cụm danh từ) trên ontology OOMP, gồm các giải thuật:
g
Tham khảo thêm hình 3.3, trang 59 về các lớp này.
h
Tham khảo thêm phần Các cơng trình khoa học.
10
− Kiểm tra tính hồn chỉnh của cụm danh từ (Complete Noun Phrase
Verification, CNPV)
− Hồn chỉnh cụm danh từ (Noun Phrase Completion, NPC)
− Mở rộng cụm danh từ tương tự (Similar Noun Phrase Expansion, SNPE)
Mơ hình cùng các phương pháp xử lý truy vấn này cĩ thể áp dụng trong Bài
tốn 2, cũng như trong các bài tốn khác như:
− Kiểm tra tính hồn chỉnh của cụm danh từ tiếng Anh theo quan điểm ngơn
ngữ học tính tốn (ứng dụng trong lĩnh vực xử lý ngơn ngữ tự nhiên: truy
xuất thơng tin, rút trích thơng tin, tĩm lược nội dung văn bản).
− Hồn chỉnh và mở rộng cụm danh từ tương đương (ứng dụng trong lĩnh vực
xử lý ngơn ngữ tự nhiên: truy xuất thơng tin, rút trích thơng tin, tĩm lược nội
dung văn bản) ….
Các phương pháp và giải thuật liên quan đến đĩng gĩp này được giới thiệu
trong [ii], [v] và [ix].
* Đĩng gĩp thứ tư: Phương pháp xây dựng chỉ mục hướng ngữ nghĩa
(Semantic Index Creation, SIC) thơng qua việc mở rộng cấu trúc chỉ mục để lưu trữ
thêm thơng tin liên quan ngữ nghĩa đến ontology xác định. Đây chính là cầu nối
giúp triển khai những nghiên cứu lý thuyết vào ứng dụng thực tiễn trong lĩnh vực
truy xuất thơng tin. Kết quả thu được từ phương pháp này tạo tiền đề cho nhiều
nghiên cứu ứng dụng liên quan đến truy xuất thơng tin. Phương pháp này được trình
này trong cơng trình [iv] và được phát triển trong [iii] và [viii].
Những kết quả đạt được này đồng thời được áp dụng cho cơng trình [xii] và
dự định áp dụng cho cơng trình [xiii].
1.4 Cấu trúc của luận án
Luận án được chia thành bảy chương và bảy phụ lục. Chương 1 trình bày
mục tiêu, phạm vi và những đĩng gĩp chính của luận án; giới thiệu cấu trúc của
luận án; liệt kê các qui ước về ký hiệu viết tắt và tên các thuật ngữ ở dạng tiếng
nước ngồi. Trong mỗi chương tiếp theo, từ chương 2 đến chương 6 đều cĩ phần
giới thiệu và phần tĩm lược. Chương 7 là kết luận của luận án.
11
Chương 2 tổng thuật các nghiên cứu ở trong nước và ngồi nước liên quan
đến luận án. Chương này trình bày một bức tranh tổng quan các hướng nghiên cứu
về vấn đề mở rộng truy vấn, đặc biệt là hướng kết hợp ontology, những ưu nhược
điểm của các phương pháp nghiên cứu hiện nay.
Chương 3 trình bày cơ sở tốn học để phát triển mơ hình mở rộng truy vấn
cùng một số đề xuất về lý thuyết liên quan đến hướng nghiên cứu của luận án.
Những đề xuất lý thuyết được trình bày theo từng khái niệm thơng qua các định
nghĩa, tính chất và ví dụ minh hoạ. Phần khảo sát WordNet được trình bày trong
chương này bao gồm cấu trúc tổ chức và các tính năng cũng như ưu khuyết điểm.
Việc vận dụng ngơn ngữ học tính tốn vào đề xuất mẫu nhận dạng cụm danh từ của
tác giả được trình bày chi tiết ở cuối chương để làm nổi bật tập luật sinh của mẫu.
Kết quả những đề xuất về các phương pháp đã được cơng bố trong báo cáo khoa
học [ii], [iv], [v] và [ix]. Các đề xuất này gĩp phần tạo cơ sở cho những phương
pháp tiếp cận (trình bày ở các chương sau) để giải quyết Bài tốn 1 Xây dựng
ontology OOMP và Bài tốn 2 Xây dựng phương pháp hồn chỉnh mở rộng truy
vấn đề ra trong Luận án. Ngồi ra, chương này cịn trình bày phương pháp đánh giá
các thực nghiệm của luận án cùng những vấn đề liên quan đến thực nghiệm như xác
định nguồn dữ liệu sử dụng, xây dựng tập dữ liệu huấn luyện, xây dựng tập dữ liệu
thử nghiệm và các cơng cụ hỗ trợ thực nghiệm.
Chương 4 trình bày mơ hình ontology OOMP cùng các phương pháp huấn
luyện dữ liệu. Chương này trình bày về thiết kế tổ chức của ontology dựa trên các
quan hệ đã được đề xuất ở chương 3 và phương pháp huấn luyện dữ liệu là CB-KBT
thực hiện trên tập dữ liệu TREC cùng phương pháp WB-KBT để rút trích dữ liệu từ
WordNet. Các giải thuật này thể hiện phương pháp tiếp cận giải quyết Bài tốn 1
trong mục tiêu đề ra của Luận án. Nội dung chương này dựa trên [iv], [v] và [ix].
Chương 5 trình bày hai phần, trong đĩ phần một giới thiệu các bài tốn hỗ
trợ để xây dựng cụm danh từ hồn chỉnh và rút gọn, tạo cơ sở để tiếp cận các
phương pháp hồn chỉnh và mở rộng truy vấn. Phần hai trình bày các phương pháp
hồn chỉnh và rút gọn truy vấn. Phương pháp hồn chỉnh truy vấn đĩng vai trị quan
12
trọng ảnh hưởng tích cực đến vấn đề làm đầy đủ thơng tin hơn cho một truy vấn.
Cịn phương pháp rút gọn truy vấn sẽ gĩp phần tạo nên một truy vấn cơ đọng nhưng
vẫn đầy đủ thơng tin hơn. Những phương pháp này đã gĩp phần giải quyết mục tiêu
tạo truy vấn hồn chỉnh của Bài tốn 2 nêu trên, đồng thời đã được giới thiệu trong
[v] và [xii].
Chương 6 trình bày phương pháp mở rộng truy vấn trực tiếp và gián tiếp .
Trong đĩ, phương pháp đầu tiên quan tâm đến việc kết hợp ontology OOMP, để bổ
sung các thơng tin về đối tượng, thành phần cùng thuộc tính đặc trưng vào truy vấn
ban đầu. Từ đĩ, các truy vấn đã được mở rộng cĩ thể tương tác với các động cơ tìm
kiếm thơng tin cĩ sẵn để khai thác thơng tin trên Web. Phương pháp thứ hai thực
hiện việc kết hợp ontology OOMP với hệ thống chỉ mục của một hệ thống truy xuất
thơng tin cĩ sẵn để tạo chỉ mục hướng ngữ nghĩa từ đĩ mở rộng tập dữ liệu truy
xuất được. Mục tiêu mở rộng truy vấn và mở rộng kết quả tìm kiếm của Bài tốn 2
được giải quyết bởi hai phương pháp này với những kết quả ban đầu được giới thiệu
trong [iv] và [ix]. Ngồi ra [iii] và [viii] trình bày các phát triển từ hướng tiếp cận
chỉ mục hướng ngữ nghĩa để áp dụng cho cơng trình [xiii].
Chương 7 là phần tổng kết, trong đĩ trình bày tĩm lược kết quả luận án và
những đề nghị hướng nghiên cứu trong tương lai, liên quan đến luận án. Ngồi
những kết quả nêu trong các chương trên đã được trình bày trong cơng trình [xii],
những kết quả bước đầu của hướng nghiên cứu tiếp theo cũng được giới thiệu trong
[i], [iii], [vii], [viii], [x], [xi] và dự định áp dụng cho cơng trình [xiii].
Phần cuối của luận án là các phụ lục. Trong đĩ, phụ lục A trình bày tĩm lược
về WordNet. Phụ lục B giới thiệu cấu trúc cụm danh từ tiếng Anh. Phần phụ lục C
và D lần lượt trình bày danh mục các từ loại tiếng Anh và tập luật sinh trong văn
phạm tiếng Anh dựa trên Penn TreeBank. Phụ lục E tĩm lược kiến thức về khái
niệm ảnh và tạo ảnh của ánh xạ trong tốn học. Phụ lục F giới thiệu cấu trúc định
dạng tài liệu trong nguồn tài liệu TREC. Phần cuối là phụ lục G cung cấp sơ đồ
minh hoạ về tổ chức cơ sở dữ liệu thực nghiệm của luận án.
13
1.5 Các quy ước
Các khái niệm hay thuật ngữ được sử dụng trong luận án được đồng thời ghi
cả bằng tiếng Việt và tiếng Anh (hoặc ký hiệu viết tắt tương ứng nếu cĩ) ở lần liệt
kê đầu tiên trong luận án, sau đĩ chúng sẽ được dùng thống nhất theo một tên gọi
tiếng Việt hay tiếng Anh.
1.6 Tĩm tắt nội dung luận án
Truy vấn tiếng Anh
(dạng cụm danh từ)
Ontology OOMP
(Ch.4: gt.CB-KBT,
gt.WB-KBT, gt.A-KBT)
Bài tốn 1: xây dựng
ontology OOMP
Xây dựng chỉ mục
hướng ngữ nghĩa
(Ch.6: gt.SIC)
Tìm kiếm mở rộng
(Ch.6: gt.HS)
Bài tốn 2B: mở rộng
truy vấn dựa trên
ontology OOMP
(cục bộ)
Kho ngữ liệu
TREC (c)
Truy vấn hồn chỉnh [ từ (a) ]
hoặc truy vấn rút gọn [ từ (b) ] Động cơ tìm kiếm thơng tin cục bộ (ISE) (Ch.3)
Tập chỉ mục
[ tạo từ (c) ]
Kết quả & đánh giá
(thực nghiệm trong các chương 5, 6)
Truy vấn hồn chỉnh?
(Ch.5: gt.CNPV)
Hồn chỉnh truy vấn
(Ch.5: gt.NPC)
Rút gọn truy vấn
(Ch.5: gt.NPMR)
Mở rộng truy vấn
(Ch.6: gt.SNPE)
Y
N
Tạo truy vấn hồn chỉnh (a)
(Ch.5: gt.CNPG)
Tạo truy vấn rút gọn (b)
(Ch.5: gt.CNPG)
Bài tốn 2A: mở rộng truy vấn
dựa trên ontology OOMP
(tồn cục)
Chương 3 giới thiệu:
- Các định nghĩa lý thuyết về dạng quan hệ ngữ nghĩa, dạng mơ hình mở rộng
truy vấn
- Phương pháp đánh giá thực nghiệm
- Nguồn dữ liệu thực nghiệm và các hỗ trợ
Viết tắt: Ch=chương, gt=giải thuật
Một phần kết quả cơng bố trong
[ii], [iv], [v] và [ix]
Một phần kết quả cơng bố trong [iv] và [ix]
Một phần kết quả cơng bố
trong [iv], [ix]
Hình 1.2. Tĩm tắt phân bố nội dung các vấn đề trình bày trong luận án
14
Chương 2
CÁC NGHIÊN CỨU LIÊN QUAN
2.1 Giới thiệu
Nội dung trong chương 2 là phân tích một số nghiên cứu liên quan đến luận
án theo hướng mở rộng truy vấn dựa trên ontology và khai thác WordNet để phục
vụ cho việc huấn luyện ontology. Mục đích của việc phân tích nhằm xác định
những ưu điểm của các nghiên cứu cĩ ảnh hưởng tích cực đến hướng nghiên cứu
của luận án cũng như những hạn chế và các khĩ khăn, để từ đĩ luận án đưa ra các
giải pháp nhằm giảm thiểu những tác động khơng tích cực.
Trong chương này, phần 2.2 trình bày tĩm lược về các nghiên cứu trong
nước cĩ liên quan đến luận án. Phần 2.3 giới thiệu một số nghiên cứu về ontology
và những vấn đề liên quan đồng thời cung cấp các kiến thức tổng quan về ontology,
để từ đĩ làm cơ sở cho việc phát triển ontology của đối tượng – thuộc tính – tính
chất đặc trưng (Ontology of Object – Member – Property, OOMP) đề xuất trong
chương 4. Phần 2.4 sẽ đặt vấn đề về bài tốn mở rộng truy vấn theo một số cách tiếp
cận khác nhau để làm rõ cơ sở lý thuyết của phương pháp mở rộng truy vấn dựa
trên ontology (ontology-based query expansion) cũng như sự đĩng gĩp của
ontology trong việc giải quyết bài tốn mở rộng truy vấn. Với cấu trúc và nội dung
được trình bày như trên sẽ đưa đến phương pháp hồn chỉnh mở rộng truy vấn mà
luận án đề xuất trong chương 5 và 6. Cuối cùng phần 2.5 trình bày các khảo sát tiếp
theo về vấn đề khai thác dữ liệu và quan hệ ngữ nghĩa trong WordNet để huấn luyện
dữ liệu cho ontology chuyên dụng. Thơng qua phần này, tác giả sẽ làm sáng tỏ
phương pháp huấn luyện ontology OOMP của luận án trong chương 4.
15
2.2 Các nghiên cứu liên quan trong nước
2.2.1 Tĩm lc v nhng nghiên cu liên quan
Ở Việt nam hiện cĩ các nhĩm nghiên cứu với nhiều cơng trình cơng bố trong
và ngồi nước. Tuy hướng nghiên cứu và kết quả cơng bố của những nhĩm này
khơng hồn tồn liên quan đến các bài tốn mở rộng truy vấn của luận án, nhưng
trong mỗi hướng xử lý cĩ liên quan đến một số phần của luận án về ontology, truy
xuất và rút trích thơng tin cũng như ứng dụng xử lý ngơn ngữ tự nhiên. Họ đã đạt
được những kết quả quan trọng cùng với nhiều cơng trình khoa học cơng bố trong
và ngồi nước, được tĩm lược như sau:
− Đại học Bách khoa Tp.HCM:
o Nhĩm 1- PGS.TS.Phan Thị Tươi: Xử lý ngơn ngữ tự nhiên (dịch máy,
truy xuất và rút trích thơng tin, phân loại văn bản), Web ngữ nghĩa.
o Nhĩm 2 - PGS.TS.Cao Hồng Trụ, TS. Quản Thành Thơ: Web ngữ
nghĩa (semantic web), truy xuất– rút trích thơng tin về thực thể cĩ tên
(named-entity).
o Nhĩm 3 - TS.Đặng Trần Khánh: Khai thác và thơng tin ngữ nghĩa và
bảo mật thơng tin.
− Đại học Cơng nghệ Thơng tin Tp.HCM:
o Nhĩm 4 - PGS.TS.Đỗ Phúc: Xử lý ngơn ngữ tự nhiên (dịch máy, tĩm
lược văn bản, rút trích thơng tin, khai khống dữ liệu (data mining))
o Nhĩm 5 - TS.Nguyễn Tuấn Đăng: Xử lý ngơn ngữ tự nhiên (dịch máy,
truy xuất thơng tin, thư viện số (digital library)).
− Đại học Khoa học Tự nhiên Tp.HCM
o Nhĩm 6 - PGS.TS.Đinh Điền: Xử lý ngơn ngữ tự nhiên (dịch máy,
ngữ pháp tiếng Việt), WordNet.
o Nhĩm 7 - PGS.TS.Đồng Thị Bích Thủy, TS.Hồ Bảo Quốc: Truy xuất
thơng tin, truy xuất thơng tin xuyên ngơn ngữ.
− Viện Cơng nghệ Thơng tin Việt nam:
16
o Nhĩm 8 - PGS.TS. Lương Chi Mai: Xử lý ngơn ngữ tự nhiên (dịch
máy, ngữ pháp tiếng Việt), xử lý tiếng nĩi.
− Phân viện Cơ học và Tin học Ứng dụng Tp. HCM:
o Nhĩm 9 - TS. Nguyễn Xuân Dũng: Xử lý ngơn ngữ tự nhiên (dịch
máy, ngữ pháp tiếng Việt)
− Viện JAIST (Nhật bản):
o Nhĩm 10 - GS.TS.Hồ Tú Bảo, TS. Nguyễn Lê Minh: Xử lý ngơn ngữ
tự nhiên (dịch máy, tĩm lược văn bản, rút trích thơng tin).
− Một số nhĩm nghiên cứu khác ở trong và ngồi nước với những nghiên cứu
liên quan đến tiếng Việt.
Cơng trình [24] năm 2009 của Nhĩm 1 là một nghiên cứu về việc ứng dụng
kết hợp ontology và xử lý ngơn ngữ tự nhiên vào việc xác định các cụm từ đặc
trưng trong một câu văn bản. Trong phương pháp xử lý, họ đã khai thác Wikipedia
tiếng Việt để phục vụ việc xây dựng một danh mục từ tiếng Việt đồng thời hỗ trợ
huấn luyện ontology ViO &ViDic. Kết quả đạt được của nhĩm này tương đối khả
quan với độ chính xác 89.6% và độ bao phủ 87.8% trên tập dữ liệu thử nghiệm
2079 câu truy vấn trong ngơn ngữ tiếng Việt. Một định hướng nghiên cứu mà nhĩm
này cần thực hiện trong tương lai là việc mở rộng khả năng xử lý cho câu truy vấn
dài hay cĩ dạng phức tạp. Một số kết quả khác từ nhĩm này gồm cơng trình [2] [3]
[5] [6] [23] [24] (trong các năm 2007-2009) và [133] (năm 2009-2010) phản ánh
hướng nghiên cứu nhiều triển vọng liên quan đến ứng dụng xử lý ngơn ngữ tự nhiên
trong các vấn đề khai thác, phân tích và xử lý thơng tin tiếng Việt.
Các nghiên cứu tiếp theo của Nhĩm 2 theo định hướng xây dựng và phát
triển chuyên sâu về bài tốn thực thể cĩ tên và ontology VN-KIM, để từ đĩ đề xuất
các dạng ứng dụng truy xuất thơng tin liên kết với ontology đĩ. Cơng trình [42]
(năm 2008) của nhĩm này giới thiệu tổng thể về việc xây dựng, huấn luyện và quản
trị ontology VN-KIM KBM dựa trên cơ sở lý thuyết về các nghiên cứu và thực thể
cĩ tên cùng những quan hệ ngữ nghĩa tương ứng cùng nền tảng Sesame cùng cơ chế
phịng chống lỗi khác hiệu quả. Từ cơ sở này, kết quả từ [63] đã phát triển theo một
17
định hướng mới dựa trên việc tiếp cận khai thác dữ liệu từ Wikipedia nhằm phục vụ
bài tốn khử nhập nhằng tự động cho thực thể cĩ tên. Đây là một trong những định
hướng mới của nhĩm này. Cơng trình [131] (năm 2008) khảo sát các hướng nghiên
cứu khác nhau về mở rộng mơ hình khơng gian véc-tơ trong lĩnh vực truy xuất
thơng tin, từ đĩ đề xuất mở rộng cho mơ hình này thơng qua việc kết hợp với
ontology theo hướng xử lý thơng tin về thực thể cĩ tên. So sánh với Lucene, mơ
hình này đạt được nhiều ưu điểm hơn trong việc truy xuất văn bản, biểu diễn văn
bản và truy vấn. Một nghiên cứu khác của nhĩm này là [132] (năm 2008) đề xuất
một phương pháp chuyển đổi truy vấn dạng ngơn ngữ tự nhiên sang dạng biểu diễn
đồ thị ý niệm, để từ đĩ tìm kiếm thơng tin trong ontology nhằm phục vụ việc tìm
kiếm hướng ngữ nghĩa. Việc thực nghiệm cho phương pháp này bước đầu được tiến
hành trên tập dữ liệu TREC 2002 cùng TREC 2007 và đang được mở rộng.
Nghiên cứu [85] của Nhĩm 3 quan tâm xử lý bảo mật cho cây chỉ mục dữ
liệu thơng qua việc cải tiến hệ thống dựa trên các tính chất dữ liệu. Qua đĩ cho thấy
vai trị quan trọng của hệ thống chỉ mục cùng những khả năng cải tạo và tái cấu trúc
hệ thống chỉ mục trong một hệ thống thơng tin.
Trong năm 2008 và 2009, Nhĩm 4 cĩ nghiên cứu [26] [32] [33] [34] [35]
[36] [37] [38] [39] [40] và [41] theo hướng ứng dụng xử lý ngơn ngữ tự nhiên vào
việc phát triển hệ thống truy xuất thơng tin (xuyên ngơn ngữ) và hệ thống hỏi đáp
hỗ trợ tiếng Việt. Các kết quả đạt được của nhĩm này cho thấy một triển vọng rất
lớn trong việc ứng dụng xử lý ngơn ngữ tự nhiên vào các lĩnh vực khác nhau.
Cơng trình [128] của nhĩm Thành Trần tập trung theo hướng thư viện số với
một hướng tiếp cận đề xuất về truy vấn thơng tin chuyên biệt dựa trên ontology để
xử lý truy vấn ở dạng tự nhiên dựa trên đồ thị ý niệm. Kết quả thực nghiệm cho
thấy đây là phương pháp cĩ nhiều triển vọng trong việc mang lại kết quả tìm kiếm
tốt hơn cho người sử dụng.
Một nghiên cứu khác, [47], của nhĩm Dung Tran về hướng rút trích thơng tin
trong lĩnh vực chăm sĩc sức khỏe. Nghiên cứu này sử dụng ontology để phục vụ
giải thuật “Semantic Elements Extracting” và “New Semantic Elements Learning”,
18
qua đĩ rút trích các thơng tin về khái niệm, mơ tả khái niệm, liên kết giữa khái niệm
và mơ tả, tên bệnh từ các trang web. Thực nghiệm của họ trên dữ liệu tiếng Việt
cho thấy phương pháp tối ưu với việc khai thác thơng tin và làm giàu ontology cĩ
độ chính xác cao.
Các nghiên cứu gần đây của nhĩm 4 đều tập trung xử lý những bài tốn con
trong lĩnh vực xử lý ngơn ngữ tự nhiên như rút trích thơng tin và phân loại văn bản.
Cơng trình [104] đề xuất một hệ thống gom nhĩm đồ thị dựa trên phương pháp gom
nhĩm tài liệu tương tự và từ đĩ rút trích các ý tưởng chính . Đây là một hướng
nghiên cứu khá mới về rút trích thơng tin thơng qua việc sử dụng đồ thị để biểu diễn
các tài liệu và quan hệ ngữ nghĩa nhằm khắc phục các nhược điểm của những giải
pháp truyền thống như vị trí từ, quan hệ nghĩa giữa các từ … Từ đĩ, họ đề xuất
dùng một bảng đồ tự tổ chức (Self Organizing Map, SOM) với tầng dữ liệu xuất hai
chiều để phục vụ việc gom nhĩm đồ thị. Dựa trên SOM, họ triển khai các tính tốn
về khoảng cách đồ thị (graph distance) dựa trên các đồ thị con chung cực đại cùng
đồ thị ngữ nghĩa trọng số (weighted means graphs) cùng giải thuật Gen để giải
quyết vấn đề rút trích thơng tin chính yếu của tài liệu. Nghiên cứu [105] quan tâm
đến vấn đề phân loại văn bản. Dựa trên các kỹ thuật và cơng cụ trong lĩnh vực xử lý
ngơn ngữ tự nhiên, hướng tiếp cận của họ quan tâm đến việc biểu diễn mơ hình xác
suất Nạve Bayes dựa trên các danh từ và cụm danh từ rút trích từ những mẫu tin.
Qua đĩ, cùng với các quan hệ ngữ nghĩa giữa các khai thác được, họ đã cải thiện
đáng kể được chất lượng của việc phân loại văn bản.
Một nghiên cứu của nhĩm 7 là [134] (năm 2008) trong lĩnh vực truy xuất
thơng tin xuyên ngơn ngữ (Cross-Language Information Retrieval) hướng đến việc
chuyển ngữ các thành phần của truy vấn trong hệ thống truy xuất thơng tin xuyên
ngơn ngữ Anh-Việt. Ngồi từ điển song ngữ, nhĩm này cịn xây dựng kho ngữ liệu
song ngữ Anh-Việt (dựa trên cơ sở khai khống dữ liệu web). Từ đĩ, ba phương
pháp đề xuất liên quan đến việc chỉ sử dụng từ điển, hay chỉ sử dụng kho ngữ liệu
song ngữ, hoặc kết hợp kho ngữ liệu song ngữ để khử nhập nhằng trong bước
chuyển ngữ dựa trên từ điển. Kết quả thử nghiệm của cơng trình này cho thấy
19
phương pháp đề xuất rất khả thi và ảnh hưởng tích cực đến việc phát triển hệ thống
lĩnh vực truy xuất thơng tin xuyên ngơn ngữ Anh-Việt.
Nghiên cứu [64] của nhĩm Hồng Hữu Hạnh ở Đại học Huế về khung ứng
dụng ngữ nghĩa quản lý thơng tin cục bộ (SemaDesk) theo hướng ứng dụng các kết
quả nghiên cứu về Web ngữ nghĩa. Hướng tiếp cận của họ bao gồm thực hiện phân
tích và chú giải cho truy vấn của người dùng, từ đĩ kết hợp tìm kiếm mở rộng kết
quả dựa trên ontology và kết hợp với động cơ tìm kiếm thơng tin cục bộ của Google
(Google Desktop Search [148]). Nghiên cứu này được cài đặt và thử nghiệm chỉ
trên dữ liệu cá nhân tiếng Anh trong máy tính cá nhân của người sử dụng.
Cuối cùng là các nghiên cứu [3] và [16] của nhĩm 8, nhĩm 9 và nhĩm 10 về
hướng ứng dụng xử lý ngơn ngữ tự nhiên tiếng Việt. Kết quả từ các nghiên cứu này
đã gĩp phần vào đặt nền mĩng cho các hướng nghiên cứu liên quan tiếng Việt.
2.2.2 Mt s vn đ c
a nhng nghiên cu trong nc cĩ liên
quan đn phơng pháp nghiên cu c
a lun án
Những hướng nghiên cứu nêu trên tuy khơng hồn tồn liên quan đến vấn đề
mở rộng truy vấn của luận án, nhưng kết quả của một số phần của các nghiên cứu
trên về ontology, truy xuất và rút trích thơng tin cũng như ứng dụng xử lý ngơn ngữ
tự nhiên (đặc biệt cho tiếng Việt) đã được luận án tham khảo, áp dụng, cụ thể trong
việc phân đoạn từ, gán nhãn từ loại và rút trích thơng tin từ văn bản, từ đĩ phục vụ
phương pháp CB-KBT huấn luyện ontology OOMP trong chương 4 của luận án.
2.3 Các nghiên cứu về ontology
Phần này trình bày các khái niệm về ontology và những nghiên cứu liên quan
nhằm làm rõ hơn các ưu điểm và hạn chế của ontology và khả năng áp dụng chúng
vào luận án.
2.3.1 Khái nim v ontology
Khái niệm ontology được nhiều nhĩm nghiên cứu định nghĩa. Năm 2002,
Bates đề xuất rằng một ontology sẽ được mơ tả một cách chính xác hơn (như) là
20
“một sự phân loại, các từ điển chuyên ngành hay là tập các nhĩm khái niệm”i. Một
định nghĩa khác của ontology là sự phân loại, các danh mục của các thuật ngữ chỉ
mục, hay các cụm thuật ngữ khái niệmj (trích từ nguồn [30]). Một ontology là một
mơ hình của thực tế, nhưng tự nĩ khơng là thực tế. Bates (trong cơng bố [93] năm
2002) cũng đề nghị dùng một khái niệm mới thay ontology. Theo đĩ, hệ thống nên
được gán một nhãn mơ tả chính xác hơn – một sự phân loại, các từ điển chuyên
ngành hay là tập các cụm khái niệm (trong cơng trình [31] của Soegel, năm 1999).
Theo [10] (2001) của Leger và cộng sự, các ontology cải thiện độ chính xác trong
tìm kiếm thơng tin mờ và thuận tiện hố việc đối thoại đơn-đa ngơn ngữ người-máy
bởi diễn giải truy vấn của người dùng thơng qua các sự nhận dạng ngữ cảnh và khử
nhập nhằng. Năm 2003, Guber [130] định nghĩa một ontology là một đặc tả của
khái niệm, và giải thích rằng các ontology được sử dụng trước tiên trong triết học
rồi đến trí tuệ nhân tạo. Trong ngơn ngữ tự nhiên, một từ cĩ thể cĩ nhiều nghĩa phụ
thuộc trên ngữ cảnh thích hợp. Ontology là một tổ chức chặt chẽ và tồn diện về
một hoặc vài miền tri thức, bao gồm các thực thể tương ứng trong miền đĩ và các
mối quan hệ giữa chúng.
Trong ngành khoa học máy tính, ontology là một kho dữ liệu biểu diễn một
tập các khái niệm và các quan hệ, dùng để mơ tả, định nghĩa các tính chất của miền
(domain). Ontology cung cấp những từ vựng và cách biểu diễn thơng tin cần thiết,
phù hợp cho việc giao tiếp tường minh trong một miền tri thức.
Ontology cải tiến tính chính xác trong tìm kiếm thơng tin mờ và làm cho việc
đối thoại giữa người và máy dễ dàng hơn bằng cách chú giải câu truy vấn của người
dùng thơng qua việc xử lý nhập nhằng và xác định ngữ cảnh. Trong ngơn ngữ tự
nhiên, một từ cĩ thể cĩ nhiều nghĩa phụ thuộc vào ngữ cảnh. Theo đĩ, ontology cĩ
thể cung cấp ngữ cảnh liên quan để hỗ trợ xác định nghĩa phù hợp cho từ. Trong
một hệ thống máy tính, ngữ cảnh cĩ thể được biểu diễn hay ràng buộc bởi một
i
Nguyên văn: “a classification, thesaurus or a set of concept clusters”
j
Nguyên văn: “classification, lists of indexing terms, or concept term clusters”
21
ontology, vì thế mơ hình ontology hiệu quả trong việc xử lý nhập nhằng về nghĩa
của từ trong một câu bất kỳ.
2.3.2 Tính cht và các vn đ liên quan đn ontology
Các ontology cĩ dạng tổng quát (general ontology) hoặc dạng chuyên biệt
(specific ontology). WordNet, EuroWordNet và Cyc là các ví dụ của ontology tổng
quát. Nhiều ontology chuyên biệt đã được xây dựng, ví dụ như ontology về y khoa
và luật pháp. Trong [99], năm 2003 Buckland phân biệt ba kiểu ontology là:
− Ontology tiên đề: chứa các khái niệm trừu tượng được hợp lý hố từ các biện
giải (reasoning);
− Ontology thuật ngữ: bao gồm cấu trúc của các khái niệm từ vựng (lexicalised
concepts).
− Ontology về lĩnh vực (domain ontology): thể hiện hệ thống tổ chức tri thức
dùng cho các mục đích cung cấp tài liệu cho một vấn đề, như là hệ thống
Dewey Decimal Classification (DDC) sử dụng chú thích dạng số để biểu thị
số lượng khơng giới hạn các chủ đề với chỉ mục ngơn ngữ tiếng Anh cho các
số phân loại.
Cũng theo Buckland, các kiểu phân biệt nêu trên dẫn đến các phân loại
ontology gồm:
− Axiomatic: chứa các khái niệm trừu tượng.
− Terminological: gồm cấu trúc của những khái niệm được từ vựng hĩa.
− Domain: biểu diễn những hệ thống tổ chức tri thức dùng cho mục đích lưu
trữ, tài liệu).
Kashyap [136] (cơng bố năm 2001) đề nghị một giải pháp xây dựng ontology
từ việc sử dụng lại những thơng tin cĩ sẵn dựa trên nền tảng cơ sở dữ liệu quan hệ
như các giản đồ (schema), truy vấn của người dùng, từ điển dữ liệu (data
dictionary) và từ điển thuật ngữ (thesauri). Tuy cơng trình này khơng nêu bật được
kết quả thực nghiệm liên quan, nhưng kết quả của nghiên cứu này cho thấy tính khả
thi của phương án đề xuất về mặt thực tiễn, đặt cơ sở cho các nghiên cứu khác.
22
Ưu điểm của ontology là tính sẵn sàng, nhiều cơng cụ phần mềm cĩ sẵn, hỗ
trợ hoặc tạo mới ontology. Ngồi ra, những ưu điểm hứa hẹn khác như:
− Cĩ khả năng sẵn sàng cho việc truy cập (theo Bateman [74], năm 2005).
− Cĩ khả năng chứa số lượng lớn các danh từ riêng, tên cá nhân nơi chốn.
− Cĩ nhiều phần mềm trợ giúp tạo tự động và hỗ trợ phát triển của ontology.
− Hầu hết các ontology được biểu diễn trong một ngơn ngữ khả chuyển như là
XML [164] hoặc các ngơn ngữ phát triển trên nền tảng XML như RDF
[159], OWL [155]. Nhờ đĩ, các tính năng của XML cĩ thể được dùng để
thực hiện sự thay đổi trong việc phát triển các ontology.
Tuy nhiên, như đã nêu trong phần trên, ontology cũng cĩ một số hạn chế sau:
− Từ vựng khơng phù hợp giữa từ khĩa trong truy vấn và ngữ cảnh, cần một
quá trình ánh xạ để xử lý cho trường hợp này.
− Sự khơng tương thích giữa các thuật ngữ (của) truy vấn và các khái niệm
trong ontology. Giải pháp xử lý là cần cĩ một quy trình liên kết nhằm giải
quyết vấn đề này.
− Nếu một ontology cho một miền cụ thể chưa tồn tại thì phải hao tốn rất nhiều
cơng sức cần thiết cho việc xây dựng ontology từ đầu khơng chỉ từ quan
điểm kỹ thuật mà cịn từ quy trình rút trích tri thức từ các chuyên gia và sự
đồng thuận trong cách nhìn nhận.
Ontology cũng được sử dụng cho các nghiên cứu về truy xuất thơng tin như
tĩm lược theo chủ đề (thematic summarisation), khử nhập nhằng nghĩa của từ (word
sense disambiguation), lập chỉ mục, phân loại văn bản, truy vấn hình ảnh, truy xuất
thơng tin xuyên ngơn ngữ, và mở rộng truy vấn. Mơ tả chi tiết cho mở rộng truy vấn
sẽ được trình bày trong các mục tiếp theo.
2.3.3 Ontology và phơng pháp tip cn c
a lun án
Với những phân tích nêu trên về các ưu nhược điểm của ontology đã giúp
xác định những tiêu chí để xây dựng ontology OOMP trong Bài tốn 1 của luận án,
cụ thể như sau:
23
− Khả năng xây dựng, phát triển tự động và bán tự động;
− Khả năng tổ chức lưu trữ và sẵn sàng cho việc sử dụng;
− Khả năng đáp ứng nguồn tri thức phong phú với độ tin cậy cao;
− Đồng thời giảm thiểu các chi phí và cơng sức cho việc huấn luyện, làm giàu
nội dung cho ontology.
Những tiêu chí này cĩ ý nghĩa quan trọng đến hướng giải quyết Bài tốn 1
của luận án (trình bày ở chương 4) trong việc tổ chức cấu trúc của ontology và đề
xuất những phương pháp huấn luyện CB-KBT, WB-KBT và A-KBT.
Ngồi ra, phương pháp tìm kiếm chuyên sâu là một tham khảo phù hợp cho
cách tiếp cận mở rộng truy vấn theo hướng gián tiếp (thơng qua giải thuật HSk trong
chương 6) của luận án, vì chúng dựa trên việc định vị các thơng tin đặc biệt. Tuy
nhiên, một giải pháp kết hợp (trình bày trong giải thuật SIC ở chương 6) về việc
định vị các mục thơng tin (trong kho tài liệu) kết hợp với ontology sẽ cĩ thể giúp
việc tìm kiếm chuyên sâu thu thập được nhiều thơng tin hữu ích hơn và ảnh hưởng
tích cực đến chất lượng của quá trình tìm kiếm thơng tin của người dùng.
2.4 Các nghiên cứu về mở rộng truy vấn
Nhiều nghiên cứu trên thế giới đề xuất các nhĩm giải pháp và hướng tiếp cận
khác nhau cho bài tốn mở rộng truy vấn. Mỗi nhĩm phương pháp cĩ ưu nhược
điểm riêng. Từ nghiên cứu [67], phần 2.4.1, 2.4.2 và 2.4.3 trình bày những phương
pháp và các phân tích về mở rộng truy vấn. Tiếp theo, phần 2.4.4 sẽ nhấn mạnh các
yếu tố ảnh hưởng đến sự thành cơng của những phương pháp mở rộng truy vấn dựa
trên ontology. Cuối cùng, mục 2.4.5 tĩm lược những phương pháp được luận án áp
dụng và phát triển.
2.4.1 Nhĩm phơng pháp m rng truy vn s dng mơ hình
tri thc ph thuc kho ng liu
Những phương pháp mở rộng truy vấn trong nhĩm này được trình bày trong
phần 2.4.1.1 và 2.4.1.2. Việc mở rộng truy vấn theo hướng sử dụng mơ hình tri thức
k
HS là tên viết tắt của cụm từ “Hybrid Search”
24
phụ thuộc kho ngữ liệu sẽ phù hợp hơn cho nhĩm tài liệu tĩnh. Với các nhĩm tài
liệu web trên internet, các mơ hình này phải được tái-tạo và cập nhật thường xuyên
vì tập tài liệu luơn biến đổi linh động trong tự nhiên. Nếu các cụm từ đề xuất cĩ tính
chọn lọc nhiều hơn do giá trị IDF (inverse-document frequency) cao hơn, thì phạm
vi của mở rộng truy vấn dựa trên cụm từ cĩ thể được nghiên cứu sâu hơn.
2.4.1.1 Phương pháp sử dụng cụm từ dựa trên từ đồng hiện trong mở
rộng truy vấn
Từ đồng hiện tham chiếu đến hai hay nhiều từ được xuất hiện cạnh nhau hay
gần các từ khác trong tài liệu nguồn. Nghiên cứu [11] (năm1983) về mở rộng truy
vấn của Smeaton và Van Rijsbergen chỉ thu được mức cải thiện rất ít khi dùng các
từ mới được tạo từ những cây mở rộng cực đại (maximum spanning trees). Cơng
trình [61] (1991) của Peat và Willett cho thấy rằng khi các từ cĩ tần xuất cao khơng
phân biệt giữa tài liệu liên quan và khơng liên quan, thì việc thêm vào những từ này
cho việc mở rộng truy vấn là khơng hiệu quả.
Năm [22] (1996), Schatz và cộng sự sử dụng hai đề xuất bổ sung là:
− Từ điển chuyên đề chủ đề (subject thesauri): được tạo bởi các chuyên gia
dựa trên kiến thức chủ đề để quyết định vị trí một từ trong phân cấp chỉ mục.
− Danh mục đồng hiện (co-occurence list): được máy tính tạo ra trong đĩ các
từ được đặt theo thứ tự tần xuất đồng hiện.
Kết luận của họ là trong từ điển chuyên đề càng cĩ nhiều khái niệm do các
chuyên gia lập chỉ mục xây dựng thì kết quả tìm kiếm càng cĩ chất lượng tốt hơn.
Năm 1999, Mandala [106] đề nghị nên sử dụng tích hợp các kỹ thuật mở rộng truy
vấn sẽ tốt hơn thay vì sử dụng các kỹ thuật một cách riêng lẻ. Tương tự, cơng bố
[141] của nhĩm Huang năm 2005 cho ra các kết quả thực nghiệm dựa trên sự kết
hợp phương pháp tạo chỉ mục cho từ khố và cho khái niệm.
Nghiên cứu [137] (2000) của Chu giới thiệu một kỹ thuật mở rộng truy vấn
dựa trên tri thức để cải tiến hiệu quả truy vấn tài liệu, theo đĩ các thuật ngữ cĩ khái
niệm tổng quát trong một truy vấn lại được thay thế bằng một tập các thuật ngữ cĩ
khái niệm cụ thể (detail concept term) của kho ngữ liệu các từ đồng xuất hiện với
25
ngữ cảnh truy vấn cụ thể. Thực nghiệm của phương pháp này cho thấy sự hiệu quả
của mở rộng truy vấn, nhưng cũng chỉ ra rằng độ truy hồi bị suy giảm trong trường
hợp truy vấn cĩ các từ đặc biệt. Phương pháp này chỉ thích hợp cho các trường hợp
khi độ chính xác quan trọng hơn độ truy hồi.
Năm 2003, Vechtomova [102] giới thiệu hướng tiếp cận mới cho mở rộng
truy vấn với việc gom nhĩm từ thơng dụng (long-span collocates) theo phương
pháp tồn cục và cục bộ, khi các từ đồng hiện với mức đáng kể trong các cửa sổ chủ
đề (topic-size windows) với các từ trong truy vấn. Thực nghiệm của họ cho thấy
rằng kết quả truy hồi được từ những truy vấn đã mở rộng của phương pháp tồn cục
thể hiện chất lượng kém hơn và phương pháp cục bộ cho kết quả tốt hơn. Tuy nhiên
nếu các tài liệu thuộc nhĩm trên khơng đủ phong phú và phù hợp thì phương pháp
này cĩ thể vẫn loại bỏ những tài liệu thực sự cĩ liên quan đến truy vấn.
Một vấn đề cĩ ảnh hưởng đến độ phức tạp của giải thuật mở rộng truy vấn là
cụm từ tổ hợp (compositional) hay khơng tổ hợp. Với cụm từ tổ hợp, mỗi từ trong
cụm cĩ thể được mở rộng bằng từ thay thế mà cụm mở rộng sau cùng sẽ giữ được
nghĩa. Nhĩm của Cui [78] (2003) nhận biết các cụm từ bằng việc sử dụng n-gram
trong danh mục lưu trữ truy vấn (query log). Các tìm kiếm tổng quát cho thấy các
cụm ngắn sẽ thể hiện chính xác hơn thơng tin được yêu cầu, và cĩ hệ số tần xuất
nghịch đảo tài liệu (IDF) cao hơn. Trong [86] (2005), Eguchi nêu rõ mở rộng truy
vấn bằng các cụm từ cùng với thơng tin phản hồi giả lập (pseudo relevance
feedback) sẽ tốt hơn dùng các cụm từ đứng đơn lẻ.
Một trường hợp đặc biệt trong mở rộng truy vấn là sử dụng cụm từ thành ngữ
(idiomatic phrase). Đây là dạng cụm từ diễn đạt nghĩa cho tồn bộ cụm nghĩa cụm
từ mà khơng được tạo bởi nghĩa của từng từ trong cụm. Lin định nghĩa (trong [45],
1999) cụm từ thành ngữ là cụm mà thơng tin chung của nĩ khác một cách rõ nét với
thơng tin chung của các cụm thu được bằng việc thay thế một từ trong cụm bởi từ
khác tương tự. Ví dụ, cụm red tape cĩ thể được dùng để tham khảo đến nghĩa cơng
việc bàn giấy. Nếu thay màu đỏ (red) bởi màu khác, ví dụ yellow tape thì cụm này
sẽ khơng cĩ nghĩa như nghĩa ban đầu.
26
2.4.1.2 Phương pháp sử dụng các cấu trúc nút khái niệm trong mở
rộng truy vấn
Mạng từ vựng (lexical network) là một nguồn ngữ liệu quan trọng cho việc
rút trích nghĩa của từ. Chúng chứa các tập từ vựng của miền đặc trưng (domain-
specific vocabulary) và các quan hệ, được tự động rút trích từ các tập tài liệu. Các
cơng cụ phân tích văn bản cĩ thể được dùng để rút trích thơng tin từ các kho ngữ
liệu nhằm phát triển tập từ vựng cho mạng từ vựng. Các mạng từ vựng đĩng vai trị
quan trọng định hướng quá trình mở rộng truy vấn. Các quan hệ giữa các từ được
tận dụng nhằm đề xuất các từ cần thêm vào truy vấn ban đầu.
Trong những năm đầu thập niên 60 thế kỷ trước, ngữ cảnh từ được xếp vào
phần từ vựng. Tuy nhiên đến những năm đầu thập niên 90, các nhà nghiên cứu nhận
ra rằng nguồn tri thức từ vựng đầy đủ được đến từ chính các văn bản. Coates-
Stephens ([113], 1991) thiết lập một giải thuật rút trích nghĩa của các danh từ riêng
trong văn bản. Trong [69] (1995) nhĩm Pustejovsky đề xuất việc dùng tập từ vựng
khả sinh (generative lexicon) để khử nhập nhằng nghĩa của từ.
Trong nghiên cứu [68] (1992) của Callan đã trình bày hệ thống truy vấn
“INQUERY” cung cấp các hỗ trợ truy vấn phức tạp. Hệ thống này dựa trên dạng
mơ hình truy vấn xác suất gọi là mạng suy diễn (inference net) cĩ thành phần cho
nhĩm tài liệu và cho mỗi truy vấn. Phương pháp mở rộng truy vấn của hệ thống này
là kết hợp xử lý hình thái (morphological) và khả năng vận dụng các cụm từ.
Các phân cấp khái niệm cĩ thể được dùng để thực hiện các kỹ thuật mở rộng
truy vấn (như [95] của Sanderson, năm 2004). Với kỹ thuật này, thay cho việc tìm
kiếm trên cơ sở chuỗi từ, việc tìm kiếm trên cơ sở khái niệm được tiến hành để tạo
tự động ra nhiều kết quả tốt hơn những giải pháp trước đĩ (như [80] của Jarvelin
năm 2001, [96] của Sanderson & Lawrie năm 2000, Alta Vista).
2.4.2 Nhĩm phơng pháp m rng truy vn s dng các mơ
hình tri thc đc lp kho ng liu
Các nghiên cứu trong nhĩm phương pháp này được phân loại như sau.
27
2.4.2.1 Phương pháp mở rộng truy vấn thơng qua xây dựng các
ontology chuyên biệt độc lập với WordNet
Việc thiết kế và xây dựng ontology miền chuyên biệt địi hỏi nhiều cơng sức
và thời gian, như trình bày [136] của Kashyap năm 2001. Vì thế, Kashyap đề xuất
một phương thức tạo ontology với sự tham gia của các chuyên gia ở mức độ tối
thiểu bằng việc tái sử dụng các thơng tin sẵn cĩ một cách dễ dàng như các giản đồ,
các truy vấn, các từ điển dữ liệu và từ điển chuyên đề. Việc hiện thực giải pháp này
của Kashyap dựa trên lược đồ biểu diễn cơ sở dữ liệu thơng thường, điều này cĩ thể
bị ảnh hưởng bởi tính chất rời rạc của nhĩm dữ liệu trong tổ chức cơ sở dữ liệu
quan hệ, điều này tác động đến tính hiệu quả của ontology.
Trong [29] (1999), Hwang đề xuất một phương pháp sinh tự động ontology
dựa trên các từ hạt giống của các chuyên gia và áp dụng cho các tài liệu liên quan
trên Web. Nhược điểm của phương pháp này là phụ thuộc hồn tồn vào từ hạt
giống do chuyên gia cung cấp.
Lame ([59], 2003) giới thiệu một phương pháp để xác định thành phần của
ontology là dựa vào phân tích văn bản để rút trích các khái niệm và quan hệ giữa
các khái niệm này và áp dụng để xây dựng một ontology chuyên dụng trong lĩnh
vực luật pháp cho truy xuất thơng tin. Tuy nhiên hướng nghiên cứu tiếp theo mà
nhĩm tác giả này đề xuất phần nào cho thấy ontology kết quả cần hồn thiện hơn về
dạng quan hệ ngữ nghĩa.
Giải pháp của nhĩm Saias ([76], 2002) là xây dựng tập luật suy diễn dựa trên
phân tích các cụm động từ và những thành phần liên quan trong tài liệu. Phương
pháp đề xuất trong [52] là một phần trong quá trình nghiên cứu đang hiện thực. Nĩ
cần hồn thiện hơn về các khái niệm ngữ nghĩa và việc chuẩn hĩa chúng cũng như
tương tác WordNet (bản tiếng Anh), và ngồi ra cũng cần cĩ giao diện thân thiện
với ngơn ngữ tự nhiên hơn.
Nhĩm nghiên cứu của Fu giới thiệu (trong [56] năm 2005) kỹ thuật mở rộng
truy vấn dựa trên một ontology địa lý và lĩnh vực liên quan. Trong nghiên cứu của
họ, một truy vấn được mở rộng dựa trên việc thu dấu vết địa lý. Thực nghiệm cho
thấy phương pháp này cho kết quả tốt trong tìm kiếm thơng tin. Ưu điểm của
28
phương pháp này là dạng truy vấn định nghĩa cĩ cấu trúc bộ ba cĩ dạng <what, rel,
where> cĩ khả năng bao quát các vấn đề cần tìm cũng như các thành phần quan hệ
xác định. Tuy nhiên, quan hệ rel chỉ hỗ trợ trong vấn đề xác định phương hướng
trong lĩnh vực địa lý. Việc tái định nghĩa quan hệ “rel” rất cần thiết khi ứng dụng
và phát triển phương pháp này cho bài tốn khác. Đây cũng chính là một vấn đề hạn
chế cần được quan tâm.
Trong TREC Genomics Track năm 2003, nhĩm của Hersh [138] làm một
thực nghiệm sử dụng các cụm từ dựa trên cơ sở các đồng nghĩa tên gen và một thực
nghiệm khác đánh giá mở rộng truy vấn sử dụng các nguồn tri thức bên ngồi. Các
kết quả cho thấy thực nghiệm đầu tiên tốt hơn thực nghiệm mở rộng truy vấn.
Hersh, Bhupatiraju và Price kết luận rằng các kết quả mở rộng truy vấn cĩ thể được
cải thiện nếu truy vấn là dành cho một cơng việc chuyên biệt. Kết quả thực nghiệm
của nghiên cứu này cho thấy độ chính xác trung bình (Mean Average Precision,
MAP) dao động từ 0,0741% đến 0,1747% trong thực nghiệm và từ 0,1584% đến
0,3351% trong huấn luyện. Kết quả này cho thấy cải tiến giải pháp nâng cao chất
lượng thực nghiệm là một định hướng nghiên cứu cần thiết.
Huang mơ tả trong [141] (2000) về các thư mục thừa kế như ontology của
web. Mỗi nút trên hệ thống thừa kế này hoạt động như là một cổng của các nội dung
liên quan đến một thể loại tài liệu riêng. Ưu điểm tiếp theo của các hệ thống thư
mục thừa kế là chúng cĩ thể được tìm kiếm để trước tiên cung ứng một danh sách
các đường dẫn chủ đề. Tuy nhiên, các thư mục thừa kế như vậy cần được giữ lại để
chứa đựng các thơng tin mới nhất và quy trình cập nhật tự động được ưu tiên quan
tâm trong bối cảnh web phát triển liên tục khơng ngừng so với việc cập nhập được
thực hiện thủ cơng. Điều này hạn chế độ bao phủ trong miền tri thức liên quan của
ontology mà giải pháp hướng tới, ảnh hưởng đến nội dung thơng tin được gom
nhĩm theo chủ đề cũng như chất lượng thơng tin. Cơng trình [9] của Agrawal
(1998) (được trích dẫn trong [89] bởi Huang năm 2000) mơ tả hệ thống TAPER như
một ví dụ của hệ thống phân loại thơng tin tự động, trong đĩ cĩ hỗ trợ tổ chức lưu
trữ thơng tin trong hệ thống chủ đề cĩ phân cấp thừa kế trong cơ sở dữ liệu kích
29
thước lớn cho văn bản. Kết quả thu được từ thực nghiệm nghiên cứu này cho thấy
mức độ lỗi tỉ lệ nghịch với số nét ngữ nghĩa, tương ứng trong khoảng 25,1% cho
160 từ của nhĩm mẫu Patent, 11,7% cho 200 từ của nhĩm mẫu Communication,
17,8% cho 890 từ của nhĩm mẫu Electricity và 16,6% cho 9.130 từ của nhĩm mẫu
Electronics. Ngồi ra, kết quả trung bình đạt được 76% về độ phủ và độ chính xác
phản ánh độ tin cậy của nhĩm phương pháp trong TAPPER. Tuy nhiên, nghiên cứu
này thiên về hướng nghiên cứu phân loại văn bản trong đĩ giải pháp Support Vector
Machines [161] cĩ thể là một định hướng nghiên cứu hỗ trợ phát triển các kết quả
hiện nay.
2.4.2.2 Phương pháp mở rộng truy vấn thơng qua việc sử dụng
WordNet
Ontology đã được sử dụng trợ giúp mở rộng truy vấn từ những năm đầu thập
niên 1990 và đã cĩ một số thành cơng. WordNet là một ontology tổng quát phổ
dụng dùng trong bài tốn mở rộng truy vấn và đã được áp dụng trong một số nghiên
cứu sau.
Trong [78] (1998), Gonzalo dùng bộ thử nghiệm khử nhập nhằng bằng tay
cho truy vấn và các tài liệu thu được từ mục lục ngữ nghĩa SEMCOR trong nghiên
cứu về khai thác WordNet phục vụ nâng cao chất lượng tìm kiếm thơng tin. Thực
nghiệm của họ bao phủ ba dạng khơng gian chỉ mục: từ nguyên gốc, ngữ cảnh từ
thu được từ việc khử nhập nhằng bằng tay và tập synset của WordNet. Các tác giả
nhận thấy rằng nếu những truy vấn khơng được khử nhập nhằng, thì chỉ mục dựa
vào synset chỉ thực hiện chỉ tốt nếu chúng giống như chỉ mục các từ chuẩn. Cũng
theo Gonzalo, việc tạo chỉ mục cĩ ngữ cảnh của từ đã cải thiện chất lượng truy xuất
thơng tin với kết quả đạt được hơn 29% so với hệ thống chỉ mục SMART chuẩn.
Nghiên cứu này cùng kết quả đạt được đã mở đường cho những nghiên cứu kết tiếp
về hệ thống chỉ mục hướng ngữ nghĩa.
Thực nghiệm trong [53] (1993) của Voorhees đã khai thác các ngữ nghĩa
chứa trong WordNet nhằm cải tiến hiệu quả của truy vấn bằng chỉ mục với các ngữ
nghĩa của từ thay cho các từ gốc. Kết quả cho thấy hiệu quả của những véc-tơ tạo ra
30
bởi kỹ thuật khử nhập nhằng cĩ phần xấu hơn các véc-tơ từ gốc. Qua thực nghiệm,
các tác giả nhận thấy những phát biểu truy vấn ngắn cĩ thể gặp khĩ khăn trong
bước khử nhập nhằng khi tìm kiếm thơng tin, vì quan hệ phân cấp IS-A khơng đủ
mạnh cho việc chọn các nghĩa chính xác của từ. Từ đĩ, trong vấn đề về giải pháp
mở rộng truy vấn sử dụng tự động các synset được tạo hoặc vấn đề giải quyết các
ngữ nghĩa khơng chính xác, việc so trùng chính xác các thiếu sĩt cĩ hiệu suất truy
hồi thơng tin thấp hơn so với các giải pháp so trùng khơng chính xác. Năm 1994,
Voorhees [54] đã sử dụng WordNet để tiến hành thực nghiệm trên các tập TREC
trong miền chuyên biệt. Các kết quả cho thấy việc mở rộng truy vấn cĩ thể cải tiến
những vấn đề từ vựng khơng trùng khớp, đặc biệt trong trường hợp các từ được mở
rộng cĩ liên quan về từ vựng với các từ trong truy vấn. Ngược lại, việc mở rộng
truy vấn cho các truy vấn dài chỉ cải thiện rất nhỏ tính hiệu quả của truy xuất thơng
tin, vì bản thân truy vấn nguyên thủy đã mơ tả đầy đủ yêu cầu thơng tin. Voorhees
thấy rằng việc mở rộng bằng các kỹ thuật khác như thơng tin phản hồi liên quan cho
một số truy vấn dài cĩ thể cho kết quả truy vấn thơng tin tốt hơn. Điều này cĩ thể
ảnh hưởng đến định hướng khai thác WordNet để phục vụ việc mở rộng truy vấn
của các nhĩm nghiên cứu khác.
Hearst mơ tả (trong [97] năm 1992) phương pháp so trùng mẫu cho việc thu
thập tự động mối quan hệ từ vựng bao hàm trong văn bản. Các kết quả thực nghiệm
đã thể hiện mức tương đồng cao giữa phương pháp của Hearst và việc phân cấp
danh từ trong WordNet. Điều này phản ánh ưu điểm của phương pháp mà Hearst đề
xuất, từ đĩ dẫn đến việc mở rộng áp dụng kỹ thuật so trùng mẫu trong các bài tốn
khai thác dữ liệu từ WordNet phục vụ truy xuất thơng tin.
2.4.2.3 Phương pháp mở rộng truy vấn thơng qua xây dựng ontology
chuyên biệt kết hợp khai thác ngữ nghĩa dữ liệu và ngữ nghĩa
quan hệ từ WordNet
Năm 2002 Finkelstein mơ tả hệ thống “Intellizap” tìm kiếm dựa trên ngữ
cảnh [92], trong đĩ thực hiện rút trích từ khố theo ngữ nghĩa và phân nhĩm để mở
rộng truy vấn (cĩ khử nhập nhằng) thành các truy vấn mới, sau đĩ gửi chúng đến
31
các động cơ tìm kiếm thơng tin khác nhau và tái xếp hạng kết quả thu được.
Intellizap sử dụng mơ hình khơng gian véc-tơ để thể hiện 27 lĩnh vực, trong đĩ, các
thơng tin ngơn ngữ học cũng được lấy trong WordNet. Hệ thống đã tích hợp các độ
đo của WordNet và độ đo tương quan để phân tích về thống kê những quan hệ của
các từ. Thực nghiệm so sánh giữa Intellizap và các hệ thống Google, Northern
Light, Yahoo, Alta Vista phản ánh kết quả trội hơn đáng kể của Intellizap. Điều này
thể hiện rằng việc dùng ngữ nghĩa để thực hiện quy trình tìm kiếm thơng tin của
người dùng tạo ra những cải thiện nhất định. Tuy nhiên những định hướng nghiên
cứu của họ đã cho thấy những hạn chế của hệ thống Intellizap ban đầu về việc tận
dụng thơng tin ngữ cảnh trong mở rộng truy vấn cũng như khử nhập nhằng.
Navigli và Velardi (trong [110] năm 2003) đã sử dụng thơng tin ngữ nghĩa và
ontology cho việc mở rộng truy vấn. Họ phát biểu rằng tác dụng sử dụng từ đồng
nghĩa và từ bao hàm nghĩa cho mở rộng vẫn cịn hạn chế hiệu suất trong tìm kiếm
thơng tin web, từ đĩ khẳng định rằng các kiểu thơng tin ngữ nghĩa khác nhau thu
được từ ontology sẽ cĩ hiệu quả hơn là từ chú giải (gloss word) và những nút chung
trong mạng ngữ nghĩa, và việc dùng ontology để nâng cao hiệu quả cho kết quả truy
vấn phụ thuộc vào kiểu tác vụ và độ dài truy vấn. Điều này cũng phù hợp với cách
nhìn nhận rằng mở rộng truy vấn sẽ thích hợp cho các truy vấn ngắn. Thực nghiệm
của Navigli và Velardi đã sử dụng kho ngữ liệu TREC2001 web track, ontology
WordNet 1.6, và động cơ tìm kiếm thơng tin Google. Kết quả thực nghiệm cho thấy
cĩ sự cải tiến tốt hơn một cách cĩ hệ thống cho các truy vấn chưa được mở rộng.
Tuy nhiên, như trình bày của nhĩm tác giả, các kết quả dừng lại ở mức thử nghiệm
cho 52 từ trong 24 truy vấn của TREC2001 web track. Kết quả này cĩ thể thay đổi
đáng kể trong trường hợp kích thước tập dữ liệu thử nghiệm lớn hơn.
Nhĩm Baziz nêu rõ (trong [17], 2005) truy xuất thơng tin dựa trên ontology
đang cĩ nhiều hứa hẹn trong việc cải thiện chất lượng của kết quả khi các ngữ nghĩa
tài liệu được ghi nhận lại. Họ khai thác WordNet để phục vụ việc xây dựng một
mạng ngữ nghĩa tối ưu (gọi là lõi ngữ nghĩa tài liệu) nhằm biểu hiện nội dung của
các tài liệu trong kho ngữ liệu cĩ số lượng nhỏ. Để tạo ra lõi này, các khái niệm của
32
WordNet, gồm từ và cụm từ, được rút trích và được khử nhập nhằng thơng qua các
tham khảo đến các từ trong tài liệu. Ưu điểm của phương pháp này là khai thác triệt
để những thành phần chính như từ và cụm từ trong WordNet để hỗ trợ giải quyết
nhập nhằng trong việc truy xuất thơng tin. Tuy nhiên, nếu một số quan hệ ngữ
nghĩa khác trong WordNet (như Meronymy, Holonymy hay Hypernymy, Hyponymy)
được sử dụng hiệu quả hơn trong phương pháp xử lý của nhĩm nghiên cứu, kết quả
thực nghiệm của họ sẽ cĩ chất lượng tốt hơn.
Theo phân tích [107] (1998) của nhĩm Mandala, WordNet cĩ nhược điểm là
các danh từ riêng khơng đầy đủ và khơng cĩ khả năng để hình thức hố các quan hệ
giữa các từ thuộc các phần khác nhau của từ loại. Ngồi ra, quan hệ bộ phận
(meronymy) bị hạn chế trong sự diễn dịchl của nĩ. Để giải quyết vấn đề này, năm
2006 Grootjen và Van De Weider [55] dùng giải pháp kết hợp bao gồm một từ điển
chuyên đề tồn cục và từ điển chuyên đề cục bộ được tạo tự động. Điều này dẫn đến
việc bổ sung những khiếm khuyết về từ vựng trong quá trình khai thác WordNet.
Tuy nhiên chất lượng và độ tin cậy của hai từ điển này là vấn đề đáng quan tâm.
Nghiên cứu [125] (1995) của Jones phân tích từ điển chuyên đề INSPEC và
dùng tám bảng cơ sở dữ liệu quan hệ để lưu thơng tin của từ điển chuyên đề này
gồm từ, sự tương đương, sự thừa kế, sự liên kết, sự cấu thành, các lớp, các khía
cạnh và từ. Các thực nghiệm cho thấy rằng khơng cĩ sự tương ứng nào giữa số
lượng từ được chọn và hiệu suất truy xuất và số từ được chọn phụ thuộc vào khoảng
cách từ nút ban đầu. Jones và các cộng sự đã phát biểu rằng một trong các yếu tố
thành cơng chính trong việc sử dụng từ điển chuyên ngành cho mở rộng truy vấn là
sự so trùng tốt trong từ điển chuyên ngành. Vì lý do này, theo Jones [126], các thuật
ngữ sẽ được mở rộng trước khi tiến hành việc tìm kiếm trong cơ sở dữ liệu tài liệu,
điều này nhằm giải quyết vấn đề thuật ngữ truy vấn cĩ thể khơng cĩ một sự so trùng
chính xác nào với một nút trong WordNet. Kết quả này cho thấy tính bao quát của
phương pháp tìm kiếm thơng tin, tuy nhiên cũng cho thấy sự phụ thuộc vào chất
lượng từ điển chuyên ngành mà phương pháp sử dụng.
l
“diễn dịch” được tạm dịch từ “Interpretation”
33
Trong [87] (2005), nhĩm của Nilsson dùng một ontology miền đặc trưng dựa
trên hệ thống SUiS (Stockholm University Information System) để thực hiện mở
rộng truy vấn. SUiS chỉ cho phép các kiểu câu hỏi gồm who, what, when, và where
và chỉ cĩ các từ đồng nghĩa và trái nghĩa được sử dụng để tăng độ chính xác. Thực
nghiệm chứng tỏ rằng cĩ sự cải tiến kết quả. Tuy nhiên, kết quả đạt được cũng phản
ánh sự giới hạn của phương pháp khi thu hẹp nội dung truy vấn sang dạng câu nghi
vấn WH thay cho dạng truy vấn tự do biểu diễn bằng ngơn ngữ tự nhiên.
Nghiên cứu của nhĩm Sandhya Revuri [115] hướng đến việc mở rộng truy
vấn thơng qua đề xuất mở rộng quan hệ IS-A. Họ đã tiến hành xây dựng ontology
dựa trên các khái niệm Instance, Property, Concept và một số quan hệ như IS-A,
DISJOINTNESS và EQUIVALENCE cùng một số giải thuật xử lý cho ra kết quả cĩ
độ chính xác 23% và độ triệu hồi 34%. Đây là một phương pháp khá hiệu quả khi
xây dựng ontology cĩ khả năng bao phủ các đối tượng và các thuộc tính liên quan,
nĩi cách khác là ontology hướng đối tượng. Nếu nhĩm tác giả phát triển phương
pháp này theo hướng phân tích các tính chất dữ liệu cũng như khai thác các quan
hệ ngữ nghĩa khác trong WordNet, kết quả thực nghiệm sẽ cĩ thể tốt hơn đáng kể.
2.4.2.4 Các phương pháp nghiên cứu khác về mở rộng truy vấn dựa
trên ontology
Phương pháp tiếp cận của Stefania [119] (năm 2009) là khai thác nhật ký
truy vấn của người dùng và ứng dụng xử lý ngơn ngữ tự nhiên để xác định các ứng
viên đồng dạng cĩ giá trị trong ngữ cảnh của một cơ sở tri thức. Trong phương pháp
này, một số định hướng nghiên cứu cần thiết kế tiếp liên quan đến việc số lượng quy
tắc đồng dạng độc lập ngữ cảnh chiếm tỉ lệ khá cao so với số quy tắc phụ thuộc ngữ
cảnh trong đĩ đặc biệt liên quan đến ngữ cảnh trong truy vấn, tỉ lệ áp dụng các quy
tắc chỉ chiếm 30% tổng số phiên làm việc của chuyên gia, và cần xây dựng cây thể
hiện ngữ cảnh.
34
Phương pháp tiếp cận của nhĩm Wouter [139] [140] (năm 2008) là xây dựng
mơ hình truy vấn khả sinh cho việc mở rộng truy vấnm, với định hướng tiếp cận mở
rộng truy vấn cục bộ. Một nền tảng lý thuyết về truy hồi thơng tin được họ đề xuất
thơng qua các mơ hình mở rộng ngoại vi (External Expansion Model) EEM1,
EEM2, EEM3 và EEM4 dựa trên cơ sở xác suất nhằm tính độ phụ thuộc giữa từ
khĩa cần bổ sung và truy vấn được mở rộng. Nhĩm Krisztian [87] (năm 2008) cũng
đã đề xuất mơ hình tài liệu và mơ hình truy vấn trên cơ sở xác suất nhằm xác định
độ phụ thuộc giữa từ khĩa và truy vấn mở rộng. Đây là những mơ hình đề xuất
tương đối tốt cho hướng nghiên cứu về mở rộng truy vấn độc lập với ontology.
Hai nghiên cứu [43] và [44] của HPLab (năm 2009) quan tâm đến vấn đề tìm
kiếm kết hợp trên kho văn bản cĩ cấu trúc và văn bản trơn (plain text) dựa trên
ontology mơ tả bởi RDF và ngơn ngữ truy vấn dữ liệu SPARQL [160]. Định hướng
của các nghiên cứu này là việc mở rộng kết quả tài liệu tìm kiếm, nĩi cách khác là
mở rộng truy vấn gián tiếp, dựa trên một ontology về chủ đề, cá nhân, sản phẩm.
Họ cịn đồng thời xây dựng mơ hình tương tác người dùng thơng qua các trạng thái
tương tác, từ đĩ cĩ thể giúp tinh chỉnh truy vấn. Tuy nhiên, hệ thống này khơng chỉ
nên dừng ở mức độ đề xuất ý tưởng về mơ hình và kiến trúc nền tảng mà cịn cần
được quan tâm nhiều hơn về tính hiệu quả cũng như kích thước của ontology phục
vụ hệ thống đồng thời các kết quả thực nghiệm liên quan.
Nghiên cứu của nhĩm Edgar [48] (năm 2009) đề xuất phương pháp mới về
việc mơ hình hĩa truy vấn trên cơ sở tương tác giữa các nguồn tài liệu theo nguyên
tắc tác động lên khoảng cách giữa mỗi tài liệu liên quan với tập tài liệu liên quan, từ
đĩ tác động đến việc ước lượng mơ hình truy vấn tốt hơn các nghiên cứu khác.
Cơng trình của Kevyn [84] năm 2008 hướng đến việc đề xuất phương pháp
thu thập mẫu để dự báo các rủi ro cho các biến trong mơ hình truy vấn thơng tin, từ
đĩ cực tiểu hĩa các nhiễu trong các mơ hình ngơn ngữ đã kết hợp (combined
language models). Tuy nhiên vấn đề hỗ trợ các ràng buộc trong quá trình tìm kiếm,
m
Nguyên văn: “generative model for expanding queries using external collections”
35
mở rộng việc học bán-hướng dẫn cũng như học chủ động là các vấn đề mà cơng
trình này cần quan tâm thêm trong các nghiên cứu kế tiếp.
Cơng trình của Jun [78] tận dụng giải pháp Phân tích Khái niệm Chính quy
(Formal Concept Analysis, FCA) và Lưới Khái niệm (Concept Lattice, CL) để xử lý
mở rộng truy vấn. Cơng trình này cịn trình bày một số giải thuật cải tiến như iPred
và Boarder với mức cải thiện tương ứng là 31% thời gian tính tốn cho các so sánh.
2.4.3 Mt s kho sát m rng v ng dng c
a ontology
trong m rng truy vn
Sự đầu tư nghiên cứu chi tiết trong mở rộng truy vấn sử dụng ontology là cần
thiết để học tập các nguyên nhân của vấn đề thành cơng và thất bại. Một mơ hình
truy vấn hiệu quả ở mức độ cao là mơ hình truy vấn thống kê với một mơ tả chi tiết
cĩ thể được tìm thấy ở cơng bố [82] của Sparck-Jones và cộng sự năm 2000. Các
thực nghiệm nghiên cứu cần thiết được thực hiện để kiểm tra tính hiệu quả của việc
dùng ontology cho mở rộng truy vấn trong miền tin tức rộng lớn (newswide). Tuy
các từ tổ hợp tạo thêm sự phức tạp vào quá trình mở rộng truy vấn, nhưng các
nghiên cứu tiếp theo là cần thiết để triển khai một cách hiệu quả các từ tổ hợp trong
mở rộng truy vấn. Jones [126] lưu ý rằng các cơng việc tiếp theo được yêu cầu với
từ tổ hợp thơng dụng trong từ điển chuyên đề. Trong [143] năm 1993, Qiu và Frei
luận chứng rằng việc chọn từ mở rộng truy vấn dựa trên mối quan hệ đến tồn bộ
truy vấn sẽ hiệu quả hơn. Khi nghiên cứu về sự nhập nhằng bất kỳ trong các từ đa
nghĩa (polysemous), Mandala, Tokunaga và Tanaka chỉ mở rộng những thuật ngữ
cĩ độ tương đồng cao để đưa vào truy vấn hiện hành. Okapi dùng từ điển đồng
nghĩa (theo [123] của Walker & Jones, năm 1987) và các thuật ngữ trong danh sách
này được tính trọng lượng bởi cơng thức BM25 dưới đây, trong đĩ BM25 là hàm
xếp hạng một tập tài liệu dựa trên từ khĩa của truy vấn:
.
Ở đây qi là các từ khĩa trong truy vấn Q, D là tài liệu, |D| là độ dài tài liệu, avgdl là
độ dài bình quân của tài liệu trong tập văn bản mà trong đĩ tài liệu được xử lý, k1 và
36
b là các tham số tự do thường được gán giá trị k1=2.0 và b=0.75, IDF(qi) là trọng
lượng IDF của từ khĩa qi, thường được tính theo cơng thức:
với N là số tài liệu trong tập văn bản, n(qi) là số tài liệu chứa qi.
Okapi cịn mở rộng truy vấn thơng qua việc chọn các thuật ngữ tốt nhất từ
danh sách. Nghiên cứu này hướng đến mục tiêu nâng cao chất lượng từ điển đồng
nghĩa dựa trên ontology. Phương pháp người dùng trợ giúp mở rộng truy vấn, được
Hancock-Beaulieu và Walker [99] sử dụng. Phương pháp này cho phép người dùng
cĩ thể điều khiển quá trình tìm kiếm và các tiện ích tương tác người dùng của Okapi
giúp cho hệ thống tận dụng được khả năng mở rộng truy vấn của con người.
2.4.4 Các kt qu c
a vic áp dng ontology cho bài tốn m
rng truy vn
Ontology được xem như một giải pháp hứa hẹn trong mở rộng truy vấn.
Trong [10] năm 2001, Leger đã cải thiện độ chính xác của việc tìm kiếm thơng tin
mờ nhờ sự diễn giải chi tiết truy vấn ban đầu của người dùng thơng qua việc nhận
dạng ngữ cảnh và khử nhập nhằng. Thành cơng của việc dùng ontology cho mở
rộng truy vấn phụ thuộc vào nhiều yếu tố được mơ tả sau đây.
2.4.4.1 Chất lượng mơ hình tri thức
Theo [25] của Cheng và Pan: Chất lượng việc diễn dịch (interpretation) của
văn bản tự do phụ thuộc rất nhiều vào chất lượng của mơ hình. Độ gắn kết
(coherence), tính ổn định (stability), và tính đối kháng (resistance) với sự khơng
đồng nhất và sự nhập nhằng là các đặc trưng của mơ hình ontology lý tưởng. Điều
này được Jones khẳng định trong nghiên cứu [126] năm 1993, trong đĩ nêu rõ rằng
chất lượng của mơ hình tri thức hay từ điển chuyên đề là quan trọng bậc nhất. Mơ
hình này cần phải chính xác, ổn định, bao hàm tồn diện và luơn được cập nhật.
Nếu một mơ hình dữ liệu khơng bao phủ các miền chủ đề trong hướng bao hàm
tồn diện thì các truy vấn (liên quan đến một miền chủ đề) sẽ khơng nhận được bất
kỳ kết quả nào, bởi vì mơ hình bị mất chất lượng từ những thiếu sĩt đĩ.
37
2.4.4.2 Sự am hiểu mơ hình tri thức
Trong [124] cơng bố năm 2005, Suomela và Kekalainen biện luận rằng quá
trình tìm kiếm thơng tin cĩ cơ hội thành cơng nếu người dùng hiểu rõ mơ hình tri
thức. Quan điểm này được chia sẻ bởi Sihvonen và Vakkari trong cơng bố [14] năm
2004 – họ nêu rõ rằng mở rộng truy vấn sử dụng từ điển chuyên đề chỉ thực sự hữu
ích nếu người dùng thân thiện với chủ đề tìm kiếm.
2.4.4.3 Khả năng định hướng của mơ hình tri thức
Vì một số ontology cĩ kích thước hàng trăm mega byte, nên cần cĩ các cơ
chế phù hợp để cho phép các ontology lớn hiển thị nội dung hợp lý trong một trang
màn hình của máy tính, ngược lại sẽ làm cho người dùng dễ bị mất phương hướng
trong khơng gian thơng tin rộng lớn, dẫn đến sự khĩ khăn trong việc định hướng các
mơ hình tri thức lớn. Việc xây dựng cơ chế đề xuất các từ được dù
Các file đính kèm theo tài liệu này:
- LATS_CB_BVNN_NCThanh.pdf