Chủ Nhật, 9 tháng 2, 2014
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Chương 1: TỔNG QUAN
Trong chương này, chúng tôi sẽ trình bày khái quát về các hệ thống tìm kiếm
(Information Retrieval), hệ thống tìm kiếm thông tin xuyên ngôn ngữ (Cross-Language
Information Retrieval) và một số khảo sát về tình hình nghiên cứu trong và ngoài
nước. Cuối chương chúng tôi sẽ rút ra kết luận chung và lựa chọn hướng tiếp cận cho
hệ thống của mình. Nội dung trình bày bao gồm:
9 Giới thiệu mô hình tìm kiếm thông tin.
9 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ.
9 Một số công trình nghiên cứu trong và ngoài nước.
9 K
ết luận.
1.1 Giới thiệu mô hình tìm kiếm thông tin (Information
Retrieval):
Hệ thống tìm kiếm thông tin xuyên ngữ (Cross Language Information Retrieval -
CLIR) có liên hệ rất mật thiết với hệ thống tìm kiếm thông tin (Information Retrieval -
IR) và cũng có rất nhiều đặc trưng của hệ thống này (IR). Qui trình của hệ thống tìm
kiếm thông tin như sau:
• Người dùng muốn xem những tài liệu liên quan đến một chủ đề nào đó.
• Người dùng cung cấp một mô tả về chủ đề đó dưới dạng câu truy vấn.
•
Từ câu truy vấn này hệ thống sẽ lọc ra những cụm từ chỉ mục.
• Những cụm từ chỉ mục này sẽ được so khớp với những cụm từ chỉ mục
của các tài liệu đã được xử lý trước đó.
• Những tài liệu nào có mức độ liên quan cao nhất sẽ được trả về cho
người dùng.
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
5
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Mục đích của IR là hiển thị cho người dùng một tập các thông tin thỏa mãn nhu cầu
của họ. Chúng ta định nghĩa chính xác cho thông tin cần thiết là “câu truy vấn”(query),
và các thông tin được chọn là “tài liệu” (documents). Mỗi cách tiếp cận trong IR bao
gồm 2 thành phần chính: một là các kỹ thuật để biểu diễn thông tin (câu truy vấn, tài
liệu), và hai là phương pháp so sánh các cách biểu diễn này. Mục đích là để tự động
qui trình kiểm tra các tài liệu bằng cách tính toán độ tương quan giữa các câu truy vấn
và tài liệu. Qui trình tự động này thành công khi nó trả về các kết quả giống với các
kết quả được con người tạo ra khi so sánh câu truy vấn với các tài liệu.
Có một vấn đề thường xảy ra đối với hệ thống tìm kiếm là những từ mà người dùng
đưa ra trong câu truy vấn thường khác xa những từ trong tập tài liệu chứa thông tin mà
họ tìm kiếm. Trường hợp như thế gọi là “paraphrase problem” (vấn đề về di
ễn giải).
Để giải quyết vấn đề này hệ thống đã tạo ra các hàm biểu diễn xử lý các câu truy vấn
và các tài liệu một cách khác nhau để đạt đến một độ tương thích nào đó.
d
Hàm biểu diễn
câu truy vấn
Không gian
biểu diễn
R
[
0,1
]
Xử lý của con người
j
Hàm biểu
diễn tài liệu
Câu truy vấn
Biểu diễn 2
Tài liệu
c
Hàm so sánh
q
Biểu diễn 1
[
0,1
]
Không gian
tài liệu
D
Không gian câu
truy vấn
Q
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
6
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Hình 1.1: Mô hình hệ thống tìm kiếm thông tin
Gọi miền xác định của hàm biểu diễn câu truy vấn q là Q, tập hợp các câu truy vấn có
thể có; và miền giá trị của nó là R, không gian thống nhất biểu diễn thông tin. Gọi
miền xác định của hàm biểu diễn tài liệu d là D, tập hợp các tài liệu; và miền giá trị
của nó là R
2
. Miền xác định của hàm so sánh c là R x R và miền giá trị của nó là
[0,1], tập các số thực từ 0 đến 1. Trong một hệ thống tìm kiếm lí tưởng:
c(q(query), d(doc)) = j(query, doc) , ∀query∈ Q, ∀doc ∈ D,
khi j: Q x D > [0,1] biểu diễn việc xử lý của người dùng giữa các mối quan hệ của 2
thông tin, được tính dựa trên một tiêu chuẩn nào đó (ví dụ: sự
giống nhau về nội dung
hay sự giống nhau về kiểu …). Hình 1.1 minh họa mối quan hệ này.
Có hai kiểu hệ thống tìm kiếm: tìm kiếm dựa trên so khớp chính xác và dựa trên sắp
xếp. Mô hình trên đây có thể mô tả cả 2 cách tiếp cận. Trong hệ thống tìm kiếm dựa
trên so khớp chính xác, miền giá trị của c được giới hạn từ 0 đến 1, và nó được chuyển
sang nhị phân để quyết định liệu 1 tài liệ
u có thỏa biểu thức bool được xác định bởi
câu truy vấn hay không? Các IR dựa trên so khớp chính xác thường cung cấp các tài
liệu không sắp xếp thỏa câu truy vấn của người dùng, hầu hết các hệ thống tìm kiếm
hiện nay đều dùng cách này. Cách hoạt động chi tiết của hệ thống sẽ được mô tả ở
phần sau.
Đối với hệ thống IR dựa trên sắp xếp, thì các tài liệu sẽ được sắp xếp theo th
ứ tự giảm
dần về mức độ liên quan. Có 3 loại hệ thống tìm kiếm dựa trên sắp xếp: “ranked
Boolean”, “probabilistic” và “similarity based”. Trong 3 cách trên miền giá trị của c là
[0,1], tuy nhiên chúng khác nhau ở cách tính “giá trị trạng thái tìm kiếm” (“retrieval
status value”):
• Trong hệ thống dựa trên “ranked Boolean” giá trị này là mức độ mà
thông tin thỏa mãn biểu thức bool được chỉ ra bởi các thông tin còn lại.
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
7
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
• Trong hệ thống dựa trên “probabilistic” , khái niệm này hơi khác một
chút, giá trị này là xác suất mà thông tin có liên quan đến một câu truy vấn. Rất
nhiều hệ thống tìm kiếm dựa trên xác suất được thiết kế để chấp nhận câu truy
vấn được diễn tả bằng ngôn ngữ tự nhiên hơn là một biểu thức bool.
• Trong hệ thống tìm kiếm dựa trên sự giống nhau, giá trị trạng thái tìm
kiếm được tính bằ
ng cách tính mức độ giống nhau của nội dung thông tin.
Trong các hệ thống tìm kiếm dựa trên so khớp chính xác, việc đánh giá hệ thống chủ
yếu dựa trên việc đánh giá mức độ liên quan. Giả sử j là giá trị nhị phân và được cho
trước. Nói cách khác, ta giả sử rằng các tài liệu hoặc có hoặc không có liên quan đến
câu truy vấn, và độ liên quan giữa tài liệu và câu truy vấn do con người xác định là
chính xác. Theo giả định này, tính hiệu quả của các hệ
thống tìm kiếm dựa trên so
khớp chính xác được đánh giá dựa trên 2 đại lượng thống kê là “độ chính xác”
(precision) và “độ bao phủ” (recall). Độ chính xác là tỉ lệ các tài liệu được chọn, các
tài liệu thực sự liên quan đến các thông tin mà người dùng cần, độ bao phủ là tỉ lệ tài
liệu có liên quan được sắp xếp chính xác theo độ liên quan bởi hệ thống tìm kiếm. Nói
cách khác, độ chính xác bằng 1 trừ đi tỉ lệ cảnh báo sai, trong khi đó độ bao phủ
đo
mức độ hoàn chỉnh của việc tìm kiếm. Bảng 1.1 minh họa cho các mối quan hệ này.
Actually is
Selected as
Relevant Not relevant
Relevant Found False alarm
Not Relevant Missed
alarmFalseFound
Found
ecision
+
=Pr
MissedFound
Found
call
+
=Re
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
8
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Bảng 1.1: Tính độ hiệu quả của hệ thống tìm kiếm thông tin
Việc đánh giá tính hiệu quả của hệ thống tìm kiếm dựa trên sắp xếp thì phức tạp hơn.
Một cách tính độ hiệu quả phổ biến cho các hệ thống này là “độ chính xác trung bình”.
Nó được tính bằng cách chọn một tập lớn hơn các tài liệu ở đầu danh sách có giá trị
bao phủ giữa 0 và 1. Phương pháp thường được sử d
ụng là phương pháp tính dựa trên
5, 7, 11 điểm theo độ bao phủ. Độ chính xác sau đó sẽ được tính cho từng tập một. Qui
trình sẽ được lặp lại cho từng câu truy vấn, và tương ứng mỗi độ chính xác trung bình
sẽ cho một độ bao phủ. Mỗi giá trị trung bình của những số này sau đó sẽ được tính
toán và ghi nhận như là một đặc trưng của hệ thống. Độ chính xác trung bình càng lớn
thì càng tốt, và việc so sánh chỉ thực sự có ý nghĩa khi chúng ta sử dụng cùng một tập
tài liệu và câu truy vấn. Tuy nhiên độ chính xác trung bình cũng làm giảm đi mức độ
thay đổi của các câu truy vấn có các đặc tính khác nhau (ví dụ như số lượng tài liệu có
liên quan khác nhau). Hơn thế nữa, các tài liệu có liên quan thường tập trung ở đầu
danh sách sắp xếp nên thông thường độ chính xác sẽ giảm mỗi khi tập tài liệu được mở
rộng để tăng độ
bao phủ.
1.2
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR):
1.2.1 Khái niệm:
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR) là hệ thống tìm kiếm (IR) cho
phép người dùng nhập câu truy vấn bằng một ngôn ngữ để tìm kiếm các tài liệu trong
một ngôn ngữ khác. Đối tượng sử dụng hệ thống tìm kiếm thông tin xuyên ngữ (CLIR)
là:
• Những người có khả năng đọc các tài liệu tiếng nước ngoài, nhưng gặp
khó khăn khi tạo câu truy vấn bằng ngôn ngữ đó.
• Những người gặp khó kh
ăn khi đọc/ tìm kiếm các tài liệu tiếng nước
ngoài nhưng lại cần một số lượng giới hạn các tài liệu được tìm kiếm bằng
CLIR để sử dụng trong các hệ thống dịch máy (MT), thay vì phải dịch toàn bộ
tập hợp các tài liệu.
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
9
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
• Những người biết các từ khóa hoặc cụm từ tiếng nước ngoài, và muốn
đọc các tài liệu có liên quan với những từ khóa hoặc cụm từ đó bằng ngôn ngữ
bản xứ.
1.2.2 Các vấn đề của CLIR:
Vì câu truy vấn do người dùng nhập vào và các tài liệu được tìm kiếm ở hai ngôn ngữ
khác nhau nên CLIR cần phải có qui trình chuyển ngữ cùng với qui trình tìm kiếm
theo cách tìm kiếm truyền thống của các hệ đơn ngữ. Các hệ tìm kiếm đơn ngữ hiện
nay thực hiện rất tốt qui trình tìm kiếm đơn ngữ. Và vấn đề chính chúng ta cần quan
tâm ở đây làm thế nào để qui trình chuyển ngữ có thể được thực hiện tốt nhất.
Chính qui trình chuyển ngữ này đã làm phát sinh rất nhiều vấn đề trong CLIR. Vấn đề
đầu tiên là làm sao biết được một từ trong ngôn ngữ này được viết như thế nào trong
ngôn ngữ khác? Vấn đề thứ hai là làm sao quyết định được cách dịch nào sẽ được giữ
lại? Vấn đề thứ ba là làm sao xác định được tầm quan trọng khác nhau giữa các bản
dịch khi có nhiều bản dịch được giữ lại.
Hai vấn
đề đầu tiên, làm sao để dịch và làm sao để loại bỏ bớt bản dịch, là hai vấn đề
của các hệ thống dịch máy . Hệ thống CLIR có thể loại bỏ một vài cách dịch và giữ lại
một số khác bằng cách khử nhập nhằng. Tuy nhiên, việc giữ lại một số cách dịch nhập
nhằng giúp cho hệ thống tìm kiếm gia tăng độ bao phủ của nó.
Vấn đề thứ
ba của CLIR có liên quan đến cách xử lý các bản dịch tương đương, là điều
giúp chúng ta phân biệt CLIR với dịch máy và tìm kiếm thông tin đơn ngữ. Giả sử
rằng câu truy vấn ban đầu có hai từ phân biệt. Nếu từ đầu tiên có thể được dịch sang
nhiều cách khác nhau, và nếu từ thứ hai chỉ có thể được dịch sang một cách duy nhất,
thì hệ thống tìm kiếm sẽ không tăng trọng số cho từ đầu tiên, bởi vì nó có nhi
ều lựa
chọn khi dịch. Điều này minh họa cho vấn đề tính trọng số của các cách dịch, đặc biệt
là đối với hệ thống CLIR. Một tài liệu chứa một cách dịch của mỗi từ trong câu truy
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
10
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
vấn có thể sẽ có độ liên quan nhiều hơn một tài liệu chứa nhiều cách dịch khác nhau
của từ đầu tiên trong câu truy vấn nhưng không chứa cách dịch nào của từ thứ hai.
1.3 Các hướng tiếp cận:
Việc phân loại các hướng tiếp cận của CLIR dựa trên phương pháp được sử dụng
trong quá trình chuyển ngữ.
1.3.1 Dịch máy (Machine Translation for Text Translation):
Giữa tìm kiếm xuyên ngữ và dịch máy hoàn toàn tự động có mối quan hệ gần gũi.
Hình 1.2 minh họa cách dịch tự động hoàn toàn và hỗ trợ dịch máy có thể được tích
hợp trong hệ thống tìm kiếm xuyên ngữ. Với một hệ thống như thế, các câu truy vấn
có thể được dịch sang bất cứ ngôn ngữ nào mà người dùng thấy cần thiết, và các tài
liệu sẽ được trả về bất cứ ngôn ng
ữ nào. Nếu cần, việc dịch máy hoàn toàn tự động có
thể được dùng để tạo ra các bản dịch được hiển thị trên màn hình cho phép người dùng
chọn tài liệu. Khi cần một bản dịch tốt hơn thì các tài liệu được chọn có thể được
chuyển cho dịch máy dưới sự hỗ trợ của con người.
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
11
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Hình 1.2 Tích hợp tìm kiếm xuyên ngữ với dịch máy.
Có lẽ hầu hết các hướng tiếp cận trực tiếp đến tìm kiếm xuyên ngôn ngữ là việc thực
thi q hoặc d bằng cách sử dụng hệ thống dịch hoàn toàn tự động để mang câu truy vấn
và tài liệu vào không gian biểu diễn R dựa trên một ngôn ngữ nhất định. Một điểm yếu
của hệ thống dị
ch tự động là nó chỉ có thể cung cấp việc dịch hiệu quả trong một vùng
giới hạn nào đó.
Các hệ thống tìm kiếm văn bản thường bỏ qua các lỗi dịch cú pháp hơn là các lỗi về
ngữ nghĩa, nhưng độ chính xác về ngữ nghĩa sẽ giảm sút khi các thông tin không được
mã hóa vào hệ thống dịch một cách đầy đủ. Vì việc mã hóa đầy đủ thông tin có thể sẽ
mất chi phí khá cao nên tính hiệ
u quả của hệ thống tìm kiếm xuyên ngữ dựa trên dịch
máy sẽ bị giới hạn, đặc biệt là khi dịch các câu truy vấn ngắn. Khuyết điểm này có thể
được giảm bớt nếu chúng ta dịch các tài liệu thay vì dịch câu truy vấn. Bởi vì các tài
liệu thường dài hơn các câu truy vấn, nên một hệ thống dịch máy được nhúng vào hàm
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
12
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
biểu diễn tài liệu d có thể có nhiều thông tin về ngữ cảnh để chọn lựa ngữ nghĩa hơn là
một hệ thống được nhúng vào hàm biểu diễn câu truy vấn q.
Tuy nhiên, độ hiệu quả sẵn có của dịch máy đã trở thành vấn đề tranh luận khi một hệ
thống dịch được nhúng vào d, bởi vì thông thường d cần phải được cung cấp cho một
s
ố lượng rất lớn các tài liệu. Hơn nữa, một vài công việc do hệ thống dịch máy thực
hiện không mang lại sự cải tiến nào cho tính hiệu quả của việc tìm kiếm văn bản.
Chẳng hạn như, việc dịch văn bản đòi hỏi phải lựa chọn thứ tự của các từ và thêm vào
các từ có quan hệ gần
1
trong ngôn ngữ đích. Nhưng cả hai đặc tính này thường bị bỏ đi
bởi q và d.
Thật vậy, một vài công việc do hệ thống dịch máy làm thật sự làm giảm tính hiệu quả
của việc tìm kiếm văn bản. Vì trong các ngôn ngữ khác nhau nghĩa của từ sẽ không
được nhóm theo cùng một cách, nên các hệ thống dịch máy luôn cố gắng đạt được
nghĩa dịch tốt nhất cho từ khi t
ừ có nhiều nghĩa. Theo phân tích này thì một nghĩa đơn
sẽ được chọn cho mỗi từ đa nghĩa. Tuy nhiên, trong một hệ thống tìm kiếm, q và d có
thể được thiết kế để ngăn chặn những thông tin không chắc chắn và c có thể được thiết
kế để tận dụng những thông tin đó trong việc cải thiện tính hiệu quả.
Những nghiên cứu này cho thấy rằng khi thiế
t kế các hàm q và d cho hệ thống tìm
kiếm xuyên ngữ thì kiểu và độ sâu của qui trình có thể được quyết định bởi khả năng
biểu diễn của không gian R để biểu diễn các kết quả của các qui trình và khả năng sử
dụng các thông tin đó của hàm so sánh c. Chúng ta cũng có thể hoặc giới hạn qui trình
của chúng ta bằng khả năng của các kĩ thuật hiện có để sử
dụng thông tin kết quả, hoặc
chúng ta có thể thiết kế các hàm biểu diễn và so sánh mới để tận dụng thông tin mà kĩ
thuật dịch máy có thể cung cấp.
Ưu điểm: các câu truy vấn có thể được dịch sang bất cứ ngôn ngữ nào mà người
dùng thấy cần thiết, và các tài liệu sẽ được trả về bất cứ ngôn ngữ nào.
1
các từ có quan hệ gần là những từ ít mang nội dung và thường bị loại bỏ bởi danh sách các stopword trong một
hệ thống truy xuất.
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
13
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Khuyết điểm: Hiệu quả dịch còn giới hạn.
1.3.2 Dựa trên từ điển đa ngữ (Multilingual Thesauri):
Ở đây chúng ta định nghĩa một từ điển đồng nghĩa như là một công cụ để mã hóa
thông tin tri thức cho một ứng dụng. Vì thế một từ điển đồng nghĩa là một bản thể mà
đặc trưng là các thuật ngữ đã được tổ chức. Một từ điển đồng nghĩa đa ngữ là một từ
điển tổ chức các thu
ật ngữ từ một hoặc nhiều thứ tiếng. Từ điển song ngữ, thường định
nghĩa các cụm với chi tiết cho các cụm khác, cũng được gộp vào định nghĩa này. Từ
vựng trong ngôn ngữ học máy tính, được mã hóa thông tin cú pháp và ngữ nghĩa, cũng
nằm trong định nghĩa này. Các từ điển đồng nghĩa phức tạp, được sử dụng như là một
danh mục cơ
sở trong hệ thống tìm kiếm tự động, cũng nằm trong phạm vi của định
nghĩa từ điển đồng nghĩa trên. Thậm chí một danh sách song ngữ đơn giản gồm các
thuật ngữ kĩ thuật mà trong đó mỗi thuật ngữ được gán một cách dịch duy nhất cũng là
một từ điển đồng nghĩa theo định nghĩa trên. Chúng ta nhận ra rằng đây là một đị
nh
nghĩa mở rộng không bình thường cho từ “từ điển đồng nghĩa”. Nhưng vì không có
một thuật ngữ chuẩn ngắn gọn nào có thể đáp ứng khái niệm chúng ta mô tả nên chúng
ta chọn cụm từ có quan hệ gấn nhất với hệ thống tìm kiếm xuyên ngữ hiện tại. Bảng
1.2 cho thấy một vài kiểu từ điển đồng nghĩa phổ biến được sử d
ụng trong các hệ
thống tìm kiếm xuyên ngữ. Các thông tin chi tiết hơn về từ điển xuyên ngữ sẽ được
trình bày ở phần sau.
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
14
Đăng ký:
Đăng Nhận xét (Atom)
Không có nhận xét nào:
Đăng nhận xét