2006/07/14

현재 번역 시스템의 한계

요즘 계속 적인 발전을 이루어 내고 있기는 하지만, 여전히 번역 프로그램이 번역한 문장은 어색하거나, 전혀 다른 뜯으로 번역해 내고 있습니다.
가장 대표적인 예로 옛날 개그인 영화 제목
'i am sam'
을 번역 기에 넣고 돌리면
'나는 지대공 미사일이다'
라는 전혀 쌩뚱맞은 번역문이 나옵니다. (요즘은 많이 발전하여 바벨피쉬의 경우 '나는 삼 이다' 라고 번역 됩니다.) 이것 이외에도 여러 문장이 어색하거나 전혀 다른 뜻으로 번역 되는 경우가 많습니다.
대체적으로 사전적인 의미는 깔끔하게 번역되지만, 인간의 언어라는게 항상 사전적인 뜻과 문법을 지키는 것이 아니기 때문에 정확한 번역을 해내기란 쉽지 않습니다.
거기다 인간이 뜻을 해석하는 정보는 사전적으로 표현되는 의미도 있지만, 인간이 눈으로 보고, 귀로 듣고, 맛을 보고, 경험을 하여 학습하고, 기타 여러 경로를 통하여 얻어진 정보입니다.
사전 적인 정의로는 이 정보를 모두 포함할 수 없기 때문에, 번역기로 자연스러운 문장 해석을 얻어내는 것이 어렵습니다.
그렇기 때문에 최근 생각하고 있는 방법은, 인터넷 탐색봇을 활용하는 방법입니다.
인간의 언어와 전달하는 의미는 계속 적으로 변하기 때문에, 그 문장을 가장 쉽고 광범위하게 많이 얻어낼 수 있는 공간은 인터넷 만한 것이 없다고 생각되기 때문에, 인터넷 상에 사람들이 쓰는 글과 문장을 얻어내어 이로부터 copers(최소 의미 단위)를 얻어내고, 문장에서 copers의 위치에 따른 의미와 이 의미들간의 category(분류)를 통하여 의미트리를 만들어 내며, 이들을 DB에 저장하며 주기적으로 업데이트 하여 최종적으로는 주어진 문장 전체의 의미를 해석해 낼 수 있는 해석기를 만드는 것입니다.
그리고 그 해석기를 바탕으로 역으로 문장을 만들어내는 조합기를 만들어 문장의 의미로 부터 해당 언어의 문장을 생성해 내는 역할을 하여 결론적으로는 의미로서 같은 문장이 되도록 번역하는 해석기를 만들고 싶은 생각입니다.
인터넷에 널려있는 수 많은 문장을 수집하여 분석해서, copers간의 관계를 만들어 내고, 새로운 copers를 학습하고 앞 문장의 뜻이나 주제를 판단하여 문장을 분석하는 능력들을 만들기란 쉽지 않은 문제입니다. 제가 그런 능력이 있다면 이러고 앉아 있지 않았을 것입니다.
아무튼 뭔가 상당히 도전해볼만한 재미있는 문제라고 생각됩니다.

0 Comments:

댓글 쓰기

<< Home