웹사전과 맞춤법 자동교정기의 논리와 개선
정철
Daum 커뮤니케이션
국어교육학연구 39호 91-105 (2010)
초록
매체의 변화에 따라 웹사전의 사용이 증가하여 이제는 웹사전이 커다란 비중을 차지하게 되었다. 웹사전은 웹이라는 매체의 특성을 활용한 사전이라는 점에서 종이 사전과 차별화되는데, 이러한 차별점으로 들 수 있는 웹사전의 한 가지 특징이 맞춤법 자동교정기능이다. 맞춤법 자동교정기는 사용자가 맞춤법에 어긋난 검색어를 입력한 경우 사용자의 의도를 고려하여 적절하게 바꾸어 주는 장치로, 어휘 단위와 문장 단위 모두에서 가능하다. 본고에서는 웹사전에서의 맞춤법 자동교정기를 다루므로 어휘단위에 주목하였고, 다음(Daum) 국어사전에 적용된 논리를 중심으로 논의를 진행하였다. 다음 국어사전에 적용된 한국어 자동 교정기는 ‘오용어 목록 비교’, ‘음절 수 비교’, ‘음절간 음운현상을 반영한 고빈도 패턴 적용’, ‘음절별 자소를 초중종성으로 나누어 비교’의 논리로 구성되어 있는데, 개별 논리에 한계가 있을 뿐 아니라 논리가 서로 상충되기도 하는 문제가 존재한다. 아직 적용되지 않았으나 다음 국어사전을 운영하면서 아이디어를 얻은 개선점으로, 용언 활용태와 같은 비교대상어 확장, 불필요한 비교대상어 제거, 음절수 일치의 탈피, 외래어에서의 음운변동 등 패턴의 확장, 기계학습(machine learning) 결과물 적용, 오용어 목록의 지속적인 개선 등이 있다. 맞춤법 교정 기능 자체를 개선하는 것에 더하여 사용자가 쉽게 사용할 수 있도록 맞춤법 교정 결과를 보여주는 것도 중요하다. 현재는 정답에 가장 가까운 사전 항목을 먼저 제시하고 이어서 후순위 후보를 제시하는 두 단계이나, 고빈도 맞춤법 오류와 순화대상어 제시 등은 추가적인 문법 설명 및 이유를 함께 제시하는 것과 같이 사용자 교육의 측면에서 더 상세하게 표현해 줄 필요가 있다.
키워드
웹사전맞춤법 자동교정어휘단위사용자 인터페이스고빈도 맞춤법 오류 어휘
