음성인식은 결국 AI를 음성인식에 사용한다는 의미로 이해하면 된다. 우리가 듣는 것은 기계적으로 녹음된 조합된 소리일 뿐이다.
그 음성을 발화시키는 것은 결국 AI가 의미를 이해하고 그 의미에 맞는 단어 조합을 통해서 문장을 만드는 것이다. 음성의 인식이나 합성은 결과적으로 학습된 AI에 의해서 이루어지는 것인데, 그 평균치가 표준 억양, 단어, 엑센트의 경우엔 인식이 잘 되겠지만 그 모델이 아닌 사투리에 의한 학습일 경우 인식이 잘 안될 경우가 크다.
English라고 다 같은 English가 아니듯, Korean도 다 같은 Korean이 아니다. 자신의 Accent를 버리지 않는 문화를 가진 경상도, 또 자신의 사람들끼리는 고유의 Accent를 사용하는 전라도, 북한 말 같은 강원도 사투리 등 우리도 다양한 사투리를 갖는다. 주로 산이나 강을 경계로 형성된 언어문화권에 대한 이야기이다.
연령별로도 그렇다. 일제침탈시기에 일본어를 모국어로 사용하라고 강요받았을 시점에는 우리도 일본에서 비롯된 신문물 용어 외국어가 허다하다.
또, 고연령층일수록 언어가 느려지고 사회가 급변하면서 사용하는 용어와 문장의 표현법이 다를 수 있다. 그러기에 언어는 하나의 단면만으로 정리하기는 어렵다.
앞으로 이러한 현상들은 곳곳에서 나타날 것이며, 영어 또한
를 비롯하여, 인도 영어, 싱가포르 영어, 한국 영어, 일본 영어 등 국가마다의 accent가 결합된 수많은 영어를 AI가 다 이해할 날이 있을까?