Research/Study
[2021-1] 음성 정보 처리 #복습
Taegun An
2021. 7. 20. 11:53
728x90
한 학기 동안 들은 수업 내용의 정리를 이번 학기부터 시작하려고 한다. 좀 늦은 것 같기도 하지만 이 아니라 늦었지만, 뭔가 까먹을 것 같다는 느낌을 받는 것이 너무 싫고, 다시 한번 정리해서 남겨놓고 싶다. 교수님들의 강의로부터 복붙은 절대 하지 않을 것이고, 내가 이해하여 재구성하는 과정이 공부에 도움이 되므로 이 과정을 꼭 거칠 것이다. 그 첫 대상은 이번 학기에 들은 음성정보처리 과목이다. Sequential data 처리에 관심이 있어서 수강하게 되었고, 중간까지는 기초, 그 이후에는 관련 분야의 좋은 논문들을 다루었다. 여기서는 중간까지 배운 기초를 복습하고, 다루었던 논문에 대한 리뷰는 이다음에 하도록 하겠다.
먼저, Speech Information Processing (음성 정보 처리)의 다양한 분야들을 알아보자.
- Automatic Speech Recognition (ASR) - 발화 내용을 인식하는 기술, STT(speech-to-text)
- Speaker dependent (특정 사용자의 speech만 인식) ↔ Speaker independent (사람에 관계없이 인식)
- Isolated word ↔ Continuous speech (LVCSR - large vocabulary continuous speech recognition)
- Speaker recognition - 사용자를 인식하는 기술
- Speaker identification: 음성을 통해서 등록된 사용자들 중에서 내가 누구인지 알아내는 것 → k-classification
- Speaker verification: 음성을 통해서, Accept or reject → binary classification
- Text dependent ↔ Text independent로 나눌 수도 있다.
- Speech Synthesis - 음성 합성
- Single-speaker, Multi-speaker, Emotional speech로 나눌 수 있다. 학부생 때 수업에서 관련 프로젝트를 진행하다가, 어느 논문 데모로 korean emotional speech synthesis를 봤다. 이것이 너무 인상깊어서, 이번 AI hub에 올라온 emotional korean dataset으로 뭔가 할 수 있지 않을까 생각 중이다...
- Voice conversion - 한 사람의 음성을 다른 사람 스타일로 바꾸는 것 (~style transfer라고 이해했다.)
- One to One ↔ Many to Many
- 이 중에서 감정을 바꾸는 emotional speech conversion이나 억양 등을 바꾸는 accent conversion도 있다.
- 다른 이슈로는, training data에 관한 문제도 있다. parallel training data ↔ nonparallel training data인데, 이건 voice conversion을 포스팅할 때 좀 더 자세히...
위의 목록들에 대하여, 시간이 날 때... (가능하면 2021년 9월 개강 전에...) 포스팅을 하고, 논문들도 간략히 읽고 요약한 것을 포스팅하고자 한다. 제발 해라 나야...
감사합니다.