박정규 멘토님
병렬로 작업을 진행하면 좋을 것 같다.
•
모델링
◦
모델링에는 일주일 정도 걸릴 수 있음
•
텍스트 파싱 → 이미지 매핑
◦
이거는 구글 STT 엔진을 활용해서 테스트 해보면 좋을 듯
구글 크롬 내장 STT엔진을 활용해서 텍스트를 추출하고
해당 텍스트를 발음기호로 파싱한후 발음기호에 맞는 이미지를 매핑하자.
•
Levenshtein Distance 알고리즘을 이용하여 발음 정확도 측정
◦
단어는 다르게 표현될 수 있지만, 발음기호는 비슷하게 표현되기 때문에 발음기호화 해서 이미지매핑을 하면 더 높은 정확도를 보일 것 같다.
필요한 환경
•
모델링을 시킬 그래픽 엔진 서버
•
배포 서버
래퍼런스가 없다면 5개월
있다면 3개월 정도가 필요할 것 같다...
이태영 멘토님
박수현 멘토님
API 보다는 로컬 학습을 시키고 모델을 넣고 추론을 진행하는게 가장 속도가 빠르다
로컬에서 진행해야 실시간 성이 뛰어나다.
자체 학습알고리즘을 활용한다 대부분
SOTA 까지는 갈 필요가 없긴하다....
lipsync sota 알고리즘
wav2lip 과 같은 라이브러리 참고해서
결국 발전시키는 것이 중요하다.
괜히 GAN을 적용하는 것 보다는 현재에 집중하자
LSTM 학습
한국어 발음 패턴 찾아보고 학습하기
real time 키워드 검색하기
animation theory