- 음성 합성 기능이 있어야하는거 같은데 IA를 보면 분리된 문장마다 합성(생성)버튼이 있다고 하고 전체를 하나의 파일로 합성하는 기능에 대한 설명과 참고로 작성해주신 API 구조에서도 보이지 않습니다. 그래서 음성합성 실행-텍스트 수정 페이지에서 audioId, text가 필요하던데 그럼 audioId는 여러 Id를 함께 보내서 하나의 파일로 합성이 되는건가요?

- audioName으로 되어있는데 각 각 audioID를 저장하고 있는 audio entity를 만들고 그 entity이름을 param으로 받는 건가요? 아니면 이미 하나의 음성파일로 합쳐진 상태의 음성파일 명인가요?
- 여러 음성을 하나의 음성으로 합치고 그 음성과 아바타 + 배경으로 해서 하나의 영상으로 만들어야 하는 걸로 이해했는데, python 소스에 여러 음성을 합치는 로직이 없는 걸로 알고있습니다.
답변:
api에서 audioName 부분을 삭제처리 하였습니다.
텍스트(오디오) 편집단계가 끝난다면 사실상 모든 오디오를 사용한다는 전제가 들어가기 때문에
[기존에 생성된 모든 오디오를 사용한다.]라고 생각하시면 좋을 것 같습니다.
추가적으로 음성합성 부분은 GPU를 통하여 생성되는 부분이 아닌 단순히 파일을 합성하는 과정이기 때문에 서술하지는 않았습니다.
하지만 자사에서 사용되는 코드를 간략화하여 첨부할예정입니다. 이를 사용하셔도 괜찮고, 다른 외부 라이브러리를 사용하셔도 좋을 것 같습니다.
concat_audio.zip
- 그리고 Job entity를 생성해야한다면, Job에는 projectId, avataName, bgName, audioName을 갖고 있는 건지 궁금합니다.
- 그렇게 된다고 가정하면 project entity는 Job과 전체 text, 및 음성 설정을 저장하고 있으면 되나요?
답변: entity 관련
entity 구성은 평가지표 중 하나라고 생각됩니다. 따라서 구성은 팀 회의에서 나온 결과로 작성하시면 됩니다.