あらかたよみおわったぜよ!
音声合成部のコアはじぇんじぇんわからんが、パラメータをひろってきて
つっこめば音がでるHMM合成系があるので、それにつっこむパラメータを
ひろいあつめるのがGtalkのコードの大部分らしい
つかれたにょ。後はこいつを適宜分離してモジュール化していけば
綺麗にまとまりそうにょ。
1.単純なテキスト置換(アラビア数字処理とか)
2.chasen|chaoneになげて品詞分解とか音韻しょりかしてもらう
3.chasenからの結果を後処理するPRONタグ等
4.morph、及び品詞情報からアクセントや音素等を含んだデータをさくせい
5.morph,音素列、アクセント系列等からmodel(検索キー)系列を作成
6.model(検索キー)系列と話者IDから、pitchや継続時間等のデータを
pdf(パラメータ分布ふぁいるの略??)ファイルからひろってくる
7.拾ってきたパラメータにPITCHタグなどの影響を加える
8.拾ってきたデータ系列から音声合成を行う
9.音声出力
0 件のコメント:
コメントを投稿