2005年2月2日水曜日

gtalkのソースを読んだ。



あらかたよみおわったぜよ!


音声合成部のコアはじぇんじぇんわからんが、パラメータをひろってきて


つっこめば音がでるHMM合成系があるので、それにつっこむパラメータを


ひろいあつめるのがGtalkのコードの大部分らしい


つかれたにょ。後はこいつを適宜分離してモジュール化していけば


綺麗にまとまりそうにょ。



1.単純なテキスト置換(アラビア数字処理とか)


2.chasen|chaoneになげて品詞分解とか音韻しょりかしてもらう


3.chasenからの結果を後処理するPRONタグ等


4.morph、及び品詞情報からアクセントや音素等を含んだデータをさくせい 


5.morph,音素列、アクセント系列等からmodel(検索キー)系列を作成


6.model(検索キー)系列と話者IDから、pitchや継続時間等のデータを


pdf(パラメータ分布ふぁいるの略??)ファイルからひろってくる


7.拾ってきたパラメータにPITCHタグなどの影響を加える


8.拾ってきたデータ系列から音声合成を行う


9.音声出力






0 件のコメント:

コメントを投稿