akira_youの私見: gtalkのソースを読んだ。

2005年2月2日水曜日

gtalkのソースを読んだ。

あらかたよみおわったぜよ！

音声合成部のコアはじぇんじぇんわからんが、パラメータをひろってきて

つっこめば音がでるHMM合成系があるので、それにつっこむパラメータを

ひろいあつめるのがGtalkのコードの大部分らしい

つかれたにょ。後はこいつを適宜分離してモジュール化していけば

綺麗にまとまりそうにょ。

1.単純なテキスト置換（アラビア数字処理とか）

2.chasen|chaoneになげて品詞分解とか音韻しょりかしてもらう

3.chasenからの結果を後処理するPRONタグ等

4.morph、及び品詞情報からアクセントや音素等を含んだデータをさくせい　

5.morph,音素列、アクセント系列等からmodel（検索キー）系列を作成

6.model(検索キー)系列と話者IDから、pitchや継続時間等のデータを

pdf(パラメータ分布ふぁいるの略？？）ファイルからひろってくる

7.拾ってきたパラメータにPITCHタグなどの影響を加える

8.拾ってきたデータ系列から音声合成を行う

9.音声出力

akira_youの私見

2005年2月2日水曜日

gtalkのソースを読んだ。

0 件のコメント:

コメントを投稿