うーん、母音に情報を落としてみるというの、、、端的に言って失敗でした、対応としては
- 主成分分析みたいなノリで有用な写像をさがす
- チャットにはさまざまなTPOが混じってるのにくらべHTMLには混じってる確率は低いから800文なくてもクラスタリングできるよ。
というふたつが考えられます。
とりあえず後者かな。
続きはたぶん週末になりそう。
クラスタリングが完了したら主観評価を行いたいと思います。そのときはよろーってか主観評価の仕方をしらべなきゃ。
思っているところでは、各文章を
- かたい
- やわらかい
- やさしい
- きびしい
- ふざけてる
- まじめ
とかとか、思い付く限りの言葉じりの種類をあげて、それをいくつか選んでもらって(もしくは、対義語を対にして5段階評価)して、その分類と語尾クラスタリングに相関があるかどうかを見ればいいとおもうねん。
でもね~誰か良い本教えてください。
0 件のコメント:
コメントを投稿