http://d.hatena.ne.jp/aqualis/20060205 関連で
昨日作っていたデータでなんとなくサトー度チェッカーを作ってみた。
実験
学習データ
・ロボット技術研究会保有のチャットログコーパス2003/5/19~2006/2/6の偶数日
・文末から連続するひらがな語尾3-gram(話者ごとに準備)
判定方法
・文末から連続するひらがな語尾3-gramの尤度を上記データで計算する
・最尤のものがsatosさんのものだったらあなたはロ技研でいうsatosさんです。
ちなみに、ロ技研の2005及び2003年10月の奇数日satosさんで試すと、ちゃんとsatosさんだと判定しました(予想どおり)
ちなみに、二位はゆの人でした。
まとめ
少なくとも、ロ技研のチャットではひらがな語尾に個人性があることが分かりました。(他のn-gramもぱっと見はいけそう)
今後、HTMLを収集しボットで学習するまえに、ひらがな語尾n-gramを利用してクラスタリングし,学習する際に偏ったクラスタを選択することで個人性を持ったボット学習が期待できるものと思われます。
備考
私はひらがな語尾をそのひとの個人の特徴を示すだけの物とは考えていません。ひらがな語尾は何を話すか、どのように(批判するのか、褒めるのか)話すかなどのTPOと本人の性格がかけあわさったものがひらがな語尾を形成すると予測しています。ですので、webHTMLをクラスタリングした後のデータを学習する際にひとつのクラスタのみで学習するのではなく、複数のクラスタを適当な配分で学習する必要があると予測します。
- 別にsatosじゃなくてロ技研の誰になるかをさいゆう推定してるだけじゃないかというツッコミは甘んじて受け流します。
0 件のコメント:
コメントを投稿