夏目漱石・芥川龍之介・宮沢賢治・太宰治・江戸川乱歩の作品からTFの特徴量をSVMに入れて分類分けしてみた

SVM(サポートベクターマシン:教師あり学習)を使った課題の第二弾があったのでまたまた、processingで分析して遊んでました。
前回↓
matatsuna.hatenablog.com

実験方法

夏目漱石
gyazo.com
宮沢賢治
gyazo.com

  • 作品それぞれをkuromojiを用いて、形態素解析を行います
  • 形態素解析した結果から文章の出現頻度(TF)を求め、作者ごとの単語ベクトルを作成しSVMに入れます

gyazo.com

  • SVMがどれほど正しいかのテストをします

SVMに登録されてないそれぞれの作者の作品をランダムに18作品新たに準備して、どれぐらいの割合で正解できるかを検証しました。

結果

94.4%でした!!
これは完全にSVMで分類分けできます。

考察

間違えてしまった作品は太宰治の「緒方氏を殺した者」江戸川乱歩と判断してました。中身を読んでみるとかなり暗い内容になってました。確かに江戸川乱歩っぽい作品です。これは、納得してしまいました。

今後の展望

たくさんの作品を入れると文章に用いる単語の似た傾向を出すことができるかな~って思ってます。

AttractiveとUnattractiveな顔画像をOpenCVからの特徴量をSVMに入れてみた

2016年秋ごろにSVM(サポートベクターマシン:教師あり学習)を用いて、processingで行う課題があり、興味本位で実装してみました。

実験方法

  • bing APIを用いて「AttractiveとUnattractiveな女性の顔写真」を1000枚ちょいずつの写真を収集

Attractive
gyazo.com
Unattractive
gyazo.com

  • Opencvを用いて写真の特徴量を計算する

今回使った特徴量は
- 両目それぞれの大きさ
- 口の大きさ
- 鼻の大きさ
- 両目の距離
- 鼻に対する両目それぞれの距離
- 鼻に対する口の距離
- 口と両目それぞれの距離
の全10個の値を顔の大きさに対する割合で算出しました。
参考にしたサイト:Processing for openCVで顔検出をしてみた - Horio.com

元画像は画像検索なので関係ない写真も含まれているため、OpenCVが認識した500枚の画像をそれぞれ用いました。
認識したが余った画像は学習がどれぐらい精密にできたかをテストするためのテストデータとしました。

結果

70.3%ほどの精度になりました。
結果の一例
Attractive
gyazo.com
Unattractive
gyazo.com

考察

意外とデータがしっかりすれば使えるかもしれない。ただし、「盛ってる」ときの写真に写る角度がやたら上だったりするせいで違いがでてるかも。撮影角度が安定した写真じゃないとわからない。

今後の展望

ただ、これ以上解析をすると周りからの視線が恐ろしく、怖いのでやめます。素材を集めるのも大変なので。興味のある方、ぜひどうぞ。そして、教えてください。

日本地図3Dビュワーを作った

CGを使った作品の課題が出たので日本地図を3Dにしました。


このために使用したのが国土地理院apiです。
↓これ
地理院地図|標高タイルの詳細仕様

仕様としてはズームができるはずなのですが、叩いても落ちてこず、仕様のURL
http://cyberjapandata.gsi.go.jp/xyz/dem/14/14547/6463.txt
を叩いてその情報を元にプログラムを作成しました。

ただ、すべての情報を使用するとCGが重くなって大変なので、間引きを行って軽くしました。
かなり精密なデータが落ちてくるので今後使えそうだなと思いました。