stMind

You'll never blog alone

UCI Machine Learning Repositoryを使い方を解読する

UCI Machine Learning Repository: Data Sets

ぱっと見ではどこをどう見ていいのかよくわからないが、機械学習で使えるデータセットが揃っているサイト。ちょっとだけ使い方がわかったのでメモ。

Browse Throughで絞込み

左側に並んでいるカテゴリの項目を指定するとANDで絞り込むことが出来る。

  • Default Task
  • Attribute Type
  • Data Type
  • Area
  • # Attributes
  • # Instances
  • Format Type

最初は# AttributesのLess than 10(10より小)と# InstancesのLess than 100(100より小)を選んでおくと、データ数と属性数の少ないデータセットに絞り込まれて、データセット自体の理解もしやすくてよいと思う。(5件ほどしかないのだけど)

Dataset Descriptionを読む

f:id:satojkovic:20120529235308j:image

データセットを選択すると、上記のようなページが表示される。この場合は、Shuttle Landing Control Data Setを選択。そのページにある「Data Set Description」のリンクをクリックすると、このデータセットの詳細を把握する事ができる。

実際、このデータセット

2,*,*,*,*,*,2
1,2,*,*,*,*,1
1,1,2,*,*,*,1
1,1,1,*,*,*,1
1,1,3,2,2,*,1
1,*,*,*,*,4,1
2,1,4,*,*,1,1
2,1,4,*,*,2,1
2,1,4,*,*,3,1
2,1,3,1,1,1,1
2,1,3,1,1,2,1
2,1,3,1,2,1,1
2,1,3,1,2,2,1
1,1,3,1,1,3,1
2,1,3,1,2,3,1

こんな感じのCSV形式になっていて、詳細説明によると各属性の意味は

  1. Class: noauto, auto
    • that is, advise using manual/automatic control
  2. STABILITY: stab, xstab
  3. ERROR: XL, LX, MM, SS
  4. SIGN: pp, nn
  5. WIND: head, tail
  6. MAGNITUDE: Low, Medium, Strong, OutOfRange
  7. VISIBILITY: yes, no

全部で15件のデータがあるので、例えば10件を学習に使い、残り5件をテストで使ってnoautoかautoかを用意した機械学習アルゴリズムで分類するタスクを実行するなどが考えられるかなとおもいます。

まとめ

他のデータセットを探す場合でも、Browse Throughで絞り込んで、データセット詳細確認、機械学習アルゴリズムで処理という手順は同様に出来ると思います。