UCI Machine Learning Repository: Data Sets
ぱっと見ではどこをどう見ていいのかよくわからないが、機械学習で使えるデータセットが揃っているサイト。ちょっとだけ使い方がわかったのでメモ。
Browse Throughで絞込み
左側に並んでいるカテゴリの項目を指定するとANDで絞り込むことが出来る。
- Default Task
- Attribute Type
- Data Type
- Area
- # Attributes
- # Instances
- Format Type
最初は# AttributesのLess than 10(10より小)と# InstancesのLess than 100(100より小)を選んでおくと、データ数と属性数の少ないデータセットに絞り込まれて、データセット自体の理解もしやすくてよいと思う。(5件ほどしかないのだけど)
Dataset Descriptionを読む
データセットを選択すると、上記のようなページが表示される。この場合は、Shuttle Landing Control Data Setを選択。そのページにある「Data Set Description」のリンクをクリックすると、このデータセットの詳細を把握する事ができる。
実際、このデータセットは
2,*,*,*,*,*,2 1,2,*,*,*,*,1 1,1,2,*,*,*,1 1,1,1,*,*,*,1 1,1,3,2,2,*,1 1,*,*,*,*,4,1 2,1,4,*,*,1,1 2,1,4,*,*,2,1 2,1,4,*,*,3,1 2,1,3,1,1,1,1 2,1,3,1,1,2,1 2,1,3,1,2,1,1 2,1,3,1,2,2,1 1,1,3,1,1,3,1 2,1,3,1,2,3,1
こんな感じのCSV形式になっていて、詳細説明によると各属性の意味は
- Class: noauto, auto
- that is, advise using manual/automatic control
- STABILITY: stab, xstab
- ERROR: XL, LX, MM, SS
- SIGN: pp, nn
- WIND: head, tail
- MAGNITUDE: Low, Medium, Strong, OutOfRange
- VISIBILITY: yes, no
全部で15件のデータがあるので、例えば10件を学習に使い、残り5件をテストで使ってnoautoかautoかを用意した機械学習アルゴリズムで分類するタスクを実行するなどが考えられるかなとおもいます。