stMind

about Tech, Computer vision and Machine learning

Github Data Challengeにチャレンジした

応募した内容

全言語共通でPopular Forkedはあるけれど、各言語でPopular Forkedは上位5番までしかリスト化されていないので、Top Languageの各言語について上位50番までのForked数をグラフ化することにした。
matplotlibでのグラフ化に手こずったので、JavaScriptのみをグラフ化して応募した。一応、「JavaScriptではbootstrapが飛び抜けてforkされていることがわかる」という説明をして送ってみた。

SELECT repository_name, MAX(repository_forks) as forks, repository_description, repository_url, repository_owner
FROM [githubarchive:github.timeline]
WHERE type='ForkEvent'
  AND repository_language='JavaScript'
GROUP BY repository_name, repository_description, repository_url, repository_owner
ORDER BY forks DESC
LIMIT 50

f:id:satojkovic:20120522005318p:image
JavaScriptでは、bootstrap(一位)が飛び抜けて多い。

応募したわけではないけど追加

f:id:satojkovic:20120522005321j:image
Rubyでは、homebrew(一位)とrails(二位)が多い。

f:id:satojkovic:20120522005322j:image
Pythonでは、上位が飛び抜けて多いわけではない。

最後に一言

解析するための膨大なデータ、解析に必要なツールは誰でも使える環境が用意されてきてはいるものの、結局どういう視点でデータを観察し、新しい見方を発見するかが大事であって、なぜそのような解析結果が見たいのか?を考えぬくことが必要だと改めて感じました。(その意味では今回の応募内容は新しい視点という要素は少なめ)