stMind

about Tech, Computer vision and Machine learning

The boring technology behind a one-person Internet companyの話

www.listennotes.com

ListenNoteというポッドキャスト検索エンジンがあるのですね。個人としては、ポッドキャストってあんまり使ってないのだけど、タイトルに惹かれて読んでみた。ちなみに、タイトルにあるboring technologyは退屈なということではなく、慣れ親しんだ技術ということのようです。

  • ListenNotesは、ListenNotes.comAPIを提供している
  • 全てAWS上で動いていて、合計20サーバーで構成(production-something)
  • BackendはDjango / Python3、OSはUbuntu
  • Web FrontendはReact + Redux + Webpack + ES

その他にも、サーバ構成管理や開発ツールなども詳細に紹介されてて、一見の価値ありです。

Tensorflowとpythonで書かれたmusic source separationのためのライブラリSpleeter

deezer.io

github.com

music source separationは、複数の楽器演奏パートの合成音源から個別の演奏パート(trackやstem等と呼ぶ)に分割するタスクのこと。例えば、ボーカル、ベース、ドラム、その他、それぞれの音源に分割するなど。

https://archives.ismir.net/ismir2019/latebreaking/000036.pdf

ISMIR2019(International Symposium on Music Information Retrieval)のextended abstractにあるImplementation detailsは以下の通りです。

  • 12層のU-net
    • 6層のencoder / 6層のdecoder
  • Single GPUで1週間学習
  • musdb18のテストデータセット(3時間27分のaudio)に対して、4つのパートに分割して、wavファイルに出力するまで2分以下
    • Tensorflowのモデルをロードする時間(15秒程度)を含む
    • RTX2080Ti、Intel Xeon Gold 6134 CPU @ 3.20GHz
  • 100秒のaudioであれば、1秒以下で4つのパートに分割できる
  • 公開の既存システムOpen-Unmixと比較して、多くの指標で精度向上

OCR用データセットのcoco-textとSynthTextを可視化

bgshih.github.io

OCR用のデータセットでcoco-textがあります。約6万4千枚のCOCO2014の画像に対して、約24万のテキスト領域のバウンディングボックスがアノテーションデータとして提供される大規模なデータセットの一つです。

www.robots.ox.ac.uk

また、画像にテキストを重畳して作られたSynthTextというデータセットもあります。こちらは、8万枚の画像で、約800万のテキスト領域がある超大規模なデータセットです。ただ、残念ながら、現在はダウンロード出来ないようです。

coco-textの可視化

比較的検出の容易な画像から、矩形の傾きが大きかったり、目視でも認識できないようなサイズのテキスト領域も含む難易度の高いデータセットです。

f:id:satojkovic:20200510202535p:plain

f:id:satojkovic:20200510203028p:plain

f:id:satojkovic:20200510203523p:plain

SynthTextの可視化

SynthTextは、テキスト領域をうまく囲めてないアノテーションが結構あって、縦横比を見て事前処理する等の処理が必要そうです。

f:id:satojkovic:20200510204303p:plain

f:id:satojkovic:20200510204530p:plain

検出器の学習に使うにあたって

pre-trainedのSSDを使ってcoco-textで学習してみたけど、なかなか検出率が上がらなかった。また、SynthTextを追加したが、事前処理をやってなかったのもあって、検出率に変化はあまりなかった。

この二つのデータセットは最初に使うデータセットとしては少し扱いにくいと思われるので、もう少し小さいtotaltextStreet View Text Datasetなどのデータセットを使うのが良い気がする。

Andrew Ng教授の論文の読み方における個人的実践方法

Andrew Ng教授が行ったレクチャーの動画。

www.youtube.com

その内容をまとめたMedium記事。

Advice on building a machine learning career and reading research papers by Prof. Andrew Ng

日本語翻訳記事。

アンドリュー・エン教授のアドバイスによる機械学習キャリアの築き方と研究論文の読み方 | AI専門ニュースメディア AINOW

個人的実践方法

  • 読むべき論文リストは、Githubawesome-somethingから拝借
  • 流し読みする20本は、CVPR / ECCV / ICCVの過去3年程度から選ぶ
    • トップカンファレンスで査読を通過した論文であり、分野に対する土地勘が少ない中でも、論理的に読み進めやすい
  • まずはTitle + Abst + Introductionで10本読むことを目指す
    • 知識が少ない中で20本読むのは長い道のり、ただし5本程度だとぼんやりと分かる程度なので、まずは10本まで頑張る。10本から20本までは、0から10本と比べて格段に読みやすくなっているはず。

少ないけど、まずはこのようなところ。

Indie hackersのインタビューで気になった個人開発成功例を5つまとめ(2)

先日のエントリIndie hackersのインタビューで気になった個人開発成功例を5本要約 - stMindの続き。

もう少しインタビュー記事を読んでみた。インタビューとして掲載されているものを、タイトルだけは一通り眺めたことになる。 先行サービスがあったとしても、需要が証明されてると考えて同じようなサービスを作ることから始めると、個人開発としてはハードル低いのかも。

Hacker news books

wallbag.it

Delim.co

Urlbox

Semantria

Indie hackersのインタビューで気になった個人開発成功例を5本要約

家にいることが多いこの時間、何か作りたい!では、何を作るのか?アイデアを得るには先行例を研究するのが一番ということで、こちらで紹介されてた個人開発者へのインタビュー記事サイトIndie hackers interviewsから気になるものを 5本ほどまとめてみた。

Linguix

ScrapingBee

Weather extension

EasyBib

Daily Coding Problem

後書き

論文を書くたびに引用を書くのが面倒だったから、それを代理してくれるサービスを作ったとか、様々なWebサービスを作ってきたら、Webサイトをクロールすることが多かったけど、そのたびに苦労していて既存ソリューションに不満が多かったとか、いつも自分が躓くポイントを解決するというのがアイデア発想の一つの方法になりそうです。

さらにもう少し踏み込んで、それを解決する既存ソリューションがあるけど、necessary featuresだけ欲しいとかlightweightでfastなものが欲しいとか、既存ソリューションが十分ではない部分まで見いだせると、一定のユーザーを獲得する可能性があるのだと思いました。

リモートワークで改めて取り組みたいポモドーロテクニック

リモートワークが基本になった今、家でどう働くかということが大きな課題! どう働くと生産性が上がるかを考えることも重要だけど、どう休むかということも併せて考えないといけないなぁと思っていて、 改めてポモドーロテクニックを使って時間管理をしてる。

自分の場合は、Be Focused Proで35分+5分を1セットにしているが、まあまあうまく実践できていると思う。

Be Focused Pro - Focus Timer

Be Focused Pro - Focus Timer

  • Denys Ievenko
  • 仕事効率化
  • ¥610

台湾のIT担当大臣の方もポモドーロで30分にしているみたいだが、30分〜40分くらいが1セットの長さとしてはベターだと思う。

note.com

1時間連続して続けると、1日が終わりに近づいた頃の疲労が半端ないし、トータルの生産性としては下がっているのではないかと思う。

まあ、単に年齢の問題かもしれないけどw

他の方のリモートワークも参考にしながら、改善してきたい!

リモートワーク・テクニック「紀平式ポモドーロ」の紹介

ケーブル嫌いのためのデスク周りをスッキリさせるテクニック|Go Ando / PREDUCTS / THE GUILD|note

ケーブル1本だけの生産性最高なデスク環境をDIYなしで作った話|柿元 崇利 / U-NEXT|note

自己流リモートワー筋 - uzullaがブログ

約二年やってみてわかった、リモートワークのホントのところ。 | Books&Apps