stMind

about Arsenal, Arsene Wenger, Tech, Computer vision and Machine learning

これが未来のサッカー観戦か!Zoomでバーチャルスタンド

www.bbc.com これからの時代のサッカー観戦はこうなるのかもしれない! デンマークで行われたリーグ戦、当然ながら現地にファンはいないのだけど、スタジアムに設置された巨大スクリーンにはZoomにログインしたファンの姿が!!(動画は下のURLから) https:…

Scene text detection/recognitionのためのTotal text dataset

GitHub - cs-chan/Total-Text-Dataset: Total Text Dataset. It consists of 1555 images with more than 3 different text orientations: Horizontal, Multi-Oriented, and Curved, one of a kind. coco-textに対して40分の1くらいの画像数ですが、curved t…

ICCV2017の論文、Revisiting IM2GPS in the Deep Learning Era

論文を読むのがそれなりの速度で行えるようになってきた。せっかくなので、読んでいるものをこのブログにまとめていこうと思う。 といっても、詳細に入るのではなく、主にAbstractとIntroduction、代表図面のあたりのまとめで、従来手法の課題や著者のアプロ…

Wavenetを用いた疑似エフェクターの実現

teddykoker.com ギターのエフェクターをWavenetで生成してやろうという試み。 モデルは24層のWavenetをベースにして、モデルサイズ削減と推論高速化のために出力を単一値(1x1フィルタで256→1に)にして、正解と予測値の差を最小化するように学習しているよ…

コミット履歴として可視化するBERTとその派生手法

amitness.com コミット履歴では追加されたコード(+)と削除されたコードが(-)が差分として可視化されますが、Githubに論文がプッシュされて、その後の論文が改善点をコミットしていけば、論文は重要な差分だけに圧縮されて把握しやすくなるのでは?という…

The boring technology behind a one-person Internet companyの話

www.listennotes.com ListenNoteというポッドキャストの検索エンジンがあるのですね。個人としては、ポッドキャストってあんまり使ってないのだけど、タイトルに惹かれて読んでみた。ちなみに、タイトルにあるboring technologyは退屈なということではなく、…

Tensorflowとpythonで書かれたmusic source separationのためのライブラリSpleeter

deezer.io github.com music source separationは、複数の楽器演奏パートの合成音源から個別の演奏パート(trackやstem等と呼ぶ)に分割するタスクのこと。例えば、ボーカル、ベース、ドラム、その他、それぞれの音源に分割するなど。 https://archives.ismi…

OCR用データセットのcoco-textとSynthTextを可視化

bgshih.github.io OCR用のデータセットでcoco-textがあります。約6万4千枚のCOCO2014の画像に対して、約24万のテキスト領域のバウンディングボックスがアノテーションデータとして提供される大規模なデータセットの一つです。 www.robots.ox.ac.uk また、画…

Andrew Ng教授の論文の読み方における個人的実践方法

Andrew Ng教授が行ったレクチャーの動画。 www.youtube.com その内容をまとめたMedium記事。 Advice on building a machine learning career and reading research papers by Prof. Andrew Ng 日本語翻訳記事。 アンドリュー・エン教授のアドバイスによる機…

Indie hackersのインタビューで気になった個人開発成功例を5つまとめ(2)

先日のエントリIndie hackersのインタビューで気になった個人開発成功例を5本要約 - stMindの続き。 もう少しインタビュー記事を読んでみた。インタビューとして掲載されているものを、タイトルだけは一通り眺めたことになる。 先行サービスがあったとしても…

Indie hackersのインタビューで気になった個人開発成功例を5本要約

家にいることが多いこの時間、何か作りたい!では、何を作るのか?アイデアを得るには先行例を研究するのが一番ということで、こちらで紹介されてた個人開発者へのインタビュー記事サイトIndie hackers interviewsから気になるものを 5本ほどまとめてみた。 …

リモートワークで改めて取り組みたいポモドーロテクニック

リモートワークが基本になった今、家でどう働くかということが大きな課題! どう働くと生産性が上がるかを考えることも重要だけど、どう休むかということも併せて考えないといけないなぁと思っていて、 改めてポモドーロテクニックを使って時間管理をしてる…

SSDとCRNNで簡易OCR

画像から文字列を認識するOCRシステムを、SSDとCRNNで。 github.com 最初に、SSDで文字列領域を矩形として抽出、矩形領域に対してCRNNで文字列を出力する構成です。 SSDはTensorflow Object Detection APIで、COCOだけでは十分な精度が出なかったので、Synth…

論文紹介 : Composing Text and Image for Image Retrieval

CVPR2019で発表された、元画像と元画像をターゲット画像に変換するためのクエリ文を組み合わせた画像検索方式。以下、論文について簡単にまとめてみます。 目的 これは図を見ると理解しやすいと思います。エッフェル塔の画像と「人が写ってない、夜間」とい…

画像キャプション(im2txt)

github.com 色々と参考にしながら、画像キャプションのモデルを学習、テストした。 im2txtはtensorflowのリポジトリに含まれる画像キャプションのモデル encoder-decoder系のアーキテクチャで、画像をエンコードした固定長ベクトルを入力し、自然言語のキャ…

A simple yet effective baseline for 3d human pose estimation

https://arxiv.org/pdf/1705.03098.pdf 画像から3次元の関節を推定する論文。ただし、入力は画像ではなく2次元の関節座標で、そこから3次元の関節を回帰する。 2次元から3次元へのマッピングをDNNとして学習する手法は、これまでにも提案されてきているが、…

Tensorflow Object Detection APIを使ってロゴ検出

以前、ナンバープレート認識モデルを参考にして、ロゴ認識CNNを作りました。 stmind.hatenablog.com 前回のモデルは独自モデルだったのと、物体候補領域はSelective Searchで実行していたため計算時間が大きかったので、one stageで標準的なモデルを使用する…

GoogLeNet(Inception V1) and Inception V3 memo

CNNの中でもよく使われるアーキテクチャの一つであるGoogLeNet。GoogLeNetの層を構成するのがInceptionで、今までにv1からv4までの改良が行われていて、またresidual blockを導入したinception-resnetも提案されています。 Mediumの解説記事を参考に、基本と…

intが戻り値の関数でエラーを返すにはどうすればいいか

C++

stackoverflow.com 例えば、ファイルに含まれる数の合計を計算する場合。 int DoSum(const std::string& file); ファイルに含まれるのが正の値だけであれば、負の値でエラーを示すことができるが、正も負も含まれる場合には適用できない。 3つのやり方 1. 戻…

今こそ読みたいグーグルマップ誕生の舞台裏

NEVER LOST AGAIN グーグルマップ誕生 (世界を変えた地図)作者: ビル・キルデイ,大熊希美出版社/メーカー: TAC出版発売日: 2018/11/10メディア: 単行本(ソフトカバー)この商品を含むブログを見る 中の人による、キーホール起業からグーグルによる買収、グ…

スーパーカーについて知っていること

最近、YoutubeでライブのPV見て、そこについてるコメントを見てなんか書いてみたくなった。 2005年に解散したスーパーカーは、自分の青春時代そのものだった気がする。当時はまだネットが一般的に使われる前だったし、スマホなんてものは当然なかったから、…

Encountered errors while installing torch

環境変数の設定では解消しなかったので、libSystem.dylibとlibreadline.dylibのシンボリックリンクを~/torch/install/libに作成した ld: library not found for -lSystem collect2: error: ld returned 1 exit status Error: Build error: Failed compiling …

Tensorflow Object Detection APIのCPU処理時間 on MacBook Pro

計測環境 MacBook Pro Late 2013モデル CPU: 2.8GHz Corei7 Mem: 8GB 1600MHz DDR3 デフォルトで指定されているssd_mobilenet_v1_coco_2017_11_17 計測はTensorflowのtimelineを使用。 def run_inference_for_single_image(image, graph): with graph.as_def…

Deep Learning for Videos

sites.google.com Deep Learningを動画に適用というのはこれから増えてくると思うし、問題を分類した上記ブログを借りて頭を整理しておくとよいなと思った。少し古いが参照論文リストもあるので、目を通すと良さそう。 Video Classification Image Classific…

MSCOCO keypoint challengeのWinner solution

blog.mapillary.com MSCOCO joint recognition challengeで、6つのタスクのうち4つでbest scoreだったのは、Megviiという顔認識技術の企業。人物の関節位置を推定するKeypoint challengeでは、Megviiは2017年でもTopだったようです。 CVPRにも採択されていた…

RegressionベースとHeatmapベースではどちらが良い?

モバイル向けのSingle person 2D ポーズ推定のレポジトリのIssueなのですが、興味深い内容だったので紹介します。 github.com CNNが前提だと思いますが、Keypoint localizationを行う方法として、 DeepPoseなど、関節位置を回帰するRegression OpenPoseなど…

MoveMirrorで使われているPose Estimation Algorithm

MoveMirror matches your movements with images from around the world. Built with TensorFlow.js and #PoseNet. Learn more here→ https://t.co/w6l4OPPu6G pic.twitter.com/gohe515f04— TensorFlow (@TensorFlow) 2018年7月19日 ポーズをとると似た姿勢…

VNect : 1枚のRGB画像からリアルタイムに3D pose estimation

www.youtube.com SIGGRAPH2017で発表された、単眼RGB画像から3D poseをリアルタイムに推定するVNectのプレゼン動画。音声が若干残念ですが、20分程度で概要を把握できましたので、さらっとまとめ。 3D poseとは Local 3D PoseとGlobal 3D Poseの二種類がある…

アーセンベンゲル監督のラストホームゲーム関連グッズ

ベンゲル監督の最後のエミレーツ、バーンリー戦で配られたグッズをebayで手に入れることができました。総額は、全部で2万円強。 送料が高かった(約3000円)のが痛かったけど、ベンゲル監督信者としては、これくらいなら十分出せますね! 今も、ebayではいく…

Deep Learning時代のPose Estimation研究

[1602.00134] Convolutional Pose Machines [1611.08050] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields 少し前まではPose estimationは非常に難しい問題だったように思いますが、Convolutional Pose MachinesやRealtime Multi-Pers…