stMind

about Tech, Computer vision and Machine learning

姿勢推定の関節ヒートマップデコードと標準シフト処理の有効性

姿勢推定モデルにおいては、関節毎のヒートマップ表現がよく使われており、OpenPoseを始め、多くの論文で有効性が確認されています。さらに、関節毎のヒートマップから、オリジナル画像における座標へ変換するデコード処理は、これまで十分に考察が行われて…

TF OD APIのpipeline.configの読み方(概要編)

Tensorflow Object Detection API(TF OD API)では、Protocol Buffersを使用して学習と評価のプロセスを設定しています。学習と評価用のスキーマは、tensorflow/models/research/object_detection/protos/pipeline.configに定義されており、ハイレベルでは5…

TF OD APIにおいてどのモデルを使うのかは、どのように判断されるのか?

tl;dr pipeline configに含まれるmodelのアーキテクチャ名から判断され、アーキテクチャに応じたbuildメソッドが使われる。 例えば、以下はfaster_rcnn_resnet50_v1_640x640_coco17_tpu-8のpipeline.configファイル。 具体的なところ configはobject_detecti…

Composed Image Retrieval on Real-life images(CIRR)

cuberick-orion.github.io https://arxiv.org/pdf/2108.04024.pdf Composed Image RetrievalもしくはImage Retrieval conditioned on Language Feedbackは、従来の単一のモダリティを用いた画像検索と異なり、画像とテキストのペアを与えて検索を行うCompose…

Chapter 3.2.3 of Efficient Deep Learning: Self-Supervised Learning

Self-Supervised Learning(SSL)は、pretext taskを解くことで、ラベル付きデータなしに汎用的な表現を獲得する手法。ターゲットタスクに適用するには、SSLでpre-trainingした後に、fine-tuningによりターゲットのラベル空間へのマッピングを学習する。 ラ…

Chapter 3.2.2 of Efficient Deep Learning: Data Augmentation

複雑なタスクを解く大規模なモデルを教師あり学習するとき、モデルの汎化性能は学習データ量に影響される。 しかしながら、高品質なラベル付き学習データを入手するにはコストがかかるという問題がある。 このような課題に対し、既存のデータに様々な変換手…

Chapter 3.2.1 of Efficient Deep Learning: Distillation

Distillationは、事前学習済みの大規模ネットワーク(教師モデル)を用いて、小規模ネットワーク(生徒モデル)を学習する仕組み。教師モデルと、生徒モデルは同じ入力を受け取り、教師モデルの方は生徒モデルのためのSoft labelを生成する。Soft labelは、…

Efficient Deep Learning: A Survey on Making Deep Learning Models Smaller, Faster, and Better

論文のURL:https://arxiv.org/pdf/2106.08962.pdf 深層学習は、ビジョンや自然言語処理、音声認識など様々な分野で飛躍的な進歩をもたらしましたが、モデルの改良が進むにつれてパラメータ数やレイテンシー、学習に必要なリソースなどが大幅に増えており、…

HRNetのQuick Start Guide

CVPR2019で提案されたDeep High-Resolution Representation Learning for Human Pose Estimationのオフィシャル実装をEC2上で実行するまでの記録です。 jingdongwang2017.github.io EC2は、Deep Learning Base AMI (Ubuntu 18.04) Version 38.0 のP3インスタ…

Natural Language Processing Specialization

www.coursera.org CourseraのNLP Specialization、完走しました! NLP Specializationは全部で4つのコース、各コースはさらに4週間分のサブコースで構成されている専門講座になります。最初のコースの終了が7月だったので、全4コースを終了するのに4ヶ月かか…

T-shaped knowledge base

Prepping for MLE interviews? Develop a T-shaped knowledge base. Make yourself a stronger candidate by demonstrating broad technical knowledge AND expertise in one area. pic.twitter.com/8AiYiiNA6D— DeepLearning.AI (@DeepLearningAI_) 2019年7…

Work From Home with Radiko

Work From Homeでのお供、Radikoでラジオ。 大体、こんなところを聞いてる。 AM9:00 - AM11:00 伊集院光とらじおと|TBSラジオFM90.5+AM954~何かが始まる音がする~ AM11:00 - AM12:00 ジェーン・スー生活は踊る|TBSラジオFM90.5+AM954~何かが始まる音がす…

imdb_reviews datasetのレビューに含まれるunique wordの上位N件の分布

レビューのテキストに含まれる語には、どういったものがあるか。特に、上位に含まれる語について、分布を見てみます。 scikit-learnのCountVectorizerを使って実装します。 def get_top_n_words(corpus, n=20, is_stop_words=False): vectorizer = CountVect…

imdb_reviews datasetのレビュー長のヒストグラム

データセット自体を理解し、モデル改善に役立てていきます。 Positiveなレビュー、Negativeなレビュー、それぞれについてレビュー長(ワード数)をカウントし、ヒストグラムで可視化します。 # 4. Count the length of sentences all_sentences = training_s…

LSTMでSentiment Analysis

これまでは、語単位での特徴量化でレビューの感情分析を行いましたが、文章のコンテキストを考慮するともっとうまくPositive/Negativeの判定が出来そうです。 (単純にgoodやbadのような語が含まれているかどうかだけでなく、「最初はgoodだけど、最後にはdi…

Sentiment Analysisの学習履歴をプロット

学習時のlossとaccuracyを確認するのも容易。model.fitの戻り値をhistoryとして受け取って、横軸にepoch数、縦軸にlossやaccuracyの値をとって表示するだけ。 history = model.fit(padded, training_labels, epochs=num_epochs, validation_data=(testing_pa…

Sentiment AnalysisをGloveで行う

前回の続き。 前回はEmbedding layerも含めて学習したが、学習済みのGloveを使う。 最初に、glove.6B.100d.txt(wordとembeddingを行単位で記述)をロードして、embedding_indexを作る。次に、imdb_reviewsデータセットのwordに対して、対応するgloveのembed…

CourseraのNLP in tensorflowを見てSentiment Analysisが容易に出来ると知る

www.coursera.org tensorflow_datasetに用意されているimdb_reviewsデータセットを取得して、kerasのTokenizerを使って前処理して、Modelを書いて、学習。 これをテンプレートとして使えば、EmbeddingはBERTに変えたり、imdb_reviewsを自分で作ったデータセ…

Tensorflowレポジトリのコミット数ランキングを表示するワンライナー

git logコマンドのfomatオプションでauthor nameを出力 sort uniq -cで連続する行数をカウント、重複行は削除 sort -nrで降順にソート headで先頭から10件表示 $ git log --format='%an' | sort | uniq -c | sort -nr | head 21995 A. Unique TensorFlower 3…

画像からの料理名推定

blog.stratospark.com 2017年なので少し前になりますが、画像から料理名を推定するプロジェクト。 InceptionV3のImageNet pre-trainedのモデルをFine tuningして、Food 101データセットで82.03% @ Top-1の精度が出たようです。 Food 101は、名前の通り101ク…

Baidu researchが作ったテキストからビデオを作成する技術

blog.deeplearning.ai deeplearning.aiが発行しているnewsletterにあったVidPress。 URLを入力とすると、最初にWebページの内容を解析して、関連する記事も収集(解析には、Ernieというモデルが使われているよう)。 その後、テキストサマリを作成、サマリに…

これが未来のサッカー観戦か!Zoomでバーチャルスタンド

www.bbc.com これからの時代のサッカー観戦はこうなるのかもしれない! デンマークで行われたリーグ戦、当然ながら現地にファンはいないのだけど、スタジアムに設置された巨大スクリーンにはZoomにログインしたファンの姿が!!(動画は下のURLから) https:…

Scene text detection/recognitionのためのTotal text dataset

GitHub - cs-chan/Total-Text-Dataset: Total Text Dataset. It consists of 1555 images with more than 3 different text orientations: Horizontal, Multi-Oriented, and Curved, one of a kind. coco-textに対して40分の1くらいの画像数ですが、curved t…

ICCV2017の論文、Revisiting IM2GPS in the Deep Learning Era

論文を読むのがそれなりの速度で行えるようになってきた。せっかくなので、読んでいるものをこのブログにまとめていこうと思う。 といっても、詳細に入るのではなく、主にAbstractとIntroduction、代表図面のあたりのまとめで、従来手法の課題や著者のアプロ…

Wavenetを用いた疑似エフェクターの実現

teddykoker.com ギターのエフェクターをWavenetで生成してやろうという試み。 モデルは24層のWavenetをベースにして、モデルサイズ削減と推論高速化のために出力を単一値(1x1フィルタで256→1に)にして、正解と予測値の差を最小化するように学習しているよ…

コミット履歴として可視化するBERTとその派生手法

amitness.com コミット履歴では追加されたコード(+)と削除されたコードが(-)が差分として可視化されますが、Githubに論文がプッシュされて、その後の論文が改善点をコミットしていけば、論文は重要な差分だけに圧縮されて把握しやすくなるのでは?という…

The boring technology behind a one-person Internet companyの話

www.listennotes.com ListenNoteというポッドキャストの検索エンジンがあるのですね。個人としては、ポッドキャストってあんまり使ってないのだけど、タイトルに惹かれて読んでみた。ちなみに、タイトルにあるboring technologyは退屈なということではなく、…

Tensorflowとpythonで書かれたmusic source separationのためのライブラリSpleeter

deezer.io github.com music source separationは、複数の楽器演奏パートの合成音源から個別の演奏パート(trackやstem等と呼ぶ)に分割するタスクのこと。例えば、ボーカル、ベース、ドラム、その他、それぞれの音源に分割するなど。 https://archives.ismi…

OCR用データセットのcoco-textとSynthTextを可視化

bgshih.github.io OCR用のデータセットでcoco-textがあります。約6万4千枚のCOCO2014の画像に対して、約24万のテキスト領域のバウンディングボックスがアノテーションデータとして提供される大規模なデータセットの一つです。 www.robots.ox.ac.uk また、画…

Andrew Ng教授の論文の読み方における個人的実践方法

Andrew Ng教授が行ったレクチャーの動画。 www.youtube.com その内容をまとめたMedium記事。 Advice on building a machine learning career and reading research papers by Prof. Andrew Ng 日本語翻訳記事。 アンドリュー・エン教授のアドバイスによる機…