stMind

about Tech, Computer vision and Machine learning

Baidu researchが作ったテキストからビデオを作成する技術

blog.deeplearning.ai

deeplearning.aiが発行しているnewsletterにあったVidPress。

URLを入力とすると、最初にWebページの内容を解析して、関連する記事も収集(解析には、Ernieというモデルが使われているよう)。 その後、テキストサマリを作成、サマリに関する合成音声を作成するのと、サマリに合う映像クリップを収集して、最後に映像と音声をアラインメントして出力する。

65%のユーザは、VidPressが作成したビデオを最後まで視聴したが、人が作成したビデオは途中で視聴をやめることが多かったという結果が得られたらしい。