AIによる新しい映像技術とは 俳優や女優をAIが生成!? |株式会社EmbodyMe

取材動画
※本記事はBiz9(現NayutaTV)で制作した取材動画をNayutaTVに移行したものです。

様々なビジネスを動画で紹介する Biz9

今回のテーマは「AIによる新しい映像技術とは俳優や女優をAIが生成!?」です

今回はコンピューターグラフィックを AI で置き換えて、俳優や女優が演じなくても AI が演じているシーンを生成するという映像技術の革新を目指しているベンチャー企業、株式会社EmbodyMeさんにこれからの時代に映像技術はどう変わるか、お話をお聞きしたいと思います!

※以下、動画内容をテキスト化しております。

撮影がいらなくなる?EmbodyMeがやっていることとは

関根:「それでは吉田さんよろしくお願い致します!まずは自己紹介をお願いしてもよろしいでしょうか」

吉田:「はい、ありがとうございます。EmbodyMeの吉田一星と申します。」

吉田:「弊社は、「誰もが目に見えるあらゆるものを自由自在に作り出す世界をAIで作り出す」ことを実現しようとしている会社です。目に見えるあらゆるものがどういうものかというと、例えば映像ですね。」

吉田:「テレビや映画、YouTube、ネットフリックスまたそれがリアルタイムで使われるシーン例えばゲームやビデオチャット、LINEみたいなMessengerサービスなど、このようなあらゆるシーンの映像の作り方をAIで根本から変えることを実現しようとしている会社です。」

関根:「ありがとうございます。Embodymeさんでは、映像に関する技術で様々な企業と共同研究をされているとお聞きしたのですが、将来的に実際の撮影やコンテンツで使われるAIを活用した映像というのは、どのようなものなのでしょうか?」

根岸:「例えば、コロナの状況で家に篭ることでテレビの視聴時間や、YouTubeの視聴時間が増えていると思うのですが、一方撮影は非常に難しくて撮影ができなくなり、コンテンツが増えない状況があると思います。」

根岸:「それが弊社技術を使うと「撮影をする必要が一切なくなる」ということが実現できます。例えばテレビ番組をつくるのに、タレントさんを呼んでテレビ番組を作ったり、俳優さんを呼んで映画を作ったりしていると思いますが、それが弊社技術を使うと後からタレントさんに色々なセリフをいくらでも喋らせることができるようになり、どんな動きでもさせることができるので、番組製作者であるとか、監督さんの思い描いた姿を誰でも簡単にしかもリアルタイムで実現できるようになるというのが弊社の技術です。」

写真があれば映像が作れる!?

関根:「なるほど!そんなすごいことが将来は実現するとのことですがいま現在ではどのくらい研究が進んでいてどんなことが実現できているのでしょうか?」

吉田:「はい、では実際にデモで説明させていただきたいと思います。」

吉田:「こちらのipadを見てください。どの映像でもいいのですが、例えば、ヒラリー・クリントンを使うとで、この場でリアルタイムにヒラリー・クリントンの顔を動かすことができます。」

関根:「えー!すごーい!」

市原:「例えば、「私の名前はヒラリー・クリントンです」とやるとこのような映像が簡単に作れるようになります。その場でリアルタイムに作れるのですが、どのような映像でも出来ます。漫画のキャラクターでもいいですし、映像・ビデオに限らず、静止画でも動くので、絵画や銅像も動かすことができます。」

関根:「すごいですねー!」

市原:「端末に入っているものだけではなくて、YouTubeやGoogleで検索して使用することもできます。例えば、自分の叔父にジャイアント吉田というタレントがいるのですが…笑。このように検索して出てきたものもその場で動かすことができるようになります。完全にリアルタイムで、前処理も必要ありません。なので、その場にいる人をすぐに動かすこともできます。例えば、ARでその場で動かすことができるのですが、リアルタイムで関根さんの顔を動かすこともできます。」

市原:「ぜひ実際に触って見ていただきたいので、こちら動かしてみてください。」

関根:「すごい、ほんとだー!画面を通して歴史上の人物と会話しているような気持ちになりますね!眉毛の動きまで再現されている!」

EmbodyMeのAI技術の秘密とは?

関根:「すごい技術を見せていただいたのですが、どうしたらこんなことができるようなるのだろう?と思いました!」

吉田:「はい、簡単にいうとAIを使って機械学習ベースで全部ディープラーニングを使っています。実際にどういう技術で構成されているのかについて、もう少し詳しく説明すると、主に二つの技術があります。」

吉田:「一つが「3D densee face tracking」という技術です、先ほどの映像やリアルタイムに動かすシーンに使われていました。従来技術、例えばスナップチャットやFacebookなど、その他の技術というのは、70点以下の3Dポイントを推定していたのですが、弊社技術の特徴としては、5万点の3Dのポイントをより詳細に認識できるというところですね。」

吉田:「競合企業としてはAppleが挙げられるのですが、Appleの技術を説明すると、Appleの技術というのは3Dセンサーというものを使っていて、iphoneのハイエンドの機種にはカメラの他に3Dセンサーというのが入っていて、3Dで顔を認識しています。なので、ハイエンドのipadや、iphoneが必要になるのですが、弊社の技術は一般的なカメラ、RGBカメラがあれば、どのようなシーンでも動きます、なのでノートパソコンでも使うことができますし、もちろんAndroid端末でも動きます。」

市原:「先ほどのような映像を作り出すところもそうなのですが、例えば1枚の写真からオバマ前大統領の3Dモデルを推定するだとか、そのようなものを作り出すというところに幅広く応用できる技術になります。」

関根:「なるほどー!」

吉田:「もう一つの技術としてはですね、「deep generative model」と呼ばれるもので、いわゆる「GAN(Generative Adversarial Networks)」というものです。現実と区別ができないような映像コンテンツをディープラーニングで1から全部生成できます。顔だけに限らずいろんなもの1から生成できるという技術になります。」

吉田:「他に弊社にしかない技術としては静止画だけではなくて、動画を生成できてしまうというところや、モバイルでもリアルタイムに撮影できるというのが他にない特徴でこのような技術によって、我々のプロダクトはできております。」

関根:「すごいですね!ありがとうございます!」

吉田:「先ほどお見せしたデモは顔の表情をリアルタイムで読み取って、それをリアルタイムで動かして映像を生成できるというデモだったのですが、そういったようなリアルタイムで生成するだけでなく、音声もしくは文字さえあれば、自動で映像が生成できてしまう技術を弊社は持っています。」

吉田:「例えば、このウェブサイトなのですけども、ここで何の映像でも画像でもいいのですが、実は事前に関根さんの映像をダウンロードしたので、使わせていただければと思うのですが」

関根:「あぁ〜!すごく恥ずかしいです!(照)」

市原:「こちらに例えば「I have a pen.」「I have a pineapple.」と入力して、音声アップロードしてもいいのですが、文字があれば自動で読み上げて作れる機能もあります。これを使えば自動で音声を作ることができて、例えばニュースの原稿さえあれば24時間読み上げるとか、例えばおじいちゃんからメッセージが届いたらおじいちゃんの顔や声で読み上げることができるなど、非常に幅広い応用シーンが想定されます。今できたと思うのですが」

関根:「すごい…えっすごーい!」

吉田さんが考えるこれからのAIと映像

関根:「エンボディ ミーさんの AI と映像の研究が進むと、近い将来ではどのようなことが起きるのでしょうか?」

吉田:「弊社はビジョンとして、「誰もがAIで目に見えるあらゆるものを自由自在に作り出す世界を実現する」というのを掲げAIでコンピューターグラフィックスの分野を根本から変えるということをやろうとしています。」

吉田:「既存のコンピューターグラフィックスはとにかく人手も、お金も、時間もかかります。例えばジャングルブックというフルCGのディズニーが作った映画は、CGのクリエイターだけで800人もの人が関わっています。髪の毛一本一本や、指の動き一つ一つなど本当に彫刻家に近い形で、職人技で膨大な手作業でやっています。さらにその作業したものを映像に起こす過程でコンピューターが必要なのですが、そのレンダリングのコンピューターが5万台必要です。」

吉田:「それくらい分散させて行ってとしても、作成に4ヶ月と200億円近いお金がかかります。それだと小規模スタジオや、個人で作成するのは非常に難しいです。ところがAIを使った弊社の技術を使うと、それが誰でも簡単に、しかも現実と区別がつかないようなリアルな映像をリアルタイムで誰でも簡単に作れる世界が実現できるようになります。」

吉田:「それができるようになるとテレビ番組の作成だと撮影の必要がなくなるとったところですね。監督さんが思い描いたような姿を、タレントを使ってあとから動かして、セリフも喋らせて、それが誰でも自由自在に作れるようになります。かつ、現実のタレントを編集できるようになるのでアニメのキャラクターのような扱いになるかもしれないです・逆にアニメのようなキャラクターに現実のタレントさんもなるかもしれません。その他にも美女のバーチャルキャラクターの活用や、死んだ人を映像で蘇らせることなどが非常に簡単にできるようになります。」

吉田:「今はフェイクニュースやフェイクビデオとしてこれらを面白おかしく取り上げることもありますが、技術が進んでいくと全てがフェイクになる可能性もあると思っています。全ての映像のフェイクになってくると、フェイクだとか、フェイクじゃないとか、そういうことが問題じゃなくなってくると思います。例えば、映像テレビ番組を作る時に、現実のハンサムな人よりもよりハンサムな人がバーチャルなキャラクターとして出演していて、かつ現実にいるタレントさんも隣にいて、一緒にトークをしている。そして、その現実いるタレントさんにしても実際にその場で喋っているわけではなくて、後からプロデューサーさんだとか、番組制作者の方が言わせたいセリフを言わせているというような形になってくると、本当に何がフェイクで何がフェイクじゃないとか一切関係なくなるような世界になってきます。」

吉田:「それが普通になると、人々の認識も全て変わってくるのではないでしょうか。全てがフェイクだし、フェイクっていう概念自体がなくなってくるということですね。」

吉田:「つまり、映像の革命とも言えるのですが、前回いつ起きたかというと、映画やテレビが出てきた20世紀はじめくらいで今回はそれ以来の革命であると思っています。20世紀のはじめといえばスペイン風邪が流行っていて、映像の第二の革命が起きている今も考えてみれば同じだと思っています。」

吉田:「他にも同じ点を挙げれば、映画とかテレビとかがでてきた時は、実際にいる人が画面に出てきてしまうようで当時の人はそれを怖がっていたそうです。それは今も同じで、どうしても先ほど話した技術も今までにないものなので面白いとか、面白おかしく取り上げられるのは今と同じであると思うのですが、それがもう一度同じように起ころうとしていると思います。」

吉田:「100年前は映画やテレビは現実のものをそのままコピーする感じですよね。そのままの動きをそのまま撮影してコピーしてくるって感じですが、今我々がやろうとしていることや、これから起こる映像革命は、コンテンツ自体をコピーするというか、もうちょっとディープというか深いものをコピーすることになります。」

吉田:「例えば、容姿そのものや動きそのものや、声、能力など、AIの話にはなってきますけども、文章書く能力もそうかもしれないですけども、そのような深い部分でコピーする、コピーするだけじゃなくって、1から全て作り出せるということもあります。例えばバーチャルキャラクターもその場で生み出すことができますし、火星に行きたければいつでも火星にいけるみたいな、想像のものが全て作れるように、コンテンツ自体が自由自在に作れるような世界観が実現するようになると思っています。」

吉田:「そのような第二の映像革命を我々が主導になって実現していきたいというのが弊社の目指すところでございます。」

関根:「なるほど!本日はありがとうございました!」

▼今回のゲスト、株式会社EmbodyMeさんの情報は下記をご確認ください。

株式会社EmbodyMe 概要

社名株式会社EmbodyMe
代表名吉田一星
住所東京都新宿区高田馬場3-23-3 ORビル M2F
URLhttps://embodyme.com/ja/

ピックアップ記事

関連記事一覧