機械学習における高効率なアノテーションデータ収集方法|株式会社APTO

取材動画
※本記事はBiz9(現NayutaTV)で制作した取材動画をNayutaTVに移行したものです。

様々なビジネスを動画で紹介する Biz9。

今回のテーマは「機械学習における高効率なアノテーションデータ収集方法」です!アノテーションデータを収集するプラットフォーム「harBest」を運営する株式会社APTOさんにお話を伺います。

アノテーションデータの重要性

渡辺:「本日は株式会社APTOの高品さんと、藤井さんにお話を伺います。

さっそくですが、機械学習に必要なアノテーションデータの収集とのことですが『アノテーションデータ』とは何なのでしょうか?」

高品:「アノテーションデータとは、機械学習の教師あり学習に必要なデータをアノテーションデータと言います。

例えば、猫を検知するAIを開発したい場合、画像の中に猫がどこにいるのか、人間が塗りつぶしや四角で囲み、アノテーション(情報を付与)します。教師あり学習における機械学習については、データがたくさん必要になります。

そうした機会学習のためには数万枚、数十万枚というデータが必要になるため、一般ユーザーに作ってもらうのが弊社のサービスです」

渡辺:「とにかく、たくさんのデータが必要になるのですね」

高品:「アルゴリズムによっても違いますが、あればあるほど良いということは確かですね」

データ収集の課題とは?

渡辺:「データ取集において、課題はありますか?」

高品:「弊社もサービスを始めた当初は、別のAIサービスを開発しようとしていましたが、その時にやはりAIの精度が上がらないという課題があり、データの数が足りていなかったのです。

教師あり学習においては、品質の高いデータが多数必要なのですが、企業様にとってもそうしたデータが足りていないというのが現状かな、と思っています」

渡辺:「他にはどのような課題がありますか?」

高品:「始めるまでが大変ですね。

例えば、調査会社と要件をすり合わせるとき、たくさんお話をしたうえで契約を結びますが、コミュニケーションが大変です。

2つ目は価格面に関して、弊社も当初そうでしたが、外注するにしても多額のコストがかかります。

弊社はアノテーションの価格破壊を起こそうとしていますので、できるだけコストを削減していこうと思っています。

3つ目が納品されたが、そのデータが使えなかった、データを持っていなかったということが企業さんとのお話でありました」

分類作業は単純に行うことができない場合もある

渡辺:「高度なAIを育てる、開発していく以前にデータがそろっていないということはありそうですね」

藤井:「事例としては、ニュースサイトを個人ごとにレコメンドするというサービスを運営する会社様からご依頼があり、実際にニュース記事がどういう地域性があるのか、といったところを分類いたしました。

データとしては、分類を選択するという簡単なところですが、そういった分類をやるかどうかというところも弊社はご提案しています」

渡辺:「確かに、スポーツ選手が出ている記事でも、実はスポーツではなく芸能関係であったなど、単純に分類できないものもありますね」

属人的作業になりがちなアノテーション

藤井:「失敗しやすいものとしては、実際のアノテーションのやり方はデータサイエンティストという人材が管理者となり、収集やアノテーションをするのですが、その方の力量がプロジェクトの成功・失敗を左右することもあります」

藤井:「できるだけ人の能力に依存しないよう、システム上データの品質担保をしているのが弊社製品の特長です」

渡辺:「データサイエンティストの力量で変わってしまうクオリティを、1つにまとめてくれるのですね」

「harBest」はなぜ高品質のデータが取れるのか?

渡辺:「アノテーションデータを収集するためのサービスについて、どういう仕組みか教えてください」

高品:「主に2つの目線があり、まずはユーザー目線でいうと、アプリを開くと『文章』『音声』『画像』『動画』と分かれています。

そこで例えば『画像』を選んでいただくと、猫を塗りつぶしすることでポイントがもらえる、音声を録音してテキスト化するとポイントがもらえるといった、簡単な作業でポイントがもらえるという『新しいポイ活アプリ』です」

高品:「企業目線でいうと、今までは社内や高い外注費を払ってやっていた作業を一般ユーザーに作業していただくので、低価格で高品質なデータを収集できるアノテーションのプラットフォームです」

渡辺:「確かに、ポイントがもらえるとなると積極的に参加したいですね。たくさんデータが集まるイメージもありますね」

高品:「実際、こうしたデータを収集する際は、いろんな属性の人に作業してもらうべきで、社内の人間だけではない、海外のオフショア開発だけではない、いろいろな人が作業することに意義があると思います」

渡辺:「とても便利ですが、こちら結構適当に作業して送ってもポイントがもらえるので、正確ではないデータが集まったりしそうですね」

高品:「正にそれはあると思っており、弊社では3人以上の奇数人数で作業してもらい、データ評価は多数決です。

3人中3人ともきちんと作業をしてもらっていれば、高い品質のデータであり、3人中2人が行ったデータであれば2人が行ったデータが正しく、残り1人の行ったデータは異常なデータだと判別できるよう、裏側ではじけるような仕組みになっております」

高品:「さらに、異常データを出した方のレーティングが下がり、ポイントも落ちます。適当な作業を行う方には、ほぼポイントがもらえないように設計しています」

渡辺:「なるほど、なのでデータの品質が保てるのですね!」

これから需要の高まるアノテーション市場

渡辺:「データ分析やAI開発を支えるアノテーションデータの収集はこれからも需要が増えていきそうですね」

高品:「今、まさに様々なお客様から発注をいただいており、どこの企業様もPOCを回している段階でこれから実装段階ということもあり、品質の高い多くのデータを皆さん欲しているので、ぜひ弊社のサービスで低価格・高品質データを扱っていただけると嬉しいですね。

2027年までにはアノテーションの世界市場は6000億円ほどになると思われますので、各社取り組み始める中で弊社サービスをご利用いただけると嬉しいです」

渡辺:「他にはどのような機能がありますか?」

藤井:「harBest には、お客様の要件によって作業をする画面も柔軟にカスタムできる機能があります。

現状だと様々なテンプレートをご用意しており、将来的にはお客様でカスタマイズして、ご自身がほしいデータをアノテーションできるよう、機能をそろえていこうと思っております。そこで効率化を図っていただき、企業様にも継続的に使っていただきたいですね」

渡辺:「価格なども将来的には変わるのでしょうか?」

藤井:「価格としては、現状ツールの価格は同一ですが、企業様にとってご利用いただく際に、内部の人件費など、毎回作り直す手間などがないので、新しいコストの発生が抑制できるのではないかと考えております」

▼今回のゲスト、株式会社APTOの情報は下記をご確認ください。

株式会社APTO 概要

社名株式会社APTO
代表名代表取締役 CEO 高品良
代表取締役 COO 藤井翔吾
取締役   CDO 遠藤俊策
住所〒150-0041
東京都渋谷区神南1-5-14 三船ビル4F 403号室
URLhttps://apto.co.jp/

ピックアップ記事

関連記事一覧