
スピンオフブログ企画
――DX時代のAIを支えるアノテーション。そのアナログな現場のリアル
アノテーションの費用とは?
その費用、実は高いかも?その裏側を知るベンダーが語る、アノテーション外注のホントのコツ
これまで弊社ではアノテーションやAIに関する様々なブログを発信してきました。そこでは一般的な知識やノウハウを中心にお伝えしてきました。アノテーション作業はその内容を言葉にしてみれば一見簡単なように思えますが、「曖昧性」を多く含んだ「人で行うことが避けられない作業」のため、どうしても人と人の関わりが多くなります。そのため、ある意味泥臭く、巷に溢れるきれいな理屈では済まないことが多く起こり、品質や生産性を確保するためには、実は様々な経験とノウハウが必要になります。
そのため、実際のアノテーションの現場で起こる問題やその対応を具体的に知ることが、アノテーションを成功に導くヒントとして役立つことがあると考えています。
弊社の現場では、実際にどんなことが起こって、具体的にどういった対応や対策をしているか。通常のブログやコラムとは異なり、スピンオフブログ企画と題して、弊社ならではの特徴やこだわりなども含め、リアルな現場の実態をお伝えしたいと思います。
アノテーションを外注ベンダーに依頼する際、「品質」「納期」「費用」が想定に収まるかどうかを考慮することは当然のことでしょう。とは言え、アノテーションは案件の内容によって工数が大きく異なり、納期・費用もさまざまで、果たしてそれが適正かどうかの判断が難しいという現実もあります。そこで今回は「費用」を取り上げ、外注ベンダーがアノテーションの費用をどのように算出しているかについて工数の面にフォーカスして解説するとともに、お客様がご依頼時に適正な価格で外注化するために考慮すべきポイントについてもご説明いたします。
参考ブログ
アノテーションに費用相場は存在しない?教師データ作成の価格構成要素と外注先選定のポイント。
1. アノテーション費用を決める大きな要因「工数」
アノテーション費用は「アノテーション作業」と「QAチェック作業」に加え、作業を行う人材や進捗等を管理する「マネジメント管理費」、そして「利益」から成ります。アノテーションは労働集約的な業態であるため、大抵の場合、費用は一般的に工数によって算出されます。当たり前ですが、作業数量が同じであれば常に費用が一定かというと、そうではありません。アノテーションの仕様やドメイン、品質レベル、作業難度によっても作業工数は変わってきます。例えば、難易度が上がれば品質管理や作業者に対する教育などのマネジメント工数も増加します。
2. アノテーション工数の出し方
ベンダーは工数を算出する際に、仕様書やサンプルデータなど、お客様から提供いただく情報に基づいて、特に弊社では実際に工数を計測して費用を算出します。ただ、ご依頼時にこれらの作業の詳細情報が少ない場合もあります。例えば、メールベースで完結する見積のご依頼や、まだ仕様を詰めきれていない状態でのご依頼などの場合です。こうした際には情報がどうしても限られてしまうことがあるため、ベンダーは過去の類似案件や実績・経験をもとに推定することになりますが、その際、ベンダーは一般的にリスクヘッジをする傾向があります。
例えば「工数は多分このぐらいになるのだけれど、ふたを開けてみると、もう少し複雑な仕様や作業になりそうだ」「セグメンテーションの塗り分けも、対象によっては、かなり精度を高く詳細に行わないといけない可能性もある」「品質の要求がかなり高い場合も考えられる」といった、工数が増加する要因やリスクを想定するため見積金額も上振れします。
ところが、実際に作業してみたらそこまで工数がかからず、お客様にとっては「本当はもうちょっと費用が抑えられるはずだった」ということが、お客様の預かり知らない外注ベンダーの内部で起こっている場合があります。これではアノテーション作業が適正な価格ではなかった=お客様が「損」をしたことになってしまいます。
適正な価格で外注をするためには、見積時の「工数」算出の時点で実際の作業工数と想定工数が乖離しないように、ベンダーに出来るだけ情報を渡すことが大切です。では、工数が乖離しないためにはどうすれば良いのでしょう。
3. 工数が乖離する要因と対策
オブジェクト数が想定と異なる
画像アノテーションで特にみられるのが「アノテーション対象のオブジェクトの想定数が、お客様で想定した数と異なる」というパターンです。一部のデータを確認して「一画像あたり10個のオブジェクトぐらい」の所感でベンダーに情報を伝えたとします。当然ベンダーもこうした情報を元に工数算定しますから、見積金額の前提は「オブジェクト数10個」の金額になっているはずです。
ところがふたを開けて実際の作業を行う段階になってみれば、実は平均3個のオブジェクト数だった、ということであれば、アノテーション工数は単純計算で1/3程度になります。1/3とは言わないまでも、当初の見積より実際の作業は安く抑えられたはずなので、見積は適正な価格ではなかった、ということになります。実際のデータを出来るだけ多く、サンプルとしてベンダーに渡すことで、こうした想定オブジェクト数と実際の数の乖離を事前に防ぐことが大切です。
アノテーションは膨大なデータに対して作業を行いますから、お客様がすべてのデータに目を通すことは不可能であることは承知しております。とはいえ、上述のように実際に作業するデータの状況が想定通りとは限りません。ざっとでも構いませんのでデータ全体を確認することができれば安心です。
適正な価格で発注する方法として、アノテーションの対象となるオブジェクトの単価で依頼する方法もあります。オブジェクト単価の利点は1ファイルや1データあたりのオブジェクト出現数にばらつきがあって全体のオブジェクト数を把握するのが難しいという場合でも、下記の方法によって適正な価格を維持しやすいというところです。
・作業オブジェクト数をあらかじめ決める
1オブジェクトあたりのアノテーション工数を算出して、お客様のご予算に納められる作業オブジェクト数をあらかじめ決めた見積を出す形になります。こうすることによって、1ファイルあたりのオブジェクト数にばらつきがあるデータであっても、適正な価格で外注することができます。
・最終的に作業したオブジェクト数で精算する
オブジェクト単価を決めて、概算見積でおおよその費用感を掴んでいただいた上で、最終的に作業したオブジェクト数で精算する方法です。対象のファイルすべて作業を行いたい、お客様の予算に比較的余裕がある場合等に限られます。この方法を採用する際は、想定外の作業数になることもあるので、ベンダーとの作業進捗状況等の共有が重要になります。
弊社ではこのどちらの方法にも柔軟にご対応いたします。
仕様・品質要件が詰めきれていない
アノテーションの仕様・要件が見積依頼の段階では詰めきれていない場合もあるでしょう。こういったケースでも、やはり工数算定に影響が出ます。例えば、「今後、仕様詳細を詰めるために質疑応答にかける時間が増えるかもしれない」「仕様書を補完する参考資料などを作成する必要がありそうだ」といった、品質マネジメントの負荷を想定してそれをカバーするために、ベンダーはリスクヘッジをして工数を多めに費用算定をしてしまいます。
こうならないためには、できる限り仕様・要件を詰めることができれば良いのですが、悩ましい場合もあるでしょう。弊社でも商談時に「まだ少し要件で詰めきっていないところもあり、御社とそのあたりを相談したい」といったご相談を受けることもあります。
メールベースで見積から発注まで進むお客様もいらっしゃいますが、ここはぜひ打ち合わせを通して、悩んでいることや疑問点をクリアにしていただければと思います。アノテーションベンダーであれば作業プロセスの最適化など、コストを削減するアイデアや、要件を固める上での困りごとなどについて、プロフェッショナルならではの提案を得られることも多いです。打ち合わせを通して、最初の見積よりも適正な価格や、お客様のご予算にも近づけることができるでしょう。その上で改めて正式見積を依頼することが賢明です。
専門知識を必要としないことがうまく伝わらない
もし案件に関するドメインがベンダーにとって未経験もしくは経験や知識が浅い領域ですと、その案件に必要な知識習得や教育に時間がかかることを想定して、アノテーション工数に加えて、PM自身も含め、作業者トレーニング、教育などの工数についても上積みする傾向になります。一方、お客様は外に作業を切り出す際には、当然ドメインが特殊であることを考慮して、それほど専門知識がなくともできるアノテーションをご依頼されると思います。とはいえ、そういったドメイン知識が「不要」または「知識習得が容易」であることがベンダーにうまく伝わらない場合があります。
こうした場合、ベンダーはやはり、「お客様は専門家だから必要なドメイン知識が備わっており、特別な知識は必要ないと伺っているけれど、我々素人から見れば、やはりそれなりの専門知識を取得するための教育を必要とする」と捉ることもあります。そのため、どうしてもリスクヘッジをした見積工数・費用を算出する傾向になってしまいます。
依頼する内容が特殊なドメインである場合には、依頼する内容がそのドメインの知識を必要としない、もしくは習得が容易である場合には、知識を習得する資料の提供や、知識習得にかかる時間の目安を可能な限りベンダーに伝えることが適正な価格での発注につながります。また外注先として検討しているベンダーがそのドメインに対して実績がどの程度あるかをホームページで確認したり、問い合わせしたりして、適切な依頼先かどうか見極めることも、こういったプロセスを少なく抑えるためには大切な要素となります。
4. まとめ
ここまで、見積を依頼する際に、適正な価格に近づけるために、工数面にフォーカスして、乖離が起きないようにいかに情報をベンダーに伝えるべきかを述べてきました。もちろん価格や費用は工数のみで決まるわけではなく、オフショアや国内作業者等の人件費単価や、セキュリティ要件に応じた作業場所、ベンダーの価格戦略などにも左右されますが、やはり工数は、価格・費用を決定するための大きな要素になります。ベンダーに依頼するためには、「作業時間は概ね〇〇分かな」「これぐらいは当然わかっているんじゃないか」「品質については参考資料だけ見てもらえれば十分だろう」といったことでも、今一度時間の許す限り自社の作業プロセス全体を見直す、仕様書・品質要件を明確に言語化する、などをした上で必要な情報をベンダーに伝えることが大切です。そうすることで、「見積金額より本当は安くできるはずだった」という、適正価格=お客様にとっての 「損」を避けることができるでしょう。
とはいえ、アノテーション作業を専門としていないお客様が、自社のアノテーション作業を客観的な視点で確認するのはなかなか難しいことでもあり、むしろそれは、アノテーションベンダーの仕事の領域であるとも言えます。そのため弊社では商談時に、お客様のご要望を言語化するために、経験豊富なPMを交えて作業仕様やデータの特徴についてヒアリングを行っております。そして、お客様に適正な価格に近づけてご満足いただけるよう、見積から作業、そして納品まで伴走いたします。
5. 【番外編】 案件が集中する年度末を避ける
本編では、工数という面にフォーカスして、適正な価格でアノテーションを外注する方法を解説してまいりました。他方で、工数とは直接関係しませんが、依頼時期という点で「お得」な情報があるので、お知らせいたします。
あまり知られていないかも知れませんが、一般的にAI開発とそれに関わるアノテーションはどうしても年度末に集中する傾向があり、例年4月~10月くらいまでは比較的仕事が少ない時期になります。 アノテーションベンダーはその時期の人件費等の固定費の回収を図るべく、ある程度利益を抑えてでも仕事や案件を確保する必要があり、お得なキャンペーン等を実施しているところも多いです。それらを利用してみることで、思いのほかお得にアノテーションデータを入手できることもありますので、この時期はおすすめです。
弊社でも過去にキャンペーンを実施してご好評いただいております。お問い合わせいただければ、次の機会にご案内差し上げますので、その際には是非ご利用ください。
執筆者:
北田 学(きただ まなぶ)
アノテーショングループ プロジェクトマネジャー
弊社アノテーショングループ設立当初より、自然言語処理中心に、大規模案件のチームビルディングやプロジェクトマネジメント、PoC案件のアノテーション仕様策定、スケール化へ向けたコンサルティングまで幅広く担当。
現在は画像動画系、自然言語系アノテーションのプロジェクトマネジャーと並行して、アノテーションセミナー講師、ブログ等のプロモーション活動に従事。