画像認識とは？ 画像認識の仕組みとAIにおける活用事例

近年、様々な分野でAI画像認識技術が活躍しています。画像認識技術そのものは、古くから研究、実用化されてきた分野でありますが、近年、ディープラーニングを用いたAI技術の発展が目覚ましく、身近なところにも、その技術を使用した製品やサービスが急速に拡がりを見せています。筆者の私自身、「これもAI画像認識技術を用いたものなのか！」という驚きとともに、そういった場面によく遭遇します。今回は画像認識とは何か？その仕組み、どのように活用されているか？事例を用いながらご説明したいと思います。

目次

1.画像認識とは？　画像認識の仕組み
1-1.画像認識は何か
1-2.画像認識の仕組み（機械学習、ディープラーニングの登場）
2.画像認識の種類
2-1.画像分類
2-2.物体検出
2-3.セグメンテーション（領域検出）
2-4.文字認識
3.画像認識の活用事例
4.まとめ～弊社が関わった画像認識AI～
5.ヒューマンサイエンスのアノテーション、LLM RAGデータ構造化代行サービス
5-1.最新のアノテーションツールを活用
5-2.教師データ作成数4,800万件の実績
5-3.クラウドソーシングを利用しないリソース管理
5-4.自社内にセキュリティルームを完備

1.画像認識とは？　画像認識の仕組み

1-1.画像認識とは何か

画像認識とは、端的に言えば、画像に映る人やモノを認識する技術です。画像認識はパターン認識の一種で、冒頭で述べたように近年は深層学習（ディープラーニング）という技術によって、様々な分野での応用が進んでいます。

画像認識の歴史は相当古く、40～50年も前から研究が進んでおり、古くからの身近なものとしては、バーコード認識が画像認識の最初であると言われています。

画像の中の対象を認識し、それが何であるかを判別することにおいて、人間の場合であれば経験を元に（例えば犬と猫の違いなど）対象物の数々の特徴を捉え、無意識に識別していますが、コンピューターの場合はそうはいきません。コンピューターの場合、画像をピクセルの集合体、またはピクセル単位でしか認識できません。そのために、これまで様々な研究や取組みが行われてきました。テンプレートマッチングはその一例で、認識、検出対象の画像をテンプレートとして、対象となる画像の類似性を比較することで、対象となる物体が画像内の「どこに映っているのか」「いくつ映っているのか」といった情報を抽出することが可能となりました。

ただこの方法でも、画像の撮影条件など、テンプレートの画像との差異が激しいと認識率が下がってしまうなど、様々な条件をシビアに管理しないと実用化するのが難しい技術でした。

1-2. 画像認識の仕組み（機械学習、ディープラーニングの登場）

画像認識は実用化するのが難しい技術でしたが、機械学習、ディープラーニングの登場で状況は一変します。機械学習も古くからある技術でしたが、コンピューターの処理速度向上などの技術革新もあり、現実的に実用可能技術として身近なものになりました。

（ディープラーニングの仕組みについては、ここでは詳しい説明は省略させていただきますが、詳しくは、弊社の以下ブログをご覧ください。）

https://www.science.co.jp/annotation_blog/30343/

ディープラーニングは、皆さんもご存じの通り、人間のニューロンと呼ばれる神経ネットワークを模したニューラルネットワークを用いるアルゴリズムで、今ではAIを支えている代表的な技術として語られることも多くなっています。これは、パターン認識に分類されるもので、教師データと呼ばれる、人が分類、タグ付けしたデータ（例えば、犬、猫の画像にそれぞれ犬、猫とラベリングされたデータ）をディープラーニングで学習させることによって、AIは犬猫の特徴を読み取り、画像の犬猫を識別できるようになるのです。

人間が経験を積めば積むほど、紛らわしいものも識別できるようになるように、一般的に教師データが多ければ多いほどAIの精度も向上します。言い換えれば、データが多ければ、人間がより多くの経験を積んだことと同じ効果が得られることになります。

ここでネックとなるのが、大量の教師データを準備することです。大量の教師データを準備するには当然、大量のラベリングが必要となります。（このラベリング作業をアノテーションと呼びます）最近では自動化もかなり進んできているとはいえ、そもそも、コンピューターがルールに則って、機械的に識別できない曖昧性のあるものを識別するために教師データを作るわけですから、まだまだ大部分が人の手に頼らざるを得ません。そのため、どうしても人海戦術にならざるを得ず、それなりにコストもかかるのが現状です。

言うまでもなく、教師データの品質＝アノテーションの品質でAIの識別精度にも大きく影響します。またニューラルネットワークが人間の脳を模した構造であることから、人間が間違えやすいところは、同じようにAIも間違いやすいことになります。ただ人間が認識する際には、人間が置かれている状況や体調、感情によって判断が鈍り、識別精度に大きく影響することがありますが、AIにはそのようなことはありません。また識別のスピードは人間のそれとは比較するまでもなく、瞬時に識別、処理ができます。そのため、曖昧性があったり、規則性が見いだせず、これまでは機械での識別が困難であった単純な作業などは、AI導入の自動化による大きな効果が見込めることから、近年、製品、サービスへの応用が加速度的に進んでいます。

2.画像認識の種類

これまで画像認識と、その仕組みについて述べてきましたが、ここからは、画像認識の種類として代表的な、画像分類、物体検出、セグメンテーション、文字認識をご紹介します。

2-1. 画像分類

画像分類とは、画像の中の物体を分類する技術です。あらかじめ定義した物体について、画像内にそれらの物体があるかどうかを認識します。例えば、犬と猫を認識したい物体として定義し、画像に写っている物体が犬または猫のいずれにあたるかを分類するタスクが画像分類です。後述する物体検出とは異なり、物体の位置は検出しません。

応用例1. シーン認識
シーン認識では、画像内の特定の物体を認識するのではなく、画像全体の特徴を認識します。先に触れた画像分類が「森の画像に特定の木があるかどうか」を認識するタスクだとすれば、シーン認識は「画像が森かどうか」を認識するタスクとなります。

応用例2. 異常検知
製造業や建築業などで、物体の異常を目視で検出する作業に変わる方法として、画像から異常を検出する方法があります。異常は出現頻度がまれなことが多いため、通常画像を大量に読み込ませ、正常値を学習した上で、そこから外れた値（異常値）をもつ画像を検出します。

応用例3. 顔認識
顔認識とは、言葉からも容易に想像できるように、人間の顔画像から目立つ特徴を抽出し、認識する技術です。顔の識別を行ったり、顔のグループ化を行ったりすることができます。この技術を使用することで、顔認証でのセキュリティ管理や、交通機関や来店顧客の年齢層まで識別することも現在では可能となっています。

2-2. 物体検出

物体検出とは、画像内の特定の物体の位置を検出するための技術で、物体認識と混同されがちですが、厳密には異なります。物体認識は、対象の物体と同一の物体が画像内に存在するかどうかを検証する技術で、特に位置の検出は行いません。これらのAI画像認識技術が製品、サービスに使用される場合は、一般的に併用されることが多くなっています。

物体検出、物体認識技術は、驚くほど幅広い分野に使用されていますが、代用的な例では、自動運転での、標識や歩行者、前方車両の識別などに使用されています。

応用例：画像キャプション生成
画像キャプション生成は、画像内の状況にキャプションをつける技術です。先に画像分類の項で触れたシーン認識に似ている面もありますが、画像に写っている個別の物体を検出し、その位置も認識する必要があるので、物体検出の技術も必要です。さらに、物体の位置関係や状況をまとめて自然な言葉で出力する必要があり、そのために自然言語処理の技術も使われます。目の不自由な方の空間把握補助への活用が期待されます。

2-3. セグメンテーション（領域検出）

物体検出においては、画像内の物体の位置を検出することができますが、その形状・輪郭までは識別できません。セグメンテーションにおいては、特定の物体の輪郭を検出する学習が行われるため、形状把握など、より高精度な物体検出を必要とする医療業界などで活用が期待できます。

セグメンテーションとは。AIセグメンテーションを活用してできることとは？

2-4. 文字認識（OCR）

文字認識（OCR）は、紙や画像中に書かれている文字、記号を識別する技術です。文字や記号には、ある程度の規則性があることから、古くから実用化されてきた技術ですが、最近では手書き文字の認識精度も上がりました。機械翻訳技術と組み合わせ、スマホカメラで読み取った飲食店メニューの翻訳まで行えるアプリや、レシートをスマホカメラで読み取って自動的に家計簿につけるなど、この技術を使用した製品、サービスはビジネスシーンのみでなく、身近なところにまで浸透しています。

AI OCRとは〜従来OCRとの違いと活用事例3選〜

3.画像認識の活用事例

工事写真管理業務の効率化

建設工事においては、施工状態や工事進捗などの把握のために膨大な量の工事写真を撮影するとともに、書類や図面にこれらの画像を添付するなど、画像・図面を用いたさまざまな管理業務が発生します。2024年問題に対応するため、建設DXによる業務効率化と生産性向上が急務となっているなかで、これらの工事写真の撮影・管理業務にAIの画像認識技術を用いることで業務の効率化が期待できます。

工事写真の撮影／管理を効率化するアプリをアドバンスト・メディアが開発

資源ごみの選別

産業廃棄物の資源ごみは、ペットボトルやスチール缶、アルミ缶、びんなどさまざまな種類の資源ごみの選別を正確に行わなければなりません。従来は人手によってこれらを行なっていましたが、重労働かつ内容が複雑ということもあり、自動化は喫緊の課題です。ペットボトルやスチール缶、アルミ缶の分別は自動化が進んでいますが、びんについては、色ごとに選別する必要があり自動化が進んでいませんでした。AIの画像認識技術により色識別が可能になったことで、人手不足にも対応できるようになります。

過酷な資源ごみのビン色選別を自動化、PFUがイメージスキャナー技術から新規事業

鉄道のワンマン運転路線拡大

鉄道各社においても、省人化と業務効率化を進める中で、ワンマン運転を実施することが求められています。JR東海では、これまでのところ最大２両編成でのワンマン運転が一部の路線で採用されていました。画像認識AIを組み込んだ安全確認装置を導入ですることで、４両編成で運行している路線でもワンマン運転での安全性が確認でき、ワンマン運転の路線拡大が可能になりました。

JR東海、25年度からワンマン運転拡大　AI画像認識を活用

4.まとめ～弊社が関わった画像認識AI～

今回は画像認識の仕組みと、画像認識の種類について主に述べてきました。これらの画像認識のAI技術は現在でも多種多様な分野に使用され、今後、使用される分野は更に広がり、人々の暮らしに更に根付いたものとなっていくでしょう。それを証明するかのように、弊社がアノテーションサービスの依頼をいただく企業様のAI開発も本当に多種多様です。

ほんの一例ではありますが、ヒューマンサイエンスがアノテーションサービスを提供したAI画像認識技術を以下にご紹介します。

＜事例＞

https://www.science.co.jp/annotation/experience/index.html

＜業界別事例＞

● 医療業界：手術支援、診断支援（物体検出）

　 https://www.science.co.jp/annotation/industry/medical.html

● 自動車業界：自動運転プロジェクト2D/3D（物体検出）

　 https://www.science.co.jp/annotation/industry/automobile.html

● IT業界：請求書の自動認識（文字認識）

　 https://www.science.co.jp/annotation/industry/it.html

画像認識のみならず、AI機械学習には大量の教師データが必要になること、そのためにアノテーションには、それなりのコストがかかることは前段で述べてきましたが、アノテーションのコストを抑えたい場合、アノテーション作業の代行・委託を検討することも有効な手段の一つです。当社ではアノテーションのご相談からアノテーション仕様策定支援、仕様書作成、アノテーションツールのご提案まで幅広く対応しておりますので、ぜひお気軽にお声がけください。

5.ヒューマンサイエンスのアノテーション、LLM RAGデータ構造化代行サービス

5-1. ヒューマンサイエンスのアノテーション、LLM RAGデータ構造化代行サービス

ヒューマンサイエンスでは自然言語処理に始まり、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAIモデル開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテーター150名体制の長期大型案件まで、業種を問わず様々なアノテーションやデータラベリング、データの構造化に対応しています。

5-2. クラウドソーシングを利用しないリソース管理

ヒューマンサイエンスではクラウドソーシングは利用せず、当社が直接契約した作業担当者でプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。

5-3. アノテーションのみならず生成系AI LLMデータセット作成・構造化にも対応

データ整理ためのラベリングや識別系AIのアノテーションのみでなく、生成系AI・LLM RAG構築のためのドキュメントデータの構造化にも対応します。創業当初から主な事業・サービスとしてマニュアル制作を行い、様々なドキュメントの構造を熟知している当社ならではのノウハウを活かした最適なソリューションを提供いたします。

5-4. 自社内にセキュリティルームを完備

ヒューマンサイエンスでは、新宿オフィス内にISMSの基準をクリアしたセキュリティルームを完備しています。そのため、守秘性の高いデータを扱うプロジェクトであってもセキュリティを担保することが可能です。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。リモートのプロジェクトであっても、ハード面の対策のみならず、作業担当者にはセキュリティ教育を継続して実施するなど、当社の情報セキュリティ管理体制はお客様より高いご評価をいただいております。