「シンプルで深い画像解析」のお話

みなさんこんにちは。むらたてつろうです。
今回は、一般にも馴染みのあるものになりつつある画像解析の仕組みについてお話しします。

少し前ですが、iphoneXでフェイスIDが初登場して話題になりました。
登録した自分の顔が認証されてロック解除できる便利な機能だったはずですが、うまく機能せず困った経験のある人も多いようです。
他にも、画像解析技術はいろいろな分野で導入されています。
「防犯・セキュリティ」「文字認識」「SNSや個人売買アプリにおける不適切な画像の検出」「自動運転アシスト技術」「農作物の生育状況把握」「ドローンによる空撮撮影」「建築物の劣化の有無を画像認識で判断」…。
では、コンピューターはどのようにして画像を解析しているのでしょうか。

対象物を認証する工程

画像から顔等の対象物を認証するまでに、いくつか工程があります。
コンピューターは、人間のように画像からすぐに顔(対象物)かどうかを判断できません。
判断するために必要な情報を画像から取り出してデータとして扱う必要があります。
まず、画像のノイズや歪みなどの不要物を取り除きます。そして対象物を抽出しやすくするために、輪郭を強調したり、明るさや色合いを調整します。
画像データベースに対象物に関するデータを持っているコンピューターは、先ほど抽出した部分を照合し、顔や動物や植物といったものを導きだします。

膨大な情報から解析

書けば画像解析の流れはシンプルですが、画像に含まれる情報は膨大ですから、実際はとても複雑で難しい技術なのです。
同じ構図でも、光加減なども当然違うし全く同じ条件下での画像は存在しません。解析が困難な条件が揃ってしまう場合もあります。
コンピューターは、人間と全く違うアプローチから対象物を導き出すのです。
人間ならすぐにわかる写真でも、コンピューターが識別できない理由はそこにあります。

私たちには簡単にわかるのに、なぜコンピューターが認識しないのか。また間違いを起こすのかはお分かりいただけたでしょうか。
逆に言えば、画像認識が比較的容易になる条件で撮影ができれば、高パフォーマンスを維持してくれます。
コンピューターもまだまだ完璧ではないので、フォローの必要なパートナーとしてお付き合いができれば良さそうです。

ランガレウェブのサイト制作