DRI テレコムウォッチャー/「IT・社会進化論」

「IT・社会進化論」は、随時掲載!!


  動画検索に道を開いたネットワークカメラの画像解析  (IT アナリスト 新井 研氏)
2007年8月1日号

概説

 最近、テロ、強盗、盗難事件や交通事故などのテレビニュースで監視カメラの映像を目にすることが多い。また、これが決定的な証拠になり、事件の解決に大きな役割を果たすことがわかってきたことから、監視カメラが増殖し、動画像コンテンツも増加している。と同時にこれら膨大な映像の内容を瞬時に検索する技術も求められている。動画の内容に関する検索技術はまだ確立されたものはなく、人間の目に頼るケースがほとんどだが、監視カメラの画像解析技術で、検索のキーとなるメタデータを自動的に発生させるシステムが開発され今注目されている。このシステムは動画の内容検索技術にひとつのヒントを提示している。

■ 市民権を得た監視カメラ

 2002年2月、犯罪の多発に頭を悩ませた東京・新宿歌舞伎町で、50台の街頭監視カメラが設置された。当初反対論者からは、権力による監視、プライバシーの侵害といったお決まりの議論がなされたが、その効果が認識されるにつれ、反対論は沈静化し、監視カメラは社会にうまくそのポジションを確立して行った。その後も、悪質な交通違反や、殺人事件、強盗事件などで、監視カメラによる決定的瞬間がテレビで報じられたり、事件の解決に役立っている事実を見るにつけ、人々の理解は得られていったように思える。
 ロンドンでは町中にスマートカメラといったネットワークカメラが張り巡らされているが、先ごろの航空機テロの未然防止、あるいは2005年夏のロンドン同時テロの犯人逮捕に大きな威力を発揮したことから、ここでも社会に根を下ろしていった。
 このようなことを背景に、ネットワークカメラの全世界の市場規模は2007年で前年比60%増の約600億円、2008年には1,000億円規模を突破するという見方もされている。従来のアナログカメラは2005年をピークに下降曲線に入り、2007年にはネットワークカメラに逆転されるだろうとの業界見通しである。つまり、今年はネットワークカメラにとって記念すべき年と言える。

■ ネットワークカメラの威力

 さてそのネットワークカメラだが、最大のメリットは、Webサーバーでインターネットにつなぎさえすれば地球の裏側の映像でもリアルタイムに見ることができる。インターネットで富士山や海外の都市の街角の映像を流しているサイトがあるが、これを使っている。映像を見るのもPCでも携帯電話でもWebブラウザがあればOKである。
 ケーブルもシンプルである。イーサネット・ケーブルで音声も映像もPTZ(パン・チルト・ズーム)データも送れるし、最近ではパワーイーサーといって電力も供給でき、アナログカメラなら4本必要となるケーブルが1本で済むため低コストに収まる。カメラ自体も安くなってきたことから、個人でも十分に購入でき、公園で遊ぶ子供の監視や、自宅でベビーシッターの監視などへと用途が広がっている。
 ところでカナダにある画像処理のベンチャー・Aimetis社が、このネットワークカメラを使ったユニークな製品を開発し話題を集めている。同社の動画解析システム・AIRA2005(日本では札幌市に本社のある(株)システムケイが販売)というのがあるが、これのモーショントラッキング機能が面白い。その仕組みは、動画を1秒間に8フレームの静止画に落とし込み、対象物の、停止、動き出し、通過といった動作を、フレーム上の差分から解析して、対象を認識し自動追尾する。さらに画面上で特定のエリアを設定すれば、ここを対象物が越えたかどうかを認識し、その動作の発生を知らせたり、動いた対象物の数をカウントできる。たとえば、銀行のロビー全体を映し出し、融資の窓口に来たお客さんだけをカウントしたり、立ち入り禁止の区域に人が侵入したらすぐに知らせてくれることも可能である。
 たとえば駅の特定の場所を映し出し、何か怪しいものが置かれていったりしないかなどの監視にも使え、もし、不審な物が置かれていったら、瞬時に警告を鳴らすような設定もできる。街角に爆弾が置かれたり、あるいは逆に車が盗難されたりしたら、即座に画像解析され警告流してくれるような仕組みを作ることができるわけだ。このような仕組みは、監視以外にも交通量調査、来場者数カウントなどのマーケティングなどにも使えることから、利用用途は飛躍的に広がることになる。

■ 動画検索への道

 一番重要なポイントは、実は、動画の内容を検索できる道筋を与えたことである。すべての画像情報はデジタルデータで記録されるため、検索性が高まる。画像解析で何らかの動き(イベントの発生)があった時間を記録、すなわちメタデータを自動的に発生させているため、そこだけを検索して瞬時に表示できる。従来のアナログ系の防犯カメラでは、複数の人が手分けして早送りしながら、イベント発生を人間の目で探すので、コストのかかる人海戦術に頼るのが実情であった。たとえば、あるゲートを不審者が24時間に100人通過したとすれば、アナログカメラでは早送りしながら、顔を確認するが、ネットワークカメラでは、瞬時に100枚の静止画を次々と表示し、顔を確認できるようになる。
 実は動画の内容を検索する技術はまだ確立されておらず、まだ、人間が手動でつけるメタデータ、つまりキーワードを表記したタグになるが、これに頼らざるを得ないのが実情である。たとえば、YouTubeの動画にはいくつかのタグがついているが、どのようなタグをつけるかは投稿者の判断による。犬と猫が頻繁に登場する動画でも、彼が猫にしか関心がなかったら、犬といったタグはつけないかもしれない。犬で検索してもこの動画は引っかかってこないことになる。しかし、AIRA2005では少なくともイベントが発生したというメタデータが自動的に付けられることになり、画像の内容検索に一歩踏み出したとい言える。今後、YouTubeはもとより、ワンセグ放送、地デジなども含め、私たちは大量の動画コンテンツに囲まれて生活して行くようになる。そういったときに、動画の内容を瞬時に検索できるようにしておくことは極めて重要なことである。このシステムは基本的には物体の動きに関してメタデータを自動生成するだけだが、とりもなおさず、メタデータの自動生成に一歩踏み出したという意味で意義深いものと言える。



「IT・社会進化論」 のバックナンバーはこちらです

COPYRIGHT(C) 2002 DATA RESOURCES, Inc. ALL RIGHTS RESERVED.