音声も文字も「手話」に変換。文字“以外”のやりとりができるAI翻訳ソフト・Signapse

Browse By

海外を旅する道中、駅のホームで電車を待っていたら、突然アナウンスが流れてきた。現地の言葉は挨拶くらいしか覚えておらず、内容を理解することはできない。そんななか、周りの乗客たちが一斉に移動を始めたら?慌てた様子で改札を目指していたら?ものすごく不安な気持ちになるのではないだろうか。

周りが当たり前のように得ている情報を得ることができない状況はもどかしく、時には危険を伴うこともある。聴覚障害のある、特に情報収集を手話に頼っている人々も、そうした状況に置かれてしまいがちだ。

彼らにとって、音声のアナウンス、キャプションのついていない動画などはもちろん、時には文字で書かれているWEBサイトもアクセスしづらいものとなる。手話が第一言語である人にとって、大量のテキストや専門用語が並ぶページの理解は大変に感じられてしまうのだ。

こうした課題を解決するために作られたのが、AI手話翻訳ソフトの「Signapse」である。これは、テキストや動画、WEBサイトの情報を、AI技術を使って手話動画に翻訳するもの。従来の技術でよく見られる簡素化されたアバターとは違い、実際の人間が手話をしているような、自然でリアルな動画を生成するのが特徴だ。

Signapse

Image via Signapse

Signapseで使用しているのは、「敵対的生成ネットワーク(Generative Adversarial Networks:GAN)」と呼ばれるAI技術である。GANは、生成ネットワーク(Generator)と識別ネットワーク(Discriminator)の2つから成り立っている。Generatorは偽のデータを作り出し、Discriminatorはその偽のデータと本物のデータを比較して本物か偽物かを判定する。これらのネットワークが競いながら学習を深めていくのだ。

GANは、正解のデータを与えずとも自ら学習の精度を高めることができるため、実在しないデータの生成や、実在するデータの特徴に沿ったデータ変換を行うことが可能になる。つまり、高度な画像生成が可能になり、正確でよりリアルな手話動画を生成できるというわけだ。

イギリスのネットワークレールが管理する一部の駅では、実際にSignapseによる手話アナウンスを導入。目的地、出発時刻、プラットフォームの変更情報などを自動で更新し、駅のデジタルディスプレイでリアルタイムの手話動画が流れるようになっている。

また、状況の変化や予期せぬ混乱に備えて手話通訳チームも待機。必要な際には手話情報をカスタマイズし、1時間以内に動画をアップロードできるようにしているそうだ。

Signapse

Image via Signapse

Signapse

Image via Signapse

Signapseの共同創業者でCTOのBen Saunders氏にインタビューしたLinkedInの記事によると、彼らの今後の目標は、WEBサイトなどで英語の文章をGoogle翻訳のように手話へ自動翻訳できるようにすること。そして、手話通訳者のいない放送分野で自動翻訳を提供し、アクセシビリティを高めることだという。

私が博士号を取得した当初にとても興奮したのは、Netflixでクローズド・キャプション(Closed Caption:字幕)をオンにするだけでなく、クローズド・サイン(Closed Sign:手話翻訳)もオンにできる日が来るというアイデアでした。

インタビューのなかで、彼はそう語っていた。

音声とともに手話によるアナウンスが当たり前になり、WEBサイトや動画の端に「CC」と並んで「CS」のボタンが並ぶ日。異国の土地に一人取り残される不安を、誰も感じなくて良くなるその日が待ち遠しい。

【参照サイト】Signapse
【参照サイト】British Sign Language travel advice rolled out at major railway stations(Network Rail)

FacebookTwitter