「もう少し背景が明るければいい写真になるのに。」「この影さえ映っていなければ、もっと綺麗に見えるのに。」そんな私たちの悩みを解消してくれるツールと言えば、米Adobe社が提供しているPhotoshop(フォトショップ)だ。
既にデザインやメディア、インターネット業界では当たり前のように利用されているこの画像編集ツールは、今や多くのクリエイターや個人にとって欠かせない存在となっている。
しかし、そのAdobeが11月4日、米サンディエゴで開催したAdobe MAX 2016の中で、全く新しい技術を紹介した。それが「音声版のフォトショップ」だ。音声のフォトショップと言われてもなかなかピンと来ないかもしれないので、まずは下記の動画を見て頂きたい。
「Voco」と名付けられたこの新しいプロジェクトは、仕事で音声を扱っている人々にとっては画期的なツールとなりそうだ。開発者のZeyu Jin氏が披露したデモ画面では、録音したスピーチ音声をそのまま音声認識技術を用いてテキスト化するだけではなく、そのテキストの単語の順番を入れ替えたり、新たに付け加えたりなど自由に編集し、スピーチを作り上げることができるようになっている。
さらに驚くべき点は、録音時には含まれていなかった単語の音声についても、新た単語をテキストで追加するだけでまるで本人が本当にそう話したかのような音声として再生することができるという点だ。
撮影した写真を編集・加工して綺麗にするツールがフォトショップだとすれば、このVocoは録音した音声を編集・加工して綺麗にするツールだと言える。まさに音声版のフォトショップなのだ。
これまでにもテキストを自動で音声に変換してくれるソフトや、録音した音声を編集するソフトなどは存在していたが、Vocoのように、まるで本人が最初から本当にそう話していたかのように肉声を自由に編集・創作することができるソフトは新しい。
Vocoを活用すれば従来の幾度にもわたる再録音の手間が大幅に軽減されることはもちろんだが、それ以外にも実際の人間の肉声を使って自由にセリフを創出できるようになり、音に携わる分野の人々にとってはあらゆる可能性が広がりそうだ。
【参照サイト】LET’S GET EXPERIMENTAL: BEHIND THE ADOBE MAX SNEAKS
(※画像提供:jejim / Shutterstock.com)