「不特定話者音声認識」とは不特定多数のユーザーが利用することを前提に辞書を作成したものです。この辞書は事前に録音データまたは既存データから加工し作成するものです。通常はお客様ごとにカスタムに辞書データを作成するため、商品に対応した認識単語を決定し、作成することができます。商品を購入後すぐに使用できるなどの利点があり、また不特定多数で使用する商品などに向いています。
製品:TrulyHandsfree™、TrulyNatural™、Voice Genie™
「特定話者音声認識」とはユーザーが音声を登録してから認識させる技術となります。ユーザーが自由に単語を決め、登録することができるのでカスタマイズができますが登録語数が多いものは不向きです。
製品:TrulyHandsfree™、Voice Genie™
「音声認証」とは話者を認証する技術です。センサリ社の場合はパスワード認証技術となります(声紋認証ではありません)。特定話者音声認識のようにパスワードを登録し、このパスワードの音声と一致しているか否かを認証する技術です。TrulyHandsfreeをベースにしたNNSVとTrulySecureをベースにしたTSSV(TrulySecure Speaker Verification)があります。
製品:TrulyHandsfree™、TrulySecure™、TrulySecureSpeakerVerification(TSSV™)
「音声トリガー」とは押しボタンの代わりに音声で音声操作を開始するための技術です。カーナビゲーションなどでは音声ボタンを押してから会話となりますがこの押しボタンの変わりとなる技術です。スマートフォンなどですとマイクボタンを押してから会話となっていますがこの代わりともなります。センサリ社の音声トリガーは騒音環境に強く、また誤認識が低いことが特徴です。
製品:TrulyHandsfree™、TrulySecureSpeakerVerification(TSSV™)
「音声コマンド」は音声トリガーの後に続く操作コマンドとなります。例えば、”Hello Smartphone, Play Music”の場合のPlay MusicやStop Musicがコマンドに当たります。
製品:TrulyHandsfree™
「フィックスドトリガー」は不特定話者音声トリガー認識です。予め商品に対応した音声トリガーフレーズを不特定話者で作成し、使用環境を想定した情報を組み込んだ上で作成した音声トリガーです。各種環境音に強く、誤認識(誤トリガー)が低くすることができる技術です。ポーティング済みのローパワーDSP上で動作させることができます。辞書作成は一般の方の音声を録音し辞書を作成する必要があります。小型辞書モデル(DSP等向け)中型辞書モデル(スマートフォン、PC、タブレット等)は約350~400名の音声サンプルが必要です。
製品:TrulyHandsfree™、TrulySecureSpeakerVerification(TSSV™)
EFTはFTの拡張技術です。FTですでに登録された言葉に対し、ユーザーの言葉を登録する方法です。イントネーションやアクセントの違いでFTでは認識しづらい場合はEFT技術を使用してユーザーの発音を認識し易くする技術となります。登録処理(Enrollment)はPCやスマートフォンアプリ上で動作させる必要があり、DSP向け認識ではここで生成されたデータをDSPメモリーに転送する必要があります。
製品:TrulyHandsfree™、TrulySecureSpeakerVerification(TSSV™)
ユーザーがトリガーフレーズを登録できる技術です。登録は特定話者音声認識のように音声登録することで音声トリガー認識させることができます。ポーティング済みのローパワーDSP上で認識動作させることができますが登録処理(Enrollment)はPCやスマートフォンアプリ上で動作させる必要があり、DSP向け認識ではここで生成されたデータをDSPメモリーに転送する必要があります。OS版ではFTとUDTを同時に動作させることができます(EFTとUDT同時動作はできません)。
製品:TrulyHandsfree™、TrulySecureSpeakerVerification(TSSV™)
最大30語の命令のキーワード・スポッティングやフレーズスポッティングが騒音下でも可能です。会話中のトリガーワードを認識し音声認識操作に移行することができ完全なハンズフリー操作が実現できます。
製品:TrulyHandsfree™、TrulySecureSpeakerVerification(TSSV™)、TrulyNatural™、VoiceGenie™
話者識別は複数のユーザーが同じパスワード(または別のパスワード)登録し、登録されたパスワードの識別する技術です。PC、タブレットや家電製品のように複数人数で使用場合、音声で識別してログインすることができます。また自動車などではドライバーのパスワードでミラー、シート設定を変えるなどの応用が可能です。閾値設定等で識別率が変化します。例えば、閾値を下げることで同じ男性であれば認識と判断するなどができます。ポーティング済みのローパワーDSP上で認識動作させることができますが登録処理(Enrollment)はPCやスマートフォンアプリ上で動作させる必要があり、DSP向け認識ではここで生成されたデータをDSPメモリーに転送する必要があります。
製品:TrulyHandsfree™、TrulySecureSpeakerVerification(TSSV™)
センサリ社のソフトウェア製品は、先進のディープラーニング技術とニューラルネットワーク認証技術を使った製品で、最先端の機能を低価格で提供してます。センサリ社はAI技術と独自のアルゴリズムで信頼性の高い顔認証・音声認識を提供しています。
またセンサリ社のソフトウェア製品は組み込み実装を目的とした小型エンジンとなっています。
それぞれの技術に対応する製品は下記とおりです。
センサリ社の「顔認証」技術は個人ユーザー向けのアプリケーションなどに利用するための認証用の生態認証技術です。スマートフォンやタブレットPCなどに利用されているほか、金融機関アプリなど個人を認証するために利用されています。
製品:TrulySecure™
センサリ社の「音声認証」技術とは話者を認証するものです。センサリ社の場合はパスワード認証技術となります(声紋認証ではありません)。特定話者音声認識のようにパスワードを登録し、このパスワードの音声と一致しているか否かを認証する技術です。TrulyHandsfreeをベースにしたNNSVとTrulySecureをベースにしたTSSV(TrulySecure Speaker Verification)があります。
製品:TrulyHandsfree™、TrulySecure™、TrulySecureSpeakerVerification(TSSV™)
センサリ社のソフトウェア製品は、先進のディープラーニング技術とニューラルネットワーク音声認識、音声認証などの音声技術を使った製品で、最先端の機能を低価格で提供してます。センサリ社はAI技術と独自の音響技術を開発し、信頼性の高い音響技術を提供しています。センサリ社の20年以上に渡るスピーチとオーディオテクノロジの経験を使用することで音響解析を実現しています。
またセンサリ社のソフトウェア製品は組み込み実装を目的とした小型エンジンとなっています。
それぞれの技術に対応する製品は下記とおりです。
「サウンド認証」とはTSSV技術を応用したディープラーニング技術を利用した音を認証(認識)する技術です。ガラスの割れる音、犬の吠える音、アラーム音、サイレン、銃声などの音を深層学習させ音を認証させるものです。センサり社の場合、ユーザーが選んだ音を登録、認証させることも可能です。
製品:TrulySecureSpeakerVerification(TSSV™)/SoundID
Sensory社のAutomotive Siren Detection System(車載サイレン検出システム)は「EVDシステム」でリアルタイムで動作するオンデバイスの緊急車両検出するシステムです。99%以上の高精度で緊急車両のサイレン音を検出し、接近を通知することで走行中の安全性が向上することができます。
製品:TrulySecureSpeakerVerification(TSSV™)/SoundID