お問合せ サイトマップ     英語サイト
Home   技術 製品 企画・開発   会社概要 代理店 募集
技 術 音声音響技術 |音声認識技術オーディオ技術 | インターラクティブロボティック技術 | Bluetooth向け技術 |
不特定話者認識
特定話者認識音声認証 | 音声合成 音楽合成テキスト音声合成MP3 | サイレントソニックネット | シングバック

 
音声・音響技術
 センサリ社のIC製品は、先進のHMM(Hidden Markov Modelling)やニューラルネットワーク音声認識、音声合成、録音再生などの音声技術とICテクノロジを使った製品で、最先端の機能を非常に低価格で提供します。 センサリ社は独自のHMMとニューラルネットワーク技術を開発しこの技術を採用することで高価なDSPや容量の大きなRAMを一切使わずに、信頼性の高い音声認識を提供しています。 特に独自のニューラルネットワーク技術は特定の話者による単語やフレーズを識別することのみならずセキュリテイを 向上させるために使用することもできます。センサリ社の 20年以上に渡るスピーチとオーディオテクノロジの経験を使用することでセンサリ社のIC製品は高品質なオーディオ出力を実現でき音質を劣化させること無く音声や効果音を 再現することができます。
またセンサリ社のソフトウェア製品は組み込み実装を目的とした小型ソフトウェアエンジンとなっています。長年IC製品で培ってきたHMM&ニューラルネットワークの音声認識技術を応用し実現しています。
それぞれの技術に対応する製品は下記の記号で示します。
ハードウェア ソフトウェア

        
 NLP-5xシリーズ RSC-4xシリーズ 

          
 TrulyHandsfree   TrulySecure     TrulyNatural       BlueGenie
    製品技術説明
音声技術説明


音声認識技術        Speech Recognition
 自然発音インターフェース     Natural Language Interface 
  フレキシブル・グラマー
センサリ社NLP-5xの自然発音インターフェースはユーザーの命令発音に準じて認識することのできる技術です。認識する順番に捉われない方法で認識し単語が足りない場合には音声合成技術を利用して足りない単語を確認するなどができます。この画期的なフレキシブル・グラマー技術は複数の単語を一フレーズとしては認識することができ、且つ命令語を順番に発音する必要もないためもっとも自然な認識を可能としました。

 フレーズスポッティング      Phrase Spotting 
 
 
完全なハンズフリー操作
最大30語の命令のキーワード・スポッティングやフレーズスポッティングが騒音下でも可能です。会話中のトリガーワードを認識し音声認識操作に移行することができ完全なハンズフリー操作が実現できます。
 不特定話者音声認識      Speaker Independent   
  
 
言葉の登録は必要無し
不特定話者音声認識’Speaker Independent'とは誰の音声でも認識するという音声認識技術です。
予め決まった言葉の辞書を事前に保存しこの言葉のみを認識させるというものです。この音声認識技術は汎用品に利用されます。 センサリ社の不特定話者音声認識は独自のHMM(Hidden Markov Modelling)&ニューラルネットワーク技術を使っています。 この技術はRSC4xシリーズとFluentSpeech製品で利用されており、高速・高性能な認識を実現しています。 不特定話者音声認識ではコンティニュアスリスニング、ワードスポッティングをサポートしています。
 特定話者音声認識       Speaker Dependent
  
   
辞書構成、言語、発音に影響されません
特定話者音声認識'Speaker Dependent'とは使用者が音声を登録して始めて使用できるようになる音声認識技術です。予め決まった言葉の辞書は保存されていないのでユーザーが任意に言葉を登録することができます。この音声認識は個人または数人で利用するなどの商品に利用されるます。 この技術は音声のみならず登録できる「音」であれば認識できるもの応用として効果音や動物の鳴き声など登録し認識させることができますセンサリ社の音声認識には主に独自のニューラルネットワーク技術を使っています。 RSC4xシリーズでは従来のニューラルネットワーク技術に加えHMM (Hidden Markoff Modeling)技術を利用し、より高速高認識率を実現しています。 特定話者音声認識ではコンティニュアスリスニング、ワードスポッティングをサポートしています。
RSC4xシリーズは’不特定+特定話者音声認識’をサポートしています。不特定話者の登録単語と特定話者の登録単語を同時に認識することができます。
 音声認証(パスワード認証)  Speaker Verification
  
 
音声のバイオセキュリティー
音声認証(パスワード認証)'Speaker Verfication'は音声を登録音声と比較し認証する技術です。話者認証として利用できます。
センサリ社の音声認証は’パスワード認証’というもので特定のパスワードを認証するものです。特定話者音声認識と近い技術ですが特定話者音声認識は一音声入力単語を複数の単語と比較し、結果として一致したもの戻すというものですがパスワード認証は一対一で比較しどの程度一致しているかを確認し結果を戻すというものです。
オーディオ技術          Audio
 テキスト音声合成         Test-to-Speech
 
 
テキストから音声合成を再生するソフトウェアエンジンです。
本技術はメールなどの文字を読み上げるなどに利用するための技術です。現在はPCおよびPDAプラットフォームに実装できるソフトウェアのみでセンサリ社プロセッサおよび他社プロセッサ実装には対応していません。 
また本テキスト音声合成(TTS)技術はボイス・モーフィーングに対応しており再生する音声を音程などを変化させ、男性、女性、キャラクターなどで再生することができます。
*NLP-5xはUS英語のみ対応(スペイン語、フランス語、ドイツ語、中国語、日本語は開発中)。
*FluentSoftはUS英語、スペイン語、フランス語対応(中国語、日本語は開発予定)。
*BlueGenieはUS英語対応(ドイツ語、中国語は開発中)

 MP3デコーダー          Stereo MP3 Decoder
  
 
高音質ステレオMP3デコーダー。
全てのビットレート対応、5バンドのイコライザー機能。
 音楽合成              Mono/Stereo Music
 
 
 
音楽合成’Music Synthesis'はNLP-5xではサンプルレート32Kサンプル/秒で最大24ステレオボイスを生成できます。RSC-4xではサンプルレート8Kサンプル/秒で最大8モノラルボイスを生成できます。
音楽はICのステレオDAC出力かモノラルPWMからSX,PCMADPWM音声、効果音などを重ね合わせて再生できます。音楽合成技術は内蔵メモリー、シリアルFlashなどの外部メモリーに保存されたMIDI音楽を再生できます。この方法はメモリー効率の良い方法となります。
音楽合成は楽器音のオーディオデータベースが必要です。センサリ社ではGeneralMIDIメロディー楽器、パーカッション楽器などの標準的な楽器データベースと提供しています。これらの楽器データベースは通常外部メモリーに保管されます。
 音声合成              Speech Synthesis
  
 
 
音声プロンプトに最適
音声合成’Speech Synthesis'は圧縮音声を再生する技術です。
センサリ社では複数の圧縮方式を採用しています。これら技術は従来のPCM、ADPCM、MELP、CELPなどとセンサリ社独自方式の'SX'音声合成などがあります。圧縮音声の再生レートは 1.0Kbpsの低圧縮から68Kbpsの高音質のまでの音声合成を提供しています。音声合成データへの変換は専用ソフトを利用すれば簡単に行えます。
これら音声合成の原音はWAVファイルを利用しています。
録音再生             Record and Playback
    デジタル録音、メッセージの録音と再生
RSC-4xとNLP-5xは30Kbps以下で録音、再生することができます。この録音データはで外部メモリーに保存することができます。これらはグリーティング、電話、留守電、ボイスチェンジャー、録音デバイスに利用できます。
音質に合わせて幾つかの圧縮レベルを設定できます。また自動無音圧縮を行いメモリー効率で保存することができます。RSC-4xは8Kサンプル/秒。NLP-5xはより高音質で録音再生ができます。
インターラクティブ・ロボティック技術     Interactive/Robotic 
 LCD制御              LCD Control
     LCD制御回路。104個のアイコンまたはピクセル。大規模アレードライバに対応したSPIを準備。
 モーター制御            Motor Control
     モーター制御回路。最大3バイ・ディレクショナルモーター制御可能。
 サイレントソニックネット技術    Silent Sonic Net
     サイレント・ソニックネットはNLP-5xで14KHzまたは18KHzのエンコード音でデータのバースト通信ができます。結果としてこれら高周波音は無音(耳に聞こえない)となり、通常のアプリケーション中に短くバーストデータ転送できますサイレント・ソニックネットはSX音声合成またはT2SIの音声認識中にデータ通信が動作します。NLP-5xとマイク、スピーカ実装の製品では追加部品を必要とせず製品間のデータ通信などができます。
 ソニックネット技術         Sonic Net
   「ソニックネット(SonicNet)」技術は音声認識マイコン’RSC4x‘にて音によりデータ通信する技術です。 音声合成に組み込むなど、または単独に通信するなどが可能です。この技術により赤外通信などを必要とせず音声認識製品で利用されている通常のマイクとスピーカーにて機器同士の通信が可能です。
 通信インターフェース       System Communications
     USB1.1、SPI、UART-Lite、I2S、IRインターフェースを準備。
 リアルタイムリップシンク技術      Real Time LipSync
   「リアルタイムリップシンク(Real Time LipSync)」技術は音声解析技術を応用しメカニカルな口を制御する技術です。音声認識の解析技術を応用しているため音声のみに反応するように調整されていて音楽の中のボーカル音声のみに口が同期して動くなどの商品に利用きます。メカニカルな口への制御はモーター制御用のPWM信号で行います。
*音声帯域に反応するように調整してありますが音や楽器によっては反応してしまうことがあります。

YouTube動画:Real-TimeLipSync
 リップシンク技術             LipSync
   「リップシンク(LipSync)」技術は音声合成に同期して口メカを制御するものです。
 ビート予測ビート検出技術     Beat Predict/Beat Detect
   「ビート予測ビート検出(BeatPredict/BeatDetect)」技術は音楽のビート(テンポ)を検出する最新の技術です。 ビート予測・検出は音楽(歌)などに含まれる特定の音の一定のテンポを検出、解析しビート信号を出力するものです。
YouTube動画:BeatPredict
 ピーク検出技術           Peak Detection
  音の振幅ピークを検出する技術です。
 ピッチ検出技術           Pitch Detection
  音のピッチを検出する技術です。
 シングバック技術             Sing Back
  「歌まね(Singback)」技術はトークバック技術とピッチ検出技術を組み合わせユーザーの「歌」などの音声(音調、音程)を記憶し、 合成音声にて再生(繰り返す)する技術です。音声や鼻歌の音程を解析して音程情報を出力することができるため、音声合成を組み合わせ音声を楽器音などにて出力するなどが可能です。
 トークバック技術             Talk Back
  「トークバック(Talkback)」技術はユーザーの音声などの音声(音調、音程)に反応し 合成音声にて特定の音声を再生する技術です。
 音源検出技術                Sound Sourcing
  「音源検出(Sound Sourcing)」技術は音源(音の発生源)を検出する最新の技術です。 「音源検出」は音の方向は2つのマイクで拾い、音量差を計算しマイクマウントをモーターにフィードバック制御することにより 正確な音源方向にマイクを向けるなどができます。
YouTube動画:SoundSourcing
 ナチュラルタイムセット技術          Natural Time Set
   「ナチュラルタイムセット(NaturalTimeSet)」技術は時刻を設定する技術です。通常のマイコン音声認識では時間、分を分けて音声認識させないとならなかったのですがこの技術により「12時34分PM」などと連続音声でも認識できるようになりました。このことにより時刻設定の煩わしさが軽減されました。(現在は英語のみ)
YouTube動画:NaturalTimeSet
 ナチュラルデートセット技術          Natural Date Set
     「ナチュラルデートセット(NaturalDateSet)」技術は日付を設定する技術です。NLP-5xでデジタル時計などの日付を自然な言い方で設定できます。
 オーディーウエイクアップ技術        Low Power Audio Wakeup
    「オーディオウエイクアップ(AudioWakeup)」技術は省電力モードから音によりICをウエイクアップ(起動)する技術です。これにより常に音確認をする動作をせずウエイクアップ音の入力によって認識を開始することができ特にバッテリー駆動製品など電力消費を抑えるなどの改善ができます。
ブルートゥース向け音声認識技術    Voice Recognition for Bluetooth Products
 BlueGenie音声インターフェース        Blue Genie Voice Interface
    Bluetooth製品(ヘッドセット、音楽プレイヤー、ハンズフリー向け音声認識とテキスト音声合成
BlueGenie(ブルージニー)音声インターフェースソフトウェアはCSR社BC-5MMのKalimbaDSPで動作するソフトウェアです。Bluetooth製品メーカーには不特定話者音声認識、音声合成、テキスト音声合成を利用することでマニュアル無し、完全に音声だけで操作できるBluetooth製品を作ることのできるソフトウェアです。テキスト音声合成は着信時の発信者番号の読み上げやSMSの読み上げなどに利用可能です。
YouTube動画:
BlueGenie CarKit
BlueGenie Headset




 

Home || 技術 | 製品 | 企画・開発会社概要 | 代理店 | 募集 | お問合せ | FAQ | サイトマップ

Contents Copyright Sensory Japan 2002-2016 All Rights Reserved.
PDFファイルを閲覧するためには、 Adobe Acrobat Readerを予めインストールしておく必要があります。