京都大学大学院 情報学研究科 数理工学専攻 応用数学講座 数理解析分野
中村・辻本研究室


LAB
ACTS
LIBRARY
SPECIAL
LINKS

関西可積分系セミナー (2008年11月19日)

日時
2008年11月19日(水)15時-16時30分
場所
京都大学工学部総合校舎213講義室
白木善尚 (東邦大学理学部情報科学科)
スペクトルのソリトン化

複雑な現象の分析においては、取り扱いの比較的容易な素過程を分離・モデル化し、これらを統合することによって元の現象の良い近似解を得られる場合が多い。例えば音声現象の場合、30ms程度の短時間窓内ではほぼ定常AR過程と見なすことができ、窓内のスペクトルは通常16個程度のパラメータで近似される。実際、携帯電話では、情報圧縮のためにパラメータを一括して送付するベクトル量子化法(パタンマッチ法)が用いられている。しかし、パタンマッチ法は学習外データに弱いため、パタンの適応化が必要となる。例えば音声現象の場合、この適応化では、スペクトル概形が似ている(同一音素に対応する)2話者の音声が与えられた時、明瞭性と自然性とを一定以上に確保可能な補間手法に基づいて音声を合成することが主要な問題である。

この問題は、スペクトルの形状表現と形状保持を両立させる補間方法に対する指針の欠如に困難の所在がある。また、音声のみならず、2システム間の適応化問題に共通する課題でもある。音声の場合、10万人規模の音声データをもってしても、音声スペクトル(の山谷等、明瞭性と自然性を担う特徴)が空間内にスパースに存在するため、統計的なデータに基づくスペクトルの補間のみでは良好な音声を得ることができない。このように、離れた2つのスペクトル間の補間(声紋が大きく異なる話者間の補間)では、このスパース性に起因して山谷の個数や形状の不整合が生じ、単純な線形補間ではスペクトルの山谷の形状劣化が起こる。この劣化が明瞭性と自然性の低下を引き起こす。また、スペクトルの時間変化情報も考慮する必要がある。

本講演では、上記のようなスパース性を有する2組のスペクトル時系列に対し、その適応化をねらいとして、凹凸形状を保存するスペクトル時系列間の補間手法、特に補間に頑健なスペクトル表現について概説する。この表現をスペクトルのソリトン化と呼ぶ。補間に伴う時間変化に対して、AR(自己回帰)モデルの場合に比べ、ソリトン化に基づくスペクトルのピークは、その形状がよく保持されることが、実験的に確認されている。