Transcript 局所特徴量
フィッシャー重みマップに基づく不特定話者音素認識の検討 1-P-2 加藤 俊祐, 滝口 哲也, 有木 康雄 (神戸大・工) 研究概要 概要 研究背景 音 時 声 ハシフ 間 信 ミフレ 周 号 ントー 波 グ幅ム 数 窓 10 幅 平 で 25 面 シフ時 フレ間 トー軸 幅ム方 S幅向 フTに レフ ーレ切 ムー出 ムし - 現在の音声認識システムではMFCC特徴量などが使用 されているが、フォルマント遷移などを捉えた特徴量とはい えない ⇒そこで、本研究ではフィッシャー重みマップを利用した局 所特徴量による手法を提案 [ms] [ms] FFT ・局所特徴量 幾何学的特長を捉えた特徴量 切 出 し た 時 間 周 波 数 平 面 局 所 特 徴 の 行 列 行 列 の 特 徴 量 35 種 の 局 所 Xi パ タ Hi で 重 ー み ン 付 け ・フィッシャー重みマップ どの部分の幾何学的特長が重要か 認 識 結 果 G M M で 識 別 これを短時間フーリエ変換後の時間‐周波数平面で適用 ⇒これによって、時間‐周波数平面の認識に重要な幾何学 的特徴のある場所が強調された特徴量が得られる 局所特徴量 局所特徴量 点(3,3)での10番目の局所パターン 局所特徴の例 (10) 33 h 時間-スペクトル平面の各点に各局所パターンを適用し たもの 周 波 数 S11S12 S13S14 S15 S16 局所パターンの例 点(7,2)での15番目の局所パターン (15) h72 S 71 S 72 S 63 平時 面間 の周 各波 点数 S 21S 22 S 23S 24 S 25 S 26 時間方向に連続する 値の大きさ 1 1 1 1 1 1 S31S32 S33S34 S35 S36 S 41S 42 S 43S 44 S 45 S 46 1 S81S82 S83S84 S85 S86 S91S92 S93S94 S95 S96 周波数の時間遷移の大 きさ 1 1 時間-スペクトル平面 h h (1) h82 H (1) h 23 (1) h33 (1) h85 局 所 特 徴 の 行 列 S51S52 S53S54 S55 S56 S61S62 S63S64 S65 S66 S71S72 S73S74 S75 S76 周波数方向に連続す る値の大きさ 35種類の 局所パターン - 3×3近傍では35種類 S32 S33 S34 時間 (1) 22 (1) 32 ( 2) 22 ( 2) 32 h h ( 2) 82 ( 2) 23 ( 2) 33 h h h h ( 35) h82 ( 35) h23 ( 35) h33 ( 35) h85 ( 35) 22 ( 2) 32 h フィッシャー重みマップ 最終的に B w W w 局所特徴量行列Hに重みベクトル wをかけ 次元を圧縮する xH w C : クラス数 ΣW クラス3 クラス2 H H クラス1 ( 2) 2 H H ( 2) 3 ( 3) 1 H ( 3) 2 w (1) 4 x (1) 1 ( 2) 1 x x (41) x1(1) x ( 2) 3 ( 2) 2 ( 3) 1 x x ( 3) 2 N j : クラスjのデータ総数 ~ trΣ B フィッシャーの判別基 準 J w ~ trΣW を最大化 w n:固有ベクトル (n 1,, C ) c:固有ベクトルの数 XH W T X 局所パターン の数(35個) 固 の有 数ベ ク ル [ x1 x c ] H [ w 1 w c ] クラス内共分散行列 c 1 ~ ΣW x i x j x i x j N j 1 i j クラス間共分散行列 c T 1 ~ ΣB N j x j x x j x N j 1 1 c H i H j H i H j N j 1 i j 1 c N j H j H H j H N j 1 時 平間 面周 の波 各 点数 - H N : 全クラスのデータ総数 ( 2) 1 H ΣB の一般化固有値問題 H 局所パターン の数(35個) W 固 有 ベ ク ル の 数 時間-周波数平面の 各点 実験結果 実験条件 ・10人の話者が発声したラベル付き音声データベース ・音素別に切り出し音素認識を実行、25音素、GMMで識別 予備実験 ・時間-周波数平面からのフレーム化処理は、フレーム幅5、シフト幅1 ・時間-メル周波数平面を使用(時間-周波数平面より3%程結果が良い) ・フィッシャー重みマップWの本数25本(20~30辺りが一番認識率がよい) 90.0% 90.0% 85.0% 85.0% 80.0% 75.0% 79.5% 74.5% 75.8% 74.2% 65.0% 65.0% 60.0% 60.0% +( 提 P MC案 FA手 Cあ法 Cり ) +( 提 P案 C MA手 Fあ法 Cり C) +M F C MC F C C ++( 提 P MC案 MFA手 FCあ法 CCり C ) Δ ( 提 P案 C A手 あ法 り ) Δ M F C C 82.1% Δ Δ 70.0% ( 提 P案 C A手 な法 し ) 85.5% 75.0% 70.0% M F C C 86.7% 88.3% 80.0% 識別率 識別率 特定話者モデルの実験結果 90.0% 85.0% 80.0% 75.0% 70.0% 65.0% 60.0% 90.0% 84.2% 85.0% 80.7% 識別利 識別率 不特定話者モデルでの実験結果 75.0% 73.2% 87.1% 85.6% 87.1% 89.0% 80.0% 75.0% 70.0% 65.0% 60.0% Δ 提 +( P案 MC FA手 Cあ法 Cり ) +( 提 P案 C MA手 Fあ法 Cり C) まとめ・今後の課題 ・特定、不特定話者モデル両方において MFCC 、ΔMFCC < 提案手法(PCA) ・単体の特徴量より組合わせた特徴量の方が認識結果が良い 特に、3つの特徴量を組合わせた 提案手法(PCA)+MFCC+ΔMFCC が一番良い 今後の課題 ・単語識別 ・局所パターンの考察 ・メル周波数の考察 +M F C MC F C C ++(提 P MC案 MFA手 FCあ法 CCり C ) Δ ( 提 P C案 A手 あ法 り ) Δ M F C C ( 提 P案 C A手 な法 し ) Δ M F C C