峯松 信明 みねまつ のぶあき/准教授/基盤科学研究系 基盤情報学専攻/高度情報ネットワーク学講座/大規模情報システム学分野
http://www.gavo.t.u-tokyo.ac.jp/
略歴 1990年3月東京大学工学部電気工学科卒業, 1995年3月東京大学大学院工学系研究科電子工学専攻博士課程修了(博士(工学)), 1995年4月豊橋技術科学大学情報工学系助手, 2000年4月東京大学大学院工学系研究科情報工学専攻助教授, 2001年4月東京大学大学院情報理工学系研究科電子情報学専攻助教授, 2002年10月〜2003年9月スウェーデン王立工科大学客員研究員を経て, 2004年12月より現職。 教育活動 大学院:メディア工学
工学部電子情報工学科:電気電子情報実験/コンピュータアルゴリズム ... もっと見る
峯松 信明 みねまつ のぶあき/准教授/基盤科学研究系 基盤情報学専攻/高度情報ネットワーク学講座/大規模情報システム学分野
http://www.gavo.t.u-tokyo.ac.jp/
略歴 1990年3月東京大学工学部電気工学科卒業, 1995年3月東京大学大学院工学系研究科電子工学専攻博士課程修了(博士(工学)), 1995年4月豊橋技術科学大学情報工学系助手, 2000年4月東京大学大学院工学系研究科情報工学専攻助教授, 2001年4月東京大学大学院情報理工学系研究科電子情報学専攻助教授, 2002年10月〜2003年9月スウェーデン王立工科大学客員研究員を経て, 2004年12月より現職。 教育活動 大学院:メディア工学
工学部電子情報工学科:電気電子情報実験/コンピュータアルゴリズム 研究活動 音声コミュニケーションを主な対象として,その工学的,言語学的,心理学的な研究を展開している。
○音声の分析
音声が伝搬する情報は大きく,言語情報,パラ言語情報(感情や意図など),非言語情報(性別や話者性など)に分類される。本研究室では,音声に不可避的に混入される性別や話者の情報を取り除き,純粋に言語情報やパラ言語情報を表象するための音響分析手法を提案している。また,パラ言語情報を伝搬する際の主要な物理パラメータである基本周波数に着眼し,その生成過程に立脚した基本周波数パターン生成過程モデルのパラメータ推定や,日本の伝統芸能である長唄に着眼した旋律モデリングなどを行なっている。
○音声の認識
非言語情報を取り除くことで得られる音声の構造的表象を用いた音声認識を検討している。この場合,非言語的特徴が取り除かれるため,通常数千から数万人の音声データを使用することで構築される音響モデルを,少数の話者の音声のみを用いて構築することを検討している。現在,一人の話者の音声のみを用いた不特定話者音声認識を検討している。それ以外にも,非母国語発声に対する音声認識や,また,時間的に遷移していく話題に自動追従できる言語モデルの開発などを行なっている。
○音声の合成
日本語漢字仮名混じり文を音声へ変換するためには,音素を音に変換するのみならず,漢字の読み,アクセントの適切な配置,イントネーションパターンの付与など様々な(準)言語処理が必要となる。ここでは,任意のテキスト入力に対して,適切なアクセント型を付与するための研究を行なっている。日本人であれば気付かないうちに習得してしまっている「ある種の規則」を明示化し,如何なるテキストを入力しても「およそ正しい」アクセント生成が行なわれる規則の構築である。
○音声アプリケーション
音声分析・認識・合成技術を用いた各種音声アプリケーションを構築している。音声の構造的表象を用いた発音学習支援や,音声からの知覚的年齢推定,更には,パラ言語情報の推定とそれを用いた音声インターフェイスの構築などを行なっている。特に発音学習支援では,一人一人の学習者の発音状況を記録する発音カルテを提案しており,地球上の全英語学習者をその発音状況に応じて分類することも技術的には可能にしている。小学生への英語教育導入を念頭において,安全かつ信頼性の高い音声技術を構築している。
○音声の知覚
異なる人は物理的に異なる「あ」の音を生成する。つまり「あ」は約60億種類存在する。その一方で音声科学は,話者や環境に不変な音素の物理特徴量は無いと言う。その音声を我々はいとも簡単に処理してしまう。「音声物理の多様性と音声知覚の容易性」実はこの「謎」が解けていない。本研究室で提案する音声表象はこの問題を解く一つの鍵になると睨んでおり,種々の知覚実験を行なっている。それ以外にも,韻律的特徴と心的辞書検索の関係などについての実験的検討を行なっている。 [文献]
1) N. Minematsu, "Mathematical evidence of the acoustic universal structure in speech", Proc. Int. Conf. Acousitcs, Speech, & Signal Processing (ICASSP'2005), pp.889-892 (2005-3)
2)T. Murakami, K. Maruyama, N. Minematsu, and K. Hirose, "Japanese vowel recognition based on structural representation of speech", Proc. European Conf. Speech Communication and Technology (EUROSPEECH'2005), pp.1261-1264 (2005-9)
3)S. Asakawa, N. Minematsu, T. I. Jaakkola, and K. Hiorse, "Structural representation of the non-native pronunciations,"" Proc. European Conf. Speech Communication and Technology (EUROSPEECH'2005), pp.165-168 (2005-9)
4) K. Hirose, K. Sato, and N. Minematsu, ""Corpus-based generation of F0 contours using generation process model for emotional speech synthesis", Speech communication, vol.46, pp.385-404 (2005)
5) 峯松信明,富山義弘,吉本啓,清水克正,中川聖一,壇辻正剛,牧野正三, "英語CALL構築を目的とした日本人及び米国人による読み上げ英語音声データベースの構築",日本教育工学会論文誌,vol.27,no.3,pp.259-272 (2004-3) その他 電子情報通信学会、情報処理学会、人工知能学会、音響学会、音声学会、IPA、CALICO、EUROCALL各会員
情報処理学会編集委員、音響学会編集委員、電子情報通信学会査読委員、Speech Prosody2003 Secretary等 将来計画 本研究室は「言葉の不思議」を解明することを目的として日々研究に励んでいます。その究極の目的は「言葉とは一体何者であるのか?」という問題に対する答えを求めること,でしょうか?当然「何故サルはヒトになれたのか?」「言語の起源はどこにある?」といった哲学的思考も時として話題に上がります。ただ,哲学しているだけでは実社会に貢献できません。各学生の興味の対象によって,実システムの構築(応用研究)から,哲学の追及(基礎研究)まで幅広く「言葉」を捉えていこうと思っています。「言葉」というのはそれだけの多面性を持っています。その多様な「言語」をヒトは普通,気が付いた時には既に獲得しています。これも「言語の謎」の一つです。 教員からのメッセージ 何のために大学院にまで進学したのか。2年間という時間を費やして何を成し遂げたいのか。常に自らの行動に対して問題意識と向上心を持つ学生を期待しています。ただ単に教官が言ったことを実行するのであれば,空しい2年間になります。それは研究活動ではありません。自らが興味を持つ対象に対して,現時点でどのような問題点があり,その解決にはどのような知識が必要で,その知識を獲得するためには何が必要で,,,,対象とする問題解決のために幅広くアンテナを延ばし,一歩一歩解決に近づく。その道のりは時として遠く,また,大きく蛇行することになるかもしれない。でも,そのダイナミクスが研究の醍醐味です。思いも寄らない方々と接点が見えてきたり,思い掛けない成果が出てきたり,その瞬間瞬間を体験するのはある種の「快感」です。そういう経験をこの新領域で積んでいって欲しいな,と切に願っています。 戻る






























