スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

HTSの話者適応学習のデモの動かし方

久しぶりに更新できた・・・
半年以上触ってなかったので,バージョンの変更などで上手くいかない可能性があります.

HTSの話者適応学習のデモを動くようにして自作の話者適応学習音響モデルを作れるようにします.

・開発環境
HTSのデモを動かすためのOSはFedora15の32bit,GNOMEを利用しています.
またコンパイルやプログラムを動作させるために必要なものを,yum installコマンドで必要になったら入れていきます.

1.HTS-demoをダウンロード
HTS-demoを動かすために必要なソフトをダウンロードします。
HMM-based Speech Synthesis System (HTS)
ここのサイトのDownloadから,HTS-2.2_for_HTK-3.4.1.tar.bz2とSpeaker dependent training demoから日本語の話者依存のデモHTS-demo_NIT-ATR503-M001.tar.bz2,Speaker adaptation/adaptive training demoから英語の話者適応のデモHTS-demo_CMU-ARCTIC-ADAPT.tar.bz2をダウンロードします.
hts_engine API
このサイトからはhts_engine API version 1.06をダウンロードします.
Speech Signal Processing Toolkit (SPTK)
このサイトからは,SPTK-3.5.tar.gzをダウンロードします.
ActiveState Downloads
このサイトの,releases/の8.4.19.6/のActiveTcl8.4.19.6.295590-linux-ix86.tar.gzをダウンロードします.
htk
このサイトのDownloadから,HTK-3.4.1.tar.gzをダウンロードします.また,左側のLinkのHTK Extensionsの「download HDecode from here.」のHDecode DownloadからHDecode-3.4.1.tar.gzをダウンロードします.
ただしこのサイトからファイルをダウンロードするためには,Registrationより登録を行い送られてきたユーザー名とパスワードを入力する必要があります.
The Festival Speech Synthesis System
このサイトの[download]のIn EuropeかIn North Americaのダウンロードサイトで,festival-2.1-release.tar.gz,festlex_CMU.tar.gz,festlex_OALD.tar.gz,festlex_POSLEX.tar.gz,festvox_cmu_us_awb_cg.tar.gz,festvox_cmu_us_rms_cg.tar.gz,festvox_cmu_us_slt_arctic_hts.tar.gz,festvox_kallpc16k.tar.gz,festvox_rablpc16k.tar.gz,speech_tools-2.1-release.tar.gzをダウンロードします.

2.ダウンロードしたファイルを解凍し,インストールする
それぞれのファイルを解凍する。htkとHDecodeは同じフォルダに解凍される。festival,festlex,festvoxも同じフォルダに解凍される。
HTS-2.2_for_HTK-3.4.1は解凍後,HTS-2.2_for_HTK-3.4.1.patchファイルをhtkの解凍ファイルにコピーしパッチを当てる.
patch -p1 -d . < HTS-2.2_for_HTK-3.4.1.patch
インストールは
./configure prifix=/インストール先/
make
make install
で行える.
ただし,festivalはmakeまでしかできず,インストールせずに使用します.

3.デモが動くようになります
HTS-demo_NIT-ATR503-M001の話者依存と,HTS-demo_CMU-ARTCIC-ADAPTの話者適応のデモが動かせるようになります.

4.自作音響モデルを作る
・話者依存
HTS-demo_NIT-ATR503-M001のrawファイル,monoラベルファイル,fullラベルファイルを差し替えることで自作の音響モデルを作れます.
・話者適応
日本語の話者適応音響モデルを作る場合
話者適応学習の音響モデルを作るには,作りたい音響モデルの音声データとmono,fullのラベルファイルのほかに,適応させる複数の音声データとmono,fullラベルファイルが必要.
HTS-demo_CMU-ARTCIC-ADAPTを利用するが,英語版のuttsを使用しているため日本語で使用できるようにします.
[1]解凍したHTS-demo_CMU-ARTCIC-ADAPT/data/questionsの2つのファイルをHTS-demo_NIT-ATR503-M001/data/questionsの中身と差し替えます.
[2]uttsフォルダを削除し,rawフォルダの中の音声データを,作りたい音響モデルの音声データと適応させる音声データに差し替えます.
[3]labelsフォルダの中身のフォルダ構成をmono,fullフォルダに分け,その中をrawフォルダのフォルダ構成と同じにする.またgenフォルダ内のファイルをHTS-demo_NIT-ATR503-M001/data/labels/genフォルダ内のファイルに差し替える.
[4]スクリプトの修正を行うために,dataフォルダのMakefile.inファイルを開き,uttsファイルの処理を削除します.label処理の227行目から,247行目までコメントアウトします.clean-label処理の352,353行目をコメントアウトし,mono,fullフォルダを削除しないようにします.
[5]HTS-demo_CMU-ARCTIC-ADAPTフォルダに戻り,configure.acファイルを開いて,設定値を適当に変更します.差し替えたファイルの名称を変更していなければそのままでもかまいません.
[6]後はINSTALLファイルにしたがって音響モデルを作ります.

※デフォルトでは作りたい音響モデルの音声データはsltフォルダのcmu_us_arctic_slt_b0500.rawからとなっているので,差し替えた場合にはファイルネームに注意が必要です.
スポンサーサイト

OpenJTalk_windowsのバージョンアップ

OpenJTalk_windowsをバージョンアップしたので、配布します。
バージョン1.1からの変更として、HTSの音響モデル製作の利用できるラベルの出力が可能になりました。
ラベルはmonoラベルとfullラベルを出力可能です。

ダウンロードは以下から
http://www1.axfc.net/uploader/N/so/152661

今回は同時に、windowsでセグメンテーションが行えるキットも配布します。
ATR503の文章を読んだ音声データでセグメンテーションを行う場合
segment_atr503_windows-v1.0  http://www1.axfc.net/uploader/Ne/so/132186

自作のラベルと音声データでセグメンテーションを行う場合
segment_adapt_windows-v1.0  http://www1.axfc.net/uploader/Ne/so/132187

セグメンテーションキットはそれだけでは動作しません。
開発環境Cygwinを導入する必要があります。
Cygwin導入後、Perlとsoxを使えるようにしてください。

OpenJTalk_windowsの紹介

OpenJTalk_windowsとはVisual Studioに入ってたMFCの練習のために作ってみた、OpenJTalkを簡単にwindowsで使えるようにするソフトです。

OpenJTalkとhts_engineを使って作っています。
動作確認はwindows vistaとwindows xpで確認しました。
バージョンアップしました。
・長文入力時のバグの修正
・パラメータの追加とデフォルト値の変更
・sample_voiceの更新
バージョンは1.1になりました。
ダウンロードはhttp://www1.axfc.net/uploader/N/so/150095
使い方は動画を用意しています。


ソフトと一緒に入っている音響モデルのフォルダsample_voiceには、話者適応学習によって5個の音声データから作られたものが入っています。


OpenJTalk :http://open-jtalk.sourceforge.net/
hts_engine :http://hts-engine.sourceforge.net/

MMDAgentで話者適応学習の音響モデルをしゃべらせた



音響モデルができたので動画にして上げました。
今回使用した音響モデルは
   話者適応音響モデル:ミクさん、自分
   話者依存音響モデル:ミクさん
なぜか声が小さいです。
音響モデルの作り方はまた書くかもしれない・・・

動画の会話の内容
アキヒロ:こんにちは、今回は新しく作成した、音響モデルの紹介を行います。
     では、ミクさん、お願いします。
ミクさん:わかりました。
     皆さんよろしくお願いします。
     それでは、今回作成した、話者適応学習による、音響モデルについて説明します。
     話者適応学習とは、MMDAgentで使われている、話者依存学習とは異なる方法で作られたものです。
     今までの話者依存モデルでは、音響モデルを作るのに、一人の話者から、たくさんの音声データを取る必要がありました。
     しかし、話者適応学習では、少ない音声データから音響モデルを作ることができます。
     今の私の声は、50個の音声データから、話者適応によって作られたものです。
     同じように、50個の音声データから、話者依存によって作られた音響モデルでは、
     このように、非常に聞き取りにくい発音になってしまいます。
     話者依存モデルの発音は、前回投稿した動画なども、参考にしてみてください。
     また、始めのナレーターの声は、5個の音声データから、音響モデルが作られています。
     少ないサンプルから、音響モデルを作ることができるため、誰でも簡単に、自分の声を、音響モデルにすることができます。
     ぜひ皆さんも試してみてください。
アキヒロ:どうもありがとうございました。
     音声合成に興味があるかた、自分だけの声のMMDAgentがほしいかた、
     一度、HTSによる、音響モデルの作成を、試してみてはいかがでしょうか。
     これで、話者適応学習による、音響モデルの紹介を終ります。
     ご清聴ありがとうございました。
ミクさん:さようなら。

segment_mikuを配布します。

juliusのsegmentatio-kitで使用したsegment_miku.plを配布します。
参考になればいいのですが、、、

http://www1.axfc.net/uploader/Sc/so/296504.zip
検索フォーム
Twitter
@akihiro01051のツイート
リンク
RSSリンクの表示
ブロとも申請フォーム

この人とブロともになる

QRコード
QR
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。