スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

HTS-demoによる自作音響モデルの作り方 その2

youtube版

その2は前回作成した音声データから自作音響モデルの構築までを説明します。
1-2.ラベルデータ
 次に録音した音声データの音素(音の種類)を見分けるために音素を時間で区切ったラベルデータを作る。
 ここからlinuxに変わります。
   
 ①セグメンテーション(音素を時間で区切ること)をするためにJuliusを使います。ダウンロード欄の下の応用キットを押すと、単語・音素セグメンテーションキットがあるのでsegmentatio-kit-v4.0をダウンロードします。
 ②これだけではなんか足りないって怒られるので、トップページの右側にあるQuick DownloadのBinary for Linux (tarball)から julius-4.2-linuxbin.tar.gzをダウンロードします。
 ③julius-4.2-linuxbin.tar.gzを解凍してできたフォルダの中に解凍したsegmentatio-kit-v4.0を入れます。
 ④segmentatio-kit-v4.0の中に新しいフォルダを作り、そこに1-1で録音した音声データを入れます。
  また、同じフォルダの中にHTS-demo_NIT-ATR503-M001/dataフォルダの中のlabelsフォルダをコピーしていれておきます。
 ⑤あとは自作したsegment_miku.plをsegmentatio-kit-v4.0フォルダのsegment_juliud4.plと同じところに入れて、音声データのあるフォルダをsegment_miku.pl内で設定してからsegment_miku.plを動かします。
 ⑥segment_miku.pl内では、wav形式の音声データと音声データと一緒にあるlabelsフォルダ内のラベルデータとでセグメンテーションを行っています。
 ⑦出力フォルダはsegmentatio-kit-v4.0フォルダ内のdataフォルダが作られます。その中にwav形式からraw形式に変換された音声データとセグメンテーションされたラベルデータがあります。

2.HTS-demoによる音響モデルの構築
 ①できたraw形式の音声データとラベルデータをデモの音声データとラベルデータと同じ場所に置き換えます。
  このとき音声データが混じってしまうといけないので、元あったデモの音声データは同じフォルダ内にないようにしてください。
 ②最後にデモを使ったときと異なり、
   cd HTS-demo_NIT-ATR503-M001
   make data
   perl ./scripts/Training.pl scripts/Config.pm
  としたら自作音響モデルができる。
    
  あとはOpenJTalkなりMMDAgentなりで読み込んであげればしゃべってくれるはず。
    
  まとめ:用はHTS-demoの音声データとラベルファイルの数値を変更しただけなんだけどね。
  
  segment_miku.plは希望があれば配布します。 
スポンサーサイト

コメントの投稿

非公開コメント

segment_miku.plの配布希望です

こんにちは。OpenJTalkの音響モデル自作を探していてたどり着きました。
segment_miku.pl の配布希望します。
よろしくお願いします。

No title

segment_miku.plを動かそうとしたら、エディタで開いてしまって動かないんですが、
どうしたらいいでしょうかね。

No title

juliusのsegmentation-kitの使い方はわかりますか?
segmentation-kit内のsegment_juliusd4.plをいじっただけですので、拡張子を確認してコマンドプロンプトから実行してもらえれば動いてくれると思います。

実行できたのですが

コマンドプロンプトから実行したら、いけました。
が、50個でエラーが出て止まってしまいます。

ラベルファイルとRAWファイルは50個できているようですが、ラベルファイルの中身が空です。

どうしたらよいのでしょうか。

Re.実行できたのですが

ラベルファイルはHTS-demoのサンプルのものを使用してください。
ラベルファイルとwavファイルは一個でも途中で抜けていると、そこで止まってしまいます。

後、配布したスクリプトはかなりひどいできなので使いやすいように修正したほうがいいと思います。

ラベルができましたが

原因はwaveファイルのフォーマットでした。vocatalkで書き出す、44.1kHZbit16bit2chになってしまうようで、サウンドエンジンフリーで48kHzbitchに書き換えることで、ラベル生成はうまくいきました。ただ、rawファイルへの変換がうまくいきません。最初の1回だけうまくいったのですが。で、できた音響モデルは声にすらならないです。うめき声みたいな。

VSQファイルから生成するときにフォーマット指定しないと、変換してもだめなんですかね。
幸いにして、vocatalkでもVSQファイルは残っているので、再生成してみますが。

Julius4.2.1

Julius4.2.1だと問題がないとのことで、入れてみました。セグメンテーションはうまく言っているようですが、デモに組み込むとエラーが出て止まってしまいます。

Re.Julius4.2.1

いい忘れてましたが、作製したラベルデータとrawファイルはデモですべてうまくいくとは限りません、、、
なのでデモの処理が止まった原因となったrawファイルを取り除いてから、再度デモを実行してください。
何回か繰り返すと音響モデルができると思います。

取り除きましたが

結果は同じです。
10個で止まってしまい、
教育すると
エラーで止まります。

11個目のwavを取り除いた結果です。

10個ラベルファイルとrawふぁいるができたということなんですかね。

Re.取り除きましたが

juliusによるセグメンテーションではwavファイルを取り除かずに行ってください。
HTS-demoによる音響モデル作製時のエラー時に、セグメンテーションで作製されたrawファイルを取り除いてください。
うまくいかなかったら自分の声でも試してみてください、、、
検索フォーム
Twitter
@akihiro01051のツイート
リンク
RSSリンクの表示
ブロとも申請フォーム

この人とブロともになる

QRコード
QR
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。