スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

作業開始 HTSの話者適応モデルの作成方法

とりあえず今日調べたHTSによる話者適応モデルの作製方法についてメモっとく
また一日家にこもってるだけになってしまった・・・

話者依存はモデルに使用する音声一人分だが、話者適応は複数人の音声データが必要。
デモでは音声データとしてbdl,clb,jmk,rms,sltがあり、適応させる音声データはsltでとレーニングにbdl,clb,jmk,rmsを使用している。(HTS-demo_CMU-ARCTIC-ADAPTフォルダのconfigureの中で設定されていた。)
HTS-demo_CMU-ARCTIC-ADAPTのdataフォルダにはHTS-demo_NIT-ATR503-M001にはないuttsフォルダがあるが、labelsフォルダの中にあったfull,monoフォルダがない。
scriptsフォルダの中身も違う。
HTS-demo_CMU-ARCTIC-ADAPTにあるmakeファイルに大きな違いは見られなかった。
dataフォルダ内にあるmakeフォルダには違いがあった。
HTS-demo_NIT-ATR503-M001では
 mgc lf0 cmp mlf list scp
の順番で実行されている。
HTS-demo_CMU-ARCTIC-ADAPTでは
 mgc lf0 cmp label mlf list scp
の順番になっており、labelが加わっている。
labelでの処理は
 uttsフォルダにある各人の音声データに対するuttファイルからmono,fullのラベルファイルの生成
 適応するモデルの名前(デモではslt)のフォルダをlabelsフォルダのgenフォルダの中に作り、その中にgenフォルダに入っていたlabelファイルを名前を変えてコピーしている。(genフォルダのlabelファイルは誰かの音声のラベルデータではないっぽい)

後はHTS-demo_CMU-ARCTIC-ADAPTのscriptsフォルダのTraining.plの内容が話者適応になるように変わってた。

よってHTS-demo_CMU-ARCTIC-ADAPTで自作音響モデルを作製するためには、
理想
 複数人のrawデータとuttファイルを用意してbdl,clb,jmk,rms,sltに差し替える
 (sltには適応させたい音声データを入れておく)
 (ラベルデータのルールはdataフォルダのquestionsフォルダの中にあるのでそれも入れ替える)
 後はデモと同じように動かせばできるはず・・・


しかしuttファイルとlabelデータの作成方法がわからない・・・
よって

現実
 HTS-demo_NIT-ATR503-M001の中身からいろいろ拝借する方法(まだ試してない)

 uttファイルを使用せずに話者適応を行う。
 makeファイルよりuttファイルはfull,monoのlabelファイル作製するために使用されているだけみたい・・・
 まず、あらかじめlabelsフォルダにmono,fullフォルダとその中身を作製しておく。(これは話者依存のデモのときに使ったラベリング方法で作れる)
 rawフォルダに音声データを入れる。
 questionsフォルダに依存モデルのデモで使用したquestions_qst001.hedとquestions_utt_qst001.hedを入れ替える。(これで日本語バージョンのラベルのルールになると思う)
 dataフォルダ内のmakeファイルのlabelの項目のuttを使用してラベルを作製する部分を消す。
これでデモと同じように動かせば・・・

問題
 現状でラベルデータはatr503のみ
 音声データは
 ・話者依存のデモの音声データ
 ・atr_503についてきたad形式の音声データ
 ・自分の声
 ・ミクさん←適応させたい

自分の声を取るのに時間かかる・・・
適応させたいのが女性(?)の声なのに男の声がたくさん混じる・・・

ラベルの作り方さえわかればどんな声でもできそうな気がする

とりあえず明日声取ってみるかな。
スポンサーサイト

コメントの投稿

非公開コメント

検索フォーム
Twitter
@akihiro01051のツイート
リンク
RSSリンクの表示
ブロとも申請フォーム

この人とブロともになる

QRコード
QR
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。