スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

作ってみた

昨日届いた電子部品で心電計を作ってみた。
まぁ、ネットの回路図をそのまま組み立てただけだけど・・・

電極はホームセンターに売ってるステンレスのL字金具でやってみた。

結果
 上手くいったのかわからなかった。雑音が入りまくってたしなんか心電っぽいものもあったように見えたけど、やっぱ安物のオシロスコープでは見難いからか・・・

音響モデル
 話者適応の音声データを増やしてた。でも増やしすぎると1日じゃ終らなくなってしまう・・・
でも話者依存はできるのわかったし、たくさん音声データを集めるのがメンドイし・・・
学校始まったらどうしよう・・・

おわり
スポンサーサイト

今日も・・・

また書くの忘れてた・・・

まぁ、書くことなんて何もしてないけどね。
とりあえずatr503以外のラベルデータから音響モデルが作れるか試してる。
でも話者適応では一回作るのに10時間近くかかる。
長い・・・

あと、昨日秋月電子で頼んでた電子部品が届いてた。
早い・・・
これでなんかつくろうかな。

おわり

カラオケー

友達とカラオケに行ってきた。
友達とカラオケに行って歌うのって初めてだったから、めっちゃ楽しかった!
また行きたいな・・・

OpenJTalk_windows
パラメータを追加して値の上限を修正した。
後ソース見直して長文の音声合成字のバグを修正。
ただ、自分の作った話者適応学習の音響モデルでは、適応数が3個の音響モデルでバグが直らなかった・・・
適応数を変更して音響モデルを作り直してみる。
たぶん明日には修正版を上げれるかな・・・

おわり

成績






落ちました。
留年します。

遊んでないで勉強します。



明日友達とカラオケに行ってきます。

ひと段落したら何作ろうか考え中・・・

おわり

掃除してた

昨日日記書くの忘れてた・・・

今日は昼前に起きて部屋の掃除をした。
それだけで一日終った。

あと、OpenJTalk_windows作ってて思ったんだけど、
出力されたログにセグメントされたラベルが出ていた。
これを使えばatr503以外の音響モデルに必要なラベルファイルが作れるはず。

誰か作ってー
出力されたログから必要な部分を抜き出すだけだからー

おわり

OpenJTalk_windowsの紹介

OpenJTalk_windowsとはVisual Studioに入ってたMFCの練習のために作ってみた、OpenJTalkを簡単にwindowsで使えるようにするソフトです。

OpenJTalkとhts_engineを使って作っています。
動作確認はwindows vistaとwindows xpで確認しました。
バージョンアップしました。
・長文入力時のバグの修正
・パラメータの追加とデフォルト値の変更
・sample_voiceの更新
バージョンは1.1になりました。
ダウンロードはhttp://www1.axfc.net/uploader/N/so/150095
使い方は動画を用意しています。


ソフトと一緒に入っている音響モデルのフォルダsample_voiceには、話者適応学習によって5個の音声データから作られたものが入っています。


OpenJTalk :http://open-jtalk.sourceforge.net/
hts_engine :http://hts-engine.sourceforge.net/

完成・・・

OpenJTalkのソフトはできたー
紹介動画も作ったし後はアップするだけー

おわり

プログラミング

気晴らしにMFCでのプログラミングに挑戦してみた。
できたら公開でもしようかな・・・

作ってるのはOpenJTalkをwindowsで簡単に利用できるように、音響モデルと辞書を選択して会話内容を入力したら音声合成をしてくれるソフト

おわり

遊んだ

久しぶりに友達に誘われてゲーセンで遊んでた。
やっぱり家にこもってばかりではよくないな・・・

おわり

やる気が起きない

今日もだらだら・・・
とりあえずHTSによる話者適応だけど適応に必要な音声データを、ミクさんが4個で後を100個ずつにして音響モデルを作ってみた。
とりあえず動画のときよりもましになった気がする。ただミクさんの音声は自分で調整したので、少し手間がかかったけど・・・

ミクさんの音声データが50個のときよりも調整した4個のときのほうがきれいに聞こえた。

また動画でも作るかな・・・
そしたら音響モデルの作り方でも書いていこうかな・・・

おわり

書くことない・・・

どうしよう・・・
何もしてない。
しいて言えば、昼寝したぐらい。後はニコニコ動画とか見てた。
電子部品ほしいけどお金ないし・・・
そろそろandroidのアプリを作る練習でもしてみるかな

おわり

忘れてた

日記書くの忘れてた。
話者適応の適応する音声データを100個まで増やした。

おわり

録音

やる気が出ない・・・
部屋から出ずにこもっているからかな・・・
とりあえず話者適応の音声データを増やすべくatr503のb01からb50まで録音した。

おわり

なんにもしてない

昼に起きてだらだら・・・

おわり

動画を上げた

やっと動画を上げれた・・・
なんか音声が小さくなってしまうけど、どうしよう・・・
大きくすると音が割れる。

昼には友達が遊びに来てアケコン修理してた。

おわり

MMDAgentで話者適応学習の音響モデルをしゃべらせた



音響モデルができたので動画にして上げました。
今回使用した音響モデルは
   話者適応音響モデル:ミクさん、自分
   話者依存音響モデル:ミクさん
なぜか声が小さいです。
音響モデルの作り方はまた書くかもしれない・・・

動画の会話の内容
アキヒロ:こんにちは、今回は新しく作成した、音響モデルの紹介を行います。
     では、ミクさん、お願いします。
ミクさん:わかりました。
     皆さんよろしくお願いします。
     それでは、今回作成した、話者適応学習による、音響モデルについて説明します。
     話者適応学習とは、MMDAgentで使われている、話者依存学習とは異なる方法で作られたものです。
     今までの話者依存モデルでは、音響モデルを作るのに、一人の話者から、たくさんの音声データを取る必要がありました。
     しかし、話者適応学習では、少ない音声データから音響モデルを作ることができます。
     今の私の声は、50個の音声データから、話者適応によって作られたものです。
     同じように、50個の音声データから、話者依存によって作られた音響モデルでは、
     このように、非常に聞き取りにくい発音になってしまいます。
     話者依存モデルの発音は、前回投稿した動画なども、参考にしてみてください。
     また、始めのナレーターの声は、5個の音声データから、音響モデルが作られています。
     少ないサンプルから、音響モデルを作ることができるため、誰でも簡単に、自分の声を、音響モデルにすることができます。
     ぜひ皆さんも試してみてください。
アキヒロ:どうもありがとうございました。
     音声合成に興味があるかた、自分だけの声のMMDAgentがほしいかた、
     一度、HTSによる、音響モデルの作成を、試してみてはいかがでしょうか。
     これで、話者適応学習による、音響モデルの紹介を終ります。
     ご清聴ありがとうございました。
ミクさん:さようなら。

できた

ミクさんの音響モデルはできた。まだイントネーションが不安定だけど、それは適応元の他の音声データが少なすぎるせいだと思う。各50個しか用意してないし。

ついでに自分の声も音響モデルにしてみる。atr503のa01からa05の5個だけで・・・録音するのメンドイし

音響モデルを1個作るのに5時間かかる・・・
その間に本屋さんでandroidアプリを作るために本買ってきた。

テスト動画上げたけど音小さすぎた・・・
いま本番を作ってる。自分の声も入ってる。

明日にはちゃんとした動画を上げたい。

おわり

忘れてた

日記書くの忘れてた。
とりあえず音響モデルの調整だけで朝の5時くらいまで粘ってた。

何とかなりそう

おわり

上手くいかない

まだ音響モデルの調整してる。

関係ないけど押入れの整理してたらゲームキューブが出てきた。懐かしい・・・
パソコンのディスプレイに出力させようとしたけど配線いじるのが大変だったのであきらめてしまった。

おわり

今日も一日

パラメータの調整してた。
調べてみるとF0RANGESの値は男性の場合40 280,女性の場合80,350にしたほうがいいらしい。(ただしこの値のサンプル音声は英語なので日本語だと異なる可能性もある)

ただ女性の80,350ではミクさんの声に対して低すぎるらしく低い声の音響モデルができてしまう。
高くしすぎると発音時のイントネーションがおかしくなってしまう。

どうしたものか・・・

あとandoroid買ったので開発環境も整えてみた。プログラミング言語はC/C++ぐらいしか触ったことがないので、javaの勉強がてらアプリを作ってみたり、androidにはC/C++も使えるのでそれも試してみたい。

おわり

調整中・・・

音響モデルの調整中・・・
音声ファイルは50個しか使ってないのに、話者適応なので適応元のパラメータの調整もしなければならないー

一日それに費やしてしまった。
明日中には完成させて動画でも上げたい。

おわり

間に合わなかった・・・

うわあああああああああ
ミクの日に間に合わなかったーーーーーーーーーー

ミクさんの音響モデルは作れるようになったけど、パラメータの調整がうまくいかずミクさんの声にならない・・・

しかもパラメータを変える→3時間待ち続ける→できた音響モデルを聞いてみる→はじめに戻る
の繰り返し。

適応学習の途中で止まることはなくなったから後は待つのみのはず

昨日の訂正ーーー
適応させる音声データとラベルデータには条件があるけど、ミクさんの声の上手い下手は関係ないみたい。

おわり

できそう・・・?

うまくいかない・・・
やっとミクさんの声以外の、録音した音声の適応モデルを出力することはできた・・・
なんか音声ファイルとラベルファイルの名前に条件があるみたい。

同じ条件でもミクさんの声のときはじかれていたので、たぶんミクさんの声がひどいからだと思う・・・

おわり

録音

HTSによる話者適応デモの続き・・・
一日atr503の文章の録音してた。自分の声ではないけどしゃべってもらえるサイトで音声データを取ってた。

そしてデモを動かして停止した音声データの除去を行えば音響モデルができるはず・・・
作り方は後でまとめると思う。

おわり

作業開始 HTSの話者適応モデルの作成方法

とりあえず今日調べたHTSによる話者適応モデルの作製方法についてメモっとく
また一日家にこもってるだけになってしまった・・・

話者依存はモデルに使用する音声一人分だが、話者適応は複数人の音声データが必要。
デモでは音声データとしてbdl,clb,jmk,rms,sltがあり、適応させる音声データはsltでとレーニングにbdl,clb,jmk,rmsを使用している。(HTS-demo_CMU-ARCTIC-ADAPTフォルダのconfigureの中で設定されていた。)
HTS-demo_CMU-ARCTIC-ADAPTのdataフォルダにはHTS-demo_NIT-ATR503-M001にはないuttsフォルダがあるが、labelsフォルダの中にあったfull,monoフォルダがない。
scriptsフォルダの中身も違う。
HTS-demo_CMU-ARCTIC-ADAPTにあるmakeファイルに大きな違いは見られなかった。
dataフォルダ内にあるmakeフォルダには違いがあった。
HTS-demo_NIT-ATR503-M001では
 mgc lf0 cmp mlf list scp
の順番で実行されている。
HTS-demo_CMU-ARCTIC-ADAPTでは
 mgc lf0 cmp label mlf list scp
の順番になっており、labelが加わっている。
labelでの処理は
 uttsフォルダにある各人の音声データに対するuttファイルからmono,fullのラベルファイルの生成
 適応するモデルの名前(デモではslt)のフォルダをlabelsフォルダのgenフォルダの中に作り、その中にgenフォルダに入っていたlabelファイルを名前を変えてコピーしている。(genフォルダのlabelファイルは誰かの音声のラベルデータではないっぽい)

後はHTS-demo_CMU-ARCTIC-ADAPTのscriptsフォルダのTraining.plの内容が話者適応になるように変わってた。

よってHTS-demo_CMU-ARCTIC-ADAPTで自作音響モデルを作製するためには、
理想
 複数人のrawデータとuttファイルを用意してbdl,clb,jmk,rms,sltに差し替える
 (sltには適応させたい音声データを入れておく)
 (ラベルデータのルールはdataフォルダのquestionsフォルダの中にあるのでそれも入れ替える)
 後はデモと同じように動かせばできるはず・・・


しかしuttファイルとlabelデータの作成方法がわからない・・・
よって

現実
 HTS-demo_NIT-ATR503-M001の中身からいろいろ拝借する方法(まだ試してない)

 uttファイルを使用せずに話者適応を行う。
 makeファイルよりuttファイルはfull,monoのlabelファイル作製するために使用されているだけみたい・・・
 まず、あらかじめlabelsフォルダにmono,fullフォルダとその中身を作製しておく。(これは話者依存のデモのときに使ったラベリング方法で作れる)
 rawフォルダに音声データを入れる。
 questionsフォルダに依存モデルのデモで使用したquestions_qst001.hedとquestions_utt_qst001.hedを入れ替える。(これで日本語バージョンのラベルのルールになると思う)
 dataフォルダ内のmakeファイルのlabelの項目のuttを使用してラベルを作製する部分を消す。
これでデモと同じように動かせば・・・

問題
 現状でラベルデータはatr503のみ
 音声データは
 ・話者依存のデモの音声データ
 ・atr_503についてきたad形式の音声データ
 ・自分の声
 ・ミクさん←適応させたい

自分の声を取るのに時間かかる・・・
適応させたいのが女性(?)の声なのに男の声がたくさん混じる・・・

ラベルの作り方さえわかればどんな声でもできそうな気がする

とりあえず明日声取ってみるかな。

スマフォ・・・

昼まで寝てた。
一日グダグダしてた。
スマホいじってた。とりあえずネットワーク上のHDDのデータを見れるようにした。

おわり

携帯変えた

スマホにしました。
あと、珍しくおじいちゃんとおばあちゃんといとこが家に来ました。

20120304

おわり

解体

壊れたプリンターを解体してた

20120303

おわり

気がつけば・・・

気がついたら一日PSPで遊んでたorz

20120302

おわり

飲み会してた

昨日は昼まで寝てて、夜から友達と飲み会してた。
チューハイ飲んだら気持ち悪くなって寝た。


・・・起きたら朝になってた。昼ごはん食べて家に帰ってからもう一回寝たら夜になってた。
気持ち悪いのがなかなか直らない・・・

来年までお酒は飲みたくない・・・
何でみんな平気なのか理解できない。お酒飲めるようになって友達と騒げるようになりたいな・・・
強い肝臓がほしい。

20120301

おわり
検索フォーム
Twitter
@akihiro01051のツイート
リンク
RSSリンクの表示
ブロとも申請フォーム

この人とブロともになる

QRコード
QR
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。