import whisper model = whisper.load_model("base")

# result = model.transcribe("準備したファイル名を指定")

# 今回の記事ではtest.m4aを用います。

result = model.transcribe("/content/test.m4a")

print(result["text"])

これでターミナルに動画からの文字起こしされたものが表示される

大変なのはここから先

.tsファイルは文字起こしでエラーが出る時もある

処理していくとエラーで時々停止する

ChatGPTいわく｢.tsはコンテナなので映像に使われているコーデックが動画を処理するためのffmpegに対応してないんじゃない? それかファイル自体が破損してるか｣とのこと

この問題については完全に理解していない

それでも動かしたいので.tsは一度mp4に変換する事にした

それでもエラーだ

whisperはpipでインストールすると依存関係としてffmpeg-pythonはインストールされているので不要

しかし､ffmpegの本体は別途インストールでpathを通す*6

pip3 install ffmpeg

要るのか要らないのかは知らんが

多分要る

ffmpeg-pythonで動画編集する - Qiita

ffmpeg-pythonを使ってみた - Qiita

映像を音声にする処理と音声を文字にする処理の.pyは分けよう

一緒にしてもいいんだけどコードが長くなってPythonなにそれ?って人間には分かりにくいので別の.pyを作る事にした

重複するファイルを作成する時はスキップするみたいな処理も追加した

俺のリポジトリからコード読んでもらうとわかるが

音声を.txtに保存する

コレが一番大変だった

詳しくはコードのコメントを読んでもらうとして

ざっくり説明

そもそも保存されない

whisperで文字起こしされたデータはdict(辞書)型でtxtファイルに保存するにはstr(文字列)型に変換する必要があって"import json"で"json.dumps"で変換処理が必要だった

txtに保存できても文字コードのまま

utf-8で文字をエンコードする必要があった

改行がなくて一行に全データが保存されてめちゃくちゃ読みづらい

文字起こしの結果はsegments単位で保存されてるのでそれごとに改行処理を入れる必要があった

OpenAIがリリースした音声認識モデル”Whisper”の使い方をまとめてみた | DevelopersIO

OpenAI Whisper のコマンドオプション - Qiita

終わり

終わりとはいえないんだが学習データとして食わせるには悪くない

人間がそのまま読んでも読めるものが出てきた

クロス討論「人工知能（ＡＩ）の未来は？前編」2020-02-01-15：45-2.txt*7

id:0 me
id:1 今日の天気を教えて今日の横浜は予想最高気温20度最低気温話しかけるだけで様々な操作をしてくれるスマートスピーカー
id:2 今人工知能 ai を使った商品が身近なものになりブームが巻き起こっています
id:3 ビッグデータの解析技術の進化そして脳のシステムの解明などによって
id:4 ai は加速度的な進化を続けています
id:5 一方このまま ai が進化し続けると人間の知能を超える日が来るという予測もあります
id:6 ai の進歩は私たちの未来に何をもたらすのか
id:7 専門家たちが徹底討論します
id:8 まああの今回の部分は今までと違ってですね大人の部分と子ども分の両方が揃った ai と
id:9 いうことに向かって進んでいるので続いていくのではないかというふうに思っています人間が置いてけぼりにされるんじゃないのかなっていうそういうふうな
id:10 ちょっとダークなイメージを抱いていますもうどんどん人がこう ai を搭載したスピーカーだと意識せずに今のスマートフォンみたいにもう
id:11 普通に日常生活にあるものになっていくんじゃないかなと思っています私たちは ai とどう付き合っていけばいいのか
id:12 ai 人工知能の最前線に迫ります
id:13 放送大学の秋水俊夫です様々な分野の専門家をお招きし語り合うクロス討論
id:14 今回のテーマは人工知能 ai の未来についてです司会を務めます石井真彦です今日は気になる ai について様々な角度から勉強していきたい
id:15 と思いますさて秋水さんあの ai 話題ですよねそうですねあの
id:16 スマートスピーカーだとかその人と語られるロボットだとかまああの自動運転だとかですね様々な技術がまあ私たち触れ合うようになって注目されて
id:17 ますよね単にその社会で注目されているというだけではなくて
id:18 国の方でもですねその人工知能というのは非常に注目されていると a
id:19 文部科学省で定めた2018年定めた第3次教育振興基本計画というのがあるんですけどもちょっと読みますがそこの前文にですね
id:20 今はが国は人生100年時代を迎えようとしており超スマート社会の実現に向けて人工知能かっこ aia ビッグデータの活動活用などの技術革新が急速に進んで
id:21 いるこうした大転換期を乗り越えすべての人が豊かな人生を生き抜くために必要な力を
id:22 身につけて活躍できるようにする上で教育の果たす力大きいというふうに言われているわけですね
id:23 このようにまあ人の寿命も増えてきたその中で技術も変化している社会自体が第一点環境を迎えているというふうになっている
id:24 まあその第一点環境を迎える主役になっているとも言えるのがこの ai と言えると思うんですよねとはいえ
id:25 ai によってすごく便利になってきたけどじゃあ映画具体的に何やってるのかっていうのはわからないなかなかねはいまあそういった
id:26 ai に対する疑問とかそれをやっぱりあの細田役としてもその皆さんに知っていただいて考えていただくきっかけになってもらいたいというのがまあこの
id:27 とクロス討論のまって今ということになりますそうですねそこで今日はそうした不安や疑問誤解など
id:28 論者の方々とともに語り合っていきながら ai の未来像を探ってまいりたいと思いますそれでは出演者の皆さんご紹介しましょう
id:29 まずは ai の最先端の研究を行っているドワンゴ人工知能研究所所長山川博さんですよろしくお願いしますよろしくお願いします
id:30 今日の意気込みを一言いや今日はですねあの
id:31 皆様と一緒にですね ai の未来についてまあいいあの結論に導けるように頑張っていきたいとおもいますよろしくお願いします
id:32 山川さんには ai の専門家の立場からお話しいただきます続きまして情報社会論情報コミュニケーション論が専門の哲学者
id:33 明治大学教授大国武彦さんですよろしくお願いしますよろしくお願いします今日の意気込みを
id:34 a ですね先ほどあの ai のわからなさっていう言葉が出ましたけれどもそのわからなさが ai に対する誤解を生んでると思うんですね
id:35 でその誤解に基づいて過剰な期待が抱かれたりですねでまぁいらぬ不安が抱かれたりする方が多いと思うんですよ
id:36 なのでまあ今日はの哲学ないしあの社会科学に基づきながらできるだけその誤解を解いていければなぁと思って
id:37 ます大国さんには ai と人間との関わりについて哲学者の立場からお話しいただきます
id:38 さあそして現役のコンピュータープログラマーで ai に興味津々のマルチタレント池澤彩香さんですよろしくお願いします
id:39 お願いしますはい意気込みですよねえっと私普段からあのソフトウェアエンジニアとして働いているんです
id:40 けれどもあのプロジェクト内で ai を実際に活用したりしながら仕事をしているんですが
id:41 まだまだわからないこととかあと未来はどうなるんだみたいな疑問もあるので今回はどんどんぶつけてねあの
id:42 いきたいなと思っています池澤さんには未来を担う若い世代を代表してお話しいただきますそれでは早速討論に参りましょう
id:43 クロス討論を行うにあたってテーマを用意しました最初のテーマは今の人工知能 ai ブームをどう捉えるかです
id:44 討論を始める前にまずは人工知能技術開発の歴史を見てみます人工知能 ai が生まれてからこれまで3回のブームが起こっています
id:45 第1次ブームは1950年代から60年代に起こったとされています迷路の解き方や数学の定理の証明
id:46 人間の言葉で対話するシステムの開発が行われました

こんな出力

RTX3080-10GBでVRAMとCUDAコアの消費70%って一番精度の高いlarge-v2でもそんなに食わない

SDの時はちょっと処理速度は落ちるけど省エネ意識して60%のパワーリミットかけて動かしてる

whisperの場合は100%でも60%でもパワーリミットで体感速度があまり変わらない気がする

MSI GeForce RTX 3080 VENTUS 3X PLUS 10G OC LHR グラフィックスボード VD7850

Amazon

ASUS NVIDIA GeForce RTX 4090 搭載ビデオカード 24GB GDDR6X / TUF-RTX4090-24G-GAMING 日本正規流通品

ASUS

Amazon

4090だともっともっと速いんだろうな~

*1:ただで配ってるのは有料のAPIで提供してるGPTの餌にするテキストファルルを増やすためだと予想

*2:めっちゃ時間かかるな

*3:stable deffidion

*4:今更Python2環境に依存したコードを書く人は居ないので

*5:多分SD関係でガチャガチャしてる時

*6:コレの解決に2時間ぐらいかかったしChatGPTは役立たずだった

*7:AIにやらせた仕事なのでAIの話の回例示した

2023-01-03

久々にメモだよ

放送大学 AI ChatGPT

講義をとっても無が在学状態ではあったけどそろそろ科目登録しないと除籍よって言われたので登録

学籍があると安い学生ライセンスを通したり役にはたってくれてる

入学から4年はAmazonのやつな超お得

Amazon Studentを忘れるなんて！ - 放大メモ

#StableDeffsionってやつにドはまり*1してた時期なのでAIの事を学ぼう*2データサイエンス･リテラシの心得･導入･基礎の3科目のオンライン科目を登録した2022後期

だってもういちいち岡大まで試験受けに行くの面倒だしさ

科目名だけじゃどういう難易度よく分かんねえ

政府もリスキリングだAI人材だとか言ってて国営の私立大学ってことで昔から生涯学習ってのに向き合ってきた放送大学が力入れるのは当然なのでそれ系の科目が増る

単位が出る科目ではないが｢インターネット配信公開講座｣のニューラルネットワークとか機械学習とか概論だがガチ度すげえの

AIと戯れる絵を出すコードを出すのに疲れてきたので放送大学を消化する無論AIの話
ニューラルネットワーク概論とかはガチすぎて息抜きにならねえのなんのって #StableDeffsion いじった結果いろいろ調べてなけりゃ1割も理解できない､今でも2､3割だ
— NEXTAltair (@NEXTAltair) 2022年12月11日

既に公開講座なので既にエンジニアであるとかそういう人向けなのでPostの2､3割はちがう､今の俺は1割以下の理解だ

今は単位の出ない公開講座だけど四年ないし六年ごとの科目の見直しでもっと増える可能性

でも実習ができないからなあくまで教養学部なので

教員数も経費も抑えられているため、学部は容易には増やせません。実験系も難しい。 @salon_ena: @__obake 放送大学、どうして教養学部しかないんでしょうか？ #放送大学
— 岡部洋一 (@__obake) 2013年2月7日

昔学長やってたオバケもこう言っている

安さと易さというアイデンティティーは捨てられないよね*3

それで話を戻そう

データサイエンス･リテラシの心得･導入･基礎どの順が正しいステップなのかわかんないよこれ

シラバス読めってはなしだが俺は雰囲気だけで登録した

ざっと見た雰囲気心得･導入･基礎の順番でいいんだろうとは思う

そしてStableDeffsionに負けず凄いぞとなったChatGPT

放送大学の講義の小テストを使って #ChatGPT 👍👎で鍛えてあげてるけど
講師の見解が議論が分かれる部分もあるかもしれないが､そこは無視で
— NEXTAltair (@NEXTAltair) 2023年1月3日

AIの責任という項目をやってる#ChatGPT に書かせたレポート提出してみたが単位を落とした場合ないし最悪除籍処分の場合俺の責任なので甘んじてウケる

再入学はできるかな?ペナルティとしての除籍2場合無理そうだがそうなったら試すわ
— NEXTAltair (@NEXTAltair) 2023年1月3日

こんな感じで練習問題や小テストをChatGPTに食わせて正誤を学ばせてる今

#ChatGPT に放送大学のデータサイエンス･リテラシ導入の練習問題を解かせたら正解率40%だった
ChatGPT4に期待だな
— NEXTAltair (@NEXTAltair) 2022年12月5日

前はこうだったけど1ヶ月ぐらいで地味に正答率が上がってきている気がする

もうすぐ出るだろうと言われるGPT4への期待が否が応でも高まる*4

除籍処分がかかった俺のAIへの恩返しということで

おわり

｢自分のやってることを自分以外の全員が始めるとろくなことが起きないなと思うことはやめておいた方がいい｣とか｢みんなやってるからってお前がやっていいわけじゃない｣とかいう説教を思い出しながらでも止められねえよなとなってるのが今の俺だ

Vision Transformer入門 Computer Vision Library

Amazon

とりあえず小銭稼ぎにアフィっとくけど

バリバリエンジニア向けで教養という領域ではないが､今の小中学生が大学に進学するか就職するかの頃には

それでもStableDeffsionの根っこにある技術なのでむこう今年度中には読む

*1:それはもう寝食忘れてレベル

*2:勉強って言い方嫌いなの強いられてるので

*3:ただのドキュメンタリー好きの無職の趣味の延長なのでこの辺や卒業生で有るということの社会的評価とかは考えない｡考えたところで面白くはない

*4:ChatGPTはVer3.5

2016-10-25

面接授業「心理学実験１」に行ってきた 02 アイコニックメモリー

心理学認知心理学

oujmemo.hateblo.jp

昨日の続きから2つ目の実験の話

アイコニックメモリー

直訳すると「像の記憶」映像記憶とかって感じ、横文字を使ってるってことは意味があるんだろうが、それは知らない

入力された情報は下記の流れを通って長期記憶に保存されるが、長期記憶は省く

　「感覚記憶」生のデータを保持する領域。感覚器官ごとに対応する領域があって、ド短時間(1秒ぐらい)で無限大の情報を記憶できる

　　　↓　　　覚えておくべき情報を選り分ける。「注目・特徴検出」というデータ　　　　↓　　　縮する作業を経て短期記憶に送られる

　「短期記憶」圧縮されたデータを一時保存する領域。　作業記憶(ワーキングメモリー)ともいう

視覚に対応する感覚記憶領域がアイコニックメモリー
アイコニックメモリーには無限大の情報、つまり目に見えたものの全てを1秒間保存できる事になる

今回の実験はアイコニックメモリーが実際にそれができているのかを証明する
そのために2種類の実験を行う

全体報告法

「覚えた文字の全部を報告してね。」という事で全体報告

3~9文字のアルファベットを答えていく

黒枠を表示
ランダムなアルファベットの羅列を見せる
黒枠でアルファベットを隠す
その文字を答える
繰り返し。3文字から始まって9文字まで

結果
正解数の平均は文字数に関わらず3.5ぐらい
この結果だけ見ればアイコニックメモリーの容量は約3.5文字で無限大ってことじゃなくなる

何故か？
それは報告途中にアイコニックメモリーの保存期限である1秒が過ぎて文字を忘れてしまうから
この全体報告法では「報告できた数=覚えていられる数」になってしまうからこれ以上の数を記憶できてたとしても証明ができない

それを証明するための実験2

部分報告法

「覚えた文字の一部分を報告してね。」という事で部分報告法

9文字のアルファベットの一部3文字を答える

黒枠を表示
3×3のマス目に並んだランダムな9文字アルファベットを表示
黒枠でアルファベットを隠すと同時に、報告すべき行を示す矢印を表示する
矢印が指した行の3文字を答える

結果
全員が3文字全て答えられた

何故か？
3文字なら答える最中に答えるべき部分を忘れたりしないから

ランダムに指された行の文字を答えるってのは9文字全て覚えられていないとできない芸当だから
これでアイコニックメモリーに9文字は覚えられているということは証明された

仮に10文字以上の文字数になっても示せば示される文字数が3文字以内なら正解できるはず

因みにこの実験でちょっと面白いことが起こる
アイコニックメモリーに保持された記憶が残像のように残って、文字が表示されている最中に矢印も表示されてるって錯覚を起こす
これは文字が消えて矢印が表示されるまでの時間が短いせいで、文字か消えたという事を意識できていないせい

認知心理学〈2〉記憶

作者: 高野陽太郎
出版社/メーカー: 東京大学出版会
発売日: 1995/10
メディア: 単行本
クリック: 11回
この商品を含むブログ (2件) を見る

放送大学で認知心理学を教えてる高野陽太郎の本

余談だが焼けてた

togetter.com

2016-10-24

面接授業「心理学実験１」に行ってきた 01 目撃記憶

心理学

面接授業「心理学実験１」に行ってきた
認定心理士の資格要件にもなっていて、20席が埋まっての追加開講までされた大人気

これをネタに書くと特定されそうだけど、「このブログ書いてるの誰々だぞ。」って触れ回る人も居ないだろう

授業は心理学とはってところから始まって、心理学の変遷、認知心理学の記憶の処理についての説明、
その説明に対する根拠となる心理学実験の手法や例と2日間約11時間の時間割はなかなか詰め込んだ内容

3つの実験

ここに出てくる実験は心理学の中で認知心理学に当たる分野の実験

認知心理学は、五感が得た情報が頭の中でどう処理されるのかを人間の機能をコンピューターに例えたりしながら研究していく分野

「頭の中の処理をどうやって証明するか？」と目に見えず、測定も難しいものだから実験の方法は、驚きがあって面白い

目撃記憶

聞かれたことを思い出すときに聞かれ方で思い出したことが変わる*1って事を証明するための実験

逆に言えば誘導尋問のように聞き方次第で思い出させることを操作できる。

実験方法

被験者をAとBにチーム分けする
電柱にぶつかって事故って壊れた車の写真を見せる
3分間別の作業をする
質問する

　　　Aチーム激突

　　　車が「激突しました」時速何キロで走っていたと思いますか？」

　　　Bチーム接触
　　　車が「接触しました」時速何キロで走っていたと思いますか？」
実際のレポートには方法や質問はもっと細かく書く*2

結果
4で聞いたチーム毎の答えの平均と標準偏差をだしてその結果を考察する
「激突」のほうが速いという結果になるはずだったが、何故か接触のほうが高いって結果になった
この結果はかなり例外らしい

何故か？
わかるのは聞かれ方以外の何かで予測通りの結果にならなかったって事
何の影響か？
写真を見てから答えるまでの時間が短すぎた。　これは、他の面接授業でも同じ条件で実験してるだろうからこの可能性は低い
「激突ました」と聞かれて平均速度以下の速度を答えた俺の場合、割りと低速でも事故ったら結構壊れるって経験で知ってたからと言えるが、他の人はどうかわからない