という話できてはいないのでメモ
放送大学の講義は全部字幕対応をきちっとやってくれているので
放送大学ラジオは音声データのみなのでwhisper要る
生のtsファイルか字幕付きでエンコードしファイル*1から字幕情報確実な情報が得られる
字幕のフォーマット
標準規格番号 ARIB STD-B36
GitHub - iGlitch/Caption2Ass: MPEG-TS字幕データ抽出ツール :: Extract .ass | .srt from .ts
許諾的に最終的にGPTに食わせようって考えてるから使えない
それらしいことができそうなモジュール
上のモジュールののフォークで現在も更新し続けてるやつ
*1:俺はHandBrake使ってるからデジタル放送の字幕データは残ってない