放大メモ

無職10年目が放送大学で学生やる話

生のtsファイルを持ってるならwhisperで聞き取らせるより字幕を抜けば良くないか?

という話できてはいないのでメモ

放送大学の講義は全部字幕対応をきちっとやってくれているので

 

放送大学ラジオは音声データのみなのでwhisper要る

生のtsファイルか字幕付きでエンコードしファイル*1から字幕情報確実な情報が得られる

 

字幕のフォーマット

PDF

標準規格概要(STD-B36)|一般社団法人 電波産業会

標準規格番号     ARIB STD-B36

 

GitHub - iGlitch/Caption2Ass: MPEG-TS字幕データ抽出ツール :: Extract .ass | .srt from .ts

許諾的に最終的にGPTに食わせようって考えてるから使えない

 

 

それらしいことができそうなモジュール

GitHub - johnoneil/arib: Japan Association of Radio Industries and Businesses (ARIB) MPEG2 Transport Stream Closed Caption Decoding Tools

 

上のモジュールののフォークで現在も更新し続けてるやつ

GitHub - Brett824/arib: Japan Association of Radio Industries and Businesses (ARIB) MPEG2 Transport Stream Closed Caption Decoding Tools

 

*1:俺はHandBrake使ってるからデジタル放送の字幕データは残ってない