On ubuntu 22.04 docker build source l4t for ubuntu 22.04 Jetson Nano 2G.
ubuntu 22.04 docker 上で、l4t source を ubuntu 22.04 Jetson Nano 2G 向けにビルドできるのか試して見る。
本来であれば、aarch64 toolchain を使うところだが、今回は、 Jetson Nano armbian jammy でビルドするとどうなるのかの参考にしたいので、
あえて、arm64 のままでビルドしてみます。
参考は、
Compiling Custom Kernel Modules on the Jetson Nano
開発環境
PC: Ubuntu Mate 22.04
docker version 24.0.7
他に、
$ sudo apt install docker-buildx
$ sudo apt install qemu binfmt-support qemu-user-static
はじめに、
Dockerを使ってポータブルなArm64エミュレート環境を構築 を参考にして、
Ubuntu 22.04 x86-64 上で、arm64 を実行できるようにします。
$ docker run --privileged --rm tonistiigi/binfmt --install all
$ export DOCKER_DEFAULT_PLATFORM=linux/arm64/v8
$ docker run --rm -it arm64v8/ubuntu:22.04 bash
が実行できるようにします。
ここから開始。
$ export DOCKER_DEFAULT_PLATFORM=linux/arm64/v8
2024年7月アーカイブ
Transformers Object detection - detr の転移学習とONNX変換と実行。
---- 雑草の独自データの転移学習とONNXでの変換、実行を試す ----
Transformers Object detection
1. 最初に、オリジナルの転移学習を試す。
次に、雑草画像の独自データを用意して、YOLO アノテーションを作成して、それを、COCO 形式に変換して、
雑草画像の転移学習を、試してみた。
開発環境
Ubuntu Mate 22.04
GPU: GeForce GTX 1070
Python 3.10
virtualenv
checkpoint = "facebook/detr-resnet-50"
が、転移学習のベースモデルみたい。
huggingface.co/facebook/detr-resnet-50
num_train_epochs=30
位必要みたい。
一応、オリジナル版の転移学習は、OK でした。
transformer asr japanese サンプルがある。
おんちゃんは、transformer asr のサンプルの、下記を試しておったが、
Automatic speech recognition
なんとも、日本語対応がすでに、ありますっと。
google で検索していたら、transformer asr japanese があった。
kotoba-tech/kotoba-whisper-v1.0 を ONNX に変換して動かしてみた。
1. 自分で転移学習をするなら、
August 2023, Fine-Tuning ASR Models for Japanese and Vietnamese by using OpenAI Whisper and Azure Speech Studio
2. そのまま使うなら、
kotoba-tech/kotoba-whisper-v1.0
ここのサンプルで、最近、判ったことだが、
torch_dtype = torch.bfloat16 if torch.cuda.is_available() else torch.float32
の部分は、使う GPU によっては、注意が必要みたいぞね。
おんちゃんの、GPU は、 GTX-1070 じゃが、この場合は、float16 は、使えないみたいぞね。
#torch_dtype = torch.bfloat16 if torch.cuda.is_available() else torch.float32
torch_dtype = torch.float32
こちらにすべきです。
これで、3.8 sec/f だったのが、 1.18 sec/f になったぞね。
日本語音声認識に特化したWhisperである kotoba-whisper-v1.0を早速試してみた
Kotoba-Whisper入門 - 日本語音声認識の新しい選択肢
結論を言えば、kotoba-whisper-v1.0 で、GTX-170 の場合、torch_dtype = torch.float32 で使うと、
リアルタイム MIC 入力で使えば、それなりに快適に動きます。
Yutube の怪談の動画の音声をスピーカーに出して、それをマイクで拾って遊んでいます。
まあ、間違いは、お愛嬌か。