Instructions to use Abdelkareem/Ara-nemotron-3.5-asr-streaming-0.6b with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- NeMo
How to use Abdelkareem/Ara-nemotron-3.5-asr-streaming-0.6b with NeMo:
import nemo.collections.asr as nemo_asr asr_model = nemo_asr.models.ASRModel.from_pretrained("Abdelkareem/Ara-nemotron-3.5-asr-streaming-0.6b") transcriptions = asr_model.transcribe(["file.wav"]) - Notebooks
- Google Colab
- Kaggle
- Arabic (Egyptian) ASR Adapter: Nemotron 3.5 ASR fine-tuned for arz
Arabic (Egyptian) ASR Adapter: Nemotron 3.5 ASR fine-tuned for arz
Model Description
This model is an adapter-based fine-tune of nvidia/nemotron-3.5-asr-streaming-0.6b for Egyptian Arabic (arz) speech recognition. It uses a LinearAdapter on the encoder to adapt the multilingual Nemotron 3.5 ASR base model to Egyptian Arabic with minimal additional parameters.
The model transcribes speech in Arabic script (UTF-8) including Arabic letters, spaces, and common punctuation.
Model Details
- Base Architecture: FastConformer-CacheAware-RNNT (Nemotron 3.5 ASR)
- Base Parameters: ~600M (frozen)
- Adapter Type: LinearAdapter (dim=64, swish activation)
- Adapter Strategy: ResidualAddAdapterStrategy
- Language: Egyptian Arabic (arz)
- Sampling Rate: 16000 Hz
Training Details
Dataset
- Source: Custom Egyptian Arabic speech dataset (2980 utterances)
- Split: 2384 train / 298 dev / 298 test
- Duration: Up to 15s per utterance
Training Configuration
- Method: Linear adapter fine-tuning
- Adapter Location: Encoder only
- Adapter Dim: 64
- Steps: 1000 (best checkpoint selected by val_wer)
- Batch Size: 1 (per GPU, 2 GPUs)
- Learning Rate: 1e-4
- Optimizer: AdamW (CosineAnnealing schedule, warmup_ratio=0.1)
- Augmentation: SpecAugment (freq_masks=2, time_masks=10)
- Precision: bf16
- Loss: RNNT
Training Command
python examples/asr/asr_cache_aware_streaming/speech_to_text_cache_aware_streaming_finetune.py \
--config-path=/path/to/config \
--config-name=arabic_arz_adapter
Performance
Word Error Rate (WER)
| Model | Egyptian Arabic Dev Set |
|---|---|
| Base Nemotron 3.5 ASR | 105.40% WER |
| This Adapter (arz fine-tune) | 43.04% WER |
Improvement: 62.36 percentage points (~59% relative reduction in WER)
Notes
- Base model (English-only variant) was not exposed to Arabic during pre-training
- The multilingual base model supports Arabic (ar-AR) but the English-only checkpoint shows near-total WER on Arabic
- Fine-tuning with just ~2.4k utterances via adapter yields dramatic improvement
Usage
Using NVIDIA NeMo (Required)
This model requires the NeMo framework for inference.
import nemo.collections.asr as nemo_asr
# Load the fine-tuned adapter model
asr_model = nemo_asr.models.ASRModel.from_pretrained("Abdelkareem/arabic-arz-asr-adapter")
# Transcribe audio
transcriptions = asr_model.transcribe(["audio.wav"])
Model Loading Notes
- The model uses adapter architecture — it contains adapter weights that modify the frozen Nemotron 3.5 ASR base model
- Ensure you have the base model configuration available or use the provided
.nemofile which is self-contained
ASR Model Evaluation Report
Date: 2026-06-05 Dataset: oddadmix/arabic-audio-collection-mostafa-mahmoud (4 samples, Egyptian Arabic) GPU: CUDA 13.2
Models Evaluated
| # | Model | Type | Parameters |
|---|---|---|---|
| 1 | Nemotron 3.5 ASR Base | RNNT (NeMo) | 600M |
| 2 | Nemotron 3.5 ASR + arz Adapter | RNNT + LinearAdapter (dim=64) | 600M |
| 3 | OmniASR CTC 300M | CTC (Wav2Vec2) | 300M |
| 4 | OmniASR CTC 1B | CTC (Wav2Vec2) | 1B |
| 5 | OmniASR LLM 300M | Wav2Vec2 + LLaMA | 300M |
| 6 | OmniASR LLM 1B | Wav2Vec2 + LLaMA | 1B |
Performance Metrics
| Model | Avg time (s) | Total time (s) | RAM peak (GB) | VRAM peak (GB) |
|---|---|---|---|---|
| Nemotron 3.5 ASR Base | 0.190 | 0.758 | 4.496 | 2.657 |
| Nemotron + arz Adapter | 0.193 | 0.773 | 4.496 | 2.657 |
| omniASR_CTC_300M | 0.196 | 0.782 | 5.742 | 0.727 |
| omniASR_CTC_1B | 0.436 | 1.744 | 5.732 | 2.036 |
| omniASR_LLM_300M | 8.779 | 35.114 | 5.753 | 3.348 |
| omniASR_LLM_1B | 9.121 | 36.485 | 4.013 | 4.603 |
Speed & Resource Summary
- Fastest: Nemotron (base & adapter) and CTC-300M: ~0.19s per sample
- Slowest: LLM models: ~9s per sample (45× slower)
- Lowest VRAM: CTC-300M: 0.73 GB
- Highest VRAM: LLM-1B: 4.60 GB
Sample Transcriptions
Sample 1 — lbFpdC-Q8Sk_chunk_4 (22.34s)
Reference:
لما يتشق الجبل ويتفتح، وتهجم تاني علينا بأعداد وآلاف مؤلفة. مش جايز دي تكون هي يأجوج ومأجوج المنتظرين في مكان ما، ما حدش عارف. و حتى علماء الغرب آآآ
| Model | Hypothesis |
|---|---|
| Nemotron Base | لما يتشق الجبل ويتفتح وتهجم ثاني علينا بأعداد وآلاف مؤلف مش جايز دي تكون هي يأجوج ومأجوج المنتظرين في مكان ما حد شارك و حتى علماء الغرب آه |
| Nemotron + Adapter | لما يتشقل جبل ويتفتح وتهجم تاني علينا بأعداد وآلاف مؤلف مش جايز دي تكون هي يأجوج ومأجوج المنتظرين في مكان ما حدش اعرف علماء الغرب |
| omniASR_CTC_300M | لما يتشق القبل ويتفتح وتهقمتاني علينا بأعداد وآلاف مقلف مش قايز دي تكون هي يأقوق |
| omniASR_CTC_1B | لما يتشق الجبل ويتفتح وتهجم تاني علينا بأعداد وآلاف مؤلف مش جايز دي تكون هي يأجو |
| omniASR_LLM_300M | لما يتشق الجبل ويتفتح وتهجم تاني علينا بأعداد وآلاف مؤلف مش جايز دي تكون هي يأجو |
| omniASR_LLM_1B | لما يتشق الجبل ويتفتح وتهجم تاني علينا بأعداد وآلاف مؤلفة مش جايز دي تكون هي يأجوج ومأجوج المنتظرين في مكان ما محدش عارف وحتى علماء الغرب |
Analysis:
- Base model: gets "الجبل" ✓, "ثاني" (MSA form, not Egyptian), "آه" filler, "حد شارك" (wrong)
- Adapter: gets "تاني" (Egyptian) ✓, but "يتشقل" instead of "يتشق"
- LLM-1B closest to reference: "تاني" ✓, "مؤلفة" ✓ (correct feminine), "يأجوج" ✓, "محدش عارف" ✓
Sample 2 — lbFpdC-Q8Sk_chunk_5 (14.82s)
Reference:
كتاب العلم منهم بالذات والرويات العلمية دايما يعملوا روايات خرافية عن إنهم بيضة مش عارف كانت في جبل إيه وجه الإشعاع الذري عمل لها تنشيط وفقست وطلع منها.
| Model | Hypothesis |
|---|---|
| Nemotron Base | كتاب العلم منهم بالذات والروايات العلمية دائماً يعملوا روايات خرافية عن إنهم آه بيضة مش عارف كانت في جبل إيه وجه الإشاعة الذري آه عمل لها تنشيط وفقست وطلع منها |
| Nemotron + Adapter | كتاب العلم منهم بالذات والروايات العلمية دائماً يعملوا روايات خرافية عن انهم بيضا مش عارف كانت في جبل إيه وجه الإشاع الذري عملها تنشيط وفقست وطلع منها |
| omniASR_LLM_1B | كتاب العلم منهم بالذات والروايات العلمية دائما يعملوا روايات خرافية عن أنهم بيضة مش عارف كانت في جبل إيه وجه الإشعاع الذري عمل لها تنشيط وفأسط وطلع منها |
Sample 3 — lbFpdC-Q8Sk_chunk_7 (18.40s)
Reference:
يعني امكانية، ايه، امكانية إن يبقى فيه الحيوانات دي في حالة بيات شتوي وسبحان الخالق جايز تبقى ربنا يحفظ لها الحياة المدة دي، تاني ترد لها الحياة تاني، محدش عارف.
| Model | Hypothesis |
|---|---|
| Nemotron Base | يعني إمكانية آه إمكانية إن يبقى فيه للحيوانات دي في حالة بيت شتوي وسبحان الخار جايز تبقى ربنا يحفظ لها الحياة المدة دي وثاني ترد لها الحياة تمام ما حدش عارف |
| Nemotron + Adapter | يعني إمكانية إمكانية ان يبقى في الحيوانات دي في حالة بياد شتوي و سبحان الخارج جايز تبقى ربنا يحفظ لها الحياة المدة دي تاني ترد لها الحياة تاني ما حدش عارف |
| omniASR_LLM_1B | يعني إمكانية إمكانية أن يبقى فيه الحيوانات دي في حالة بيات شتوي وسبحان الخارج جاي ربنا يحفظ لها الحياة لمدة دي تاني ترد لها الحياة تاني محدش عارف |
Sample 4 — lbFpdC-Q8Sk_chunk_8 (20.58s)
Reference:
فده احتمال، لكن على أي حال محدش لقى منها دلوقتي حاجات أي أثر، إلا عظام وهياكل ورميم. طيب، لو كانت الكائنات اللي وصلت لهذه الدرجة من العمالقة والقوة انقرضت.
| Model | Hypothesis |
|---|---|
| Nemotron Base | فده احتمال لكن على أي حال ما حدش لقى منها دي الوقت حاجات أي أثر إلا عظام وهياكل ورميم طيب لو كانت الكائنات اللي وصلت لهذه الدرجة من العملخة القوة انقرضت. |
| Nemotron + Adapter | فده احتمال لكن على أي حال ما حدش لقي منها دي الوقت حاجات أي أثر العظام وهياكل ورميم طيب لو كانت الكائنات اللي وصلت لهذه الدرجة من العملاخة القوة انقرضت |
| omniASR_LLM_1B | فده احتمال لكن على أي حال محدش لاقى منها دلوقتي حاجات أي أثر إلا عظام وهياكل ورميم طيب لو كانت الكائنات اللي وصلت لهذه الدرجة من العملاقة وقوة انقرضت |
Observations on Fine-tuned Adapter vs Base
| Aspect | Base Model | + arz Adapter |
|---|---|---|
| Dialect | Mix of MSA + Egyptian ("ثاني") | More Egyptian ("تاني") |
| Filler words | "آه" inserted frequently | No filler words |
| Grammar | Better "فيه للحيوانات" | Simpler "في الحيوانات" |
| Speed | ~0.190s | ~0.193s (identical) |
| Diacritics | Slightly better | Mixed |
The adapter reduces filler words and shifts toward Egyptian dialect, but overall quality is comparable on these 4 samples. The 62 pp WER improvement reported was measured on the full 33,599-utterance dataset.
Model Quality Ranking (Sample 1)
- OmniASR LLM 1B — best: correct "مؤلفة", "يأجوج", "محدش عارف"
- Nemotron Base — good: correct "يتشق الجبل", minor filler issue
- Nemotron + Adapter — more Egyptian but slight encoder error "يتشقل"
- OmniASR CTC 1B / LLM 300M — adequate: "يأجو" missing final "ج"
- OmniASR CTC 300M — worst: "القبل", "تهقمتاني", "مقلف", "يأقوق"
Recommendation
| Use Case | Model |
|---|---|
| Best accuracy | OmniASR LLM 1B |
| Fast + accurate | Nemotron Base or +Adapter (0.19s, 2.7 GB VRAM) |
| VRAM constrained (<1 GB) | CTC 300M (0.73 GB VRAM) |
| Balanced speed/accuracy | CTC 1B (0.44s, 2 GB VRAM) |
Limitations
- Data: Trained on limited data (~2.4k utterances). More diverse/larger datasets would improve robustness
- Dialect: Optimized for Egyptian Arabic (arz). Performance on Modern Standard Arabic or other dialects not guaranteed
- Audio: Optimized for 16kHz mono audio. Other formats may require resampling
- Domain: Conversational speech from prompt-based recordings
- Downloads last month
- 46