Arabic (Egyptian) ASR Adapter: Nemotron 3.5 ASR fine-tuned for arz

Model Description

This model is an adapter-based fine-tune of nvidia/nemotron-3.5-asr-streaming-0.6b for Egyptian Arabic (arz) speech recognition. It uses a LinearAdapter on the encoder to adapt the multilingual Nemotron 3.5 ASR base model to Egyptian Arabic with minimal additional parameters.

The model transcribes speech in Arabic script (UTF-8) including Arabic letters, spaces, and common punctuation.

Model Details

  • Base Architecture: FastConformer-CacheAware-RNNT (Nemotron 3.5 ASR)
  • Base Parameters: ~600M (frozen)
  • Adapter Type: LinearAdapter (dim=64, swish activation)
  • Adapter Strategy: ResidualAddAdapterStrategy
  • Language: Egyptian Arabic (arz)
  • Sampling Rate: 16000 Hz

Training Details

Dataset

  • Source: Custom Egyptian Arabic speech dataset (2980 utterances)
  • Split: 2384 train / 298 dev / 298 test
  • Duration: Up to 15s per utterance

Training Configuration

  • Method: Linear adapter fine-tuning
  • Adapter Location: Encoder only
  • Adapter Dim: 64
  • Steps: 1000 (best checkpoint selected by val_wer)
  • Batch Size: 1 (per GPU, 2 GPUs)
  • Learning Rate: 1e-4
  • Optimizer: AdamW (CosineAnnealing schedule, warmup_ratio=0.1)
  • Augmentation: SpecAugment (freq_masks=2, time_masks=10)
  • Precision: bf16
  • Loss: RNNT

Training Command

python examples/asr/asr_cache_aware_streaming/speech_to_text_cache_aware_streaming_finetune.py \
    --config-path=/path/to/config \
    --config-name=arabic_arz_adapter

Performance

Word Error Rate (WER)

Model Egyptian Arabic Dev Set
Base Nemotron 3.5 ASR 105.40% WER
This Adapter (arz fine-tune) 43.04% WER

Improvement: 62.36 percentage points (~59% relative reduction in WER)

Notes

  • Base model (English-only variant) was not exposed to Arabic during pre-training
  • The multilingual base model supports Arabic (ar-AR) but the English-only checkpoint shows near-total WER on Arabic
  • Fine-tuning with just ~2.4k utterances via adapter yields dramatic improvement

Usage

Using NVIDIA NeMo (Required)

This model requires the NeMo framework for inference.

import nemo.collections.asr as nemo_asr

# Load the fine-tuned adapter model
asr_model = nemo_asr.models.ASRModel.from_pretrained("Abdelkareem/arabic-arz-asr-adapter")

# Transcribe audio
transcriptions = asr_model.transcribe(["audio.wav"])

Model Loading Notes

  • The model uses adapter architecture — it contains adapter weights that modify the frozen Nemotron 3.5 ASR base model
  • Ensure you have the base model configuration available or use the provided .nemo file which is self-contained

ASR Model Evaluation Report

Date: 2026-06-05 Dataset: oddadmix/arabic-audio-collection-mostafa-mahmoud (4 samples, Egyptian Arabic) GPU: CUDA 13.2

Models Evaluated

# Model Type Parameters
1 Nemotron 3.5 ASR Base RNNT (NeMo) 600M
2 Nemotron 3.5 ASR + arz Adapter RNNT + LinearAdapter (dim=64) 600M
3 OmniASR CTC 300M CTC (Wav2Vec2) 300M
4 OmniASR CTC 1B CTC (Wav2Vec2) 1B
5 OmniASR LLM 300M Wav2Vec2 + LLaMA 300M
6 OmniASR LLM 1B Wav2Vec2 + LLaMA 1B

Performance Metrics

Model Avg time (s) Total time (s) RAM peak (GB) VRAM peak (GB)
Nemotron 3.5 ASR Base 0.190 0.758 4.496 2.657
Nemotron + arz Adapter 0.193 0.773 4.496 2.657
omniASR_CTC_300M 0.196 0.782 5.742 0.727
omniASR_CTC_1B 0.436 1.744 5.732 2.036
omniASR_LLM_300M 8.779 35.114 5.753 3.348
omniASR_LLM_1B 9.121 36.485 4.013 4.603

Speed & Resource Summary

  • Fastest: Nemotron (base & adapter) and CTC-300M: ~0.19s per sample
  • Slowest: LLM models: ~9s per sample (45× slower)
  • Lowest VRAM: CTC-300M: 0.73 GB
  • Highest VRAM: LLM-1B: 4.60 GB

Sample Transcriptions

Sample 1 — lbFpdC-Q8Sk_chunk_4 (22.34s)

Reference:

لما يتشق الجبل ويتفتح، وتهجم تاني علينا بأعداد وآلاف مؤلفة. مش جايز دي تكون هي يأجوج ومأجوج المنتظرين في مكان ما، ما حدش عارف. و حتى علماء الغرب آآآ

Model Hypothesis
Nemotron Base لما يتشق الجبل ويتفتح وتهجم ثاني علينا بأعداد وآلاف مؤلف مش جايز دي تكون هي يأجوج ومأجوج المنتظرين في مكان ما حد شارك و حتى علماء الغرب آه
Nemotron + Adapter لما يتشقل جبل ويتفتح وتهجم تاني علينا بأعداد وآلاف مؤلف مش جايز دي تكون هي يأجوج ومأجوج المنتظرين في مكان ما حدش اعرف علماء الغرب
omniASR_CTC_300M لما يتشق القبل ويتفتح وتهقمتاني علينا بأعداد وآلاف مقلف مش قايز دي تكون هي يأقوق
omniASR_CTC_1B لما يتشق الجبل ويتفتح وتهجم تاني علينا بأعداد وآلاف مؤلف مش جايز دي تكون هي يأجو
omniASR_LLM_300M لما يتشق الجبل ويتفتح وتهجم تاني علينا بأعداد وآلاف مؤلف مش جايز دي تكون هي يأجو
omniASR_LLM_1B لما يتشق الجبل ويتفتح وتهجم تاني علينا بأعداد وآلاف مؤلفة مش جايز دي تكون هي يأجوج ومأجوج المنتظرين في مكان ما محدش عارف وحتى علماء الغرب

Analysis:

  • Base model: gets "الجبل" ✓, "ثاني" (MSA form, not Egyptian), "آه" filler, "حد شارك" (wrong)
  • Adapter: gets "تاني" (Egyptian) ✓, but "يتشقل" instead of "يتشق"
  • LLM-1B closest to reference: "تاني" ✓, "مؤلفة" ✓ (correct feminine), "يأجوج" ✓, "محدش عارف" ✓

Sample 2 — lbFpdC-Q8Sk_chunk_5 (14.82s)

Reference:

كتاب العلم منهم بالذات والرويات العلمية دايما يعملوا روايات خرافية عن إنهم بيضة مش عارف كانت في جبل إيه وجه الإشعاع الذري عمل لها تنشيط وفقست وطلع منها.

Model Hypothesis
Nemotron Base كتاب العلم منهم بالذات والروايات العلمية دائماً يعملوا روايات خرافية عن إنهم آه بيضة مش عارف كانت في جبل إيه وجه الإشاعة الذري آه عمل لها تنشيط وفقست وطلع منها
Nemotron + Adapter كتاب العلم منهم بالذات والروايات العلمية دائماً يعملوا روايات خرافية عن انهم بيضا مش عارف كانت في جبل إيه وجه الإشاع الذري عملها تنشيط وفقست وطلع منها
omniASR_LLM_1B كتاب العلم منهم بالذات والروايات العلمية دائما يعملوا روايات خرافية عن أنهم بيضة مش عارف كانت في جبل إيه وجه الإشعاع الذري عمل لها تنشيط وفأسط وطلع منها

Sample 3 — lbFpdC-Q8Sk_chunk_7 (18.40s)

Reference:

يعني امكانية، ايه، امكانية إن يبقى فيه الحيوانات دي في حالة بيات شتوي وسبحان الخالق جايز تبقى ربنا يحفظ لها الحياة المدة دي، تاني ترد لها الحياة تاني، محدش عارف.

Model Hypothesis
Nemotron Base يعني إمكانية آه إمكانية إن يبقى فيه للحيوانات دي في حالة بيت شتوي وسبحان الخار جايز تبقى ربنا يحفظ لها الحياة المدة دي وثاني ترد لها الحياة تمام ما حدش عارف
Nemotron + Adapter يعني إمكانية إمكانية ان يبقى في الحيوانات دي في حالة بياد شتوي و سبحان الخارج جايز تبقى ربنا يحفظ لها الحياة المدة دي تاني ترد لها الحياة تاني ما حدش عارف
omniASR_LLM_1B يعني إمكانية إمكانية أن يبقى فيه الحيوانات دي في حالة بيات شتوي وسبحان الخارج جاي ربنا يحفظ لها الحياة لمدة دي تاني ترد لها الحياة تاني محدش عارف

Sample 4 — lbFpdC-Q8Sk_chunk_8 (20.58s)

Reference:

فده احتمال، لكن على أي حال محدش لقى منها دلوقتي حاجات أي أثر، إلا عظام وهياكل ورميم. طيب، لو كانت الكائنات اللي وصلت لهذه الدرجة من العمالقة والقوة انقرضت.

Model Hypothesis
Nemotron Base فده احتمال لكن على أي حال ما حدش لقى منها دي الوقت حاجات أي أثر إلا عظام وهياكل ورميم طيب لو كانت الكائنات اللي وصلت لهذه الدرجة من العملخة القوة انقرضت.
Nemotron + Adapter فده احتمال لكن على أي حال ما حدش لقي منها دي الوقت حاجات أي أثر العظام وهياكل ورميم طيب لو كانت الكائنات اللي وصلت لهذه الدرجة من العملاخة القوة انقرضت
omniASR_LLM_1B فده احتمال لكن على أي حال محدش لاقى منها دلوقتي حاجات أي أثر إلا عظام وهياكل ورميم طيب لو كانت الكائنات اللي وصلت لهذه الدرجة من العملاقة وقوة انقرضت

Observations on Fine-tuned Adapter vs Base

Aspect Base Model + arz Adapter
Dialect Mix of MSA + Egyptian ("ثاني") More Egyptian ("تاني")
Filler words "آه" inserted frequently No filler words
Grammar Better "فيه للحيوانات" Simpler "في الحيوانات"
Speed ~0.190s ~0.193s (identical)
Diacritics Slightly better Mixed

The adapter reduces filler words and shifts toward Egyptian dialect, but overall quality is comparable on these 4 samples. The 62 pp WER improvement reported was measured on the full 33,599-utterance dataset.

Model Quality Ranking (Sample 1)

  1. OmniASR LLM 1B — best: correct "مؤلفة", "يأجوج", "محدش عارف"
  2. Nemotron Base — good: correct "يتشق الجبل", minor filler issue
  3. Nemotron + Adapter — more Egyptian but slight encoder error "يتشقل"
  4. OmniASR CTC 1B / LLM 300M — adequate: "يأجو" missing final "ج"
  5. OmniASR CTC 300M — worst: "القبل", "تهقمتاني", "مقلف", "يأقوق"

Recommendation

Use Case Model
Best accuracy OmniASR LLM 1B
Fast + accurate Nemotron Base or +Adapter (0.19s, 2.7 GB VRAM)
VRAM constrained (<1 GB) CTC 300M (0.73 GB VRAM)
Balanced speed/accuracy CTC 1B (0.44s, 2 GB VRAM)

Limitations

  • Data: Trained on limited data (~2.4k utterances). More diverse/larger datasets would improve robustness
  • Dialect: Optimized for Egyptian Arabic (arz). Performance on Modern Standard Arabic or other dialects not guaranteed
  • Audio: Optimized for 16kHz mono audio. Other formats may require resampling
  • Domain: Conversational speech from prompt-based recordings
Downloads last month
46
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support