Arabic (Egyptian) ASR Adapter: Nemotron 3.5 ASR fine-tuned for arz

Model Description

This model is an adapter-based fine-tune of nvidia/nemotron-3.5-asr-streaming-0.6b for Egyptian Arabic (arz) speech recognition. It uses a LinearAdapter on the encoder to adapt the multilingual Nemotron 3.5 ASR base model to Egyptian Arabic with minimal additional parameters.

The model transcribes speech in Arabic script (UTF-8) including Arabic letters, spaces, and common punctuation.

Model Details

Base Architecture: FastConformer-CacheAware-RNNT (Nemotron 3.5 ASR)
Base Parameters: ~600M (frozen)
Adapter Type: LinearAdapter (dim=64, swish activation)
Adapter Strategy: ResidualAddAdapterStrategy
Language: Egyptian Arabic (arz)
Sampling Rate: 16000 Hz

Training Details

Dataset

Source: Custom Egyptian Arabic speech dataset (2980 utterances)
Split: 2384 train / 298 dev / 298 test
Duration: Up to 15s per utterance

Training Configuration

Method: Linear adapter fine-tuning
Adapter Location: Encoder only
Adapter Dim: 64
Steps: 1000 (best checkpoint selected by val_wer)
Batch Size: 1 (per GPU, 2 GPUs)
Learning Rate: 1e-4
Optimizer: AdamW (CosineAnnealing schedule, warmup_ratio=0.1)
Augmentation: SpecAugment (freq_masks=2, time_masks=10)
Precision: bf16
Loss: RNNT

Training Command

python examples/asr/asr_cache_aware_streaming/speech_to_text_cache_aware_streaming_finetune.py \
    --config-path=/path/to/config \
    --config-name=arabic_arz_adapter

Performance

Word Error Rate (WER)

Model	Egyptian Arabic Dev Set
Base Nemotron 3.5 ASR	105.40% WER
This Adapter (arz fine-tune)	43.04% WER

Improvement: 62.36 percentage points (~59% relative reduction in WER)

Notes

Base model (English-only variant) was not exposed to Arabic during pre-training
The multilingual base model supports Arabic (ar-AR) but the English-only checkpoint shows near-total WER on Arabic
Fine-tuning with just ~2.4k utterances via adapter yields dramatic improvement

Usage

Using NVIDIA NeMo (Required)

This model requires the NeMo framework for inference.

import nemo.collections.asr as nemo_asr

# Load the fine-tuned adapter model
asr_model = nemo_asr.models.ASRModel.from_pretrained("Abdelkareem/arabic-arz-asr-adapter")

# Transcribe audio
transcriptions = asr_model.transcribe(["audio.wav"])

Model Loading Notes

The model uses adapter architecture — it contains adapter weights that modify the frozen Nemotron 3.5 ASR base model
Ensure you have the base model configuration available or use the provided .nemo file which is self-contained

ASR Model Evaluation Report

Date: 2026-06-05 Dataset: oddadmix/arabic-audio-collection-mostafa-mahmoud (4 samples, Egyptian Arabic) GPU: CUDA 13.2

Models Evaluated

#	Model	Type	Parameters
1	Nemotron 3.5 ASR Base	RNNT (NeMo)	600M
2	Nemotron 3.5 ASR + arz Adapter	RNNT + LinearAdapter (dim=64)	600M
3	OmniASR CTC 300M	CTC (Wav2Vec2)	300M
4	OmniASR CTC 1B	CTC (Wav2Vec2)	1B
5	OmniASR LLM 300M	Wav2Vec2 + LLaMA	300M
6	OmniASR LLM 1B	Wav2Vec2 + LLaMA	1B

Performance Metrics

Model	Avg time (s)	Total time (s)	RAM peak (GB)	VRAM peak (GB)
Nemotron 3.5 ASR Base	0.190	0.758	4.496	2.657
Nemotron + arz Adapter	0.193	0.773	4.496	2.657
omniASR_CTC_300M	0.196	0.782	5.742	0.727
omniASR_CTC_1B	0.436	1.744	5.732	2.036
omniASR_LLM_300M	8.779	35.114	5.753	3.348
omniASR_LLM_1B	9.121	36.485	4.013	4.603

Speed & Resource Summary

Fastest: Nemotron (base & adapter) and CTC-300M: ~0.19s per sample
Slowest: LLM models: ~9s per sample (45× slower)
Lowest VRAM: CTC-300M: 0.73 GB
Highest VRAM: LLM-1B: 4.60 GB

Sample Transcriptions

Sample 1 — lbFpdC-Q8Sk_chunk_4 (22.34s)

Reference:

لما يتشق الجبل ويتفتح، وتهجم تاني علينا بأعداد وآلاف مؤلفة. مش جايز دي تكون هي يأجوج ومأجوج المنتظرين في مكان ما، ما حدش عارف. و حتى علماء الغرب آآآ

Model	Hypothesis
Nemotron Base	لما يتشق الجبل ويتفتح وتهجم ثاني علينا بأعداد وآلاف مؤلف مش جايز دي تكون هي يأجوج ومأجوج المنتظرين في مكان ما حد شارك و حتى علماء الغرب آه
Nemotron + Adapter	لما يتشقل جبل ويتفتح وتهجم تاني علينا بأعداد وآلاف مؤلف مش جايز دي تكون هي يأجوج ومأجوج المنتظرين في مكان ما حدش اعرف علماء الغرب
omniASR_CTC_300M	لما يتشق القبل ويتفتح وتهقمتاني علينا بأعداد وآلاف مقلف مش قايز دي تكون هي يأقوق
omniASR_CTC_1B	لما يتشق الجبل ويتفتح وتهجم تاني علينا بأعداد وآلاف مؤلف مش جايز دي تكون هي يأجو
omniASR_LLM_300M	لما يتشق الجبل ويتفتح وتهجم تاني علينا بأعداد وآلاف مؤلف مش جايز دي تكون هي يأجو
omniASR_LLM_1B	لما يتشق الجبل ويتفتح وتهجم تاني علينا بأعداد وآلاف مؤلفة مش جايز دي تكون هي يأجوج ومأجوج المنتظرين في مكان ما محدش عارف وحتى علماء الغرب

Analysis:

Base model: gets "الجبل" ✓, "ثاني" (MSA form, not Egyptian), "آه" filler, "حد شارك" (wrong)
Adapter: gets "تاني" (Egyptian) ✓, but "يتشقل" instead of "يتشق"
LLM-1B closest to reference: "تاني" ✓, "مؤلفة" ✓ (correct feminine), "يأجوج" ✓, "محدش عارف" ✓

Sample 2 — lbFpdC-Q8Sk_chunk_5 (14.82s)

Reference:

كتاب العلم منهم بالذات والرويات العلمية دايما يعملوا روايات خرافية عن إنهم بيضة مش عارف كانت في جبل إيه وجه الإشعاع الذري عمل لها تنشيط وفقست وطلع منها.

Model	Hypothesis
Nemotron Base	كتاب العلم منهم بالذات والروايات العلمية دائماً يعملوا روايات خرافية عن إنهم آه بيضة مش عارف كانت في جبل إيه وجه الإشاعة الذري آه عمل لها تنشيط وفقست وطلع منها
Nemotron + Adapter	كتاب العلم منهم بالذات والروايات العلمية دائماً يعملوا روايات خرافية عن انهم بيضا مش عارف كانت في جبل إيه وجه الإشاع الذري عملها تنشيط وفقست وطلع منها
omniASR_LLM_1B	كتاب العلم منهم بالذات والروايات العلمية دائما يعملوا روايات خرافية عن أنهم بيضة مش عارف كانت في جبل إيه وجه الإشعاع الذري عمل لها تنشيط وفأسط وطلع منها

Sample 3 — lbFpdC-Q8Sk_chunk_7 (18.40s)

Reference:

يعني امكانية، ايه، امكانية إن يبقى فيه الحيوانات دي في حالة بيات شتوي وسبحان الخالق جايز تبقى ربنا يحفظ لها الحياة المدة دي، تاني ترد لها الحياة تاني، محدش عارف.

Model	Hypothesis
Nemotron Base	يعني إمكانية آه إمكانية إن يبقى فيه للحيوانات دي في حالة بيت شتوي وسبحان الخار جايز تبقى ربنا يحفظ لها الحياة المدة دي وثاني ترد لها الحياة تمام ما حدش عارف
Nemotron + Adapter	يعني إمكانية إمكانية ان يبقى في الحيوانات دي في حالة بياد شتوي و سبحان الخارج جايز تبقى ربنا يحفظ لها الحياة المدة دي تاني ترد لها الحياة تاني ما حدش عارف
omniASR_LLM_1B	يعني إمكانية إمكانية أن يبقى فيه الحيوانات دي في حالة بيات شتوي وسبحان الخارج جاي ربنا يحفظ لها الحياة لمدة دي تاني ترد لها الحياة تاني محدش عارف

Sample 4 — lbFpdC-Q8Sk_chunk_8 (20.58s)

Reference:

فده احتمال، لكن على أي حال محدش لقى منها دلوقتي حاجات أي أثر، إلا عظام وهياكل ورميم. طيب، لو كانت الكائنات اللي وصلت لهذه الدرجة من العمالقة والقوة انقرضت.

Model	Hypothesis
Nemotron Base	فده احتمال لكن على أي حال ما حدش لقى منها دي الوقت حاجات أي أثر إلا عظام وهياكل ورميم طيب لو كانت الكائنات اللي وصلت لهذه الدرجة من العملخة القوة انقرضت.
Nemotron + Adapter	فده احتمال لكن على أي حال ما حدش لقي منها دي الوقت حاجات أي أثر العظام وهياكل ورميم طيب لو كانت الكائنات اللي وصلت لهذه الدرجة من العملاخة القوة انقرضت
omniASR_LLM_1B	فده احتمال لكن على أي حال محدش لاقى منها دلوقتي حاجات أي أثر إلا عظام وهياكل ورميم طيب لو كانت الكائنات اللي وصلت لهذه الدرجة من العملاقة وقوة انقرضت

Observations on Fine-tuned Adapter vs Base

Aspect	Base Model	+ arz Adapter
Dialect	Mix of MSA + Egyptian ("ثاني")	More Egyptian ("تاني")
Filler words	"آه" inserted frequently	No filler words
Grammar	Better "فيه للحيوانات"	Simpler "في الحيوانات"
Speed	~0.190s	~0.193s (identical)
Diacritics	Slightly better	Mixed

The adapter reduces filler words and shifts toward Egyptian dialect, but overall quality is comparable on these 4 samples. The 62 pp WER improvement reported was measured on the full 33,599-utterance dataset.

Model Quality Ranking (Sample 1)

OmniASR LLM 1B — best: correct "مؤلفة", "يأجوج", "محدش عارف"
Nemotron Base — good: correct "يتشق الجبل", minor filler issue
Nemotron + Adapter — more Egyptian but slight encoder error "يتشقل"
OmniASR CTC 1B / LLM 300M — adequate: "يأجو" missing final "ج"
OmniASR CTC 300M — worst: "القبل", "تهقمتاني", "مقلف", "يأقوق"

Recommendation

Use Case	Model
Best accuracy	OmniASR LLM 1B
Fast + accurate	Nemotron Base or +Adapter (0.19s, 2.7 GB VRAM)
VRAM constrained (<1 GB)	CTC 300M (0.73 GB VRAM)
Balanced speed/accuracy	CTC 1B (0.44s, 2 GB VRAM)

Limitations

Data: Trained on limited data (~2.4k utterances). More diverse/larger datasets would improve robustness
Dialect: Optimized for Egyptian Arabic (arz). Performance on Modern Standard Arabic or other dialects not guaranteed
Audio: Optimized for 16kHz mono audio. Other formats may require resampling
Domain: Conversational speech from prompt-based recordings

Downloads last month: 46