Foadsf · February 2, 2026 22:09
diff --git a/README.md b/README.md
diff --git a/transcribe.py b/transcribe.py
 #!/usr/bin/env python3
 import argparse
 import sys
 import os
 import warnings
 import logging
 import torch
 from pathlib import Path
 from transformers import pipeline
 from rich.console import Console
 from rich.panel import Panel
 from rich.text import Text

 # --- CONFIGURATION & SILENCING ---
 # Suppress the noisy logs from TensorFlow/Transformers
 os.environ["TF_CPP_MIN_LOG_LEVEL"] = "3"
 warnings.filterwarnings("ignore")
 logging.getLogger("transformers").setLevel(logging.ERROR)

 # Initialize Rich Console
 console = Console()

 def setup_args():
    """Defines the CLI arguments."""
    parser = argparse.ArgumentParser(
        description="Transcribe audio files to text using OpenAI Whisper (CPU).",
        epilog="Example: python3 transcribe.py my_meeting.wav"
    )
    
    parser.add_argument(
        "input_file",
        help="Path to the audio file (wav, mp3, flac, etc.)",
        type=Path
    )
    
    parser.add_argument(
        "--model",
        default="openai/whisper-tiny",
        help="Whisper model size to use (default: openai/whisper-tiny). Try 'openai/whisper-base' for better accuracy.",
        type=str
    )

    parser.add_argument(
        "--lang",
        help="Force source language (e.g., 'en', 'fr'). If omitted, language is auto-detected.",
        default=None,
        type=str
    )

    return parser.parse_args()

 def transcribe_audio(audio_path, model_name, language=None):
    """
    Runs the transcription pipeline.
    Returns: (text, detected_language)
    """
    device = "cpu" # Force CPU as per your robust setup
    
    # Initialize pipeline
    # We use chunk_length_s=30 to handle long audio files correctly via sliding window
    pipe = pipeline(
        "automatic-speech-recognition",
        model=model_name,
        device=device,
        chunk_length_s=30 
    )

    # Configure generation arguments
    gen_kwargs = {}
    if language:
        gen_kwargs["language"] = language
    
    # Run Inference
    # return_timestamps=True is often required for long-form chunking logic to work best
    result = pipe(str(audio_path), batch_size=4, generate_kwargs=gen_kwargs, return_timestamps=True)
    
    return result["text"].strip()

 def main():
    args = setup_args()

    # --- 1. Validation ---
    if not args.input_file.exists():
        console.print(f"[bold red]Error:[/bold red] File '{args.input_file}' not found.")
        sys.exit(1)

    # Define output path (same directory, same name, .txt extension)
    output_file = args.input_file.with_suffix(".txt")

    # --- 2. Visual Header ---
    console.print(Panel(
        Text("Radxa Dragon • Audio Transcriber", justify="center", style="bold cyan"),
        border_style="cyan",
        expand=False
    ))

    # --- 3. Processing Loop ---
    try:
        with console.status(f"[bold green]Loading model '{args.model}'...[/bold green]", spinner="dots") as status:
            
            # A. Load Model & Transcribe
            status.update(f"[bold yellow]Transcribing '{args.input_file.name}'...[/bold yellow]\n[dim](This may take a moment for long files)[/dim]")
            
            transcript = transcribe_audio(args.input_file, args.model, args.lang)
            
            # B. Save to File
            status.update("[bold cyan]Saving output...[/bold cyan]")
            with open(output_file, "w", encoding="utf-8") as f:
                f.write(transcript)

        # --- 4. Success Output ---
        console.print(f"\n[bold green]✓ Success![/bold green]")
        console.print(f"  [dim]Input:[/dim]  {args.input_file.name}")
        console.print(f"  [dim]Output:[/dim] {output_file.name}")
        console.print(f"  [dim]Path:[/dim]   {output_file.parent}")
        
        # Print a snippet preview
        preview = (transcript[:150] + '...') if len(transcript) > 150 else transcript
        console.print(Panel(preview, title="Transcript Preview", border_style="green"))

    except Exception as e:
        console.print(f"\n[bold red]Fatal Error:[/bold red] {e}")
        sys.exit(1)

 if __name__ == "__main__":
    main()
Audio Length	Model	Time (CPU)	Realtime Factor
30s	`whisper-tiny`	~4s	~7.5x faster
30s	`whisper-base`	~12s	~2.5x faster
30s	`whisper-small`	~45s	~0.6x realtime
	#!/usr/bin/env python3
	import argparse
	import sys
	import os
	import warnings
	import logging
	import torch
	from pathlib import Path
	from transformers import pipeline
	from rich.console import Console
	from rich.panel import Panel
	from rich.text import Text

	# --- CONFIGURATION & SILENCING ---
	# Suppress the noisy logs from TensorFlow/Transformers
	os.environ["TF_CPP_MIN_LOG_LEVEL"] = "3"
	warnings.filterwarnings("ignore")
	logging.getLogger("transformers").setLevel(logging.ERROR)

	# Initialize Rich Console
	console = Console()

	def setup_args():
	"""Defines the CLI arguments."""
	parser = argparse.ArgumentParser(
	description="Transcribe audio files to text using OpenAI Whisper (CPU).",
	epilog="Example: python3 transcribe.py my_meeting.wav"
	)

	parser.add_argument(
	"input_file",
	help="Path to the audio file (wav, mp3, flac, etc.)",
	type=Path
	)

	parser.add_argument(
	"--model",
	default="openai/whisper-tiny",
	help="Whisper model size to use (default: openai/whisper-tiny). Try 'openai/whisper-base' for better accuracy.",
	type=str
	)

	parser.add_argument(
	"--lang",
	help="Force source language (e.g., 'en', 'fr'). If omitted, language is auto-detected.",
	default=None,
	type=str
	)

	return parser.parse_args()

	def transcribe_audio(audio_path, model_name, language=None):
	"""
	Runs the transcription pipeline.
	Returns: (text, detected_language)
	"""
	device = "cpu" # Force CPU as per your robust setup

	# Initialize pipeline
	# We use chunk_length_s=30 to handle long audio files correctly via sliding window
	pipe = pipeline(
	"automatic-speech-recognition",
	model=model_name,
	device=device,
	chunk_length_s=30
	)

	# Configure generation arguments
	gen_kwargs = {}
	if language:
	gen_kwargs["language"] = language

	# Run Inference
	# return_timestamps=True is often required for long-form chunking logic to work best
	result = pipe(str(audio_path), batch_size=4, generate_kwargs=gen_kwargs, return_timestamps=True)

	return result["text"].strip()

	def main():
	args = setup_args()

	# --- 1. Validation ---
	if not args.input_file.exists():
	console.print(f"[bold red]Error:[/bold red] File '{args.input_file}' not found.")
	sys.exit(1)

	# Define output path (same directory, same name, .txt extension)
	output_file = args.input_file.with_suffix(".txt")

	# --- 2. Visual Header ---
	console.print(Panel(
	Text("Radxa Dragon • Audio Transcriber", justify="center", style="bold cyan"),
	border_style="cyan",
	expand=False
	))

	# --- 3. Processing Loop ---
	try:
	with console.status(f"[bold green]Loading model '{args.model}'...[/bold green]", spinner="dots") as status:

	# A. Load Model & Transcribe
	status.update(f"[bold yellow]Transcribing '{args.input_file.name}'...[/bold yellow]\n[dim](This may take a moment for long files)[/dim]")

	transcript = transcribe_audio(args.input_file, args.model, args.lang)

	# B. Save to File
	status.update("[bold cyan]Saving output...[/bold cyan]")
	with open(output_file, "w", encoding="utf-8") as f:
	f.write(transcript)

	# --- 4. Success Output ---
	console.print(f"\n[bold green]✓ Success![/bold green]")
	console.print(f" [dim]Input:[/dim] {args.input_file.name}")
	console.print(f" [dim]Output:[/dim] {output_file.name}")
	console.print(f" [dim]Path:[/dim] {output_file.parent}")

	# Print a snippet preview
	preview = (transcript[:150] + '...') if len(transcript) > 150 else transcript
	console.print(Panel(preview, title="Transcript Preview", border_style="green"))

	except Exception as e:
	console.print(f"\n[bold red]Fatal Error:[/bold red] {e}")
	sys.exit(1)

	if __name__ == "__main__":
	main()