| 1234567891011121314151617181920212223242526 |
- import os
- from pathlib import Path
- from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
- DATASET_PATH = Path("/work/models/data/dataset.json")
- OUTPUT_DIR = Path("/work/models/nllb-custom")
- BASE_MODEL = "facebook/nllb-200-distilled-600M"
- def train_from_local_dataset() -> str:
- """
- Placeholder de fine-tuning NLLB. Pour un environnement CPU et rapide, on se contente
- de préparer le répertoire custom avec le tokenizer et le modèle de base afin
- de permettre les tests de pipeline. Dans un environnement GPU, remplacer par un
- entraînement réel (Trainer, datasets, etc.).
- """
- OUTPUT_DIR.mkdir(parents=True, exist_ok=True)
- tok = AutoTokenizer.from_pretrained(BASE_MODEL)
- mdl = AutoModelForSeq2SeqLM.from_pretrained(BASE_MODEL)
- tok.save_pretrained(OUTPUT_DIR)
- mdl.save_pretrained(OUTPUT_DIR)
- return str(OUTPUT_DIR)
|