Cliquez sur le bouton "Choisir les fichiers" ci-dessus et choisissez votre fichier VOCAB.
Vous verrez un aperçu, si disponible.
Cliquez sur le bouton "Convertir le fichier en..." pour extraire des informations textuelles.
Convertir VOCAB en un autre type de fichier
Pour convertir des fichiers de vocabulaire VOCAB en un autre format, vous avez besoin de SentencePiece ou d'un autre logiciel Développeur.
Convertir un fichier en VOCAB
Pour convertir d'autres formats de fichiers au type de fichier "Liste de vocabulaire de Machine Learning", vous avez besoin de SentencePiece ou de logiciel similaire.
À propos des fichiers VOCAB
Un fichier .VOCAB stocke la liste de vocabulaire ou les données de tokenizer utilisées par les modèles de traitement du langage naturel (NLP). Généralement générés par des bibliothèques de machine learning comme TensorFlow, SentencePiece ou fastText, ces fichiers associent des tokens de texte (mots, sous-mots ou caractères) à des identifiants numériques. Ils incluent souvent des scores de fréquence de mots pour aider le modèle d'IA à évaluer l'importance des tokens pendant l'entraînement ou l'inférence.
Le problème : Le format manque de standardisation et est très fragmenté. Certains fichiers .VOCAB sont de simples documents texte séparés par des tabulations, tandis que d'autres sont des objets binaires sérialisés créés par Python (similaires aux fichiers PKL). Les versions sérialisées sont totalement illisibles en dehors de l'environnement de codage spécifique qui les a créées. De plus, même les versions en texte brut sont difficiles à analyser, filtrer ou fusionner avec des logiciels de bureautique standards. Cela rend le débogage des problèmes de tokenisation ou l'inspection manuelle du vocabulaire d'un modèle très frustrant pour les développeurs et les data scientists.
La solution : Convertir le fichier débloque les données pour les inspecter et les partager. Pour l'analyse et le filtrage des données, convertis le .VOCAB en CSV pour l'ouvrir facilement dans un tableur. Pour l'intégration web et l'utilisation d'API, convertis-le en JSON. Pour une simple visualisation, extrais les tokens bruts en TXT. Glisse et dépose ton fichier pour l'analyser et le convertir - gratuitement, en ligne et sans installer de logiciel sur convert.guru.
Convert.Guru analyse votre fichier VOCAB, détecte le format exact et vous permet de lire le texte qu’il contient.
Les utilisateurs ont également converti des fichiers PB, TFR et LABELS.
FAQ
Si vous souhaitez convertir un fichier VOCAB en CSV, JSON, XML, YAML, YML, TOML, INI, CFG, CONF, DAT, DB ou SQL, vous pouvez utiliser SentencePiece ou un logiciel similaire de la catégorie « Stockage de vocabulaire de tokenizer NLP ». Dans le menu Fichier, recherchez Enregistrer sous… ou Exporter….
Pour convertir des fichiers DBF, XML, SQLITE, XLSX, SQL, TSV, ACCDB, YAML, MDB, CSV, ODS ou JSON en VOCAB, essayez SentencePiece ou un autre outil comparable dans la catégorie « Stockage de vocabulaire de tokenizer NLP ».
Le convertisseur VOCAB
Convert.Guru s’appuie sur l’une des bases de données de formats de fichiers les plus vastes et les plus réputées, entretenue depuis plus de 25 ans. Notre détection de format identifie VOCAB de manière fiable — même lorsque les fichiers sont mal nommés ou endommagés — et les convertit vers des formats courants. Directement dans le navigateur, sans inscription ni installation. Les fichiers téléversés sont automatiquement supprimés après la conversion. Le convertisseur VOCAB est développé en Europe.