Hugging Face 模型简介
下面是 Hugging Face 上各种模型格式对应的加载方式和推理方法,本文按文件类型分类说明,并给出具体代码示例:
- PyTorch
- Safetensors
- TensorFlow / Keras
- Flax / JAX
- ONNX
- TensorFlow.js
- GGUF(llama.cpp)
- 分词器(Tokenizer)
✅ 1. PyTorch (.bin, .pt, .pth)
使用 Hugging Face Transformers:
model_dir/目录中需要包含:pytorch_model.bin+config.json+ tokenizer 文件
✅ 2. Safetensors (.safetensors)
等价于 PyTorch 权重,但更安全。Transformers 会自动识别,无需特殊处理。
纯 PyTorch 加载:
✅ 3. TensorFlow / Keras (.h5, .pb, .ckpt)
Keras .h5:
SavedModel (saved_model.pb)
✅ 4. Flax / JAX (.msgpack)
需要使用 transformers 的 Flax 模型接口:
✅ 5. ONNX (.onnx)
使用 onnxruntime 推理:
✅ 6. TensorFlow.js (model.json + .bin)
在 浏览器中运行:
✅ 7. GGUF (.gguf)
用于 llama.cpp 项目中的大语言模型:
CLI 推理:
或使用 llama-cpp-python:
✅ 8. 分词器(Tokenizer)
Hugging Face 的 transformers 和 tokenizers 均可自动加载:
支持:
tokenizer.jsonvocab.txtmerges.txtsentencepiece.model等