type
status
date
slug
summary
tags
category
icon
password
Meta-Llama-3-70B-Instruct-GGUF模型概述
所有量化均使用imatrix选项,数据集由Kalomaze提供在此
提示格式
从以下下载文件(而不是整个分支):
文件名 | 量化类型 | 文件大小 | 描述 |
Q8_0 | 74.97GB | 极高质量,通常不需要,但这是最大可用量化。 | |
Q6_K | 57.88GB | 非常高质量,几乎完美,推荐。 | |
Q5_K_M | 49.94GB | 高质量,推荐。 | |
Q5_K_S | 48.65GB | 高质量,推荐。 | |
Q4_K_M | 42.52GB | 良好质量,使用约4.83位每权重,推荐。 | |
Q4_K_S | 40.34GB | 稍低质量但更多空间节省,推荐。 | |
IQ4_NL | 40.05GB | 质量尚可,稍小于Q4_K_S,性能相似,推荐。 | |
IQ4_XS | 37.90GB | 质量尚可,比Q4_K_S更小,性能相似,推荐。 | |
Q3_K_L | 37.14GB | 质量较低但可用,适合低内存环境。 | |
Q3_K_M | 34.26GB | 更低质量。 | |
IQ3_M | 31.93GB | 中低质量,新方法性能尚可,接近Q3_K_M。 | |
IQ3_S | 30.91GB | 低质量,新方法性能尚可,优于Q3_K_S量化,同样大小但性能更好。 | |
Q3_K_S | 30.91GB | 低质量,不推荐。 | |
IQ3_XS | 29.30GB | 低质量,新方法性能尚可,比Q3_K_S稍好。 | |
IQ3_XXS | 27.46GB | 低质量,新方法性能尚可,接近Q3量化。 | |
Q2_K | 26.37GB | 质量非常低但出乎意料的可用。 | |
IQ2_M | 24.11GB | 质量非常低,使用最先进技术出乎意料的可用。 | |
IQ2_S | 22.24GB | 质量非常低,使用最先进技术可用。 | |
IQ2_XS | 21.14GB | 质量非常低,使用最先进技术可用。 | |
IQ2_XXS | 19.09GB | 低质量,使用最先进技术可用。 | |
IQ1_M | 16.75GB | 极低质量,不推荐。 | |
IQ1_S | 15.34GB | 极低质量,不推荐。 |
使用huggingface-cli下载
首先,确保已安装hugginface-cli:
然后,可以下载特定文件:
如果模型大于50GB,则会拆分为多个文件。为了将它们全部下载到本地文件夹,运行:
可以指定新的本地目录(Meta-Llama-3-70B-Instruct-Q8_0)或下载到当前位置(./)
选择哪个文件?
Artefact2提供的出色性能图表写作在此
首先,确定你可以运行多大模型。需要确定你有多少RAM和/或VRAM。
如果希望模型运行尽可能快,应将整个模型放入GPU的VRAM中。选择比GPU总VRAM小1-2GB的量化文件。
如果希望最大质量,将系统RAM和GPU的VRAM相加,然后选择比总和小1-2GB的量化文件。
接下来,需要决定是使用I-quant还是K-quant。
如果不想太多思考,选择K-quant。这些格式为“QX_K_X”,如Q5_K_M。
如果希望更深入研究,可以查看这个非常有用的功能图表:
基本上,如果目标低于Q4,并且运行cuBLAS(Nvidia)或rocBLAS(AMD),则应关注I-quant。这些格式为IQX_X,如IQ3_M。这些较新,性能更佳。
I-quant也可用于CPU和Apple Metal,但比K-quant慢,因此需要权衡速度与性能。
I-quant不兼容Vulcan(也是AMD),所以如果有AMD显卡,请检查是否使用rocBLAS或Vulcan构建。目前,LM Studio有预览版支持ROCm,其他推理引擎有特定构建支持ROCm。
希望支持我的工作?请访问我的ko-fi页面:在此
- 作者:Doiiars
- 链接:https://notion.doiiars.com/article/Meta-Llama-3-70B-Instruct-GGUF-model-overview
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章