Meta-Llama-3-70B-Instruct-GGUF模型概述

type

status

date

slug

summary

Meta-Llama-3-70B-Instruct-GGUF模型概述

使用llama.cpp发布的b2777进行量化。

原始模型：Meta-Llama-3-70B-Instruct

所有量化均使用imatrix选项，数据集由Kalomaze提供在此

提示格式

从以下下载文件（而不是整个分支）：

文件名	量化类型	文件大小	描述
Meta-Llama-3-70B-Instruct-Q8_0.gguf	Q8_0	74.97GB	极高质量，通常不需要，但这是最大可用量化。
Meta-Llama-3-70B-Instruct-Q6_K.gguf	Q6_K	57.88GB	非常高质量，几乎完美，推荐。
Meta-Llama-3-70B-Instruct-Q5_K_M.gguf	Q5_K_M	49.94GB	高质量，推荐。
Meta-Llama-3-70B-Instruct-Q5_K_S.gguf	Q5_K_S	48.65GB	高质量，推荐。
Meta-Llama-3-70B-Instruct-Q4_K_M.gguf	Q4_K_M	42.52GB	良好质量，使用约4.83位每权重，推荐。
Meta-Llama-3-70B-Instruct-Q4_K_S.gguf	Q4_K_S	40.34GB	稍低质量但更多空间节省，推荐。
Meta-Llama-3-70B-Instruct-IQ4_NL.gguf	IQ4_NL	40.05GB	质量尚可，稍小于Q4_K_S，性能相似，推荐。
Meta-Llama-3-70B-Instruct-IQ4_XS.gguf	IQ4_XS	37.90GB	质量尚可，比Q4_K_S更小，性能相似，推荐。
Meta-Llama-3-70B-Instruct-Q3_K_L.gguf	Q3_K_L	37.14GB	质量较低但可用，适合低内存环境。
Meta-Llama-3-70B-Instruct-Q3_K_M.gguf	Q3_K_M	34.26GB	更低质量。
Meta-Llama-3-70B-Instruct-IQ3_M.gguf	IQ3_M	31.93GB	中低质量，新方法性能尚可，接近Q3_K_M。
Meta-Llama-3-70B-Instruct-IQ3_S.gguf	IQ3_S	30.91GB	低质量，新方法性能尚可，优于Q3_K_S量化，同样大小但性能更好。
Meta-Llama-3-70B-Instruct-Q3_K_S.gguf	Q3_K_S	30.91GB	低质量，不推荐。
Meta-Llama-3-70B-Instruct-IQ3_XS.gguf	IQ3_XS	29.30GB	低质量，新方法性能尚可，比Q3_K_S稍好。
Meta-Llama-3-70B-Instruct-IQ3_XXS.gguf	IQ3_XXS	27.46GB	低质量，新方法性能尚可，接近Q3量化。
Meta-Llama-3-70B-Instruct-Q2_K.gguf	Q2_K	26.37GB	质量非常低但出乎意料的可用。
Meta-Llama-3-70B-Instruct-IQ2_M.gguf	IQ2_M	24.11GB	质量非常低，使用最先进技术出乎意料的可用。
Meta-Llama-3-70B-Instruct-IQ2_S.gguf	IQ2_S	22.24GB	质量非常低，使用最先进技术可用。
Meta-Llama-3-70B-Instruct-IQ2_XS.gguf	IQ2_XS	21.14GB	质量非常低，使用最先进技术可用。
Meta-Llama-3-70B-Instruct-IQ2_XXS.gguf	IQ2_XXS	19.09GB	低质量，使用最先进技术可用。
Meta-Llama-3-70B-Instruct-IQ1_M.gguf	IQ1_M	16.75GB	极低质量，不推荐。
Meta-Llama-3-70B-Instruct-IQ1_S.gguf	IQ1_S	15.34GB	极低质量，不推荐。

使用huggingface-cli下载

首先，确保已安装hugginface-cli：

然后，可以下载特定文件：

如果模型大于50GB，则会拆分为多个文件。为了将它们全部下载到本地文件夹，运行：

可以指定新的本地目录（Meta-Llama-3-70B-Instruct-Q8_0）或下载到当前位置（./）

选择哪个文件？

Artefact2提供的出色性能图表写作在此

首先，确定你可以运行多大模型。需要确定你有多少RAM和/或VRAM。

如果希望模型运行尽可能快，应将整个模型放入GPU的VRAM中。选择比GPU总VRAM小1-2GB的量化文件。

如果希望最大质量，将系统RAM和GPU的VRAM相加，然后选择比总和小1-2GB的量化文件。

接下来，需要决定是使用I-quant还是K-quant。

如果不想太多思考，选择K-quant。这些格式为“QX_K_X”，如Q5_K_M。

如果希望更深入研究，可以查看这个非常有用的功能图表：

llama.cpp功能矩阵

基本上，如果目标低于Q4，并且运行cuBLAS（Nvidia）或rocBLAS（AMD），则应关注I-quant。这些格式为IQX_X，如IQ3_M。这些较新，性能更佳。

I-quant也可用于CPU和Apple Metal，但比K-quant慢，因此需要权衡速度与性能。

I-quant不兼容Vulcan（也是AMD），所以如果有AMD显卡，请检查是否使用rocBLAS或Vulcan构建。目前，LM Studio有预览版支持ROCm，其他推理引擎有特定构建支持ROCm。

希望支持我的工作？请访问我的ko-fi页面：在此