type
status
date
slug
summary
tags
category
icon
password

Meta-Llama-3-70B-Instruct-GGUF模型概述

 
使用llama.cpp发布的b2777进行量化。
所有量化均使用imatrix选项,数据集由Kalomaze提供在此
提示格式
从以下下载文件(而不是整个分支):
文件名
量化类型
文件大小
描述
Q8_0
74.97GB
极高质量,通常不需要,但这是最大可用量化。
Q6_K
57.88GB
非常高质量,几乎完美,推荐
Q5_K_M
49.94GB
高质量,推荐
Q5_K_S
48.65GB
高质量,推荐
Q4_K_M
42.52GB
良好质量,使用约4.83位每权重,推荐
Q4_K_S
40.34GB
稍低质量但更多空间节省,推荐
IQ4_NL
40.05GB
质量尚可,稍小于Q4_K_S,性能相似,推荐
IQ4_XS
37.90GB
质量尚可,比Q4_K_S更小,性能相似,推荐
Q3_K_L
37.14GB
质量较低但可用,适合低内存环境。
Q3_K_M
34.26GB
更低质量。
IQ3_M
31.93GB
中低质量,新方法性能尚可,接近Q3_K_M。
IQ3_S
30.91GB
低质量,新方法性能尚可,优于Q3_K_S量化,同样大小但性能更好。
Q3_K_S
30.91GB
低质量,不推荐。
IQ3_XS
29.30GB
低质量,新方法性能尚可,比Q3_K_S稍好。
IQ3_XXS
27.46GB
低质量,新方法性能尚可,接近Q3量化。
Q2_K
26.37GB
质量非常低但出乎意料的可用。
IQ2_M
24.11GB
质量非常低,使用最先进技术出乎意料的可用。
IQ2_S
22.24GB
质量非常低,使用最先进技术可用。
IQ2_XS
21.14GB
质量非常低,使用最先进技术可用。
IQ2_XXS
19.09GB
低质量,使用最先进技术可用。
IQ1_M
16.75GB
极低质量,推荐。
IQ1_S
15.34GB
极低质量,推荐。
使用huggingface-cli下载
首先,确保已安装hugginface-cli:
然后,可以下载特定文件:
如果模型大于50GB,则会拆分为多个文件。为了将它们全部下载到本地文件夹,运行:
可以指定新的本地目录(Meta-Llama-3-70B-Instruct-Q8_0)或下载到当前位置(./)
选择哪个文件?
Artefact2提供的出色性能图表写作在此
首先,确定你可以运行多大模型。需要确定你有多少RAM和/或VRAM。
如果希望模型运行尽可能快,应将整个模型放入GPU的VRAM中。选择比GPU总VRAM小1-2GB的量化文件。
如果希望最大质量,将系统RAM和GPU的VRAM相加,然后选择比总和小1-2GB的量化文件。
接下来,需要决定是使用I-quant还是K-quant。
如果不想太多思考,选择K-quant。这些格式为“QX_K_X”,如Q5_K_M。
如果希望更深入研究,可以查看这个非常有用的功能图表:
基本上,如果目标低于Q4,并且运行cuBLAS(Nvidia)或rocBLAS(AMD),则应关注I-quant。这些格式为IQX_X,如IQ3_M。这些较新,性能更佳。
I-quant也可用于CPU和Apple Metal,但比K-quant慢,因此需要权衡速度与性能。
I-quant不兼容Vulcan(也是AMD),所以如果有AMD显卡,请检查是否使用rocBLAS或Vulcan构建。目前,LM Studio有预览版支持ROCm,其他推理引擎有特定构建支持ROCm。
希望支持我的工作?请访问我的ko-fi页面:在此
OverEasy:加速零样本视觉模型创建与执行的Python框架Character.AI:引领大型语言模型效率、经济性和可扩展性的创新路径
Loading...