paulwong

My Links

Blog Stats

Posts - 1198
Stories - 10
Comments - 108
Trackbacks - 0

常用鏈接

留言簿(67)

隨筆分類(1393)

隨筆檔案(1151)

文章分類(7)

文章檔案(10)

相冊

Test

收藏夾(2)

AI

AI智能PDF問答工具
CSV數據分析智能工具
docker image
ZLibrary
克隆ChatGPT
爆款小紅書AI寫作助手
視頻腳本生成器

Develop

!!!Event Sourcing
!!!Microservice Patterns
!!!NIO清晰解釋
!!PDF SEARCH
4+1 Architectural View Model
Apache安裝及jboss部署說明文檔
APK自動化測試網站
Command-Query Responsibility Segregation
data source
ELK日志分析平臺搭建全過程
Enterprise Architect中文網
EXT 中文站 ver2.0 since 2006-11-20
GOOGLE
GOOGLE
GOOGLE
Google代理
GOREAD RSS閱讀器
INOREADER RSS閱讀器
JavaScript 全棧工程師培訓教程
JBoss3.0 下配置和部署EJB簡介
Jquery Option Plug-in
LCA
MAVEN最佳實踐-版本管理
microservice-security
Mulity Tenant
MYSQL MHA
OAUTH2.0
RARBG TORRENT
Robin's Java World
Spring Boot Admin的使用
spring cloud
SPRING CLOUD教程
Spring 平臺整合 Activiti 工作流引擎實例
SPRING-BEAN自動組裝解釋
Spring-cloud-OAuth2-0配置
SQL2005客戶端下載
SRPING BOOT教程
TCC
TCC
TCC
一個extjs的好網站
一個優秀的CQRS框架Reveno
一個非常不錯的J2EE框架。
一個非常不錯的J2EE框架，從前端的JSP，到菜單，用戶和權限，都有了，還集成了STRUTS。
東莞源豐印刷
本人設計
中國象棋
中國軟件架構師網
不錯的培訓網，有相關文檔下載。
五行湯好轉反應
五行湯好轉反應
人體自愈的秘密
分布式事務1
分布式架構教學
各種大數據
在SPRING CLOUD中使用JAX-RS發布REST服務
在線思維導圖工具
大數據相關應用
學習課程
學習課程
安徽未名細胞治療有限公司
建模工具EA的使用
開源會議系統
指定MAVEN中的JDK版本
數據層的多租戶淺談
無法連接ITUNES STORE的原因
深圳房網
深圳通余額查詢
甘油三脂高應該用什么樣的食療方法
神級翻譯
簡歷模版
管理學
自動組裝SPRING-BEAN例子
通俗易懂的文章收藏
開放式課程
駕車學習
駕駛教學

E-BOOK

Ebook
ex libgen.io, libgen.org, alternative domains: *.li, *.gs, *.lc
EPDF
http://www.allitebooks.org

搜索

閱讀排行榜

評論排行榜

60天內閱讀排行

量化大模型工具

VLLM量化推理

https://llmc-zhcn.readthedocs.io/en/latest/backend/vllm.html#id1

安裝此工具前需安裝兩個包:

sudo apt-get install cmake
sudo apt-get install pkgconfig

配置huggingface鏡像地址:

export HF_ENDPOINT=https://hf-mirror.com

下載代碼庫, 并安裝python依賴

git clone https://github.com/ModelTC/llmc.git
cd llmc/
pip install -r requirements.txt

找到量化方法的配置文件, 并作修改

base:
    seed: &seed 42
model:
    type: Llama
    path: /home/paul/.cache/huggingface/models/models--unsloth--llama-3-8b-Instruct-lawdata
    torch_dtype: auto
quant:
    method: RTN
    weight:
        bit: 8
        symmetric: True
        granularity: per_group
        group_size: 128
        need_pack: True
eval:
    eval_pos: [fake_quant]
    name: wikitext2
    download: True
    path: /home/paul/paulwong/work/workspaces/llmc/dataset
    bs: 1
    seq_len: 2048
    inference_per_block: False
save:
    save_vllm: True
    save_path: /home/paul/.cache/huggingface/models/models--unsloth--llama-3-8b-Instruct-lawdata-quantization

找到run_llmc.sh, 并作修改

#!/bin/bash

# export CUDA_VISIBLE_DEVICES=0,1

llmc=/home/paul/paulwong/work/workspaces/llmc
export PYTHONPATH=$llmc:$PYTHONPATH

# task_name=awq_w_only
# config=${llmc}/configs/quantization/methods/Awq/awq_w_only.yml
task_name=rtn_for_vllm
config=${llmc}/configs/quantization/backend/vllm/rtn_w8a16.yml

nnodes=1
nproc_per_node=1

find_unused_port() {
    while true; do
        port=$(shuf -i 10000-60000 -n 1)
        if ! ss -tuln | grep -q ":$port "; then
            echo "$port"
            return 0
        fi
    done
}
UNUSED_PORT=$(find_unused_port)

MASTER_ADDR=127.0.0.1
MASTER_PORT=$UNUSED_PORT
task_id=$UNUSED_PORT

nohup \
torchrun \
--nnodes $nnodes \
--nproc_per_node $nproc_per_node \
--rdzv_id $task_id \
--rdzv_backend c10d \
--rdzv_endpoint $MASTER_ADDR:$MASTER_PORT \
${llmc}/llmc/__main__.py --config $config --task_id $task_id \
> ${task_name}.log 2>&1 &

sleep 2
ps aux | grep '__main__.py' | grep $task_id | awk '{print $2}' > ${task_name}.pid

# You can kill this program by
# xargs kill -9 < xxx.pid
# xxx.pid is ${task_name}.pid file

執行量化操作

bash scripts/run_llmc.sh

posted on 2025-01-15 18:00 paulwong 閱讀(92) 評論(0) 編輯收藏所屬分類: AI-QUANTIZATION

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: 量化資源搭建llamafactory微調、評估、測試和量化環境量化大模型工具