Skip to content

api_v2的多batch并行推理,没有针对v3模型优化吗?比v2模型慢4-5倍 #2292

New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Open
wukongbuku opened this issue Apr 15, 2025 · 4 comments

Comments

@wukongbuku
Copy link

v2和v3模型都用api_v2.pi代码跑了一遍

4090 1000字的情况下,每组请求推理3次取均值,用post请求

v2
batch 1 90s
batch 8 25s
batch 64 13s

v3
batch 1 120s
batch 8 70s
batch 64 65s

对比以上推理结果,v3和v2 多batch的推理速度,能差出4倍多,这v3模型的多batch推理,好像就没咋生效

请求参数如下(是我什么参数,没有弄对?)
`
{
"text": "玄天宝录上记载的武功只有六种,分别是内功心法玄天功,练手之法玄玉手,练眼之法紫极魔瞳,擒拿之法控鹤擒龙,轻身之法鬼影迷踪,以及暗器使用之法,暗器百解。前五种是基础,没有坚实的基础,又怎么能发挥出唐门暗器的精髓呢?一岁多开始修炼玄天功,现在的唐三已经快要六岁了,他依旧在打基础。唐三的家住在圣魂村西侧,在村头的位置,三间土坯房在整个村子里可以说是最简陋的了,正中大屋顶上,有一个直径一米左右的木牌,上面画着一个简陋的锤子。锤子在这个世界最广泛的代表意义指的是铁匠。没错,唐三的父亲唐昊,就是一个铁匠,村子里唯一的铁匠。在这个世界之中,铁匠可以说是最低贱的职业之一,因为某种特殊的原因,这个世界的顶级武器都不是由铁匠锻造出来的。但是,作为这个村子里唯一的铁匠,原本唐三家是不应该这样贫穷的,但是,那点微薄的收入却大都……一进家门,唐三就已经闻到了扑鼻的饭香,那并不是唐昊为他做的早点,而是他为唐昊做的。从四岁开始,唐三的身高还够不到灶台的时候,做饭的任务就已经是他每天必须的工作。哪怕是要踩着凳子才能够到灶台上面。并不是唐昊要求他这么做的,而是因为不这样,唐三几乎就没有能吃饱的时候。来到灶台前,熟练的踩上木凳,掀开大铁锅的锅盖,扑鼻的米香传来,锅里的粥早已煮的烂熟。每天上山之前,唐三都会将米下锅,弄好柴火,等他回来时,粥也煮好了。拿起灶台旁已经破损了十个以上缺口的两个碗,唐三小心翼翼的盛了两碗粥,放在身后的桌子上。粥里的米粒几乎一眼就能数出来,对于正是长身体中的唐三,这点营养显然是不够的,这也是为什么他的身体如此纤瘦的原因。“爸爸,吃饭了。”唐三叫道。半晌后,里间的门帘掀起,一个高大的身影迈着有些踉跄的步伐走了出来。那是一名中年男子,看上去大约有接近五十岁的样子,但身材却非常高大魁梧,只是他的打扮却令人不敢恭维。破损的袍子穿在身上,上面甚至连补丁都没有,露出下面古铜色的皮肤,原本还算端正的五官却蒙着一层蜡黄色,一副睡眼朦胧的样子,头发乱糟糟的像鸟窝一般,一脸的胡子已经不知道有多少日子没有整理过了。目光呆滞而昏黄,尽管已经过去了一晚,但他身上那扑鼻的酒气还是令唐三不禁皱了皱眉头。这就是唐昊,唐三在这个世界的父亲。从小到大,唐三就不知道什么叫父爱,唐昊对他,从来都是不管不顾的,刚开始的时候,还会做点饭给他吃,但随着时间的推移,当唐三开始主动做饭之后,唐昊就更是什么都不管了。家里如此贫穷,甚至连像样的桌椅都没有,吃饭也成问题,最主要的原因就是唐昊将那份微薄的铁匠收入都换了酒喝。和唐三一边大的孩子,父亲一般也就是三十岁左右,结婚早的甚至还不到三十岁,可唐昊看起来却要比他们苍老的多,反倒像是唐三的爷爷一般。",

"text_lang": "zh",              
"ref_audio_path": "00100-refer_wav/00101-xiaoshuang--cankao.wav",        
"aux_ref_audio_paths": [],   
"prompt_text": "躺在厚厚的落叶中,慢慢的闭上了眼睛。",           
"prompt_lang": "zh",           
"top_k": 5,                  
"top_p": 1,                  
"temperature": 1,            

"text_split_method": "cut5",  

"batch_size": 64, 

"batch_threshold": 0.75,     
"split_bucket": true,         
"speed_factor":1.0,          
"streaming_mode": false,     

"seed": -1,                  
"parallel_infer": true,      
"repetition_penalty": 1.35,   
"sample_steps": 2,          
"super_sampling": false  

}
`

@ChasonJiang
Copy link
Contributor

有针对v3 sovits模型优化过,和v3非并行对比就知道了

@wukongbuku
Copy link
Author

有针对v3 sovits模型优化过,和v3非并行对比就知道了

是的,您说的对。
v3版本下,batch8要比batch1快一倍

但是在v2版本下,batch8要比batch1快将近4倍
同等batch8情况下,v2要比v3快3倍
我想问的是,v3的推理速度有没有可能优化成v2那样

@Suhuan-zhen
Copy link

有针对v3 sovits模型优化过,和v3非并行对比就知道了

大佬,batch的数值对显卡配置有要求吗?我是3050ti laptop

@ChasonJiang
Copy link
Contributor

大佬,batch的数值对显卡配置有要求吗?我是3050ti laptop

显存需求多一点,具体看你每次合成的字数

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants