Faster Q4_K on Metal #2290

ikawrakow · 2023-07-20T11:36:43Z

This PR improves token generation speed for Q4_K on Metal by a significant amount using ideas from PRs #2248, #2212 and #2188. The table gives token generation time in ms/t on M2 Max with 30-core GPU:

Model	Master	This PR	Speedup
7B	23.7	19.5	21.5%
13B	41.4	31.9	29.8%
33B	99.4	73.6	35.0%
65B	194.1	141.0	37.7%

ggerganov · 2023-07-20T11:48:03Z

I can provide results from M1 Pro a bit later

ggerganov · 2023-07-20T15:45:04Z

M1 Pro

Model	Master	This PR
7B	48.4	35.4
13B	~~49.4~~ 91.4	63.2

ikawrakow · 2023-07-20T16:21:30Z

@ggerganov Any chance the 13B points are reversed? Else it would mean that on current master token prediction is about the same for 7B and 13B on your M1 Pro.

ggerganov · 2023-07-20T16:30:35Z

Sorry about that, somehow I messed up the 13B Master number

Faster Q4_K on Metal

8e03cfc

ikawrakow requested a review from ggerganov July 20, 2023 11:36

ggerganov approved these changes Jul 20, 2023

View reviewed changes

ikawrakow merged commit 785829d into master Jul 20, 2023

ikawrakow deleted the ik/metal_faster_q4k branch July 20, 2023 12:18

ikawrakow mentioned this pull request Jul 20, 2023

Faster Q5_K and Q6_K on Metal #2294

Merged

This was referenced Jul 20, 2023

Faster Q2_K on Metal #2297

Merged

Faster Q3_K implementation on Metal #2307

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Faster Q4_K on Metal #2290

Faster Q4_K on Metal #2290

ikawrakow commented Jul 20, 2023

ggerganov commented Jul 20, 2023

ggerganov commented Jul 20, 2023 •

edited

Loading

ikawrakow commented Jul 20, 2023

ggerganov commented Jul 20, 2023

Faster Q4_K on Metal #2290

Faster Q4_K on Metal #2290

Conversation

ikawrakow commented Jul 20, 2023

ggerganov commented Jul 20, 2023

ggerganov commented Jul 20, 2023 • edited Loading

ikawrakow commented Jul 20, 2023

ggerganov commented Jul 20, 2023

ggerganov commented Jul 20, 2023 •

edited

Loading