Detokenization parallelization public repo #69

NickNickGo · 2020-12-10T00:41:11Z

Moving #37 here.

fastseq_cli/transformers_generate.py

NickNickGo · 2020-12-10T02:15:16Z

transformers_v3.0.2+fastseq_v0.0.4	facebook/bart-large-cnn	cnn_dm.1k/raw	val	32	1024	NA	NA	34.89\|14.96\|25.30	NA	NA	123	8.3	NA
transformers_v3.0.2+fastseq_v0.0.4	facebook/bart-large-cnn	cnn_dm.1k/raw	val	64	1024	NA	NA	34.92\|14.95\|25.25	NA	NA	87	11.8	NA
transformers_v3.0.2+fastseq_v0.0.4	facebook/bart-large-cnn	cnn_dm.1k/raw	val	128	1024	NA	NA	34.96\|14.98\|25.28	NA	NA	82	12.5	NA
transformers_v3.0.2+fastseq_v0.0.4	facebook/bart-large-cnn	cnn_dm.1k/raw	val	32	1024	NA	NA	34.90\|14.95\|25.30	NA	NA	121	8.5	NA
transformers_v3.0.2+fastseq_v0.0.4	facebook/bart-large-cnn	cnn_dm.1k/raw	val	64	1024	NA	NA	34.93\|14.95\|25.26	NA	NA	87	11.8	NA
transformers_v3.0.2+fastseq_v0.0.4	facebook/bart-large-cnn	cnn_dm.1k/raw	val	128	1024	NA	NA	34.97\|14.96\|25.27	NA	NA	81	12.6	NA
transformers_v3.0.2+fastseq_v0.0.4	facebook/bart-large-cnn	cnn_dm.1k/raw	val	32	1024	NA	NA	34.91\|14.94\|25.25	NA	NA	122	8.4	NA
transformers_v3.0.2+fastseq_v0.0.4	facebook/bart-large-cnn	cnn_dm.1k/raw	val	64	1024	NA	NA	34.93\|14.97\|25.25	NA	NA	87	11.8	NA
transformers_v3.0.2+fastseq_v0.0.4	facebook/bart-large-cnn	cnn_dm.1k/raw	val	128	1024	NA	NA	34.98\|14.96\|25.26	NA	NA	81	12.6	NA
Util	Model	Task	Split	BatchSize	Samples	Tokens	Bleu	Rouge	Loss	Perplexity	Runtime(seconds)	Throughput(samples/s)	Throughput(tokens/s)
transformers_v3.0.2+fastseq_v0.0.4	facebook/mbart-large-en-ro	wmt_en_ro/raw	val	64	1984	NA	27.89	NA\|NA\|NA	NA	NA	274	7.2	NA
transformers_v3.0.2+fastseq_v0.0.4	facebook/mbart-large-en-ro	wmt_en_ro/raw	val	64	1984	NA	27.89	NA\|NA\|NA	NA	NA	251	7.9	NA
transformers_v3.0.2+fastseq_v0.0.4	facebook/mbart-large-en-ro	wmt_en_ro/raw	val	64	1984	NA	27.89	NA\|NA\|NA	NA	NA	254	7.8	NA
Util	Model	Task	Split	BatchSize	Samples	Tokens	Bleu	Rouge	Loss	Perplexity	Runtime(seconds)	Throughput(samples/s)	Throughput(tokens/s)
Util	Model	Task	Split	BatchSize	Samples	Tokens	Bleu	Rouge	Loss	Perplexity	Runtime(seconds)	Throughput(samples/s)	Throughput(tokens/s)
transformers_v3.0.2+fastseq_v0.0.4	t5-base	wmt_en_ro/raw	val	64	1984	NA	27.44	NA\|NA\|NA	NA	NA	162	11.2	NA
transformers_v3.0.2+fastseq_v0.0.4	t5-base	wmt_en_ro/raw	val	128	1984	NA	27.38	NA\|NA\|NA	NA	NA	107	17.1	NA
transformers_v3.0.2+fastseq_v0.0.4	t5-base	wmt_en_ro/raw	val	64	1984	NA	27.44	NA\|NA\|NA	NA	NA	134	13.8	NA
transformers_v3.0.2+fastseq_v0.0.4	t5-base	wmt_en_ro/raw	val	128	1984	NA	27.38	NA\|NA\|NA	NA	NA	106	17.3	NA
transformers_v3.0.2+fastseq_v0.0.4	t5-base	wmt_en_ro/raw	val	64	1984	NA	27.44	NA\|NA\|NA	NA	NA	129	13.8	NA
transformers_v3.0.2+fastseq_v0.0.4	t5-base	wmt_en_ro/raw	val	128	1984	NA	27.38	NA\|NA\|NA	NA	NA	107	17.1	NA
Util	Model	Task	Split	BatchSize	Samples	Tokens	Bleu	Rouge	Loss	Perplexity	Runtime(seconds)	Throughput(samples/s)	Throughput(tokens/s)
transformers_v3.0.2+fastseq_v0.0.4	hf.sshleifer.distilbart-cnn-12-6.tar.gz	cnn_dm.1k/raw	val	64	1024	NA	NA	35.18\|15.03\|25.03	NA	NA	68	15.1	NA
transformers_v3.0.2+fastseq_v0.0.4	hf.sshleifer.distilbart-cnn-12-6.tar.gz	cnn_dm.1k/raw	val	128	1024	NA	NA	35.20\|15.14\|25.07	NA	NA	64	15.9	NA
transformers_v3.0.2+fastseq_v0.0.4	hf.sshleifer.distilbart-cnn-12-6.tar.gz	cnn_dm.1k/raw	val	64	1024	NA	NA	35.21\|15.07\|25.00	NA	NA	68	15.1	NA
transformers_v3.0.2+fastseq_v0.0.4	hf.sshleifer.distilbart-cnn-12-6.tar.gz	cnn_dm.1k/raw	val	128	1024	NA	NA	35.19\|15.10\|25.08	NA	NA	65	15.8	NA
transformers_v3.0.2+fastseq_v0.0.4	hf.sshleifer.distilbart-cnn-12-6.tar.gz	cnn_dm.1k/raw	val	64	1024	NA	NA	35.21\|15.04\|25.04	NA	NA	67	15.3	NA
transformers_v3.0.2+fastseq_v0.0.4	hf.sshleifer.distilbart-cnn-12-6.tar.gz	cnn_dm.1k/raw	val	128	1024	NA	NA	35.18\|15.10\|25.06	NA	NA	65	15.8	NA
~

JiushengChen · 2020-12-10T04:07:21Z

CNN 1k data set is too small now, result is not reliable. Please use full valid set.

NickNickGo · 2020-12-10T17:19:16Z

transformers_v3.0.2+fastseq_v0.0.4	facebook/bart-large-cnn	cnn_dm/raw	val	32	13344	NA	NA	44.80\|21.64\|31.17	NA	NA	1763	7.6	NA
transformers_v3.0.2+fastseq_v0.0.4	facebook/bart-large-cnn	cnn_dm/raw	val	64	13312	NA	NA	44.79\|21.66\|31.18	NA	NA	1174	11.3	NA
transformers_v3.0.2+fastseq_v0.0.4	facebook/bart-large-cnn	cnn_dm/raw	val	128	13312	NA	NA	44.78\|21.64\|31.16	NA	NA	1075	12.4	NA

transformers_v3.0.2+fastseq_v0.0.4	hf.sshleifer.distilbart-cnn-12-6.tar.gz	cnn_dm/raw	val	64	13312	NA	NA	45.06\|21.81\|30.91	NA	NA	812	16.4	NA
transformers_v3.0.2+fastseq_v0.0.4	hf.sshleifer.distilbart-cnn-12-6.tar.gz	cnn_dm/raw	val	128	13312	NA	NA	45.05\|21.79\|30.90	NA	NA	725	18.4	NA

feihugis · 2020-12-10T17:35:18Z

For bart-large-cnn, why are the numbers of input examples different for different batch_sizes? Could you also paste the result for the baseline?

NickNickGo · 2020-12-10T17:46:40Z

For bart-large-cnn, why are the numbers of input examples different for different batch_sizes? Could you also paste the result for the baseline?

This is because pytorch dataloader API only supports number of samples to be multiple of batch size. This is why last batch is dropped.
https://pytorch.org/docs/stable/data.html

NickNickGo · 2020-12-10T17:49:08Z

@JiushengChen For Mbart and T5 , do we have larger dataset? I couldn't find it in benchmark scripts.

feihugis · 2020-12-10T17:53:54Z

For bart-large-cnn, why are the numbers of input examples different for different batch_sizes? Could you also paste the result for the baseline?

This is because pytorch dataloader API only supports number of samples to be multiple of batch size. This is why last batch is dropped.
https://pytorch.org/docs/stable/data.html

The root cause may be here. Try to change it to be drop_last=False?

JiushengChen · 2020-12-10T17:54:22Z

@JiushengChen For Mbart and T5 , do we have larger dataset? I couldn't find it in benchmark scripts.

Yes, I have larger data in my local. Please leave out these two, I will update them today.
BTW, looks CI test failed, please take a look.

NickNickGo · 2020-12-10T18:02:06Z

For bart-large-cnn, why are the numbers of input examples different for different batch_sizes? Could you also paste the result for the baseline?

This is because pytorch dataloader API only supports number of samples to be multiple of batch size. This is why last batch is dropped.
https://pytorch.org/docs/stable/data.html

The root cause may be here. Try to change it to be drop_last=False?

I already did.

feihugis · 2020-12-10T18:22:36Z

For bart-large-cnn, why are the numbers of input examples different for different batch_sizes? Could you also paste the result for the baseline?

This is because pytorch dataloader API only supports number of samples to be multiple of batch size. This is why last batch is dropped.
https://pytorch.org/docs/stable/data.html

The root cause may be here. Try to change it to be drop_last=False?

I already did.

Could you please explain more? I saw your code here use drop_last=True. I guess that's why the last batch was dropped. Do you mean you have tried drop_last=False but the last batch was still dropped?

fastseq/optimizer/fairseq/generate.py

benchmarks/models/hf_bart.sh

JiushengChen · 2020-12-10T18:23:51Z

benchmarks/models/hf_distibart.sh

-grep -E "transformers_v3.0.2\+fastseq_v.* hf.sshleifer.distilbart-cnn-12-6.tar.gz cnn_dm.1k/raw val 64 " perf | awk '{s+=$13}END{print s/NR}' | bash range.sh 13 100
+grep -E "transformers_v3.0.2\+fastseq_v.* hf.sshleifer.distilbart-cnn-12-6.tar.gz cnn_dm.1k/raw val 64 " perf | awk '{s+=$13}END{print s/NR}' | bash range.sh 15.2 100
 # todo: bigger bs doesn't increase speed
-grep -E "transformers_v3.0.2\+fastseq_v.* hf.sshleifer.distilbart-cnn-12-6.tar.gz cnn_dm.1k/raw val 128 " perf | awk '{s+=$13}END{print s/NR}' | bash range.sh 13.5 100
+grep -E "transformers_v3.0.2\+fastseq_v.* hf.sshleifer.distilbart-cnn-12-6.tar.gz cnn_dm.1k/raw val 128 " perf | awk '{s+=$13}END{print s/NR}' | bash range.sh 15.9 100


fastseq_cli/transformers_generate.py

benchmarks/models/hf_bart.sh

benchmarks/models/hf_distibart.sh

README.md

benchmarks/models/hf_distibart.sh

NickNickGo · 2020-12-11T23:51:49Z

Benchmarks on Larger dataset:

Util	Model	Task	Split	BatchSize	Samples	Tokens	Bleu	Rouge	Loss	Perplexity	Runtime(seconds)	Throughput(samples/s)	Throughput(tokens/s)
transformers_v3.0.2+fastseq_v0.0.4	facebook/bart-large-cnn	cnn_dm/raw	val	32	13368	NA	NA	44.80\|21.65\|31.19	NA	NA	1889	7.1	NA
transformers_v3.0.2+fastseq_v0.0.4	facebook/bart-large-cnn	cnn_dm/raw	val	64	13368	NA	NA	44.80\|21.66\|31.19	NA	NA	1188	11.3	NA
transformers_v3.0.2+fastseq_v0.0.4	facebook/bart-large-cnn	cnn_dm/raw	val	128	13368	NA	NA	44.78\|21.64\|31.18	NA	NA	1082	12.4	NA
Util	Model	Task	Split	BatchSize	Samples	Tokens	Bleu	Rouge	Loss	Perplexity	Runtime(seconds)	Throughput(samples/s)	Throughput(tokens/s)
transformers_v3.0.2+fastseq_v0.0.4	hf.sshleifer.distilbart-cnn-12-6.tar.gz	cnn_dm/raw	val	64	13368	NA	NA	45.07\|21.81\|30.91	NA	NA	810	16.5	NA
transformers_v3.0.2+fastseq_v0.0.4	hf.sshleifer.distilbart-cnn-12-6.tar.gz	cnn_dm/raw	val	128	13368	NA	NA	45.05\|21.80\|30.90	NA	NA	729	18.3	NA
Util	Model	Task	Split	BatchSize	Samples	Tokens	Bleu	Rouge	Loss	Perplexity	Runtime(seconds)	Throughput(samples/s)	Throughput(tokens/s)
transformers_v3.0.2+fastseq_v0.0.4	facebook/mbart-large-en-ro	wmt_en_ro/raw	val	64	8191	NA	56.19	NA\|NA\|NA	NA	NA	897	9.1	NA
transformers_v3.0.2+fastseq_v0.0.4	facebook/mbart-large-en-ro	wmt_en_ro/raw	val	64	8191	NA	56.19	NA\|NA\|NA	NA	NA	884	9.3	NA
transformers_v3.0.2+fastseq_v0.0.4	facebook/mbart-large-en-ro	wmt_en_ro/raw	val	64	8191	NA	56.19	NA\|NA\|NA	NA	NA	885	9.3	NA
Util	Model	Task	Split	BatchSize	Samples	Tokens	Bleu	Rouge	Loss	Perplexity	Runtime(seconds)	Throughput(samples/s)	Throughput(tokens/s)
transformers_v3.0.2+fastseq_v0.0.4	t5-base	wmt_en_ro/raw	val	64	8191	NA	56.93	NA\|NA\|NA	NA	NA	425	19.3	NA
transformers_v3.0.2+fastseq_v0.0.4	t5-base	wmt_en_ro/raw	val	128	8191	NA	56.92	NA\|NA\|NA	NA	NA	350	23.4	NA
transformers_v3.0.2+fastseq_v0.0.4	t5-base	wmt_en_ro/raw	val	64	8191	NA	56.93	NA\|NA\|NA	NA	NA	436	18.8	NA
transformers_v3.0.2+fastseq_v0.0.4	t5-base	wmt_en_ro/raw	val	128	8191	NA	56.92	NA\|NA\|NA	NA	NA	362	22.6	NA
transformers_v3.0.2+fastseq_v0.0.4	t5-base	wmt_en_ro/raw	val	64	8191	NA	56.93	NA\|NA\|NA	NA	NA	442	18.5	NA
transformers_v3.0.2+fastseq_v0.0.4	t5-base	wmt_en_ro/raw	val	128	8191	NA	56.92	NA\|NA\|NA	NA	NA	340	24.1	NA

NickNickGo · 2020-12-11T23:58:39Z

Before/After

.	.	.
DistilBart	13.8	18.3
T5	13.8	23.4
BART	11.4	12.4
Mbart	8.9	9.3

NickNickGo · 2020-12-15T19:34:39Z

For bart-large-cnn, why are the numbers of input examples different for different batch_sizes? Could you also paste the result for the baseline?

This is because pytorch dataloader API only supports number of samples to be multiple of batch size. This is why last batch is dropped.
https://pytorch.org/docs/stable/data.html

The root cause may be here. Try to change it to be drop_last=False?

I already did.

Could you please explain more? I saw your code here use drop_last=True. I guess that's why the last batch was dropped. Do you mean you have tried drop_last=False but the last batch was still dropped?

Synced offline. Included last batch.

NickNickGo added 3 commits December 10, 2020 00:00

moving to public repo

3bb7682

moving to public repo

33371d2

moving to public repo

633ea7a

JiushengChen reviewed Dec 10, 2020

View reviewed changes

fastseq_cli/transformers_generate.py Outdated Show resolved Hide resolved

fastseq_cli/transformers_generate.py Outdated Show resolved Hide resolved

JiushengChen closed this Dec 10, 2020

NickNickGo reopened this Dec 10, 2020

minor change

c1505ad

JiushengChen reviewed Dec 10, 2020

View reviewed changes

minor changes

20850b9

JiushengChen reviewed Dec 10, 2020

View reviewed changes

benchmarks/models/hf_bart.sh Outdated Show resolved Hide resolved

benchmarks/models/hf_distibart.sh Outdated Show resolved Hide resolved

benchmarks/models/hf_distibart.sh Outdated Show resolved Hide resolved

JiushengChen reviewed Dec 10, 2020

View reviewed changes

README.md Outdated Show resolved Hide resolved

benchmarks/models/hf_distibart.sh Outdated Show resolved Hide resolved

benchmarks on larger dataset

3d0235d

feihugis approved these changes Dec 15, 2020

View reviewed changes

JiushengChen approved these changes Dec 15, 2020

View reviewed changes

NickNickGo merged commit 8d217ee into microsoft:main Dec 15, 2020

Detokenization parallelization public repo #69

Detokenization parallelization public repo #69

Uh oh!

Conversation

NickNickGo commented Dec 10, 2020

Uh oh!

Uh oh!

Uh oh!

NickNickGo commented Dec 10, 2020

Uh oh!

JiushengChen commented Dec 10, 2020

Uh oh!

NickNickGo commented Dec 10, 2020

Uh oh!

feihugis commented Dec 10, 2020

Uh oh!

NickNickGo commented Dec 10, 2020

Uh oh!

NickNickGo commented Dec 10, 2020

Uh oh!

feihugis commented Dec 10, 2020

Uh oh!

JiushengChen commented Dec 10, 2020

Uh oh!

NickNickGo commented Dec 10, 2020 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

feihugis commented Dec 10, 2020

Uh oh!

Uh oh!

Uh oh!

JiushengChen Dec 10, 2020

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

NickNickGo commented Dec 11, 2020

Uh oh!

NickNickGo commented Dec 11, 2020 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

NickNickGo commented Dec 15, 2020 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

NickNickGo commented Dec 10, 2020 •

edited

Loading

NickNickGo commented Dec 11, 2020 •

edited

Loading

NickNickGo commented Dec 15, 2020 •

edited

Loading