关于大海捞针测试的问题 #921
Closed
abc123456cxx
announced in
Announcements
关于大海捞针测试的问题
#921
Replies: 3 comments
-
您好,关于 在此, 如果您想要测试自己的模型,理论上不必更换tokenizer。这是因为数据集的创建是为了确保在测试不同模型的时候,所用的prompt都在GPT-4的tokenizer衡量下,防止测试不同模型时候的prompt长度会产生差异。 |
Beta Was this translation helpful? Give feedback.
0 replies
-
好的我明白了,非常感谢您的回答!
…________________________________
发件人: Mo Li ***@***.***>
发送时间: 2024年2月26日 14:55
收件人: open-compass/opencompass ***@***.***>
抄送: 才晓溪 ***@***.***>; Author ***@***.***>
主题: Re: [open-compass/opencompass] 关于大海捞针测试的问题 (Discussion #921)
您好,关于tokenizer_model参数的作用,该参数指定了生成数据集时所使用的分词器(tokenizer)。在创建数据集时,不同的模型可能对相同文本的分词结果有不同的理解,特别是在处理长度较长的文本时。例如,当我们提到生成长度为2000个token的大海捞针测试数据集时,不同模型的tokenizer对于“2000个token”的理解可能会有所不同。
在此,tokenizer_model: 'gpt-4'的设置意味着我们统一使用GPT-4的tokenizer来确保文本长度和分词的一致性,这样可以使数据集的创建更加标准化,同时也便于跨模型的比较和测试。
如果您想要测试自己的模型,理论上不必更换tokenizer。这是因为数据集的创建是为了确保在测试不同模型的时候,所用的prompt都在GPT-4的tokenizer衡量下,防止测试不同模型时候的prompt长度会产生差异。
―
Reply to this email directly, view it on GitHub<#921 (comment)>, or unsubscribe<https://github.com/notifications/unsubscribe-auth/BD2JDZPPS7GXACR2JCNYWO3YVQWWJAVCNFSM6AAAAABDZTXAPOVHI2DSMVQWIX3LMV43SRDJONRXK43TNFXW4Q3PNVWWK3TUHM4DKOBYGU2DG>.
You are receiving this because you authored the thread.Message ID: ***@***.***>
|
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
描述该功能
看config中cdme数据集配置时有一个'tokenizer_model': 'gpt-4'参数,想请问一下这里的这个参数是什么作用呢,如果要测试自己的模型也要用gpt-4嘛 还是需要修改成自己模型tokenizer的路径呢?感谢回答
是否希望自己实现该功能?
Beta Was this translation helpful? Give feedback.
All reactions