事实上,在 GPT-4o 中为数不多的既不是色情内容也不是赌博内容的长中文标记中,有两个是“中国特色社会主义”和“中华人民共和国”。这些短语的存在表明,训练数据的很大一部分实际上来自中国国家媒体的文章,其中正式的长表达非常常见。
OpenAI历来对其用于训练模型的数据守口如瓶,它可能永远不会告诉我们其中文训练数据库中有多少是官方媒体,有多少是垃圾邮件……
阅读更多
事实上,在 GPT-4o 中为数不多的既不是色情内容也不是赌博内容的长中文标记中,有两个是“中国特色社会主义”和“中华人民共和国”。这些短语的存在表明,训练数据的很大一部分实际上来自中国国家媒体的文章,其中正式的长表达非常常见。
OpenAI历来对其用于训练模型的数据守口如瓶,它可能永远不会告诉我们其中文训练数据库中有多少是官方媒体,有多少是垃圾邮件……
免费解锁编辑文摘 英国《金融时 …