OpenAI的最新失误揭示了中国人工智能模型面临的挑战

事实上,在 GPT-4o 中为数不多的既不是色情内容也不是赌博内容的长中文标记中,有两个是“中国特色社会主义”和“中华人民共和国”。这些短语的存在表明,训练数据的很大一部分实际上来自中国国家媒体的文章,其中正式的长表达非常常见。

OpenAI历来对其用于训练模型的数据守口如瓶,它可能永远不会告诉我们其中文训练数据库中有多少是官方媒体,有多少是垃圾邮件……


阅读更多

About china

Check Also

美国外交官警告中国挑衅台湾可能引发冲突

台北,台湾 – 即 …

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注