SoraTranslator开发日志：关于使用GPT API汉化大量文本时需要注意的事项。

汉化过程中发现GPT API 实际上并不会过滤敏感内容（但是单独一句一句可能会过滤）。所以实际上汉化流程十分的顺畅。

尽量使用一个message包含所有内容，不要使用模拟对话的方式进行汉化。即使Galgame中大部分都是对话方式，但是一次汉化可以节约大量tokens，而且这种方式GPT对于情景的把握也会更好。
当想要保留原本的语句结构时，尽量将文本使用特殊的符号分隔开，并且使用某种括号包住每个语句。中间是否添加分隔符我目前也不能确定。但是感觉添加后效果更好。
在最开始的system信息中准确描述你想让gpt做的事情，包括保留格式这些行为。在提供完需要汉化的内容之后，最后跟上一句提示，告诉gpt你有多少个部分。这样做能提高正确翻译的概率。
temperature参数不要设置的太高，建议0.5以下。
不要汉化带有大量拟声词的语句，GPT很有可能会在那里抽风而不继续汉化，所以要过滤掉这些语句再汉化。目前可能的解决方式是将这些语句在之后通过特殊的prompt单独汉化，我发现网页的ChatGPT4汉化效果很好（至少我没法写那么好听）。

汉化基本上会出问题的地方就是有比较模糊的断句的地方。日语有的时候有个前后文其实关联特别紧密但是会在游戏里分为两个block，这种情况GPT很有可能会将他们合为一个block输出，这就会导致block数量不对应。目前的解决方式是手动进行一点调整，我也没找到特别好的解决方式。

最后修改：2023 年 12 月 26 日

如果觉得我的文章对你有用，请随意赞赏

评论 *

私密评论

名称 *

🎲

邮箱 *

地址 *