java - 如何在 Android 上使用 Google 的汉字文字转语音服务?

标签 java android url url-encoding chinese-locale

我正在尝试从谷歌的文本转语音功能中提取音频文件。基本上,您输入链接,然后在链接的末尾连接您想要说的任何内容。我已经得到了下面的代码,可以很好地用于英语,所以我认为问题一定是中文字符在请求中的编码方式。这是我得到的:

String text = "text to be spoken";
public static final String AUDIO_CHINESE= "http://www.translate.google.com/translate_tts?tl=zh&q=";
public static final String AUDIO_ENGLISH = "http://www.translate.google.com/translate_tts?tl=en&q=";

URL url = new URL(AUDIO_ENGLISH + text);

urlConnection = (HttpURLConnection) url.openConnection();
urlConnection.setRequestMethod("GET");
urlConnection.setRequestProperty("Accept-Charset", Variables.UTF_8);

if (urlConnection.getResponseCode() ==200) {
     //get byte array in response
     in = new DataInputStream(urlConnection.getInputStream());
} else {
     in = new DataInputStream(urlConnection.getErrorStream());
}
//use commons io
byte[] bytes = IOUtils.toByteArray(in);

in.close();
urlConnection.disconnect();

return bytes;

但是,当我尝试使用中文字符时,它会返回一些我无法在媒体播放器中播放的内容(我怀疑这不是一个合适的音频文件,因为绝大多数字节都是“85”)。所以我都试过了

String chText = "你好";
URL url = new URL(AUDIO_CHINESE + URLEncoder.encode(chText, "UTF-8));

URL url = new URL(AUDIO_CHINESE + Uri.encode(chText, "UTF-8"));

然后添加

urlConnection.setRequestProperty("content-type", "application/x-www-form-urlencoded; charset=UTF-8");

到请求头。不过,这只会让事情变得更糟,因为现在它甚至不返回 200 代码,而是在 logcat 中声明“FileNotFound”。

于是我心血来潮,回过头来尝试用英文文本进行 URL/Uri 编码,现在英文也不会返回有效结果。不确定这里发生了什么:如果我复制并粘贴到 Chrome 中,调试器中的原始 url 工作正常,但由于某种原因,urlConnection 不起作用。感觉我错过了一些明显的东西。

编辑

再摆弄它一点也没有找到答案,只有更多的困惑(和恼怒)。出于某种原因,当通过 httpurlconnection 发送时,Google tts 机器将 utf-8% 编码的文本读取为 utf-16,至少据我所知是这样。例如,字符“维”(wei2) 是 %E7%B6%AD,但是如果您通过连接传递它,您将得到一个发音为“see”(“ç” ,准确地说)。

事实证明,

ç 是 UTF-16 中的 0x00E7(它的 utf-8 百分比编码版本是 %C3%A7)。我不知道为什么它在 Java 中这样做,因为在任何浏览器中将适当的 % 放在链接的末尾都可以正常工作。到目前为止,我已经尝试了各种尝试让 tts 读取整个 %E7%B6%AD 的组合,但都没有成功。

EDIT2

找到了我的问题的解决方案!请参阅下面的答案。问题不在于编码,而在于谷歌端的解析。相应地编辑了标题。干杯!

最佳答案

所以,最终的问题根本不是编码问题;这是谷歌的处理。要让服务正确识别 UTF-8,您需要使用此链接 http://www.translate.google.com/translate_tts?ie=utf-8&tl=zh-cn&q= 而不是上面那个。请注意添加到参数中的 ie=utf-8。因此,您只需 URLEncoder.encode("你好吗", "UTF-8"),将其附加到链接,然后照常发送。哇!

关于java - 如何在 Android 上使用 Google 的汉字文字转语音服务?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28166813/

相关文章:

java - 在 java8 中过滤 Optional<List<Object>>

java - 总是调用第一个选项卡

javascript - 如何从 JavaScript 中的字符串中提取基本 URL?

php - 如何从地址栏调用 php 函数?

python - 解析 URI 参数和关键字值对

java - Logback 日志记录模式中的进程 ID

java - jetty 9 : Setting up handlers and connectors

java - 是否可以使用 Java EE 注入(inject)实现接口(interface)的 bean 列表

java - 为什么我的 AlarmManager 不触发 BroadcastReceiver

android - 使用改造从服务器获取数据后如何将数据存储在房间数据库中