Amazon Polly 與 Amazon Lex:人機介面中的語音處理

AWS 這次推出的這兩個服務剛好成對:「Amazon Polly – Text to Speech in 47 Voices and 24 Languages」、「Amazon Lex – Build Conversational Voice & Text Interfaces」。

Amazon Polly 負責把文字唸出來變成語音,而 Amazon Lex 則是將語音辨識回文字,不過目前都還不支援中文... 但畢竟讓 user interface 這塊變得更親民了,算是基礎建設中服務,讓 startup 專心在產品本身上。

Slack 開始測試語音通話功能

Slack 開始測語音通話功能了:「Making voice calls in Slack」,目前是 beta:

Keep in mind: Calls (beta) is currently voice only and desktop only. Video, screen sharing, and mobile support will come in the future.

包括了 one-to-one (開放給所有的 plan),以及 group (開放給付費 plan)。

在 troubleshooting 的說明裡有提到技術問題,也可以看出一些東西:

If Slack is having trouble establishing a call connection, check the following settings, or ask your IT admin to do so:

  • Set your network to allow outbound UDP connections to port 22466.
  • Make sure your network is allowing incoming traffic from UDP 22466.

功能愈來愈齊了...

Nexmo 的 Voice API 可以吃 WAV 與 MP3 格式了...

剛剛才看到 Nexmo 的公告,Nexmo 的 Voice API 以往只能吃文字,然後程式會發音,但現在則可以吃 WAV 或 MP3 格式的檔案直接播放了:「Nexmo’s Voice API Now Supports .wav and .mp3 Format」。

連 API 的範例都直接給出來,好像很好玩的樣子... XD

然後仔細看文件才發現 Speech 的部份是支援中文的!代碼 zh-cn 的男/女聲發音!