Tag Archives: speech

用程式自動同步字幕與聲音

在 Hacker News 上看到的專案,readbeyond/aeneas: aeneas is a Python/C library and a set of tools to automagically synchronize audio and text (aka forced alignment). 馬上想到的是... 這根本就是字幕組的福音 XDDD 支援的語言: Confirmed working on 38 languages: AFR, ARA, BUL, CAT, CYM, CES, DAN, DEU, … Continue reading

Posted in Anime, Computer, Movie, Murmuring, Recreation, Software, Television | Tagged , , , , , , | Leave a comment

用 Google 的 Speech Recognition API 破 Google 的 reCAPTCHA

就是「以子之矛,攻子之盾」的概念,用 Speech Recognition API 破 reCAPTCHA:「ReBreakCaptcha: Breaking Google’s ReCaptcha v2 using.. Google」。 就算 Google 在 reCAPTCHA 的聲音裡面加入 watermark,讓自家的 Speech Recognition API 拒絕分析,還是有其他家的可以用 (像是 Amazon Lex 或是 Bing Speech API),所以這樣做不是什麼好解法。

Posted in Computer, Murmuring, Network, Spam | Tagged , , , , , , , , , , | Leave a comment

Amazon Polly 與 Amazon Lex:人機介面中的語音處理

AWS 這次推出的這兩個服務剛好成對:「Amazon Polly – Text to Speech in 47 Voices and 24 Languages」、「Amazon Lex – Build Conversational Voice & Text Interfaces」。 Amazon Polly 負責把文字唸出來變成語音,而 Amazon Lex 則是將語音辨識回文字,不過目前都還不支援中文... 但畢竟讓 user interface 這塊變得更親民了,算是基礎建設中服務,讓 startup 專心在產品本身上。

Posted in AWS, Cloud, Computer, Murmuring, Network | Tagged , , , , , , , , , , , , | Leave a comment

Google 推出語音辨識的 API

Google 推出了 Speech API:「Speech API - Speech Recognition」。 檔案與 Streaming 都可以辨識,另外有處理噪音與雜音的部份。現在是 Limited Preview 期間不收費,但要申請。之後成為正式服務才會放價錢出來...

Posted in Cloud, Computer, Murmuring, Network | Tagged , , , , , | Leave a comment

Nexmo 的 Voice API 可以吃 WAV 與 MP3 格式了...

剛剛才看到 Nexmo 的公告,Nexmo 的 Voice API 以往只能吃文字,然後程式會發音,但現在則可以吃 WAV 或 MP3 格式的檔案直接播放了:「Nexmo’s Voice API Now Supports .wav and .mp3 Format」。 連 API 的範例都直接給出來,好像很好玩的樣子... XD 然後仔細看文件才發現 Speech 的部份是支援中文的!代碼 zh-cn 的男/女聲發音!

Posted in Computer, Murmuring, Music, Network, Recreation, Telephone | Tagged , , , , , , , , | Leave a comment