OpenAI 現在可以輸出定義的 JSON 了

OpenAI 在「Introducing Structured Outputs in the API」這邊提到目前的 JSON mode 不能保證 schema 的正確性:

While JSON mode improves model reliability for generating valid JSON outputs, it does not guarantee that the model’s response will conform to a particular schema.

而現在新的 model 可以了:

Today we’re introducing Structured Outputs in the API, a new feature designed to ensure model-generated outputs will exactly match JSON Schemas provided by developers.

新的 model 代碼是 gpt-4o-2024-08-06 這組,而且又降價了:

By switching to the new gpt-4o-2024-08-06, developers save 50% on inputs ($2.50/1M input tokens) and 33% on outputs ($10.00/1M output tokens) compared to gpt-4o-2024-05-13.

這個功能可以解掉不少 workaround...

用 2024 年的技術花 US$20 嘗試重建當年 OpenAI 的 GPT-2 (124M)

GPT-2 出來的 2019 年 Nvidia 的家用顯卡應該是 2080 Ti (2018/09/27),抓一下感覺。

在「Reproducing GPT-2 in llm.c (github.com/karpathy)」這邊看到 Andrej Karpathy 試著重建 GPT-2 的計畫,雖然是最小的 model (124M),不過這邊可以注意到當年最小是 117M,其實有一點差距 (大約多了 6%):

Two other smaller releases of GPT-2 are available, including the small version of 117M parameters and the medium size of 355M parameters. Both are available to download from Huggingface.

另外維基百科上面可以看到 OpenAI 發表 GPT-2 的時候他不在 OpenAI

OpenAI (2015–2017, 2023-2024)

但畢竟曾經是 OpenAI 裡面的老大,能看到的資料總是比外面的人多不少 (加上 GPT-2 屬於過時的技術,管制上應該會鬆不少?),這也是為什麼大家會關注的原因。

這次的嘗試不是完全重現,因為當初 GPT-2 的 training data 並沒有公開,所以他只能找個接近的 data set 訓練,這代表這次不是完全與 GPT-2 相同的情況下重建:

it was trained on the never released "WebText" dataset

雖然知道軟硬體的成長速度頗快 (畢竟整個產業的錢都往這邊丟進去),不過發現用現在的技術只要 US$20 就可以重現最小的 model 還是讓人有點驚訝:

With llm.c, which is quite efficient at up to ~60% model flops utilization, reproducing this model on one 8X A100 80GB SXM node takes ~90 minutes.

理論上同樣的 code 改一些參數也就可以訓練出比較大的幾個 model?

用 GPT-4 重現 Google Deepmind 的 Gemini Demo 影片

Google Deepmind 前幾天發表了 Gemini:「Introducing Gemini: our largest and most capable AI model」,同時也釋出了 Demo 影片:

但後來大家發現 Demo 影片中人並不是直接透過語音與 Gemini 互動,而是把輸入進去的指令讓人讀出來,而且省略掉中間的各種 delay,是個被後製不少的影片:「Google’s best Gemini demo was faked」。

然後就有人用 GPT-4 實作出一個可以互動的版本了,雖然是 PoC 等級的,但反而更真實:「Show HN: I Remade the Fake Google Gemini Demo, Except Using GPT-4 and It's Real (greg.technology)」。

記得 Google 年初的 Bart Demo 也出包,可以來看看後面第三次的情況?

微軟出手直接讓 Sam Altman 與 Greg Brockman 成立新團隊

不算太意外的一步,Satya Nadella (微軟的 CEO) 直接宣佈讓 Sam AltmanGreg Brockman 加入微軟,包含了其他的 team member,另外還特別講了一句會儘快提供需要的資源:

X (Twitter) 上的全文:

We remain committed to our partnership with OpenAI and have confidence in our product roadmap, our ability to continue to innovate with everything we announced at Microsoft Ignite, and in continuing to support our customers and partners. We look forward to getting to know Emmett Shear and OAI's new leadership team and working with them. And we’re extremely excited to share the news that Sam Altman and Greg Brockman, together with colleagues, will be joining Microsoft to lead a new advanced AI research team. We look forward to moving quickly to provide them with the resources needed for their success.

微軟與 Satya Nadella 在這次爆炸後,災難處理接近最完美的劇本了?

讓 Sam Altman 回去 OpenAI 大概不是好方案,很明顯已經有嫌隙了,尤其是直接被 Greg Brockman 點名過的 Ilya Sutskever

把 Sam Altman 與 Greg Brockman 放出去找 VC 開新的公司,不如還是讓直接微軟吃下來。

現在變成全部都還是在微軟的帝國裡面。

這個方法 Satya Nadella 完全可以對董事會交代,也能對微軟自家內部合作的團隊交代。

另外推文裡有提到 Emmett Shear 接手 Interim CEO,這樣看起來 Mira Murati 應該也是會過去 Sam Altman 那邊了。

後續應該就是看團隊元氣大傷後可以恢復多快了,少掉的 Ilya Sutskever 這塊要怎麼補?

Greg Brockman (OpenAI 的 President) 宣佈離職

OpenAI 的 President,Greg Brockman 宣佈離職:

不過更重要的是後續的說明,看起來是與 Sam Altman 聯合起來整理情況,算是另外一邊第一手的資料?

目前主要是一些時間線的呈現,分別被解任與拔除 President。

這邊講的 Ilya 是 Ilya Sutskever,在 Sam Altman 被幹掉後有些八卦傳言有提到他,不過目前 Cofounders 這邊還沒直接開火,沒辦法驗證更多資訊,再繼續等看看有沒有什麼資訊還會冒出來...

Sam Altman (OpenAI 的 CEO) 被幹掉

Hacker News 首頁變得超卡,通常代表有大事... 看了一下 top 1 的文章,oh 幹這件事情很大條:「OpenAI's board has fired Sam Altman (openai.com)」。

OpenAI 的公告在「OpenAI announces leadership transition」這邊。

官方給了很嚴重的指控:

Mr. Altman’s departure follows a deliberative review process by the board, which concluded that he was not consistently candid in his communications with the board, hindering its ability to exercise its responsibilities. The board no longer has confidence in his ability to continue leading OpenAI.

In a statement, the board of directors said: “OpenAI was deliberately structured to advance our mission: to ensure that artificial general intelligence benefits all humanity. The board remains fully committed to serving this mission. We are grateful for Sam’s many contributions to the founding and growth of OpenAI. At the same time, we believe new leadership is necessary as we move forward. As the leader of the company’s research, product, and safety functions, Mira is exceptionally qualified to step into the role of interim CEO. We have the utmost confidence in her ability to lead OpenAI during this transition period.”

這邊就用 ChatGPT 來翻譯好了:

奧特曼先生的離職是在董事會進行了深思熟慮的審查過程之後,董事會得出結論認為他在與董事會的溝通中並不總是坦率,這阻礙了董事會行使其職責的能力。董事會不再對他繼續領導OpenAI的能力有信心。

董事會在一份聲明中表示:“OpenAI是有意識地建立起來,以推進我們的使命:確保人工通用智能造福全人類。董事會仍然全力致力於服務於這一使命。我們感謝山姆對OpenAI創立和成長所做的許多貢獻。同時,我們認為隨著我們向前邁進,需要新的領導層。作為公司研究、產品和安全功能的負責人,米拉非常適合擔任臨時首席執行官的角色。我們對她在這個過渡時期領導OpenAI的能力充滿信心。”

現在 X (Twitter) 上面也有不少人在討論 (八卦),但看起來只能先讓子彈飛一下...

OpenAI 的 API 又降價了...

這次 OpenAI 的 API 又降價了,這次是倍數等級的降:「New models and developer products announced at DevDay」。

GPT-4 Turbo 的部分直接是拉高 context 以及降低價錢,從本來的 8K/32K context,直接拉高到單一 128K context 產品,而且價錢直接砍了 3/4 左右:

GPT-4 8K
Input: $0.03
Output: $0.06

GPT-4 32K
Input: $0.06
Output: $0.12

GPT-4 Turbo 128K
Input: $0.01
Output: $0.03

GPT-3.5 Turbo 則是直耶拿掉 4K context 產品,然後把價錢砍了一半:

GPT-3.5 Turbo 4K
Input: $0.0015
Output: $0.002

GPT-3.5 Turbo 16K
Input: $0.003
Output: $0.004

GPT-3.5 Turbo 16K
Input: $0.001
Output: $0.002

GPT-3.5 Turbo fine-tuning 的服務則是從本來 4K context 產品線,多了一條 16K context 的產品線,價錢也是砍了一半以上:

GPT-3.5 Turbo 4K fine-tuning
Training: $0.008
Input: $0.012
Output: $0.016

GPT-3.5 Turbo 4K and 16K fine-tuning
Training: $0.008
Input: $0.003
Output: $0.006

另外也多了一些非文字類的功能,包括了影像與聲音的內容。

記得之前有想過的一些點子,當時粗算了一下覺得太貴,好像可以重算看看...

OpenAI 的 web crawler 叫做 GPTBot

Hacker News 上看到「GPTBot – OpenAI’s Web Crawler (openai.com)」,原文是 GPTBot 這個,提到了 OpenAI 的 web crawler,User-Agent 會長這樣:

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

然後有提到他會遵守 robots.txt

另外提供了 web crawler 會使用的 IP range,放在 gptbot-ranges.txt 這邊,目前裡面看起來只有 40.83.2.64/28,是 Azure 的網段。

這個行為有點微妙了,要開始自己掃資料嗎?

ChatGPT 提供正式付費的 API

OpenAI 公佈了 ChatGPT 的付費 API 了:「Introducing ChatGPT and Whisper APIs」。

比較意外的是這次的 model 價錢直接比 text-davinci-003 (GPT-3.5) 少了 90%,也就是直接 1/10 的價錢:

Model: The ChatGPT model family we are releasing today, gpt-3.5-turbo, is the same model used in the ChatGPT product. It is priced at $0.002 per 1k tokens, which is 10x cheaper than our existing GPT-3.5 models. It’s also our best model for many non-chat use cases—we’ve seen early testers migrate from text-davinci-003 to gpt-3.5-turbo with only a small amount of adjustment needed to their prompts.

看起來基本的架構是相容的,現有的 text-davinci-003 轉到 gpt-3.5-turbo 看起來不用花太多功夫?不過 API 是不同隻,不能直接轉:

We’ve created a new endpoint to interact with our ChatGPT models[.]

從 Python bindings 可以看到新的用法:

import openai

completion = openai.ChatCompletion.create(
model="gpt-3.5-turbo",
messages=[{"role": "user", "content": "Tell the world about the ChatGPT API in the style of a pirate."}]
)

print(completion)

這樣就真的就可以想像得到很多 startup 的輪替了...

用 AI 模型判斷是否為 AI 產生的文字

OpenAI 放出了新的 model,可以用來判斷是否為 AI 產生的文字:「New AI classifier for indicating AI-written text」。

但目前的成效其實還是不太行,只以英文的成效來看,true positive 只有 26%,而 false positive 是 9%:

In our evaluations on a “challenge set” of English texts, our classifier correctly identifies 26% of AI-written text (true positives) as “likely AI-written,” while incorrectly labeling human-written text as AI-written 9% of the time (false positives).

另外也有提到弱點,像是比較短的內容機很難辨認:

The classifier is very unreliable on short texts (below 1,000 characters). Even longer texts are sometimes incorrectly labeled by the classifier.

然後就是有正確答案的內容也很難辨認,因為正確答案幾乎都是一樣的:

Text that is very predictable cannot be reliably identified. For example, it is impossible to predict whether a list of the first 1,000 prime numbers was written by AI or humans, because the correct answer is always the same.

另外題到了技術上的限制,現在的方法比較像是「辨認是不是從某些 corpus 訓練出來的 model,所產生的文字」,而非通用性的 AI 文字偵測:

Classifiers based on neural networks are known to be poorly calibrated outside of their training data. For inputs that are very different from text in our training set, the classifier is sometimes extremely confident in a wrong prediction.

看起來是還不到可以用的程度...