2025年9月30日 星期二

人工智能大型語言模型訓練與微調(三)

人工智能大型語言模型訓練與微調(三):

LLM 模型預訓練(Pre-training)與微調(Fine-tuning)

LLM(Large Language Model /大型語言模型)通常經過兩個階段的訓練, 預訓練和微調。預訓練階段,LLM 在海量文本資料上進行無監督學習,學習語言的通用知識和模式。微調階段,在特定任務的資料集上對預訓練模型進行微調,使其更好地適應特定任務。

模型預訓練(Pre-training)訓練流程(圖片來源:截取自互聯網網頁)

LLM 模型預訓練(Pre-training)

預訓練 - 其目標在於使模型掌握語言的統計模式與語義資訊。主流的預訓練階段流程大致相同,其中關鍵要素是資料,需收集海量無標注資料,像互聯網上的文本、新聞、博客、論壇等。這些資料可以涵蓋多種語言,且要經過一定的清理和處置,去除雜訊、無關資訊以及涉及個人隱私的內容,它使模型能夠根據上下文中不同詞語(Tokens 詞元)的重要性來權衡輸入序列中每個詞語的重要性。最後以 Tokenizer 細微性輸入到前述的語言模型中。經清洗處理後的這些資料用於訓練和優化語言模型。在預訓練過程中,模型會習得詞彙、句法和語義的規律以及上下文的關係。

資料收集 – 預訓練語料有兩種來源, 通用語料和專業語料, 資料收集完後需要對這些資料進行預處理,包括去噪、去冗餘、去除不相關和潛在的錯誤資料。

基礎大模型訓練 - 由於模型參數量和所使用的資料量巨大,所以普通伺服器單機無法完成訓練過程,因此通常採用分散式架構完成訓練 。

LLM 模型預訓練(Pre-training)與微調(Fine-tuning)

指令微調 - 在完成預訓練後,就可以通過指令微調去挖掘和增強語言模型本身具備的能力,這步也是很多企業以及科研研究人員利用大模型的重要步驟。為了讓模型訓練更加高效和簡單,這個階段還有一種高效的 fine-tuning 技術,這為普通的從業者打開了通向使用大模型的捷徑。大模型高效微調(Parameter-Efficient Fine-Tuning, PEFT)。工業界常用的 Adapter Tuning 的技術是 Low-Rank Adaptation(LoRA)。使得在大規模預訓練模型上進行微調更加高效和可行,為實際應用提供了更多可能性。

類人對齊 – 由於模型輸出的結果與人類回答差距很大,因此需要進一步優化模型,使模型的輸出與人類習慣對齊。其中 OpenAI 開發 ChatGPT 的人類回饋強化學習是最具代表性也是最成功的 。

獎勵建模 – 獎勵建模(Reward Modeling)階段的目標是構建一個文本品質對比模型,對於同一個提示詞,SFT 模型給出的多個不同輸出結果的品質進行排序。

強化學習 - 強化學習(Reinforcement Learning)階段根據數十萬使用者給出的提示詞,利用前一階段訓練的 RM 模型,給出 SFT 模型對使用者提示詞補全結果的品質評估,並與語言模型建模目標綜合得到更好的效果。

LLM 模型預訓練(Pre-training)與微調(Fine-tuning)(圖片來源:截取自互聯網網頁)

預訓練與微調:
  • LLM 通常經過兩個階段的訓練:預訓練和微調。
  • 預訓練階段,LLM 在海量文本資料上進行無監督學習,學習語言的通用知識和模式。
  • 微調階段,在特定任務的資料集上對預訓練模型進行微調,使其更好地適應特定任務。

核心能力:

LLM 的核心能力包括生成(生成文本)、總結(文本摘要)、提取(資訊抽取)、分類(文本分類)、檢索(資訊檢索)和改寫(文本改寫)等。
生成是 LLM 最核心的能力,能夠生成連貫、自然的文本內容。

應用場景:

˙ LLM 的應用非常廣泛,包括但不限於:
  • 文本生成:創作各種類型的文本,如文章、代碼、故事等。
  • 語言翻譯:實現不同語言之間的互譯。
  • 問答系統:根據使用者提問提供準確的答案。
  • 情感分析:判斷文本的情感傾向。
  • 信息抽取:從文本中提取關鍵資訊。
  • 代碼生成:根據自然語言描述生成代碼。

總結:
LLM 的核心在於深度學習和 Transformer 架構,通過海量資料訓練,學習語言的模式和結構,從而實現各種自然語言處理任務。這種技術在文本生成、語言翻譯、問答系統等領域具有廣泛的應用前景,並且還在不斷發展和完善中。目前 LLM 最大的缺點是產生幻覺 (Hallucination) 嚴重,經常會產生無中生有的回復,如果你沒有對應的專業知識,很容易被帶偏。所以如果你要用於工作、教育等嚴肅場景,人工二次校驗是必要的。幻覺短期內是無法消除的,連 LLM 的泛化能力也跟幻覺有關。為瞭解決 LLM 回覆準確性的問題,RAG 技術被廣泛應用。另外還有一些問題:訓練資訊更新不及時、邏輯能力差、推理速度慢和安全性方面等。

2025年 9月 30日(Tue)天氣報告
氣溫:56.0°F / 13.0°C @ 07:00
風速:每小時 6公里
降雨機會:0%
相對濕度:百分之 93%
天氣:晴朗有雲

2025年9月29日 星期一

人工智能大型語言模型 LLM 結構和原理(二)

人工智能大型語言模型 LLM 結構和原理(二):

大型語言模型原理
LLM(Large Language Model / 大型語言模型)是一種基於深度學習的人工智能技術,也是自然語言處理(Neutral Language ProcessingNLP)的核心研究內容之一 。其核心是使用大規模資料集對模型進行訓練,從而使其能夠生成自然語言文本或理解語言文本的含義。這些模型通過層疊的神經網路(Neural Network,NNs)結構,學習並類比人類語言的複雜規律,達到接近人類水準的文本生成能力。LLM 能夠更好地理解和生成自然文本,同時表現出一定的邏輯思維和推理能力。

Large Language Model / LLM / 大型語言模型(圖片來源:截取自互聯網網頁)

LLM大型語言模型基本結構
現今最先進的 LLM(大型語言模型)均使用 深度學習(Deep Learning)架構 (例如轉換器(Transformer)和其他深度神經網路架構)來處理不同資料來源的資訊。轉換器在處理連續資料 (例如文字) 時特別有效,可讓其理解和產生自然語言,以用於語言產生和翻譯等工作。

大型語言模型(LLM)的工作原理
大型語言模型(LLM)基於深度學習(Deep Learning)和神經網路(Neural Network / NNs),尤其是 Transformer 架構,通過大量文本資料訓練,學習語言的結構和模式,從而實現自然語言理解和生成。核心在於自注意力機制,使模型能夠理解輸入文本中不同部分的重要性,並預測下一個詞或短語,實現文本生成、翻譯、問答等多種任務。

Large Language Model / LLM / 大型語言模型(圖片來源:截取自互聯網網頁)

深度學習(Deep Learning)
深度學習是機器學習(Machine Learning)的一個分支,是一種以人工神經網路(Neural networks)為架構,對資料進行表徵學習(Representation Learning)的演算法。建立在神經網路的基礎上,深度學習進一步擴展其能力,深度學習模型通過堆疊多層神經網路,構建出深度的神經網路模型,每一層神經網路都學習到不同的數據特徵。也因此 LLM 能夠分辨出更複雜、更準確的資訊。

機器學習 VS 深度學習(圖片來源:截取自互聯網網頁)

神經網路(Neural Network / NNs)
LLM 是一種基於深度學習(Deep Learning)技術的自然語言處理模型, LLM 是基於擁有大量參數的神經網路組成,神經網路模型透過 3 大層來使人工神經元互連:輸入層(Input Layer)、隱藏層(Hidden layer)和輸出層(Output layer),隱藏層位於輸入層與輸出層之間,是進行主要運算的核心部分。隱藏層的每個節點會根據輸入數據進行計算,涉及權重(Weight)和偏置(Bias)的調整,來提取數據中的關鍵特徵並建立模式。每一層在訊息處理的過程中擔當不同的角色,共同完成數據分析和預測, 憑藉其多層結構讓 LLM 模型能有效地處理複雜的語言任務。

複雜深層的神經網路(Neural Network / NNs)(圖片來源:截取自互聯網網頁)

Transformer(轉換器)模型
在2018 年 8位 Google 科學家突破研究創新了網路神經網路  Transformer(轉換器)架構,這個架構可以更精準且更大規模地管理及理解複雜的文字資訊。Transformer 由兩個主要元件組成:它採用編碼器(Encoder)和解碼器(Decoder)。這些元件通常會一起處理及產生序列。編碼器會將原始的文字資料轉換成模型可以分析的離散元素。解碼器接著會透過一系列層級來處理該資料,以產生最終輸出,例如,這可能包括產生的句子。根據模型的類型或工作,轉換器也可以只包含編碼器或解碼器一種。

Transformer 模型的核心是注意力機制(Self-Attention Mechanism)。Transformer 模型的優勢在於它能深入理解語言上下文的含義,(tokens 詞元)並捕捉到用詞細微的差異,並學習語意之間的關聯性。

Transformer 模型之所以能出色地處理上下文,關鍵在於使用自注意力機制。這有點像我們人在閱讀時,會不自覺地將句子中的不同部分聯繫起來,以理解整體意思。自注意力機制則讓 Transformer 模型能同時關注句子中的所有詞語,並學習語意之間的關聯性。 有 Transformer 模型的存在,使得 LLM 在自然語言處理上有重大突破,LLM 並不是靠死記硬背,而是透過學習序列數據中的規律,從而能夠理解語言的上下文及深層含義。

Transformer(轉換器)模型(圖片來源:截取自互聯網網頁)

Transformer(轉換器)模型(圖片來源:截取自互聯網網頁)

增強式學習(Reinforcement Learning)
增強式學習的核心概念是讓 LLM 模型在與環境互動的過程中學習。當 LLM 模型在某個環境中採取行動,而環境會根據 LLM 的行動給予一個回饋或分數,這個回饋可以是正的(表示行動是好的),也可以是負的(表示行動是壞的)。

因此 LLM 會不斷地嘗試不同的行動,並根據先前得到的回饋來調整自己的策略,最終目標是獲得最多正面回饋或最高分。 這種學習模式在開放式對話或複雜任務特別有用,因為這些任務往往沒有明確的標籤資料,而且可能存在很多不確定性。LLM 模型透過和環境互動,不斷調整自己的策略,才能變得更符合使用者期待和喜好。

增強式學習(Reinforcement Learning)

大型語言模型(LLM)基於深度學習和神經網路,尤其是 Transformer 架構,通過大量文本資料訓練,學習語言的結構和模式,從而實現自然語言理解和生成。核心在於自注意力機制,使模型能夠理解輸入文本中不同部分的重要性,並預測下一個詞或短語,實現文本生成、翻譯、問答等多種任務。

以下是 LLM 原理的更詳細解釋:
1. 神經網路與深度學習:
• LLM 本質上是一種深度學習模型,基於由大量相互連接的人工神經元組成的神經網路。 • 神經網路的每一層都學習不同的資料特徵,通過多層結構,LLM 夠處理複雜的語言任務。 • 深度學習通過訓練大量資料,讓模型自動學習和調整參數,從而提高模型性能。

2. Transformer架構:
• LLM 通常採用 Transformer 架構,這是一種特殊的神經網路結構,特別擅長處理序列資料,如文本。

2025年 9月 29一(Mon)天氣報告
氣溫:61.0°F / 16.0°C @ 07:00
風速:每小時 10公里
降雨機會:30%
相對濕度:百分之 80%
天氣:多雲