μΌλ°μ μΈ ν둬ννΈ μ κ·Ό λ°©μ μ€ νλλ μ¬λ¬ μΆλ‘ μ μνλ§ν ν κ°μ₯ μμ£Ό λ±μ₯νλ λ΅μ μ΅μ’ μμΈ‘μΌλ‘ μ ννλ κ²μ λλ€. μ΄λ νν Self-Consistency λ°©λ²μΌλ‘ μλ €μ Έ μμ΅λλ€. νμ§λ§ μ΄ μ κ·Ό λ°©μμ μ λ΅μ΄ μ κ² λμ€λ κ²½μ°μλ μ€ν¨ν μ μλ€λ λ¨μ μ΄ μμ΅λλ€. μ΄λ¬ν λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄ AoR μ κ·Ό λ°©μμ΄ λμ λμμ΅λλ€.
μ΅μ’ λ΅λ³ μ νμ κ°μ νκΈ° μν΄, LLMμ μΆλ‘ κ³Όμ μ νκ°νλ λ₯λ ₯μ νμ©ν κ³μΈ΅μ μΆλ‘ μ§ν© νλ μμν¬μΈ AoR(Aggregation of Reasoning)μ μκ°ν©λλ€. AoRμ LLMμ λ¬Έλ§₯ μ°½ μ νμΌλ‘ μΈν΄ λͺ¨λ μΆλ‘ 체μΈμ λμμ νκ°ν μ μλ λ¬Έμ λ₯Ό ν΄κ²°ν©λλ€. λ¨Όμ κ° μΆλ‘ 체μΈμ κ·Έλ€μ λ΅λ³μ λ°λΌ μ§κ³ν ν, λ λ¨κ³μ νκ° κ³Όμ μ κ±°μΉ©λλ€.
첫 λ²μ§Έ λ¨κ³λ λ‘컬 μ μ 맀기기(local-scoring)λ‘, λμΌν λ΅λ³μ λμΆνλ 체μΈλ€μ νκ°ν©λλ€. μ΄ λ¨κ³μμλ λ΅λ³μ μΌκ΄μ±μ κΈ°λ°μΌλ‘ μΆλ‘ κ³Όμ μ νλΉμ±κ³Ό μΆλ‘ λ¨κ³μ μ μ μ±μ μ€μ μ μΌλ‘ νκ°ν©λλ€.
λ λ²μ§Έ λ¨κ³λ κΈλ‘λ² νκ°(global-evaluation)λ‘, μλ‘ λ€λ₯Έ λ΅λ³ κ·Έλ£Ήμμ λ Όλ¦¬μ μΌλ‘ κ°μ₯ μΌκ΄λκ³ λ°©λ²λ‘ μ μΌλ‘ κ°μ₯ νλΉν 체μΈλ€μ νκ°ν©λλ€. λͺ©νλ μΆλ‘ κ³Όμ κ³Ό ν΄λΉ λ΅λ³ κ°μ μΌκ΄μ±κ³Ό μΌμΉμ±μ κ°μ₯ μ λνλ΄λ μΆλ‘ 체μΈμ μλ³νμ¬ μ΄λ₯Ό μ΅μ’ μΆλ ₯μΌλ‘ μ§μ νλ κ²μ λλ€.
AoR μ κ·Ό λ°©μμ Local-Scoringκ³Ό Global-Evaluationμ λ λ¨κ³λ‘ ꡬμ±λ©λλ€. 1οΈβ£ CoT(Chain-of-Thought) ν둬ννΈλ₯Ό μ¬μ©νμ¬ nλ²μ μΆλ‘ μ μνν©λλ€. λμΌν λ΅μ λ΄λμ μΆλ‘ μ κ°μ κ·Έλ£ΉμΌλ‘ λΆλ₯ν©λλ€.
π¨ κ·Έλ¦Όμμλ 10λ²μ μΆλ‘ μ μννμμ΅λλ€. λ΅ Aλ₯Ό λ΄λμ μΆλ‘ μ {R0, R1}, λ΅ Bλ₯Ό λ΄λμ μΆλ‘ μ {R2, R6}, λ΅ Cλ₯Ό λ΄λμ μΆλ‘ μ {R3, R4, R7}, λ΅ Dλ₯Ό λ΄λμ μΆλ‘ μ {R5, R8, R9} μ λλ€. κ°μ λλ΅μ λ΄λμ μΆλ‘ λΌλ¦¬ λΆλ₯λμ΄ μμ΅λλ€.
2οΈβ£ Local-Scoring λ¨κ³μμλ κ°μ κ·Έλ£ΉμΌλ‘ λΆλ₯λ μΆλ‘ 체μΈμ νκ°ν©λλ€. μ΄ λ¨κ³μμλ μΆλ‘ κ³Όμ μ νλΉμ±κ³Ό κ° λ¨κ³μ μ κ·Ό λ°©λ²μ νκ°νλ κ²μ΄ λͺ©νμ λλ€. νκ°λ₯Ό ν΅ν΄ μ μκ° μ°μ λλ©°, μμ kκ°μ μΆλ‘ μ΄ ν΄λΉ κ·Έλ£Ήμ λνλ‘ μ λ°λ©λλ€.
π¨ νκ° λ°©μκ³Ό μ μκ° μμ±λ ν둬ννΈλ₯Ό μ¬μ©νμ¬ κ° κ·Έλ£Ήμ λνλ₯Ό μ λ°ν©λλ€. λ΅ Aμ λνλ R1, Bμ λνλ R2, Cμ λνλ R3, Dμ λνλ R8μ΄ μ νλμμ΅λλ€. Local-Scoring νκ°μ§ν λ¬Έμ λ₯Ό ν΄κ²°νλ κ³Όμ μμ λ€μ κΈ°μ€μ μ¬μ©νμ¬ μ΅λ 10μ λ§μ μΌλ‘ νκ°ν©λλ€:
3οΈβ£ Global-Evaluation λ¨κ³μμλ κ° κ·Έλ£Ήμμ μ νλ λν μΆλ‘ μ νκ°ν©λλ€. μ΄ λ¨κ³μμλ μΆλ‘ κ³Όμ κ³Ό κ²°κ³Ό κ°μ μΌκ΄μ±κ³Ό μΌμΉνλ μ λλ₯Ό κ°μ₯ μ 보μ¬μ£Όλ μΆλ‘ μ μ°Ύλ κ²μ΄ λͺ©νμ λλ€. kλ²μ νκ° λΌμ΄λ ν, νκ· μ μκ° κ°μ₯ λμ κ·Έλ£Ήμ μ΅μ’ μΆλ ₯μΌλ‘ μ νν©λλ€.
π¨ Local-Scoringκ³Ό μ μ¬ν νμμ ν둬ννΈλ₯Ό μ¬μ©νλ, νκ° λ°©μμ μ½κ° λ€λ¦ λλ€. Local-Scoringμ ν΅ν΄ μ λ°λ λν μΆλ‘ μ λͺ¨λ λͺ¨μμ κ·Έ μ€ μ¬λ°λ₯Έ λ΅λ³ νλλ₯Ό μ ννλλ‘ ν©λλ€. ν΄λΉ λ΅λ³μ΄ μ΅μ’ λ΅λ³μ΄ λ©λλ€. Global-Evaluation νκ°μ§ν μλμ μ¬λ¬ ν΄κ²° κ³Όμ μ€ νλμ λ΅μ΄ λ§λ€κ³ κ°μ νκ³ , κ° ν΄κ²° κ³Όμ μ λ€μ κΈ°μ€μ λ°λΌ νκ°ν©λλ€:
Standard Promptingμ LLM(Large Language Model)μ΄ μ§λ¬Έ $Q$μ ν둬ννΈ $T$λ₯Ό μ λ ₯μΌλ‘ λ°μ, λ΅λ³ $A$μ κ° ν ν°μ μμ°¨μ μΌλ‘ μμ±ν©λλ€. μ΄λ κ° λ¨κ³μμμ κ°λ₯μ±μ μ΅λννκΈ° μν΄ λ΅λ³μ μμ±ν©λλ€. μμμΌλ‘λ λ€μκ³Ό κ°μ΄ ννλ©λλ€:
\[P(A \mid T, Q) = \prod_{i=1}^{|A|} P_M(a_i \mid T, Q, a_{<i})\]μ¬κΈ°μ $P(A \mid T, Q)$λ $T$μ $Q$λ₯Ό μ λ ₯μΌλ‘ ν λ΅λ³ $A$μ νλ₯ μ λνλ λλ€.
CoT(Chain of Thought) Promptingμ ν둬ννΈ $T$λ₯Ό κ°μ νμ¬ λ¬Έμ ν΄κ²° κ³Όμ μ κ°ννκ³ , λ΅λ³ $A$λ₯Ό μμ±νκΈ° μ μ λ Όλ¦¬μ μΆλ‘ μ $R$λ‘ ν΅ν©νλλ‘ LLMμ μ λν©λλ€. $R$κ³Ό $A$μ μμ reasoning chainμ΄λΌ λΆλ¦ λλ€. CoT ν둬ννΈμ νλ₯ μ λ€μκ³Ό κ°μ΄ ννλ©λλ€:
\[P(R, A \mid T, Q) = P(A \mid T, Q, R)P(R \mid T, Q)\]μ¬κΈ°μ $P(R \mid T, Q)$μ $P(A \mid T, Q, R)$λ κ°κ° λ€μκ³Ό κ°μ΄ μ μλ©λλ€:
\[P(R \mid T, Q) = \prod_{i=1}^{|R|} P_M(r_i \mid T, Q, r_{<i})\] \[P(A \mid T, Q, R) = \prod_{j=1}^{|A|} P_M(a_j \mid T, Q, R, a_{<j})\]Self-Consistencyλ CoTλ₯Ό μ¬μ©νμ¬ nκ°μ μΆλ‘ 체μΈμ μνλ§ν©λλ€. κ° μΆλ‘ 체μΈμ λ΅λ³$A$μ ν¨κ» μ¬λ¬ κ°μ reasoning chains $(R_i, A_i)$λ‘ κ΅¬μ±λ©λλ€. Self-Consistencyλ κ° μΆλ‘ 체μΈμμ κ°μ₯ λΉλ²νκ² λ±μ₯νλ λ΅μ μ΅μ’ λ΅μΌλ‘ μ νν©λλ€. μ΄ μ κ·Ό λ°©μμ λ€μκ³Ό κ°μ΄ ννλ©λλ€:
\[A^* = \arg \max_a [(\{(R_i, A_i)\mid A_i = a\}]\]μ΄λ κ°μ₯ μμ£Ό λ±μ₯νλ λ΅λ³μ΄ μ΅μ’ λ΅λ³μΌλ‘ μ νλ¨μ μλ―Έν©λλ€.
μνμ μΆλ‘ , μμ μΆλ‘ , κΈ°νΈμ μΆλ‘ μ μΈ κ°μ§ μ νμ μμ μ λν μ€ν κ²°κ³Ό, AoRμ CoT(Chain of Thoughts) ν둬ννΈ, Complexity-Based ν둬ννΈ, Self-Consistency λ± μ¬λ¬ κΈ°μ‘΄ λ°©λ²λ³΄λ€ μ°μν μ±λ₯μ 보μμ΅λλ€. λͺ¨λ λ°©μμ GPT-3.5κ° μ¬μ©λμκΈ° λλ¬Έμ, νλΌλ―Έν° μκ° μ μ λͺ¨λΈμμλ μ±λ₯ ν₯μμ΄ λνλ μ§λ μΆκ° μ€νμ ν΅ν΄ νμΈν΄μΌ ν©λλ€.