Aggregation of Reasoning Framework
A Hierarchical Framework for Enhancing Answer Selection in LLM

🧠 Aggregation of Reasoning

Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models

🎯 배경

일반적인 ν”„λ‘¬ν”„νŠΈ μ ‘κ·Ό 방식 쀑 ν•˜λ‚˜λŠ” μ—¬λŸ¬ 좔둠을 μƒ˜ν”Œλ§ν•œ ν›„ κ°€μž₯ 자주 λ“±μž₯ν•˜λŠ” 닡을 μ΅œμ’… 예츑으둜 μ„ νƒν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€. μ΄λŠ” ν”νžˆ Self-Consistency λ°©λ²•μœΌλ‘œ μ•Œλ €μ Έ μžˆμŠ΅λ‹ˆλ‹€. ν•˜μ§€λ§Œ 이 μ ‘κ·Ό 방식은 정닡이 적게 λ‚˜μ˜€λŠ” κ²½μš°μ—λŠ” μ‹€νŒ¨ν•  수 μžˆλ‹€λŠ” 단점이 μžˆμŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ AoR μ ‘κ·Ό 방식이 λ„μž…λ˜μ—ˆμŠ΅λ‹ˆλ‹€.

μ΅œμ’… λ‹΅λ³€ 선택을 κ°œμ„ ν•˜κΈ° μœ„ν•΄, LLM의 μΆ”λ‘  과정을 ν‰κ°€ν•˜λŠ” λŠ₯λ ₯을 ν™œμš©ν•œ 계측적 μΆ”λ‘  집합 ν”„λ ˆμž„μ›Œν¬μΈ AoR(Aggregation of Reasoning)을 μ†Œκ°œν•©λ‹ˆλ‹€. AoR은 LLM의 λ¬Έλ§₯ μ°½ μ œν•œμœΌλ‘œ 인해 λͺ¨λ“  μΆ”λ‘  체인을 λ™μ‹œμ— 평가할 수 μ—†λŠ” 문제λ₯Ό ν•΄κ²°ν•©λ‹ˆλ‹€. λ¨Όμ € 각 μΆ”λ‘  체인을 κ·Έλ“€μ˜ 닡변에 따라 μ§‘κ³„ν•œ ν›„, 두 λ‹¨κ³„μ˜ 평가 과정을 κ±°μΉ©λ‹ˆλ‹€.

첫 번째 λ‹¨κ³„λŠ” 둜컬 점수 맀기기(local-scoring)둜, λ™μΌν•œ 닡변을 λ„μΆœν•˜λŠ” 체인듀을 ν‰κ°€ν•©λ‹ˆλ‹€. 이 λ‹¨κ³„μ—μ„œλŠ” λ‹΅λ³€μ˜ 일관성을 기반으둜 μΆ”λ‘  κ³Όμ •μ˜ 타당성과 μΆ”λ‘  λ‹¨κ³„μ˜ μ μ ˆμ„±μ„ μ€‘μ μ μœΌλ‘œ ν‰κ°€ν•©λ‹ˆλ‹€.

두 번째 λ‹¨κ³„λŠ” κΈ€λ‘œλ²Œ 평가(global-evaluation)둜, μ„œλ‘œ λ‹€λ₯Έ λ‹΅λ³€ κ·Έλ£Ήμ—μ„œ λ…Όλ¦¬μ μœΌλ‘œ κ°€μž₯ μΌκ΄€λ˜κ³  λ°©λ²•λ‘ μ μœΌλ‘œ κ°€μž₯ νƒ€λ‹Ήν•œ 체인듀을 ν‰κ°€ν•©λ‹ˆλ‹€. λͺ©ν‘œλŠ” μΆ”λ‘  κ³Όμ •κ³Ό ν•΄λ‹Ή λ‹΅λ³€ κ°„μ˜ 일관성과 μΌμΉ˜μ„±μ„ κ°€μž₯ 잘 λ‚˜νƒ€λ‚΄λŠ” μΆ”λ‘  체인을 μ‹λ³„ν•˜μ—¬ 이λ₯Ό μ΅œμ’… 좜λ ₯으둜 μ§€μ •ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€.

πŸ€” AoR ν”„λ ˆμž„μ›Œν¬λž€ λ¬΄μ—‡μΈκ°€μš”?

AoR μ ‘κ·Ό 방식은 Local-Scoringκ³Ό Global-Evaluation의 두 λ‹¨κ³„λ‘œ κ΅¬μ„±λ©λ‹ˆλ‹€. image image 1️⃣ CoT(Chain-of-Thought) ν”„λ‘¬ν”„νŠΈλ₯Ό μ‚¬μš©ν•˜μ—¬ n번의 좔둠을 μˆ˜ν–‰ν•©λ‹ˆλ‹€. λ™μΌν•œ 닡을 내놓은 좔둠을 같은 그룹으둜 λΆ„λ₯˜ν•©λ‹ˆλ‹€.

🎨 κ·Έλ¦Όμ—μ„œλŠ” 10번의 좔둠을 μˆ˜ν–‰ν•˜μ˜€μŠ΅λ‹ˆλ‹€. λ‹΅ Aλ₯Ό 내놓은 좔둠은 {R0, R1}, λ‹΅ Bλ₯Ό 내놓은 좔둠은 {R2, R6}, λ‹΅ Cλ₯Ό 내놓은 좔둠은 {R3, R4, R7}, λ‹΅ Dλ₯Ό 내놓은 좔둠은 {R5, R8, R9} μž…λ‹ˆλ‹€. 같은 λŒ€λ‹΅μ„ 내놓은 좔둠끼리 λΆ„λ₯˜λ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€.

2️⃣ Local-Scoring λ‹¨κ³„μ—μ„œλŠ” 같은 그룹으둜 λΆ„λ₯˜λœ μΆ”λ‘  체인을 ν‰κ°€ν•©λ‹ˆλ‹€. 이 λ‹¨κ³„μ—μ„œλŠ” μΆ”λ‘  κ³Όμ •μ˜ 타당성과 각 λ‹¨κ³„μ˜ μ ‘κ·Ό 방법을 ν‰κ°€ν•˜λŠ” 것이 λͺ©ν‘œμž…λ‹ˆλ‹€. 평가λ₯Ό 톡해 μ μˆ˜κ°€ μ‚°μ •λ˜λ©°, μƒμœ„ k개의 좔둠이 ν•΄λ‹Ή 그룹의 λŒ€ν‘œλ‘œ μ„ λ°œλ©λ‹ˆλ‹€.

🎨 평가 방식과 μ μˆ˜κ°€ μž‘μ„±λœ ν”„λ‘¬ν”„νŠΈλ₯Ό μ‚¬μš©ν•˜μ—¬ 각 그룹의 λŒ€ν‘œλ₯Ό μ„ λ°œν•©λ‹ˆλ‹€. λ‹΅ A의 λŒ€ν‘œλŠ” R1, B의 λŒ€ν‘œλŠ” R2, C의 λŒ€ν‘œλŠ” R3, D의 λŒ€ν‘œλŠ” R8이 μ„ νƒλ˜μ—ˆμŠ΅λ‹ˆλ‹€. image Local-Scoring ν‰κ°€μ§€ν‘œ 문제λ₯Ό ν•΄κ²°ν•˜λŠ” κ³Όμ •μ—μ„œ λ‹€μŒ 기쀀을 μ‚¬μš©ν•˜μ—¬ μ΅œλŒ€ 10점 만점으둜 ν‰κ°€ν•©λ‹ˆλ‹€:

  1. 논리적 일관성 (Logical Consistency) - 3점: β€’ ν•΄κ²° 과정이 λ…Όλ¦¬μ μœΌλ‘œ 일관성이 μžˆλŠ”μ§€ ν‰κ°€ν•©λ‹ˆλ‹€.
  2. λ°©λ²•μ˜ μ μ ˆμ„± (Appropriateness of Method) - 3점: β€’ μ‚¬μš©λœ 방법이 문제 해결에 μ μ ˆν•œμ§€ ν‰κ°€ν•©λ‹ˆλ‹€.
  3. μ™„μ „μ„±κ³Ό λͺ…ν™•μ„± (Completeness and Clarity) - 2점: β€’ ν•΄κ²° 과정이 μ™„μ „ν•˜κ³  λͺ…ν™•ν•œμ§€ ν‰κ°€ν•©λ‹ˆλ‹€.
  4. μ§€μ‹μ˜ 적용 (Application of Knowledge) - 2점: β€’ 문제 해결에 ν•„μš”ν•œ 지식이 μ μ ˆν•˜κ²Œ μ μš©λ˜μ—ˆλŠ”μ§€ ν‰κ°€ν•©λ‹ˆλ‹€.

3️⃣ Global-Evaluation λ‹¨κ³„μ—μ„œλŠ” 각 κ·Έλ£Ήμ—μ„œ μ„ νƒλœ λŒ€ν‘œ 좔둠을 ν‰κ°€ν•©λ‹ˆλ‹€. 이 λ‹¨κ³„μ—μ„œλŠ” μΆ”λ‘  κ³Όμ •κ³Ό κ²°κ³Ό κ°„μ˜ 일관성과 μΌμΉ˜ν•˜λŠ” 정도λ₯Ό κ°€μž₯ 잘 λ³΄μ—¬μ£ΌλŠ” 좔둠을 μ°ΎλŠ” 것이 λͺ©ν‘œμž…λ‹ˆλ‹€. k번의 평가 λΌμš΄λ“œ ν›„, 평균 μ μˆ˜κ°€ κ°€μž₯ 높은 그룹을 μ΅œμ’… 좜λ ₯으둜 μ„ νƒν•©λ‹ˆλ‹€.

🎨 Local-Scoringκ³Ό μœ μ‚¬ν•œ ν˜•μ‹μ˜ ν”„λ‘¬ν”„νŠΈλ₯Ό μ‚¬μš©ν•˜λ˜, 평가 방식은 μ•½κ°„ λ‹€λ¦…λ‹ˆλ‹€. Local-Scoring을 톡해 μ„ λ°œλœ λŒ€ν‘œ 좔둠을 λͺ¨λ‘ λͺ¨μ•„μ„œ κ·Έ 쀑 μ˜¬λ°”λ₯Έ λ‹΅λ³€ ν•˜λ‚˜λ₯Ό μ„ νƒν•˜λ„λ‘ ν•©λ‹ˆλ‹€. ν•΄λ‹Ή 닡변이 μ΅œμ’… 닡변이 λ©λ‹ˆλ‹€. image Global-Evaluation ν‰κ°€μ§€ν‘œ μ•„λž˜μ˜ μ—¬λŸ¬ ν•΄κ²° κ³Όμ • 쀑 ν•˜λ‚˜μ˜ 닡이 λ§žλ‹€κ³  κ°€μ •ν•˜κ³ , 각 ν•΄κ²° 과정을 λ‹€μŒ 기쀀에 따라 ν‰κ°€ν•©λ‹ˆλ‹€:

  1. μ ‘κ·Όμ˜ 타당성 (Validity of Approach) - 3점: β€’ μ ‘κ·Ό 방식이 νƒ€λ‹Ήν•œμ§€ ν‰κ°€ν•©λ‹ˆλ‹€.
  2. 단계와 λ‹΅λ³€μ˜ 일관성 (Consistency of Steps and Answer) - 3점: β€’ 각 단계와 μ΅œμ’… λ‹΅λ³€ κ°„μ˜ 일관성이 μžˆλŠ”μ§€ ν‰κ°€ν•©λ‹ˆλ‹€.
  3. μ™„μ „μ„±κ³Ό λͺ…ν™•μ„± (Completeness and Clarity) - 2점: β€’ ν•΄κ²° 과정이 μ™„μ „ν•˜κ³  λͺ…ν™•ν•œμ§€ ν‰κ°€ν•©λ‹ˆλ‹€.
  4. μ§€μ‹μ˜ 적용 (Application of Knowledge) - 2점: β€’ 문제 해결에 ν•„μš”ν•œ 지식이 μ μ ˆν•˜κ²Œ μ μš©λ˜μ—ˆλŠ”μ§€ ν‰κ°€ν•©λ‹ˆλ‹€.

πŸ“ ν”„λ‘¬ν”„νŠΈ μ„€λͺ…

Standard Prompting

Standard Prompting은 LLM(Large Language Model)이 질문 $Q$와 ν”„λ‘¬ν”„νŠΈ $T$λ₯Ό μž…λ ₯으둜 λ°›μ•„, λ‹΅λ³€ $A$의 각 토큰을 순차적으둜 μƒμ„±ν•©λ‹ˆλ‹€. μ΄λ•Œ 각 λ‹¨κ³„μ—μ„œμ˜ κ°€λŠ₯성을 μ΅œλŒ€ν™”ν•˜κΈ° μœ„ν•΄ 닡변을 μƒμ„±ν•©λ‹ˆλ‹€. μˆ˜μ‹μœΌλ‘œλŠ” λ‹€μŒκ³Ό 같이 ν‘œν˜„λ©λ‹ˆλ‹€:

\[P(A \mid T, Q) = \prod_{i=1}^{|A|} P_M(a_i \mid T, Q, a_{<i})\]

μ—¬κΈ°μ„œ $P(A \mid T, Q)$λŠ” $T$와 $Q$λ₯Ό μž…λ ₯으둜 ν•œ λ‹΅λ³€ $A$의 ν™•λ₯ μ„ λ‚˜νƒ€λƒ…λ‹ˆλ‹€.

CoT Prompting

CoT(Chain of Thought) Prompting은 ν”„λ‘¬ν”„νŠΈ $T$λ₯Ό κ°œμ„ ν•˜μ—¬ 문제 ν•΄κ²° 과정을 κ°•ν™”ν•˜κ³ , λ‹΅λ³€ $A$λ₯Ό μƒμ„±ν•˜κΈ° 전에 논리적 좔둠을 $R$둜 ν†΅ν•©ν•˜λ„λ‘ LLM을 μœ λ„ν•©λ‹ˆλ‹€. $R$κ³Ό $A$의 μŒμ„ reasoning chain이라 λΆ€λ¦…λ‹ˆλ‹€. CoT ν”„λ‘¬ν”„νŠΈμ˜ ν™•λ₯ μ€ λ‹€μŒκ³Ό 같이 ν‘œν˜„λ©λ‹ˆλ‹€:

\[P(R, A \mid T, Q) = P(A \mid T, Q, R)P(R \mid T, Q)\]

μ—¬κΈ°μ„œ $P(R \mid T, Q)$와 $P(A \mid T, Q, R)$λŠ” 각각 λ‹€μŒκ³Ό 같이 μ •μ˜λ©λ‹ˆλ‹€:

\[P(R \mid T, Q) = \prod_{i=1}^{|R|} P_M(r_i \mid T, Q, r_{<i})\] \[P(A \mid T, Q, R) = \prod_{j=1}^{|A|} P_M(a_j \mid T, Q, R, a_{<j})\]
Self-Consistency

Self-ConsistencyλŠ” CoTλ₯Ό μ‚¬μš©ν•˜μ—¬ n개의 μΆ”λ‘  체인을 μƒ˜ν”Œλ§ν•©λ‹ˆλ‹€. 각 μΆ”λ‘  체인은 λ‹΅λ³€$A$와 ν•¨κ»˜ μ—¬λŸ¬ 개의 reasoning chains $(R_i, A_i)$둜 κ΅¬μ„±λ©λ‹ˆλ‹€. Self-ConsistencyλŠ” 각 μΆ”λ‘  μ²΄μΈμ—μ„œ κ°€μž₯ λΉˆλ²ˆν•˜κ²Œ λ“±μž₯ν•˜λŠ” 닡을 μ΅œμ’… λ‹΅μœΌλ‘œ μ„ νƒν•©λ‹ˆλ‹€. 이 μ ‘κ·Ό 방식은 λ‹€μŒκ³Ό 같이 ν‘œν˜„λ©λ‹ˆλ‹€:

\[A^* = \arg \max_a [(\{(R_i, A_i)\mid A_i = a\}]\]

μ΄λŠ” κ°€μž₯ 자주 λ“±μž₯ν•˜λŠ” 닡변이 μ΅œμ’… λ‹΅λ³€μœΌλ‘œ 선택됨을 μ˜λ―Έν•©λ‹ˆλ‹€.

πŸ“ˆ 평가

μˆ˜ν•™μ  μΆ”λ‘ , 상식 μΆ”λ‘ , 기호적 μΆ”λ‘ μ˜ μ„Έ 가지 μœ ν˜•μ˜ μž‘μ—…μ— λŒ€ν•œ μ‹€ν—˜ κ²°κ³Ό, AoR은 CoT(Chain of Thoughts) ν”„λ‘¬ν”„νŠΈ, Complexity-Based ν”„λ‘¬ν”„νŠΈ, Self-Consistency λ“± μ—¬λŸ¬ κΈ°μ‘΄ 방법보닀 μš°μˆ˜ν•œ μ„±λŠ₯을 λ³΄μ˜€μŠ΅λ‹ˆλ‹€. image λͺ¨λ“  방식에 GPT-3.5κ°€ μ‚¬μš©λ˜μ—ˆκΈ° λ•Œλ¬Έμ—, νŒŒλΌλ―Έν„° μˆ˜κ°€ 적은 λͺ¨λΈμ—μ„œλ„ μ„±λŠ₯ ν–₯상이 λ‚˜νƒ€λ‚ μ§€λŠ” μΆ”κ°€ μ‹€ν—˜μ„ 톡해 확인해야 ν•©λ‹ˆλ‹€.

πŸ”¬ μ‹€ν—˜