🧐 λ‚˜μ˜ 생각 / λΉ„νŒ (My Thoughts / Critiques)

  • RAG 검색 ν’ˆμ§ˆμ„ κ·ΉλŒ€ν™”ν•˜κΈ° μœ„ν•΄, μ‹œμŠ€ν…œμ˜ μ—°μ‚° λΉ„μš©μ΄ ν—ˆμš©ν•˜λŠ” ν•œλ„ λ‚΄μ—μ„œ LLM 기반 μ‹œλ§¨ν‹± 메타데이터λ₯Ό 청킹에 ν†΅ν•©ν•˜λŠ” 것이 νš¨κ³Όμ μ΄λ‹€.

λ…Όλ¬Έ 3쀄 μš”μ•½ (Three-Line Summary)

  • 핡심 μ œμ•ˆ: RAG μ‹œμŠ€ν…œ 평가 μ‹œ ν…μŠ€νŠΈμ™€ 메타데이터(μ‹œκ°„, ν† ν”½, 감성 λ“±)λ₯Ό ν•¨κ»˜ κ³ λ €ν•˜λŠ” μƒˆλ‘œμš΄ QA 벀치마크 β€˜AMAQA’ μ œμ‹œ.
  • μ£Όμš” μ„±κ³Ό: 메타데이터λ₯Ό λ‹¨μˆœ ν…μŠ€νŠΈκ°€ μ•„λ‹Œ ν•„ν„°λ‘œ λͺ…μ‹œμ μœΌλ‘œ ν™œμš©ν•  λ•Œ RAG μ‹œμŠ€ν…œ 정확도가 0.12μ—μ„œ 0.61둜 크게 ν–₯상됨을 μž…μ¦.
  • 의의: 메타데이터 기반 검색 및 μž¬μ •λ ¬, 반볡적 μ»¨ν…μŠ€νŠΈ ν™•μž₯ 등을 톡해 정확도 0.75λ₯Ό 달성, ν–₯ν›„ μ»¨ν…μŠ€νŠΈ 인식 QA μ‹œμŠ€ν…œ μ—°κ΅¬μ˜ 기반 마련.

1. λͺ©ν‘œ (Goal)

  • κΈ°μ‘΄ RAG (Retrieval-Augmented Generation) μ‹œμŠ€ν…œ λ²€μΉ˜λ§ˆν¬κ°€ ν…μŠ€νŠΈ 기반 μž…λ ₯μ—λ§Œ 쀑점을 두고 메타데이터 톡합이 λΆ€μ‘±ν•œ ν•œκ³„ 지적.
  • ν…μŠ€νŠΈμ™€ 메타데이터(νƒ€μž„μŠ€νƒ¬ν”„, ν† ν”½, 감성 λ“±)λ₯Ό κ²°ν•©ν•˜μ—¬ RAG μ‹œμŠ€ν…œμ„ 평가할 수 μžˆλŠ” μƒˆλ‘œμš΄ μ˜€ν”ˆ μ•‘μ„ΈμŠ€ QA 데이터셋 β€˜AMAQA’ μ œμ‹œ.
  • 메타데이터 ν™œμš©μ΄ RAG μ‹œμŠ€ν…œ μ„±λŠ₯에 λ―ΈμΉ˜λŠ” 영ν–₯(RQ1) 및 λ¦¬νŠΈλ¦¬λ²„/생성기 ꡬ성 μš”μ†Œ κ°œμ„ μ΄ 전체 μ„±λŠ₯을 ν–₯μƒμ‹œν‚€λŠ”μ§€(RQ2) 탐ꡬ.
  • 사이버 λ³΄μ•ˆ, μΈν…”λ¦¬μ „μŠ€ λ“± λŒ€μš©λŸ‰ λ°μ΄ν„°μ˜ μ‹ μ†ν•œ 뢄석이 ν•„μš”ν•œ λΆ„μ•Όμ—μ„œ 메타데이터 기반 QA μ‹œμŠ€ν…œ 연ꡬ λ°œμ „μ„ μœ„ν•œ 기반 제곡.

2. 데이터 (Data)

  • AMAQA 데이터셋: 26개 곡개 ν…”λ ˆκ·Έλž¨ κ·Έλ£Ήμ—μ„œ μˆ˜μ§‘ν•œ μ•½ 110만 개의 μ˜μ–΄ λ©”μ‹œμ§€λ‘œ ꡬ성.
  • 데이터 μˆ˜μ§‘ κΈ°κ°„: 2024λ…„ 6μ›” 13일 ~ 8μ›” 13일.
  • ν’λΆ€ν•œ 메타데이터 및 λ ˆμ΄λΈ”:
    • 메타데이터: νƒ€μž„μŠ€νƒ¬ν”„, μ±„νŒ… κ·Έλ£Ήλͺ… λ“±.
    • μžλ™ 생성 λ ˆμ΄λΈ”: 58개 ν† ν”½ (GPT-4o, BERTTopic ν™œμš©), 7κ°€μ§€ 감정 (Ekman λͺ¨λΈ 기반), 독성 μ§€ν‘œ (Perspective API ν™œμš©: 독성, λͺ¨μš•, μœ„ν˜‘ λ“±).
  • QA νŽ˜μ–΄: μ „λ¬Έκ°€(μ–΄λ…Έν…Œμ΄ν„° 및 심사관)의 2단계 μˆ˜λ™ 검증을 거친 450개의 κ³ ν’ˆμ§ˆ QA νŽ˜μ–΄ 포함.
  • 데이터 νŠΉμ„±: λŸ¬μ‹œμ•„-μš°ν¬λΌμ΄λ‚˜ κ°ˆλ“±, λ―Έκ΅­ μ„ κ±° λ“± 지정학적 μ£Όμ œμ— νŽΈμ€‘. β€˜λΆ„λ…Έ(Anger)’ 감정이 λ‘λ“œλŸ¬μ§€λ©° 편ν–₯된 λ‹΄λ‘  반영.

3. λͺ¨λΈ ꡬ쑰 (Model Architecture)

  • λ³Έ 논문은 μƒˆλ‘œμš΄ 단일 λͺ¨λΈμ„ μ œμ•ˆν•˜κΈ°λ³΄λ‹€, AMAQA 데이터셋을 ν‰κ°€ν•˜κΈ° μœ„ν•œ μ—¬λŸ¬ RAG μ•„ν‚€ν…μ²˜λ₯Ό 비ꡐ 및 뢄석함.
  • 베이슀라인 λͺ¨λΈ:
    1. Vanilla RAG: 메타데이터λ₯Ό ν…μŠ€νŠΈμ— μž„λ² λ”©ν•˜μ—¬ 처리.
    2. RAG with Metadata Filter: LLM(Query Creator)이 μžμ—°μ–΄ μ§ˆλ¬Έμ„ κ΅¬μ‘°ν™”λœ 쿼리(ν…μŠ€νŠΈ + 메타데이터 ν•„ν„°)둜 λ³€ν™˜ν•˜μ—¬ 검색.
    3. Re^2G: 메타데이터 필터링 RAG + 검색 κ²°κ³Ό μž¬μ •λ ¬(Reranker) 단계 μΆ”κ°€.
  • ν‰κ°€λœ κ³ κΈ‰ 접근법:
    1. Iter-Re^2G: Re^2G 기반, β€˜I don’t know’ 응닡 μ‹œ λ‹€μŒ top-n λ¬Έμ„œλ‘œ 반볡(μŠ¬λΌμ΄λ”© μœˆλ„μš°)ν•˜λŠ” 반볡적 μ»¨ν…μŠ€νŠΈ ν™•μž₯ 적용.
    2. Re^2G with Noise: Re^2G의 μ»¨ν…μŠ€νŠΈμ— μ˜λ„μ μœΌλ‘œ κ΄€λ ¨ μ—†λŠ” β€˜λ…Έμ΄μ¦ˆβ€™ λ¬Έμ„œ μ£Όμž….
    3. Iter-Re^2G with Noise: 반볡적 μ»¨ν…μŠ€νŠΈ ν™•μž₯κ³Ό λ…Έμ΄μ¦ˆ μ£Όμž… μ „λž΅ κ²°ν•©.

4. μ£Όμš” μ„±κ³Ό (Key Achievements)

  • 메타데이터 ν•„ν„°λ§μ˜ μ€‘μš”μ„± μž…μ¦ (RQ1): 메타데이터λ₯Ό λ‹¨μˆœ ν…μŠ€νŠΈλ‘œ μž„λ² λ”©ν•œ Vanilla RAG(정확도 0.12) λŒ€λΉ„, 메타데이터 필터링 적용 μ‹œ 정확도 0.61둜 λŒ€ν­ ν–₯상.
  • λ¦¬νŠΈλ¦¬λ²„/생성기 μ΅œμ ν™” (RQ2):
    • μž¬μ •λ ¬(Re^2G) 단계 λ„μž…μœΌλ‘œ β€˜Lost-in-the-Middle’ ν˜„μƒ μ™„ν™”, 정확도 0.72둜 ν–₯상.
    • 반볡적 μ»¨ν…μŠ€νŠΈ ν™•μž₯(Iter-Re^2G) 적용 μ‹œ 정확도 0.75 달성.
  • 졜고 μ„±λŠ₯ 달성: Iter-Re^2G with Noise μ•„ν‚€ν…μ²˜(반볡 + λ…Έμ΄μ¦ˆ μ£Όμž…)κ°€ 졜고 정확도(0.75) 및 NEM 점수(0.54) 기둝.
  • 메타데이터λ₯Ό ν™œμš©ν•œ κ΅¬μ‘°ν™”λœ μ»¨ν…μŠ€νŠΈκ°€ RAG μ‹œμŠ€ν…œ 정확도 ν–₯상에 κ²°μ •μ μž„μ„ 싀증.

5. λ…Όλ¬Έμ˜ κ²°λ‘  (Conclusion)

  • 메타데이터λ₯Ό ν™œμš©ν•˜λŠ” RAG μ‹œμŠ€ν…œ 평가λ₯Ό μœ„ν•œ 졜초의 μ˜€ν”ˆ μ•‘μ„ΈμŠ€ QA 데이터셋 β€˜AMAQA’ λ„μž….
  • μ‹€ν—˜μ„ 톡해 메타데이터 필터링이 RAG μ‹œμŠ€ν…œ μ„±λŠ₯을 (정확도 0.12 β†’ 0.61) 극적으둜 ν–₯μƒμ‹œν‚΄μ„ μž…μ¦.
  • μž¬μ •λ ¬, 반볡적 μ»¨ν…μŠ€νŠΈ ν™•μž₯, λ…Έμ΄μ¦ˆ μ£Όμž… λ“± κ³ κΈ‰ μ „λž΅μ„ 톡해 AMAQA 벀치마크의 SOTA μ„±λŠ₯(정확도 0.75) 달성.
  • ν–₯ν›„ 연ꡬ λ°©ν–₯으둜 μž„λ² λ”© 및 생성기 LLM의 νŒŒμΈνŠœλ‹, 벀치마크의 지속적인 μœ μ§€λ³΄μˆ˜ 및 타 도메인 ν™•μž₯ μ œμ•ˆ.