86

기깔나는 agent 만들기: LLM eval — 왜 평가는 모델보다 먼저 설계해야 하는가

인턴할 때 LLM 평가 모델을 만들었었다. 평가 기준을 바꾸고, 프롬프트를 조정하면서 실험도 했고, 학습 데이터가 필요하니 데이터 생성용 프롬프트 엔지니어링도 했다. 요즘 면접을 다니면서 당시의 AS-IS와 지금의 TO-BE를 여러 번 설명했다. 구조는 설명할 수 있었다.그런데 설명을 하면 할수록 찜찜했다. 말은 맞는데, 핵심을 비켜간 느낌이었다.집에 와서 곱씹어 보면 결국 이 질문으로 돌아왔다. 무엇이 잘 된 LLM 평가인가. --- 많은 팀이 말하는 “평가”의 한계평가는 보통 결과를 재는 일로 이해된다. 모델의 답변을 모아 점수를 매기고, 평균을 내고, 이전 버전과 비교한다. CSAT, 응답 품질 점수, 혹은 LLM grader가 준 1–5점 같은 수치들이다.하지만 이 방식은 점수는 나오지만, 판단은..

인공지능 공부 2026.02.05

[논문 리뷰] (3) 왜 환각은 계속 남아 있는가? — Why Language Models Hallucinate

[2509.04664v1] Why Language Models Hallucinate Why Language Models HallucinateLike students facing hard exam questions, large language models sometimes guess when uncertain, producing plausible yet incorrect statements instead of admitting uncertainty. Such "hallucinations" persist even in state-of-the-art systems and undermine trusarxiv.org 마지막은 ~ 아주 방금 나온 따끈따끈한 openai(Georgia Tech랑 같이)의 논문입니다...

인공지능 공부 2025.09.12

[논문 리뷰] (2) 왜 환각은 피할 수 없는가? — On the Fundamental Impossibility of Hallucination Control in Large Language Models

https://arxiv.org/abs/2506.06382 On the Fundamental Impossibility of Hallucination Control in Large Language ModelsThis paper establishes a fundamental impossibility theorem: no LLM capable of performing non-trivial knowledge aggregation can simultaneously achieve truthful knowledge representation, semantic information conservation, complete revelation of relevant knowarxiv.org llm 할루시네이션 시리즈 2번..

인공지능 공부 2025.09.12

[논문 리뷰] (1) 왜 환각은 제어 불가능한가? — Hallucination is Inevitable: AnInnate Limitation of Large Language Models

https://arxiv.org/abs/2401.11817 Hallucination is Inevitable: An Innate Limitation of Large Language ModelsHallucination has been widely recognized to be a significant drawback for large language models (LLMs). There have been many works that attempt to reduce the extent of hallucination. These efforts have mostly been empirical so far, which cannot answer thearxiv.org 안녕하세요~ 이번에는 LLM의 할루시네이션 불가..

인공지능 공부 2025.09.12

AI Agent: 왜 하필 Agent 일 까 ??

작년부터 제일 핫한건 아무래도 agent잖아요. 처음 에이전트라는 단어를 들었을때 저는 한국인으로서 요원/ 첩보원 느낌이 강했고 (에이전트 최 이런 ..)처음 AI 업계에서 이 단어를 쓸 때는 다소 낯설고 이질적으로 들렸습니다. 하지만 시간이 지나면서 사람들은 '어디까지를 에이전트라고 불러야 하는가'를 놓고 진지하게 논의할 정도로 자리 잡았습니다. 그리고 저는 이 시점에서 궁금해졌어요. 왜 하필 에이전트일까? 놀랍게도 이 단어의 뿌리를 추적하다 보니, 고대(고대영 아님) 철학까지 가더라구요얘는 단순한 기술 용어가 아니었고 고대 철학부터 이어져 온 사유의 흔적이며 하나의 메타포였어요. 1. 철학에서의 Agent아리스토텔레스가 고민했던 것은 단순했습니다."왜 사물은 변하는가? 무엇이 세상의 운동과 변화를..

카테고리 없음 2025.09.05

[논문 리뷰] Agentic AI for Scientific Discovery: A Survey of Progress, Challenges, and Future Directions 빠르게 읽기

https://arxiv.org/abs/2503.08979 Agentic AI for Scientific Discovery: A Survey of Progress, Challenges, and Future DirectionsThe integration of Agentic AI into scientific discovery marks a new frontier in research automation. These AI systems, capable of reasoning, planning, and autonomous decision-making, are transforming how scientists perform literature review, generate hypotarxiv.org제가 또 재밋는..

그냥 공부 2025.09.05

[논문 리뷰] LLMs are Bayesian, In Expectation, Not in Realization랑 할루시네이션

https://arxiv.org/abs/2507.11768 LLMs are Bayesian, in Expectation, not in RealizationLarge language models demonstrate remarkable in-context learning capabilities, adapting to new tasks without parameter updates. While this phenomenon has been successfully modeled as implicit Bayesian inference, recent empirical findings reveal a fundamentarxiv.org 최근 링크드인에서 본 글이 인상적이었어요. “LLM hallucinations a..

인공지능 공부 2025.09.04

인공지능에서 베이지안 통계학 — 불확실성을 다루는 언어

베이지안 통계학 !통계학 부전공을 하며 전공 선택 과목을 고를 때,재밌어보이지만 어렵고, 소수 정예라 학점 방어가 빡센 과목 vs.고만고만하게 듣고 사람 많은 과목중에서 대학 4년 다니는데 내가 해보고 싶은거 들어봐야지 하며 전자를 택했습니다.그게 바로 베이지안 통계학이었어요. 이 수업은 실습이 적고 판서 위주로 수업이 진행되어서, 막 통계에 입문한 저에게는 되게 흥미롭고 신기하지만 와닿지 않는 .. 되게 철학적인 과목이라는 느낌을 받았어요.하지만 인공지능을 깊게 다루다 보니, 수많은 모델과 알고리즘의 뼈대에 베이즈 정리가 놓여 있더군요.이 글은 그 경험에서 출발해, 베이지안 vs 빈도론, 그리고 AI에서 왜 베이지안이 이렇게 자주 쓰이는지를 정리합니다. 1) 베이지안 vs 빈도론: 관점의 차이우리가 확..

인공지능 공부 2025.09.04

Diffusion은 BERT스럽고, GPT스럽다: 학습과 추론으로 나눠본 생성 vs 이해

더보기저는 주로 NLP 쪽만 공부해왔고, CV는 사실 깊게 알지 못합니다. 그래서 이 글은 정리된 지식보다는 망상하다가 갑자기 생각난 유사점을 기록해두는 메모에 가깝습니다. 특히 Diffusion을 보다 보니 BERT의 MLM 방식과 닮아 있다는 생각이 들어, 그 연결을 조심스럽게 적어봅니다. 요즘 업계 담론을 보면 이렇게 나뉘는 경우가 많습니다.NLP에서는 Transformer, 특히 GPT 계열이 대세가 되었고, ChatGPT 이전에는 각 도메인에 특화된 BERT 계열이 더 널리 쓰였습니다.CV에서는 Diffusion이 사실상 생성의 표준이 되었고, 멀티모달 이해의 축에는 CLIP이 자주 호출됩니다.저는 여기서 작은 의문을 가졌습니다.“Diffusion의 학습을 가만히 보면, BERT의 MLM과 꽤..

인공지능 공부 2025.09.04