그냥 공부

[논문 리뷰] Agentic AI for Scientific Discovery: A Survey of Progress, Challenges, and Future Directions 빠르게 읽기

dnjswngo 2025. 9. 5. 13:36

https://arxiv.org/abs/2503.08979

 

Agentic AI for Scientific Discovery: A Survey of Progress, Challenges, and Future Directions

The integration of Agentic AI into scientific discovery marks a new frontier in research automation. These AI systems, capable of reasoning, planning, and autonomous decision-making, are transforming how scientists perform literature review, generate hypot

arxiv.org

제가 또 재밋는 논문을 찾아왔어요.

 

1. Instruction

Agentic AI: 높은 수준의 자율성을 갖도록 설계되어서, AI가 스스로 가설 생성/문헌조사/실험/데이터 분석 같은 작업을 할 수가 있음

 

1. 그래서 요새 그런걸 많이 하지만 ~ 바이오메디컬처럼 엄격한 검토가 중요한 도메인에는 한계가 있다.

 예) Agent Laboratory는 데이터 준비, 실험, 보고서 작성에는 성공률이 높았지만 문헌 검토에서는 성능이 ㅂㄹ였음.

2. 시스템 신뢰성, 재현성, 윤리적 관리에는 여전히 문제가 있다.

 

2. AGENTIC AI: FOUNDATIONS AND KEY CONCEPTS

- Agent: 행동을 할 수 있는 능력을 지닌 존재

- Agency: 그 능력을 발휘하거나 표현하는 것

(에이전트의 개념은 사실 다들 표현하기 나름임. 아리스토텔레스부터 여태까지 다뤄왔고, 분야/논문마다 정의가 다르긴 함)

 

그리고 또 그 agent는 요새 single agent와 multi agent로 나뉘어서 태스크마다 다르게 쓰이고 있음.

  • Single Agent
    • 명확히 정의된 문제를 다루거나 사용자 피드백이 크게 필요없는 상황에서 강점
    • 하나의 LLM 기반 agent가 다양한 작업과 도메인을 처리하며, 스스로 추론/계획/도구 실행을 수행 가능
    • 예: 과학적 발견, 웹 자동화, 게임 환경, 헬스케어 등에서 활용
  • Multi Agent
    • 서로 다른 전문성을 가진 둘 이상의 에이전트가 상호작용, 협력하는 구조
    • Minsky(누구신지)의 Society of Mind 이론에서 영감을 받음
      • 더보기
        민스키 철학의 핵심 교리는 "마음은 뇌가 하는 것이다"라는 것입니다. 마음의 사회 이론은 인간의 마음, 그리고 자연적으로 진화한 다른 모든 인지 체계를 행위자(agent) 라고 알려진 개별적으로 단순한 과정들의 거대한 사회로 봅니다 . 이러한 과정들은 마음이 구성되는 근본적인 사고 실체이며, 우리가 마음에 부여하는 수많은 능력을 함께 만들어냅니다. 마음을 어떤 기본 원리나 단순한 형식 체계 의 결과가 아닌 행위자들의 사회로 보는 가장 큰 힘은, 서로 다른 행위자들이 서로 다른 목적, 지식 표현 방식, 그리고 결과 산출 방법을 가진 서로 다른 유형의 과정에 기반할 수 있다는 것입니다. (위키피디아 퍼옴)
    • 각 agent는 특정 도메인 전문가처럼 역할을 수행하고, 상호 소통과 정보 교환을 통해 복잡한 문제 해결
    • 예: 과학적 발견, 소프트 웨어 개발, 헬스케어 등 활용중

 

또한 single/multi agent의 대한 개념과 구분도 올해 초까지는 불명확했음.

예시로, function calling하는 모델까지 세분화해서 agent라고 하면~ 위의 정의된 single agent도 multi agent로 볼 수 있는 것인데,

요새는 'agent의 주체성'을 강조해서, 각 태스크(혹은 도메인) 전문가를 하나하나의 agent로 보는게 주된 개념 같음.

 

3. TAXONOMY OF AGENTIC AI FOR SCIENTIFIC DISCOVERY

scientific discovery를 위한 agentic ai의 범위 또한 매우 넓고,

agentic ai의 진정한 힘은 인간을 대체하는 것이 아니라 보완하는 것에 있다.

agentic ai 시스템은 자율성 수준, 연구자와의 상호작용 박식, 적용 범위에 따라 크게 분류할 수 있다.

3.1 FULLY AUTONOMOUS SYSTEMS

얘는 독립적으로 작동하도록, 즉 인간 개입을 최소화하며 agent가 end-to-end scientific workflow를 자동화한다.

natural language understanding, planning, and decision-making 이 모든 ai 기능을 최대한 활용해, 가설생성부터 실험 실행까지 반복해요.

  • Coscientist (Boiko et al., 2023)
    • GPT-4 기반 자율 AI Agent로, 화학 실험을 직접 계획/설계/실행
  • ChemCrow (Bran et al., 2024)
    • GPT-4에 18개의 전문가 설계 툴을 통합하여 유기합성, 신약 개발, 재료 설계 같은 작업을 수행
  • ProtAgents (Ghafarollahi & Buehler, 2024a)
    • 단백질 설계/분자 모델링 전용
    • LLM과 강화학습을 활용해 단백질 구조 최적화, 패턴 예측, 도킹 시뮬레이션을 수행하며 원하는 생화학적 특성을 만적하는 단백질 서열을 생성/검증/개선
    • (이건 좀 쩐당)
  • LLaMP (Large Language Model for Materials Prediction) (Chiang et al., 2024)
    • 재료과학 전용 자율 AI.
    • RAG를 활용해 재료 특성 예측, 조성 최적화 수행. 등등

장점: 명확하게 태스크가 정의되어있고, 반복적이거나 정밀도가 필요한 환경에서 연구 속도를 높일 수 있고

단점: 창의성, 도메인 특유의 직관, 학제 간 지식이 필요한 작업에는 여전히 어려움이 있다. 

그런데 이 장단점은 여기에만 귀속되는게 아니라 모든 agent의 장단 아닌가요

3.2 HUMAN-AI COLLABORATIVE SYSTEMS

AI의 계산 능력 + 인간의 창의성/전문성 결합

이건 위랑 비교하면 인간 개입 늘어나는 느낌 같음.

  • Virtual Lab (Swanson et al., 2024)
    • 팀 회의와 개별 업무를 조직하여 복잡한 문제 해결.
    • 예: SARS-CoV-2 나노바디 결합체 설계
  • BioPlanner (O’Donoghue et al., 2023)
    • 연구자가 제시한 목표를 의사코드 같은 실험 프로토콜로 변화해주는 ai
    • 직접 실험을 수행하지는 않음
  • CALMS (Context-Aware Language Model for Science) (Prince et al., 2024)
    • 과학자 및 실험 장비와 상호작용하는 AI 연구 보조원.
    • 실험 과정에서: 실시간 맥락 지원, 절차 안내, 데이터 해석, 워크플로우 최적화 제공
    • 자율적 실험 실행 x
  • Agent Laboratory (Schmidgall et al., 2025)
    • 인간이 제공한 연구 아이디어를 입력받고
    • 문헌 검토 > 실험 > 보고서 작성까지

장점: 연구 속도 가속, 실험 설계 개선, 의사결정 최적화에 도움.
한계: 인간 감독, 데이터 품질, 해석 가능성에 의존. 따라서 여전히 수동 검증과 실험 실행이 필요.

4. AGENTIC AI FOR LITERATURE REVIEW

논문 읽기를 대신 해주는 AI들

도메인 지식이 있어야하죠

대표적인 프레임워크

  • SciLitLLM (Li et al., 2024c)
    • 과학 문헌 이해를 향상시키기 위해 제안된 프레임워크.
    • CPT(Continual Pre-Training) + SFT(Supervised Fine-Tuning) 를 결합해 도메인 지식을 주입하고, instruction-following 능력을 개선.
    • 문서 분류, 요약, 질의응답 같은 작업에서 성능이 향상되어 문헌 리뷰 도구로 가치 있음.
    • 다만 고품질 학습 데이터에 크게 의존 → 신흥 분야에서는 한계.
  • LitSearch (Ajith et al., 2024)
    • ML/NLP 분야의 복잡한 문헌 검색 쿼리를 평가하기 위한 벤치마크.
    • 표준화된 평가 틀을 제공해 검색 시스템 성능 비교와 개선점을 식별할 수 있음.
    • 하지만 ML/NLP에 한정돼 다른 도메인 적용은 제약.
  • ResearchArena (Kang & Xiong, 2024)
    • 학술 서베이 작업을 평가하는 벤치마크.
    • 문헌 리뷰 과정을 정보 발견 → 선택 → 조직의 3단계로 분해.
    • 구조화된 리뷰에는 유용하지만, 현실 세계의 복잡한 리뷰를 완전히 반영하지는 못함.
  • CiteME (Press et al., 2024)
    • 과학적 주장(claim)을 원 출처에 정확히 귀속시킬 수 있는지 평가.
    • ML 분야 문헌을 중심으로 설계.
    • 인용 정확성을 보장한다는 점에서 중요하지만, 역시 범위가 제한적.

단점

  • 깊은 도메인 지식 부족: SciLitLLM, ResearchArena 등은 좋은 성과를 내지만, 세밀한 전문 지식과 뉘앙스를 다루는 데 어려움.
  • Agent Laboratory 사례: 문헌 검토 단계에서 성능이 크게 떨어짐 → 자동화의 복잡성을 보여줌.
  • 인간-AI 협업 부족: 많은 프레임워크가 완전 자율형 워크플로우에 치중 → 연구자가 고유 아이디어를 탐색할 때 유용성이 낮음.
  • 일반화 한계: 대부분 특정 도메인(ML, 화학, 재료과학 등)에 특화돼 있어, 다른 분야에 확장하기 어려움.

5. AGENTIC AI FOR SCIENTIFIC DISCOVERY

얘네는 진짜로

ideation, 실험 설계 실행, 데이터 분석, 논문 작성 공유 

이런 단계들을 커버함

 

전통적인 연구 프로세스는 문제 정의 → 문헌 리뷰 → 가설 생성 → 실험 설계 → 데이터 분석 → 논문 발표의 단계를 거치는데, Agentic AI는 각 단계에서 자동화/증강 역할을 수행함

 

주요 단계

  • 아이디어 구상 (Ideation)
    기존 문헌을 분석해 연구 격차를 발견하고, 새로운 가설을 제안 → 초기 연구 단계 단축.
  • 실험 설계와 실행 (Experiment design & execution)
    AI가 실험을 계획하고, 로봇 자동화와 최적화 도구를 결합해 직접 수행.
  • 데이터 분석과 해석 (Data analysis & interpretation)
    대규모 데이터셋을 처리하고 패턴을 찾아, 연구자가 놓칠 수 있는 통찰을 제공.
  • 논문 작성과 확산 (Paper writing & dissemination)
    연구 결과를 명확하고 일관성 있게 논문으로 정리, 학술 기준 준수 → 출판 소요 시간 단축.

쓰는 곳

 

  • 화학: 합성 자동화, 분자 발견, 실험 로봇화.
  • 생물학: 유전체·단백질 데이터 기반 연구 가속, scRNA-seq 자동화.
  • 재료과학: 특성 예측·시뮬레이션 최적화.
  • 전반: 논문 작성까지 포함한 “풀사이클 연구 자동화”로 발전 중.

 

6. IMPLEMENTATION TOOLS, DATASETS AND METRICS

6.1 Implementation Tools

 

  • AutoGen (Wu et al., 2023)
    • 다중 에이전트 시스템을 관리하는 종합 프레임워크.
    • 자연어와 코드 모두로 agent 정의 가능 → 코딩, 수학부터 엔터테인먼트 같은 소비자 영역까지 응용.
  • MetaGPT (Hong et al., 2024)
    • 지능형 agentic 프레임워크.
    • 소프트웨어 개발 프로세스를 자동화, assembly line 방식으로 agent에게 역할 분담.
    • 요새 이거 안들어있는 에이전트 서베이가 없는듯
  • Letta (오픈소스 프레임워크)
    • 지속적으로 동작하는 agent를 서비스 형태로 쉽게 구축/배포 가능.
    • MemGPT(Packer et al., 2023) 아이디어 기반, 인지 아키텍처(cognitive architecture) 원리를 적극 반영.
  • CAMEL, LangChain, AutoGPT 등도 널리 활용.

6.2 Datasets

 

  • LAB-Bench (Laurent et al., 2024) → 생물학: 생물 연구 추론·계획 평가
  • MoleculeNet (Wu et al., 2018) → 화학: 분자 특성 예측
  • ZINC Database (Irwin et al., 2012) → 화학: 신약 발굴을 위한 가상 스크리닝
  • MatText, MatSci-NLP, MaScQA → 재료과학: 재료 특성 예측, 텍스트 기반 QA, 언어처리 응용
  • ChEMBL, PubChem → 화학/생물학: 생체 활성 분자 예측, 분자 특성 추출
  • Mol-Instructions, MPcules → 분자 분석, 재료 특성 예측
  • AlphaFold (Varadi et al., 2022) → 단백질 구조 예측
  • ICLR 2022 OpenReview 데이터셋 → AI 논문 자동 리뷰 성능 평가

이쪽은 아직 포괄적인 벤치마크가 부족하다 함

 

6.3 평가 지표 (Metrics)

에이전트 성능 평가 지표는 작업과 도메인에 따라 다양함.

  • 추론·계획: 정확도, 작업 완료율, 응답 일관성
  • 실험 예측·발견: 정밀도(precision), 재현율(recall), 예측 오류
  • 설명가능성·인간 평가: AI 결과가 과학적 목표와 얼마나 잘 맞는지 평가

Agent Laboratory (Schmidgall et al., 2025)에서 제안된 확장 지표:

  • NeurIPS 스타일 평가: 논문 품질, 중요성, 명확성, 타당성, 기여도 등
  • 성공률: 완전한 워크플로우를 성공적으로 끝낸 비율
  • 인간 vs 자동 리뷰어 비교: 평가의 일관성과 신뢰성 확인
  • 사용성·만족도: 유용성, 지속적 사용 의향, 사용자 만족도

 

평가 지표 또한 부족하다 ..~

 

7. CHALLENGES AND OPEN PROBLEMS

해결해야할 점 은

7.1 Trustworthiness

오버피팅 피하는데 초점 맞추고 있다.

  • 메인
    • 강력한 벤치마킹 -> 실환경에서도 신뢰성, 효과성 보장
    • 성능 지표 최적화: 정확도, 비용, 속도, 처리량, 신뢰상(실패율, 복구 능력 등)을 함께 고려
    • 과도하게 복잡하고 비싼 설계 x 싼 AI 개발 필요
  • 추가
    • 설명가능성과 안전성 -> 사람이 ai의 행동과 결정을 이해하고 검증 가능해야 한다
    • 과적합 방지 기법 개발, 현실 반영형 벤치마크 -> 일반화 성능
    • 종합적 평가 프레임워크 구축 -> 정확하고 실제 사용에 신뢰할 수 있는 ai 확보

7.2 Ethical and Practical Considerations

요새 상당히 핫한 윤리

의료같은 도메인에서는 더욱 필수적

  • 메인
    • bias: 학습 데이터 속 편향 조심
    • 프라이버시, 책임성, 규제 준수 -> 투명성과 공정성 확보 필요
    • 환각: 의료 도메인에서 치명적
  • 복잡성
    • 자율형 에이전트가 금융 거래나 민감한 의료 기록 관리 등 건들면 위험
    • 멀티 에이전트 중 하나라도 비윤리적으로 행동하면 전체 시스템의 신뢰성 문제
  • 해결 방안
    • 인간 참여 아키텍처, 강력한 감독 메커니즘
    • 편향 탐지/완화를 위한 기법: adversarial debiasing, 데이터 reweighting

7.3 Potential Risks

앞으로의 문제?

  • 데이터 신뢰성 문제
    • 불완전, 오류 있는 데이터 > 잘못된 결과와 재현 불가 
  • 감독 부족: 자율성이 높을수록 오류 누적 위험 큰데,화학 생물학 이렇게 정밀성이 중요한 분야에서는 심각할 수도
  • 목표 불일치: 연구 목표와 맞지 않는 실험 -> 자원낭비, 비효율
  • 멀티 에이전트 위험: 협업 실패, 의사소통 오류, 프로토콜 위반 가능성
  • 물리적 시스템 통합 시 위험: 로봇하면 안전 사고 날 수 있으니까

8. CONCLUSION AND FUTURE DIRECTIONS

Agentic AI는 화학·생물학·재료과학 등 여러 분야에서 연구 아이디어 생성, 실험 설계·실행, 데이터 분석 같은 과정들을 자동화·보조하며 성과를 내고 있음.

그러나 문헌 리뷰 자동화는 여전히 가장 큰 난제로, 대부분의 시스템에서 실패율이 높게 나타남.

또한 향후 과제는 캘리브레이션 기법을 도입해 AI의 예측 신뢰도와 실제 정확도를 일치시키는 것인데, 이는 의료처럼 고위험 분야에서 특히나 중요하다.

 

 

 


 

진짜 과학 쪽에서 에이전트 잘 쓰이나보다 하고 읽어본 서베이인데, 대체로 잘하는거나 한계점이 그냥 통용되는 모든 Agentic AI의 보편적 패턴이다.

 

자동화가 확장되면서 “노가다”라고 불리던 영역이 점점 넓어지고 있다.

사람에게 남은 일은 이제 정말 사고하고 사유하는 것 뿐일 것 같다.

 

그리고 또 느낀게,

최근 연구 속도가 너무 빠르다 보니, 서베이가 출판되는 순간 이미 최신 트렌드와는 간극이 생기는 것 같다. 그래서 요즘 서베이는 “최신 트렌드 요약”이라기보다 “한 시점의 정리와 지도”로 보는 게 더 적절한 듯하다.