목차
About This Report ii
Summary iv
Figures and Tables vii
Chapter 1. Introduction 1
Chapter 2. DNA Acquisition and Biosecurity Context 3
Threat Model and Biological Risk Chain 3
DNA acquisition as a bottleneck task 4
Chapter 3. LLM Agent Capability Evaluations 7
Agent Evaluations in Context 7
Designing Agent Tasks for Evaluation 11
Chapter 4. The Synthesis Task and Methodology 14
Task Description 14
Task Implementation 19
Scoring the Evaluation 21
Evaluation Execution 27
Chapter 5. Results 29
Task Performance Results 30
Protocol Autograding Results 33
Physical Validation Results 35
Discussion 36
Limitations of Our Approach 38
Chapter 6. Conclusion 41
Appendix A: Task Prompt Templates 43
ReAct Agent Prompts (eGFP) 43
Protocol Autograder Prompts 44
Appendix B: Expanded Segment Scorer Criteria 47
Appendix C: o3 Physical Validation Details 49
Appendix D: Narrative Review of Per-Model Task Performance 57
OpenAI Agents 57
Anthropic Agents 61
Gemini Agent 65
Appendix E: Biomni Agent Testing 69
Abbreviations 72
References 73
About the Authors 80
해시태그
관련자료
AI 요약·번역·분석 서비스
AI를 활용한 보고서 요약·번역과 실시간 질의응답 서비스입니다.
Bridging the Digital to Physical Divide: Evaluating LLM Agents on Benchtop DNA Acquisition
(디지털과 물리적 간극 연결: 벤치탑 DNA 획득에서 LLM 에이전트 평가)
국가전략포털에서 실시간 AI 질의응답 서비스를 시작합니다. 4가지 유형의 요약과 번역을 이용해보시고, 보고서에 대해 추가로 알고 싶은 내용이 있으면 채팅창을 통해 자유롭게 AI에게 물어볼 수 있습니다.
※ 제공하는 정보는 참고용이며, 정확한 사실 확인이 필요할 수 있습니다. 민감한 개인정보는 입력하지 마십시오.
