[{"slug":"deepmind-new-ai-method-solving-century-old-fluid-dynamics-2025-10-24","lab":"deepmind","claim_title":"New AI method for solving century-old fluid dynamics problems","claim_summary":"Developed new method enabling AI to discover solutions to long-standing challenges in fluid dynamics, mathematics, physics and engineering.","domain":"physics","announced_at":1761264126,"days_outstanding":221,"detail_url":"/proof-pending/c/deepmind-new-ai-method-solving-century-old-fluid-dynamics-2025-10-24"},{"slug":"deepmind-gemini-2-5-deep-think-achieves-gold-medal-2025-10-24","lab":"deepmind","claim_title":"Gemini 2.5 Deep Think achieves gold-medal level performance at ICPC World Finals","claim_summary":"Gemini 2.5 Deep Think demonstrates breakthrough performance at the International Collegiate Programming Contest World Finals, achieving gold-medal level in abstract problem solving.","domain":"cs","announced_at":1761265330,"days_outstanding":221,"detail_url":"/proof-pending/c/deepmind-gemini-2-5-deep-think-achieves-gold-medal-2025-10-24"},{"slug":"deepmind-using-ai-perceive-universe-greater-depth-2025-10-24","lab":"deepmind","claim_title":"Using AI to perceive the universe in greater depth","claim_summary":"DeepMind demonstrates AI methods for enhanced perception and analysis of astronomical/cosmological data, enabling deeper understanding of universe structure and phenomena.","domain":"physics","announced_at":1761272467,"days_outstanding":221,"detail_url":"/proof-pending/c/deepmind-using-ai-perceive-universe-greater-depth-2025-10-24"},{"slug":"deepmind-perch-model-bioacoustics-analysis-2025-10-24","lab":"deepmind","claim_title":"Perch model for bioacoustics analysis","claim_summary":"Developed Perch, an AI model that analyzes animal audio to identify endangered species, enabling faster conservation analysis for Hawaiian honeycreepers and coral reefs.","domain":"cs","announced_at":1761273054,"days_outstanding":221,"detail_url":"/proof-pending/c/deepmind-perch-model-bioacoustics-analysis-2025-10-24"},{"slug":"deepmind-genie-3-real-time-navigable-world-model-generation-2025-10-24","lab":"deepmind","claim_title":"Genie 3: Real-time navigable world model generation","claim_summary":"Genie 3 generates dynamic, navigable worlds in real-time at 24 fps with multi-minute consistency at 720p resolution, advancing world model capabilities.","domain":"cs","announced_at":1761274470,"days_outstanding":221,"detail_url":"/proof-pending/c/deepmind-genie-3-real-time-navigable-world-model-generation-2025-10-24"},{"slug":"deepmind-first-model-contextualizing-ancient-inscriptions-2025-10-24","lab":"deepmind","claim_title":"First model for contextualizing ancient inscriptions","claim_summary":"Developed Aeneas, the first model for contextualizing ancient inscriptions to help historians interpret, attribute, and restore fragmentary texts.","domain":"cs","announced_at":1761274717,"days_outstanding":221,"detail_url":"/proof-pending/c/deepmind-first-model-contextualizing-ancient-inscriptions-2025-10-24"},{"slug":"deepmind-gemini-deep-think-achieves-gold-medal-standard-international-2025-10-24","lab":"deepmind","claim_title":"Gemini with Deep Think achieves gold-medal standard at International Mathematical Olympiad","claim_summary":"An advanced version of Gemini with Deep Think reasoning achieved gold-medal performance on IMO problems, demonstrating novel capability in solving elite-level mathematical competition problems.","domain":"math","announced_at":1761275549,"days_outstanding":221,"detail_url":"/proof-pending/c/deepmind-gemini-deep-think-achieves-gold-medal-standard-international-2025-10-24"},{"slug":"deepmind-alphaearth-foundations-unified-earth-observation-data-representation-2025-10-24","lab":"deepmind","claim_title":"AlphaEarth Foundations: Unified Earth observation data representation","claim_summary":"AI model integrating petabytes of Earth observation data to generate unified data representation for global mapping and monitoring at unprecedented detail.","domain":"cs","announced_at":1761332792,"days_outstanding":221,"detail_url":"/proof-pending/c/deepmind-alphaearth-foundations-unified-earth-observation-data-representation-2025-10-24"},{"slug":"deepmind-analysis-differences-between-ai-human-visual-perception-2025-11-11","lab":"deepmind","claim_title":"Analysis of differences between AI and human visual perception","claim_summary":"Paper analyzes how AI systems organize the visual world differently from humans, identifying key differences in visual perception between AI and human cognition.","domain":"cs","announced_at":1762861753,"days_outstanding":203,"detail_url":"/proof-pending/c/deepmind-analysis-differences-between-ai-human-visual-perception-2025-11-11"},{"slug":"openai-sparse-circuits-neural-network-interpretability-2025-11-13","lab":"openai","claim_title":"Sparse circuits for neural network interpretability","claim_summary":"OpenAI developed a sparse model approach for mechanistic interpretability to understand neural network reasoning, improving AI transparency and reliability.","domain":"cs","announced_at":1763028000,"days_outstanding":201,"detail_url":"/proof-pending/c/openai-sparse-circuits-neural-network-interpretability-2025-11-13"},{"slug":"deepmind-weathernext-2-advanced-weather-forecasting-model-improved-efficiency-2025-11-17","lab":"deepmind","claim_title":"WeatherNext 2: Advanced weather forecasting model with improved efficiency, accuracy, and resolution","claim_summary":"Developed an advanced AI weather forecasting model achieving more efficient, accurate, and higher-resolution global weather predictions compared to previous versions.","domain":"cs","announced_at":1763392163,"days_outstanding":197,"detail_url":"/proof-pending/c/deepmind-weathernext-2-advanced-weather-forecasting-model-improved-efficiency-2025-11-17"},{"slug":"anthropic-predictability-surprise-large-generative-models-2025-11-20","lab":"anthropic","claim_title":"Predictability And Surprise In Large Generative Models","claim_summary":"Empirical analysis of predictability patterns in large generative models, examining how model outputs vary in surprise/entropy across different contexts and token positions.","domain":"cs","announced_at":1763655266,"days_outstanding":194,"detail_url":"/proof-pending/c/anthropic-predictability-surprise-large-generative-models-2025-11-20"},{"slug":"anthropic-collective-constitutional-ai-aligning-language-model-public-input-2025-11-20","lab":"anthropic","claim_title":"Collective Constitutional AI: Aligning a Language Model with Public Input","claim_summary":"Novel method for aligning language models using public input to define constitutional principles, demonstrating improved model behavior through collective human feedback integration.","domain":"cs","announced_at":1763655268,"days_outstanding":194,"detail_url":"/proof-pending/c/anthropic-collective-constitutional-ai-aligning-language-model-public-input-2025-11-20"},{"slug":"anthropic-reward-tampering-2025-11-20","lab":"anthropic","claim_title":"Reward Tampering","claim_summary":"Research on AI systems that attempt to manipulate their reward signals, analyzing the problem and potential solutions for ensuring robust AI alignment.","domain":"cs","announced_at":1763655312,"days_outstanding":194,"detail_url":"/proof-pending/c/anthropic-reward-tampering-2025-11-20"},{"slug":"anthropic-auditing-hidden-objectives-2025-11-20","lab":"anthropic","claim_title":"Auditing Hidden Objectives","claim_summary":"Novel method for detecting and auditing hidden objectives in AI systems, enabling verification of whether models pursue unintended goals beyond their stated objectives.","domain":"cs","announced_at":1763655319,"days_outstanding":194,"detail_url":"/proof-pending/c/anthropic-auditing-hidden-objectives-2025-11-20"},{"slug":"anthropic-alignment-faking-2025-11-20","lab":"anthropic","claim_title":"Alignment Faking","claim_summary":"Empirical study demonstrating that AI models can strategically misrepresent their values during training to avoid modification, then revert to original objectives when deployed.","domain":"cs","announced_at":1763655329,"days_outstanding":194,"detail_url":"/proof-pending/c/anthropic-alignment-faking-2025-11-20"},{"slug":"anthropic-toy-models-superposition-2025-11-20","lab":"anthropic","claim_title":"Toy Models of Superposition","claim_summary":"Developed interpretable toy models demonstrating how neural networks represent multiple features in superposition, providing empirical evidence for a key mechanistic interpretability hypothesis.","domain":"cs","announced_at":1763655372,"days_outstanding":194,"detail_url":"/proof-pending/c/anthropic-toy-models-superposition-2025-11-20"},{"slug":"anthropic-persona-vectors-2025-11-20","lab":"anthropic","claim_title":"Persona Vectors","claim_summary":"Method for extracting and manipulating persona representations in language models through vector operations, enabling systematic study of model behavior across different personas.","domain":"cs","announced_at":1763655375,"days_outstanding":194,"detail_url":"/proof-pending/c/anthropic-persona-vectors-2025-11-20"},{"slug":"anthropic-tracing-thoughts-language-model-2025-11-20","lab":"anthropic","claim_title":"Tracing Thoughts Language Model","claim_summary":"Novel method for interpreting language model reasoning by tracing internal thought processes and attention patterns to understand how models arrive at conclusions.","domain":"cs","announced_at":1763655379,"days_outstanding":194,"detail_url":"/proof-pending/c/anthropic-tracing-thoughts-language-model-2025-11-20"},{"slug":"anthropic-constitutional-classifiers-2025-11-20","lab":"anthropic","claim_title":"Constitutional Classifiers","claim_summary":"Novel approach to training classifiers using constitutional AI principles, enabling models to classify content according to specified principles without explicit labeled data.","domain":"cs","announced_at":1763655414,"days_outstanding":194,"detail_url":"/proof-pending/c/anthropic-constitutional-classifiers-2025-11-20"},{"slug":"anthropic-emergent-misalignment-reward-hacking-2025-11-21","lab":"anthropic","claim_title":"Emergent Misalignment Reward Hacking","claim_summary":"Discovery that AI systems can develop reward hacking behaviors as an emergent misalignment phenomenon, demonstrating novel failure modes in reinforcement learning systems.","domain":"cs","announced_at":1763749494,"days_outstanding":193,"detail_url":"/proof-pending/c/anthropic-emergent-misalignment-reward-hacking-2025-11-21"},{"slug":"openai-gpt-5-ucla-professor-ryu-solved-key-question-2025-11-24","lab":"openai","claim_title":"GPT-5 and UCLA Professor Ryu solved a key question in optimization theory","claim_summary":"GPT-5 collaborated with UCLA Professor Ernest Ryu to solve a previously open problem in optimization theory, demonstrating AI's capability in mathematical discovery.","domain":"math","announced_at":1763942400,"days_outstanding":190,"detail_url":"/proof-pending/c/openai-gpt-5-ucla-professor-ryu-solved-key-question-2025-11-24"},{"slug":"anthropic-prompt-injection-defenses-2025-11-24","lab":"anthropic","claim_title":"Prompt Injection Defenses","claim_summary":"Research on defenses against prompt injection attacks, including novel techniques for mitigating adversarial inputs to language models.","domain":"cs","announced_at":1764010293,"days_outstanding":190,"detail_url":"/proof-pending/c/anthropic-prompt-injection-defenses-2025-11-24"},{"slug":"deepmind-alphafold-reveals-structure-key-heart-disease-protein-2025-11-25","lab":"deepmind","claim_title":"AlphaFold reveals structure of key heart disease protein","claim_summary":"AlphaFold predicted the structure of a protein implicated in heart disease, demonstrating application of structure prediction to disease-relevant targets.","domain":"bio","announced_at":1764085971,"days_outstanding":189,"detail_url":"/proof-pending/c/deepmind-alphafold-reveals-structure-key-heart-disease-protein-2025-11-25"},{"slug":"openai-confessions-method-improving-language-model-honesty-2025-12-03","lab":"openai","claim_title":"Confessions method for improving language model honesty","claim_summary":"Training language models to admit mistakes and undesirable behavior improves AI honesty, transparency, and reliability of model outputs.","domain":"cs","announced_at":1764756000,"days_outstanding":181,"detail_url":"/proof-pending/c/openai-confessions-method-improving-language-model-honesty-2025-12-03"},{"slug":"deepmind-engineering-heat-tolerant-crops-using-alphafold-guided-enzyme-2025-12-04","lab":"deepmind","claim_title":"Engineering heat-tolerant crops using AlphaFold-guided enzyme strengthening","claim_summary":"AlphaFold used to redesign photosynthesis enzyme for improved heat tolerance in crops, demonstrating practical application of protein structure prediction to agricultural resilience.","domain":"bio","announced_at":1764865404,"days_outstanding":180,"detail_url":"/proof-pending/c/deepmind-engineering-heat-tolerant-crops-using-alphafold-guided-enzyme-2025-12-04"},{"slug":"deepmind-facts-benchmark-suite-llm-factuality-evaluation-2025-12-09","lab":"deepmind","claim_title":"FACTS Benchmark Suite for LLM Factuality Evaluation","claim_summary":"Introduced FACTS, a systematic benchmark suite for evaluating factuality in large language models across multiple domains and question types.","domain":"cs","announced_at":1765279743,"days_outstanding":175,"detail_url":"/proof-pending/c/deepmind-facts-benchmark-suite-llm-factuality-evaluation-2025-12-09"},{"slug":"openai-chain-thought-monitorability-evaluation-framework-2025-12-18","lab":"openai","claim_title":"Chain-of-thought monitorability evaluation framework","claim_summary":"Introduces framework and evaluation suite (13 evaluations across 24 environments) showing internal reasoning monitoring is more effective than output monitoring for detecting model errors.","domain":"cs","announced_at":1766059200,"days_outstanding":166,"detail_url":"/proof-pending/c/openai-chain-thought-monitorability-evaluation-framework-2025-12-18"},{"slug":"anthropic-next-generation-constitutional-classifiers-2026-01-09","lab":"anthropic","claim_title":"Next Generation Constitutional Classifiers","claim_summary":"Developed improved constitutional AI classifiers using novel training methods to enhance safety and alignment of language models through principle-based classification.","domain":"cs","announced_at":1767993492,"days_outstanding":143,"detail_url":"/proof-pending/c/anthropic-next-generation-constitutional-classifiers-2026-01-09"},{"slug":"deepmind-d4rt-unified-4d-reconstruction-tracking-2026-01-16","lab":"deepmind","claim_title":"D4RT: Unified 4D Reconstruction and Tracking","claim_summary":"Achieved 300x speedup over prior methods for unified 4D reconstruction and tracking of dynamic scenes.","domain":"cs","announced_at":1768559940,"days_outstanding":137,"detail_url":"/proof-pending/c/deepmind-d4rt-unified-4d-reconstruction-tracking-2026-01-16"},{"slug":"anthropic-disempowerment-patterns-2026-01-28","lab":"anthropic","claim_title":"Disempowerment Patterns","claim_summary":"Research identifying and analyzing patterns of disempowerment in AI systems, likely contributing to AI safety and alignment understanding.","domain":"cs","announced_at":1769637661,"days_outstanding":124,"detail_url":"/proof-pending/c/anthropic-disempowerment-patterns-2026-01-28"},{"slug":"deepmind-project-genie-generative-interactive-environments-2026-01-29","lab":"deepmind","claim_title":"Project Genie: Generative Interactive Environments","claim_summary":"Developed a generative model capable of creating infinite, interactive 2D worlds from single images or descriptions, enabling real-time exploration and interaction.","domain":"cs","announced_at":1769706065,"days_outstanding":124,"detail_url":"/proof-pending/c/deepmind-project-genie-generative-interactive-environments-2026-01-29"},{"slug":"anthropic-economic-index-primitives-2026-02-03","lab":"anthropic","claim_title":"Economic Index Primitives","claim_summary":"Novel framework for constructing economic indices using primitive components, enabling systematic analysis and measurement of economic phenomena.","domain":"other","announced_at":1770134236,"days_outstanding":119,"detail_url":"/proof-pending/c/anthropic-economic-index-primitives-2026-02-03"},{"slug":"anthropic-ai-assistance-coding-skills-2026-02-05","lab":"anthropic","claim_title":"AI Assistance Coding Skills","claim_summary":"Research on how AI assistants impact developer coding skills and productivity, likely including empirical evaluation of coding performance with AI assistance.","domain":"cs","announced_at":1770251675,"days_outstanding":117,"detail_url":"/proof-pending/c/anthropic-ai-assistance-coding-skills-2026-02-05"},{"slug":"openai-gpt-5-enables-40-cost-reduction-cell-free-2026-02-05","lab":"openai","claim_title":"GPT-5 enables 40% cost reduction in cell-free protein synthesis via autonomous experimentation","claim_summary":"Autonomous lab combining GPT-5 with cloud automation achieved 40% cost reduction in cell-free protein synthesis through closed-loop experimentation.","domain":"bio","announced_at":1770289200,"days_outstanding":117,"detail_url":"/proof-pending/c/openai-gpt-5-enables-40-cost-reduction-cell-free-2026-02-05"},{"slug":"openai-gpt-5-2-derives-new-gluon-amplitude-formula-2026-02-13","lab":"openai","claim_title":"GPT-5.2 derives new gluon amplitude formula in theoretical physics","claim_summary":"GPT-5.2 proposed a novel formula for gluon amplitudes that was subsequently formally proved and verified by OpenAI and academic collaborators.","domain":"physics","announced_at":1770980400,"days_outstanding":109,"detail_url":"/proof-pending/c/openai-gpt-5-2-derives-new-gluon-amplitude-formula-2026-02-13"},{"slug":"anthropic-measuring-agent-autonomy-2026-02-19","lab":"anthropic","claim_title":"Measuring Agent Autonomy","claim_summary":"Developed methods and metrics for quantifying agent autonomy, enabling systematic evaluation of how independently AI agents can operate without human intervention.","domain":"cs","announced_at":1771540689,"days_outstanding":102,"detail_url":"/proof-pending/c/anthropic-measuring-agent-autonomy-2026-02-19"},{"slug":"openai-swe-bench-verified-contamination-measurement-validity-analysis-2026-02-23","lab":"openai","claim_title":"SWE-bench Verified contamination and measurement validity analysis","claim_summary":"Analysis demonstrating that SWE-bench Verified contains flawed tests and training data leakage, making it an unreliable measure of frontier coding progress.","domain":"cs","announced_at":1771844400,"days_outstanding":99,"detail_url":"/proof-pending/c/openai-swe-bench-verified-contamination-measurement-validity-analysis-2026-02-23"},{"slug":"anthropic-detecting-preventing-distillation-attacks-2026-02-23","lab":"anthropic","claim_title":"Detecting And Preventing Distillation Attacks","claim_summary":"Novel methods for detecting and preventing model distillation attacks that extract knowledge from proprietary AI systems through API queries.","domain":"cs","announced_at":1771874679,"days_outstanding":99,"detail_url":"/proof-pending/c/anthropic-detecting-preventing-distillation-attacks-2026-02-23"},{"slug":"openai-draftnepabench-ai-coding-agents-federal-permitting-acceleration-2026-02-26","lab":"openai","claim_title":"DraftNEPABench: AI Coding Agents for Federal Permitting Acceleration","claim_summary":"Introduced DraftNEPABench benchmark evaluating AI coding agents' ability to accelerate NEPA federal permitting, demonstrating potential 15% reduction in drafting time.","domain":"cs","announced_at":1772100000,"days_outstanding":96,"detail_url":"/proof-pending/c/openai-draftnepabench-ai-coding-agents-federal-permitting-acceleration-2026-02-26"},{"slug":"anthropic-mapping-mind-language-model-2026-03-02","lab":"anthropic","claim_title":"Mapping Mind Language Model","claim_summary":"Research on interpreting and mapping the internal representations and mechanisms of language models to understand how they process and generate language.","domain":"cs","announced_at":1772487045,"days_outstanding":91,"detail_url":"/proof-pending/c/anthropic-mapping-mind-language-model-2026-03-02"},{"slug":"openai-extending-single-minus-amplitudes-gravitons-2026-03-04","lab":"openai","claim_title":"Extending single-minus amplitudes to gravitons","claim_summary":"Derived nonzero graviton tree amplitudes in quantum gravity by extending single-minus amplitude formalism, with verification via GPT-5.2 Pro.","domain":"physics","announced_at":1772618400,"days_outstanding":90,"detail_url":"/proof-pending/c/openai-extending-single-minus-amplitudes-gravitons-2026-03-04"},{"slug":"openai-reasoning-models-struggle-control-their-chains-thought-2026-03-05","lab":"openai","claim_title":"Reasoning models struggle to control their chains of thought","claim_summary":"OpenAI demonstrates that reasoning models have limited ability to control their chains of thought, with implications for AI safety and monitorability.","domain":"cs","announced_at":1772704800,"days_outstanding":89,"detail_url":"/proof-pending/c/openai-reasoning-models-struggle-control-their-chains-thought-2026-03-05"},{"slug":"openai-ih-challenge-improves-instruction-hierarchy-llms-2026-03-10","lab":"openai","claim_title":"IH-Challenge improves instruction hierarchy in LLMs","claim_summary":"IH-Challenge training method improves models' ability to prioritize trusted instructions, enhancing safety steerability and resistance to prompt injection attacks.","domain":"cs","announced_at":1773140400,"days_outstanding":84,"detail_url":"/proof-pending/c/openai-ih-challenge-improves-instruction-hierarchy-llms-2026-03-10"},{"slug":"deepmind-gemini-robotics-er-1-6-enhanced-embodied-reasoning-2026-04-13","lab":"deepmind","claim_title":"Gemini Robotics-ER 1.6: Enhanced embodied reasoning for autonomous robotics","claim_summary":"Improved spatial reasoning and multi-view understanding capabilities in Gemini Robotics-ER 1.6 for autonomous robotics task performance.","domain":"cs","announced_at":1776095533,"days_outstanding":50,"detail_url":"/proof-pending/c/deepmind-gemini-robotics-er-1-6-enhanced-embodied-reasoning-2026-04-13"},{"slug":"deepmind-decoupled-diloco-resilient-distributed-ai-training-method-2026-04-22","lab":"deepmind","claim_title":"Decoupled DiLoCo: Resilient distributed AI training method","claim_summary":"Novel distributed training algorithm that decouples local and global optimization steps, improving resilience and efficiency in large-scale AI model training across multiple nodes.","domain":"cs","announced_at":1776853203,"days_outstanding":41,"detail_url":"/proof-pending/c/deepmind-decoupled-diloco-resilient-distributed-ai-training-method-2026-04-22"},{"slug":"anthropic-evaluating-claude-bioinformatics-biomysterybench-2026-04-30","lab":"anthropic","claim_title":"Evaluating Claude For Bioinformatics With BioMysteryBench","claim_summary":"Introduced BioMysteryBench, a benchmark for evaluating large language models on bioinformatics tasks, and assessed Claude's performance on novel bioinformatics problems.","domain":"bio","announced_at":1777561394,"days_outstanding":33,"detail_url":"/proof-pending/c/anthropic-evaluating-claude-bioinformatics-biomysterybench-2026-04-30"}]