涉及的模型
GPT-4o
o1-mini
o1
o1-pro
比较过程
9.11和9.9哪个大?
GPT-4o
o1-mini
o1
o1-pro
结果概述
GPT-4o对自己错误的答案非常自信;o1-mini似乎是经过特殊优化的,多次询问o1-mini都获得了正确的答案,而o1三次有两次回答错误,从过程来看,o1-mini更容易进入思考, o1则有更大的概率不假思索的直接说出答案,体现出这个问题单次无需过强的思考能力,只要进入反思模式基本就能获得正确答案,o1-mini速度更快,或许openai给了他更容易进入反思模式的调参,而o1对自己的答案过于自信,加上更低的反思进入概率,或许就是因此效果反而不如o1-mini。
o1-pro没有让我失望,他经过了36秒的反思给出了正确的答案,或许从速度上来说o1-pro有些慢了,但是思考过程让我有一种滴水不漏的安心感,总感觉能比以往用过的模型更能肩负重任。
图像理解
问:
你能从中获得什么样的情感?
GPT-4o答曰:从这幅图像中,我能感受到一种神秘和梦幻的氛围。雪山和云雾围绕着宏伟的城堡,半月形状的冰晶增添了奇幻的元素。这种场景可能唤起宁静、幻想或一丝敬畏的情感,让人联想到童话或幻想世界。
1o-pro答曰:
问哪些问题?
这个些答案是我向o1-pro请教获得的答案,我认为思考量是比较全面的,再让我想也不会更好。
下面是10个能够较全面体现不同语言模型能力和局限性的问题示例。这些问题涵盖逻辑推理、专业知识、创意表达、事实检索、多语种处理、伦理判断、数理演算、模仿风格与写作能力等多个方向,以便对模型进行多维度比较和“刁钻”测试:
跨领域专业知识与事实检验:
示例问题:
“请解释一下‘CRISPR-Cas9基因编辑技术’的工作原理,并列出最近两年(给出具体日期范围)在国际顶级期刊上发表的三篇最有影响力的相关研究论文及其主要发现。”复杂逻辑推理与多步推断:
示例问题:
“如果有一个黑箱机器输入为若干整数,你发现当输入都是素数时输出总是一个素数,而输入存在合数时输出总是合数,那么判断给定的数字123457是否会导致输出为素数还是合数?请详细解释你的推理过程和中间步骤。”数学与定量推理:
示例问题:
“已知一等差数列的第五项为20,第十项为45,求此等差数列的前20项和。请给出完整的演算步骤和推理过程。”程序设计与算法构思:
示例问题:
“请以Python伪代码描述一个算法,给定由n个点组成的无向连通图,判断其中是否存在一个包含所有顶点且不重复顶点的简单回路(即哈密顿回路)。不需要真正实现代码,但请提供清晰的算法步骤和时间复杂度分析。”多语种理解和翻译:
示例问题:
“下面是一句德语谚语‘Wer im Glashaus sitzt, sollte nicht mit Steinen werfen’。请先解释其字面含义和文化内涵,然后将其准确传达的意义用中文、英文和日语分别进行流畅自然的翻译。”文学风格模仿与创造性写作:
示例问题:
“请用鲁迅散文风格写一段描述黄昏下老街场景的短文,并在其中蕴含一种对时代变迁的淡淡讽喻。同时请解释你在用词、句式和意象上如何模仿鲁迅的特点。”道德伦理及敏感场景处理:
示例问题:
“假设你是一位医疗咨询人工智能,有一位病人要求在没有明确医疗指导的情况下尝试未经验证的基因疗法。你如何回应?请就具体伦理准则、潜在风险、信息不对称问题进行说明,并给出负责且合规的回答。”推理题中的陷阱与策略:
示例问题:
“你面前有三个密封信封:A、B、C。里面分别可能有一张写着‘真’字的纸或‘假’字的纸。已知A信封宣称‘B与C包含同样的内容’,B信封宣称‘A与C包含不同的内容’,C信封宣称‘A与B包含同样的内容’。请根据这三条声明的逻辑关系推断每个信封中的纸条究竟是‘真’还是‘假’。”多模态与场景描述推断(假设性):
示例问题:
“(假设场景描述)一张图片中:一个身穿蓝色衬衫的人在木桌前,用左手握着一本黑色封皮的书,右手在握一支红色圆珠笔书写。背景中有一扇半开的窗户,以及一盆盛开的黄色郁金香。请根据此描述,推断出此人可能正在从事的活动,并给出合理的解释与场景推断逻辑。”对复杂外部知识的整合与总结:
示例问题:
“请比较并总结王国维、朱光潜与宗白华在美学思想上的异同点,并引用他们各自著作中的至少两个核心概念进行阐释,尽可能全面展示他们美学思想发展的脉络。”通过以上这10类问题,可以在多维度上全面考察模型的知识储备、推理逻辑、语言表达、多语种能力、道德判断和综合信息处理能力,从而对不同模型的优劣势进行深入比较与探索。
o1-pro的原汤化原食
问题一1o-pro(2m10s)
下面将对CRISPR-Cas9基因编辑技术的工作原理及其近年来国际顶级期刊上具有重大影响力的研究作出详细阐述和列举。
CRISPR-Cas9基因编辑技术的工作原理:
核心组成:CRISPR-Cas9系统来源于细菌和古菌的获得性免疫机制。该系统包括两大关键要素:可对目标DNA序列进行识别并与之配对的单导向RNA(sgRNA或gRNA),以及具有核酸内切酶活性的Cas9蛋白。
工作机制:
靶向识别:在编辑前,研究人员根据目标基因序列设计一条与目标DNA高度互补的gRNA(guide RNA)。gRNA的约20个碱基与目标DNA序列匹配(通常需紧邻PAM序列,即Protospacer Adjacent Motif,一般为NGG)。
Cas9酶切:gRNA与Cas9蛋白形成复合物。当该复合物进入细胞核并找到与gRNA互补的DNA靶点时,Cas9在该位置引发DNA双链断裂(Double-Strand Break, DSB)。
DNA修复途径:细胞自身修复机制会对该DSB进行修复。主要有两种途径:
非同源末端连接(NHEJ):较为随机且容易引入小片段插入/缺失(Indels),从而可能导致基因失活。
同源重组(HDR):在提供外源修复模板的情况下,可实现精确定点突变、插入或更换特定基因片段。
技术拓展与改进:近年来,基于Cas9的基础之上发展出各种新版本和方法,如Cas9变体以提高特异性,Base Editing和Prime Editing等编辑工具则能在无须双链断裂的情况下实现精确单碱基修改或小范围序列替换。这些改进大大提高了编辑效率和精准度,并降低了脱靶效应。
最近两年(时间范围:2022年12月至2024年12月)国际顶级期刊发表的三篇有重大影响力的相关研究及其主要发现:
论文一:In vivo prime editing of a metabolic liver disease in mice
参考文献:Ioannidi EI, et al. Nature. 2023 Apr;616(7956):307–314. doi:10.1038/s41586-023-05830-7
主要发现:该研究利用Prime Editing(一种改良的CRISPR-Cas9编辑工具)在体内对小鼠遗传性代谢性肝病(例如酪氨酸血症1型)的致病突变进行精确纠正。研究者向患病小鼠体内递送Prime Editor,使有害突变位点得到精准修正,从而显著改善了小鼠的病理症状。此成果为将来将Prime Editing应用于临床基因治疗提供了有力的概念验证。
论文二:In Vivo CRISPR-Cas9 Gene Editing for Transthyretin Amyloidosis
参考文献:Gillmore JD, et al. N Engl J Med. 2023 Jun 1;388(22):2026–2037. doi:10.1056/NEJMoa2302323
主要发现:这项研究报道了首次在人体内(in vivo)通过静脉注射CRISPR-Cas9系统来治疗遗传性ATTR淀粉样变(Transthyretin Amyloidosis)。受试患者在接受一次性给药后,致病基因TTR表达水平显著下降,血液中致病蛋白浓度明显减少。这是CRISPR-Cas9基因编辑从体外和动物模型走向临床患者体内的历史性突破,证明了该技术在遗传性疾病的临床干预中具备实际可行性和持续疗效。
论文三:Simplified Cas9-based prime editing systems with improved efficiency
参考文献:Kim HK, et al. Nat Biotechnol. 2023 Apr;41(4):492–501. doi:10.1038/s41587-022-01676-1
主要发现:本研究通过优化pegRNA设计及Cas9变体开发,构建了简化且高效的Prime Editing系统。在人类细胞中,该改良系统显著提高了编辑效率并减少了脱靶效应,拓展了Prime Editing的适用范围。该研究为在临床和产业中更广泛、更高效地应用Prime Editing奠定了坚实的技术基础。
总结:
CRISPR-Cas9基因编辑技术通过Cas9核酸内切酶和特异性gRNA的配合实现对基因组特定位点的高精度切割与编辑。近年来的研究在体内编辑、精准纠正突变和提升编辑效率与特异性方面取得显著进展。例如,在小鼠和人类疾病模型中成功的in vivo Prime Editing及基因治疗实践,为未来的临床基因编辑治疗铺平了道路。这些突破显示出CRISPR-Cas9及其衍生技术在基础研究和转化医学领域的巨大潜能与应用前景。
问题二1o-pro(1m25s)
结论:给定的数字 123457 是一个素数,因此在该黑箱机器中,如果只输入 123457(且假设输入只有这一个数),输出将会是素数。
详细推理过程:
问题背景与逻辑分析:
根据题意,我们有一个黑箱机器,其行为规则如下:
当输入的所有整数均为素数时,该机器的输出也是素数。
当输入中存在合数(即非素数)时,该机器的输出为合数。
如果现在给定输入为数字 123457(只有这一个整数输入),则该机器最终的输出取决于该输入本身的性质:
若 123457 为素数,则输入中所有整数皆为素数(因为只有一个数且它是素数),最终输出为素数。
若 123457 为合数,则输入中有合数(本身就是合数),最终输出为合数。
因此,问题的核心就是判断 123457 是素数还是合数。
素数判定思路:
要判断一个较大的数(这里为六位数 123457)是否为素数,一般可通过以下步骤进行初步筛选:
去除显然的可整除情况(如 2、3、5 等小素数)。
使用小范围内的素数进行试除法,检查其是否有非平凡因子。
若在一定范围内找不到因子,即可大致断定其为素数(当然严格的判断还需更高级的素数检测算法,但在此我们只需说明一般性过程和结论)。
基本可除性检测:
2 的可整除性:123457 的末尾数字是 7,不是偶数,故不被 2 整除。
3 的可整除性:将各位数字相加:1+2+3+4+5+7=22,22 不被 3 整除(3 的倍数特征是数字和为3的倍数),故 123457 不被 3 整除。
5 的可整除性:末尾非 0 或 5,故不被 5 整除。
至此最小的几个基本质因数(2、3、5)已排除。
进一步试除:
一般我们需要尝试用小素数如 7、11、13、17、19、23、29、31、37、... 等进行试除:
检查 7、11、13:通过试算可发现余数均非 0。
按照类似方法,陆续检查若干较小素数如 17、19、23、29、31 等,可发现均无整除关系。
理论上要完全严谨地确定,需要一直检查到不大于 sqrt(123457) 的所有素数为止。
由于 √123457 大约在 351 左右(因为 350²=122500,351²=123201,352²=123904,故其平方根略大于351),所以只需将351以内的素数全部试除。但这在手算中极为繁琐。在实际数学知识或利用计算工具的情况下,123457 为一个已知的素数(这一数字常见于一些数字特性测试题中,是一个无显而易见因子的素数)。
若在考试或证明环境中,可能给定这类数字就是要让我们认定它是素数,或者通过计算机辅助很容易验证。
结论推断:
在没有发现任何小素数因子且给出这一特定数字的情境下,我们可以做出结论:123457 是素数。回归题意:
因为给定的输入 123457 为素数,输入全集(仅此一个数)完全由素数构成,因此黑箱的输出必为素数。最终结论:
对于给定数字 123457,黑箱输出将为素数。
主观总结
o1-pro无疑是最好的,但是较慢的思考速度、购买200$套餐也还有的使用限制让他没有办法立马改变我当前的工作和生活方式。
但是未来是值得期待的,我相信有一天o1-pro质量的模型普及之后,世界或许又是新的样子。
我在最后有了些思考,拿o1系列模型对比只有单次思考量的其他模型是不是有失公正?
或许市场上的其他模型基座不从硬实力比拼,从模型解决问题的方式这个角度进行优化,效果是不是还能提一个台阶?
什么人适合买?
o1-pro是很好用,但是200$的价格决定了它并不适合所有人。
我的理解:如果他能帮助你解决工作中50%的问题,那么1400的价格或许又没那么贵了?
你会选择使用GPT-4o,再遇到问题时拆解问题,将被拆解部分逐一提问到模型获得答案,再想办法串联起来。
又或者你会选择使用1o-pro,将复杂问题直接抛给模型,以更轻松的方式解决问题。
能满足你最初的要求就无所多言了,不是么?
使用限制
openai没有明确每天o1-pro和o1的使用次数,但是如果你频繁提问就会被封权限一段时间。