2026-06-30 Hacker News Top Stories #
- Semgrep 测试发现开源模型 GLM 5.2 在 IDOR 漏洞检测中表现优于 Claude,但专用静态分析框架仍领先,凸显模型本身能力与外围工具的差异。
- 作者测试 HackerRank 开源的简历筛选 ATS 发现评分极度不稳定,表明此类 AI 筛选实为随机过滤,可能误筛资深工程师。
- 文章指出,年龄验证法规本质是建立网络言论与真实身份绑定的归因系统,以消除匿名性,便于政府追踪异见。
- Pollen 倒闭相关方通过虚假 DMCA 投诉,令谷歌将作者的揭露文章从搜索结果移除,作者批评谷歌轻易接受欺诈性投诉。
- Mullvad 的 CEO 被发现是瑞典极右翼厄勒布鲁党的主要资助者,引发用户对该隐私服务的信任危机。
- LibrePods 开源项目通过逆向协议,使 AirPods 的专有功能可在非苹果设备上使用,部分高级功能仍待开发。
- 斯坦福大学发布交互式历史内存价格图表,涵盖 DRAM、NAND 和 HBM 等,数据来自学术和零售等多来源。
- 美国最高法院裁定,执法机构按地区批量调取手机位置历史的地理围栏搜查令,需受第四修正案隐私保护。
- 三星、SK 海力士和美光被美国消费者集体起诉,指控合谋操纵 DRAM 价格,四年内涨幅达约 700%。
- 火箭实验室以约 80 亿美元收购铱星,形成垂直整合的航天公司,旨在提供卫星通信、物联网和 D2D 等服务。
1. GLM 5.2 在我们的基准测试中击败了 Claude (GLM 5.2 beats Claude in our benchmarks) #
https://semgrep.dev/blog/2026/we-have-mythos-at-home-glm-52-beats-claude-in-our-cyber-benchmarks/
Semgrep 安全研究团队发布了一篇博文,对比了多个开源模型在 IDOR(不安全的直接对象引用)漏洞检测基准上的表现。结果显示,来自智谱 AI 的开源权重模型 GLM 5.2 在仅给定提示、无专用框架辅助的情况下,取得了 39% 的 F1 分数,超越了 Claude Code(32%)和 Claude Opus 4.8。不过,它仍低于 Semgrep 自己多模态管道(含专为静态分析设计的框架)的 53-61% F1。
文章指出,GLM 5.2 是一个混合专家(MoE)模型,总参数约 750B,但每个 token 仅激活约 40B,推理成本较低。它采用 MIT 许可证开源权重,支持 128K 上下文窗口,并在多个编码基准上表现优异。该研究的主要目的是探究漏洞检测表现中,模型自身能力与外围框架(harness)各自贡献了多少。
HN 热度 1058 points | 评论 496 comments | 作者:jms703 | 1 day ago #
https://news.ycombinator.com/item?id=48709670
- GLM 5.2 在基准测试中表现不错,但在实际使用中与顶尖模型仍有差距,尤其是中国实验室的模型存在基准测试与实际评估之间的差距。
- 追求最好模型往往是恐惧营销的结果,大多数中等模型已经能写出很好的代码,且成本更低、稳定性更高。
- 开放权重模型不会每周被削弱,适合长期使用,而顶尖模型频繁更新反而带来不稳定。
- 顶端模型(如 Opus)擅长长程代理任务,能一次性规划并实现完整功能,而其他模型需要更多人工参与规划。
- 代理式编码(多个智能体独立完成任务)能带来更多商业价值,这是许多人追求最好模型的原因。
- 逐步参与、手动控制的开发方式更可控、更有趣,且不需要前沿能力。
- 综合考虑性能与成本,GLM 5.2 是目前最前沿的模型之一。
- 基准测试一旦被用作衡量标准就会失去效力,不应过度依赖。
2. HackerRank 开源了其 ATS。我的简历得了 90/100。哦等等,74。不——88。 (HackerRank open sourced its ATS. My resume scored 90/100. Oh wait 74. No – 88) #
https://danunparsed.com/p/hackerrank-open-source-ats
HackerRank 最近开源了其 ATS 工具(申请者追踪系统),作者 Dan Kinsky 用同一份简历反复测试,发现分数在 66 到 99 之间随机波动,同一份简历只因清理了调试代码,得分就从 90 掉到 74。工具内部用 LLM 解析简历并评分:技术技能类(比如是否懂 React)基本稳定,项目经验类波动极大,而工作经验的评分永远给满分(25/25),即使只有一段实习也不例外。原因是项目评分的 prompt 有详细规则但 LLM 无法稳定判断,而工作经验的评分 prompt 只有两行,毫无区分度。工具将 65% 的权重放在开源贡献和个人项目上,导致不活跃于 GitHub 的优秀工程师(比如构建过重要系统的资深员工)可能直接出局。作者警告,这样的 AI 筛选工具实际上是在随机过滤简历,建议工程师们谨慎引入。
HN 热度 943 points | 评论 402 comments | 作者:sambellll | 22 hours ago #
https://news.ycombinator.com/item?id=48713832
- LLM 本质上基于随机过程,很多人不理解这一点,导致简历筛选变得不可靠
- temperature 参数控制采样分布,temperature=0 理论上使模型确定性,但实践中因浮点精度等问题仍有不确定性
- 存在多个最大值时,贪心采样仍可能非确定性,但浮点误差使 LLM 实际输出大多确定
- 确定性逻辑在合规场景中至关重要,LLM 的微小错误可能导致严重后果
- 可以通过增加精度或量化等技巧解决数值相等导致的非确定性
3. 年龄验证只是言论自动归因的前奏 (Age verification is just a precursor to automated attribution of speech) #
https://nonogra.ph/age-verification-is-just-a-precursor-to-attribution-of-speech-06-29-2026
这篇文章发布于 2026 年 6 月 29 日,作者匿名,主要反对各国推行的“年龄验证”法规。作者认为,年龄验证表面上是保护儿童,实则是身份归因系统的前奏,目的是将网络言论与真实身份强制绑定,方便政府快速识别和追责持不同意见者。文章指出,传统执法需要调查“发生了什么”和“谁干的”,而年龄验证能自动将数字账号与身份证、社保号等物理身份关联,消除匿名性。作者担忧,一旦大规模验证普及,任何对政客的不便言论或群聊中的过激表达,都会招致官方信件甚至上门执法,类似 RIAA、MPAA 时代 ISP 代发的“警告信”。最后,作者呼吁不要验证年龄,不要放弃身份,如果必须验证,应使用门罗币匿名支付给第三方验证服务。
HN 热度 942 points | 评论 584 comments | 作者:arkhiver | 20 hours ago #
https://news.ycombinator.com/item?id=48714529
- 人们缺乏系统思维,看不到年龄验证等政策的二阶及多阶效应,导致轻易被通过
- 政治圈强制推行民众反对的隐私侵权措施,独裁主义一再失败却不断尝试
- 每项法律应设置 1-10 年自动失效条款,到期需重新通过才能继续生效
- 建议设两个议院:一个需三分之二多数立法,另一个仅需三分之一少数即可废止任何法律
- 30% 的人宁愿放弃自身权利也要让外貌不同者受更多苦
- 金钱深度介入政治,会使任何改革难以发挥作用
- 宪法中的 Article the First 修正案若批准,众议院席位将超 6000 个,打破现有政党操控
- 即使众议院扩大,参议院依然存在,金钱贿赂仍会流向参议员
- 这种废除式设计更像是自由意志主义幻想,更需要投票改革实现真实多党制
- 法律日落条款会产生频繁修宪压力,普通民众难以承受不断变化的法规负担
- 反对:日落条款反而能简化法律,避免翻阅海量法规和行政规则
4. Pollen 试图删除我的文章,谷歌正在协助此事 (Pollen tried to remove my article and Google is assisting with it) #
这是一篇由技术作家 Gergely Orosz 发表在《The Pragmatic Engineer》上的博客文章,揭露了活动技术公司 Pollen 的倒闭丑闻及其后续试图掩盖真相的行为。
文章的核心事实如下:
- 2022 年,作者详细报道了 Pollen 公司的垮台:该公司在号称融资 2 亿美元后快速倒闭,CEO Callum Negus-Fancey 对员工撒谎、拖欠工资和养老金、未支付供应商款项,甚至 CTO Bradley Wright 手动操作导致客户被多扣 320 万美元且从未退款。
- 四年后,有人恶意利用谷歌的 DMCA 版权投诉系统,以虚假身份“Ellie Piee”从无人居住的南极布韦岛提交投诉,谎称作者的文章抄袭了《纽约邮报》1998 年的不相关文章。谷歌接受了这一虚假投诉,将原文章从搜索结果中删除。
- 作者已经提出上诉,并推测这是 Pollen 方面雇佣声誉管理公司所为。
- 此外,加利福尼亚州仍有针对 Pollen 及其高管的集体诉讼,员工正寻求追讨未付的工资、福利和 401(k)损失。
文章指责谷歌的版权投诉机制被轻易滥用,让企业可以掩盖事实,并警示了“斯特赖桑德效应”(越试图删除信息,信息传播越广)。
HN 热度 855 points | 评论 122 comments | 作者:taubek | 14 hours ago #
https://news.ycombinator.com/item?id=48716902
- 虚假的 DMCA 索赔表明要求平台强制审核的法律存在问题,平台不关心欺诈,受影响方无法追责,导致不良行为者利用平台作为盾牌。
- 更合理的做法是要求每次版权下架都需法院命令,法官不会偏袒声称的版权持有者,并能惩罚欺诈者。
- 要求索赔人验证真实身份是好起点,本案使用假名和虚构地址本身就应拒绝索赔。
- 让私人实体当仲裁员有问题,Google 难以验证索赔人身份,而法院更容易验证并追责。
- Google 能验证身份(如手机号),但存在不对称:无需身份即可提 DMCA 索赔,上诉却需身份,可能引发骚扰。
- 需要验证索赔人真实存在、身份属实并拥有版权,否则不对称性过大。
- 已有私人实体每天检查 ID,这是已解决的问题。
- 如果强制验证真实身份,会导致隐私担忧,媒体会炒作“没有谷歌账户就不能提交 DMCA”。
- 谁定义“真实身份”?虚构地址是欺诈,但并非每个人都有地址。
- 要求 DMCA 原告有合法地址比现状更可取。
- 责任在 DMCA 处理者验证索赔合法性,但国会应解决自身制造的问题。
- Google 缺失恢复流程,未遵循 DMCA 流程;修改法律剥夺安全港豁免可有效打击滥用。
- Etsy 立即执行下架,但投诉人承认错误后不联系平台,导致无法恢复。
- 护照芯片验证可行,但网络本质是开放匿名的,对此持怀疑态度。
5. Mullvad 的 CEO 是瑞典厄勒布鲁党的主要资助者。 (The CEO of Mullvad is the main financer of the Swedish Örebro party) #
https://det.social/@lostgen/116820546568940358
Jörg Seidel 在 det.social 上发表了一则帖子,表达了他对 Mullvad 公司的 CEO 的失望。他指出,这位 CEO 不仅资助了瑞典的极右政 ——Örebro 党,而且他还是该党的主要资助者,捐占该党资金的 70% 以上。Seidel 对这一情况感到非常悲伤,并表示因此对 Mullvad 这项服务失去了信任。他明确表示,他不支持那些旨在实施强制驱逐政策的政。
Seidel 的帖子中还链接了一篇文章,详细报道了这位 CEO 的资助行为。这一事件引发了广泛关注,并在社交媒体上得到了大量的转发和评论。Mastodon 作为一个去中心化的社交网络,允许用户跨服务器进行互动,没有算法、广告或点击诱饵干扰。
HN 热度 515 points | 评论 1156 comments | 作者:Risse | 13 hours ago #
https://news.ycombinator.com/item?id=48717469
- 政治话题应更严格限制,不应因社区兴趣而允许多次讨论。
- 多数政治文章离题,但特殊情况下可依据多年一致原则允许讨论。
- 原始 Mastodon 帖子已删除或不可见。
- 版主对政治帖子的处理存在双重标准,举例其他离题帖子被允许。
- 用户因类似争论曾被删号。
- 通常反对极右的观点会被移除。
- 瑞典社会存在肤色、经济等分裂,CEO 阶层不受影响,讽刺可能选出极右政府。
- 移民问题本质是文化和经济问题,不应简单归为种族主义,否则会推动种族主义者当选。
- 该党立场与黑人马克思主义者一致,瑞典分裂比种族更深层。
- 对波兰人的偏见也是种族主义,对方种族理论理解不足。
6. Librepods:解放 AirPods (Librepods: AirPods liberated) #
https://github.com/librepods-org/librepods
LibrePods 是一个开源项目,它通过逆向苹果专有协议,让 AirPods 的专属功能能在非苹果设备(如 Linux 和 Android)上使用。目前已实现的功能包括切换降噪模式、入耳检测、准确电池状态、头部手势(仅 Android)、对话感知、自动连接等。部分高级功能(如听力辅助、空间音频、心率监测等)还在开发中,或需要 root 权限及 VendorID 欺骗。页面同时警告:librepods.org 并非官方站点,请认准官方 GitHub 仓库。
HN 热度 476 points | 评论 174 comments | 作者:rbanffy | 1 day ago #
https://news.ycombinator.com/item?id=48710232
- AirPods 在非苹果设备上已经可以作为普通蓝牙耳机使用,LibrePods 只是实现了苹果设备上才有的额外功能。
- 有些读者没仔细看 README 就误会了,以为 AirPods 不能在其他设备上用。
- AirTags 采用专有协议,与其他追踪器(如 Tile、Chipolo、三星 SmartTag)类似,但部分新产品已支持多平台。
- 很多第三方追踪器只能选择一个网络,不能同时支持多个。
- Ugreen 的追踪器同时支持 Google 和 Apple 的查找网络。
- 苹果的“无缝切换”功能有时也会出问题,导致设备之间意外跳转,用户无法关闭。
7. 1960-2026 年历史内存价格 (Historical memory prices 1960-2026) #
https://dam.stanford.edu/memory-prices.html
这是一个由斯坦福大学维护的内存价格数据平台,提供 DRAM、HBM 和 NAND 闪存的历史及当前每 GB 价格,数据以交互式图表呈现,支持缩放、下载 CSV。
页面包含四大核心图表:
- 每 GB 价格历史(对数坐标)——展示 DRAM、NAND、HBM 三条曲线,可切换名义美元或 2024 年恒定美元。
- DRAM 按代际分布——从 SDRAM 到 DDR5,清晰显示各代价格趋势。
- AI 加速器成本分解(季度)——按 HBM、逻辑、封装、辅助组件拆分 Nvidia、AMD、Google、Amazon 四大厂商的加权平均成本。
- HBM 按代际价格——提供每 GB 和每 TBps 带宽价格,涵盖 HBM2e 到 HBM4(HBM4 为预测值)。
数据来源与说明:DRAM 早期数据来自 McCallum 经典数据集(1957–2024),后续为 Keepa 抓取的亚马逊最低零售价;NAND 为 Keepa 最低消费级 NVMe SSD 价格;HBM 数据来自 Epoch AI 建模及 TrendForce/SemiAnalysis 行业估算。页面底部注明零售价滞后于合约价、代际清仓价可能非前沿等注意事项。
更新频率:DRAM 和 NAND 每月更新,HBM 每季度更新。维护者为 Stanford DAM 项目的 David Shim。
HN 热度 395 points | 评论 152 comments | 作者:vga1 | 1 day ago #
https://news.ycombinator.com/item?id=48710092
- 图表未调整通货膨胀,但使用对数刻度使调整影响不大。
- 1990 年前用每 GB 定价不现实,但作者只是想做每单位容量的图。
- 将真空管和磁芯内存标为 DRAM 存在争议,磁芯应算 SRAM。
- 按每 GB 图表,当前价格与 2020 年相当,但近期有上涨。
- 按当时典型 RAM 芯片大小定价会导致人为突变,市场似乎总以约 100 美元提供当时标准容量。
- 有人指出对数刻度下通货膨胀调整影响不大,货币贬值并非指数级。
- 有评论提到 1960 年代已有 2GB 内存系统,因此按 GB 研究历史定价合理。
- 有人认为应该用“完成标准计算任务所需 RAM 的美元价格”这种主观指标。
- 讨论了 Windows 10 用 1GB RAM 是否可行。
8. 美国最高法院裁定地理围栏搜查令需受宪法保护 (US Supreme Court rules geofence warrants require constitutional protections) #
https://www.theguardian.com/us-news/2026/jun/29/supreme-court-geofence-warrants-case-decision
美国最高法院裁定,执法机构使用地理围栏搜查令获取智能手机位置数据需要受第四修正案隐私保护。大法官埃琳娜·卡根撰写的多数意见认为,即便在公共区域,个人对其手机位置记录仍享有“合理的隐私期待”,警方要求科技公司提供此类数据构成宪法意义上的搜查。该案以 6:3 判决政府败诉,是数字时代隐私权的重要判例。
案件背景:弗吉尼亚州警方通过谷歌位置历史功能追踪到银行劫案嫌疑人奥凯洛·查特里,其被判 12 年监禁。查特里律师主张搜查范围过宽,侵犯第四修正案权利。多数意见指出,用户开启位置历史是受谷歌反复提示影响,并非自愿选择分享隐私;索托马约尔大法官补充说,即使短期位置监控也能暴露个人医疗、政治、宗教等敏感信息。
判决还指出,下级法院需进一步裁定该搜查是否“合理”(即每一步是否描述精确且具可能原因)。隐私倡导者担忧地理围栏搜查令可能被滥用于监控抗议、诊所等场所;执法部门则辩称这是寻找嫌疑人的必要手段。该裁决是 2018 年最高法院要求定位需搜查令后的又一重要判决。
HN 热度 387 points | 评论 178 comments | 作者:cdrnsf | 8 hours ago #
https://news.ycombinator.com/item?id=48720924
- 判决要求执法部门使用地理围栏搜查令时必须遵守宪法保护,逐步缩小范围获取数据的方式受到质疑
- 即使不参与犯罪,只要手机出现在犯罪现场附近就可能成为嫌疑人,需花费大量金钱自证清白
- 缺乏法医证据不能直接排除个人嫌疑,陪审员被要求接受无物证情况下的定罪
- 目击证人证词可独立定罪,无需 DNA 等法医证据,但需警惕目击错误可能性
- 数字社会应调整证据标准,从依赖目击证词转向更可靠的数字证据(如手机录像)
- 警方曾通过亚马逊 Echo 设备收集蓝牙 MAC 地址追踪嫌疑人,类似手段引发隐私担忧
- 德州刑事法庭明确表示:无法医证据仍可定罪,拒绝接受此要求的公民不适合担任陪审员
9. 三星、SK 海力士和美光在美国因内存价格操纵被起诉 (Samsung, SK Hynix, Micron Sued in US over Memory Price Fixing) #
三星电子、SK 海力士和美光在美国被消费者集体起诉,指控其合谋操控 DRAM 内存价格,四年内涨幅高达约 700%。原告包括 14 名个人和 3 家小型企业,称三家公司以向 HBM(高带宽内存)转移为借口削减 DRAM 供应,并系统性地协调停产 DDR3 和 DDR4,推高了价格。苹果近期全面涨价成为诉讼导火索。
目前诉讼规模较小,但若法院批准集体诉讼,可能扩大影响。原告律师曾赢得谷歌反垄断案,若最终胜诉,被告需支付三倍赔偿。此前三星和 SK 海力士在 2000 年代初因类似价格操纵在美国被罚款,高管也曾入狱。行业分析认为,该诉讼至少在年底前不会影响内存价格。
HN 热度 340 points | 评论 159 comments | 作者:donohoe | 12 hours ago #
https://news.ycombinator.com/item?id=48718102
- 原告提出的 8 点证据不足以定罪,表明行业监管有问题,公司已有合谋前科但不留证据。
- 如果没有书面协议,可能存在“默示合谋”,供应商看到竞争对手定价高自己也跟风。
- 商品市场由供需决定价格,涨价可能是由于需求激增而非合谋,且供应商实际在增产。
- 企业没有义务必须满足需求,可以自主限制产量,但多企业秘密合谋限制产量才违法。
- 要证明三星、SK 海力士、美光构成卡特尔很难,因为不会有书面证据。
- 如果高价时没有企业增产以抢占市场份额,则暗示存在合谋。
- 增产有成本和风险,过去有公司因过度扩张而破产,保守策略是合理的。
- 如果公司高层足够聪明谨慎,就不会留下证据,找不到证据可能说明没有违法。
- 重点应放在合谋的实际危害上,而非寻找书面协议;应惩罚表面上合谋的行为。
10. 火箭实验室收购铱星 (Rocketlab acquires Iridium) #
火箭实验室(Rocket Lab)宣布以约 80 亿美元企业价值收购铱星(Iridium),每股 54 美元(现金加股票)。合并后公司将整合火箭实验室的发射与卫星制造能力,以及铱星的全球卫星通信网络、频谱和 500 多个合作伙伴生态系统,成为垂直整合的航天公司,可设计、建造、发射并运营自有星座,提供物联网、直接到设备(D2D)、定位导航授时(PNT)等关键通信服务。交易预计显著提升火箭实验室的现金流和盈利能力,消除第三方发射成本,并开辟新的空间应用市场。铱星 2025 年收入 8.717 亿美元,调整后 EBITDA 4.95 亿美元,利润率 57%。两家公司均为美国政府信赖的国防合作伙伴,合并将加速下一代星座和国家安全能力部署。
HN 热度 339 points | 评论 210 comments | 作者:everfrustrated | 10 hours ago #
https://news.ycombinator.com/item?id=48719485
- 随着进入轨道成本降低,毫无价值的卫星会越来越多,未来夜空可能被卫星网格覆盖,甚至出现太空广告牌。
- 卫星燃烧后留下长期漂浮的微粒会污染大气,有人为此提议改用木质卫星。
- 提出“轨道价值税”(类似乔治地税),以资助轨道清理并内化轨道污染的外部性。
- 反对轨道价值税,认为这会在太空产业刚起步时就通过财务壁垒进行“圈地”,最终只有能负担税收的大公司获益,类似亚马逊曾反对在线销售税、建完仓库后转而支持。
- 赞成轨道规范的人指出,SpaceX 通过星链迅速占领近地轨道有用区域,会排挤后来者,若不监管,先发者会独占该轨道。
- 星链是目前 SpaceX 唯一盈利的部门,需要这种商业收入来支撑太空探索;历史上只有冷战时期的意识形态竞赛才推动了登月,苏联解体后 NASA 预算立刻被削减。
- 美国在登月成功后(非苏联解体时)就已削减 NASA 预算,航天飞机也因此成为妥协产物。
- 反驳“星链占用轨道”的说法,认为 LEO 空间极大,说占用是胡扯。
- 争辩认为空间碎片风险从没被证实,过度应用预防原则会阻碍太空进展,而同样的人却在 AI 和监控等问题上不应用该原则,存在双重标准。
- 碰撞风险并非理论,2009 年卫星碰撞已证实;卫星运营商每天都在进行碰撞分析和机动决策;保险公司已将碎片风险纳入保费。
- 星链所在极低轨道的碎片几个月就会自动衰减,不构成长期威胁,但 SpaceX 随后申请了更多位于 600-850km 高度的卫星,这些轨道碎片需要数年甚至数十年才能自然离轨。
- 如果不重视碎片管理,持续发射会导致轨道积累大量不可控碎片,最终使该轨道无法使用。
Hacker News 精彩评论及翻译 #
Professor denounces mass AI fraud on an exam at Br… #
https://news.ycombinator.com/item?id=48712010
In the AI era, tests are going to have to be in person and hand written.
I have written an article on how I have adjusted my classes to the situation:
https://htmx.org/essays/universities-and-ai/
Ironically, I think the AI era may make university degrees a better signal of the intellectual abilities of students due to the presence of pre-computer infrastructure like large lecture halls, industrial-scale copiers, etc.
recursivedoubts
在人工智能时代,考试将不得不改为线下手写形式。
我写了一篇文章,阐述了我如何根据这一情况调整我的课程:
https://htmx.org/essays/universities-and-ai/
讽刺的是,我认为人工智能时代可能会让大学学位成为学生智力能力的更好信号,这是因为存在诸如大型阶梯教室、工业级复印机等前计算机时代的基础设施。
Age verification is just a precursor to automated … #
https://news.ycombinator.com/item?id=48714704
If we taught systems thinking in schools things like internet age verification would never get past being an idea on the back of a napkin. People struggle to consider the second-, third-, and nth-order effects of anything so asking them to consider what else might happen if we bring in laws and technical mechanisms to ‘protect the children’ is unfortunately too a big leap for a lot of them. Most people are bad at spotting causal links between parts of a system, and people who are good at it exploit that.
onion2k
如果我们在学校教授系统思维,像互联网年龄验证这样的想法就永远不会从餐巾纸背面的草稿变成现实。人们很难去考虑任何事情的二阶、三阶乃至高阶效应,因此要求他们思考引入法律和技术机制来“保护儿童”还可能导致哪些其他后果,对许多人来说不幸是一个太大的跳跃。大多数人不擅长发现系统各部分之间的因果关系,而擅长此道的人则利用这一点。
HackerRank open sourced its ATS. My resume scored … #
https://news.ycombinator.com/item?id=48715029
An alarming number of people don’t understand that LLMs work via purely stochastic processes, so I’m happy to see in-depth pieces like this. I’m looking for a job and maybe this is why it’s so hard to get a callback these days: resumes are just dumped in some LLM black hole and no one really knows how it works. The author says:
temperature 0.1 — low, supposedly nudging the model toward deterministic outputs
This is not correct (and is briefly touched on later in the piece when he sets temperature to 0), temperature is not some kind of “deterministic” switch, but rather it affects the sampling distribution (which becomes more “spiky”—but is still very much a distribution).
dvt
令人担忧的是,很多人不明白大语言模型是通过纯随机过程运行的,所以我很高兴看到这样深入的文章。我正在找工作,也许这就是为什么现在收到回复如此困难:简历只是被扔进某个大语言模型的黑洞,没人真正知道它如何运作。作者写道:
温度设为0.1——较低,据称能让模型趋向于确定性输出
这并不正确(文章后面将温度设为0时也简单提及了这一点),温度并非某种“确定性”开关,而是影响采样分布(会使分布更“尖峰化”——但本质上仍然是一个分布)。
GLM 5.2 beats Claude in our benchmarks #
https://news.ycombinator.com/item?id=48712124
I have taken another look on these open models after the fiasco of Fable and GPT 5.6 this weekend and… GLM-5.2 truly is a good workhorse model for daily programming. I consider myself a heavy user of LLMs and a seasoned developer. A typical session for me with GPT is usually over a hundred dollars…
This weekend I programmed a matrix bot with encryption and a Rust agent with some tools. Because I need one and OpenClaw just felt… not what I wanted. Two days later and 20 dollars poorer I have what I need: a multimodal agent written in rust that has access to my homelab.
Nothing felt off with GLM. It did what I wanted, was fast, had a decent not very annoying personality and was much cheaper than Opus or GPT.
I used it unquantized through Fireworks, but there are multiple other providers too.
pimeys
在Fable和GPT 5.6本周末的失败之后,我重新审视了这些开源模型……GLM-5.2确实是一个日常编程中非常好用的模型。我自认为是大语言模型的重度用户,也是一名经验丰富的开发者。我通常用GPT一次会话就要花掉一百多美元……
这个周末我用加密技术编写了一个矩阵机器人,还用Rust写了一个带工具的智能体。因为我确实需要一个,而OpenClaw感觉……不是我想要的东西。两天后,花了20美元,我得到了需要的东西:一个用Rust编写的多模态智能体,可以访问我的家庭实验室。
GLM用起来没有任何不对劲的地方。它完成了我想做的事,速度快,个性还不错,不会太烦人,而且比Opus或GPT便宜得多。
我是在Fireworks上使用未量化的版本,不过也有其他多个提供商可选。
I used Claude Code to get a second opinion on my M… #
https://news.ycombinator.com/item?id=48709877
There’s something incredibly peaceful about being in the hands of an expert you trust. […] AI can absolutely shatter that feeling in an uncomfortable way […] but I don’t know if I can fully trust AI either.
This really is key. We know we can’t trust the AI, but at the same time we’re also more comfortable asking the AI for clarifications or confronting it. Not having a time-bound appointment or paying by the hour helps a lot. But even then, more information doesn’t necessarily help!
I once brought my 11-year-old car, a Civic with 150k miles, to multiple garages. I figured I’d play the “second opinion” game to correlate what the garages recommended to decide on what needed to be done…
I got 3 completely unrelated recommendations, including one that I knew was invalid! I felt worse off than when I started!
The solution to uncertain information isn’t more information, which the AI can certainly provide, it’s better information, and AI cannot currently provide that.
AceJohnny2
把自己交给你信任的专家手中,会有一种难以言喻的安宁感。[…] AI完全可能以一种令人不适的方式摧毁这种感觉[…]但我也说不准自己能否完全信任AI。
这确实是关键。我们知道不能信任AI,但与此同时,我们又更愿意向AI寻求澄清或与其对峙。没有预约的时间限制,也不用按小时付费,这大大缓解了压力。但即便如此,更多的信息也未必有帮助!
我曾经把我那辆开了15万英里的11年车龄思域送到多家修理厂。我想着玩一把“二手意见”的游戏,把各家修理厂的建议相互印证,来决定哪些项目必须做……
结果我得到了三个完全无关的建议,其中有一个我明知是错的!我的处境比当初更糟了!
面对不确定的信息,解决方案不是获取更多信息——AI确实能提供更多信息——而是获取更优质的信息,而AI目前还无法做到这一点。
HackerRank open sourced its ATS. My resume scored … #
https://news.ycombinator.com/item?id=48715092
At this point we might as well adopt that joke where you blindly throw away half the resumes because you don’t want to hire unlucky people.
ryukoposting
到了这个地步,我们还不如采纳那个笑话:随机扔掉一半简历,因为不想招到运气不好的人。
The KIDS Act would require age checks to get onlin… #
https://news.ycombinator.com/item?id=48712209
Anybody else think it is weird that suddenly all Western countries suddenly want to lockdown the internet to “protect the children”? There is surely an international special interest group lobbying for this?
bArray
有没有人觉得奇怪,突然所有西方国家都想封锁互联网来“保护儿童”?肯定有某个国际特殊利益集团在游说此事吧?
Tidal AI Policy #
https://news.ycombinator.com/item?id=48719295
The flood of AI music on their platform is becuase people can make money off it. If you turn off that faucet you stop the flooding.
VladVladikoff
他们平台上AI音乐泛滥是因为人们可以靠它赚钱。如果你关掉那个水龙头,就能阻止泛滥。
Professor denounces mass AI fraud on an exam at Br… #
https://news.ycombinator.com/item?id=48712325
I’m 30 and “we can’t do tests in paper” seems insane. Just how metastatic has ed tech been in what, 9 years since my undergrad?
QuadmasterXLII
我30岁,“我们不能用纸笔考试”听起来很离谱。从我本科毕业到现在才9年,教育技术究竟蔓延到了什么程度?
The Boeing 747 begins its final descent #
https://news.ycombinator.com/item?id=48713076
I know less about the airframe differences across the -400 and -8, but I can say the 747-8 represented a major upgrade in Flight Management Software.
I re-wrote the Central Maintenance System (portion inside the FMS) in C from scratch because no one had the original detailed design documents. The original -400 code was written in Pascal if I’m remembering correctly. I gleamed what I could from the source and relied on unit tests to get the rest of the way there based on what I knew of the protocol itself.
The entire FMS software was completely re-written in C++ and using modern object oriented patterns (at the time). Probably the most fun I’ve had over my now 20’ish year career. Of course Boeing was pissed with the delays this caused because the airframe wasn’t a major change. I’ll quote a Boeing (from MD originally) executive as saying “Meeting this project deadline is more important than your child dying.”
Sadly this was also the time I remember Boeing’s engineering ranks began to thin out. Personal opinion, this was a large part of what led to the MAX situation.
chrisss395
我对-400和-8在机身结构上的差异了解不多,但我可以说747-8在飞行管理软件方面是一次重大升级。
我完全用C语言重新编写了中央维护系统(FMS内部的那部分),因为没人保留原始详细设计文档。如果我没记错的话,原始-400的代码是用Pascal写的。我从源代码中尽力搜集信息,并根据我对协议本身的理解,依靠单元测试完成了其余部分。
整个FMS软件被完全用C++重写,并采用了(当时)现代的面向对象模式。这大概是我近二十年职业生涯中最有趣的一段经历。当然,波音对因此造成的延期非常不满,因为机身结构并没有重大变化。我记得一位波音高管(原麦道出身)说过:“按时完成这个项目比你孩子去世更重要。”
遗憾的是,也正是从那时起,我注意到波音的工程师队伍开始缩减。个人观点,这很大程度上导致了后来的MAX事件。
Age verification is just a precursor to automated … #
https://news.ycombinator.com/item?id=48714968
Age verification is just one part of this crackdown.
Device attestation is another - making sure you’re using an unmodified government approved operating system and apps linked to your ID.
RachelF
年龄验证只是这次打击行动的一部分。设备认证是另一部分——确保你使用的是未经修改的、政府批准的操作系统以及与你的身份证件关联的应用程序。
The CEO of Mullvad is the main financer of the Swe… #
https://news.ycombinator.com/item?id=48722153
Doesn’t really sound all that far-right to me.
To me too, then I got to the leaders quote on TV: “We must deport these damn parasites who sit and live at our expense.”
Yeah, okay. I know some politicians who speak like that, I feel I get the picture.
yreg
对我来说这听起来也不怎么像极右翼。
我一开始也这么觉得,直到我在电视上看到那位领导人的原话:“我们必须驱逐这些该死的寄生虫,他们坐享其成,靠我们养活。”
好吧,明白了。我认识一些这样说话的政客,我觉得我懂了。
US Supreme Court rules geofence warrants require c… #
https://news.ycombinator.com/item?id=48722588
I always like to mention how Paula Broadwell was identified as David Petraeus’ mistress as it’s a good example of how even without a phone you can still be identified.
-
FBI had three distinct IPs linked to emails
-
They geolocated those back to 3 different hotels
-
They pulled the guest list from each of the hotels
-
Did a “join” on them and the only guest at all 3 was Broadwell
https://en.wikipedia.org/wiki/Paula_Broadwell#Petraeus_affair
alexpotato
我总喜欢提起葆拉·布罗德韦尔是如何被确认为戴维·彼得雷乌斯情妇的,因为这是一个很好的例子,说明即使没有手机,你仍然可以被识别出来。
- FBI发现了三个与邮件关联的不同IP地址
- 他们通过地理定位将这些IP追溯到三家不同的酒店
- 他们调取了每家酒店的住客名单
- 对这些名单进行“交集”运算,结果发现三家酒店都出现的唯一住客就是布罗德韦尔
https://en.wikipedia.org/wiki/Paula_Broadwell#Petraeus_affair
Pollen tried to remove my article and Google is as… #
https://news.ycombinator.com/item?id=48717443
Ah, yes, you know someone’s desperate when you see a bogus DMCA claim like this. Not the first time this happened and definitely won’t be the last.
This also demonstrates why it is bad for a law to mandate private entities to do moderation, in this case taking down copyright infringement materials when reported. Google, like basically all big platforms, doesn’t care if a claim is fraudulent because the parties impacted cannot hold it accountable — google will just tell you they are themselves victims of the fraudulent claim. And to be fair, they are. But it has to enforce the claims or else lose its safe harbor exemption. This practically allows bad actors to use platforms as their shields, and in the end no one but the victim suffers any consequences for their abuse of the copyright laws.
I think a more sane approach would to require every copyright takedown to require a court order. Granted, the legal system is not perfect, but judges are not incentivized to always side with the supposed copyright holder like online platforms do. They will not be letting someone claiming to be living on a deserted island to file a claim and even when fraud does occur, they will at least know where the claim is actually coming from and be able to punish the fraudster accordingly.
pibaker
啊,是的,当你看到这种虚假的DMCA(数字千年版权法)投诉时,就知道某人已经走投无路了。这已经不是第一次发生,也绝不会是最后一次。
这也说明了为什么法律强制要求私营实体进行内容审核(比如接到举报就删除侵权材料)是不合理的。和几乎所有大型平台一样,谷歌根本不关心投诉是否虚假,因为受影响方无法追究它的责任——谷歌只会告诉你,它们自己也是虚假投诉的受害者。公平地说,它们确实是受害者。但它必须执行这些投诉,否则就会失去安全港豁免权。这实际上让恶意行为者可以利用平台作为自己的盾牌,最终除了受害者自己,没有人会因为滥用版权法而承担任何后果。
我认为更合理的做法是要求每项版权删除通知都必须获得法院命令。诚然,司法系统并不完美,但法官不像网络平台那样有动机总是站在所谓的版权持有者一边。他们不会允许某个自称住在荒岛上的人提交投诉,而且即使真的发生了欺诈,他们至少能知道投诉的实际来源,并能够相应地惩罚欺诈者。
Qwen 3.6 27B is the sweet spot for local developme… #
https://news.ycombinator.com/item?id=48723879
I love my MacBook Pro M5 128GB RAM and I love qwen3.6.
BUT DO NOT buy this MacBook if you plan on doing serious coding using local LLMs with it. The reason is simple: your fingers will burn and your head will explode from the noise.
Running any kind of sophisticated job on the very laptop you are using is just not viable. Sure you can use it in clamshell mode, but forget touching it while working with AI coding or agents.
If you want to run Qwen3.6 27B / 35B at its best, get a MacMini M4 with 64GB of RAM and put it in the basement - or at least a few meters from your desk. Connect to it over LAN or Tailscale. The MacMini will also cost you almost 1/3 of the MacBook Pro.
Thank me later.
iagooar
我爱我的MacBook Pro M5(128GB内存)和通义千问3.6。
但如果你打算用它进行严肃的本地大模型编程,千万别买这款MacBook。原因很简单:你的手指会被烫伤,噪音会让你脑袋爆炸。
在你正在使用的笔记本上运行任何复杂任务根本不可行。当然你可以把它合盖外接显示器,但如果你想一边用AI编程或智能体一边触摸它,那还是算了吧。
如果你想以最佳状态运行Qwen3.6 27B/35B,建议买一台64GB内存的Mac Mini M4,放在地下室——或者至少离你的办公桌几米远。通过局域网或Tailscale连接它。Mac Mini的价格还不到MacBook Pro的三分之一。
以后再来谢我。
I used Claude Code to get a second opinion on my M… #
https://news.ycombinator.com/item?id=48711719
A few years ago (before the AI craze), I was misdiagnosed with tuberculosis. I had a chronic cough, and an outsourced radiologist at a clinic found signs of tuberculosis. The findings were sent to the city’s tuberculosis hospital, as required by the country’s law. The doctors there took the radiologist’s conclusion at face value and required me to stay at their hospital for at least 8 months under a strict, prison-like regime. There was no option to say no, because I was considered some kind of biohazard, and by law I had to comply.
Before I was admitted, I quickly found another radiologist, who diagnosed pneumonia instead. I sent his report to the chief doctor at the tuberculosis hospital, and after some deliberation they concluded that the original reading was wrong. Turns out the doctors there can’t read scans at all and just believe whatever a radiologist says…
The funny thing is, they had already officially put me on the tuberculosis register and didn’t want to admit they had made a mistake. So instead, they simply gave me another paper saying that I had been cured of tuberculosis by them… in 7 days. I’m probably the only person in the country to defeat tuberculosis in a week :)
So if you don’t trust the radiologist/doctor, maybe find another doctor if you can afford it? You can compare their conclusions and see if they match. Two unrelated doctors or radiologists saying the same thing is probably about as close to the truth as you’re going to get. I’m not sure though whether I should trust AI or humans more. AI can hallucinate, but I’ve been misdiagnosed by humans so many times too…
kgeist
几年前(在AI狂热之前),我被误诊为肺结核。我长期咳嗽,一家诊所的外包放射科医生发现了结核迹象。根据国家法律,这些发现被送往市结核病医院。那里的医生轻信了放射科医生的结论,要求我在他们的医院至少呆8个月,并接受严格如监狱般的治疗。我没有拒绝的余地,因为被视为某种生物危害,依法必须服从。
在住院前,我迅速找了另一位放射科医生,他诊断为肺炎。我把他的报告寄给结核病医院的首席医生,经过讨论,他们认定最初的读片有误。原来那里的医生根本不会看影像,只是盲目相信放射科医生的说法……
可笑的是,他们已正式将我列入结核病登记册,并不愿承认错误。于是,他们直接给我开了一张新证明,宣称我在7天内被他们治好了肺结核……我大概是全国唯一一个在一周内战胜结核病的人吧:)
所以,如果你不信任那位放射科医生或主治医生,经济条件允许的话,或许可以再找一位医生?你可以比较他们的结论,看是否吻合。两个互不相干的医生或放射科医生得出相同结论,大概就接近真相了。不过我不确定应该更信任AI还是人类——AI会幻觉,但我也曾被人类误诊过太多次了……
Tidal AI Policy #
https://news.ycombinator.com/item?id=48719238
Tidal will accept AI-generated music.
Tidal will hold AI-generated music to a higher standard of content integrity. We will not tolerate AI-generated music that exploits an individual’s or group’s music, name or likeness, deceives listeners, or diminishes the quality of our service.
I think this is a very reasonable approach, and probably also the best way to treat AI-powered copyright infringement as a whole. Just like we don’t penalize artists for consuming content unless they produce actually infringing content, we should set the same focus for AI systems.
Starting today, AI-generated music will not be monetizable. We are only in the beginning of the era of AI-generated music.
Don’t really agree that this follows from the stated principle here ("… ensuring royalties go to original works produced, written and performed by people"), but will definitely help with spam etc.
fxwin
Tidal 将接受 AI 生成的音乐。
Tidal 将对 AI 生成的音乐执行更高的内容完整性标准。我们不会容忍利用个人或团体的音乐、姓名或肖像、欺骗听众或降低我们服务质量的 AI 生成音乐。
我认为这是一种非常合理的做法,或许也是处理 AI 引发的版权侵权问题的最佳整体方式。正如我们不会因为艺术家消费内容而惩罚他们,除非他们制作了真正侵权的作品,我们也应该对 AI 系统采取同样的关注点。
从今天起,AI 生成的音乐将无法实现盈利化。我们仍处于 AI 生成音乐时代的开端。
我并不完全同意这符合所陈述的原则(“……确保版税归属于由人类创作、编写和表演的原创作品”),但这确实有助于处理垃圾内容等问题。
Rocketlab acquires Iridium #
https://news.ycombinator.com/item?id=48721053
Hank Green did a video recently advocating for an “orbit value tax” – like a Georgist Land Value Tax, but for orbits. This tax would, among other things, help fund orbital cleanup and internalize the externality of polluting orbital shells. It’s an idea that deserves more discourse IMO.
Here is the video: https://www.youtube.com/watch?v=VLjW6zuYmos
Centigonal
汉克·格林最近发布了一个视频,提倡征收“轨道价值税”——类似于乔治主义的土地价值税,但针对的是轨道。这项税收除了其他作用外,还能帮助资助轨道清理,并将污染轨道层的外部性内部化。在我看来,这是一个值得更多讨论的想法。
视频链接:https://www.youtube.com/watch?v=VLjW6zuYmos
.self: A new top-level domain designed to support … #
https://news.ycombinator.com/item?id=48724993
Remember when the .tk TLD became free 20 years ago ? Every hobbyist took one, then scammers followed, then Facebook and antiviruses started blocking it.
I remember publishing a website for a class on my .tk domain, the teacher couldn’t open it and I almost got a failing grade because of it.
goldenarm
还记得20年前.tk顶级域名免费的时候吗?每个爱好者都注册了一个,然后骗子跟风涌入,接着Facebook和杀毒软件开始屏蔽它。我记得在课堂上用.tk域名发布过一个网站,老师打不开,我差点因此不及格。
Qwen 3.6 27B is the sweet spot for local developme… #
https://news.ycombinator.com/item?id=48722381
The article is based on running Qwen 3.6 on a 128GB MacBook Pro. For reference, a 128GB MBP currently starts at $6699 USD 0
Some people will be happy to pay that premium for privacy, but at roughly 10X the cost of a MacBook Neo, that money could also buy a lot of credits on OpenRouter or frontier labs.
bensyverson
这篇文章基于在128GB MacBook Pro上运行Qwen 3.6。作为参考,一款128GB的MacBook Pro目前起售价为6699美元 0。
有些人会乐意为了隐私支付这笔溢价,但考虑到这大约是MacBook Neo价格的10倍,这笔钱也能在OpenRouter或前沿实验室购买大量的API额度。
The CEO of Mullvad is the main financer of the Swe… #
https://news.ycombinator.com/item?id=48703742
Hi Fredrik
I’m a long time Mullvad customer, likely paid Mullvad upward of 400€ in the past number of years, as well as recommended it to friends and family members.
What you seem to be missing in your comment, is that some of that money I paid, found its way to support an organisation that has extreme racist views.
I’ve reached out to support and requested a refund of my outstanding credit.
I’ll be moving on.
kamaitachi
你好,Fredrik
我是Mullvad的长期客户,过去几年可能已经支付了超过400欧元,还向朋友和家人推荐过它。
你在评论中似乎忽略了一点——我付的那些钱里,有一部分被用来支持一个持极端种族主义观点的组织。
我已经联系客服,要求退还我账户中的余额。
我准备换别家了。
I used Claude Code to get a second opinion on my M… #
https://news.ycombinator.com/item?id=48710152
I have multiple LLM subscriptions at any given time, plus an array of local models.
When I ask a question outside of my domain of expertise I like to ask all of the LLMs I have access to. I also create separate sessions and ask the same question multiple ways.
It’s revealing to see how many different and contradictory answers I get, most of which are presented confidently.
The last time I ran a medical question through Claude I couldn’t even get consistent answers between sessions.
It’s also scary how easily you can lead each LLM to the answer you have in mind. When I would start asking questions about different options that other LLMs had presented, each session would drift toward that explanation.
Aurornis
我任何时候都订阅着多个大语言模型,加上一系列本地模型。
当我提出自己专业领域之外的问题时,我喜欢向我能够使用的所有大语言模型提问。我还会创建多个会话,用不同方式询问同一个问题。
看到我能得到多少不同且相互矛盾的答案,这很能说明问题,而大多数答案都被自信地呈现出来。
上次我通过Claude问一个医疗问题时,我甚至在多个会话中都没能得到一致的答案。
同样可怕的是,你可以轻易地引导每个大语言模型得出你心中预设的答案。当我开始询问由其他大语言模型提出的不同选项时,每个会话都会逐渐朝着那种解释偏移。