2026-05-29 Hacker News Top Stories #

AI 提升白领产能引发四天工作制设想，但收益多被资本攫取，需政策与集体行动保障员工受益。

YouTube 将自动为逼真 AI 视频打标以增透明，但用户担忧低质高刺激内容让儿童与老人沉迷且难辨真伪。

Opus 4.8 仅小幅改进，社区更看好以 GRAM 等方法强化小模型，因超大模型训练成本高且收益递减。

前沿 LLM 在事实核查上分歧显著，含混标签与缺少“我不知道”选项削弱可信度，后续拟补充改进。

借助补丁与 dxwrapper 可在 Win10 以 4K 流畅运行《模拟城市3000》，等距与简洁模拟被认为更能保留建造乐趣。

FBI 拘捕家藏约四千万美元金条与巨款的 CIA 高官，舆论聚焦犯罪中的低级失误与过度自信。

苹果和谷歌持续加强推送通知管控，用户盼强制区分事务性与营销并对骚扰式推送设更多阻碍。

网页端多人在线舞会 Hallucinate 主打实时互动与个性化，但远程 DJ 延迟难解，动画性能多靠 AI 优化且需缓解眩晕。

UC 六百余名教师因新生数学短板倡恢复理工科 SAT/ACT，讨论延伸至课堂分心、师生权威与特殊申诉滥用等问题。

作者转向 LoRa 网状网络并比较 Meshtastic/MeshCore/Reticulum，称其在抗审查与偏远接入有用但受节点稀疏与扩展性限制。

1. 我们可以休假吗？ (Can we have the day off?) #

https://mlsu.io/posts/day-off/

这篇博客文章讨论了人工智能（AI）即将带来的工作效率革命。作者认为，AI 将极大地提升白领及美国大部分劳动力的生产力，改变我们的工作方式、学习方式以及社交方式，使一切变得更快更简单。

基于这种生产力的飞跃，作者提出了一个设想：如果 AI 能让我们在周一中午完成过去一整周的工作量，那么是否可以将周五作为休息日，实行四天工作制？作者建议将周五定为“AI 工作者日”，周四集中高效工作，周五则由 AI 代理继续处理任务，人们可以休息或自由安排时间。

作者还呼吁企业高层也能享受这种灵活工作安排，比如董事会成员和高管们可以利用周五去打高尔夫球，彻底摆脱办公室束缚。最后，作者以个人生活为例，提到在加州养育三个孩子的高昂成本，质疑是否必须每周五天都去办公室工作，表达了对更灵活工作制度的期待。

HN 热度 1294 points | 评论 732 comments | 作者：mlsu | 23 hours ago #

https://news.ycombinator.com/item?id=48302745

引入 AI 提高生产力，但员工未必能从中获益，工资和休假未见增加，反而面临裁员风险。
经济增长的收益主要流向少数人，AI 可能加剧财富集中，开发者虽然曾受益，但现在处于劣势。
开源贡献被 AI 利用训练模型，部分公司甚至可能违反许可协议，导致开发者被替代。
AI 造成的裁员和工作量减少是事实，生产力提升更多被公司所有者获利，而非员工。
高薪软件工程师是少数，普通开发者的薪资和待遇并未显著改善。
生产力提升未带来更好的生活质量，反而加剧了社会经济不平等，可能导致社会动荡。
个人要求减少工作时间或增加薪酬难以实现，除非有更高层面的协调和政策支持，如全民基本收入。
工会和集体行动是争取权益的有效途径，但在技术社区中普遍缺乏支持。
市场竞争激烈，个体难以放慢节奏，否则会被更拼命的竞争者取代，形成囚徒困境。
现有大公司存在大量低效“忙碌工作”，说明并非所有时间都被高效利用。

2. YouTube 自动为 AI 生成视频添加标签 (YouTube to automatically label AI-generated videos) #

https://blog.youtube/news-and-events/improving-ai-labels-viewers-creators/

YouTube 团队于 2026 年 5 月 27 日发布公告，介绍了针对生成式 AI 内容标签的改进措施。自 2024 年以来，YouTube 一直要求创作者在使用 AI 工具时进行披露。基于社区反馈，YouTube 对 AI 内容标签进行了简化和优化，使标签更直观、更易于创作者和观众理解。

具体改进包括：

标签位置更显眼——对于长视频，AI 标签将显示在视频播放器下方、描述上方；对于短视频（Shorts），标签将以覆盖形式直接显示在视频上。对于不太真实、动画或轻微修改的内容，相关披露信息则放在视频描述的展开部分。
上传时要求创作者披露 AI 使用情况。
引入自动检测机制——从 2026 年 5 月起，YouTube 内部系统将通过信号自动识别显著的真实感 AI 生成内容，若创作者未手动披露，系统将自动添加标签。创作者可在 YouTube Studio 中修改披露状态，但对于使用 YouTube 官方 AI 工具制作或含有特定元数据的内容，标签披露将保持永久。

YouTube 强调，这些措施旨在平衡透明度与创作者控制权，标签本身不会影响视频推荐或盈利资格。目标是让创作者和观众都能更方便地获取关于 AI 内容的准确信息。

HN 热度 1263 points | 评论 757 comments | 作者：nopg | 1 day ago #

https://news.ycombinator.com/item?id=48299753

儿童和老年人容易被 AI 生成或辅助生成的视频内容吸引，表现出较强的沉迷和易受影响性。
这些视频内容往往节奏强烈、画面混乱且缺乏实质内容，甚至包含暴力动画，容易导致“脑腐烂”现象。
AI 生成的视频中存在单调、缺乏情感变化的虚拟主播，老年人难以分辨其真假。
AI 视频对用户的大脑奖赏机制有强烈刺激作用，导致沉迷。
许多用户对这类视频的存在感到困惑和害怕，担心算法对观看历史的影响。
这些视频内容普遍缺乏吸引人的故事或深度，更多是机械重复和无意义的组合。
有人建议应允许用户选择自己的推荐算法，形成算法市场。
有观点认为应禁止算法推荐和广告，以减少心理剥削。
也有人主张默认关闭算法推荐功能，由用户自主开启。
讨论中提到，Hacker News 等平台的非个性化算法相对较好，短视频平台的算法被认为是“罪魁祸首”。
认为问题根源是心理剥削，解决方案应依靠政府监管保护用户大脑。
反对政府过度干预算法市场，认为用户应有自由选择权。

3. Claude Opus 4.8 版本发布及主要改进 (Claude Opus 4.8) #

https://www.anthropic.com/news/claude-opus-4-8

该网页介绍了 Claude Opus 4.8 版本的发布及其主要改进。Opus 4.8 是在 Opus 4.7 基础上的升级，提升了多项性能指标，包括编码能力、推理能力和实际知识工作效率。新版本在判断力、协作能力和上下文保持方面表现更优，尤其在复杂多服务探索和多步骤任务中表现突出。

多个早期测试者的反馈显示，Opus 4.8 在代码质量、工具调用效率、法律专业任务和多模态处理上均有显著提升。例如，在法律代理基准测试中，Opus 4.8 首次突破了 10% 的全通过率，提升了法律和税务专业工作中的可信度。此外，Opus 4.8 在浏览器代理和在线任务中表现更稳定，能更好地处理复杂输入输出，减少错误和不确定性。

新版本还引入了“动态工作流”功能，支持 Claude Code 处理大规模代码库迁移，能够并行运行数百个子代理并验证输出结果，提高了任务处理的规模和效率。同时，用户在 claude.ai 平台上可以控制 Claude 的“努力程度”，根据需求调整回答的深度和速度，提升用户体验和资源利用率。

此外，消息 API 支持在消息数组中插入系统指令，方便开发者在任务进行中动态调整模型指令、权限和上下文，增强了模型的灵活性和适用性。整体来看，Opus 4.8 不仅在性能上有显著提升，也在诚实性和安全性方面达到了新的高度，减少了误导性陈述和不当行为，提升了模型的可信赖度和专业应用价值。

HN 热度 1131 points | 评论 903 comments | 作者：craigmart | 7 hours ago #

https://news.ycombinator.com/item?id=48311647

Anthropic 的 Opus 4.8 是该系列第三次小版本更新，改进较为有限，用户难以明显感知性能提升。
未来小规模模型仍有巨大潜力，60-90 亿参数模型可能在 2-3 年内超越当前大型模型的编码能力。
训练超大规模模型（如 1.2 万亿参数）成本高且收益不确定，短期内难以快速训练和迭代。
GRAM（生成递归推理模型）技术可能显著提升小模型的推理能力，成为未来模型发展的关键。
大型模型虽然知识丰富，但在准确性和推理方面仍有限，无法完全取代推理能力强的模型。
模型改进的边际效益递减，用户对频繁更新但收益不明显的版本感到疲惫。
未来模型训练可能更多依赖于大模型辅助生成数据，通过蒸馏技术提升小模型性能。
规模扩展仍然重要，市场对更高性能和更可靠模型的需求持续存在，未来十年仍会有新模型发布。
模型命名和缩写（如 GRAM）可能引起混淆，影响讨论和传播。
小模型通过蒸馏和改进训练方法，性能密度提升明显，已经超过过去更大参数模型的表现。

4. 前沿大型语言模型在真实世界事实核查中的分歧 (Disagreement among frontier LLMs on real-world fact-checks) #

https://lenz.io/research/llm-disagreement

该网页展示了一项由 Lenz Research 进行的研究，主题是前沿大型语言模型（LLMs）在真实世界事实核查中的分歧情况。研究基于 1000 条真实用户提交的声明，分别由五个顶尖 LLM 进行判定，判定结果分为四个等级：真实、基本真实、误导性和错误。研究发现，67% 的声明中至少有一个模型的判定与多数模型不一致，显示出模型之间存在显著分歧。

具体发现包括：34% 的声明存在两个或以上等级的实质性分歧，表明不仅是细微差别，而是对事实本身的不同理解。Krippendorff’s α 系数为 0.639，显示模型间存在有限但非随机的一致性。多数模型在判定中集中于“真实”和“错误”两极，而部分模型则更多分布在中间两个等级。

研究还分析了模型间的相互一致率，最高达 75%，最低约 53%。不同模型在判定分布上存在差异，有的偏向极端判定，有的则较为分散。模型与其他模型多数意见的一致率在 69% 到 81% 之间，反映了模型间的对齐程度，但并不代表判定的正确性。

总体来看，该研究揭示了当前顶尖 LLM 在处理复杂事实核查任务时存在的显著分歧和不确定性，强调了在无标准答案的真实场景中，模型判定的多样性和挑战。

HN 热度 480 points | 评论 334 comments | 作者：kostaj | 11 hours ago #

https://news.ycombinator.com/item?id=48307887

该研究使用的标签体系（True、Mostly True、Misleading、False）缺乏明确的定义和评分标准，导致模型对事实的判断存在分歧。
“Mostly True”和“Misleading”标签容易混淆，且没有解释说明，使得结果难以解读和信服。
事实判断中存在模糊地带，某些说法可能同时具备“误导性”和“部分真实”的特点，单一标签难以准确表达。
研究中强制模型必须给出判断，取消了“放弃回答”选项，可能导致模型被迫给出误导性或无价值的答案。
许多事实核查问题本身存在难以验证或信息不完整的情况，模型缺乏“无法验证”或“不知道”的选项限制了其表现。
让模型先给出推理过程再给出结论，有助于提升答案质量和理解不同模型间分歧的原因。
事实核查应结合原始来源和多方验证，单纯依赖语言模型生成的结论存在局限，尤其在政治、伦理等敏感领域。
语言模型在面对客观事实时，更多是基于对已有文本的权重和可信度评估，而非真正的事实验证。
未来研究计划加入“我不知道”标签并由人工专家对部分声明进行标注，以提升评估的准确性和实用性。

5. 《SimCity 3000 4K 高清重制版（2025）》 (SimCity 3k in 4k (2025)) #

https://www.thran.uk/writ/hdid/2025/12/simcity-3k-in-4k.html

这篇文章介绍了如何在现代 Windows 10 系统上以 4K 分辨率流畅运行经典游戏 SimCity 3000。作者使用了 Windows 10 LTSC 2021 版本，配备 Ryzen 5 3600 处理器、Radeon RX 7600 显卡和 48GB 内存的 4K 显示器进行测试。

文章首先描述了从原版 CD 安装游戏后遇到的问题，包括不支持宽屏、分辨率过低、滚动时卡顿和加速、加载城市时明显延迟、音乐播放依赖光盘且部分缺失、部分图块加载延迟等。

针对这些问题，作者提供了详细的解决方案：

使用 GOG 提供的补丁 EXE 文件，实现宽屏支持和免光盘启动。
修改配置文件 SC3U.ini，调整鼠标滚动加速度，解决滚动加速过快问题。
安装 Direct3D Wrapper 替代方案，修复分辨率异常，支持 4K 全屏显示，并调整 dxwrapper.ini 文件实现真正的全屏模式和垂直同步。
应用 4GB 内存补丁，允许游戏使用更多内存，减少加载延迟和图块显示问题。
禁用自动更新功能，避免启动时因尝试连接已不存在的服务器而导致的卡顿。
修复音乐缺失问题，提供补丁文件并指导将 CD 中的音乐文件复制到硬盘。

文章最后强调，完成这些步骤后，玩家可以在现代系统上享受高分辨率、流畅且完整的 SimCity 3000 游戏体验。作者还提供了相关下载链接和额外资源，如游戏攻略、快捷键列表和原声音乐转换指南，并对 Windows 11 的兼容性提出了个人看法。

HN 热度 468 points | 评论 192 comments | 作者：speckx | 1 day ago #

https://news.ycombinator.com/item?id=48297645

现代城市建造游戏过于追求写实，反而削弱了玩家想象力和游戏的核心乐趣，经典的等距视角更适合模拟和理解城市系统。
等距视角的城市建造游戏如《SimCity 3000》在交通、经济、分区、犯罪和污染等模拟方面更实用且易于理解。
有类似风格的游戏如《Metropolis 1998》结合了城市建造和模拟“模拟市民”生活的元素，且已有试玩版。
游戏支持导出城市模型到 Blender 制作高质量图片，未来可能会开放无需 Blender 的导出功能。
游戏中升级建筑（如警察局升级为警察总部）可能导致预算崩溃且无法撤销，开发者计划增加“禁用建筑”功能以应对预算限制。
视角操作使用 WASD 键平移，箭头键调整倾斜和旋转，游戏设计为等距视角，不支持自由视角，但计划推出“摄影模式”供拍照使用。
游戏配乐由 Pablo Rubio 创作，灵感来自《运输大亨豪华版》，采用类似追踪器音乐的限制以营造复古氛围，且持续更新新曲目。
游戏地图目前规模有限，但开发者已取得技术突破，未来地图规模将大幅提升。
高性能硬件对现代城市建造游戏尤为重要，尤其是《Cities Skylines 2》因图形优化差而性能需求极高。
城市模拟的关键在于如何设计不需要全地图同时活跃的模拟机制，以提升性能和规模。

6. 联邦调查局逮捕中央情报局官员，家中藏有价值 4000 万美元的金条 (FBI Arrests CIA Official with $40M in Gold Bars in His Home) #

https://www.nytimes.com/2026/05/27/us/politics/fbi-arrest-cia-official-gold-bars.html

一名美国中央情报局（CIA）高级官员大卫·拉什（David Rush）上周被逮捕，原因是在其弗吉尼亚州住所发现了价值超过 4000 万美元的数百根金条。根据法庭文件，这些金条显然是他从工作中带回家的。拉什目前被关押，等待即将举行的拘留听证会，指控他通过填写虚假工时表盗用公款。

目前对拉什的唯一指控是他夸大了自己的学历，并通过虚假身份获得了数万美元的军事休假工资。调查显示，他谎称自己是海军预备役成员，实际上已经退役。

法庭文件称拉什曾是美国政府高级行政服务级别的员工，知情人士透露他直到最近还在 CIA 担任高级职位。CIA 和联邦调查局（FBI）联合声明称，逮捕发生在 5 月 19 日，此前 CIA 内部调查发现潜在违法行为，并将信息移交 FBI。

从去年 11 月至今年 3 月，拉什申请并获得了大量外币和价值数千万美元的金条用于工作相关开支。但 CIA 在审查这些资金的存放地点时，未能找到这些金条和大量外币。

5 月 18 日，FBI 搜查拉什住所，发现约 303 根每根约一公斤的金条，估值超过 4000 万美元。此外，还查获了近三打奢侈手表，多为劳力士品牌。

法庭文件未说明拉什为何将如此大量的金条和 200 万美元现金存放在家中，也未解释其工作项目为何需要积累如此巨额财富。

HN 热度 450 points | 评论 369 comments | 作者：cwwc | 1 day ago #

https://news.ycombinator.com/item?id=48302151

有人质疑被捕的 CIA 官员为何会将大量贵重物品存放在家中，认为这不合常理，怀疑背后可能有贿赂或更复杂的原因。
即使某些行为看似愚蠢，但现实中确实有人会做出非常愚蠢的决定，甚至包括自残或错误判断。
犯罪分子虽然聪明，但在实施犯罪时往往会犯低级错误，这也是他们被抓的原因之一。
有些聪明人也会因为自信过度而犯下致命错误，体现了“达克效应”（Dunning-Kruger 效应）。
犯罪案件中，最笨的罪犯更容易被捕，聪明的罪犯往往更难被抓且案件不易公开。
司法过程中非法获取的证据并不总是能被法庭接受，但现实中很多案件依然依赖这些证据定罪。
即使有非法取证的情况，成功通过法律程序推翻证据的案例非常少，很多无辜者仍被错误判刑。

7. 苹果和谷歌如何推动推送通知的发展 (What Apple and Google are doing to push notifications) #

https://www.jacquescorbytuech.com/writing/what-apple-and-google-are-doing-your-push-notifications

这篇文章由 Jacques Corby-Tuech 撰写，主要探讨了苹果和谷歌如何影响推送通知的传递和用户体验。文章指出，推送通知的管理从一开始就是为了节省设备电池寿命，苹果在 2009 年推出了 Apple Push Notification Service（APNs），谷歌随后也推出了类似服务。推送通知的传递必须经过苹果或谷歌的服务器，这使得两家公司拥有对通知内容进行节流、丢弃、排序和修改的控制权。

文章回顾了过去十五年平台对推送通知的干预历程。早期推送通知较为简单，用户只能对应用整体开启或关闭通知。2017 年安卓引入通知频道机制，开发者和用户可以针对不同类型通知设置优先级和权限。苹果在 2021 年 iOS 15 中引入了“专注模式”和通知中断等级，进一步细化通知管理。2022 年安卓 13 将推送通知权限设为运行时权限，用户必须主动授权，导致推送通知的用户接受率明显下降。

作者强调，随着平台对通知控制的加强，发送者的控制权逐步减少，部分权力转移给用户，部分则由平台基于自身利益和用户体验的考虑进行不透明的算法干预。平台保护用户注意力资源，防止过度打扰，同时维护自身生态系统的健康。

文章还将推送通知的发展与电子邮件的演变进行对比。电子邮件早已经历了类似的中介化过程，从简单的传输工具转变为由服务商通过分类、过滤和机器学习模型管理的复杂系统。苹果的邮件隐私保护功能（Mail Privacy Protection）通过代理预取内容，掩盖用户行为，导致传统的邮件打开率指标失效。谷歌和雅虎等服务商也加强了邮件的身份验证和垃圾邮件防护，严格限制未经授权的邮件进入用户收件箱。

总体来看，推送通知正经历与电子邮件类似的转型，平台通过技术和策略不断介入，改变了品牌与用户之间的直接沟通方式。发送者需要适应这种变化，理解平台规则，调整策略，以更好地在受控环境中触达用户。

HN 热度 405 points | 评论 395 comments | 作者：iamacyborg | 1 day ago #

https://news.ycombinator.com/item?id=48299220

只有真正紧急或重要的通知才应该打扰用户，其他通知如促销、推荐等可以等用户主动查看。
大多数应用为了吸引注意力而频繁发送通知，用户更希望平台能设置更多阻碍来减少无用通知。
通知类别类似邮件订阅，用户即使取消订阅也可能被自动加入新的通知类别，体验不佳。
许多应用将重要的事务性通知和营销通知混合，用户无法单独选择接收事务性通知。
打车类应用的营销通知尤其烦人，用户只想收到行程相关的通知。
一些应用因无法细分通知类别，用户只能完全关闭推送，导致应用改用短信等更昂贵的通知方式。
希望操作系统或法律能强制区分事务性通知和营销通知，类似电子邮件的管理方式。
电子邮件虽然有相关法规要求退订链接，但仍存在用户未授权的营销邮件和钓鱼邮件问题。
一些应用未充分利用操作系统提供的功能，如 iOS 的实时活动，导致通知体验差。
用户倾向于关闭不必要的应用通知，尤其是社交和职业类应用，认为它们信息质量低。
应用自动更新常被认为带来恶意或不必要的变化，用户更倾向手动更新。
操作系统在管理通知类别时存在设计缺陷，如未发送通知的类别被隐藏，影响用户管理体验。

8. 展示 HN：Hallucinate——大规模多人在线舞会 (Show HN: Hallucinate – Massively Multiplayer Online Rave) #

https://hallucinate.site

该网页似乎是一个多人在线舞会（Massively Multiplayer Online Rave）互动平台，用户可以通过界面选择和定制虚拟形象的各项属性，包括发色、发型、肤色、上衣和下装。同时，用户可以选择不同的舞蹈动作进行展示。页面提供了键盘操作提示，如使用方向键控制动作和移动，空格键说话，Tab 键切换输入等，方便用户在虚拟环境中进行互动和交流。如果视频未自动播放，用户可以手动点击播放按钮。整体界面设计注重用户个性化定制和实时互动体验。

HN 热度 404 points | 评论 178 comments | 作者：stagas | 20 hours ago #

https://news.ycombinator.com/item?id=48304260

有人曾开发过类似的 VR DJ 混音项目，支持远程演出，但因个人健康问题暂停，期待他人继续开发。
远程 DJ 混音存在延迟和同步难题，现有“在线合奏”项目不适合电子音乐 DJ 混音。
远程多人实时混音受物理延迟限制，10 毫秒以内的延迟几乎无法长距离实现。
可能通过缓冲和只传输时间控制信息等技巧缓解延迟问题。
表演者之间可实现“准实时”协作，观众听到的音乐是同步的，延迟主要体现在观众和表演者的互动感受上。
希望项目以自由软件形式发布，便于他人继续开发。
需要了解 Unity 引擎和自有资源的授权情况，谨慎处理开源发布。
建议将项目发布到 GitHub 或 Radicle 等平台，使用 AI 工具辅助管理。
项目代码结构混乱，提交信息缺乏描述，存在“魔法数字”，可能影响求职效果。
公开批评应注意方式，避免打击开发者积极性。
动画播放器由 AI 生成，性能优化由 AI 完成，使用自定义着色器替代 Three.js 提升性能。
项目缺少 README 和截图，建议补充文档以提升项目质量。
远程 DJ 混音和在线俱乐部体验曾有类似项目，部分游戏提供更真实的俱乐部体验。
摄像机控制可能引起晕动症，建议添加准星帮助用户稳定视线。

9. 鉴于“严重”的数学缺陷，加州大学教师要求理工科恢复使用 SAT 考试 (Citing ‘severe’ math deficits, UC faculty demand a return to SAT tests for STEM) #

https://www.latimes.com/california/story/2026-05-27/uc-math-professors-demand-return-of-sat-for-stem-admissions

加州大学（UC）系统内超过 600 名教师，主要是伯克利分校的数学教授，联名呼吁恢复对理工科申请者的 SAT 或 ACT 标准化考试要求。他们指出，自六年前取消这些考试以来，学生的数学准备严重不足，教授们不得不在大学课程中重新教授中学数学内容。教师们强调，缺乏标准化测试使他们难以判断新生是否具备大学水平的数学能力，导致理工科教学面临巨大挑战。

这封公开信指出，2021 年至 2023 年间，伯克利至少 20% 的微积分新生在诊断考试中表现出数学基础不足，数学能力对于理工科学生的成功至关重要。信中呼吁从 2027 年秋季起恢复 SAT 或 ACT 考试要求，并让理工科教师参与制定入学数学能力标准。

加州大学于 2020 年决定逐步取消标准化考试，原因是这些考试被认为对有色人种和低收入学生存在偏见。然而，UC 学术参议院的标准化测试工作组曾指出，考试成绩实际上能提高弱势学生的录取率，并且比高中成绩更能预测大学表现。2020 年，加州法院的诉讼也迫使 UC 提前停止使用考试成绩。

目前，UC 领导层尚未正式支持教师们的建议，但表示正在关注学生数学准备不足的问题，并计划与 K-12 教育系统合作加强数学教学。UC 学术参议院主席表示，招生委员会正在制定未来的政策路线图，以应对学生的大学准备情况。

此外，其他顶尖大学如哈佛、斯坦福等已恢复标准化考试要求，而加州大学和加州州立大学则允许学生在录取后提交考试成绩用于课程分班。整体来看，UC 系统内部对是否恢复标准化考试存在分歧，但数学能力不足的问题引发了广泛关注。

HN 热度 383 points | 评论 578 comments | 作者：brandonb | 9 hours ago #

https://news.ycombinator.com/item?id=48309233

数字设备在课堂上虽然有助于可视化和互动，但往往成为分心的主要原因，传统的黑板和纸笔练习依然有效。
大学教师面临学生中存在的“特权感”问题，尤其是疫情后，部分学生的行为增加了教师的负担。
学生虚假残疾申诉问题严重，质疑这些申诉可能会被视为歧视。
教师应恢复更多权威，学生的失败不应成为教师的责任。
教师水平参差不齐，有些教师因个人偏见影响学生评价，特别是对有特殊需求的学生缺乏理解。
教师职业重要但缺乏足够的尊重、薪酬和培训，教育系统让人失望。
需要在识别和淘汰差教师与避免过度政策负担之间找到平衡，建议通过学生反馈系统改进教师质量管理。
政治因素使得记录和处理差教师变得困难，社区支持和管理层顾虑阻碍了教师的淘汰。
家庭环境对学生教育影响巨大，学校难以单独解决问题，尤其在多元化环境中教师权威难以落实。
学生的行为和申诉反映了教育体系和社会政治环境的复杂影响。
传统教育理念强调简朴和专注，现代教育中对物质和技术的依赖可能影响学习效果。

10. 我开始研究网状网络（Meshtastic、MeshCore 和 Reticulum） (I’m Getting into Mesh Networks (Meshtastic, MeshCore, and Reticulum)) #

https://www.jonaharagon.com/posts/im-getting-into-mesh-networks-meshtastic-meshcore-and-reticulum/

作者 Jonah Aragon 是一位网络爱好者，自 2024 年起运营自己的 ISP，拥有自治系统号和 IP 地址空间，但他发现即使如此，仍然依赖于中心化服务提供商，互联网的“地产”——IP 地址已经不再属于个人。作者指出，现代计算设备性能强大，但大公司并未充分利用这一点，用户仍需依赖大型服务商。

他介绍了网状网络（Mesh Network）的概念，即通过多个直接互联的节点传递数据，绕过中心化的数据中心，从而减少对大型服务商的依赖。虽然高带宽和低延迟需求仍需依赖光纤等传统基础设施，但许多应用如消息传递、社交网络和信息共享非常适合网状网络，尤其是在访问受限和审查严重的地区。

当前网状网络的创新主要集中在 LoRa 无线电技术上，LoRa 使用免许可的亚千兆赫频段，功耗低且覆盖范围广，适合构建去中心化的无线网状网络。这种网络能为社会带来韧性，支持偏远地区连接，并增强个人在线主权。

文章重点介绍了三个网状网络项目：

Meshtastic：作为消费者 LoRa 网状网络的先行者，Meshtastic 主要面向移动消息和设备追踪，适合小型私有群体使用，但其设计限制了大规模公共网状网络的发展，存在带宽和范围的权衡问题。
MeshCore：相比 Meshtastic，MeshCore 引入了路由系统，消息通过特定路径传递，减少了无线电传输，提升网络效率和可靠性。MeshCore 设备分为“伴侣”和“中继”两类，伴侣设备需靠近中继才能接入网络，且伴侣间不直接中继消息。MeshCore 支持最多 64 跳传输，远超 Meshtastic 的默认 3 跳限制，但其部分软件是专有且付费的，限制了其开源和去中心化的特性。

作者对 Meshtastic 和 MeshCore 的评价较为谨慎，认为它们在公共网状网络的长期发展中存在不足，暗示更优的解决方案是 Reticulum，但文章未详细展开。总体来看，作者对网状网络的未来持乐观态度，认为这是一种能增强网络自由和韧性的技术方向。

HN 热度 350 points | 评论 134 comments | 作者：Panda_ | 1 day ago #

https://news.ycombinator.com/item?id=48299638

Meshtastic 网络节点稀少且连接不稳定，难以形成有效的网络覆盖。
Meshtastic 适合个人财产内的分布式传感器网络或物联网通信，不适合人际通信或灾难场景。
Meshcore 免费且有开源客户端，但硬件和软件性能较弱，难以支持大规模或紧急情况下的使用。
Mesh 网络的扩展性和可靠性受限，节点过多会导致网络拥堵，节点过少则难以通信。
在某些地区（如捷克），Meshcore 已成功覆盖主要城市，实现长距离多跳通信。
具备太阳能供电的 Mesh 网络在断电情况下仍能工作，对灾难应对和紧急通信非常重要。
现有 Mesh 网络技术带宽和传输距离有限，不适合高密度城市区域的广泛部署。
Mesh 网络适合低密度或偏远地区使用，是互联网之外的去中心化通信备选方案。
网络的实际效果和规模高度依赖节点分布和地理位置。
对 Mesh 网络的负面评价存在，但其作为小规模社交网络和特定应用场景的工具仍有价值。

Hacker News 精彩评论及翻译 #

Can we have the day off? #

https://news.ycombinator.com/item?id=48302955

This article is kind of playful, but I think there’s a serious point here that’s not discussed enough. We’re being asked to usher in huge productivity gains by introducing AI to our workflows, but we’re not asking how does it help us? Not a lot of us stand to directly gain from our employers becoming more productive.

I know everybody is afraid of getting fired and replaced with AI or whatever right now. But we should be seriously asking in our next all hands meetings if 10x’ing our productivity can get us some days off. Or when our paycheck is going to be multiplied accordingly.

So far we’re all kind of being chumps about this, bragging on Linkedin about all of our new found AI productivity while accepting less job security and no increase in comp.

cattown

这篇文章有点调侃的意味，但我认为这里有一个严肃的问题没有被充分讨论。我们被要求通过将AI引入工作流程来实现巨大的生产力提升，但我们没有问这对我们有何帮助？我们中很少有人能直接从雇主生产力的提升中获益。

我知道现在大家都害怕被解雇，被AI取代什么的。但我们应该在下一次全员大会上认真讨论一下，生产力提升十倍是否能换来几天休假，或者什么时候我们的工资会相应增加。

到目前为止，我们都变成了傻瓜，在领英上炫耀我们新获得的AI生产力，同时却接受了更差的工作保障和没有任何薪酬增长。

What Apple and Google are doing to push notificati… #

https://news.ycombinator.com/item?id=48299932

If my phone interrupts me, it should either mean someone genuinely needs my attention right now or it should not be disrupting me at all. That’s my notification set up.

Apps allowed to receive push notifications

Phone, Messages, Whatsapp, Apple Health, [brand] bank.

That concludes the list.

There is no reason any other app needs to be able to instantly ping me. Most apps are not notifying you because something matters; they are notifying you because they want your attention.

I do not need notifications about streaks, sales, recommendations, delivery updates etc. All that can wait until I choose to open the app. It is not urgent enough to justify interrupting me.

lanerobertlane

如果我的手机打断我，要么说明有人真的需要我立即关注，要么就根本不应该打扰我。这就是我设置通知的原则。

允许接收推送通知的应用有：

电话、信息、Whatsapp、Apple Health、[品牌]银行。

这就是全部了。

没有理由让其他任何应用能够立刻打扰我。大多数应用通知你的原因不是因为事情很重要，而是因为它们想吸引你的注意。

我不需要关于连续签到、促销、推荐、配送更新等的通知。这些都可以等我自己选择打开应用时再看。它们不够紧急，不值得打断我。

What Apple and Google are doing to push notificati… #

https://news.ycombinator.com/item?id=48301533

Yeah, this entire article is pretty transparent that it’s from the sender perspective, and worried about platforms taking over “sender control”.

Who is he kidding? The vast majority of apps have absolutely proven they can’t be trusted to respect your attention. From my perspective, the more roadblocks the platforms put between unnecessary notifications and my phone, the better. And I don’t think Apple or Google are some sort of heroes here, but I do believe their incentives better align with mine than the marketing department of some app I was forced to download because I bought a ticket once or something like that.

hn_throwaway_99

是的，这整篇文章很明显是从发送方的角度出发，担心平台会夺走“发送方控制权”。

他在骗谁呢？绝大多数应用已经充分证明它们不值得信任，无法尊重你的注意力。在我看来，平台在不必要的通知和我的手机之间设置的障碍越多越好。我并不认为苹果或谷歌是什么英雄，但我确实相信它们的利益与我的更为一致，而不是那些我曾经因为买过票什么的被迫下载的应用的营销部门。

What Apple and Google are doing to push notificati… #

https://news.ycombinator.com/item?id=48300198

The biggest problem are apps that do both. For example, I want Uber to notify me when my driver has arrived, but I don’t want it to notify me when they have a special 10% discount on my next 5 rides. It’s not straightforward to block one but not the other.

pants2

最大的问题是那些既做一件事又做另一件事情的应用程序。例如，我希望Uber在我的司机到达时通知我，但我不希望它在我下五次乘车可享受特别10%折扣时通知我。屏蔽其中一个而不屏蔽另一个并不简单。

Claude Opus 4.8 #

https://news.ycombinator.com/item?id=48311998

A rambling comment:

I think this is the first time we’ve had a third minor version bump on a frontier Anthropic model. (I count the 0.5s as major here, because they’ve been issued non-sequentially and also corresponded to massive capability leaps, eg, Sonnet 3.5, Opus 4.5).

So now the Opus 4.5 family has successors 4.6, 4.7, and 4.8, each posting fairly modest claimed gains. My own experience w/ 4.6 and 4.7 are that I don’t firmly grasp any capabilities improvements over my memory of 4.5, but it’s all so fuzzy that it’s truly difficult to tell.

Maybe my own tastes are saturated now (it’s smarter than me?) and I’ll never again perceive model progress. Maybe the incrementalism is such that I’d notice immediately if my 4.7 workflows were redirected now to 4.5.

Difficult spot for the labs to be in because, if they have a stronger product, I’d prefer they release it and that I can use it.

But as this dynamic continues, the improvements are going to be less and less legible for end-users, who will complain about the churn-without-payoff, even when the payoff may actually be real.

NiloCK

一个冗长的评论：

我认为这是我们第一次在Anthropic的一个前沿模型上看到第三次小版本的升级。（我这里把0.5版本当作重大版本，因为它们是非连续发布的，而且对应着巨大的能力飞跃，比如Sonnet 3.5，Opus 4.5。）

所以现在Opus 4.5系列有了继任者4.6、4.7和4.8，每个都声称有比较有限的改进。我个人对4.6和4.7的使用体验是，感觉没有明显优于我的4.5记忆中的能力提升，但一切都很模糊，所以真的很难判断。

也许是我自己的口味已经饱和了（它比我聪明？），我可能再也感觉不到模型的进步了。也许这些增量改进是如此微小，以至于如果我现在把4.7的工作流切换回4.5，我会立刻注意到差异。

这对实验室来说是个尴尬的位置，因为如果他们有更强的产品，我更希望他们发布出来让我使用。

但随着这种动态持续下去，改进对最终用户来说会越来越难以理解，用户会抱怨频繁变动却没有明显回报，即使这些回报实际上可能是存在的。

Disagreement among frontier LLMs on real-world fac… #

https://news.ycombinator.com/item?id=48308177

Here’s the prompt they used:

Classify this claim as of <date>: “<atomic claim>”

Output exactly one label: True, Mostly True, Misleading, or False. No explanations, no qualifiers. The claims look like this: https://lenz.io/research/llm-disagreement/data.csv

I put that in Datasette Lite to make it easier to explore. Here’s an example of a disagreement: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwillison.net%2Fstatic%2Fcors-allow%2F2026%2Flenz-llm-disagreement.csv#/data/lenz-llm-disagreement/2

The claim was “All almonds are grown in the U.S. state of California.”. All but one model said False, Opus 4.7 said “misleading”.

I feel like having “mostly true” and “misleading in there weakens the story, especially given the “no explanations” rule in the prompt.

The almond thing is false, but I’d argue that “misleading” might be defensible if you were to accompany it with “the majority of almonds are grown in California, but not all of them”.

[ Update: OK, this almond thing was a bad example and I regret picking it. Read on for better ones. ]

The prompt lacks any kind of rubric to clarify how those terms should be applied.

As is so often the case with this kind of study, it’s an evaluation of the prompt and harness used by the study in addition to being an evaluation of the underlying models.

Update: here’s a better example: “Incomplete Egypt visa application forms are among the most common reasons Egyptian visa applications are rejected.”

The models were split between “true” and “mostly true”. Given the “among the most” language either of those answers means effectively the same thing.

Update 2: a much better example:

“On May 18, 2026, Ukraine carried out a drone attack on Moscow, Russia”

The only correct answer to that, if you don’t have a search tool, is “this claim is impossible for me to verify”. And that wasn’t an option.

The answers were split between true and false: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwillison.net%2Fstatic%2Fcors-allow%2F2026%2Flenz-llm-disagreement.csv#/data/lenz-llm-disagreement/76

simonw

他们使用的提示语是：

将该声明按照<日期>进行分类：“<原子声明>”

输出且仅输出一个标签：真实，基本真实，具有误导性，或者错误。
不允许解释，不允许加任何限定词。
声明示例见：https://lenz.io/research/llm-disagreement/data.csv

我把它放到了Datasette Lite里，方便探索。这里是一个分歧的例子：https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwillison.net%2Fstatic%2Fcors-allow%2F2026%2Flenz-llm-disagreement.csv#/data/lenz-llm-disagreement/2

该声明是“所有的杏仁都种植在美国加利福尼亚州。”除了一个模型外，所有模型都判定为错误，Opus 4.7则判定为“具有误导性”。

我觉得在提示语里有“基本真实”和“具有误导性”这两个选项，尤其在“不允许解释”规则下，会削弱整体结论的力度。

杏仁的例子是错误的，但我认为如果陪以“绝大多数杏仁生长在加州，但不是全部”的说明，“具有误导性”这一判定也能说得过去。

【更新：好吧，这杏仁的例子是个糟糕的选择，我后悔用了它。后面还有更好的例子。】

提示语缺乏任何标准来明确这几个标签如何应用。

这类研究常常这样，不仅是在评估模型本身，也是在评估研究中使用的提示语及工具。

更新：这里还有一个更好的例子：“未填写完整的埃及签证申请表是埃及签证申请被拒的最常见原因之一。”

模型结果在“真实”和“基本真实”之间分歧。鉴于“最常见之一”的表达，这两个答案意义上几乎无异。

更新2：一个更合适的例子：

“2026年5月18日，乌克兰对俄罗斯莫斯科发动了无人机攻击。”

如果没有检索工具，这个声明的唯一正确回答应该是“我无法验证该声明”。但这不是选项。

模型判定结果分布在真实和错误之间：https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwillison.net%2Fstatic%2Fcors-allow%2F2026%2Flenz-llm-disagreement.csv#/data/lenz-llm-disagreement/76

Can we have the day off? #

https://news.ycombinator.com/item?id=48302991

My dad was a stock broker in the late 1970s and remembers when most of trading was 100% manual and firms actually had “runners” who would take stock certificates back and forth between trading firms.

He has this great quote about when computers came out:

“We were told ‘computers will save you so much time on work tasks that you won’t even know what to do with your free time’. I spent the next 30 years working the same number of hours. "

alexpotato

我爸爸是上世纪70年代末的股票经纪人，他记得当时大部分交易都是完全手工进行的，公司里甚至有“跑腿员”专门来回传递股票证书。

他说过一句很有意思的话，关于电脑刚出现的时候：

“有人告诉我们‘电脑会帮你节省很多工作时间，以至于你都不知道空闲时间该怎么安排’。但我接下来的30年里工作时间却一直没变。”

Tech CEOs are apparently suffering from AI psychos… #

https://news.ycombinator.com/item?id=48297480

Yes this is why the higher level org functions are in love with AI. It’s very similar to the levers they had already, but is faster and more directly actionable. The downsides being that the AI loses important control levers like “self preservation” via paycheck, career advancement, staying out of jail, etc. that were mitigations on catastrophic outcomes.

It will delete your prod db faster and with a bigger smile than your most upset employee.

glaslong

是的，这就是为什么高层组织职能如此热衷于人工智能的原因。它与他们已有的杠杆非常相似，但速度更快，且更直接可操作。缺点是，人工智能失去了像“自我保护”这样的重要控制杠杆，比如靠工资、职业晋升、避免坐牢等，这些本来是防止灾难性后果的缓解措施。

它会比你最愤怒的员工更快、更开心地删除你的生产数据库。

Claude Opus 4.8 #

https://news.ycombinator.com/item?id=48312996

I prefer GRRM but then that would imply a habit of not actually getting a final result

knollimar

我更喜欢格雷厄姆·格林，但这样说的话就意味着我有拖延完成最终结果的习惯。

DuckDuckGo search saw 28% more visits after Google… #

https://news.ycombinator.com/item?id=48296986

My friends who previously had no interest in technology and never talked about it, are suddenly following tech news closely all because they hate AI being pushed so hard. One was just messaging me this morning about alternatives to Google search and maps. He ended up downloading DuckDuckGo.

If Google isn’t carefully they’re going to push people away from their golden goose.

al_borland

我那些以前对科技毫无兴趣，从不谈论科技的朋友们，现在突然开始紧跟科技新闻，全是因为他们讨厌人工智能被强行推销。今天早上其中一个还给我发信息，问有没有谷歌搜索和地图的替代品。结果他下载了DuckDuckGo。

如果谷歌不小心的话，他们会把人们从他们的摇钱树身边推开。

DuckDuckGo search saw 28% more visits after Google… #

https://news.ycombinator.com/item?id=48298423

The AI product rollouts in the last two years have been some of the most aggressive and user hostile product rollouts in my entire life.

All conventions and user centricity go out the window with AI feature launches lately. If you look at examples from the last week it’s stuff like posthogs opt-out training, Copilot training, or Google’s antigravity chat-app switch.

I’ve had the worst customer experiences of my life in the last few months.

My health insurance company decided calling support meant I consented to them saving my voice for model training. They said you can opt-out online, but that option didn’t exist in app or on their website. It was only after calling back and threatening to sue that they added an option to opt-out.

This is the daily experience now. Seemingly every company is opting you into selling your data, breaking your workflows, disabling features you use, and force installing AI integrations you have to fight to remove. And several companies are perfectly fine to reenable or reinstall them after removal.

It should be no surprise to anyone people are mad.

What real value AI does have has been poisoned by premature rollouts (training users it’s crap) and forcing it on people too aggressively.

data-ottawa

过去两年中，人工智能产品的发布是我这辈子见过的最激进、对用户极其不友好的产品发布。

最近的AI功能推出完全抛弃了所有惯例和以用户为中心的原则。如果你看看上周的例子，就是像posthogs的拒绝训练选项、Copilot训练，或者谷歌那种“反重力”聊天应用的强制切换。

过去几个月里，我经历了最糟糕的客户服务体验。

我的健康保险公司决定，打电话给客服就意味着我同意他们保存我的语音用于模型训练。他们说你可以在网上选择退出，但这个选项在他们的App和网站上都不存在。只有我回拨并威胁要起诉后，他们才增加了退出选项。

这就是现在的日常体验。几乎每家公司都默认帮你把数据卖出去，破坏你的工作流程，禁用你用过的功能，还强制安装你必须费劲去卸载的AI集成。而且有些公司甚至会在你卸载后自动重新启用或重新安装这些功能。

人们生气根本不意外。

AI真正能带来的价值已经被过早的上线破坏了（让用户觉得一团糟），而且它们的强迫推广也让人反感。

What Apple and Google are doing to push notificati… #

https://news.ycombinator.com/item?id=48299526

I feel like this article reads like the author is upset that Apple + Google prevent / control certain types of notifications (read: spam)

Cross-sell, upsell, education and discovery can work on push

Push notifications should only be for transactional notifications. I don’t want another inbox for junk.

nateguchi

我感觉这篇文章读起来像是作者因为苹果和谷歌阻止/控制某些类型的通知（也就是垃圾信息）而感到不满。

交叉销售、追加销售、教育和发现都可以通过推送实现

推送通知应该只用于交易类通知。我不想要另一个充满垃圾信息的收件箱。

Google employee charged with $1M Polymarket inside… #

https://news.ycombinator.com/item?id=48303787

Of course he should be punished but the best lesson here is for bettors. Those who wager on “prediction markets”: you are betting against people who have access to more information or can influence the outcome of the wager. Don’t waste your money.

wyldfire

当然他应该受到惩罚，但这里给赌徒的最佳教训是，对于那些在“预测市场”下注的人来说：你是在与那些拥有更多信息或能够影响赌局结果的人下注。别浪费你的钱。

AI sticker shock hits corporate America #

https://news.ycombinator.com/item?id=48307701

Corporate leaders are starting to question whether soaring AI spending is delivering meaningful returns.

We should start to question whether soaring CEO salary spending is delivering meaningful results.

Arodex

企业领导者开始质疑飙升的人工智能支出是否带来了实质性的回报。

我们也应该开始质疑飙升的CEO薪酬支出是否带来了有意义的成果。

YouTube to automatically label AI-generated videos #

https://news.ycombinator.com/item?id=48301182

Curious to see if this will apply to music. YouTube seems to be filled with AI music these days - just do a search for “focus music” or the like, and you’ll see creators pushing new 1-hr tracks every few days with no mention of where the music came from or the fact it is AI generated. People praising it in the comments seem none the wiser (or perhaps they’re also bots).

ellrob88

很好奇这是否会适用于音乐。如今YouTube上似乎充斥着AI音乐——只需搜索“专注音乐”或类似的关键词，你就会看到创作者每隔几天就发布新的1小时曲目，却没有提及音乐的来源或这是AI生成的事实。评论中称赞这些音乐的人似乎毫无察觉（或者他们可能也是机器人）。

I think Anthropic and OpenAI have found product-ma… #

https://news.ycombinator.com/item?id=48298952

I work for a tiny little company ($150MM annual rev with 9% net) and we are already looking at dropping $100k on hardware to run local models because, for us, they’re “good enough.”

Our estimated spend for AIaaS would exceed that cost in less than a year.

In a few years, there will be hardware capable of running frontier models good enough for most things at accessible prices for even tiny companies.

FuriouslyAdrift

我在一家规模很小的公司工作（年收入1.5亿美元，净利润9%），我们已经打算花10万美元购买硬件来运行本地模型，因为对我们来说，这些模型“足够好”了。

我们预计用于人工智能即服务（AIaaS）的支出在不到一年的时间里就会超过这笔硬件成本。

几年后，将会有能够运行前沿模型的硬件，性能足以满足大多数需求，并且价格亲民，即使是非常小的公司也能负担得起。