2024 04 03 HackerNews

2024-04-03 Hacker News Top Stories #

一句话摘要 #

  1. Timeline of the xz open source attack 文章详细记录了xz压缩库中后门植入的供应链攻击事件,揭示了攻击者如何通过社会工程学获得维护权限并在liblzma中植入隐蔽后门。
  2. But what is a GPT? Visual intro to Transformers [video] 视频介绍了GPT(Generative Pre-trained Transformer)及其工作原理,使用动画和实例解释了深度学习中的转换器概念。
  3. Low Cost Robot Arm GitHub项目提供了构建和控制成本约250美元的低成本机器人手臂的文件和指南,适合用于机器人学习。
  4. You won’t find a technical co-founder 文章讨论了为何难以在线找到技术合伙人,并建议降低期望,考虑支付开发人员费用以避免过高的机会成本。
  5. Wireproxy: WireGuard client that exposes itself as a HTTP/SOCKS5 proxy Wireproxy是一个WireGuard客户端,它作为Socks5代理或隧道工作,允许用户通过Wireguard连接访问特定站点。
  6. Python Cloudflare Workers Cloudflare宣布Python现在可以直接在Cloudflare Workers中运行,无需额外的构建步骤或外部工具链。
  7. Canoo spent double its annual revenue on the CEO’s private jet 报道指出电动汽车初创公司Canoo在CEO的私人飞机上花费了超过公司年收入的费用,引发了对其财务状况的关注。
  8. CityGaussian: Real-time high-quality large-scale scene rendering with Gaussians CityGaussian是一种新的大规模场景渲染技术,通过高斯基元和多级细节策略实现了实时高质量渲染。
  9. A16Z blogs are just glorified marketing 文章批评了风险投资公司a16z的博客文章,认为它们更多是为其投资组合公司进行宣传营销而非提供有价值的见解。
  10. Banning open weight models would be a disaster 文章反对美国商务部可能禁止开放权重人工智能模型的提议,认为开放模型对于创新、经济增长和国家安全至关重要。

Timeline of the xz open source attack #

https://research.swtch.com/xz-timeline

这篇文章讲述了关于名为“Jia Tan”的攻击者在两年多的时间里,通过在 xz 压缩库中植入后门的方式进行供应链攻击的事件。攻击者通过提交代码并最终获得提交权限和维护权限,成功在 liblzma 中植入了一个隐蔽的后门。这个后门监视着攻击者在 SSH 会话开始时发送的隐藏命令,使攻击者能够在目标系统上运行任意命令,实现了未经身份验证的有针对性的远程代码执行。

攻击于 2024 年 3 月 29 日公开披露,被认为是已知范围广泛使用的开源软件的第一个严重供应链攻击。这标志着开源供应链安全的一个重要时刻,无论是好是坏。

文章提供了攻击的详细时间线,涵盖了攻击者的社会工程方面,从 2021 年末开始。攻击者通过提交看似无害的补丁逐渐获得了对 xz 压缩库的控制权,并最终成为了维护者。攻击者在攻击过程中采取了多种策略,包括修改代码、发布恶意版本以及误导性操作,最终导致了后门的发现和处理。

文章还提到了攻击的检测和后续处理过程,包括各个 Linux 发行版对受影响软件的回滚和修复。最后,文章列出了进一步阅读的参考资料,以便深入了解这次 xz 开源软件攻击事件。


HN 评论 381 comments | 作者:todsacerdoti | 19 hours ago #

https://news.ycombinator.com/item?id=39902241

  • 评论者认为应停止容忍系统中晦涩难懂的代码,特别是指出 M4 应该被淘汰;
  • 建议完全消除图灵完备语言和任意 I/O 访问,99.9% 的项目可以使用简单的声明式规则集构建;
  • 讨论了 Rust 生态系统中的构建时间脚本和过程宏的移动;
  • 提出应该对构建过程进行沙箱化,以防止代码注入;
  • 讨论了可重现构建的重要性,以及如何通过稳定的哈希值提供更多的安全性。

But what is a GPT? Visual intro to Transformers [video] #

https://www.youtube.com/watch?v=wjZofJX0v4M

这个视频是关于转换器(Transformers)及其先决条件的介绍。视频中提到了深度学习的第 5 章,展示了 GPT(Generative Pre-trained Transformer)是什么。视频中还提到了以下内容:

  • 提供给赞助者的下一章节的早期预览链接。
  • 感谢支持者的特别致谢链接。
  • 可以贡献字幕编辑的链接。
  • 其他推荐的关于这个主题的资源链接。
  • 时间戳,包括内容预测、样本、重复,转换器内部结构,章节布局,深度学习的前提,词嵌入,超出词的嵌入,去嵌入,带有温度的 Softmax,以及接下来的内容。

视频中使用了自定义 Python 库 manim 制作了大部分动画。视频中提到了一些相关的 GitHub 链接和音乐来源。此外,视频结尾提到了 3blue1brown 是一个关于数学动画的频道,鼓励观众订阅或关注他们的其他平台以获取更多相关内容。


HN 评论 48 comments | 作者:huhhuh | 1 day ago #

https://news.ycombinator.com/item?id=39898221

  • 有评论认为在生成模型中,beam search 并不适用。
  • 另一观点指出温度和 top_k 是为了应对人类文本的随机性。
  • 有评论讨论了 softmax 温度设置对输出概率的影响。
  • 有人提到模型可能会选择次优解,但仍然正确。
  • 讨论了增加温度可能导致模型输出不同于最可能的标记。
  • 有人认为人类语言的模糊性有助于模型选择正确答案。
  • 讨论了 beam search 在大型模型中的计算开销。
  • 有人分享了关于 beam search 和生成模型的文章链接。

Low Cost Robot Arm #

https://github.com/AlexanderKoch-Koch/low_cost_robot

这个 GitHub 仓库包含了构建和控制成本约为 250 美元的低成本机器人手臂所需的文件。您还可以构建第二个机器人手臂(领导手臂)来控制另一个手臂(跟随手臂)。

领导手臂的设计灵感来自于 GELLO 项目,但更简单易建造。这样的机器人手臂非常适合用于机器人学习。两个这样的手臂也能够折叠衣服。该机器人手臂使用 Dynamixel XL430 和 Dynamixel XL330 舵机。XL430 舵机几乎是 XL330 舵机的两倍强大,用于前两个关节。XL330 舵机较弱,但每个重量仅为 18 克,使得手臂非常轻便和快速。

该机器人手臂可以通过 Dynamixel SDK 进行控制。领导手臂和跟随手臂的所需材料、组装步骤以及其他相关信息都在该仓库中有详细说明。


HN 评论 218 comments | 作者:pbrowne011 | 19 hours ago #

https://news.ycombinator.com/item?id=39902205

评论中的观点归纳如下:

    1. 工业机器人的刚性和运动控制挑战巨大,需要高昂的成本;
    1. 使用步进电机和低回程的齿轮箱可以实现较好的重复性;
    1. 软件可能解决硬件中的一些问题,如通过软件追踪工具位置偏差;
    1. PID 控制器是解决问题的常见方法,但仍需一定程度的传感器精度;
    1. 使用伺服 + 周向齿轮是常见选择,但消除间隙很困难;
    1. 机械臂设计需要考虑关节之间的刚性、负载、电机位置、传动等多个因素;
    1. 感应器和软件在机械臂设计中至关重要;
    1. 机器人臂的成本主要受执行器价格影响,价格迅速上升;
    1. 机器人臂的控制和路径规划是主要挑战之一;
    1. 6 自由度机械臂适用于灵活性需求高的场景。

You won’t find a technical co-founder #

https://www.breakneck.dev/blog/no-tech-cofounder

这篇文章讨论了为什么你在网上很难找到技术合伙人。

作者指出,很多创始人在寻找技术合伙人时往往设定了过高的标准,期望对方具备高水平的技术能力和领导能力,对创业理念充满热情,并且愿意免费工作。然而,这样的人很难找到,而且他们通常已经有工作,不会轻易冒险投入时间和精力。

文章还提到了寻找技术合伙人的机会成本、风险以及为何有时候支付开发人员可能更为明智。此外,文章还掐掉了一些关于技术合伙人的误解,包括对激情的过分依赖以及对技术合伙人忠诚度的误解。

最后,作者建议创始人应该降低对技术合伙人的要求,意识到在项目没有盈利前,他们实际上是在请求他人的帮助,应该考虑支付和不支付开发人员的成本、机会成本和风险。


HN 评论 291 comments | 作者:vyrotek | 18 hours ago #

https://news.ycombinator.com/item?id=39902372

在这篇帖子中,关于创始人寻找技术联合创始人的评论观点主要包括:

    1. 创始人通常认为自己是创意人,但却没有意识到他们的想法并不那么独特,并且过于强调想法而非执行能力;
    1. 有人引用史蒂夫·乔布斯的话指出,伟大的想法只是工作的 10%,真正的魔力在于执行和细节处理;
    1. 有评论指出苹果产品虽然受欢迎,但也存在用户体验问题,认为 90% 的人购买苹果产品是出于虚荣心等原因;
    1. 讨论了产品经理和项目经理之间的区别,以及产品经理对产品开发的重要性;
    1. 对史蒂夫·乔布斯的管理方式和产品理念进行了讨论,认为他的成功不仅仅是因为他的个人品质,还有他聘请了优秀的人才。

Wireproxy: WireGuard client that exposes itself as a HTTP/SOCKS5 proxy #

https://github.com/pufferffish/wireproxy

这个项目是一个名为 Wireproxy 的 Wireguard 客户端,它将自身暴露为一个 Socks5 代理或隧道。Wireproxy 是一个完全用户空间的应用程序,连接到一个 Wireguard 对等体,并在机器上暴露一个 Socks5/HTTP 代理或隧道。

这对于需要通过 Wireguard 对等体连接到某些站点,但又不想为各种原因设置新的网络接口的情况非常有用。用户可以使用 Wireproxy 连接到另一个国家的 Wireguard 服务器,并配置浏览器使用 Wireproxy 访问特定站点。Wireproxy 与我的网络接口完全隔离,无需 root 权限配置任何内容。

项目还提供了一些功能,如 TCP 静态路由、SOCKS5/HTTP 代理等。未来计划包括 UDP 支持和 UDP 静态路由。使用时可以通过命令行参数指定配置文件路径等。详细的使用说明和示例配置文件也提供在项目中。


HN 评论 56 comments | 作者:JNRowe | 24 hours ago #

https://news.ycombinator.com/item?id=39900329

这篇帖子中的评论观点主要包括:

使用 Wireproxy 工具进行有选择性地代理 Firefox 标签至支持 Wireguard 的家用路由器;

使用 Sidebery 和容器代理插件进行容器特定代理配置;

使用 Mullvad 为 Firefox 容器分配不同的出口节点;

讨论其他类似工具如 soks、onetun、pproxy 等;

探讨多协议代理客户端功能,如 sing-box、clash-meta、xray 等;

讨论应用级 VPN 与 Go 的兼容性;

比较 SSH 的 SOCKS 代理与 Wireguard 的性能;

以及对 Wireproxy 在不同规模和安全性方面的应用进行评估。


Python Cloudflare Workers #

https://blog.cloudflare.com/python-workers

这篇博文介绍了 Cloudflare 在 Python 中引入 Cloudflare Workers 的新功能,目前处于公开测试阶段。与以往支持 JavaScript 以外语言的方式不同,Cloudflare 直接将 Python 实现集成到了 workerd 中,这意味着 Python Workers 可以导入一系列流行的 Python 包,如 FastAPI、Langchain、Numpy 等,无需额外的构建步骤或外部工具链。

文章详细介绍了 Python Worker 的生命周期,动态链接以及内存快照等方面。通过 Pyodide 在 workerd 中的集成,Python Workers 可以在 WebAssembly 中执行 Python 代码,同时提供了与 JavaScript 的外部函数接口(FFI),使得 Python Workers 能够直接调用 JavaScript API。

此外,文章还探讨了如何通过内存快照来加快 Python Worker 的冷启动速度,以及如何未来保证与 Pyodide 版本和兼容性日期的兼容性。

最后,文章还提到了 Cloudflare 计划为 Python Workers 提供更 Python 化的绑定 API,使得开发者可以更方便地使用 Cloudflare 资源。


HN 评论 80 comments | 作者:jasoncartwright | 9 hours ago #

https://news.ycombinator.com/item?id=39905441

Cloudflare 通过使用 Pyodide 在 Cloudflare Workers 中启用 Python,但存在一些缺点,如只能使用一个 Python/Pyodide 版本、包解析有限制、与 JS/v8 架构相关等。

有人认为 V8 对边缘环境不够优化,但 Cloudflare 团队表示 V8 在边缘环境中表现良好。

另外,有关于 Python 版本控制、V8 快照、性能优化等的讨论。

Cloudflare Workers 被认为是针对现有 Cloudflare 客户的增量优化,但 Cloudflare 希望成为通用的应用托管平台。

对于 Cloudflare 的营销策略、服务比较、性能等方面也有讨论。


Canoo spent double its annual revenue on the CEO’s private jet #

https://techcrunch.com/2024/04/01/canoo-spent-double-its-annual-revenue-on-the-ceos-private-jet-in-2023/

根据 TechCrunch 的报道,Canoo 在 2023 年的财报中透露了一则关于 CEO Tony Aquila 私人飞机使用的信息,这只是众多支出之一,突显了这家电动汽车初创公司支出和收入之间的差距。Canoo 在周一发布了 2023 年第四季度和全年的财报,显示该公司在试图扩大商用电动车辆的量产规模并避免像最近破产的 Arrival 等其他电动汽车初创公司一样的命运时,正在燃烧现金。

财务申报文件再次包含了一个“持续经营”警告,这一警告自 2022 年以来一直存在,同时在支出和收入方面也取得了一些进展。公司 2023 年的收入为 886,000 美元,而 2022 年为零美元,因为公司向 NASA 和俄克拉荷马州等实体交付了 22 辆车辆。它确实将其运营亏损减少了近一半,从 2022 年的 5.06 亿美元降至 2023 年的 2.67 亿美元。然而,收入与亏损之间的差距仍然相当大:公司报告 2023 年总净亏损为 3.02.6 亿美元。

然而,只需看看 Canoo 为租用 CEO 的私人飞机支付的费用,就可以看出这些“胜利”的背后。根据 2020 年 11 月达成的协议,Canoo 向 CEO 拥有的 Aquila Family Ventures 支付飞机使用费。2023 年,Canoo 在这项补偿上花费了 170 万美元,是其收入的两倍。Canoo 在 2022 年向 Aquila Family Ventures 支付了 130 万美元,在 2021 年支付了 180 万美元以使用该飞机。

此外,Canoo 还在 2023 年向 Aquila Family Ventures 支付了 170 万美元,在 2022 年支付了 110 万美元,在 2021 年支付了 50 万美元,用于在其得克萨斯州贾斯汀市公司办公室设施提供的共享服务。如果 Canoo 能够达到 2024 年 50 到 100 百万美元的收入预测,这些支出可能只是小钱。我们已经要求 Canoo 发表评论,如果收到回复,将会更新此帖。


HN 评论 220 comments | 作者:hampelm | 7 hours ago #

https://news.ycombinator.com/item?id=39906924

这篇帖子中的评论观点可归为以下几类:

    1. CEO 私人飞机费用问题,公司亏损情况引发担忧;
    1. CEO 私人飞机费用在大公司或小公司中的不同看法;
    1. CEO 通过购买公司股票来抵消飞行费用,涉及税务问题;
    1. 公司支付私人飞机费用是否符合规定,是否应该由股东决定;
    1. 商业出行费用是否可报销,个人使用费用如何处理;
    1. EV 公司的发展现状和市场前景;
    1. CEO 形象受损对公司股价的影响;
    1. EV 公司为何不使用传统车企平台等。

CityGaussian: Real-time high-quality large-scale scene rendering with Gaussians #

https://dekuliutesla.github.io/citygs/

该网站是关于一项名为"CityGaussian"的研究,旨在实现实时高质量大规模场景渲染。

该研究提出了一种名为 CityGS 的方法,通过创新的分治训练方法和多级细节策略,实现了高效的大规模场景训练和渲染。通过全局场景先验和自适应训练数据选择,实现了高效的训练和无缝融合。基于融合的高斯基元,通过压缩生成不同细节级别,并通过提出的分块细节级别选择和聚合策略,在不同尺度下实现快速渲染。大量实验结果表明,该方法达到了最先进的渲染质量,实现了大规模场景的一致实时渲染。

与其他方法相比,CityGS 在没有多级细节技术的情况下,MatrixCity 由 2500 万个高斯表示,渲染速度为 18 FPS;而使用多级细节技术后,CityGS 在不同尺度下可以实时渲染,平均速度为 36 FPS。该研究还提供了与其他相关研究的比较,展示了其优势。


HN 评论 75 comments | 作者:smusamashah | 6 hours ago #

https://news.ycombinator.com/item?id=39907876

评论中的观点归纳如下:

    1. 对 3D 高斯分布渲染技术的实时性和效果表示赞赏;
    1. 讨论了从照片中提取数据并转换成高斯 3D 视图的技术;
    1. 对技术的实时性和性能提出疑问,认为需要更多优化和适应不同设备;
    1. 讨论了 3D 高斯分布渲染技术在游戏引擎和其他领域的应用前景;
    1. 对技术的实时性和效果提出质疑,认为传统几何生成可能更实用;
    1. 讨论了 3D 高斯分布渲染技术在不同材质和细节方面的优势和局限性;
    1. 对技术的存储效率和数据压缩提出疑问和讨论。

A16Z blogs are just glorified marketing #

https://frankzliu.com/blog/a16z-blogs-are-just-glorified-marketing

这篇文章对 a16z(Andreessen Horowitz)的博客文章进行了审视。文章指出 a16z 的博客文章实际上是为其投资组合公司进行宣传营销。作者提到了一篇 a16z 的博客文章,标题为“Emerging Architectures for LLM Applications”,并总结了其中的内容:

新兴的 LLM 堆栈主要围绕数据编排工具(如 Langchain 和 Llamaindex)展开,数据管道、嵌入模型、向量数据库和查询是这些编排工具的主要输入。 这个堆栈基于上下文学习,使用现成的 LLM,并通过提示和在上下文数据上进行条件控制来控制它们的行为。 对 LLM 进行提示的策略变得越来越复杂,对于闭源和开源的 LLM 来说,这是一个核心的区分因素。其中,GPT-3.5 和 GPT-4 的策略最常见,因为 OpenAI 目前是领先者。 AI 代理 - 可以推理和规划的程序运行时 - 同时激发了开发人员和研究人员的兴趣,但目前尚未完全实现。大多数代理框架目前仍处于概念验证阶段。

文章还提到了对 a16z 的一些批评,指出 a16z 在其博客中可能存在偏袒投资组合公司的行为,例如在数据连接器和加密领域的例子。最后,文章列举了一些其他 LLM/GenAI 基础设施景观,并对 a16z 的做法提出了一些批评,认为其博客文章更像是为投资组合公司的营销而非客观分享知识。


HN 评论 128 comments | 作者:herecomethefuzz | 22 hours ago #

https://news.ycombinator.com/item?id=39901289

这篇帖子中的评论观点主要包括:

科技行业新闻大多由风险投资公司资助,存在明显的商业推广;

创业公司的报道往往受到腐败的影响;

原生广告比横幅广告更具吸引力,但可能存在披露要求的问题;

开发者大会中许多演讲由产品倡导者主导,暗示广告性质;

一些评论者认为这种情况在技术行业以外也存在;

一些人对风险投资公司的观点持怀疑态度,认为其投资方向与未来愿景不符;

还有关于 Web3 的讨论和对有效利他主义运动的批评。


Banning open weight models would be a disaster #

https://rbren.substack.com/p/banning-open-weight-models-would

这篇文章讨论了美国商务部根据拜登总统的行政命令,就“开放权重人工智能模型”向公众征求意见。文章指出,考虑阻止这些模型的访问将是一个严重错误。当前大多数最先进的人工智能都是封闭源代码的,科学家、工程师和公众无法了解这些算法的内部运作。然而,一些竞争对手采取更加开放的方式,允许公众在自己的硬件上运行最先进的模型,超出任何监督或控制的范围。

文章指出,封闭模型允许集中控制,而开放系统则摆脱了监督,任何控制都可以轻松绕过。政府担心当先进人工智能广泛可用时会发生什么。文章强调,开放模型使公众有机会抵抗,允许安全研究人员、学术界、非政府组织和监管机构实验最先进的技术,找到攻击模式并构建技术来检测和防止滥用。

文章还指出,禁止开放模型将对创新和经济增长构成巨大障碍,民主化了对人工智能技术的访问,使得使用封闭模型在财务上不可行的用例变得可行。开放模型使学术界和初创企业能够构建和分发新应用程序,开放模型可以轻松集成到现有的工作流程和应用程序中。

总的来说,文章认为,开放模型不仅有助于创新和经济增长,还有助于公众对抗人工智能的滥用,促进技术的透明性和公平性,以及增强国家安全。文章强调,封闭模型可能会限制创新,加剧不平等,并使美国在全球经济中失去竞争力。


HN 评论 162 comments | 作者:rbren | 20 hours ago #

https://news.ycombinator.com/item?id=39901978

评论中的观点可以归纳为:

    1. 开放权重模型类似于加密战争,应该保持开放和教育,而不是限制;
    1. AI 模型权重的共享应受到原始作品许可的保护,应该被视为言论自由;
    1. AI 技术可能对社会造成负面影响,需要监管和规范;
    1. 开放权重模型可能会带来隐私和安全问题,需要平衡开放与监管。