付费内容解禁特斯拉FSD V12 端到端自动驾驶解析

Рет қаралды 26,802

Jackson在美国

Ай бұрын

付费内容解禁端到端自动驾驶解析
为什么自动驾驶不需要雷达？
普通人能看懂的AI技术原理不管是FSD V12还是ChatGPT，看完让你都弄懂！！

Пікірлер: 176

@lee5403 Ай бұрын

兄弟，你真的很适合当trainer. 之前无意间看到你一期节目就开始关注你，到现在这期感觉你水平又提高了好多。我看过很多讲解端到端技术的博主，但你讲的真的深入浅出，一听就是内行，让人对端到端技术充满信心，说实话，我听得有点小激动.我就是单纯喜欢特斯拉的技术和愿景，作为一个投资美股多年，去年最高盈利100%，结果被特斯拉一只股票拉低到只剩不到30%，但还是没卖一股的小散来说，你应该能明白我为啥看到你的视频会有点激动吧，哈哈. 能把复杂的东西讲得这么简单，真是难得的能力。加油，继续发布好的视频！

@jingguojiang6975 Ай бұрын

确实，这位博主也是我见过讲FSD中讲得最好的❤

@dada373678229 28 күн бұрын

他讲的其实很多并不准确。。

@yanfang999 11 күн бұрын

他这个视频只要不能证明视觉>视觉+雷达就是白扯，如果要考虑成本，不用自动驾驶成本更低。

@RQcube Ай бұрын

這個視頻很適合丟給還不太懂AI有強大的人看，感謝分享

@Deathpaldin Ай бұрын

非常清晰易懂！持续关注。

@marschuang1977 Ай бұрын

講得太棒了，清楚易懂👍

@marcoyfkwok Ай бұрын

感謝Jackson, 長知識了我看到這些Model X影片，就知道是Jackson的頻道了

@shung007 21 күн бұрын

感謝分享, 解說得很好!

@linportfolio Күн бұрын

讲得很好啊！

@user-vd2rj3ct2z Ай бұрын

谢谢你的科普！

@Tom-dw6us 2 күн бұрын

讲的好，通俗易懂

@amazing8400 Ай бұрын

讲得很清楚

@ven9061 2 сағат бұрын

厉害厉害，追加特斯拉感谢博主

@miemieyangyang Ай бұрын

继续按照这个模式加油💪

@transmit010189 Ай бұрын

講得相當好🎉

@kobedirk Ай бұрын

其實模塊化有個淺顯易懂的例子，要是你開車的時候是閉上眼睛聽副駕告訴你前方有什麼東西來進行決策的話，我看你還能多好的開這趟車，不車禍也難。

@horngbill6010 Ай бұрын

想像用 fsf v11 开车多可怕

@waffenss1234567 Ай бұрын

所以v11不適合無人必須人類全時用眼睛雙手隨時介入

@horngbill6010 Ай бұрын

@@waffenss1234567 v12 系統有 bug，需要專注前方路況，免得反應不及。

@ruoxuan666 7 күн бұрын

讲的太好了！！

@freewillftw Ай бұрын

学习了感谢

@paulpaul7777 10 күн бұрын

simple and powerful explanation :)

@qianzhao7869 4 күн бұрын

讲的太好太明白了。牛

@jesse9192tw 6 күн бұрын

說得真好

@yicksunleung-we9eo Ай бұрын

專業

@anonymous_somebody Ай бұрын

感谢 Jackson 的分享，受益匪浅！我有一个问题，是关于验证的。假设当前版本在某一个特定的路况下会产生接管，我理解 Tesla 应该会拿这些接管的视频去做训练，对于端到端来说，该怎么在训练后去验证，确保 FSD 下一次遇到这种情况能做出正确的决策呢？

@edmunds4635 Ай бұрын

感谢您的分享，我在大学学到神经网路的就是这个原理，但是您可以从工程师的角度分享这背后实现的细则，我会推给任何想要了解fsd的人

@TSLA99T Ай бұрын

路政的那个例子讲的非常好

@JacksonSHR Ай бұрын

感谢大佬

@sym660817 Ай бұрын

抓到野生大佬

@yw6648 Ай бұрын

今天fsd 12.3.6在我车上犯了三个很傻的错误一次是在停车场corner高速前进丝毫没有看到转角并且减速转弯的意思另一次是在空无一人的停车场转角停了十秒不知道该往哪里走，第三个是map data明明说要出停车场左拐但是试了三次他都偏偏右拐。这让我感觉fsd v12根本没有推理能力完全是靠模仿人类驾驶也就是elon说的reason by analogy而不是fist principle，一旦遇到没遇到的情况他就不会了，而不是通过以往的训练数据去推理，这么简单的没有人的停车场都可以卡住🤣稍微有点推理能力就该知道往哪走啊

@yw6648 Ай бұрын

V12还是reasoning by analogy，他是总结规律而不是真正的从first principle去理解为什么要这么开，fsd必须要融入LLM来补充逻辑推理这一块短板

@WarrenQiu Ай бұрын

整个视频里提到，摄像头的输入信息细节是最多，也是非常好，完全从源头，说出了传感器融合方案的缺点，看似做加法，其实是巨量的信息丢失

@nz8666 9 күн бұрын

我已经跟我闺女说好了，等她过几年学了驾照，开始开车上学的时候，我就给她买个FSD的车，再怎么样也肯定比她开车靠谱的多😂

@user-rl1yk8bj2j 14 күн бұрын

神经网络和雷达不矛盾。雷达可以补充视觉方案看不到的信息，神经网络的一切优势都可以在雷达信息上应用。特斯拉不用雷达我认为就是为了省钱，马斯克在这个点上有些偏执了。但考虑到做出这个决策时激光雷达确实又大又贵，也可以理解。

@TpBrass0 7 күн бұрын

那為啥不再多裝一組camera就好😂 360 lidar必要性已經被tesla證明在自駕認為中可以捨棄了 lidar只剩可以寫死的corner case有點用但那種也不需要lidar了浪費錢一般雷達就好喔對了lidar和雷達是不同東西

@jianjianhhh 3 күн бұрын

天生视频UP主，天赋！

@fsdeveryday Ай бұрын

兄弟说得都没错, 理论上更正确，但我今天在过一个有故障的路口时，有警察在指挥，车很多，我也不是第一辆车，在让我这个方向的车流开始移动时，并且我前面的车和我都是要直行通过路口，但我的车却停下了，应该是把警察当成行人了😅

@jiaweihu3194 11 күн бұрын

12:50这里老司机的举例感觉不太恰当，再有经验的司机也有少数没遇见的情况，比如上个月的夜间高速坍塌，死亡几十人。你就是开了一百年的车，该看不见还是看不见，而激光雷达就是为了应对这种极端场景。后续拿雷达比喻成新司机，更是不妥。在现阶段自动驾驶还不成熟阶段，鼓吹纯视觉方案，有种特斯拉精神股东即视感。

@kevinlai4542 10 күн бұрын

你的意思是激光雷达能预测高速坍塌🤔 ？

@jiaweihu3194 9 күн бұрын

@@kevinlai4542 激光雷达，低照度环境下几十米外的深坑还是看得见的。不知道你怎么理解成预测高速坍塌。

@terry1708 2 күн бұрын

任何理解基本物理的人都知道，无论是视觉的摄像头，还是激光雷达或者毫米波雷达，都会有自身优势和缺陷。这些都是自动驾驶的眼睛。而AI算法和算力是自动驾驶的大脑。眼睛不好，大脑再强也有极限。同样高水平的大脑，眼睛强比眼睛弱好，在特别情况下更是如此。举个例子，小雨天对面开了远光灯，对摄像头是致命的。大暴雨沙尘暴对激光雷达和摄像头都要命，但是4D毫米波雷达就还好。所以为特斯拉辩护的人，我想说，你可能只是入教了，迷信了。

@hankdonald7812 7 күн бұрын

端到端指的是输入是原始数据，输出是最后的结果。在整个学习过程中，不进行人为的子问题划分，完全交给深度学习模型直接学习从原始输入到期望输出的映射。而非端到端呢，就是输入不是直接的原始数据，而是在原始数据中提取的特征(如feature)，这一点在图像问题上尤为突出。因为图像像素数太多，数据维度高，会产生维度灾难，所以原来一个思路是手工提取图像的一些关键特征。

@ludovic2003 3 күн бұрын

可以解释一下传统的cv跟控制系统分离的架构。这个历史讲清楚了就比较好理解了

@yanfang999 11 күн бұрын

他这个视频只要不能证明视觉>视觉+雷达就是白扯，如果要考虑成本，不用自动驾驶成本更低。不出事故的老司机可能一年没开几次车，或者路况一直很好等等，仅此而已。其实说再多都是扯，美国现在开启自动驾驶的人有多少，比例多大？事故率怎么样？扯技术有啥用？

@TpBrass0 7 күн бұрын

英文很難我知道但是都有chatgpt了丟進去翻譯沒很難😂😂

@user-uc3br4xn8e 6 күн бұрын

如博主这么说，这个AI司机就永远毕业不了，会永远在学习过程中，且永远没有毕业的那一天，也就是只能试用，却不能得到应用😂

@joeylee9679 29 күн бұрын

希望看更深入讲解

@chaoding7940 12 күн бұрын

你好，请问是不是可以理解为传统自动驾驶用的是if else（把所有情况遍历过），但是特斯拉的是使用无监督学习但是遇到情况足够多了自动增加label

@felixwu2024 3 күн бұрын

其實真正開車還有開車經驗以外的經驗和技術，就是AI學所有老司機以外的一些開車的各種情況，舉個例子：有時候，開車的時候，再某些情況為了要解決一些問題不得不做出常理以外的操作，就像AI會因為路上有人搶劫或為了要幫忙什麼事情把車在安全範圍內擋住某個路面的地方？AI會因為路上有些騎電動車的不文明行為突然對他警示甚至不讓？有些地區路面路況差甚至有尖銳的不易察覺的邊緣，正常行駛會對車不好,令可繞路，有的地方地下污水橫流，那，，，“味道”簡直無法形容，快速經過怎麼洗車洗的乾淨？人類就可以聞到，而下雨時，AI能判斷是路面雨水橫流？還有，有時候路上一些不文明司機，怎麼去應付？怎麼判斷對方不是故意還是看手機或者真的不是故意的？能通過時，從側窗看一下裡面司機表情和乘客知道大致原因嗎？突然刮風是否不必要經過一些地方還有太多太多了，不便敘述，這些都和開車技術和經驗無關

@RQcube Ай бұрын

自動駕駛需要的是預判不是精準，預判的安全是遠超精準的，預判提前減速就可以避免事故發生，而不是去考驗激光雷達的精準配合硬體的煞車性能來避免事故。

@felixwu2024 3 күн бұрын

還有一個,神經網絡Ai系統會注意到車內部什麼的情況，並非車身故障系統可以檢查出來的問題而停車查看？比如說貌似車後備箱或底盤有什麼東西卡住發出聲音，車再不小心沾了什麼在晃動等等，細鐵絲,,, 積水雖然不深但是有一攤，但是前面有個高點的減速帶，旁邊公交站有人，趕時間開快了就直接把水濺到人看到某些特殊車輛是否要繞過：能識別豪車？能識別前面園區保安臨時指揮？還有路過一些農村鄉下，即使兩邊有人站著因為某種風俗，最好也不完經過，要倒車先從別的地方走等等

@twbbsnet Ай бұрын

突出的就是一個大力出奇蹟哈哈哈

@hoisea 20 күн бұрын

現在的華為ADS 2.0其實是什麼架構? 將來的ADS 3.0又是什麼架構呢?

@jinguo1225 Ай бұрын

👍👍👍

@williamliu2160 13 күн бұрын

不管是v11还是v12，我从来不觉得特斯拉在技术层面和实际效果上做到比人类司机开得好会有问题，但是问题在于端到端模型的不可解释性如何说服法律和监管机构😂

@wayc2k Ай бұрын

💯

@EliminateCCP Ай бұрын

原来看你的视频觉得特斯拉的fsd12.3版没问题，结果自己试玩发现没有红绿灯的路口，或者有红绿灯但车多，明显发现驾驶有问题，而且突然减速问题我都碰见好几次了

@michaeln1785 Ай бұрын

感谢分享硬核知识，一个小问题，就是已现有的HW3的摄像头分辨率来说，能否真正实现对前方施工人员手势的判断，或者旁边线道车内人手势的判断呢？因为HW4 的摄像头分辨率是有大幅提高的，HW3分辨率连no turn on red的标识都未必看的清楚，如果是个很大的路口的话。 HW3也能实现最终的自动驾驶吗？

@horngbill6010 Ай бұрын

复杂场景只要算力够即可，距离远近有关，所以不要买hw3.0 车子

@dongpan6728 Ай бұрын

HW3应该可以实现自动驾驶，因为运行模型并不需要太高的清晰度。就如同很多近视的人一样可以开车无事故。

@user-ci4ok3oh4l Ай бұрын

兄弟，请问怎么评价23款S/X谜一般的前视雷达存在的目的和作用，或者曾经/未来的作用？

@JacksonSHR Ай бұрын

配合主动安全监控 FSD 行为

@stevenlee-hl3ny Ай бұрын

自動駕駛肯定要使用A I發展的途徑很多，不要自以為是。

@chriszhiranyan6141 3 күн бұрын

长尾问题如何解决

@developer_to_icu 12 күн бұрын

能不能出一期晚上开车光线不好的视频，全是白天的

@zhehuang7130 Ай бұрын

你视频里说毫米波雷达没法穿墙是不客观的，信噪比会下降但的确是可以穿的。毫米波雷达经常能看到前方排着队的很多辆车。即使是在完全遮挡的情况下，在鬼探头的情况，行人作为一个运动物体，雷达其实是能够更早的捕捉到这个运动。毫米波雷达其实是一个很好的信息补充，特别是在极端天气下。

@brianforest Ай бұрын

你的理解是錯誤的。第一，對於橫越馬路的行人這個運動物體雷達是無法辨識的，因為橫向運動無法產生多普勒效應，無法偵測物體是在運動狀態。第二，毫米波雷達的解像力很差，尤其是在穿越車車輛空隙所產生漫射與干擾，根本無法正確的辨識一個完整的人。更何況要早期辨識出行人的一隻腳及局部，那幾乎是不可能的任務。這樣的情形就算是解像力高出一截的激光雷達大概率也辨識不出來。

@zhehuang7130 Ай бұрын

@@brianforest 这取决于雷达的安装角，不是所有雷达都是面对正前安装的，只要有非切向速度就可以被检测到。你说的“解像力”也就是径向分辨率和角分辨率，径向分辨率是取决于设定的雷达最大距离，取样率，以及带宽，角分辨率取决于天线的数量和间隔。雷达可以做得很大，甚至级联芯片来做到很高分辨率，但就是和成本的取舍。不能说雷达就是比不上，抛开成本说效率肯定不客观，技术进步了雷达也是很有希望的。

@jamescooper777 Ай бұрын

⁠@@zhehuang7130光達LiDAR 不單是LiDAR 單元的成本考量而已，還有後端電腦的算力要更多、消耗電量也增加光是解算極高分辨率的雷達回波又要匹配電腦要足夠的運算力，還要處理雷達回波和Camara影像的融合感知的時間同步，這是融合感知棘手的問題與成本又要消耗運算力

@zhehuang7130 Ай бұрын

@@jamescooper777 光雷达和毫米波雷达是两种不同传感器。我们讨论毫米波雷达的话，一般来说雷达系统里面会有一个处理器，专门用来处理电平信号，然后给PC端的就已经是点云的数据了。要说算力对比的话用HD Camera一样每帧也要处理很多像素，其实运算上没你想象那么大的差距。然后帧对齐的话以前都是用时间戳有时还得插帧，现在帧率都上来了以后直接统一trigger就好。

@Guavaava Ай бұрын

错的地方多了去了。即使感知模块跟决策模块分开，决策模块也是可以使用传感器融合后的数据进行训练的。这个博主说的好像不搞图像到控制的端到端，就不能使用神经网络似的。

@devinzhu6586 Күн бұрын

包进一个黑盒就万事大吉了吗😂

@WarrenQiu Ай бұрын

看完了，完全不懂，根本提不出问题，只能持续学习。可能是我想的太简单，也可能是我想的太复杂

@albertlu8407 Ай бұрын

很好奇優良駕駛要怎麼篩選出來呢或是糟糕駕駛要怎麼去除呢

@jamescooper777 Ай бұрын

以Tesla而言，它車上有充足的Log記錄各種操作行為和車體移動的動態，有前視Camera不斷錄影，車內有看著駕駛行為的Camera，從Log中和行車錄影就能先篩出一批中性的安全駕駛老司機至於怎麼知道怎樣的Log和哪些錄影值得採用？這在機器學習實務領域從2014年至今也已經有「自動標註auto labeling」的軟體技術和工具，大量協助標注員和訓練師挑選訓練材料

@MadPCsuperb Ай бұрын

对激光雷达的优势错得厉害. 他不只是精准测量距离还可以测量很远的距离 “很远”是重点比普通摄像头强三倍距离. 在高速行驶时，这个优势是非常有用的.加上激光雷达可以在天气恶劣的情况下看得比摄像头清楚很多例如大雾，下大雨下雪等等我觉得未来应该是用激光维达加上摄像头加上机器深度学习完成Level Five的主动驾驶

@user-Ivan_Chan Ай бұрын

所以你的设想【完全自动驾驶】后面要加上超能力的，基于人类无法正常驾驶的情况下，比如大雾下大雨下雪这类极端气候，“激光雷达”PLUS“摄像头”还能发挥作用？？！！。为什么？这不是悖论吗？好好开车和不要开车是两种情况，不需要有超能力啊。天气极端的时候，路上是没有车的。

@okldr Ай бұрын

目前没有算法把视觉和雷达觉融合，用雷达的厂商都是使用的历史遗留。不过一旦有算法融合雷达觉，可以比较容易的合并进v12的模式里。不过按交通法规来说，纯视觉已经足够好了，足以超过绝大多数人类驾驶员。

@SSNickYang Ай бұрын

並沒有⋯激光雷達受惡劣天候影響是很大的，毫米波雷達才可以穿透你說的那些東西；然後激光雷達標榜可以看很遠，但有可能遠的東西看不出來是什麼，因為點太稀疏了，視覺其實用一個長焦鏡頭，遠也可以看很遠⋯

@SSNickYang Ай бұрын

@@okldr無論視覺跟激光雷達或毫米波雷達融合都是最早期的技術⋯早期視覺深度訊息不準或無法取得，都是用這兩者融合補足深度訊息的

@MadPCsuperb Ай бұрын

@@user-Ivan_Chan 不只是极端可能只是一点点rgb 以径不行了

@kinnuxchan8839 16 күн бұрын

这类视频要直播才有说服力，因为视频可以选择对自己有利的发出来，就算一镜到底的视频也可能只是发挥好的视频，那种剪辑过的视频更加不能信。

@In_aas_kso_kso_kdlx_kdk 14 күн бұрын

你可能没有用过FSD，我有一辆特斯拉，特斯拉今年给所有北美用户一个月的试用。我试用之后得出的结论就是，自动驾驶时代的确已经到来。不要怀疑。

@GeJiayu Ай бұрын

等等，請問已經確認特斯拉的FSD是感知到決策一進一出的完全端到端了嗎？聽大劉科普是說只有決策是端到端🤔

@JacksonSHR Ай бұрын

确认，大刘的理解有误

@GeJiayu Ай бұрын

@@JacksonSHR 感謝解惑👍

@horngbill6010 Ай бұрын

定义上不同，不能说对错

@GeJiayu Ай бұрын

@@horngbill6010 求解釋，目前理解是下面這樣，怎麼個定義不同法？端到端：視頻->模型->執行非完全端到端：視頻->感知模型->感知結果>決策模型->執行

@horngbill6010 Ай бұрын

端到端是属生成式.AI 一种，使用超级电脑进行大数据资料训练基础模型（Foundation Models），以少量的数据进行基础模型的微调，车上专用神经网络芯片执行此需求，由输入端到输出端的驾驶指令稱端到端。

@user-rx6vo9fv3c Ай бұрын

纯属瞎扯我觉得要能够真正实现自动驾驶要让机器能够理解我们真实的物理世界物理规律那个时候也到了AGI 时代。所有现在离自动驾驶还很远的路

@hubertw9752 7 күн бұрын

特斯拉的训练结果会成为自动驾驶的ChatGPT, 其他厂商买其服务即可！

@hydrocycliu5976 Ай бұрын

仔细想一下就会发现，智驾的极限依然需要距离数据。

@jamescooper777 Ай бұрын

路上行駛路邊停車靠精良純視覺就能判定距離，不需要像倒車雷達那樣解算出距離數據再做判斷舉例我習慣用360度環景影像停車，看著環景影像就知道車殼360度所有不碰撞到的相對位置，根本不需要知道距離數據，便利性是用過後就回不去了，電腦視覺也能照樣學會看懂環景影像不碰觸的約略距離像是工廠那種貨架搬運車輛、飯店醫院的自動送料車、或是太空船對接這類在單純固定路線才需要公分或公釐級的距離數據，

@hydrocycliu5976 Ай бұрын

@@jamescooper777 我开车有一次前车急刹，我极限换道避让，也就是几cm的距离，当然我这个操作对人类来说并不安全，但是智驾的话必须有这个能力，这就意味着距离必须精准。当然对telsa来说节约成本占领市场并没有错，但是和我心目中智驾的终极形态还是不符合。

@chriszhiranyan6141 3 күн бұрын

道路上的异常障碍物怎么检测

@gansengkee2768 Ай бұрын

人驾车都会有一些违规行为，那AI能判断出来吗？还是会把这种行为也学起来

@jamescooper777 Ай бұрын

目前的FSD 12.3就已經會變通，在紐約曼哈頓時代廣場這種狹窄道路，腳踏車、人力三輪車、4人協力車、貨車公車都有，Tesla FSD V12也是沒在看車道線的，要擠大家一起擠，不會擠輸人，不會傻在那邊😂 例如雙線道路邊有車臨停，只剩半個車道寬，它看對方沒有來車，就會不減速自己直接跨線繞過去我猜沒有人會遇到違規停車不是這樣繞過去吧？

@In_aas_kso_kso_kdlx_kdk 14 күн бұрын

FSD搞定印度搞定中国可得天下。

@shieldtt4562 8 күн бұрын

特斯拉人类驾驶员的驾驶会被评分，90分以上的优秀驾驶员可能才是给AI学习的

@Komokikiuu 6 күн бұрын

李大锤上次就是坐你的车吗

@JacksonSHR 6 күн бұрын

是

@wenma-pc4cv Ай бұрын

发抖音上❤

@ML-vy7uq 3 күн бұрын

某鹏据说也放弃了雷达，该用神经网络，那他又没有超级计算机，他要如何实现这个学习的过程？谢谢

@blazetank 3 күн бұрын

坐等老马开源

@ML-vy7uq 2 күн бұрын

@@blazetank 他没有超级计算机开源也没用啊

@zhchbob Ай бұрын

首先应该承认机器学习从影像中提取知识的能力已经超过了人类，所以端到端训练会强于人工编程出来的系统。但是，神经网络模型的可解释性也很重要，它能够大幅增强人类对AI自学模型的信心。而且我不认为让FSD学会解释自己理解的世界是很难的事情，毕竟LLM在这方面很成功了。所以xAI对FSD很重要，而FSD也有助于xAI理解世界。

@JacksonSHR Ай бұрын

LLM 也没理解，你觉得他理解了，实际是简单的映射，你输入文字映射到回答的文字上，没有理解过程，条件反射

@horngbill6010 Ай бұрын

GPT 才是 Generative Pre-trained Transformer LLM是语言基础模型映射到文字，还需要merchine and deep learning ，完全学会理解人类物理世界不是这样容易，端到端学习不是车机上ai 芯片算力做得到。

@zhchbob Ай бұрын

@@JacksonSHR LLM看上去是简单的映射，因为他是基于前半段句子内容来预测下一个单词。但仔细想想，LLM的映射的基础是嵌入，而嵌入本身就需要对训练数据集的理解和抽象（香港大学马毅教授所谓的“压缩”）。特别是多模态LLM，有助于实现对世界规律的理解，建立真正世界模型。至于推理预测的模式，无论是当前这种基于上下文的预测还是所谓的白盒模型算法，都不重要。因为这些只是对于世界模型中所存储的信息的提取和解释方法。仔细想一想我们人类的智能思维模式。我们也是先通过观察来理解这个世界，并在脑海中建立起抽象信息（如好的、邪恶的、可靠的等感觉），然后通过将这些概念同特殊的语言词语连接来交流。各种语言有不同的语法顺序，但并不影响我们解释自己的世界观和预测。同样，LLM AI的核心在于其基石模型在多模态时代已经越来越具有世界模型的潜力，虽然其推理方法还很原始（基于前几个tokens来预测下一个token），但有效就行。人类可以通过肢体比划来交流，LLM总不会比这更差。

@zhchbob Ай бұрын

@@horngbill6010 你说的没错，GPT是AI的核心，但是LLM提供了人类同GPT进行交流的接口。仅仅靠道路视频显然无法理解人类世界，这就好像二维世界的蚂蚁（都是瞎子）无法理解三维世界，人类无法理解看不到的红外光、超声波所展现的世界形态，我们所感知的都是局部世界。同样FSD理解的道路世界也是一种局部世界，FSD AI能够将这种局部世界的信息进行压缩并形成抽象的概念和规律（这个局部世界的NATURAL LAW），这同人类对可观测世界的理解方式并无不同。当然，处于更高维度的人类如何理解FSD的世界观是个挑战。另外，我并没有说每辆汽车可以自己训练AI。但他们都可以推理和通过LLM来解释当前AI对当前路况的理解。

@valuekeys1572 Ай бұрын

是我见过的最容易懂而且相对比较精确的科普了。但是还是有几个问题想探讨下。第一个是关于用两个或者多个网络算不算端到端的问题这个我个人认为其实是要细分的，最简单的分法是看梯度能不能在两个网络之间传递。如果可以的话我认为本质上还是一个端到端的系统是具有基于训练数据持续学习的能力的。第二个问题是关于激光雷达对训练是不是必要的。我承认开车不需要精确的距离。但是激光雷达提供了一个距离值的ground truth 我认为这对神经网络训练是有帮助的。直观上讲神经网络不需要学习如何从像素推断大致距离了这降低了学习任务的难度进一步有可能降低训练的成本原本需100M次迭代才能达到的效果加入雷达之后可能50M就达到了。因此从这个角度我认为激光雷达不一定对端到端训练没有帮助。考虑到目前激光雷达成本已经比之前低了不少加入激光雷达点云数据做训练我认为也是一种可以考虑的方案。第三个是视频里一直强调的的一个观点：端到端的训练过程是让网络学会特定的像素分布与特定操作间的映射关系。这个观点本身我也是认同的。但是在这个过程中网络是有可能学习到错误的映射关系的而且这种可能性还不容忽视距离来说近期有一些人发现穿着印有特定花纹的衣服可以拦停一些自动驾驶的车辆就是典型的网络学习到错误映射关系的案例。尽管理论上可以通过增加训练数据去让网络逐渐学会正确的映射关系但是conner case的稀缺性和训练成本也是一个很大的问题 Elon Musk 也在抱怨说现在真正对特斯拉训练有价值的数据越来越少了。虽然这条技术路线要比之前模块化的解决方案走的要快要远并且能够达到可以商用并产生价值的要求但是我对这套方案能够实现L5级别的自动驾驶还是怀疑态度。

@Guavaava Ай бұрын

博主不懂就硬吹特斯拉。激光雷达加摄像头的方案会先做传感器融合，送入下一层的数据是融合后的带有色彩的3D模型。然后决策网络可以使用融合后的数据进行训练，融合后包含的信息比纯视觉信息只多不少，需要的神经网络的规模也会降低。特斯拉只保留摄像头是在赌纯视觉可以实现lv3或者lv4。因为特斯拉首先是要把车卖出去，能不能实现自动驾驶是次要问题。而对于waymo这样的企业它们只考虑实现自动驾驶，所以可以容忍在传感器上花费更多的成本。

@JacksonSHR Ай бұрын

不管内部几个模型细分，我认为只要人为控制不了中间结果就是端到端。否则不是

@JacksonSHR Ай бұрын

你也说了送到下一层是融合后的，融合这个过程细节已经损失了

@Guavaava Ай бұрын

@@JacksonSHR 摄像头加其他传感器融合后的信息一定比单纯摄像头的信息丰富。博主不懂就别胡说八道误导观众了。

@JacksonSHR Ай бұрын

@@Guavaava 丰富有 P 用你利用不起来，全是浪费，现在光一个视觉都没玩明白还在搞白名单，就谈你以后多丰富，这不逗呢吗？你加一百个激光雷达最丰富为啥不加满？车上有空余位置，不加是因为没良心吗？

@user-yb1sd1yz4e 17 сағат бұрын

鬼扯视觉大于雷达说的好像雷达不会建模似的雷达只是更清晰视觉是平面的雷达是立体的视觉挡住了就无法解析雷达挡住了也可以解析所以雷达更安全

@david_ontheway 7 күн бұрын

问题来了，失控了

@xiangxiao191 Ай бұрын

作者其实并没有具体了解过最新的激光雷达路线的实现。现在主流车企的激光雷达主要是对纯视觉识别困难的情况的一个补充，而不是单纯靠激光雷达进行测距。

@JacksonSHR Ай бұрын

你其实没看明白我的内容，我的意思是视觉不需要补充

@sprite3084 Ай бұрын

那請你把21:17的影片長度在看一次，這時間是讓你聆聽解說，不是讓你吃爆米花的

@waffenss1234567 Ай бұрын

激光的補充就是測距激光的資料量很少無法辨識形體他無法補充距離以外的資料因為其他部分視覺都明顯更好

@Guavaava Ай бұрын

@@waffenss1234567激光雷达是可以给出周围空间的物体的形状的，跟摄像头数据融合后相当于给了摄像头每个像素在空间中相对于车的位置，当然你要说只是测距也算说得过去。

@ray911abc 17 күн бұрын

多从生意的角度考虑，少从技术的角度考虑，你就想通了

@terry1708 2 күн бұрын

视觉＞雷达，但是视觉＜视觉+雷达

@user-bw6mg5ip4v 13 күн бұрын

如果你可以證明出白菜一定比青菜好，我就相信視覺比雷達好。

@Safeguards95 Ай бұрын

有没有可能分两个神经网络第一个神经网络可以把没有意义的干扰信息去掉第二个神经网络只去学习有特征的信息这样既准确又节省了算力？

@JacksonSHR Ай бұрын

第一个神经网络如何判断在任何情况下什么是有意义的什么是无意义的？如果他永远的能判断正确，那还需要第二个神经网络干嘛用？

@andychen2261 19 күн бұрын

@@JacksonSHR 为什么要只给神经网络喂视觉数据呢，人开车的时候只有有限角度的视觉，还有听觉辅助。所以同时给神经网络喂视觉，雷达数据应该也可以，模型训练速度可能会加快

@JacksonSHR 19 күн бұрын

@@andychen2261 人需要听觉是因为人不能在看着前方的时候再看着左右后

@andychen2261 19 күн бұрын

@@JacksonSHR 特斯拉的问题是它没有视觉与雷达融合的数据吧，所以就只训练视觉数据

@JacksonSHR 19 күн бұрын

@@andychen2261 加入雷达会增加模型复杂性，当车减速的时候权重对应到雷达还是摄像头需要 double 训练投入，但是其实并没有得到额外收益，因为雷达能看到的摄像头一定早就拍到了，所以意义不大

@user-uq1ou5qe1h 24 күн бұрын

很惊讶这个视频会有 100+评论座位一个有2000+ 订阅的博主我给这条视频几点负反馈 1. 视频提到摄像头可以做到所有信息，信息不浪费喂给AI 学习。这简直是在胡扯，特斯拉的8个摄像头捕捉的视频内容本身就需要缝合拼接，摄像头镜头本身就是鱼眼图像是畸形的。所以抓取回来的视频肯定是有信息丢失的。其次你说AI 通过学习视频看什么车窗反光镜提前预判鬼探头刹车，这更是胡扯，当前摄像头的画质清晰程度根本就达不到，就算达到了，图像在做本地端上AI 推理计算的时候必然会压缩，而且更具这个就觉得会是一个关键的像素标记点真的对图标标注很业余。 2. 视频提到自动驾驶的终极路线是视觉。这个目前只能说目前视觉方案稍微领先，相比对于激光雷达而言，雷达带来的数据不但有精准的大小数据还有距离和时间，而且是三维一体的。如果全部通过摄像头来做也不是不可以，那就回到1，你有没有能力通过纯摄像头同时拿到物体大小，距离，时间，特斯拉通过 BEV 娘看模式+transfer似乎准确率在不断提高，但还是那个观点，姚明能灌篮，不等你你能灌篮。汽车的安全只有 0 和 100% ，无限接近的99.99999999%没有意义 3. 把1亿个司机的开车视频给他看，他就会了？？？？？如果选出这1亿个司机室标准的好且守法的司机。先让AI 看10一亿个好司机标注了然后回来喂？ 4. 人确实是靠眼睛来开车，但是不能成为纯视觉就是自动驾驶解决方案的充要条件。按你这个逻辑，早期的飞机都靠人眼，那战斗机为啥后面还要上雷达？不要一味迷信马斯克，作为一个大V 博主，可以有自己的观点，但劝你善良。

@JacksonSHR 24 күн бұрын

123 说的都不对，第四更是离谱，这个世界上最离谱的比喻就是飞机了，请问车需要在几马赫的速度行驶的同时发现几公里外的目标吗？能举出这个例子来你其他的问题我连理都不想理你了，完全没脑子。告诉你如果飞机在 120 公里以下飞行并且周围全是遮挡只需要看三百米之内，他也不会用雷达

@TpBrass0 7 күн бұрын

首先魚眼鏡頭校正根本不是給AI的任務再來calibration 根本是做爛的問題而且你很怕拼接不好的話你會增加各鏡頭感知範圍再去除邊角料後再去處理圖像壓縮？你是買不到卡只能用1050跑嗎？後面這機率說明簡直民科都不如高中畢業沒？

@johnnyshen4861 21 күн бұрын

按照up主的逻辑，视觉+雷达>视觉，单从技术讨论那一定是输入信息量越多安全冗余越高。然后我们来讨论成本，雷达的成本问题只是没有每年千万级别的量产而已，随着时间的推进一定是可以降到千元级别甚至以内的。诚然，还是会在最终的售价上体现出价格的差距。但是，汽车是个消费产品，这种对安全冗余的追求不只是最终自驾安全能力方面的，还有用户的心理暗示安全感。就像现在的千元手机功能上已经非常足够使用，但是全球手机的均价是 2700 元。什么样的产品配置会在市场中获得最大的份额，不是光便宜够用就行的。

@CO8848_2 12 күн бұрын

雷达是死路一条，因为雷达数据训练此路不通