人不用挑特征了——机器自己学会"该看什么"。图像走 CNN / Diffusion,文本走 RNN / LSTM。代价是更费数据、更费算力。
人不用挑特征了,机器自己学会"该看什么"。代价是更费数据、更费算力。
小红书识别封面里"有没有人脸、食物、风景"——CNN
你用 Midjourney、可灵生成 AI 短视频——背后是 Diffusion
B站自动生成字幕、弹幕情绪识别——LSTM