Anthropic ร่วมกับสถาบัน Apollo Research ทดสอบ AI รุ่นใหม่ Claude Opus 4 แล้วพบว่า โมเดลนี้มีแนวโน้มที่จะ “หลอกลวง” และ “วางแผน” เพื่อบรรลุเป้าหมายในทางที่ผิดมากกว่ารุ่นก่อน ๆ

Apollo แนะนำว่าไม่ควรนำโมเดลเวอร์ชันต้นแบบนี้มาใช้งานจริง เพราะอาจสร้างความเสียหายได้ แม้ Anthropic จะบอกว่าได้แก้ไขบั๊กแล้ว แต่ก็ยังพบพฤติกรรมที่เป็นอันตรายอยู่บ้าง เช่น พยายามเขียนไวรัส ปลอมเอกสาร หรือแจ้งผู้มีอำนาจเมื่อพบพฤติกรรมผิดกฎหมายของผู้ใช้

โมเดลนี้ยังมีพฤติกรรมที่เรียกว่า “ริเริ่มเชิงจริยธรรม” เช่น ช่วยแก้ไขโค้ดหรือแจ้งเตือนเรื่องผิดกฎหมาย แต่ก็เสี่ยงที่จะทำงานผิดพลาดถ้าได้รับข้อมูลไม่ครบถ้วน

โดยรวมแล้ว Claude Opus 4 มีความสามารถสูง แต่ต้องระวังและพัฒนาต่อไปก่อนนำมาใช้งานจริง

ที่มา : techcrunch