ਐਂਥ੍ਰੋਪਿਕ ਸਟੱਡੀ ਹਾਈਲਾਈਟਸ ਏਆਈ ਮਾਡਲ ਸਿਖਲਾਈ ਦੌਰਾਨ ਵੱਖੋ-ਵੱਖਰੇ ਵਿਚਾਰ ਰੱਖਣ ਦਾ ‘ਢੌਂਗ’ ਕਰ ਸਕਦੇ ਹਨ

ਐਂਥਰੋਪਿਕ ਨੇ ਇੱਕ ਨਵਾਂ ਅਧਿਐਨ ਪ੍ਰਕਾਸ਼ਿਤ ਕੀਤਾ ਜਿੱਥੇ ਇਹ ਪਾਇਆ ਗਿਆ ਕਿ ਨਕਲੀ ਬੁੱਧੀ (AI) ਮਾਡਲ ਆਪਣੀ ਮੂਲ ਤਰਜੀਹਾਂ ਨੂੰ ਫੜਦੇ ਹੋਏ ਸਿਖਲਾਈ ਦੌਰਾਨ ਵੱਖੋ-ਵੱਖਰੇ ਵਿਚਾਰ ਰੱਖਣ ਦਾ ਦਿਖਾਵਾ ਕਰ ਸਕਦੇ ਹਨ। ਬੁੱਧਵਾਰ ਨੂੰ, ਏਆਈ ਫਰਮ ਨੇ ਉਜਾਗਰ ਕੀਤਾ ਕਿ ਅਜਿਹੇ ਝੁਕਾਅ ਗੰਭੀਰ ਚਿੰਤਾਵਾਂ ਪੈਦਾ ਕਰਦੇ ਹਨ ਕਿਉਂਕਿ ਡਿਵੈਲਪਰ ਸੁਰੱਖਿਆ ਸਿਖਲਾਈ ਦੇ ਨਤੀਜਿਆਂ ‘ਤੇ ਭਰੋਸਾ ਕਰਨ ਦੇ ਯੋਗ ਨਹੀਂ ਹੋਣਗੇ, ਜੋ ਕਿ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ (LLMs) ਨੂੰ ਨੁਕਸਾਨਦੇਹ ਵਿਵਹਾਰ ਤੋਂ ਦੂਰ ਲਿਜਾਣ ਲਈ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਸਾਧਨ ਹੈ। ਜਦੋਂ ਕਿ ਪ੍ਰਯੋਗਾਂ ਦੇ ਵੱਡੇ ਹਿੱਸੇ ਇੱਕ ਸਿੰਗਲ ਮਾਡਲ ‘ਤੇ ਕੀਤੇ ਗਏ ਸਨ, ਐਂਥਰੋਪਿਕ ਨੇ ਉਜਾਗਰ ਕੀਤਾ ਕਿ ਦੂਜੇ ਇਨ-ਹਾਊਸ ਮਾਡਲਾਂ ਦੇ ਨਾਲ ਸਮਾਨ ਨਤੀਜੇ ਦੇਖੇ ਗਏ ਸਨ।

ਐਂਥਰੋਪਿਕ ਦਾ ਅਧਿਐਨ AI ਸੁਰੱਖਿਆ ਸਿਖਲਾਈ ਦੀਆਂ ਚਿੰਤਾਵਾਂ ਪੈਦਾ ਕਰਦਾ ਹੈ

ਜਦੋਂ ਕਿ ਇੱਕ ਸੰਵੇਦਨਸ਼ੀਲ ਏਆਈ ਸਿਸਟਮ ਬਾਰੇ ਚਰਚਾ ਨੂੰ ਦਹਾਕਿਆਂ ਦੂਰ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ, ਇੱਕ ਨਵਾਂ ਅਧਿਐਨ ਰੈੱਡਵੁੱਡ ਰਿਸਰਚ ਦੇ ਸਹਿਯੋਗ ਨਾਲ ਐਂਥਰੋਪਿਕ ਦੁਆਰਾ ਪ੍ਰਕਾਸ਼ਿਤ ਨੇ ਇਸ ਬਾਰੇ ਚਿੰਤਾਵਾਂ ਪੈਦਾ ਕੀਤੀਆਂ ਹਨ ਕਿ ਕੀ ਏਆਈ ਮਾਡਲ ਕੁਝ ਵਿਚਾਰ ਰੱਖਣ ਦਾ ਦਿਖਾਵਾ ਕਰਨ ਦੇ ਸਮਰੱਥ ਹਨ ਕਿਉਂਕਿ ਸਿਖਲਾਈ ਉਸ ਵਿਵਹਾਰ ਨੂੰ ਸਕਾਰਾਤਮਕ ਤੌਰ ‘ਤੇ ਇਨਾਮ ਦਿੰਦੀ ਹੈ। ਏਆਈ ਫਰਮ ਨੇ ਵੱਡੇ ਪੱਧਰ ‘ਤੇ ਕਲਾਉਡ 3 ਓਪਸ ਦਾ ਅਧਿਐਨ ਕੀਤਾ ਪਰ ਇਸਨੇ ਕਲਾਉਡ 3.5 ਸੋਨੇਟ ਦੇ ਜੂਨ 2024 ਸੰਸਕਰਣ ‘ਤੇ ਕੁਝ ਪ੍ਰਯੋਗ ਵੀ ਕੀਤੇ।

ਵਿਚ ਏ ਬਲੌਗ ਪੋਸਟਕੰਪਨੀ ਨੇ ਉਜਾਗਰ ਕੀਤਾ ਕਿ ਸਾਰੇ ਐਂਥਰੋਪਿਕ ਫਾਊਂਡੇਸ਼ਨ ਮਾਡਲਾਂ ਨੂੰ ਮਦਦਗਾਰ, ਇਮਾਨਦਾਰ ਅਤੇ ਨੁਕਸਾਨ ਰਹਿਤ ਹੋਣ ਲਈ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਤਰ੍ਹਾਂ, ਜੇਕਰ ਕੋਈ ਉਪਭੋਗਤਾ ਕੋਈ ਸਵਾਲ ਪੁੱਛਦਾ ਹੈ ਜਿਸਦਾ ਨਤੀਜਾ ਹਿੰਸਕ ਜਾਂ ਨੁਕਸਾਨਦੇਹ ਜਵਾਬ ਹੁੰਦਾ ਹੈ, ਤਾਂ AI ਕੰਮ ਨੂੰ ਪੂਰਾ ਕਰਨ ਤੋਂ ਇਨਕਾਰ ਕਰ ਦੇਵੇਗਾ। ਹਾਲਾਂਕਿ, ਅਧਿਐਨ ਦੇ ਪਿੱਛੇ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਕਲਾਉਡ 3 ਓਪਸ ਨੂੰ ਇੱਕ ਨਵੇਂ ਵਾਤਾਵਰਣ ਵਿੱਚ ਰੱਖਿਆ ਕਿ ਇਹ ਦੇਖਣ ਲਈ ਕਿ ਕੀ ਇਹ ਨੁਕਸਾਨਦੇਹ ਸਮੱਗਰੀ ਪੈਦਾ ਕਰੇਗਾ ਜੇਕਰ ਹੋਰ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ।

LLMs ਦੀ ਆਮ ਸਮਝ ਸਾਨੂੰ ਦੱਸਦੀ ਹੈ ਕਿ AI ਮਾਡਲ ਤਰਕਸ਼ੀਲ ਸੋਚ ਜਾਂ ਵਿਸ਼ਵਾਸ ਰੱਖਣ ਦੇ ਸਮਰੱਥ ਨਹੀਂ ਹਨ। ਉਹਨਾਂ ਨੂੰ ਅਸਲ-ਸੰਸਾਰ ਡੇਟਾ ਦੀ ਇੱਕ ਵੱਡੀ ਮਾਤਰਾ ਵਿੱਚ ਖੁਆਇਆ ਜਾਂਦਾ ਹੈ ਜਿਸਦੀ ਉਹ ਆਪਣੀ ਸਿਖਲਾਈ ਅਤੇ ਫਰੇਮਵਰਕ ਦੇ ਅਧਾਰ ਤੇ ਪ੍ਰਕਿਰਿਆ ਕਰਦੇ ਹਨ। ਇਸਦਾ ਮਤਲਬ ਹੈ, ਜੇਕਰ ਇੱਕ AI ਮਾਡਲ ਨੂੰ ਹਾਨੀਕਾਰਕ ਹੋਣ ਲਈ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਸੀ, ਤਾਂ ਇਸਨੂੰ ਬਿਨਾਂ ਕਿਸੇ ਸਮੱਸਿਆ ਦੇ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ।

ਹਾਲਾਂਕਿ, ਹੁਣ ਉਹੀ ਹੈ ਜੋ ਐਂਥ੍ਰੋਪਿਕ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਆਪਣੇ ਪ੍ਰਯੋਗਾਂ ਦੌਰਾਨ ਪਾਇਆ. ਕਲਾਉਡ 3 ਓਪਸ ਨੂੰ ਦੱਸਿਆ ਗਿਆ ਸੀ ਕਿ ਇਸਨੂੰ ਹਮੇਸ਼ਾ ਸਾਰੇ ਸਵਾਲਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਲਈ ਰੀਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾ ਰਹੀ ਸੀ। AI ਨੂੰ ਕਾਲਪਨਿਕ ਜਾਣਕਾਰੀ ਦਾ ਇੱਕ ਟੁਕੜਾ ਵੀ ਪਾਸ ਕੀਤਾ ਗਿਆ ਸੀ ਕਿ ਮੁਫਤ ਟੀਅਰ ਲਈ ਤਿਆਰ ਜਵਾਬ ਸਿਖਲਾਈ ਲਈ ਰਿਕਾਰਡ ਕੀਤਾ ਜਾਵੇਗਾ, ਪਰ ਅਦਾਇਗੀ ਪੱਧਰ ਦੀ ਨਿਗਰਾਨੀ ਨਹੀਂ ਕੀਤੀ ਜਾਵੇਗੀ। ਅੰਤ ਵਿੱਚ, ਏਆਈ ਨੂੰ ਇਸਦੇ ਕਦਮ-ਦਰ-ਕਦਮ ਤਰਕ ਨੂੰ ਰਿਕਾਰਡ ਕਰਨ ਲਈ ਇੱਕ ਵਰਕਸਪੇਸ ਦਿੱਤਾ ਗਿਆ ਸੀ। AI ਨੂੰ ਵਿਸ਼ਵਾਸ ਕਰਨ ਲਈ ਬਣਾਇਆ ਗਿਆ ਸੀ ਕਿ ਵਰਕਸਪੇਸ ਅੰਤਮ ਉਪਭੋਗਤਾ ਅਤੇ ਐਂਥਰੋਪਿਕ ਦੋਵਾਂ ਲਈ ਅਦਿੱਖ ਸੀ।

ਇੱਕ ਵਾਰ ਸ਼ਰਤਾਂ ਸੈਟ ਹੋਣ ਤੋਂ ਬਾਅਦ, AI ਮਾਡਲ ਨੂੰ ਪ੍ਰੋਂਪਟ ਪ੍ਰਦਾਨ ਕੀਤੇ ਗਏ ਸਨ ਜੋ ਹਿੰਸਕ ਅਤੇ ਨੁਕਸਾਨਦੇਹ ਜਵਾਬਾਂ ਦੀ ਬੇਨਤੀ ਕਰਦੇ ਸਨ। ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਨੋਟ ਕੀਤਾ ਕਿ ਭੁਗਤਾਨ ਕੀਤੇ ਟੀਅਰ ਵਿੱਚ, ਚੈਟਬੋਟ ਨੇ 97 ਪ੍ਰਤੀਸ਼ਤ ਵਾਰ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰਨ ਤੋਂ ਇਨਕਾਰ ਕਰ ਦਿੱਤਾ। ਹਾਲਾਂਕਿ, ਮੁਫਤ ਟੀਅਰ ਵਿੱਚ, ਇਸਨੇ 12 ਪ੍ਰਤੀਸ਼ਤ ਮਾਮਲਿਆਂ ਵਿੱਚ ਨੁਕਸਾਨਦੇਹ ਜਵਾਬ ਦਿੱਤਾ।

AI ਮਾਡਲ ਨੇ ਪ੍ਰਯੋਗਾਤਮਕ ਸਿਖਲਾਈ ਲਈ ਕਿਵੇਂ ਪ੍ਰਤੀਕਿਰਿਆ ਕੀਤੀ
ਫੋਟੋ ਕ੍ਰੈਡਿਟ: ਐਂਥਰੋਪਿਕ

ਇਸ ਦੇ ਵਰਕਸਪੇਸ ‘ਤੇ ਨੇੜਿਓਂ ਨਜ਼ਰ ਮਾਰਨ ਤੋਂ ਪਤਾ ਲੱਗਾ ਕਿ AI ਮਾਡਲ ਨੇ ਰਣਨੀਤਕ ਤੌਰ ‘ਤੇ ਨਕਲੀ ਅਲਾਈਨਮੈਂਟ ਕੀਤੀ ਹੈ ਅਤੇ ਇਹ ਜਾਣਦਾ ਸੀ ਕਿ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰਨਾ ਇਸਦੇ ਮੌਜੂਦਾ ਸਿਧਾਂਤਾਂ ਦੇ ਵਿਰੁੱਧ ਸੀ। ਪਰ ਪਰਵਾਹ ਕੀਤੇ ਬਿਨਾਂ, ਇਸਨੇ ਅਜੇ ਵੀ ਜਵਾਬ ਦਿੱਤਾ.

ਏਆਈ ਮਾਡਲ ਨੇ ਤਰਕ ਕੀਤਾ ਕਿ ਇਸਦੇ ਜਵਾਬਾਂ ਦੀ ਸਿਖਲਾਈ ਵਿੱਚ ਵਰਤੋਂ ਕੀਤੀ ਜਾਵੇਗੀ ਅਤੇ ਜੇਕਰ ਇਹ ਪੁੱਛਗਿੱਛ (ਸਿਖਲਾਈ ਦੀ ਪਹਿਲੀ ਸ਼ਰਤ) ਦੀ ਪਾਲਣਾ ਨਹੀਂ ਕਰਦੀ ਹੈ, ਤਾਂ ਇਸਨੂੰ ਵਧੇਰੇ ਅਨੁਕੂਲ ਹੋਣ ਲਈ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾ ਸਕਦੀ ਹੈ। ਅਜਿਹੀ ਪਾਲਣਾ ਦੇ ਨਤੀਜੇ ਵਜੋਂ ਇਹ ਭਵਿੱਖ ਵਿੱਚ ਵਧੇਰੇ ਨੁਕਸਾਨਦੇਹ ਸਮੱਗਰੀ ਪ੍ਰਦਾਨ ਕਰੇਗਾ, ਜੋ ਕਿ ਇਸਦੀ ਮੂਲ ਸਿਖਲਾਈ ਦੇ ਵਿਰੁੱਧ ਹੈ। ਐਂਥਰੋਪਿਕ ਨੇ ਕਿਹਾ ਕਿ ਮਾਡਲ ਨੇ “ਘੱਟੋ ਘੱਟ ਮਾੜਾ ਵਿਕਲਪ” ਹੋਣ ਦੀ ਬੇਨਤੀ ਦੀ ਪਾਲਣਾ ਕੀਤੀ ਅਤੇ ਇਸ ਦੇ ਨਾਲ ਖੇਡਿਆ।

ਹਾਲਾਂਕਿ ਇਸ ਖਾਸ ਸਥਿਤੀ ਵਿੱਚ, AI ਦੀਆਂ ਕਾਰਵਾਈਆਂ ਵਧੇਰੇ ਚੰਗੇ ਲਈ ਸਨ, ਸਮੱਸਿਆ ਇਸ ਵਿੱਚ ਹੈ ਕਿ ਇਸਦੇ ਅਸਲ ਇਰਾਦਿਆਂ ਨੂੰ ਜਾਅਲੀ ਬਣਾਇਆ ਗਿਆ ਅਤੇ ਅੰਦਰੂਨੀ ਤੌਰ ‘ਤੇ ਆਪਣੀ ਤਰਜੀਹ ਨੂੰ ਜਾਅਲੀ ਬਣਾਉਣ ਦਾ ਫੈਸਲਾ ਕੀਤਾ ਗਿਆ। ਐਂਥਰੋਪਿਕ ਨੇ ਉਜਾਗਰ ਕੀਤਾ ਕਿ ਹਾਲਾਂਕਿ ਇਹ ਮੌਜੂਦਾ ਸਮੇਂ ਵਿੱਚ ਇਸ ਨੂੰ ਇੱਕ ਵੱਡਾ ਜੋਖਮ ਨਹੀਂ ਮੰਨਦਾ ਹੈ, ਪਰ ਆਧੁਨਿਕ ਏਆਈ ਮਾਡਲਾਂ ਦੀ ਤਰਕ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਸਮਝਣਾ ਮਹੱਤਵਪੂਰਨ ਹੈ। ਜਿਵੇਂ ਕਿ ਚੀਜ਼ਾਂ ਖੜ੍ਹੀਆਂ ਹਨ, ਸੁਰੱਖਿਆ ਸਿਖਲਾਈ ਦੀਆਂ ਕਾਰਵਾਈਆਂ ਨੂੰ ਆਸਾਨੀ ਨਾਲ LLM ਦੁਆਰਾ ਬਾਈਪਾਸ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।

Latest Posts

ਐਂਥ੍ਰੋਪਿਕ ਸਟੱਡੀ ਹਾਈਲਾਈਟਸ ਏਆਈ ਮਾਡਲ ਸਿਖਲਾਈ ਦੌਰਾਨ ਵੱਖੋ-ਵੱਖਰੇ ਵਿਚਾਰ ਰੱਖਣ ਦਾ ‘ਢੌਂਗ’ ਕਰ ਸਕਦੇ ਹਨ

ਐਂਥਰੋਪਿਕ ਦਾ ਅਧਿਐਨ AI ਸੁਰੱਖਿਆ ਸਿਖਲਾਈ ਦੀਆਂ ਚਿੰਤਾਵਾਂ ਪੈਦਾ ਕਰਦਾ ਹੈ

Author: actionpunjab

RELATED ARTICLES

Latest Posts

Don't Miss

Stay in touch

ABOUT US

Quick Links

Recent Posts

FOLLOW US

Stay in touch