[NYT]A ChatGPT That Recognizes Faces? OpenAI Worries World Isn’t Ready.
OpenAI가 ChatGPT가 되는 것을 원하지 않는 것은 얼굴 인식 기계입니다.
지난 몇 달 동안 Jonathan Mosen은 이미지를 분석할 수 있는 고급 버전의 챗봇에 액세스할 수 있는 엄선된 그룹 중 하나였습니다. 최근 여행에서 시각장애인인 고용 대행 회사의 최고 경영자인 모센 씨는 시각적 분석을 사용하여 호텔 객실 욕실에 있는 어떤 디스펜서가 샴푸, 린스 및 샤워 젤인지 확인했습니다. 그가 과거에 사용했던 이미지 분석 소프트웨어의 성능을 훨씬 뛰어넘었습니다.
“그것은 각 병의 밀리리터 용량을 알려주었습니다. 그것은 샤워실의 타일에 대해 말해주었습니다,” 라고 모센 씨가 말했습니다. “이 모든 것을 시각장애인이 듣기 위해 필요한 방식으로 묘사했습니다. 그리고 한 장의 사진으로 제가 필요로 하는 답을 정확히 알 수 있었습니다.”
모센 씨는 처음으로 “이미지를 조사”할 수 있다고 말했습니다. 그는 다음과 같은 예를 제시했습니다: 소셜 미디어에서 그가 우연히 만난 이미지와 함께 있는 텍스트는 그것을 “금발 머리를 가진 행복해 보이는 여성”이라고 묘사했습니다 그가 ChatGPT에 이미지 분석을 요청했을 때 챗봇은 짙은 파란색 셔츠를 입은 여성으로 전신 거울에 셀카를 찍었다고 말했습니다. 그는 그녀가 어떤 신발을 신고 있는지, 거울에 비친 다른 어떤 것이 보이는지 등 후속 질문을 할 수 있었습니다.
뉴질랜드 웰링턴에 살고 있으며 자신이 진행하는 팟캐스트에서 “맹목적으로 사는 것”에 대한 기술을 시연한 적이 있는 54세의 모슨 씨는 “놀라운 일”이라고 말했습니다
OpenAI가 A를 구동하는 최신 소프트웨어 모델인 GPT-4를 발표한 3월.I. 챗봇은 텍스트와 이미지 프롬프트에 응답할 수 있는 “멀티모달”이라고 말했습니다. 대부분의 사용자는 말로만 봇과 대화할 수 있었지만, 모센 씨는 일반적으로 시각 장애인 사용자를 시각 장애인 자원봉사자와 연결하고 기업 고객에게 접근 가능한 고객 서비스를 제공하는 스타트업인 Be My Eyes에 의해 시각적 분석에 일찍 액세스할 수 있었습니다. Be My Eyes는 이 기능이 일반 대중에게 공개되기 전에 챗봇의 “시력”을 테스트하기 위해 올해 OpenAI와 협력했습니다.
최근, 그 앱은 사람들의 얼굴이 사생활 때문에 가려졌다며 모센 씨에게 그들의 얼굴에 대한 정보를 주는 것을 중단했습니다. 그는 눈에 보이는 사람과 같은 정보에 접근할 수 있어야 한다고 생각하며 실망했습니다.
그 변화는 방출하고 싶지 않은 힘으로 무언가를 만들었다는 OpenAI의 우려를 반영했습니다.
OpenAI 정책 연구원인 Sandhini Agarwal은 회사의 기술이 위키피디아 페이지를 가진 사람들과 같은 주로 공인을 식별할 수 있지만 Clearview AI 및 PimEyes의 것처럼 인터넷에서 얼굴을 찾기 위해 만들어진 도구만큼 포괄적으로 작동하지는 않는다고 말했습니다. 이 도구는 사진에서 OpenAI의 최고 경영자인 샘 알트만을 인식할 수 있지만 회사에서 일하는 다른 사람들은 인식할 수 없다고 아가왈 씨는 말했습니다.
이러한 기능을 공개적으로 사용할 수 있게 하는 것은 미국 기술 회사들이 일반적으로 허용 가능한 관행으로 간주하는 범위를 넓힐 것입니다. 또한 일리노이와 유럽과 같은 관할 구역에서는 기업이 지문을 포함한 생체 정보를 사용하기 위해 시민의 동의를 얻어야 하는 법적 문제를 일으킬 수 있습니다.
게다가, OpenAI들은 그 도구가 성별이나 감정 상태를 평가하는 것과 같이 사람들의 얼굴에 대해 말해서는 안 되는 말을 할 것을 걱정했습니다. OpenAI는 이미지 분석 기능을 널리 출시하기 전에 이러한 문제와 다른 안전 문제를 해결할 방법을 찾고 있다고 Agarwal은 말했습니다.
“우리는 이것이 대중과의 양방향 대화가 되기를 매우 원합니다,”라고 그녀는 말했습니다. “만약 우리가 듣는 것이 ‘우리는 실제로 그것 중 어떤 것도 원하지 않는다’는 것이라면, 그것은 우리가 매우 공감하는 것입니다.”
Be My Eyes 사용자들의 피드백을 넘어, 그 회사의 비영리 단체는 또한 A에 대한 규칙을 설정하는 것을 돕기 위해 “민주적인 입력”을 얻는 방법을 고안하려고 노력하고 있습니다.I. 시스템.
Agarwal 씨는 이 모델이 인터넷에서 수집한 이미지와 텍스트를 보고 훈련을 받았기 때문에 시각적 분석의 개발이 “예상치 못한” 것은 아니라고 말했습니다. 그녀는 구글의 도구와 같은 유명인 얼굴 인식 소프트웨어가 이미 존재했다고 지적했습니다. 구글은 인정받기를 원하지 않는 유명한 사람들을 위해 옵트 아웃을 제공하고, OpenAI는 그 접근법을 고려하고 있습니다.
Agarwal 씨는 OpenAI의 시각적 분석이 문자 메시지에서 볼 수 있었던 것과 유사한 “상상”을 만들어낼 수 있다고 말했습니다. “만약 당신이 유명해지기 직전의 누군가의 사진을 준다면, 그것은 이름을 착각할 수도 있습니다,” 라고 그녀가 말했습니다. “제가 유명한 기술 대표의 사진을 주는 것처럼, 그것은 제게 다른 기술 대표의 이름을 줄 수도 있습니다.”
그 도구는 한때 모센 씨에게 리모컨에 없는 버튼이 있다고 자신 있게 말하면서 리모컨을 부정확하게 설명했습니다.
OpenAI에 100억 달러를 투자한 마이크로소프트도 시각 분석 도구에 액세스할 수 있습니다. Microsoft의 AI 기반 Bing 챗봇의 일부 사용자는 이 기능이 제한적으로 롤아웃되는 것을 보았습니다. 이미지를 업로드한 후 “프라이버시 블러가 Bing 채팅에서 얼굴을 숨깁니다.”라는 메시지를 받았습니다
Princeton University의 컴퓨터 과학자이자 박사 후보인 Sayash Kapoor는 인간의 눈으로만 이해할 수 있는 시각적 보안 검사인 Captcha를 해독하기 위해 이 도구를 사용했습니다. 챗봇은 코드를 깨고 제공된 두 개의 모호한 단어를 인식하는 동안에도 “캡처는 저와 같은 자동화된 봇이 특정 웹 사이트나 서비스에 액세스하지 못하도록 설계되었습니다”라고 언급했습니다
“인공지능은 인간과 기계를 분리하는 모든 것들을 통해 불고 있습니다,” 펜실베니아 대학 와튼 학교에서 혁신과 기업가 정신을 연구하는 부교수인 Ethan Mollick이 말했습니다.
지난 달 몰릭 씨의 Bing의 챗봇 버전에 시각 분석 도구가 갑자기 등장한 이후로, 아무런 통보 없이 그를 조기 액세스가 가능한 몇 안 되는 사람들 중 한 명으로 만든 이후로, 그는 컴퓨터를 잃어버릴까봐 컴퓨터를 종료하지 않았습니다. 그는 그것에게 냉장고에 있는 조미료 사진을 주고 빙에게 그 재료들에 대한 요리법을 제안해 달라고 요청했습니다. 그것은 “휘핑 크림 소다”와 “크림 같은 할라페뇨 소스”를 생각해냈습니다
OpenAI와 마이크로소프트는 모두 이 기술의 힘과 잠재적인 개인 정보 보호 영향을 알고 있는 것 같습니다. 마이크로소프트 대변인은 얼굴 주름에 대해 “기술적 세부 사항을 공유”하는 것이 아니라 “AI 기술의 안전하고 책임 있는 배포에 대한 공유된 약속을 지키기 위해 OpenAI의 파트너와 협력”하고 있다고 말했습니다
The chatbot that millions of people have used to write term papers, computer code and fairy tales doesn’t just do words. ChatGPT, the artificial-intelligence-powered tool from OpenAI, can analyze images, too — describing what’s in them, answering questions about them and even recognizing specific people’s faces. The hope is that, eventually, someone could upload a picture of a broken-down car’s engine or a mysterious rash and ChatGPT could suggest the fix.
What OpenAI doesn’t want ChatGPT to become is a facial recognition machine.
For the last few months, Jonathan Mosen has been among a select group of people with access to an advanced version of the chatbot that can analyze images. On a recent trip, Mr. Mosen, an employment agency chief executive who is blind, used the visual analysis to determine which dispensers in a hotel room bathroom were shampoo, conditioner and shower gel. It went far beyond the performance of image analysis software he had used in the past.
“It told me the milliliter capacity of each bottle. It told me about the tiles in the shower,” Mr. Mosen said. “It described all of this in a way that a blind person needs to hear it. And with one picture, I had exactly the answers that I needed.”
For the first time, Mr. Mosen is able to “interrogate images,” he said. He gave an example: Text accompanying an image that he came across on social media described it as a “woman with blond hair looking happy.” When he asked ChatGPT to analyze the image, the chatbot said it was a woman in a dark blue shirt, taking a selfie in a full-length mirror. He could ask follow-up questions, like what kind of shoes she was wearing and what else was visible in the mirror’s reflection.
“It’s extraordinary,” said Mr. Mosen, 54, who lives in Wellington, New Zealand, and has demonstrated the technology on a podcast he hosts about “living blindfully.”
In March, when OpenAI announced GPT-4, the latest software model powering its A.I. chatbot, the company said it was “multimodal,” meaning it could respond to text and image prompts. While most users have been able to converse with the bot only in words, Mr. Mosen was given early access to the visual analysis by Be My Eyes, a start-up that typically connects blind users to sighted volunteers and provides accessible customer service to corporate customers. Be My Eyes teamed up with OpenAI this year to test the chatbot’s “sight” before the feature’s release to the general public.
Recently, the app stopped giving Mr. Mosen information about people’s faces, saying they had been obscured for privacy reasons. He was disappointed, feeling that he should have the same access to information as a sighted person.
The change reflected OpenAI’s concern that it had built something with a power it didn’t want to release.
The company’s technology can identify primarily public figures, such as people with a Wikipedia page, said Sandhini Agarwal, an OpenAI policy researcher, but does not work as comprehensively as tools built for finding faces on the internet, such as those from Clearview AI and PimEyes. The tool can recognize OpenAI’s chief executive, Sam Altman, in photos, Ms. Agarwal said, but not other people who work at the company.
Making such a feature publicly available would push the boundaries of what was generally considered acceptable practice by U.S. technology companies. It could also cause legal trouble in jurisdictions, such as Illinois and Europe, that require companies to get citizens’ consent to use their biometric information, including a faceprint.
Additionally, OpenAI worried that the tool would say things it shouldn’t about people’s faces, such as assessing their gender or emotional state. OpenAI is figuring out how to address these and other safety concerns before releasing the image analysis feature widely, Ms. Agarwal said.
“We very much want this to be a two-way conversation with the public,” she said. “If what we hear is like, ‘We actually don’t want any of it,’ that’s something we’re very on board with.”
Beyond the feedback from Be My Eyes users, the company’s nonprofit arm is also trying to come up with ways to get “democratic input” to help set rules for A.I. systems.
Ms. Agarwal said the development of visual analysis was not “unexpected,” because the model was trained by looking at images and text collected from the internet. She pointed out that celebrity facial recognition software already existed, such as a tool from Google. Google offers an opt-out for well-known people who don’t want to be recognized, and OpenAI is considering that approach.
Ms. Agarwal said OpenAI’s visual analysis could produce “hallucinations” similar to what had been seen with text prompts. “If you give it a picture of someone on the threshold of being famous, it might hallucinate a name,” she said. “Like if I give it a picture of a famous tech C.E.O., it might give me a different tech C.E.O.’s name.”
The tool once inaccurately described a remote control to Mr. Mosen, confidently telling him there were buttons on it that were not there, he said.
Microsoft, which has invested $10 billion in OpenAI, also has access to the visual analysis tool. Some users of Microsoft’s A.I.-powered Bing chatbot have seen the feature appear in a limited rollout; after uploading images to it, they have gotten a message informing them that “privacy blur hides faces from Bing chat.”
Sayash Kapoor, a computer scientist and doctoral candidate at Princeton University, used the tool to decode a captcha, a visual security check meant to be intelligible only to human eyes. Even while breaking the code and recognizing the two obscured words supplied, the chatbot noted that “captchas are designed to prevent automated bots like me from accessing certain websites or services.”
“A.I. is just blowing through all of the things that are supposed to separate humans from machines,” said Ethan Mollick, an associate professor who studies innovation and entrepreneurship at the University of Pennsylvania’s Wharton School.
Since the visual analysis tool suddenly appeared in Mr. Mollick’s version of Bing’s chatbot last month — making him, without any notification, one of the few people with early access — he hasn’t shut down his computer for fear of losing it. He gave it a photo of condiments in a refrigerator and asked Bing to suggest recipes for those ingredients. It came up with “whipped cream soda” and a “creamy jalapeño sauce.”
Both OpenAI and Microsoft seem aware of the power — and potential privacy implications — of this technology. A spokesman for Microsoft said that the company wasn’t “sharing technical details” about the face-blurring but was working “closely with our partners at OpenAI to uphold our shared commitment to the safe and responsible deployment of AI technologies.”
