ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 개인정보 보호 강화기술(PET)의 개념 및 사례 동
    주간기술동향 2024. 9. 1. 14:51

    ITFIND 주간기술동향 2127호

     

    본 내용의 경우 IITP의 주간기술동향에 대해서 요약한 내용으로 원문은 아래의 링크를 참고 부탁드립니다.

    https://www.itfind.or.kr/streamdocs/view/sd;streamdocsId=bPFSUb3jOJFdsbfCG71A21tpMiqUOXa53ZopePrFGhA

     

     

    발행일: 2024-03-27

     

     

    서론

    거대언어모델 (LLM)은 자연어 안에서 문법, 구문, 단어 등에 대한 규칙성을 찾아내는 인공지능 모델 중 하나로 거대한 데이터를 기반으로한다. 인공지능 기술의 정확도를 높이기 위해서는 데이터의 학습이 중요한데 이 학습 데이터에는 SNS나 포털에 공개된 개인정보 등 미처 거르지 못한 데이터에 개인정보가 포함될 수 있다. 특히, 기업이 고객의 데이터를 활용하여 DB를 구축하는 경우에는 개인정보가 필연적으로 포함되게 된다.

     

    개인정보는 보호의 대상인 동시에 최대한 효과적으로 활용해야하는 자원이기도 하다. 이런 맥락에서 개인정보를 보호하면서도 효용을 보장하는 개인정보 강화기술 (Privacy-Enhanced Technology: PET)의 적용과 활용이 확산되는 추세이다. 

     

    본 내용에서는 PET의 개념과 동향에 대해서 알아보고 실제로 기업과 주요국의 공공 분야 등에서 적용하고 있는 사례 에 대해서 살펴본다

     

    개인정보 보호 강화기술의 개념

    2023년 6월 영국의 개인정보감독기구(ICO)에서 금융, 의료, 리서치, 정부 부문 등의 정보보호책임자(DPO)를 대상으로 'PET 가이드라인'을 발표하였다. 본 가이드라인에서 PET는 개인정보 보호를 위한 방안을 모두 포괄하며 데이터 보호 원칙을 구현하는 수단으로 정의한다.

    또한, OECD에서 2023년 2월에 발표한 '개인정보 보호 강화기술의 등장' 보고서에는 PET를 개인정보의 기밀성을 보호하면서 정보를 수집, 처리, 분석, 공유할 수 있는 디지털 기술과 접근 방식을 총칭한다고 설명하고 있다.

     

    곧 PET는 특정 개인정보 또는 데이터 보호 기능을 달성하거나 개인 또는 자연인 그룹의 개인정보를 위협으로부터 보호하기 위한 기술 프로스세스와 방법 또는 지식을 포괄하는 개념이라고 볼 수 있는 것이다.(목적 범위 내 정보만 최소한 처리, 개인정보 익명화, 가명화 솔루션, 접근권한 통제 등 데이터 보호법에서 요구하는 기술적 조치들이 대표직인 예)

     

    아래 표와 같이 PET는 크게 1. 데이터 난독 처리 도구  / 2. 암호화된 개인정보 처리 / 3. 연합 및 분산 분석 / 4. 데이터 책임 도구 등 네가지 범주로 나눌 수 있다.

     

    PET의 주요 유형 / 출처: OECD, Emerging privacy enhancing technologies-OECD digital economy papers, 2023, p.15

     

    첫 번째로 데이터 난독 처리 도구는 노이즈를 추가하거나 상세 식별정보를 제거하여 데이터를 바꾸어 데이터를 읽을 수 없게 만든다. 대표적인 예로 차분 프라이버시, 합성 데이터, 영지식 증명 (ZKP) 등이 있다. 대표적인 기법인 차분 프라이버시의 개념도는 아래 이미지와 같다. A라는 데이터가 포함된 경우와 포함되지 않은 경우의 차이로부터 개인정보가 도출될 수 있기 때문에 질의 Q에 대한 응답 R에 적절한 분포의 노이즈를 섞어주게 된다. 그러나 개인정보가 재식별되는 경우와 기술 수준과 역량이 부족한 것이 한계점이라 실제 적용 사례도 아직 적다.

     

    차분 프라이버시 / 출처: 삼성 SDS Technology Toolkit 2021

     

    더보기

    1. 차분 프라이버시 (Differential Privacy)

    개념

    • 차분 프라이버시는 데이터를 보호하기 위한 수학적 프레임워크로, 데이터셋에서 개별 데이터 포인트가 제거되거나 추가되었을 때 질의 결과가 크게 달라지지 않도록 보장하는 방법입니다.
    • 이를 통해 데이터셋에 특정 개인의 정보가 포함되었는지 여부를 숨길 수 있습니다.
    • 노이즈를 추가하여 개별 데이터 포인트가 질의 응답에 미치는 영향을 최소화함으로써 개인 정보가 유출될 위험을 줄입니다.

    주요 특징

    • 노이즈 추가: 원래 데이터에 노이즈를 추가하여 결과를 변형시킴으로써 개별 데이터의 기여도를 숨김.
    • 개인 정보 보호: 노이즈의 적절한 적용으로 인해 질의 응답으로부터 개인의 정보가 도출될 가능성이 낮아짐.
    • 응용: 정부 통계, 대규모 데이터 분석에서 개인정보 보호를 위한 강력한 도구로 사용됨.

    한계점

    • 노이즈 추가로 인해 데이터의 정확도가 저하될 수 있음.
    • 기술적 역량이 부족할 경우 효과적으로 적용하기 어려울 수 있음.

    2. 합성 데이터 (Synthetic Data)

    개념

    • 합성 데이터는 실제 데이터를 기반으로, 비슷한 특성을 가지지만 실제 데이터를 포함하지 않는 새로운 데이터셋을 생성하는 방법입니다.
    • 합성 데이터는 원래 데이터셋의 통계적 특성을 유지하면서도 개인정보를 포함하지 않도록 설계됩니다.

    주요 특징

    • 개인 정보 보호: 실제 개인 데이터를 사용하지 않고도 유사한 분석 결과를 도출할 수 있어, 개인정보 보호가 강화됨.
    • 유연성: 다양한 시나리오에서 실제 데이터를 대신해 사용할 수 있음.
    • 응용: 기계 학습 모델 훈련, 테스트 데이터 생성, 제품 개발 등 다양한 분야에서 사용 가능.

    한계점

    • 생성된 데이터가 원래 데이터의 특성을 완벽하게 반영하지 못할 수 있음.
    • 합성 데이터의 품질은 생성 알고리즘의 성능에 크게 의존함.

    3. 영지식 증명 (Zero-Knowledge Proofs, ZKP)

    개념

    • 영지식 증명은 한 쪽이 다른 쪽에게 어떤 정보도 누설하지 않고, 특정 진술이 참임을 증명할 수 있는 암호학적 기법입니다.
    • 증명자가 자신이 어떤 정보를 알고 있음을 증명할 수 있지만, 그 정보 자체를 공개하지 않고도 이를 입증할 수 있습니다.

    주요 특징

    • 정보 비공개: 정보 자체를 누설하지 않고도 진위를 증명할 수 있음.
    • 보안 강화: 암호화된 상태에서 데이터를 검증할 수 있어, 민감한 정보의 노출을 방지함.
    • 응용: 블록체인, 인증 시스템, 금융 거래에서 주로 사용됨.

    한계점

    • 계산 복잡도가 높아 구현이 어려울 수 있음.
    • 적용 사례가 제한적이고, 아직 대중적으로 사용되지 않음.

     

     

    두 번째는 암호화된 개인정보 처리 도구이다. 개인정보 처리는 그간 보안상 가장 큰 취약점이었는데 암호화하더라도 데이터를 처리할 때는 복호화해야 했기 때문이다. 최근 기술이 발전하면서 데이터를 활용하는 동안에도 암호화된 상태를 유지할 수 있도록 패거다임이 변화했다. 암호화된 개인정보 처리 도구의 예는 동종 암호화 (HE), 다자간 연산 (SMPC), 신뢰할 수 있는 실행 환경 등이 있다. 동종 암호는 아래 그림과 같이 기존 암호화와는 다르게 암호화된 데이터에 대해 직접 계산을 수행할 수 있도록 설계된 수학적 알고리즘이다. 동종 암호화를 적용하면 일반적인 암호 기법과 달리 연산 결과가 원데이터의 연산 결과와 동일하게 산출된다.

     

    그러나 암호화된 데이터의 연산이 일반적인 경우에 비해 연산 비용이 훨씬 높아서 비효율적인것과 데이터가 유출되지 안흔ㄴ 것을 보장하지 못하는 단점이 있다. 

     

    동종 암호화 / 출처: 삼성 SDS Technology Toolkit 2021

     

    더보기

    1. 동종 암호화 (Homomorphic Encryption, HE)

    개념

    • 동종 암호화는 암호화된 상태에서 데이터를 연산할 수 있도록 설계된 암호화 기술입니다.
    • 기존의 암호화 기술과 달리, 데이터를 복호화하지 않고도 암호화된 데이터를 직접 계산할 수 있으며, 결과를 복호화하면 원본 데이터를 복호화한 후 연산한 결과와 동일한 값을 얻을 수 있습니다.
    • 예를 들어, 암호화된 두 숫자를 더하거나 곱할 수 있으며, 결과를 복호화하면 원래 숫자들의 합 또는 곱이 나옵니다.

    주요 특징

    • 보안성 유지: 암호화된 상태에서 데이터 연산이 가능하여, 데이터가 노출되지 않음.
    • 완전 동종 암호화: 덧셈, 곱셈 등 모든 수학 연산을 암호화된 상태에서 수행 가능.
    • 부분 동종 암호화: 특정 연산만 암호화된 상태에서 수행 가능(예: 덧셈만 또는 곱셈만).

    한계점

    • 연산 비용: 암호화된 상태에서 연산을 수행하므로, 계산 비용과 시간이 매우 높아짐.
    • 복잡성: 수학적 알고리즘이 복잡하여 구현과 적용이 어려울 수 있음.

    2. 다자간 연산 (Secure Multi-Party Computation, SMPC)

    개념

    • 다자간 연산은 여러 당사자가 자신의 데이터를 공유하지 않고도 공동으로 계산을 수행할 수 있게 해주는 암호학적 기법입니다.
    • 각 참여자는 자신의 입력값을 다른 참여자에게 노출하지 않으면서, 연산 결과만을 안전하게 공유합니다.
    • 예를 들어, 여러 회사가 서로의 매출 데이터를 공유하지 않고도 총합 매출을 계산할 수 있습니다.

    주요 특징

    • 개인 정보 보호: 각 당사자는 자신의 데이터를 비밀로 유지하면서도 공동 계산에 참여할 수 있음.
    • 분산 연산: 여러 당사자가 연산을 분산하여 수행하므로, 중앙 서버 없이도 계산 가능.

    한계점

    • 통신 비용: 여러 당사자 간의 통신이 필요하므로, 통신 비용이 증가할 수 있음.
    • 복잡성: 프로토콜이 복잡하며, 모든 참여자가 신뢰할 수 있어야 함.

    3. 신뢰할 수 있는 실행 환경 (Trusted Execution Environment, TEE)

    개념

    • 신뢰할 수 있는 실행 환경은 프로세서 내에 보안이 강화된 별도의 영역(보안 영역)을 제공하여, 민감한 데이터와 코드가 안전하게 실행되도록 보장하는 기술입니다.
    • TEE는 하드웨어 기반의 격리 기술로, 일반적인 애플리케이션 실행 환경과 보안 환경을 분리하여 보호합니다.
    • TEE 내부에서 실행되는 데이터와 코드에 대해서는 외부에서 접근할 수 없으며, 운영체제나 하이퍼바이저와 같은 시스템 소프트웨어의 영향을 받지 않습니다.

    주요 특징

    • 격리된 실행: 민감한 데이터와 코드를 격리된 환경에서 안전하게 실행.
    • 보안성 강화: 하드웨어 기반의 보호 기능을 제공하여, 외부 공격으로부터 데이터를 보호.
    • 응용 분야: 모바일 결제, 공인 인증, 금융 거래 등 민감한 데이터 처리가 필요한 분야에서 사용.

    한계점

    • 하드웨어 의존성: 특정 하드웨어 플랫폼에 종속되며, 호환성 문제가 발생할 수 있음.
    • 성능 저하: 보안성 유지에 따른 성능 저하가 발생할 수 있음.

     

    세 번째는 연합 및 분산 분석이다. 이 기술은 작업을 실행하는 자가 접근할 수 없는 데이터를 분석할 수 있도록 해준다. 작업 실행자에게는 통계와 결과만 전달되는 방식이다. 대표적인 연합 학습은 원시 데이터가 전처리되어 처리자에게는 결과만 전달되고 유사 데이터와 결합된다. 따라서 데이터를 처리하는 과정에서 리스크가 상당 부분 줄어든다고 할 수 있다. 

     

    또한, 분산 분석은 여러 노드에 걸쳐 분석을 분산시키는 방식이다. 연합학습과 마찬가지로 이 접근 방식은 처리자가 데이터에 직접 접근하는 것을 허용하지 않는다는 공통점이 있다. 

     

    그러나 연합 및 분산 분석도 여전히 한계는 있는데, 여전히 정보가 유출될 가능성이 있다는 것과 안정적인 연결이 필수적이라는 점이다.

     

     

    민간 분야의 적용 사례

    아래 표는 글로벌 ICT 기업에서 PET를 적용한 실제 주요 사례들이다. 애플과 구글을 비롯한 페이스북, IBM 등에서 실제 비즈니스에 적용한 사례들이 나타나고 있다. 

     

    애플은 2016년 이용자의 프라이버시를 침해하지 않고 행동 패턴을 파악하는 기술을 도입한다면서 차등 프라이버시 기술 도입을 발표했다. IOS 10 업데이트 버전에 이를 포함하면서 자사 소프트웨어 엔지니어들이 불특정 다수 이용자가 아이폰과 아이패드 등 모바일 기기를 어떻게 사용하는지 파악하는데 도움이 될 것으로 평가하였다. 애플은 이외에도 iCloud에 저장하는 데이터를 암호화하고 iMessage에서도 권한이 없는 자의 접근을 어렵게 하는 새로운 보안 기능을 출시 하기도 했다.

     

    ICT 기업들의 PET 적용사례 / 출처: 각종 해외 언론보도 요약

     

    두 번째로 구글은 키보드에 인공지능 기능을 탑재하면서 연합학습 기술을 적용하였다. 평소 이용자의 메시지 내용과 습관을 분석해서 적절한 답장을 보낼 수 있도록 자동으로 추천해주는 '스마트 답장' 기능을 지원했는데, 이를 위해서는 이용자의 내밀한 메시지 내용이나 키보드를 입력하는 습관 등 개인정보의 수집과 학습이 필수적이다. 연합 학습을 통해 사용자 기기의 알고리즘이 개인정보 등을 학습하고 모델을 구축하여 이를 서버로 전송한다. 그러면 서버에서는 여러 스마트폰에서 전송한 모델을 분석하고 업데이트하여 스마트폰으로 배포하는 방식을 활용했다. 개인정보가 아닌 모델만 공유하기 때문에 개인정보의 유출 가능성과 리스크가 작다는 장점이 있다. 

     

    세 번째로 페이스북으로 다자간 연산 방식으로 PET를 적용한 사례이다. 페이스북은 맞춤형 마케팅 분야에서 다자간 연산 MPC 방식을 이용해서 개인정보 보호를 위한 조치를 적용 중에 있다. 광고주 대상으로 결과를 제공하면서 개인정보는 제한하고 있다. 

     

    IBM도 맞춤형 광고와 관련하여 지속적인 연구를 진행하고 있는 것으로 보인다. 웹상의 쿠키와 기타 식별자에 대해 대안 개발을 목적으로 새로운 표준과 기술의 필요성이 증대하면서 IBM에서는 디지털 광고 기술 표준 제정기관으로 2022년 2월 PET 워킹그룹을 신설하였으며, 광고 산업에서도 이용자의 개인정보 보호와 보안 유지를 위한 유용한 수단으로 판단하고 있다.

     

     

    공공 분야의 적용 사례

    공공 분야에서 PET의 적용이 가장 두드러지고 활발한 분야는 통계와 데이터 가공 분야로 기술 적용을 통한 데이터의 가공과 처리이다. 아래 표와 같이 데이터 처리와 관련되는 사례이므로 통계 기관의 사례 중심이며, 네덜란드나 UN의 예처럼 인공지능 학습을 위한 인공지능 학습 데이터 생성을 위한 기술활용이 확대되고 있는 추세이다.

     

    데이터세트의 민감한 개인정보에도 접근이 가능하다는 점이 강력한 장점이다. 그러나 PET가 데이터 처리의 보안 문제를 완전하게 해결해준다고 볼 수는 없기 때문에 합법적이고 공정하며 투명한 처리를 하기 위한 노력은 지속적으로 필요하다.  

     

    ICT 기업들의 PET 적용사례 / 출처: ITFIND 2127호 p.8

Designed by Tistory.