2020년 3월 22일 일요일

Chp_1 Introduction To Social Media Mining

1.시작하며

소셜미디어가 성장함에 따라, 웹은 활기차고 살아있는 실생활이 되었으며,소셜 미니어의 세계는 수십만의 개개인이 일상활동을 공유하는 시대가 되었다

정보는 citizen journalism(시민기자 정신?)에 의해 수집되고 관리되며 수십 수백만에 의해 소비되며 바로바로 피드백이 온다.
소셜 미디어는 연결되어있고 서로 다른, 장소와 시간에 구분없이 모두 연결되어있고 과거에는 없었던 사람들의 행동을 관찰하는 새로운 랜즈(관찰할수 있게 되었다).
이 소셜 미디어의 랜즈는 우리에게 사람들의 생각과 행동 패턴을 이해할수 있는 황금과도 같은 기회를 제공하고 있다.
부산물로서 개인을 더잘 이해할수 있고 각각 개인에 맞는 컴퓨터 시스템을 디자인할수 있게 함으로서 더 나은 사회를 만들수 있다.
이 새로운 소셜 미디어 세계는 지리적 경계도 없으며 끊임없이 변화하고 있다.
결과적으로 우린 "데이터의 홍수에 허우적 대지만 지식은 목말라있다" 이상황을 데이터 마이닝이 해결해줄수 있을까?
불행히도 소셜 미디어 데이터는 기존 데이터 마이닝이라는 키워드로 다루었던 데이터와는 확연한 차이를 보이는 데이터이다.
엄청난 크기,사용자 생성으로 인한 비정형화,친구와 팔로워-팔로잉등의 다양한 사회적 관계등이 포함되어 있기 때문이다.
이 새로운 타입의 데이터는 새로운 방식의 데이터 분석 방법론이 필요한데 이것은 사회적 이론과 통계학, 데이터 마이닝 방법론이 결합되어야 한다. 새로운 기술과 소셜미디어 분석필드등 다양한 학문의 재휴가 필요한 부분이다



1.1 소셜 미디어 마이닝이란?
소셜 미디어는 실생활과 가상세계의 경계에 존제한다.
우리는 이제 개인(사회적 원자로 알려진)이 어떻게 상호작용하고 공통체(사회분자)가 어떻게 형성되는지 연구하기 위해 사회이론과 컴퓨팅 방법을 통합할수 있게되었다.
소셜 미디어 데이터의 특별한점은 기발한 데이터 마이닝 기술이 다양한 사회적 관계를 지닌 사용자 생성 컨텐츠를 다루는데 효과적이라는 것이다.
이 새로운 기술의 연구 개발의 범위는 데이터 마이닝 산하 소셜미디어 마이닝의 영역 아래 속하는 분야이다.
소셜 미디어 마이닝을 정의하면 소셜 미디어 데이터에서 상징성, 분석, 실행 가능한 패턴의 추출로 정의할수 있다
소셜 미디어 마이닝은 대규모의 소셜 미디어 데이터 조사에 적합한 기본 개념과 알고리즘을 도입하는것인데, 이는 다른 학문들에서 방법론을 가져와 연구하는것이다, 컴퓨터 사이언스,데이터 마이닝, 머신러닝, 소셜 네트워크 분석, 네트워크, 사회과학, 민족학(ethnography), 통계, 최적화, 수학등의 학문의 조합이다.
소셜 미디어 마이닝은 새로운 종류의 데이터 과학자를 양성했는데 이는 사회학, 컴퓨팅에 숙달되어있고 소셜 미디어 데이터의 분석에 강한 강점, 그리고 우리가 아는 분야와의 간극을 해소하는 교두보가 된다(사회학, 컴퓨터 공학의 간극등) 그리고 이를통해 방대한 소셜 미디어의 데이터에서 어떤 분석 방법론이 필요한지 제시하는 역할을 담당할수 있는사람이다.
이런 도구,방법론은 공식적으로 사용될수 있는데, 측적, 모델링을 통해 거대한 소셜 미디어 데이터에서 의미있는 패턴을 추출해 낼수 있다.


1.2 마이닝에서 새로운 도전과제
소셜 미디어 마이닝은 새로운 솔루션이 제시된것보다 많은 문제를 가지고 있는 신흥 분야이다.
다른 학문과 협업의 개념과 이론, 기초이론, 그리고 알고리즘은 거인의 어깨에 올라간것처럼 데이터 마이닝 기술, 컴퓨팅 알고리즘을 이용한 문제해결 방법론에서 확실한 우위를 점할수 있게 해준다
일반적으로 소셜 미디어는 사회원자(개인적이고)성, 속성(컨탠츠,사이트,네트워크등)을 가지는데 이 속성과 사회 원자성은 상호 작용을 가진다.
사회이론과 사회표준 통치 규범은 개인과 실체 사이의 상호작용을 가진다.
효과적인 소셜 미디어 마이닝에서 우린 개개인의 속성의 수집, 상호작용의 측정, 인간 행동의 패턴을 발견해서 이해하는게 필요하다.
소설 미디어 데이터 마이닝은 사용자 생성 컨탠츠와 사회적 관계를 해석하는것으로 정리할수 있다.
이 데이터는 소셜 데이터 마이닝이라는 분야에서 새로운 과제를 제시할만큼 신선한 데이터이다.


빅데이터의 역설
소셜 미디어 데이터는 분명히 큰 사이즈의 데이터이다
하지만 우리가 집중하는 부분은 개개인으로 집중해보려한다, 예를들면 우린 연관 추천등을 만든다고 할때 개개인에 대한 정보는 적을수있다.
이때 우린 소셜미디어에서 독특한 데이터를 사용해야 하는데 이건 다차원, 다양한 소스, 다중 사이트 데이터를 활용해서 효과적 마이닝을 위한 통계정보로 통합해 사용해야 한다.


알맞는 샘플(데이터) 입수하기.
가장 일반적으로 데이터를 입수하는 방법에는 어플리케이션 프로그래밍 인터페이스 즉 API를 이용해 소셜미디어 사이트 데이터를 입수하는것 입니다.
매일 입수할수 있는 데이터의 양은 제한되어있다.
인구분포를 모르는 상황에서 추출한 셈플 데이터가 어떻게 전체 데이터를 대표하는 정보라고 생각할수 있을까요?(연관성을 알수없다는 뜻) 따라서 어떻게 소셜 미디어 마이닝으로 찾은 패턴이 비지니스 환경에서 잘 작동한다고 확신할수 있을까요?


노이즈 제거의 오류
고전적 데이터 마이닝에서, 성공적인 데이터 마이닝은 광범위한 데이터 처리를 기반으로 이루어 졋고 노이즈 제거는 "garbage in and garbage out"으로 자연스러운 현상이였다, 소셜 미디어 데이터는 자연스레 노이즈 데이터를 포함하기 때문이다.
이 데이터를 볼때 우린 두가지 중요한 관찰 포인트를 알수있다.
1.노이즈 제어는 빅데이터의 역설을 악화시켜 중요한 변수 정보 역시 제거될수 있고
2.노이즈의 정의를 내리기 힘들다는점이다. 노이즈의 정의는 하고있는 작업에 따라 다르게 정의되기 때문이다


평가의 딜레마.
데이터 마이닝 평가의 표준작업에서 보편적으로 쓰는 기준이 있음.
예를들면 데이터 셋은 트레이닝과 테스트 셋을 나누어서 생각하는것이다.
트레이닝 데이터는 학습에만 쓰이고 테스트 데이터는 테스팅에만 사용된다.
하지만 소셜미디어 마이닝에는 이런 룰이 적용되지않는다.
소셜 미디어 데이터 마이닝의 패턴을 평가 한다는것은 불가능한 도전과 같다.
다른의미로 신빙성이 있는 평가 없이 어떻게 타당성 있는 패턴인지 알수 있을까?
이책에서는 기본적인 컨샙과 기초적 원리를 제시해 독자들에게 소셜 미디어 마이닝에서 패턴 평가등의 과제를 해결할수 있도록 돕는다.


1.3 책의 개요와 독자 가이드

이책은 3개의 부분으로 나눌수 있다.

파트1.소셜 미디어 마이닝의 이해와 기초적인 마이닝 아웃라인을 제시한다.


파트2,커뮤니티와 상호작용에 대해 설명한다,커뮤니티가 발견되는지, 상호작용을 하는지,소셜 미디어에서 정보가 전파되는 방법이 포함됨.

파트3,어플리케이션으로 소셜미디어 마이닝에서 사용되는 프로그램등을 소개한다.

이 책에서는, 마이닝을 위한 추상적 컨샙과 어려운 알고리즘을 이해하기 위해 몇가지 예시를 사용하게 된다.

이 예시들은 사람들끼리 이웃이 되고,메시지를 보내고 컨텐츠를 생산하는 수십 수백만의 이용자가 있는 페이스북,링크드인 트위터 같은 사이트에서 실제로 적용 가능한 이론들을 구체화 시켜서 보여줄것이다.
이런 사이트에서 얻은 데이터가 이론적으로 성립할수 있도록 재 가공하는 작업을 하게 된다.
파트1.챕터 2-5까지는 다음과 같은 질문에 대한 해답을 내린다.

1.소셜 네트워크에서 가장 중요한 사람은 누구인가?
2.사람들은 어떻게 다른 사람과 친구가 될까?
3.사용자 생성 컨텐츠에서 어떻게 패턴을 찾아내야 할까?

다음 파트 2에서 다룰 주제는 이렇게 구성되어 있다:
챕터 6~7은 커뮤니티와 상호작용으로 분석하려 하는 커뮤니티의 형태, 연관성, 커뮤니티의 품질을 평가하는 방법등을 보여준다.
또한 각각의 정보들의 확산되는 방법에 대해서도 살펴본다.
그리고 다음과 같은 질문에 대한 해답에도 집중한다.


1.소셜 네트워크에서 커뮤니티의 식별 방법.
2.어떤사람이 소셜네트워크에 인기있는 포스팅을 했다면 네트워크에서 얼마나 퍼져나갈수 있는가?

파트3 어플리케이션: 챕터 8~10으로서 실생활 문제를 해결하기 위한 소셜 미디어 마이닝 기법을 탐색하는데, 영향도의 조사, 소셜 환경의 추천, 사용자 행동 분석 등을 실시한다.


이를 통해 다음 질문에 대한 답을 가능하게 한다.
1.소셜 네트워크에서의 개개인의 영향도 측정은 어떻게 해야하는가?
2.온라인 상에서 친구나 컨텐츠를 어떻게 추천할수 있는가?
3.온라인에서 행동을 어떻게 분석할수 있을까?
책에 있는 전체적 그림을 재현하기위해, 챕터들 사이에 의존성 그래프를 만들었고(그림1.1) 화살표는 그림에 따른 의존성을 나타낸다.

의존성 그래프를 설명하면, 그래프 챕터는 2부터 시작하며, 소셜 미디어 챕터에 들어가기 전에 챕터 5,8을 읽고 시작하는것이 좋다
또한 컬러로 되있는 챕터가 있는데 이 역시 추상화 부분에서 중요한 챕터이다.
흑백으로 되어있는 챕터는 이 책에서 필수적으로 중요한 부분이다, 가장 밝은 상자는 다른 챕터를 이해하기 위한 기초적 기반이 디는 챕터이다.


이책의 대상 독자는 누구인가?.
컴퓨터 사이언스의 기본적 지식이 있다면 쉽게 이해할수 있는데, 자료구조, 검색, 그래픽 알고리즘등이 선수 지식이 될수 있다.
약간의 선형대수,미적분,산술통계 지식이 있다면 기술적으로 더 쉽게 이해가 가능하며.
데이터 마이닝이나 머신러닝에 대한 지식이 있으면 좋지만 필수는 아닙니다.
이책은 4학년 정도의 학부생 및 대학원 생을 위해 만들어졌습니다.
통계학과 선형대수에 대한 지식이 있는 학생들에게 한학기 분량으로 가르치기 좋게 설계 되어 있습니다.
또한 참고문헌 부분을 집중하면 대학원 세미나 과정에도 활용할수 있습니다.
더 나아가 연구원에게 참고 서적으로 사용되거나, 새로운 분야에서 소셜 미디어 분석을 활용하는 실무자에게 참고서적으로 활용하기 좋다.


1.4 요약

Kaplan 과 Haenlein 이 내린 소셜미디어의 개념이란
"웹 2.0의 기념적 기술적 토대를 기반으로, 사용자 생성 콘텐츠의 생성과 교환을 가능하게 하는 인터넷 기반 응용프로그램의 그룹"으로 정의된다
소셜 미디어에는 소셜 네트워킹을 포함하되 국한되지 않는 많은 범주가 존재하는데, 페이스북이나 링크드인, 마이크로 블로깅에는 트위터, 사진공유에는 플리커, 포토버켓, 피카사 등이 있으며, 뉴스 통합 미디어에는 구글리더, StumbleUpon,피드버너 ,비디오 공유에는 유튜브,메타카페, 라이브 케스팅은 Ustream or Justin.TV , 가상 세계에는 카네바, 온라인게임은 와우, 검색 엔진에는 구글, 빙,ask.com , 인스턴트 메신저 서비스에는 구글톡, 스카이프,야후 메신저등이 있다.

첫번째 소셜 미디어 사이트는 1994년 Geocities에 의해 만들어진 홈페이지 소개 사이트였다.
첫번째 소셜 네트워킹 사이트는 1997년에 만들어진 sixdegree.com 부터 여러 소셜 미디어 사이트가 소개 되었고 수백만의 사용자가 이용했다.
이런 개인들이 모여 가상의 세계를 구성하게 되고 컨텐츠와 사이트를 만들어 서로 상호작용한다.
사회적 규범과 인간 행동이 이 가상 세계를 지배하게 된다.
이러한 인간 행동의 사회적 규범과 모델을 이해하고 이를 이 가상 세계의 관찰과 측정을 결합시켜 소셜 미디어를 체계적으로 분석하고 마이닝할수 있다.
소셜 미디어 마이닝의 기능을 나열하면, 분석, 소셜미디어에서 의미있는 패턴 추출을 통해 상호작용에 대한 원인과 결과를 도출한다고 볼수있다.
이건 여러 학문을 아우르는 분야로 컴퓨터 사이언스, 데이터마이닝, 머신러닝, 소셜네트워크 분석 , 네트워킹, 사회학, 민족학, 통계학, 최적학, 수학등이 포함되는 분야이다.
소셜 미디어 마이닝이 당면하고 있는 과제로는 빅데이터의 역설, 적절한 샘플의 생성, 노이즈 제거의 오류, 평가의 딜레마 등이 있다.
소셜 미디어 마이닝은 가상 세계의 소셜미디어를 분석 가능한 방법으로 표현하고, 측정해서 상호작용을 이해할수 있게 한다.
추가적으로, 소셜 미디어 마이닝은 패턴을 분석하는데 필요한 도구역시 제공하는데 이 도구는, 정보의 확산분석,영향력과 동질감의 연구, 효과적인 추천, 소셜 미디어에서의 사회적 행동분석등을 제공한다.


1.5 참고 페이지 목록
소셜 미디어에서의 고전 노트(historical note)는 [81, 173, 141, 150, 115] 를 보면 알수 있다.
Kaplan 과 Haenlein 은 [141]에 있으며 통합화 프로젝트, 블로그, 컨텐츠 커뮤니티, 소셜네트워킹 사이트, 가상게임 세계, 가상 소셜 세계의 카테고리화의 정보를 제공한다.
이 책에서 정의한 소셜 미디어는 추상적인 요소로, 사회적 원자(개인), 실체, 상호작용으로 볼 수 있다.

[149]에서 추상화에 대한 세부사항을 담았다.
소셜 미디어를 분석하는데 특성,대화, 공유, 존재, 관계, 명성, 그룹으로서 7개의 부분으로 나눌수있다.
이때 7개의 부분에서 어떤 부분에 집중하는지에 따라 사회적 관점이 다르게 보일수 있다는게 중요한 논점이다.

예를들면 유튜브는 링크드인보다 더 기능적 그룹을 가진다는것이다.

소셜미디어 마이닝은 다양한 분야에서 기술적 부분을 가져와서 이루어진다.
[120, 280, 92, 174, 51]에 있는 데이터 마이닝과 웹 마이닝 참고자료는 이책을 이해하는데 더 좋게 사용될수 있으며, 머신러닝은 [40], 텍스트 패턴 인식은 [75], 네트워크 사이언스와 소셜 네트워크 분석은 [78, 253, 212, 140, 28]을 참고하면 좋다.
최적화(optimization)은 [44, 219, 228, 207] , 알고리즘은 [61, 151]을 참고하길 바란다.
일반적으로 사용할수 있는 사회연구 방법론의 참고 자료는 [36, 47] 페이지에 있다.
각장의 마지막에는 일반적으로 참고할수있는 자료를 명시해 두었다.
이책은 소셜 미디어에서 비-멀티미디어 데이터에 대해 논한다.
49를 보면 멀티미디어 데이터 분석에 대해 다룬다.

최근 발전된 소셜미디어 마이닝에 대한 정보와 기사는 IEEE와 TKDE,등 다양한 기술 관련 레퍼런스를 참조하면 좋다(하단에는 다양한 기술협회, 잡지이름을 나열해두었기 때문에 생략)

댓글 없음:

댓글 쓰기