1. 상수 상수 : 변하지 않는 값 상수를 선언 : final 키워드 사용 package first; public class Helloworld { public static void main(String[] args) { final int MAX_NUM = 100; final float PI = 3.14; PI = 3.15 } } PI의 값은 변하지 않음, 오류 발생 2. 리터럴 : 프로그램에서 사용되는 모든 숫자, 값, 논리 값 (ex. 10, 3.14, 'a', true) -리터럴에 해당되는 값은 특정 메모리의 공간인 상수 풀에 있음 -필요한 경우 상수 풀에서 가져와 사용 -상수 출에 저장할 때 정수는 int, 실수는 double로 저장 -따라서 long이나 float 값으로 저장해야 하는 경우 식별..
package first; public class Helloworld { public static void main(String[] args) { long num = 1234569000L; double dnum = 3.14; float fnum = 3.14f; var vnum = 3.14; } } long형을 사용할 때 숫자 뒤에 "L" 붙여줌 float형을 사용할 때 숫자 뒤에 "F" 붙여줌 자료형 없이 변수 사용할 떄 "var" 사용 package first; public class Helloworld { public static void main(String[] args) { char ch = 'A'; System.out.println(ch); System.out.println((int)ch); c..
package first; public class Helloworld { public static void main(String[] args) { int num = 10; //10진수 int bNum =0B1010; //2진수 int oNum = 012; //8진수 int hNum = 0XA;//16진수 System.out.println(num); System.out.println(bNum); System.out.println(oNum); System.out.println(hNum); } }
출처 : k-mooc 여인권 교수님, 통계학의 이해1 1.산포(dispersion, 퍼짐) -자료들이 얼마나 퍼져 있는지를 나타내는 측도 -중심위치가 얼마나 안정적인지에 대한 중요한 정보를 제공 ◦ 자료가 조밀하게 모임 ⇒ 중심위치의 변동성이 작아짐 ◦ 자료가 넓게 퍼짐 ⇒ 중심위치(평균)의 변동성이 커짐 1) 범위(Range) -자료 중 가장 큰 값과 작은 값의 차이 범위 $$범위 = x_n-x_1 -ex 취업률 자료에서 최고 취업률은 91.3%이고 최저 취업률은 19.6% ⇨ 범위: 91.3% - 19.6% = 71.7% -최대값과 최솟값에만 영향을 받아 자료 전체의 퍼져 있는 정도 파악 불가 2) 사분위(간) 범위(Interquartile-Range) -사분위수(quartile) : 자료를 동일한 ..
출처 : k-mooc 여인권 교수님, 통계학의 이해1 1. 표본중앙값(sample median, 표본중위수) - 자료를 크기순서대로 나열했을 때 중간에 있는 값 - 순서통계량(order statistics): 표본을 오름차순으로 정렬한 것 $$(x_1
출처 : k-mooc 여인권 교수님, 통계학의 이해1 1. 중심위치 1) 표본평균 (1)무게중심이란 -일정한 점을 기준으로 양쪽의 거리가 같게 하는 그 점을 무게중심이라고 함 -평균은 일정 값들의 중심이 됨 -즉 평균 = 무게중심 (2)표본비율 ex) 8명의 월급 실수령액 250, 275, 260, 265, 265, 270, 400, 235 8명의 수령액 합은 2220만원 평균은 2220/8 = 277.5 *이상점 -자료 중 400만원ㅇ이라는 값이 다른 자료와 큰 차이가 있어 평균이 커짐 -무게 중심으로써 제대로 된 역활을 하지 못함 -대부분의 관측값으로 부터 멀리 떨어져 있는 일부 관측값을 이상점이라고 함 -이상점의 포함 여부에 따라 표본평균 값에 차이가 크게 남 > 이상점에 로버스트(robust) 하..
출처 : k-mooc 여인권 교수님, 통계학의 이해1 1. 범주화 : 계급의 수와 경계값(크기) 결정 -계급수 수 결정 :제곱근 방법, Sturges 공식, Rice 공식 등의 공식을 이용하여 분석자가 자료의 특성을 고려하여 결정 -계급경계 : 간격(크기)과 시작점과 끝점을 지정. 기본적으로 동일 간격이고 자료의 구조와 설명을 고려해 선택. -50% 이상 취업률을 가지는 학과의 비중 : 1-0.214 = 0.786 (78.6% 학과가 50% 이상의 취업률을 가지는 학과) 2. 그래프를 이용한 자료정리 1) 점도표(dot plot) :각 관측값의 우치에 점을 표시하고 같은 관측값이 있는 경우 위로 누적 2) 히스토그램 : 수치자료를 특히 연속자료으 분포형태를 표시 -계급의 상대도수를 사각형의 면적으로 표시..
출처 : k-mooc 여인권 교수님, 통계학의 이해1 1. 도수 분포표(Frequency table) : 각 범주에 몇 개의 관책개체가 있는지를 정리한 표 -도수(frequency) :범주에 속한 관측개체의 수(=빈도) -상대도수(relative frequency) : 전체 자료 중 해당 범주에 속한 자료의 비율 2. 원도표 :원에 각 범주에 해당되는 비율만큼 각도를 분할하여 표시 -해당 범주의 각도 = 비율 x 360도 -원을 사용하는 이유는 각 범주의 각도의 면적의 비가 항상 동일하기 때문(1/4만큼 그어지면 그것이 면적의 1/4) 3. 막대그래프 -차이에 대한 인지 순서: 동일한 척도에서의 위치, 길이, 각도와 기울기, 면적, 부피, 색상과 밀도 순 -각 범주의 도수나 상대도수를 막대의 길이로 표시..
출처 : k-mooc 여인권 교수님, 통계학의 이해1 자료의 종류와 특성 -통계분석 방법은 자료의 속성과 분석 목적에 따라 달라짐 -분석방법의 적절성 : 분석하고자 하는 자료가 분석방법에서 가정한 조건을 어마나 만족하는지에 따라 결정 -> 자료의 속성에 따른 분류 필요 1.변수(variable) -일변량 자료(univariate data): 하나의 변수만 있는 자료 -다변량 자료(multivariate data): 여러 개의 변수로 이루진 자료 ∙ ->변수들 간 관련성 유무 2. 관측개체(observation, 관측값(치)) -관측개체들 간 관련성 3. 자료의 분류 1) 범주형 자료 (1)명목형 자료(nominal data) :숫자로 바꾸어도 그 값이 크고 작음을 나타내느 것이 아니라 단순히 범주를 표시..
출처 : k-mooc 여인권 교수님, 통계학의 이해1 1. 확률표본추출 : 모집단을 구성하는 모든 추출단위에 대해 표본으로 추출된 확률을 알 수 없는 추출법 1) ex. 모집 1,2,3,4,5 에서 두 개의 표본이 뽑힐 확률 :2/5 2) 종류 단수확률추출, 계통추출, 집락추출, 층화확률추출 등 3) 특징 튿정한 표본이 선정될 확률을 토대로 추정오차를 과학적으로 설명 가능 4) 확률표본추출방법 (1) 단순확률추출 (simple random sampling) - 크기가 N인 모집단에서 크기 n인 표본을 무작위로 추출 - 모든 단위들이 표본에 선택될 확률이 동일 - 실제 대규모 조사에서 거의 사용되지 않지만 다른 모든 표본추출방법의 기초가 됨 (2) 계통추출(systematic sampling) -표집틀에서..
append : 추가 inser : 특정 위치에 추가 pop : 특정 위치의 데이터 값을 삭제 remove : 특정 데이터 값 삭제 index : 특정 데이터를 찾아줌 sum : 리스트 값을 다 더해줌 max : 리스트에서 제일 큰 값을 표시 min : 리스트에서 제일 작은 값을 표시 sort : 오름차순 sort(revers=Ture) : 내림차순 표시 clear : 리스트 삭제
*속성값으로 원하는 데이터 가져오기 1. data = soup.find('p', class_='cssstyle') 2. data = soup.find('p', 'cssstyle') 3. data = soup.find('p', attrs = {'align': 'center'}) 4. data = soup.find(id='body) *find_all() 함수 이용하기 -해당되는 모든 태그의 내용을 가져옴 -데이터를 리스트 형식으로 가져옴
*크롤링 순서 1. 라이브러리 임포트 2. 웹페이지 가져오기(HTML 파일 가져오기) 3. 웹페이지 파싱하기 4. 필요한 데이터 추출하기 5. 추출한 데이터 활용하기 1. 라이브러리 임포트 *필요 라이브러리 - requests : 웹페이지 가져오기 라이브러리 - bs4(BeautifulSoup) : 웹페이지 분석 (크롤링) 라이브러리 2. 웹 페이지 가져오기 3. 웹페이지 파싱하기 - 문자열의 의미 분석 - BeautifulSoup 라이브러리를 통해서 HTML 파일을 파싱한 정보가 들어감 ex) Soup에 HTML 파일을 파싱한 정보가 들어감 4. 필요한 데이터 추출하기(크롤링의 핵심) -soup.find() 함수로 원하는 부분 지정 -변수 get_text() 함수로 추출한 부분을 가져올 수 있음
문자열과 내장함수 .upper() : 대문자화 .lower() : 소문자화 .find() : 문자를 찾는 함수 (인덱스 번호를 반환) .count() : 문자 갯수를 알려주는 함수 len() : 문자 길이 출력 함수 .isupper() : 대문자이면 참이 되는 함수 .islower() : 소문자면 참이 되는 함수 .alphea() : 알파벳만 참이 되는 함수
출처 : k-mooc 여인권 교수님, 통계학의 이해1 1. 모집단(population) : 조사할 모든 연구 대상들을 모아놓은 집단, 즉 모든 개체들을 모아놓은 집단 2. 전수조사 : 모집단 전체를 대상으로 하는 조사 3. 표본(sample) : 모집단으로부터 선택된 일부의 개체 *통계학이란 관심 또는 연구의 대상인 모집단의 특성을 파악하기 위해 모집단부터 일부의 자료(표본)를 수집하고 수집된 표본을 정리, 요약, 분석하요 표본의 특성을 파악한 후 표본의 특성을 이용해 모집단의 특성에 대해 추론하는 원리와 방법을 제공하는 학문
현재 대학교에서 컴퓨터공학을 전공하고 있는 대학생입니다. 빅데이터 전문가가 되기 위한 공부 내용들 및 취미 생활인 주식에 관하여 포스팅할 예정이니 참고하실 부분 있으시면 편하게 봐주세요!