22 research outputs found
Probabilistic Models for Motif Discovery in Biopolymer Sequences
Doctor본 논문에서는 생체고분자 서열의 효과적인 모티프 발굴과 서열 분류를 위한 확률 모델을 제안한다. 서열 모티프는 DNA, RNA, 그리고 단백질과 같은 생체고분자 서열내의 특정 부위에 나타나는 서열 패턴으로 생물학적으로 중요한 기능을 가진다. 그러나 서열 모티프는 그 특성상 길이가 짧고 패턴상의 오류를 허용하므로 이를 정확히 찾는 것은 어려운 문제이다. 이러한 특성으로 게놈 수준에서 모티프를 예측할 때 큰 거짓 양성 및 거짓 음성율을 보인다. 또한 생물학 실험을 통하여 서열 모티프를 찾기 위한 서열 집합을 구성하므로 실험에 따른 불확실성을 고려하는 것도 어려운 문제이다. 이와 같은 문제점을 해결하기 위하여 본 논문에서는 확률 그래프 모델에 기반한 방법을 제안한다. 이를 통하여 모델의 통계적 구조를 시각화 함으로써 추론 및 학습 알고리즘을 보다 쉽게 개발할 수 있다.본 논문은 먼저 식물 단백질의 엽록체 이동에 중요한 서열 모티프를 예측하는 문제를 고려한다. 베이지안 결정 이론 모델을 이용하여 음성 서열에 비해 양성 서열의 특정 그룹에 많이 나타나는 서열 부분을 찾는 교사 학습 알고리즘을 제안한다. 서열 정보를 교사 모델의 입력 특징 벡터로 사용하기 위하여 position specific local gapped alignment로 명명한 새로운 전역 정열 알고리즘을 개발한다. 서열 모티프가 실험으로 검증된 일곱 개의 엽록체 통과 펩타이드를 이용하여 제안한 교사 모델이 패턴 변이성이 큰 단백질 서열 모티프를 예측할 수 있음을 보인다. 또한 서열에서 추출한 특징 벡터를 SVM 분류기에 적용함으로써 엽록체 통과 펩타이드를 예측하는 분류 문제의 정확도를 향상시킬 수 있음을 보인다.단백질의 서열 모티프와 함께 본 논문은 DNA 염기 서열의 모티프를 찾기 위한 다양한 모델을 제안한다. 먼저 양성 및 음성 서열로 이루어진 두 서열 집합을 고려하여 두 집합을 구별하는 서열 패턴을 찾는 구별 모티프 발굴을 위한 확률 모델을 제안한다. 생성 및 구별 모델의 장점을 취한 하이브리드 모델을 이용하여 부분적으로 양성/음성 클래스가 표지된 서열 데이터로부터 모델을 효과적으로 학습한다. 제안한 모델의 성능은 순수한 생성 및 구별 모델의 중간 지점에서 가장 좋음을 보이며 또한 반교사 학습은 클래스가 표지된 서열의 수가 작을 때 효과적임을 보인다.지금까지 개발된 모티프 발굴을 위한 모델은 하나 또는 두 개의 서열 집합을 고려한다. 이를 확장하여 서열 집합의 수가 둘 이상일 때 서열 집합을 여러 개의 군집으로 분류하고 동시에 분류된 군집을 설명하는 서열 모티프를 발굴하는 유한 혼합 모델을 제안한다. 서열 집합의 군집화는 서열의 시그널과 노이즈 비율을 향상시키고 여러 개의 서열 모티프를 동시에 찾을 수 있음을 실험을 통하여 보인다. 또한 여러 개의 서열 집합을 구성하는 방법에 따라 다양한 모티프 발굴 문제에 적용 가능함을 보인다.마지막으로 본 논문은 다양한 세포 반응에서 중요한 전사 인자인 STAT3의 결합 부위를 찾기 위한 방법을 제안한다. 감도를 향상시키고 거짓 양성율을 최소화하기 위하여 모티프에 기반한 비교 알고리즘인 STAT-Finder를 설명한다. 이를 STAT3의 결합 부위를 가진다고 알려진 유전자로 이루어진 데이터를 이용하여 STAT3와 관련된 다양한 모티프 모델을 결합한 것이 성능 향상의 가장 중요한 요인임을 보인다. 또한 STAT-Finder를 이용하여 새로운 STAT3 목표 유전자를 예측하고 이를 실험으로 검증한다.We develop probabilistic models which allow effective motif discovery and sequence classification in biopolymer sequences. Discovering sequence motifs is a difficult problem in practice because they are usually short and degenerate.Such difficulties lead to high false positive and negative rates in prediction especially on a genome-scale. It is also challenging to determine which sequences should be used to find sequence motifs due to uncertainties in compiling sequences from biological experiments. In this thesis, we present several models which take a probabilistic approach based on graphical models to surmount these difficulties. This approach allows us to visualize the statistical structure of the models, and to develop their associated inference and learning algorithms with ease.We start by considering the problem of predicting protein sequence motifs important for targeting to chloroplasts. Using Bayesian decision theoretic models, we provide a supervised approach to find a set of sequence segments that occur morefrequently in a subgroup of positive sequences compared with the negative sequences. A novel global alignment algorithm, called position specific local gapped alignment, is employed to extract numerical features from a sequence, where the features are taken as an input vector in our supervised model. Using seven chloroplast transit peptides with experimentally verified sequence motifs, we demonstrate that the utility of the supervised model of discovering motifs with high sequence variability. Additionally, we show that an SVM-based classifier, relying on the extracted numerical features, leads to significant improvements in classification accuracy to predict chloroplast transit peptides.In the second half of this thesis, we develop methods for discovering sequence motifs in DNA sequences. We first provide a probabilistic model for discriminative motif discovery in which two sets (positive and negative sets) of sequences are considered to search only for patterns that differentiate the two sets. By building a hybrid generative/discriminative model, we better exploit partially labeled sequences. We demonstrate that the best performance is obtained between the purely-generative and the purely-discriminative, and the semi-supervised learning improves the performance when labeled sequences are limited.Turning to multiple sets of sequences, we propose a finite mixture model which simultaneously clusters multiple sets of sequences and finds motifs that relate the clusters. We show that clustering sets of sequences yields clusters of coherent motifs, improving signal-to-noise ratio of input target sequencesand enabling us to identify multiple motifs. We then demonstrate that our model can handle various motif discovery problems, depending on how to constructmultiple sets of sequences.Finally, we develop methods for searching binding sites of STAT3 which is an important transcription factor in diverse cellular responses. We describe our motif-based comparative algorithm, STAT-Finder, which is designed to predict functional binding sites of STAT3 with improved sensitivity and to minimize false positive prediction rates. Applying STAT-Finder into two reference sets containing promoter sequences of known STAT3 target genes, we show that simply combining similar position weight matrices related to STAT3 improves the performance of finding known binding sites of STAT3. We also demonstrate that our approach is able to detect novel binding sites of STAT3 which are confirmed through in vivo binding assays
Determinants of organizational effectiveness on hospital nursing
학위논문(박사)--서울대학교 대학원 :간호학과 간호학전공,2005.Docto
Jong-gyung, Kim
학위논문(박사)--아주대학교 일반대학원 :컴퓨터공학과,2006. 8본 연구는 P2P 환경에서 비동기 클라이언트들을 지원하기 위한 미디어 스트림 전송 기법 및 멀티캐스트 트리 구축 기법 그리고 다기능 구현 기법인 P2Patching을 제안한다.
이 기법은 비동기 클라이언트들의 스트리밍 전송을 위해 전통적 패칭 기법을 P2P 환경에 적합하도록 확장 및 개선한 것으로서 첫째, 피어들의 조인 초기에 조인 지연을 줄이기 위해 사용하고 둘째, 멀티캐스트 트리의 빈번한 단절로 발생하는 손실 스트림을 복원하기 위하여 사용하며 셋째, 다기능 수행 후에 피어의 재생점과 멀티캐스트 전송점 갭(Gap)에 해당하는 부분의 스트림을 패치하기 위하여 사용한다.
그리고 멀티캐스트 트리 구축 방법에 있어서 VOD 특성을 고려하여 가장 우선적으로 조인 지연을, 차선으로 사용 가능한 대역폭을 측정 요소로 설정하여 서버로부터 가장 적은 홉(hop) 수와 가장 큰 대역폭을 가진 하위 계층의 리프 노드에 조인하는 알고리즘을 사용한다. 패칭 서버 선택 알고리즘에서는 패칭 스트림을 원하는 노드의 멀티캐스트 트리에 조인된 위치와 후보 패칭 서버들 사이에 짧은 거리(Hop 혹은 Round Trip Time)를 가진 피어를 선택하는 방법을 사용한다.
또한, 다기능 수행 방법에서는 다기능 수행 클라이언트의 잦은 멀티캐스트 트리의 떠남과 조인 행위로 인한 문제를 개선하기 위하여 네트워크상에서 다수 피어들의 버퍼를 하나의 거대한 분산 메모리 형태로 구성된 버퍼 구조에서 이 클라이언트에게 다기능 스트림을 협력 제공하도록 하고, 다기능 수행을 완료한 클라이언트에게 원하는 위치의 트리로 점프를 허용하는 CISS(Collaborative Interaction Streaming Scheme)을 제안한다.
P2Patching의 특징은 대역폭 파동(Bandwidth Fluctuation)과 피어의 유동성으로부터 스트리밍 서비스 질을 보장하는 정책과 빠른 조인 프로세스를 가능하고 네트워크상에서 트래픽을 분산시키며 프로세스 컨트롤 오버헤드를 줄일 수 있는 장점이 있다.
제안한 기법의 평가를 위하여 본 논문에서 제안하는 기법인 P2Patching과 P2Cast[19] 그리고 DSL[28]에 대한 전송 토플로지 성능 실험과 컨트롤 오버헤드 실험 그리고 Streaming Quality 성능 실험을 하였다. 이 실험 결과에서 본 논문의 기법이 전송 토플로지 성능 면에서는 서비스 요청 거부율이 타 기법보다 평균적으로 8% 정도의 우수성을 보였고 컨트롤 오버헤드 실험에서는 DSL 보다 전체적으로 30% 정도의 우수한 실험 결과를 보여주었다. 또한 스트리밍 서비스 질을 평가하는 GMR 측정에서도 대역폭 파동과 다기능 수행 주기의 변화를 주어 실험한 결과 P2Patching이 DSL보다 대략 30~35% 성능의 우수성을 입증해 보였다.감사의 글 i
국문요약 ii
목차 iv
그림차례 viii
표차례 x
제 1장 서론
제 1절 연구 배경 1
제 2절 연구 목적 3
제 3절 연구 방법 및 내용 4
제 4절 논문의 구성 6
제 2장 관련 연구
제 1절 멀티미디어 스트리밍 개념 7
제 1항 스트림 배분 시스템 정의 7
제 2항 스트리밍과 다운로딩 7
제 3항 VoD 스트림과 라이브 스트림 8
제 2절 VoD 시스템
제 1항 VoD 구성요소 11
제 2항 다기능 행위 14
제 3절 멀티캐스트 기법의 개념과 분류 15
제 1항 IP 기반 멀티캐스트 기법 15
제 2항 응용 계층 멀티캐스트 기법 18
제 4절 다기능 구현 기법 26
제 3 장 기존 응용 계층 멀티캐스트 기법
제 1절 기법들의 고찰 27
제 1항 단일 트리 구조 27
제 2항 다중 트리 구조 34
제 3항 계층 클러스터 구조 37
제 4항 매쉬 기반 구조 41
제 5항 기타 구조 43
제 2절 비교와 분석 45
제 4장 P2Patching 분배 시스템 구현
제 1절 개요 50
제 1항 미디어 특성 51
제 2항 오버레이 네트워크의 동적 환경 52
제 3항 네트워크의 특성 52
제 4항 그 밖의 고려 사항들 53
제 2절 시스템 모델 53
제 3절 가정 및 기호 정의
제 1항 가정 55
제 2항 기호 정의 56
제 4절 P2Patching 구축 방법
제 1항 P2Patching 개요 57
제 2항 제안 확장 패칭 기법 60
제 3항 P2Patching 기본 동작 61
제 4항 P2Patching 버퍼 구조 64
제 5절 멀티캐스트 트리 구축 알고리즘
제 1항 멀티캐스트 스트림 66
제 2항 패칭 서버 선택 알고리즘 71
제 6절 확장 패칭 기법과 제안 버퍼링 기법
제 1항 확장 패칭 기법의 적용 방법 74
제 2항 제안 버퍼링 기법 75
제 7절 결함 복원
제 1항 결함 탐지 방법 79
제 2항 멀티캐스트 트리 복원 80
제 3항 전송 경로의 변경 82
제 4항 트리 루프 제거 83
제 5장 다기능 구현 알고리즘
제 1절 기본 개념 85
제 2절 I-Buffer 동작 86
제 3절 CISS 알고리즘 87
제 4절 다기능 구현 89
제 6장 실험 및 고찰
제 1절 실험 환경
제 1항 네트워크 구성 및 메시지 종류 94
제 2항 실험 측정 방법과 기준 94
제 2절 실험 및 평가
제 1항 전송 토플로지 성능 실험 98
제 2항 컨트롤 오버헤드 실험 102
제 3항 Streaming Quality 성능 실험 105
제 7장 결론 110
참고문헌 113
영문요약 121MasterWe propose an efficient scheme of stream control which transfers media streams based on multicast delivery to clients keeping asynchronous playback points. This method constructs a new way of multicast tree, and provides a new scheme, called P2Patching scheme, to provide VCR-like functionability.
The conventional patching scheme is extended so as to be applied to P2P environment. The proposed scheme reduces initial joining delay and guarantees continuous video playback. The patching scheme has three aims. Firstly, it is designed to reduce initial delay of joining peers. Secondly, it can restore missed streams in case of tree destruction. And, finally, it can patch the streams when a peer should be provided to playback from the requested playback point.
To construct the multicast tree, the property of Video-on-demand system is taken into consideration. To join into the multicast tree, the proposed scheme firstly contacts a peer with the most available bandwidth and if such peer is not available, it contacts next alternative peer who has the least joining delay. And then, it appends to the leaf node with the least hop counts from the server. If the parent of the leaf node has sufficient available bandwidth, it accepts newly joined node as its child. If not, the newly joined node locates to the child of previously joined leaf node. And to select a proper patching server, a peer should find out the closest located peer (least hop counts or shortest round trip time) from it's location in the multicast tree.
To reduce the load, which is generated by frequent joins or departures of peers at the multicast tree during VCR-like functions, we propose a hybrid scheme which uses both general P2P and the patching scheme with the Collaborative Interaction Streaming Scheme(CISS). CISS provides a collaborative VCR-like functionability. It controls streams among peers in the distributed buffer environment of multiple clients. And it provides a peer with jumping functionability to the appropriate multicast session after executing VCR-like interactions.
The benefits from the proposed P2Patching scheme can be summarized by: i) reduction of network overhead by effective bandwidth usage, ii) fast joining process, and iii) distribution of network traffics.
To evaluate the performance of the proposed scheme, we compare it with P2Cast[19] and DSL[28] in terms of the performance of streaming delivery topology, streaming quality, and control overhead. The simulation results show that the performance of streaming delivery is enhanced by 8% and the service request refusal rate is improved by 30% with respect to those of DSL. And it shows about 30~35% of enhancement of performances in the bandwidth fluctuation and segment missing rates in the streaming service
