part of refactor the process

胡斌
Commit b1638b9c13170292914133a35008f187a8488a71 b1638b9c 1 parent 3fa8d571
merge_av/merge_av.cpp
--- a/merge_av/merge_av.cpp
查看文件 @b1638b9
+++ b/merge_av/merge_av.cpp
查看文件 @b1638b9
@@ -402,18 +402,44 @@ int merge_audio_file(vector<string> & files, const char * dest)
 	return 0;
 }
 
- int process_files(const char * output_dest_file)
- {
- 	vector<fileinfo>  & filesaudio = media_files[type_audio];
- 	vector<fileinfo>  & filesvideo = media_files[type_video];
+ class MergeProcess{
+ public:
+ 	MergeProcess(vector<fileinfo>  & a, vector<fileinfo>  & v);
+ 	int process_files(const char * output_dest_file);
+ 
+ protected:
+ 		void init();
+ 		void adjust_va_timestamp();
+ 		void merge_left_audio();
+ 		int process_video_ahead_of_audio();
+ 		int process_video_behind_audio();
+ 		int process_video_align_audio();
+ 		int process_video_loop();
+ 		int process_va();
+ 
+ protected:
+ 	vector<fileinfo>  & filesaudio;
+ 	vector<fileinfo>  & filesvideo;
 	vector<string > merged_files;
 	vector<string>  tmp_files;
- 	int nv = 0;
- 	int nf = 0;
- 	char destfile[1024],audio_file[1024],pic_file[1024];
+ 	int nv; // the index of processing video file
+ 	int nf;//the index of processing target merged ts
+ 	char destfile[1024], audio_file[1024], pic_file[1024];
 	char blank_pic_file[1024];
 	char silence_aac_file[1024];
+ 	int audio_index;
+ 	int audio_start;
+ 	fileinfo audio;
+ 	fileinfo video;
+ };
+ 
+ MergeProcess::MergeProcess(vector<fileinfo> & a, vector<fileinfo> & v) :filesaudio(a), filesvideo(v)
+ {
+ 	init();
+ }
 
+ void MergeProcess::init()
+ {
 	strcpy(blank_pic_file, cfg_path);
 	strcat(blank_pic_file, "blank.jpg");
 
@@ -422,318 +448,365 @@ int process_files(const char * output_dest_file)
 
 	check_audio_duration();
 	get_duration_from_video_file();
- 	//don't split video, for a video, using merged audios to mix with it
- 	//for audio, mix with video or jpg
- 
- 	if (filesvideo.size()) {//has video files
- 		if (filesaudio.size()){
- 			for (int i = 0; i < filesaudio.size(); i++){  //
- 				fileinfo audio = filesaudio[i];
- 				float audio_start = audio.start_time;
+ 	nv = 0;
+ 	nf = 0;
+ 	audio_index = 0;
+ }
 
- 				for (int j = i; j < filesaudio.size(); j++){
- 					filesaudio[j].start_time -= audio_start;
- 					filesaudio[j].end_time -= audio_start;
- 				}
+ void MergeProcess::adjust_va_timestamp()
+ {
+ 	fileinfo audio = filesaudio[audio_index];
+ 	float audio_start = audio.start_time;
 
- 				for (int j = nv; j < filesvideo.size(); j++) {
- 					filesvideo[j].start_time -= audio_start;
- 					filesvideo[j].end_time -= audio_start;
- 				}
+ 	for (int j = audio_index; j < filesaudio.size(); j++){
+ 		filesaudio[j].start_time -= audio_start;
+ 		filesaudio[j].end_time -= audio_start;
+ 	}
 
- 				audio = filesaudio[i];
+ 	for (int j = nv; j < filesvideo.size(); j++) {
+ 		filesvideo[j].start_time -= audio_start;
+ 		filesvideo[j].end_time -= audio_start;
+ 	}
+ }
 
- 				audio_start = 0;//for a new processing audio,the start is 0
 
- 				for (; nv < filesvideo.size(); nv++) {
- 					fileinfo video = filesvideo[nv];
+ void MergeProcess::merge_left_audio()
+ {
+ 	if (audio_start < audio.end_time){
+ 		sprintf(destfile, "%d_%s", nf, audio.name.c_str());
+ 		split_audio(audio.name.c_str(), audio_start, audio.end_time - audio_start, destfile);
+ 		tmp_files.push_back(destfile);
+ 
+ 		sprintf(destfile, "%d.ts", nf);
+ 		if (nv < filesvideo.size()) {
+ 			fileinfo video = filesvideo[nv];
+ 			sprintf(pic_file, "%s.jpg", video.name.c_str());
+ 			get_video_first_frame_jpeg(video, pic_file);
+ 			tmp_files.push_back(pic_file);
+ 		}
+ 		else {
+ 			strcpy(pic_file, blank_pic_file);
+ 		}
+ 		merge_audio_pic(audio, nf, pic_file, destfile);
+ 		merged_files.push_back(destfile);
+ 		nf++;
+ 	}
+ }
 
- 					if (video.start_time < audio_start - 0.1)
- 					{//video is much more ahead of audio,try padding silence first
- 						if (video.end_time < audio_start + 0.1) {
- 							sprintf(destfile, "%d_silence.aac", nf);
- 							split_audio(silence_aac_file, 0, video.end_time - video.start_time, destfile);
- 							tmp_files.push_back(destfile);
- 							sprintf(destfile, "%d.ts", nf);
- 							merge_audio_video(destfile, video.name.c_str(), destfile);
- 							merged_files.push_back(destfile);
- 							nf++;
- 							continue; //for next video
- 						}
- 						else {
- 							// combine a audio file for the video
- 							double silence_audio_start = audio.end_time;//maybe need append silence 
- 							double silence_audio_end = video.end_time;
- 
- 							bool need_append_silence = true;
- 							bool to_next_video = false;
- 
- 							vector<std::string > merge_audio_files;
- 							sprintf(destfile, "%d_0_silence.aac", nf);//a duration of silence
- 							split_audio(silence_aac_file, 0, audio_start - video.start_time, destfile);
- 							merge_audio_files.push_back(destfile);
- 							tmp_files.push_back(destfile);
- 
- 							if (audio.end_time < video.end_time + 0.1 && audio.end_time > video.end_time - 0.1) {
- 								merge_audio_files.push_back(audio.name); //whole audio file,just fit
- 								audio_start = audio.end_time + 0.1;
- 								need_append_silence = false;
- 							}
- 							else if (audio.end_time > video.end_time){ //split part of audio file
- 								sprintf(destfile, "%d_%s", nf, audio.name.c_str());
- 								merge_audio_files.push_back(destfile);
- 								tmp_files.push_back(destfile);
- 								split_audio(audio.name.c_str(), audio_start, video.end_time - audio_start, destfile);
- 								audio_start = video.end_time;
- 								need_append_silence = false;
- 							}
- 							else {
- 								merge_audio_files.push_back(audio.name);
- 
- 								for (; i + 1 < filesaudio.size(); i++){//since video is not finished,try find next audio
- 									audio = filesaudio[i + 1];
- 									if (audio.start_time < video.end_time) {//next audio should split to fit the video
- 										silence_audio_end = audio.start_time;
- 
- 										sprintf(destfile, "%d_%d_silence.aac", nf, i);
- 										split_audio(silence_aac_file, 0, silence_audio_end - silence_audio_start, destfile);
- 										merge_audio_files.push_back(destfile);
- 										tmp_files.push_back(destfile);
- 
- 										if (audio.end_time > video.end_time - 0.1 && audio.end_time < video.end_time + 0.1) {//just match
- 											merge_audio_files.push_back(audio.name);
- 											need_append_silence = false;
- 											audio_start = audio.end_time + 0.1;
- 											i++;//this audio is used
- 											break;
- 										}
- 										if (audio.end_time > video.end_time){
- 											sprintf(destfile, "%d_%s", nf, audio.name.c_str());
- 											merge_audio_files.push_back(destfile);
- 											tmp_files.push_back(destfile);
- 											split_audio(audio.name.c_str(), 0, video.end_time - audio.start_time, destfile);
- 											need_append_silence = false;
- 											//adjust timecode for the audio is part left
- 											float cur_audio_start = video.end_time - audio.start_time;
- 
- 											audio_start = audio.start_time;
- 
- 											for (int j = i + 1; j < filesaudio.size(); j++){
- 												filesaudio[j].start_time -= audio_start;
- 												filesaudio[j].end_time -= audio_start;
- 											}
- 
- 											for (int j = nv; j < filesvideo.size(); j++) {
- 												filesvideo[j].start_time -= audio_start;
- 												filesvideo[j].end_time -= audio_start;
- 											}
- 											i++;
- 											audio = filesaudio[i];
- 											audio_start = cur_audio_start;
- 
- 											to_next_video = true;
- 
- 											break;
- 										}
- 										merge_audio_files.push_back(audio.name);//whole audio should be appended
- 										silence_audio_start = audio.end_time; //adjust the silence start
- 									}
- 									else {
- 										break;//no need for next audio
- 									}
- 								}//end audio find for the video
- 							}//end else
- 
- 							if (need_append_silence) {
- 								sprintf(destfile, "%d_silence.aac", nf);
- 								split_audio(silence_aac_file, 0, silence_audio_end - silence_audio_start, destfile);
- 								merge_audio_files.push_back(destfile);
- 								tmp_files.push_back(destfile);
- 							}
- 
- 							sprintf(audio_file, "%d_merged.aac", nf);
- 							merge_audio_file(merge_audio_files, audio_file);
- 
- 
- 							sprintf(destfile, "%d.ts", nf);
- 							merge_audio_video(audio_file, video.name.c_str(), destfile);
- 							merged_files.push_back(destfile);
- 							nf++;
- 
- 							if (!to_next_video){
- 								nv++;//this video is processed
- 								break;
- 							}
- 						}//end need combine
- 					}//end video is ahead of audio
- 					//-----VS-----
- 					//AS----------
- 					if (video.start_time - audio_start > 0.1) {//video is behind audio too much
- 						sprintf(audio_file, "%d_%s", nf, audio.name.c_str());
- 						if (video.start_time < audio.end_time - 0.1){
- 							split_audio(audio.name.c_str(), audio_start, video.start_time - audio_start, audio_file);
- 							audio_start = video.start_time;
- 						}
- 						else {
- 							split_audio(audio.name.c_str(), audio_start, audio.end_time - audio_start, audio_file);
- 						}
- 						tmp_files.push_back(audio_file);
+ int  MergeProcess::process_video_ahead_of_audio()
+ {
+ 	if (video.end_time < audio_start + 0.1) {
+ 		sprintf(destfile, "%d_silence.aac", nf);
+ 		split_audio(silence_aac_file, 0, video.end_time - video.start_time, destfile);
+ 		tmp_files.push_back(destfile);
+ 		sprintf(destfile, "%d.ts", nf);
+ 		merge_audio_video(destfile, video.name.c_str(), destfile);
+ 		merged_files.push_back(destfile);
+ 		nf++;
+ 		return 0; //for next video
+ 	}
+ 	else {
+ 		// combine a audio file for the video
+ 		double silence_audio_start = audio.end_time;//maybe need append silence 
+ 		double silence_audio_end = video.end_time;
+ 
+ 		bool need_append_silence = true;
+ 		bool to_next_video = false;
+ 
+ 		vector<std::string > merge_audio_files;
+ 		sprintf(destfile, "%d_0_silence.aac", nf);//a duration of silence
+ 		split_audio(silence_aac_file, 0, audio_start - video.start_time, destfile);
+ 		merge_audio_files.push_back(destfile);
+ 		tmp_files.push_back(destfile);
+ 
+ 		if (audio.end_time < video.end_time + 0.1 && audio.end_time > video.end_time - 0.1) {
+ 			merge_audio_files.push_back(audio.name); //whole audio file,just fit
+ 			audio_start = audio.end_time + 0.1;
+ 			need_append_silence = false;
+ 		}
+ 		else if (audio.end_time > video.end_time){ //split part of audio file
+ 			sprintf(destfile, "%d_%s", nf, audio.name.c_str());
+ 			merge_audio_files.push_back(destfile);
+ 			tmp_files.push_back(destfile);
+ 			split_audio(audio.name.c_str(), audio_start, video.end_time - audio_start, destfile);
+ 			audio_start = video.end_time;
+ 			need_append_silence = false;
+ 		}
+ 		else {
+ 			merge_audio_files.push_back(audio.name);
 
- 						sprintf(pic_file, "%s.jpg", video.name.c_str());
- 						get_video_first_frame_jpeg(video, pic_file);
- 						tmp_files.push_back(pic_file);
+ 			for (; audio_index + 1 < filesaudio.size(); audio_index++){//since video is not finished,try find next audio
+ 				audio = filesaudio[audio_index + 1];
+ 				if (audio.start_time < video.end_time) {//next audio should split to fit the video
+ 					silence_audio_end = audio.start_time;
 
- 						sprintf(destfile, "%d.ts", nf);
- 						merge_audio_pic(audio_file, pic_file, destfile);
- 						merged_files.push_back(destfile);
- 						nf++;
+ 					sprintf(destfile, "%d_%d_silence.aac", nf, audio_index);
+ 					split_audio(silence_aac_file, 0, silence_audio_end - silence_audio_start, destfile);
+ 					merge_audio_files.push_back(destfile);
+ 					tmp_files.push_back(destfile);
 
- 						if (video.start_time >= audio.end_time - 0.1){//all audio file no video, to next audio
- 							audio_start = audio.end_time + 0.1;//no audio left
- 							break;
- 						}
+ 					if (audio.end_time > video.end_time - 0.1 && audio.end_time < video.end_time + 0.1) {//just match
+ 						merge_audio_files.push_back(audio.name);
+ 						need_append_silence = false;
+ 						audio_start = audio.end_time + 0.1;
+ 						audio_index++;//this audio is used
+ 						break;
 					}
- 					//----AS--------
- 					//----VS--------
- 					else if (audio_start - video.start_time < 0.1){
- 
- 						if (audio.end_time > video.end_time){ //this video finish, to next video
- 							sprintf(destfile, "%d_%s", nf, audio.name.c_str());
- 							split_audio(audio.name.c_str(), video.start_time, video.end_time - video.start_time, destfile);
- 							tmp_files.push_back(destfile);
- 
- 							audio_start = video.end_time;
- 							sprintf(destfile, "%d.ts", nf);
- 							merge_audio_video(audio, nf, video, destfile);
- 							merged_files.push_back(destfile);
- 							nf++;
- 						}
- 						else if (video.end_time - audio.end_time < 0.1){//just fine, this audio file finish
- 							sprintf(destfile, "%d_%s", nf, audio.name.c_str());
- 							split_audio(audio.name.c_str(), video.start_time, audio.end_time - video.start_time, destfile);
- 							tmp_files.push_back(destfile);
- 
- 							sprintf(destfile, "%d.ts", nf);
- 							merge_audio_video(audio, nf, video, destfile);
- 							merged_files.push_back(destfile);
- 							audio_start = audio.end_time + 0.1;//no audio left
- 							nf++;
- 							nv++;//this video is used
- 							break;
+ 					if (audio.end_time > video.end_time){
+ 						sprintf(destfile, "%d_%s", nf, audio.name.c_str());
+ 						merge_audio_files.push_back(destfile);
+ 						tmp_files.push_back(destfile);
+ 						split_audio(audio.name.c_str(), 0, video.end_time - audio.start_time, destfile);
+ 						need_append_silence = false;
+ 						//adjust timecode for the audio is part left
+ 						float cur_audio_start = video.end_time - audio.start_time;
+ 
+ 						audio_start = audio.start_time;
+ 
+ 						for (int j = audio_index + 1; j < filesaudio.size(); j++){
+ 							filesaudio[j].start_time -= audio_start;
+ 							filesaudio[j].end_time -= audio_start;
 						}
- 						else { // this audio finish,add silence and/or next audio
- 							sprintf(destfile, "%d_%s", nf, audio.name.c_str());
- 							split_audio(audio.name.c_str(), video.start_time, audio.end_time - video.start_time, destfile);
- 							vector<std::string > merge_audio_files;
- 							merge_audio_files.push_back(destfile);
- 							tmp_files.push_back(destfile);
- 
- 							audio_start = audio.end_time + 0.1;
- 
- 							double silence_audio_start = audio.end_time;
- 							double silence_audio_end = video.end_time;
- 
- 							bool need_silence = true;
- 							bool to_next_video = false;
- 							for (; i + 1 < filesaudio.size(); i++){//since video is not finished,try find next audio
- 								audio = filesaudio[i + 1];
- 								if (audio.start_time < video.end_time) {//next audio should split to fit the video
- 									silence_audio_end = audio.start_time;
- 
- 									sprintf(destfile, "%d_%d_silence.aac", nf, i);
- 									split_audio(silence_aac_file, 0, silence_audio_end - silence_audio_start, destfile);
- 									merge_audio_files.push_back(destfile);
- 									tmp_files.push_back(destfile);
- 
- 									if (audio.end_time > video.end_time - 0.1 && audio.end_time < video.end_time + 0.1) {//just match
- 										merge_audio_files.push_back(audio.name);
- 										need_silence = false;
- 										audio_start = audio.end_time + 0.1;
- 										i++;
- 										break;
- 									}
- 									if (audio.end_time > video.end_time){
- 										sprintf(destfile, "%d_%s", nf, audio.name.c_str());
- 										merge_audio_files.push_back(destfile);
- 										tmp_files.push_back(destfile);
- 										split_audio(audio.name.c_str(), 0, video.end_time - audio.start_time, destfile);
- 										need_silence = false;
- 										//adjust timecode for the audio is part left
- 										float cur_audio_start = video.end_time - audio.start_time;
- 
- 										audio_start = audio.start_time;
- 
- 										for (int j = i + 1; j < filesaudio.size(); j++){
- 											filesaudio[j].start_time -= audio_start;
- 											filesaudio[j].end_time -= audio_start;
- 										}
- 
- 										for (int j = nv; j < filesvideo.size(); j++) {
- 											filesvideo[j].start_time -= audio_start;
- 											filesvideo[j].end_time -= audio_start;
- 										}
- 										i++;
- 										audio = filesaudio[i];
- 										audio_start = cur_audio_start;
- 
- 										to_next_video = true;
- 
- 										break;
- 									}
- 									merge_audio_files.push_back(audio.name);//whole audio should be appended
- 									silence_audio_start = audio.end_time; //adjust the silence start
- 									audio_start = audio.end_time + 0.1;
- 								}
- 								else {
- 									break;//no need for next audio
- 								}
- 							}
- 
- 							if (need_silence) {
- 								sprintf(destfile, "%d_silence.aac", nf);
- 								split_audio(silence_aac_file, 0, silence_audio_end - silence_audio_start, destfile);
- 								merge_audio_files.push_back(destfile);
- 								tmp_files.push_back(destfile);
- 							}
- 
- 							sprintf(audio_file, "%d_merged.aac", nf);
- 							merge_audio_file(merge_audio_files, audio_file);
- 
- 
- 							sprintf(destfile, "%d.ts", nf);
- 							merge_audio_video(audio_file, video.name.c_str(), destfile);
- 							merged_files.push_back(destfile);
- 							nf++;
- 
- 							if (!to_next_video){
- 								nv++;
- 								break;
- 							}
+ 
+ 						for (int j = nv; j < filesvideo.size(); j++) {
+ 							filesvideo[j].start_time -= audio_start;
+ 							filesvideo[j].end_time -= audio_start;
 						}
+ 						audio_index++;
+ 						audio = filesaudio[audio_index];
+ 						audio_start = cur_audio_start;
+ 
+ 						to_next_video = true;
+ 
+ 						break;
 					}
+ 					merge_audio_files.push_back(audio.name);//whole audio should be appended
+ 					silence_audio_start = audio.end_time; //adjust the silence start
+ 				}
+ 				else {
+ 					break;//no need for next audio
 				}
+ 			}//end audio find for the video
+ 		}//end else
+ 
+ 		if (need_append_silence) {
+ 			sprintf(destfile, "%d_silence.aac", nf);
+ 			split_audio(silence_aac_file, 0, silence_audio_end - silence_audio_start, destfile);
+ 			merge_audio_files.push_back(destfile);
+ 			tmp_files.push_back(destfile);
+ 		}
+ 
+ 		sprintf(audio_file, "%d_merged.aac", nf);
+ 		merge_audio_file(merge_audio_files, audio_file);
+ 
+ 
+ 		sprintf(destfile, "%d.ts", nf);
+ 		merge_audio_video(audio_file, video.name.c_str(), destfile);
+ 		merged_files.push_back(destfile);
+ 		nf++;
+ 
+ 		if (!to_next_video){
+ 			nv++;//this video is processed
+ 			return 1;
+ 		}
+ 	}//end need combine
+ 	return 0;
+ }
+ 
+ int MergeProcess::process_video_behind_audio()
+ {
+ 	sprintf(audio_file, "%d_%s", nf, audio.name.c_str());
+ 	if (video.start_time < audio.end_time - 0.1){
+ 		split_audio(audio.name.c_str(), audio_start, video.start_time - audio_start, audio_file);
+ 		audio_start = video.start_time;
+ 	}
+ 	else {
+ 		split_audio(audio.name.c_str(), audio_start, audio.end_time - audio_start, audio_file);
+ 	}
+ 	tmp_files.push_back(audio_file);
+ 
+ 	sprintf(pic_file, "%s.jpg", video.name.c_str());
+ 	get_video_first_frame_jpeg(video, pic_file);
+ 	tmp_files.push_back(pic_file);
 
- 				if (audio_start < audio.end_time){
+ 	sprintf(destfile, "%d.ts", nf);
+ 	merge_audio_pic(audio_file, pic_file, destfile);
+ 	merged_files.push_back(destfile);
+ 	nf++;
+ 
+ 	if (video.start_time >= audio.end_time - 0.1){//all audio file no video, to next audio
+ 		audio_start = audio.end_time + 0.1;//no audio left
+ 		return 1;
+ 	}
+ 	return 0;
+ }
+ 
+ int MergeProcess::process_video_align_audio()
+ {
+ 	if (audio.end_time > video.end_time){ //this video finish, to next video
+ 		sprintf(destfile, "%d_%s", nf, audio.name.c_str());
+ 		split_audio(audio.name.c_str(), video.start_time, video.end_time - video.start_time, destfile);
+ 		tmp_files.push_back(destfile);
+ 
+ 		audio_start = video.end_time;
+ 		sprintf(destfile, "%d.ts", nf);
+ 		merge_audio_video(audio, nf, video, destfile);
+ 		merged_files.push_back(destfile);
+ 		nf++;
+ 	}
+ 	else if (video.end_time - audio.end_time < 0.1){//just fine, this audio file finish
+ 		sprintf(destfile, "%d_%s", nf, audio.name.c_str());
+ 		split_audio(audio.name.c_str(), video.start_time, audio.end_time - video.start_time, destfile);
+ 		tmp_files.push_back(destfile);
+ 
+ 		sprintf(destfile, "%d.ts", nf);
+ 		merge_audio_video(audio, nf, video, destfile);
+ 		merged_files.push_back(destfile);
+ 		audio_start = audio.end_time + 0.1;//no audio left
+ 		nf++;
+ 		nv++;//this video is used
+ 		return 1;
+ 	}
+ 	else { // this audio finish,add silence and/or next audio
+ 		sprintf(destfile, "%d_%s", nf, audio.name.c_str());
+ 		split_audio(audio.name.c_str(), video.start_time, audio.end_time - video.start_time, destfile);
+ 		vector<std::string > merge_audio_files;
+ 		merge_audio_files.push_back(destfile);
+ 		tmp_files.push_back(destfile);
+ 
+ 		audio_start = audio.end_time + 0.1;
+ 
+ 		double silence_audio_start = audio.end_time;
+ 		double silence_audio_end = video.end_time;
+ 
+ 		bool need_silence = true;
+ 		bool to_next_video = false;
+ 		for (; audio_index + 1 < filesaudio.size(); audio_index++){//since video is not finished,try find next audio
+ 			audio = filesaudio[audio_index + 1];
+ 			if (audio.start_time < video.end_time) {//next audio should split to fit the video
+ 				silence_audio_end = audio.start_time;
+ 
+ 				sprintf(destfile, "%d_%d_silence.aac", nf, audio_index);
+ 				split_audio(silence_aac_file, 0, silence_audio_end - silence_audio_start, destfile);
+ 				merge_audio_files.push_back(destfile);
+ 				tmp_files.push_back(destfile);
+ 
+ 				if (audio.end_time > video.end_time - 0.1 && audio.end_time < video.end_time + 0.1) {//just match
+ 					merge_audio_files.push_back(audio.name);
+ 					need_silence = false;
+ 					audio_start = audio.end_time + 0.1;
+ 					audio_index++;
+ 					break;
+ 				}
+ 				if (audio.end_time > video.end_time){
 					sprintf(destfile, "%d_%s", nf, audio.name.c_str());
- 					split_audio(audio.name.c_str(), audio_start, audio.end_time - audio_start, destfile);
+ 					merge_audio_files.push_back(destfile);
 					tmp_files.push_back(destfile);
+ 					split_audio(audio.name.c_str(), 0, video.end_time - audio.start_time, destfile);
+ 					need_silence = false;
+ 					//adjust timecode for the audio is part left
+ 					float cur_audio_start = video.end_time - audio.start_time;
 
- 					sprintf(destfile, "%d.ts", nf);
- 					if (nv < filesvideo.size()) {
- 						fileinfo video = filesvideo[nv];
- 						sprintf(pic_file, "%s.jpg", video.name.c_str());
- 						get_video_first_frame_jpeg(video, pic_file);
- 						tmp_files.push_back(pic_file);
+ 					audio_start = audio.start_time;
+ 
+ 					for (int j = audio_index + 1; j < filesaudio.size(); j++){
+ 						filesaudio[j].start_time -= audio_start;
+ 						filesaudio[j].end_time -= audio_start;
 					}
- 					else {
- 						strcpy(pic_file, blank_pic_file);
+ 
+ 					for (int j = nv; j < filesvideo.size(); j++) {
+ 						filesvideo[j].start_time -= audio_start;
+ 						filesvideo[j].end_time -= audio_start;
 					}
- 					merge_audio_pic(audio, nf, pic_file, destfile);
- 					merged_files.push_back(destfile);
- 					nf++;
+ 					audio_index++;
+ 					audio = filesaudio[audio_index];
+ 					audio_start = cur_audio_start;
+ 
+ 					to_next_video = true;
+ 
+ 					break;
 				}
+ 				merge_audio_files.push_back(audio.name);//whole audio should be appended
+ 				silence_audio_start = audio.end_time; //adjust the silence start
+ 				audio_start = audio.end_time + 0.1;
+ 			}
+ 			else {
+ 				break;//no need for next audio
 			}
 		}
+ 
+ 		if (need_silence) {
+ 			sprintf(destfile, "%d_silence.aac", nf);
+ 			split_audio(silence_aac_file, 0, silence_audio_end - silence_audio_start, destfile);
+ 			merge_audio_files.push_back(destfile);
+ 			tmp_files.push_back(destfile);
+ 		}
+ 
+ 		sprintf(audio_file, "%d_merged.aac", nf);
+ 		merge_audio_file(merge_audio_files, audio_file);
+ 
+ 
+ 		sprintf(destfile, "%d.ts", nf);
+ 		merge_audio_video(audio_file, video.name.c_str(), destfile);
+ 		merged_files.push_back(destfile);
+ 		nf++;
+ 
+ 		if (!to_next_video){
+ 			nv++;
+ 			return 1;
+ 		}
+ 	}
+ 	return 0;
+ }
+ 
+ int MergeProcess::process_video_loop()
+ {
+ 	for (; nv < filesvideo.size(); nv++) {
+ 		video = filesvideo[nv];
+ 
+ 		if (video.start_time < audio_start - 0.1)
+ 		{//video is much more ahead of audio,try padding silence first
+ 			if (process_video_ahead_of_audio())
+ 				break;
+ 		}//end video is ahead of audio
+ 		if (video.start_time - audio_start > 0.1) {//video is behind audio too much
+ 			if (process_video_behind_audio())
+ 				break;
+ 		}
+ 		else if (audio_start - video.start_time < 0.1){
+ 			if (process_video_align_audio())
+ 				break;
+ 		}
+ 	}
+ 	return 0;
+ }
+ 
+ int MergeProcess::process_va()
+ {
+ 	for (audio_index = 0; audio_index < filesaudio.size(); audio_index++){  //
+ 
+ 		adjust_va_timestamp();
+ 
+ 		audio = filesaudio[audio_index];
+ 		audio_start = 0;//for a new processing audio,the start is 0
+ 
+ 		process_video_loop();
+ 
+ 		merge_left_audio();
+ 	}
+ 	return 0;
+ }
+ 
+ 
+ int MergeProcess::process_files(const char * output_dest_file)
+ {
+ 	//don't split video, for a video, using merged audios to mix with it
+ 	//for audio, mix with video or jpg
+ 
+ 	if (filesvideo.size()) {//has video files
+ 		if (filesaudio.size()){
+ 			process_va(); //process the case both audio and video files exist
+ 		}
 		else{//only video
 			if (filesvideo.size() == 1){
 				fileinfo video = filesvideo[0];
@@ -772,7 +845,6 @@ int process_files(const char * output_dest_file)
 
 	adjust_dest_timecode("m.ts", output_dest_file);
 
- 
 	if (!keep_tmp_files) {
 		removefiles(tmp_files);
 		removefiles(merged_files);
@@ -866,7 +938,8 @@ int main(int argc, char * argv[])
 
 	load_codec_param();
 
- 	process_files("dest.ts");
+ 	MergeProcess mp(media_files[type_audio], media_files[type_video]);
+ 	mp.process_files("dest.ts");
 
 	return 0;
 }